数据集:
stas/wmt16-en-ro-pre-processed
原始指令是 here 。
通过运行以下步骤,创建了这个预处理的数据集:
git clone https://github.com/rsennrich/wmt16-scripts cd wmt16-scripts cd sample ./download_files.sh ./preprocess.sh
这最初是由 transformers finetune_trainer.py 使用的。
数据本身存放在 https://cdn-datasets.huggingface.co/translation/wmt_en_ro.tar.gz 。
如果您想将其转换为jsonlines格式,我已经包含了一个小脚本convert-to-jsonlines.py,可以帮您完成转换。但是如果您使用datasets API,将会实时处理。