数据集:

stas/wmt16-en-ro-pre-processed

英文

WMT16英语-罗马尼亚语翻译数据,经过进一步预处理

原始指令是 here

通过运行以下步骤,创建了这个预处理的数据集:

git clone https://github.com/rsennrich/wmt16-scripts
cd wmt16-scripts
cd sample
./download_files.sh
./preprocess.sh

这最初是由 transformers finetune_trainer.py 使用的。

数据本身存放在 https://cdn-datasets.huggingface.co/translation/wmt_en_ro.tar.gz

如果您想将其转换为jsonlines格式,我已经包含了一个小脚本convert-to-jsonlines.py,可以帮您完成转换。但是如果您使用datasets API,将会实时处理。