数据集:

stas/wmt14-en-de-pre-processed

英文

WMT14英语-德语翻译数据与进一步预处理

原始预处理脚本是 here

通过运行以下命令创建了这个经过预处理的数据集:

git clone https://github.com/pytorch/fairseq
cd fairseq
cd examples/translation/
./prepare-wmt14en2de.sh

最初这个数据集由 transformers finetune_trainer.py 使用。

数据本身位于 https://cdn-datasets.huggingface.co/translation/wmt_en_de.tgz