数据集:
stas/wmt14-en-de-pre-processed
原始预处理脚本是 here 。
通过运行以下命令创建了这个经过预处理的数据集:
git clone https://github.com/pytorch/fairseq cd fairseq cd examples/translation/ ./prepare-wmt14en2de.sh
最初这个数据集由 transformers finetune_trainer.py 使用。
数据本身位于 https://cdn-datasets.huggingface.co/translation/wmt_en_de.tgz 。