该模型可用于翻译和文本生成。
内容警告:读者应注意本部分包含令人不安、冒犯的内容,并可能传播历史和当前的刻板印象。
已有大量研究探讨了语言模型的偏见和公平性问题(参见,例如, Sheng et al. (2021) 和 Bender et al. (2021) )。
有关此模型的数据集的详细信息,请参阅OPUS自述文件: zho-eng
预处理:标准化+SentencePiece(spm32k,spm32k)
参考长度:82826.0
数据集: opus
下载原始权重: opus-2020-07-17.zip
测试集翻译: opus-2020-07-17.test.txt
测试集得分: opus-2020-07-17.eval.txt
短文惩罚:0.948
| testset | BLEU | chr-F |
|---|---|---|
| Tatoeba-test.zho.eng | 36.1 | 0.548 |
@InProceedings{TiedemannThottingal:EAMT2020,
author = {J{\"o}rg Tiedemann and Santhosh Thottingal},
title = {{OPUS-MT} — {B}uilding open translation services for the {W}orld},
booktitle = {Proceedings of the 22nd Annual Conferenec of the European Association for Machine Translation (EAMT)},
year = {2020},
address = {Lisbon, Portugal}
}
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
tokenizer = AutoTokenizer.from_pretrained("Helsinki-NLP/opus-mt-zh-en")
model = AutoModelForSeq2SeqLM.from_pretrained("Helsinki-NLP/opus-mt-zh-en")