opus-mt-tc-big-zle-de

神经机器翻译模型，用于将东斯拉夫语言（zle）翻译成德语（de）。

该模型是 OPUS-MT project 的一部分，旨在使神经机器翻译模型在世界上的许多语言中得到广泛使用和易于访问。所有模型最初是使用 Marian NMT 提供的出色框架进行训练的，这是一个用纯C++编写的高效NMT实现。使用transformers库和huggingface将这些模型转换为pyTorch。训练数据取自 OPUS ，训练流程使用 OPUS-MT-train 的过程。

发表物： OPUS-MT – Building open translation services for the World 和 The Tatoeba Translation Challenge – Realistic Data Sets for Low Resource and Multilingual MT （如果使用此模型，请引用。）

@inproceedings{tiedemann-thottingal-2020-opus,
    title = "{OPUS}-{MT} {--} Building open translation services for the World",
    author = {Tiedemann, J{\"o}rg  and Thottingal, Santhosh},
    booktitle = "Proceedings of the 22nd Annual Conference of the European Association for Machine Translation",
    month = nov,
    year = "2020",
    address = "Lisboa, Portugal",
    publisher = "European Association for Machine Translation",
    url = "https://aclanthology.org/2020.eamt-1.61",
    pages = "479--480",
}

@inproceedings{tiedemann-2020-tatoeba,
    title = "The Tatoeba Translation Challenge {--} Realistic Data Sets for Low Resource and Multilingual {MT}",
    author = {Tiedemann, J{\"o}rg},
    booktitle = "Proceedings of the Fifth Conference on Machine Translation",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.wmt-1.139",
    pages = "1174--1182",
}

模型信息

发布日期：2022-03-19
源语言：bel rus ukr
目标语言：deu
模型：transformer-big
数据：opusTCv20210807（ source ）
标记化：SentencePiece（spm32k，spm32k）
原始模型： opusTCv20210807_transformer-big_2022-03-19.zip
更多信息发布的模型： OPUS-MT zle-deu README

用法

简短的示例代码：

from transformers import MarianMTModel, MarianTokenizer

src_text = [
    "Это был по-настоящему прекрасный день.",
    "Дождь кончился?"
]

model_name = "pytorch-models/opus-mt-tc-big-zle-de"
tokenizer = MarianTokenizer.from_pretrained(model_name)
model = MarianMTModel.from_pretrained(model_name)
translated = model.generate(**tokenizer(src_text, return_tensors="pt", padding=True))

for t in translated:
    print( tokenizer.decode(t, skip_special_tokens=True) )

# expected output:
#     Es war ein wirklich schöner Tag.
#     Ist der Regen vorbei?

您也可以使用transformers pipelines来使用OPUS-MT模型，例如：

from transformers import pipeline
pipe = pipeline("translation", model="Helsinki-NLP/opus-mt-tc-big-zle-de")
print(pipe("Это был по-настоящему прекрасный день."))

# expected output: Es war ein wirklich schöner Tag.

基准测试

测试集翻译结果： opusTCv20210807_transformer-big_2022-03-19.test.txt
测试集分数： opusTCv20210807_transformer-big_2022-03-19.eval.txt
基准测试结果：benchmark_results.txt
基准测试输出：benchmark_translations.zip

langpair	testset	chr-F	BLEU	#sent	#words
bel-deu	tatoeba-test-v2021-08-07	0.63720	44.8	551	4182
rus-deu	tatoeba-test-v2021-08-07	0.69768	51.8	12800	98842
ukr-deu	tatoeba-test-v2021-08-07	0.70860	54.7	10319	64646
bel-deu	flores101-devtest	0.47052	12.9	1012	25094
rus-deu	flores101-devtest	0.56159	26.1	1012	25094
ukr-deu	flores101-devtest	0.57251	28.1	1012	25094
rus-deu	newstest2012	0.49257	19.8	3003	72886
rus-deu	newstest2013	0.54015	25.2	3000	63737

致谢

该工作得到 European Language Grid 的支持，作为 pilot project 2866 ，以及 FoTran project 的资助，该项目由欧洲研究理事会（ERC）在欧洲联盟的Horizon 2020研究和创新计划（授权号771113）下资助，以及通过欧洲联盟Horizon 2020研究和创新计划（授权号780069）提供的 MeMAD project 的资助。我们还要感谢提供给 CSC -- IT Center for Science 的慷慨计算资源和IT基础设施，芬兰。

模型转换信息

transformers版本：4.16.2
OPUS-MT git哈希：1bdabf7
转换时间：2022年3月23日22:16:45 EET
转换机器：LM0-400-22516.local

作者:

Language Technology Research Group at the University of Helsinki

数据集大小:

584.15 MB