模型:
staka/fugumt-en-ja
任务:
许可:
这是一个使用Marian-NMT的翻译模型。有关更多详细信息,请参阅 my repository 。
此模型使用transformers和sentencepiece。
!pip install transformers sentencepiece
您可以直接使用管道使用此模型:
from transformers import pipeline
fugu_translator = pipeline('translation', model='staka/fugumt-en-ja')
fugu_translator('This is a cat.')
如果您想要翻译多个句子,建议使用 pySBD 。
!pip install transformers sentencepiece pysbd
import pysbd
seg_en = pysbd.Segmenter(language="en", clean=False)
from transformers import pipeline
fugu_translator = pipeline('translation', model='staka/fugumt-en-ja')
txt = 'This is a cat. It is very cute.'
print(fugu_translator(seg_en.segment(txt)))
使用 tatoeba (随机选择的500个句子)进行评估的结果如下:
| source | target | BLEU(*1) |
|---|---|---|
| en | ja | 32.7 |
(*1) sacrebleu --tokenize ja-mecab