模型:
lighteternal/SSE-TUC-mt-el-en-cased
使用Fairseq框架训练,transformer_iwslt_de_en架构。BPE分词(20k代码)。混合大小写模型。
from transformers import FSMTTokenizer, FSMTForConditionalGeneration
mname = "lighteternal/SSE-TUC-mt-el-en-cased"
tokenizer = FSMTTokenizer.from_pretrained(mname)
model = FSMTForConditionalGeneration.from_pretrained(mname)
text = "Ο όρος τεχνητή νοημοσύνη αναφέρεται στον κλάδο της πληροφορικής ο οποίος ασχολείται με τη σχεδίαση και την υλοποίηση υπολογιστικών συστημάτων που μιμούνται στοιχεία της ανθρώπινης συμπεριφοράς ."
encoded = tokenizer.encode(text, return_tensors='pt')
outputs = model.generate(encoded, num_beams=5, num_return_sequences=5, early_stopping=True)
for i, output in enumerate(outputs):
i += 1
print(f"{i}: {output.tolist()}")
decoded = tokenizer.decode(output, skip_special_tokens=True)
print(f"{i}: {decoded}")
来自Opus和CC-Matrix的整合语料库(总计约6.6GB)
Tatoeba测试集(EL-EN)结果:
| BLEU | chrF |
|---|---|
| 79.3 | 0.795 |
XNLI平行语料(EL-EN)结果:
| BLEU | chrF |
|---|---|
| 66.2 | 0.623 |
Dimitris Papadopoulos等人。 "PENELOPIE:通过机器翻译实现希腊语信息开放提取。"(2021)。在EACL 2021 SRW上被接受
该研究工作得到希腊研究和创新基金会(HFRI)在HFRI博士奖学金(奖学金编号:50,第2次申请)下的支持