数据集:
allenai/wmt22_african
此数据集基于Meta AI发布的 metadata 个挖掘比特文本创建而成。它包含了 2022 WMT Shared Task on Large Scale Machine Translation Evaluation for African Languages 中的非洲语言的248个对应语言的比特文本。
如何使用数据有两种访问数据的方式:
from datasets import load_dataset
dataset = load_dataset("allenai/wmt22_african")
git lfs install git clone https://huggingface.co/datasets/allenai/wmt22_african
此数据集是 2022 WMT Shared Task on Large Scale Machine Translation Evaluation for African Languages 中约束轨道下允许的资源之一。
| Language | Code |
|---|---|
| Afrikaans | afr |
| Amharic | amh |
| Chichewa | nya |
| Nigerian Fulfulde | fuv |
| Hausa | hau |
| Igbo | ibo |
| Kamba | kam |
| Kinyarwanda | kin |
| Lingala | lin |
| Luganda | lug |
| Luo | luo |
| Northern Sotho | nso |
| Oroma | orm |
| Shona | sna |
| Somali | som |
| Swahili | swh |
| Swati | ssw |
| Tswana | tsn |
| Umbundu | umb |
| Wolof | wol |
| Xhosa | xho |
| Xitsonga | tso |
| Yoruba | yor |
| Zulu | zul |
殖民殖民语言: 英语 - eng, 法语 - fra
数据集包含每个方向的压缩制表符分隔的文本文件。每个文本文件包含平行句子。
数据集包含248个语言对。
每对的句子计数可以在 here 中找到。
每个语言对的实例包含以下字段: "translation" (包含句子对), "laser_score", "source_sentence_lid", "target_sentence_lid",其中'lid'是语言分类的概率。
示例:
{
'translation':
{
'afr': 'In Mei 2007, in ooreenstemming met die spesifikasies van die Java Gemeenskapproses, het Sun Java tegnologie geherlisensieer onder die GNU General Public License.',
'eng': 'As of May 2007, in compliance with the specifications of the Java Community Process, Sun relicensed most of its Java technologies under the GNU General Public License.'
},
'laser_score': 1.0717015266418457,
'source_sentence_lid': 0.9996600151062012,
'target_sentence_lid': 0.9972000122070312
}
数据未分成训练、开发和测试集。
通过 Language-Agnostic Sentence Representation (LASER) 编码器识别了Common Crawl和ParaCrawl中的单语数据的平行句子。
单语数据来自Common Crawl和ParaCrawl。
谁是源语言制作者?Common Crawl和ParaCrawl中的网络文本贡献者。
数据未经人工注释。用于创建数据集的元数据可以在这里找到: https://github.com/facebookresearch/LASER/tree/main/data/wmt22_african
谁是注释者?数据未经人工注释。通过 LASER 编码器自动识别Common Crawl和Para Crawl单语数据的平行文本。
[需要更多信息]
此数据集为训练对于NLP而言具有很少资源的许多语言的机器学习系统提供了数据。
数据中的偏见尚未研究。
[需要更多信息]
[需要更多信息]
数据集根据 ODC-BY 条款发布。使用此数据集也受到互联网档案馆 Terms of Use 条款的约束,关于数据集中包含的内容。
NLLB团队等,No Language Left Behind: Scaling Human-Centered Machine Translation, Arxiv, 2022.
感谢AI2的AllenNLP团队托管和发布此数据,包括 Akshita Bhagia (为创建HuggingFace数据集的工程努力)和 Jesse Dodge (为组织连接)。