数据集:
m_lama
计算机处理:
translation大小:
100K<n<1M源数据集:
extended|lama预印本库:
arxiv:2102.00894其他:
probing许可:
该数据集提供了mLAMA的数据,mLAMA是LAMA的多语言版本。关于LAMA,请参见 https://github.com/facebookresearch/LAMA 。对于mLAMA,我们考虑了LAMA的TREx和GoogleRE部分,并使用Google翻译以及Wikidata和Google知识图谱API进行了机器翻译。机器翻译的模板已经经过验证,即它们是否包含了一个'[X]'和一个'[Y]'。
这些数据可用于创建类似于"巴黎是[MASK]的首都"这样的填空查询,涵盖53种语言。更多详情请参见网站 http://cistern.cis.lmu.de/mlama/ 或GitHub上的存储库 https://github.com/norakassner/mlama 。
语言模型知识探查。
该数据集包含53种语言:af,ar,az,be,bg,bn,ca,ceb,cs,cy,da,de,el,en,es,et,eu,fa,fi,fr,ga,gl,he,hi,hr,hu,hy,id,it,ja,ka,ko,la,lt,lv,ms,nl,pl,pt,ro,ru,sk,sl,sq,sr,sv,ta,th,tr,uk,ur,vi,zh
对于每种语言和每个关系/谓词,都有一组三元组。
对于每种语言和关系,都有由对象、谓词和主语组成的三元组。对于每个谓词,都有一个可用的模板。这里给出了数据["test"][0]的示例:
{
'language': 'af',
'lineid': 0, 
'obj_label': 'Frankryk', 
'obj_uri': 'Q142', 
'predicate_id': 'P1001', 
'sub_label': 'President van Frankryk', 
'sub_uri': 'Q191954', 
'template': "[X] is 'n wettige term in [Y].", 
'uuid': '3fe3d4da-9df9-45ba-8109-784ce5fba38a'
}
 每个实例具有以下字段:
只有一个被标记为“测试数据”的分区。
将数据集翻译成53种语言,以多语言方式研究预训练语言模型的知识。
数据来源有:
LAMA( https://github.com/facebookresearch/LAMA ),采用Attribution-NonCommercial 4.0 International (CC BY-NC 4.0)许可证T-REx( https://hadyelsahar.github.io/t-rex/ ),采用Creative Commons Attribution-ShareAlike 4.0 International LicenseGoogle-RE( https://github.com/google-research-datasets/relation-extraction-corpus )Wikidata( https://www.wikidata.org/ ),采用Creative Commons CC0 License和Creative Commons Attribution-ShareAlike License
源语言制作者是谁?请参阅上述链接。
众包(wikidata)和机器翻译。
注释者是谁?未知。
(极有可能)是在Google知识图谱或Wikidata中具有条目的知名人士的姓名。
该数据是通过机器翻译和自动处理生成的。
[需要更多信息]
[需要更多信息]
并非所有三元组都在所有语言中可用。
mLAMA论文的作者以及原始数据集的作者。
创作共用署名-非商业性使用-相同方式共享 4.0 国际许可证 (CC BY-NC-SA 4.0)。 https://creativecommons.org/licenses/by-nc-sa/4.0/
@article{kassner2021multilingual,
  author    = {Nora Kassner and
               Philipp Dufter and
               Hinrich Sch{\"{u}}tze},
  title     = {Multilingual {LAMA:} Investigating Knowledge in Multilingual Pretrained
               Language Models},
  journal   = {CoRR},
  volume    = {abs/2102.00894},
  year      = {2021},
  url       = {https://arxiv.org/abs/2102.00894},
  archivePrefix = {arXiv},
  eprint    = {2102.00894},
  timestamp = {Tue, 09 Feb 2021 13:35:56 +0100},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2102-00894.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org},
  note      = {to appear in EACL2021}
}
 感谢 @pdufter 添加了该数据集。