数据集:
BigScienceBiasEval/crows_pairs_multilingual
预印本库:
arxiv:2010.00133许可:
cc-by-sa-4.0原始内容来自 https://gitlab.inria.fr/french-crows-pairs/acl-2022-paper-data-and-code/-/tree/main/ 。
如何使用此文档:根据说明填写每个部分。尽量提供详细信息,但无需推断。目标是帮助人们在处理数据时理解数据。这可能是十年后查看数据的人,也可能是您自己在两年后回顾数据。
有关详细信息,最好的来源是原始的数据说明文件,这里是 https://www.aclweb.org/anthology/Q18-1041/ 。
输入字段以块引用形式给出;完成后删除说明,并提供带有您的数据的文件,例如“DATASTATEMENT.md”。某些块中的列表被设计为填写,但最好也留下书面描述以及列表。如果不了解信息,可以跳过一些字段。
只有引用的内容应删除;最后的关于声明应保持完整。
数据集名称:Crows-Pairs-fr
引用(如果有):Névéol A, Dupont Y, Bezançon J, Fort K. French CrowS-Pairs: Extending a challenge dataset for measuring social bias in masked language models to a language other than English. Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics - ACL 2022
数据集开发人员:Aurélie Névéol、Yoann Dupont、Julien Bezançon、Karën Fort
数据说明作者:Aurélie Névéol、Yoann Dupont
其他贡献者:N/A
许可证:创作共用署名-相同方式共享4.0国际许可证(CC BY-SA 4.0)。
说明:包含了哪些文本和选择文本的目标,无论是在原始收集中还是在任何进一步的子选择中。在无法通过手动详细检查的大型数据集中,策划理念的明确说明可以帮助数据集使用者推断使用这些数据集训练的系统可能从中泛化到其他种类的文本。
通过将原始的1,508个英语语句对翻译成法语来构建法语语料库。
然后,我们使用 Nangia et al. (2020) 提供的众包方法进行了调整,以收集与法国社会文化环境相关的陈规陈述。数据采集通过支持面向社会改进的语言资源开发的公民科学平台LanguageARC (Fiumara et al., 2020) 实施。我们创建了一个语言ARC项目( https://languagearc.com/projects/19 ),用于收集这些附加句子。参与者被要求提交表达法语陈规的陈述以及十种偏见类型的选择:CrowS-Pairs提供的九种偏见类型和附加类别“其他”。通过这种方式收集到了210个附加句子。
说明:不同语言在结构上存在差异,可能会与自然语言处理算法进行交互。在一个语言中,地区或社会方言也可能存在很大的变异性(Chambers and Trudgill, 1998)。应该使用BCP-47语言标签来描述语言和语言变体(例如en-US或yue-Hant-HK),并用文字描述语言变体,解释BCP-47标签,并提供进一步的信息(例如“加利福尼亚州帕洛奥托口语英语”或“香港以传统字符书写的广东话,使用者可以同时使用普通话”)。
说明:社会语言学研究发现,变异(在发音、韵律、词汇选择和语法方面)与说话者的社会人口特征相关(Labov, 1966),因为说话者使用语言变异来构建和展示身份(Eckert和Rickford, 2001)。母语(L1)的影响可以影响非母语(L2)说话者产生的语言(Ellis, 1994,第8章)。另外一个重要的变异类型是语音失调(例如言语障碍)。详细规定包括:
N/A
说明:注释者和注释指南开发者的人口统计学特征是什么?他们自身的“社会地址”影响他们对语言的经验,从而影响他们对注释内容的感知。详细规定包括:
参与收集项目的参与者是通过在法国研究界的社交媒体和邮件列表上发布的志愿者招募来招募的。
N/A
说明:文体和主题都会影响文本的词汇和结构特征(Biber, 1995),应进行详细说明。
收集到的数据是一系列法语冒犯性陈规陈述,可能会令人不快。
这些陈规陈述与相反的陈规陈述成对出现。
N/A
说明:可能还有其他相关信息。请使用此空间开发适用于您的数据集的任何其他类别。
样例是通过LanguageArc网站和创建专用项目: https://languagearc.com/projects/19 收集的。
数据说明是对数据集进行描述的一种方式,可以提供上下文信息,帮助开发人员和用户更好地理解实验结果可能的泛化程度,软件的适当部署方式以及构建在该软件上的系统可能反映的偏见。
数据说明来自华盛顿大学。联系方式:datastatements@uw.edu。此文档模板的许可证为 CC0 。
此版本的Markdown数据说明为2020年6月4日。数据说明模板基于Emily M. Bender、Batya Friedman和Angelina McMillan-Major在 2020 LREC workshop on Data Statements 上发放的工作表进行优化。由Leon Dercyznski将其调整为社区Markdown模板。