英文

GLUE数据集卡片

数据集概述

GLUE(General Language Understanding Evaluation benchmark)是用于训练、评估和分析自然语言理解系统的资源集合( https://gluebenchmark.com/ )。

支持的任务和排行榜

GLUE基准测试的排行榜可以在此找到( at this address )。它包括以下任务:

ax

这是一个经过手动筛选的评估数据集,用于对广泛的语言现象进行系统性能细致分析。该数据集通过自然语言推理(NLI)问题评估句子理解能力。使用在MulitNLI上训练的模型生成对该数据集的预测。

cola

该数据集是从涵盖语言学理论的书籍和期刊文章中提取的句子,每个句子注释了它是否是合乎语法的英文句子。

mnli

多领域自然语言推理语料库是一个经众包收集的包含文本蕴含注释的句子对集合。给定一个前提句子和一个假设句子,任务是预测前提是否蕴含假设(entailment),是否与之矛盾(contradiction),或者二者都不是(neutral)。前提句子来自于包括转录的演讲、小说和政府报告在内的十个不同来源。基准数据集的作者使用标准测试集,并从RTE作者那里获得私有标签,评估匹配(领域内)和不匹配(跨领域)两个部分。他们还使用并推荐SNLI语料库作为550k个辅助训练数据的示例。

mnli_matched

MNLI中匹配的验证集和测试集。有关更多信息,请参见“mnli” BuilderConfig。

mnli_mismatched

MNLI中不匹配的验证集和测试集。有关更多信息,请参见“mnli” BuilderConfig。

mrpc

Microsoft Research Paraphrase Corpus(Dolan & Brockett, 2005)是一个从在线新闻源自动提取的句子对语料库,其中通过人工注释标记了该句子对是否在语义上等效。

qnli

Stanford Question Answering Dataset是一个包含问题-段落对的问答数据集,其中段落句子(来自维基百科)中的一句包含相应问题的答案(由注释者编写)。基准测试的作者通过在相应上下文中的每个问题和每个句子之间形成一对,并过滤掉问题和上下文句子之间低词汇重叠的对,将任务转变为句子对分类。任务是确定上下文句子是否包含问题的答案。这个修改后的版本删除了模型必须选择确切答案的要求,但也删除了答案始终出现在输入中和词汇重叠是可靠线索的简化假设。

qqp

Quora Question Pairs2数据集是一个由社区问答网站Quora的问题对集合。任务是确定一对问题是否在语义上等效。

rte

Recognizing Textual Entailment(RTE)数据集来自一系列年度的文本蕴涵挑战。基准测试的作者将RTE1(Dagan等,2006)、RTE2(Bar Haim等,2006)、RTE3(Giampiccolo等,2007)和RTE5(Bentivogli等,2009)的数据结合起来。例子是基于新闻和维基百科文本构建的。基准测试的作者将所有数据集都转换为两类分割,其中对于三类数据集,他们将中性和矛盾合并为非蕴含,以保持一致性。

sst2

斯坦福情感树库包含了电影评论中的句子以及对其情感的人工注释。任务是预测给定句子的情感。它使用了两类(积极/消极)的类别划分,仅使用句子级别的标签。

stsb

The Semantic Textual Similarity Benchmark(Cer等,2017)是一系列从新闻标题、视频和图像标题以及自然语言推理数据中提取的句子对。每对句子都使用1到5的相似度分数进行人工注释。

wnli

Winograd模式挑战(Levesque等,2011)是一项阅读理解任务,系统必须读取一个带有代词的句子,并从一个选项列表中选择该代词的指代物。这些例子是手动构造的,以破坏简单的统计方法:每个例子都依赖于句子中由一个单词或短语提供的上下文信息。为了将问题转化为句子对分类问题,基准测试的作者通过用每个可能的指代物替换不明确的代词来构造句子对。任务是预测替换代词后的句子是否被原始句子蕴涵。他们使用了一个小的评估集,其中包含了从小说书籍中衍生的新例子,这些例子是由原始语料库的作者私下共享的。虽然包含的训练集在两个类之间平衡,但测试集在这两个类之间不平衡(65%的非蕴含)。此外,由于数据问题,开发集是对抗性的:假设有时在训练和开发示例之间共享,因此如果模型记忆训练示例,它们会在相应的开发集示例上预测错误的标签。与QNLI一样,每个例子都是单独评估的,因此模型在此任务上的得分与其在未转换的原始任务上的得分之间没有系统对应关系。基准测试的作者称转换后的数据集为WNLI(Winograd NLI)。

语言

GLUE中的语言数据是英文(BCP-47 en)

数据集结构

数据实例

ax
  • 下载的数据集文件大小:0.22 MB
  • 生成的数据集大小:0.24 MB
  • 总计使用的磁盘空间:0.46 MB

'test'的一个示例如下所示。

{
  "premise": "The cat sat on the mat.",
  "hypothesis": "The cat did not sit on the mat.",
  "label": -1,
  "idx: 0
}
cola
  • 下载的数据集文件大小:0.38 MB
  • 生成的数据集大小:0.61 MB
  • 总计使用的磁盘空间:0.99 MB

'train'的一个示例如下所示。

{
  "sentence": "Our friends won't buy this analysis, let alone the next one we propose.",
  "label": 1,
  "id": 0
}
mnli
  • 下载的数据集文件大小:312.78 MB
  • 生成的数据集大小:82.47 MB
  • 总计使用的磁盘空间:395.26 MB

'train'的一个示例如下所示。

{
  "premise": "Conceptually cream skimming has two basic dimensions - product and geography.",
  "hypothesis": "Product and geography are what make cream skimming work.",
  "label": 1,
  "idx": 0
}
mnli_matched
  • 下载的数据集文件大小:312.78 MB
  • 生成的数据集大小:3.69 MB
  • 总计使用的磁盘空间:316.48 MB

'test'的一个示例如下所示。

{
  "premise": "Hierbas, ans seco, ans dulce, and frigola are just a few names worth keeping a look-out for.",
  "hypothesis": "Hierbas is a name worth looking out for.",
  "label": -1,
  "idx": 0
}
mnli_mismatched
  • 下载的数据集文件大小:312.78 MB
  • 生成的数据集大小:3.91 MB
  • 总计使用的磁盘空间:316.69 MB

'test'的一个示例如下所示。

{
  "premise": "What have you decided, what are you going to do?",
  "hypothesis": "So what's your decision?,
  "label": -1,
  "idx": 0
}
mrpc More Information Needed qnli More Information Needed qqp More Information Needed rte More Information Needed sst2 More Information Needed stsb More Information Needed wnli More Information Needed

数据字段

所有拆分中的数据字段相同。

ax
  • premise: 一个字符串特征。
  • hypothesis: 一个字符串特征。
  • label: 一个分类标签,可能的值包括蕴涵(0)、中性(1)、矛盾(2)。
  • idx: 一个int32特征。
cola
  • sentence: 一个字符串特征。
  • label: 一个分类标签,可能的值包括不可接受(0)、可接受(1)。
  • idx: 一个int32特征。
mnli
  • premise: 一个字符串特征。
  • hypothesis: 一个字符串特征。
  • label: 一个分类标签,可能的值包括蕴涵(0)、中性(1)、矛盾(2)。
  • idx: 一个int32特征。
mnli_matched
  • premise: 一个字符串特征。
  • hypothesis: 一个字符串特征。
  • label: 一个分类标签,可能的值包括蕴涵(0)、中性(1)、矛盾(2)。
  • idx: 一个int32特征。
mnli_mismatched
  • premise: 一个字符串特征。
  • hypothesis: 一个字符串特征。
  • label: 一个分类标签,可能的值包括蕴涵(0)、中性(1)、矛盾(2)。
  • idx: 一个int32特征。
mrpc More Information Needed qnli More Information Needed qqp More Information Needed rte More Information Needed sst2 More Information Needed stsb More Information Needed wnli More Information Needed

数据拆分

ax
test
ax 1104
cola
train validation test
cola 8551 1043 1063
mnli
train validation_matched validation_mismatched test_matched test_mismatched
mnli 392702 9815 9832 9796 9847
mnli_matched
validation test
mnli_matched 9815 9796
mnli_mismatched
validation test
mnli_mismatched 9832 9847
mrpc More Information Needed qnli More Information Needed qqp More Information Needed rte More Information Needed sst2 More Information Needed stsb More Information Needed wnli More Information Needed

数据集的创作

策划理由

More Information Needed

数据源

初始数据采集和规范化

More Information Needed

语言源生产者是谁?

More Information Needed

注释

注释过程

More Information Needed

标注者是谁?

More Information Needed

个人和敏感信息

More Information Needed

使用数据的注意事项

数据集的社会影响

More Information Needed

偏见讨论

More Information Needed

其他已知限制

More Information Needed

其他信息

数据集策展人

More Information Needed

许可信息

More Information Needed

引用信息

@article{warstadt2018neural,
  title={Neural Network Acceptability Judgments},
  author={Warstadt, Alex and Singh, Amanpreet and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1805.12471},
  year={2018}
}
@inproceedings{wang2019glue,
  title={{GLUE}: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding},
  author={Wang, Alex and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R.},
  note={In the Proceedings of ICLR.},
  year={2019}
}

Note that each GLUE dataset has its own citation. Please see the source to see
the correct citation for each contained dataset.

贡献

感谢 @patpizio @jeswan @thomwolf @patrickvonplaten @mariamabarham 添加此数据集。