数据集:

evaluate/glue-ci

英文

GLUE数据集卡片

数据集概述

GLUE(General Language Understanding Evaluation benchmark,总体语言理解评估基准)是一组用于训练、评估和分析自然语言理解系统的资源( https://gluebenchmark.com/ )。

支持的任务和排行榜

GLUE基准的排行榜可以在这里找到( at this address )。它包括以下任务:

ax

这是一个手动筛选的用于细粒度分析系统在广泛的语言现象上的性能评估数据集。该数据集通过自然语言推理(NLI)问题进行句子理解评估。请使用在MulitNLI上训练的模型为该数据集生成预测。

cola

语言可接受性语料库(Corpus of Linguistic Acceptability)由来自语言学理论书籍和期刊文章的英语可接受性判断组成。每个例子都是一个用词序列注释的句子,标注该句子是否为合乎语法的英语句子。

mnli

它是一个众包收集的包含文本蕴涵注释的句子对的多类型自然语言推理语料库。给定一个前提句子和一个假设句子,任务是预测前提是否蕴涵假设(entailment),是否与假设矛盾(contradiction)或者都不是(neutral)。前提句子来自十个不同的来源,包括转录的演讲、小说和政府报告。基准的作者使用了标准测试集,并从RTE作者那里获得了私有标签,并对匹配(同领域)和不匹配(跨领域)部分进行评估。他们还使用并推荐SNLI语料库作为550k的辅助训练数据示例。

mnli_matched

来自MNLI的匹配验证和测试集分割。有关详细信息,请参见“mnli”BuilderConfig。

mnli_mismatched

来自MNLI的不匹配验证和测试集分割。有关详细信息,请参见“mnli”BuilderConfig。

mrpc

Microsoft Research Paraphrase Corpus(Dolan& Brockett, 2005)是从在线新闻源自动提取的句子对语料库,其中包含对这些句子对进行语义等效性的人工注释。

qnli

斯坦福问答数据集是一个问答数据集,由问题-段落对组成,其中段落的一句话(来自维基百科)包含对应问题的答案(由注释者编写)。该基准的作者通过在相应上下文中的每个问题和每个句子之间形成一对,并过滤掉问题和上下文句子之间词汇重叠较低的对来将任务转化为句对分类。任务是确定上下文句子是否包含问题的答案。该修改版本的原始任务取消了模型选择确切答案的要求,但同时也取消了这样的简化假设:答案始终出现在输入中,词汇重叠是可靠的线索。

qqp

斯坦福问答数据集是一个问答数据集,由问题-段落对组成,其中段落的一句话(来自维基百科)包含对应问题的答案(由注释者编写)。该基准的作者通过在相应上下文中的每个问题和每个句子之间形成一对,并过滤掉问题和上下文句子之间词汇重叠较低的对来将任务转化为句对分类。任务是确定上下文句子是否包含问题的答案。该修改版本的原始任务取消了模型选择确切答案的要求,但同时也取消了这样的简化假设:答案始终出现在输入中,词汇重叠是可靠的线索。

rte

识别文本蕴含(RTE)数据集来自一系列年度的文本蕴涵挑战。基准的作者将RTE1(Dagan等,2006)、RTE2(Bar Haim等,2006)、RTE3(Giampiccolo等,2007)和RTE5(Bentivogli等,2009)的数据合并了起来。例子是基于新闻和维基百科文本构建的。基准的作者将所有数据集都转换为两类分割,其中针对三类数据集,将中立和矛盾折叠为不蕴涵,以保持一致性。

sst2

斯坦福情感树库由电影评论句子和其情感的人工注释组成。任务是预测给定句子的情感。它使用了两种分类(积极/消极)的类别分割,只有句子级别的标签。

stsb

语义文本相似性基准(Cer等,2017)是从新闻标题、视频和图像标题以及自然语言推理数据中提取的句子对的集合。每一对都经过人工注释,标有1到5的相似度分数。

wnli

薇诺格拉德模式挑战(Levesque等,2011)是一项阅读理解任务,其中系统必须阅读一句带有代词的句子,并从一系列选择项中选择代词的指称。这些例子是手动构造的,以破坏简单的统计方法:每一个例子都以句子中提供的上下文信息为基础。为了将该问题转化为句对分类问题,基准的作者通过将模棱两可的代词与每个可能的指称替换,构建了句子对。任务是预测替换了代词的句子是否被原始句子蕴含。他们使用了一个小的评估集,其中包含从小说书籍中派生的新例子,该集由原始语料库的作者私下共享。虽然包含的训练集在两个类别之间平衡,但测试集在它们之间不平衡(65%不蕴涵)。此外,由于数据的一个怪异之处,开发集是对抗性的:假设有时在训练和开发示例之间共享,因此如果模型记忆了训练示例,则它们将在对应的开发集示例上预测错误的标签。与QNLI一样,每个例子都是单独评估的,因此模型在该任务上的得分与其在未转换的原始任务上的得分之间没有系统的对应关系。基准的作者将转换后的数据集称为WNLI(Winograd NLI)。

语言

GLUE中的语言数据是英语(BCP-47 en)。

数据集结构

数据实例

ax
  • 下载的数据集文件大小:0.21 MB
  • 生成的数据集大小:0.23 MB
  • 总使用磁盘空间:0.44 MB

'test'的一个示例如下。

{
  "premise": "The cat sat on the mat.",
  "hypothesis": "The cat did not sit on the mat.",
  "label": -1,
  "idx: 0
}
cola
  • 下载的数据集文件大小:0.36 MB
  • 生成的数据集大小:0.58 MB
  • 总使用磁盘空间:0.94 MB

'train'的一个示例如下。

{
  "sentence": "Our friends won't buy this analysis, let alone the next one we propose.",
  "label": 1,
  "id": 0
}
mnli
  • 下载的数据集文件大小:298.29 MB
  • 生成的数据集大小:78.65 MB
  • 总使用磁盘空间:376.95 MB

'train'的一个示例如下。

{
  "premise": "Conceptually cream skimming has two basic dimensions - product and geography.",
  "hypothesis": "Product and geography are what make cream skimming work.",
  "label": 1,
  "idx": 0
}
mnli_matched
  • 下载的数据集文件大小:298.29 MB
  • 生成的数据集大小:3.52 MB
  • 总使用磁盘空间:301.82 MB

'test'的一个示例如下。

{
  "premise": "Hierbas, ans seco, ans dulce, and frigola are just a few names worth keeping a look-out for.",
  "hypothesis": "Hierbas is a name worth looking out for.",
  "label": -1,
  "idx": 0
}
mnli_mismatched
  • 下载的数据集文件大小:298.29 MB
  • 生成的数据集大小:3.73 MB
  • 总使用磁盘空间:302.02 MB

'test'的一个示例如下。

{
  "premise": "What have you decided, what are you going to do?",
  "hypothesis": "So what's your decision?,
  "label": -1,
  "idx": 0
}
mrpc

More Information Needed

qnli

More Information Needed

qqp

More Information Needed

rte

More Information Needed

sst2

More Information Needed

stsb

More Information Needed

wnli

More Information Needed

数据字段

所有拆分的数据字段相同。

ax
  • premise:字符串特征。
  • hypothesis:字符串特征。
  • label:一个分类标签,可能的值包括entailment(0),neutral(1),contradiction(2)。
  • idx:int32特征。
cola
  • sentence:字符串特征。
  • label:一个分类标签,可能的值包括unacceptable(0),acceptable(1)。
  • idx:int32特征。
mnli
  • premise:字符串特征。
  • hypothesis:字符串特征。
  • label:一个分类标签,可能的值包括entailment(0),neutral(1),contradiction(2)。
  • idx:int32特征。
mnli_matched
  • premise:字符串特征。
  • hypothesis:字符串特征。
  • label:一个分类标签,可能的值包括entailment(0),neutral(1),contradiction(2)。
  • idx:int32特征。
mnli_mismatched
  • premise:字符串特征。
  • hypothesis:字符串特征。
  • label:一个分类标签,可能的值包括entailment(0),neutral(1),contradiction(2)。
  • idx:int32特征。
mrpc

More Information Needed

qnli

More Information Needed

qqp

More Information Needed

rte

More Information Needed

sst2

More Information Needed

stsb

More Information Needed

wnli

More Information Needed

数据拆分

ax
test
ax 1104
cola
train validation test
cola 8551 1043 1063
mnli
train validation_matched validation_mismatched test_matched test_mismatched
mnli 392702 9815 9832 9796 9847
mnli_matched
validation test
mnli_matched 9815 9796
mnli_mismatched
validation test
mnli_mismatched 9832 9847
mrpc

More Information Needed

qnli

More Information Needed

qqp

More Information Needed

rte

More Information Needed

sst2

More Information Needed

stsb

More Information Needed

wnli

More Information Needed

数据集创建

策划理念

More Information Needed

源数据

初始数据收集和归一化

More Information Needed

谁是源语言制作人?

More Information Needed

注释

注释过程

More Information Needed

谁是注释者?

More Information Needed

个人和敏感信息

More Information Needed

使用数据的考虑事项

数据集的社会影响

More Information Needed

偏差讨论

More Information Needed

其他已知限制

More Information Needed

其他信息

数据集策划者

More Information Needed

许可信息

More Information Needed

引用信息

@article{warstadt2018neural,
  title={Neural Network Acceptability Judgments},
  author={Warstadt, Alex and Singh, Amanpreet and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1805.12471},
  year={2018}
}
@inproceedings{wang2019glue,
  title={{GLUE}: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding},
  author={Wang, Alex and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R.},
  note={In the Proceedings of ICLR.},
  year={2019}
}

Note that each GLUE dataset has its own citation. Please see the source to see
the correct citation for each contained dataset.

贡献

感谢 @patpizio @jeswan @thomwolf @patrickvonplaten @mariamabarham 添加此数据集。