英文

GLUE 数据集卡片

数据集概要

GLUE(General Language Understanding Evaluation)( https://gluebenchmark.com/ )是一组用于训练、评估和分析自然语言理解系统的资源。

支持的任务和排行榜

GLUE 基准测试的排行榜可以在这里找到( at this address )。它包括以下任务:

ax

这是一个精心策划的评估数据集,用于对广泛的语言现象的系统绩效进行细粒度分析。该数据集通过自然语言推理(NLI)问题评估句子理解。使用在MulitNLI上训练的模型为该数据集生成预测结果。

cola

语言可接受性语料库(Corpus of Linguistic Acceptability)包括从语言学理论的书籍和期刊文章中提取的英语可接受性判断。每个示例都是由一系列单词组成的句子,注明其是否是一个符合语法的英语句子。

mnli

多样式自然语言推理语料库(Multi-Genre Natural Language Inference Corpus)是一个众包的句子对集合,带有文本蕴涵注释。给定一个前提句子和一个假设句子,任务是预测前提是否蕴涵假设(entailment),与假设相矛盾(contradiction),还是二者都不是(neutral)。前提句子收集自十个不同的来源,包括转录的语音、小说和政府报告。基准作者使用标准测试集,并在匹配(领域内)和不匹配(跨领域)部分上进行评估。他们还使用并推荐使用SNLI语料库作为辅助训练数据的550,000个示例。

mnli_matched

来自MNLI的匹配验证集和测试集。有关更多信息,请参见“mnli”BuilderConfig。

mnli_mismatched

来自MNLI的不匹配验证集和测试集。有关更多信息,请参见“mnli”BuilderConfig。

mrpc

Microsoft Research Paraphrase Corpus(Dolan & Brockett, 2005)是从在线新闻来源自动提取的句子对语料库,其中包含人工注释,用于判断句对中的句子是否在语义上等价。

qnli

斯坦福问答数据集是一个问答数据集,由问题-段落对组成,其中从维基百科中提取的段落中的一句包含了相应问题的答案(由注释者编写)。基准作者将任务转化为句子对分类,通过将每个问题和相应上下文中的每个句子组成一对,并过滤掉问题和上下文句子之间低词汇重叠的对。任务是确定上下文句子是否包含对问题的答案。这个修改版的任务去除了模型选择确切答案的要求,但也去除了答案始终存在于输入中和词汇重叠是一个可靠线索的简化假设。

qqp

Quora问题配对数据集是从社区问答网站Quora收集的一组问题对。任务是确定一对问题是否在语义上等价。

rte

Recognizing Textual Entailment(RTE)数据集来自一系列年度文本蕴涵挑战赛。基准作者将RTE1(Dagan等人,2006)、RTE2(Bar Haim等人,2006)、RTE3(Giampiccolo等人,2007)和RTE5(Bentivogli等人,2009)的数据进行组合。示例是基于新闻和维基百科文本构建的。基准作者将所有数据集转换为两类分割,对于三类数据集,他们将中性和矛盾合并为非蕴涵,以保持一致性。

sst2

斯坦福情感树库(Stanford Sentiment Treebank)由电影评论中的句子和其情感的人工注释组成。任务是预测给定句子的情感。它使用了两类(积极/消极)的类别划分,只有句子级别的标签。

stsb

语义文本相似性基准(Semantic Textual Similarity Benchmark)(Cer等人,2017)是从新闻标题、视频和图像字幕以及自然语言推理数据中提取的一组句子对。每对句子都经过人工注释,得分介于1到5之间,表示相似度。

wnli

Winograd模式挑战(Winograd Schema Challenge)(Levesque等人,2011)是一项阅读理解任务,系统必须阅读具有代词的句子,并从一系列选择中选择该代词的指示物。示例是通过将模棱两可的代词替换为每个可能的指示物来构建的句子对。任务是预测替换了代词的句子是否由原始句子蕴涵。它使用了一个小型的评估集,其中包含了来自小说书籍的新例子,由原始语料库的作者私下分享。虽然包含的训练集在两类之间保持平衡,但测试集在两类之间不平衡(65%不蕴涵)。此外,由于数据的问题,开发集是对抗性的:假设有时在训练和开发示例之间共享,所以如果模型记住训练示例,它们将在相应的开发集示例上预测错误的标签。与QNLI一样,每个示例都是单独评估的,因此模型在此任务上的得分与其在未转换的原始任务上的得分之间没有系统的对应关系。基准作者将转换后的数据集称为WNLI(Winograd NLI)。

语言

GLUE 中的语言数据是英语(BCP-47 en)

数据集结构

数据实例

ax
  • 下载的数据集文件大小:0.21 MB
  • 生成的数据集大小:0.23 MB
  • 使用的磁盘总量:0.44 MB

'test' 的一个示例如下所示。

{
  "premise": "The cat sat on the mat.",
  "hypothesis": "The cat did not sit on the mat.",
  "label": -1,
  "idx: 0
}
cola
  • 下载的数据集文件大小:0.36 MB
  • 生成的数据集大小:0.58 MB
  • 使用的磁盘总量:0.94 MB

'train' 的一个示例如下所示。

{
  "sentence": "Our friends won't buy this analysis, let alone the next one we propose.",
  "label": 1,
  "id": 0
}
mnli
  • 下载的数据集文件大小:298.29 MB
  • 生成的数据集大小:78.65 MB
  • 使用的磁盘总量:376.95 MB

'train' 的一个示例如下所示。

{
  "premise": "Conceptually cream skimming has two basic dimensions - product and geography.",
  "hypothesis": "Product and geography are what make cream skimming work.",
  "label": 1,
  "idx": 0
}
mnli_matched
  • 下载的数据集文件大小:298.29 MB
  • 生成的数据集大小:3.52 MB
  • 使用的磁盘总量:301.82 MB

'test' 的一个示例如下所示。

{
  "premise": "Hierbas, ans seco, ans dulce, and frigola are just a few names worth keeping a look-out for.",
  "hypothesis": "Hierbas is a name worth looking out for.",
  "label": -1,
  "idx": 0
}
mnli_mismatched
  • 下载的数据集文件大小:298.29 MB
  • 生成的数据集大小:3.73 MB
  • 使用的磁盘总量:302.02 MB

'test' 的一个示例如下所示。

{
  "premise": "What have you decided, what are you going to do?",
  "hypothesis": "So what's your decision?,
  "label": -1,
  "idx": 0
}
mrpc

More Information Needed

qnli

More Information Needed

qqp

More Information Needed

rte

More Information Needed

sst2

More Information Needed

stsb

More Information Needed

wnli

More Information Needed

数据字段

所有拆分的数据字段都是相同的。

ax
  • premise: a string feature.
  • hypothesis: a string feature.
  • label: a classification label, with possible values including entailment (0), neutral (1), contradiction (2).
  • idx: an int32 feature.
cola
  • sentence: a string feature.
  • label: a classification label, with possible values including unacceptable (0), acceptable (1).
  • idx: an int32 feature.
mnli
  • premise: a string feature.
  • hypothesis: a string feature.
  • label: a classification label, with possible values including entailment (0), neutral (1), contradiction (2).
  • idx: an int32 feature.
mnli_matched
  • premise: a string feature.
  • hypothesis: a string feature.
  • label: a classification label, with possible values including entailment (0), neutral (1), contradiction (2).
  • idx: an int32 feature.
mnli_mismatched
  • premise: a string feature.
  • hypothesis: a string feature.
  • label: a classification label, with possible values including entailment (0), neutral (1), contradiction (2).
  • idx: an int32 feature.
mrpc

More Information Needed

qnli

More Information Needed

qqp

More Information Needed

rte

More Information Needed

sst2

More Information Needed

stsb

More Information Needed

wnli

More Information Needed

数据拆分

ax
test
ax 1104
cola
train validation test
cola 8551 1043 1063
mnli
train validation_matched validation_mismatched test_matched test_mismatched
mnli 392702 9815 9832 9796 9847
mnli_matched
validation test
mnli_matched 9815 9796
mnli_mismatched
validation test
mnli_mismatched 9832 9847
mrpc

More Information Needed

qnli

More Information Needed

qqp

More Information Needed

rte

More Information Needed

sst2

More Information Needed

stsb

More Information Needed

wnli

More Information Needed

数据集创建

策划理由

More Information Needed

来源数据

初始数据收集和归一化

More Information Needed

谁是源语言生产者?

More Information Needed

注释

注释流程

More Information Needed

谁是注释者?

More Information Needed

个人和敏感信息

More Information Needed

数据使用注意事项

数据集的社会影响

More Information Needed

偏见讨论

More Information Needed

其他已知限制

More Information Needed

附加信息

数据集创建者

More Information Needed

许可信息

More Information Needed

引用信息

@article{warstadt2018neural,
  title={Neural Network Acceptability Judgments},
  author={Warstadt, Alex and Singh, Amanpreet and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1805.12471},
  year={2018}
}
@inproceedings{wang2019glue,
  title={{GLUE}: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding},
  author={Wang, Alex and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R.},
  note={In the Proceedings of ICLR.},
  year={2019}
}

Note that each GLUE dataset has its own citation. Please see the source to see
the correct citation for each contained dataset.

贡献者

感谢 @patpizio @jeswan @thomwolf @patrickvonplaten @mariamabarham 添加了该数据集。