数据集:

severo/glue

任务:

文本分类

子任务:

acceptability-classification natural-language-inference semantic-similarity-scoring

语言:

计算机处理:

monolingual

大小:

10K<n<100K

语言创建人:

other

批注创建人:

other

源数据集:

original

其他:

qa-nli coreference-nli paraphrase-identification

许可:

cc-by-4.0

数据集介绍文件清单

英文

GLUE 数据集卡片

数据集概要

GLUE（General Language Understanding Evaluation）（ https://gluebenchmark.com/ ）是一组用于训练、评估和分析自然语言理解系统的资源。

支持的任务和排行榜

GLUE 基准测试的排行榜可以在这里找到（ at this address ）。它包括以下任务：

这是一个精心策划的评估数据集，用于对广泛的语言现象的系统绩效进行细粒度分析。该数据集通过自然语言推理（NLI）问题评估句子理解。使用在MulitNLI上训练的模型为该数据集生成预测结果。

cola

语言可接受性语料库（Corpus of Linguistic Acceptability）包括从语言学理论的书籍和期刊文章中提取的英语可接受性判断。每个示例都是由一系列单词组成的句子，注明其是否是一个符合语法的英语句子。

mnli

多样式自然语言推理语料库（Multi-Genre Natural Language Inference Corpus）是一个众包的句子对集合，带有文本蕴涵注释。给定一个前提句子和一个假设句子，任务是预测前提是否蕴涵假设（entailment），与假设相矛盾（contradiction），还是二者都不是（neutral）。前提句子收集自十个不同的来源，包括转录的语音、小说和政府报告。基准作者使用标准测试集，并在匹配（领域内）和不匹配（跨领域）部分上进行评估。他们还使用并推荐使用SNLI语料库作为辅助训练数据的550,000个示例。

mnli_matched

来自MNLI的匹配验证集和测试集。有关更多信息，请参见“mnli”BuilderConfig。

mnli_mismatched

来自MNLI的不匹配验证集和测试集。有关更多信息，请参见“mnli”BuilderConfig。

mrpc

Microsoft Research Paraphrase Corpus（Dolan & Brockett, 2005）是从在线新闻来源自动提取的句子对语料库，其中包含人工注释，用于判断句对中的句子是否在语义上等价。

qnli

斯坦福问答数据集是一个问答数据集，由问题-段落对组成，其中从维基百科中提取的段落中的一句包含了相应问题的答案（由注释者编写）。基准作者将任务转化为句子对分类，通过将每个问题和相应上下文中的每个句子组成一对，并过滤掉问题和上下文句子之间低词汇重叠的对。任务是确定上下文句子是否包含对问题的答案。这个修改版的任务去除了模型选择确切答案的要求，但也去除了答案始终存在于输入中和词汇重叠是一个可靠线索的简化假设。

qqp

Quora问题配对数据集是从社区问答网站Quora收集的一组问题对。任务是确定一对问题是否在语义上等价。

rte

Recognizing Textual Entailment（RTE）数据集来自一系列年度文本蕴涵挑战赛。基准作者将RTE1（Dagan等人，2006）、RTE2（Bar Haim等人，2006）、RTE3（Giampiccolo等人，2007）和RTE5（Bentivogli等人，2009）的数据进行组合。示例是基于新闻和维基百科文本构建的。基准作者将所有数据集转换为两类分割，对于三类数据集，他们将中性和矛盾合并为非蕴涵，以保持一致性。

sst2

斯坦福情感树库（Stanford Sentiment Treebank）由电影评论中的句子和其情感的人工注释组成。任务是预测给定句子的情感。它使用了两类（积极/消极）的类别划分，只有句子级别的标签。

stsb

语义文本相似性基准（Semantic Textual Similarity Benchmark）（Cer等人，2017）是从新闻标题、视频和图像字幕以及自然语言推理数据中提取的一组句子对。每对句子都经过人工注释，得分介于1到5之间，表示相似度。

wnli

Winograd模式挑战（Winograd Schema Challenge）（Levesque等人，2011）是一项阅读理解任务，系统必须阅读具有代词的句子，并从一系列选择中选择该代词的指示物。示例是通过将模棱两可的代词替换为每个可能的指示物来构建的句子对。任务是预测替换了代词的句子是否由原始句子蕴涵。它使用了一个小型的评估集，其中包含了来自小说书籍的新例子，由原始语料库的作者私下分享。虽然包含的训练集在两类之间保持平衡，但测试集在两类之间不平衡（65％不蕴涵）。此外，由于数据的问题，开发集是对抗性的：假设有时在训练和开发示例之间共享，所以如果模型记住训练示例，它们将在相应的开发集示例上预测错误的标签。与QNLI一样，每个示例都是单独评估的，因此模型在此任务上的得分与其在未转换的原始任务上的得分之间没有系统的对应关系。基准作者将转换后的数据集称为WNLI（Winograd NLI）。

语言

GLUE 中的语言数据是英语（BCP-47 en）

数据集结构

数据实例

下载的数据集文件大小：0.21 MB
生成的数据集大小：0.23 MB
使用的磁盘总量：0.44 MB

'test' 的一个示例如下所示。

{
  "premise": "The cat sat on the mat.",
  "hypothesis": "The cat did not sit on the mat.",
  "label": -1,
  "idx: 0
}

cola

下载的数据集文件大小：0.36 MB
生成的数据集大小：0.58 MB
使用的磁盘总量：0.94 MB

'train' 的一个示例如下所示。

{
  "sentence": "Our friends won't buy this analysis, let alone the next one we propose.",
  "label": 1,
  "id": 0
}

mnli

下载的数据集文件大小：298.29 MB
生成的数据集大小：78.65 MB
使用的磁盘总量：376.95 MB

'train' 的一个示例如下所示。

{
  "premise": "Conceptually cream skimming has two basic dimensions - product and geography.",
  "hypothesis": "Product and geography are what make cream skimming work.",
  "label": 1,
  "idx": 0
}

mnli_matched

下载的数据集文件大小：298.29 MB
生成的数据集大小：3.52 MB
使用的磁盘总量：301.82 MB

'test' 的一个示例如下所示。

{
  "premise": "Hierbas, ans seco, ans dulce, and frigola are just a few names worth keeping a look-out for.",
  "hypothesis": "Hierbas is a name worth looking out for.",
  "label": -1,
  "idx": 0
}

mnli_mismatched

下载的数据集文件大小：298.29 MB
生成的数据集大小：3.73 MB
使用的磁盘总量：302.02 MB

'test' 的一个示例如下所示。

{
  "premise": "What have you decided, what are you going to do?",
  "hypothesis": "So what's your decision?,
  "label": -1,
  "idx": 0
}

mrpc

GLUE 数据集卡片

数据集概要

支持的任务和排行榜

语言

数据集结构

数据实例

数据字段

数据拆分

数据集创建

策划理由

来源数据

注释

个人和敏感信息

数据使用注意事项

数据集的社会影响

偏见讨论

其他已知限制

附加信息

数据集创建者

许可信息

引用信息

贡献者