数据集:

lambada

任务:

文生文

语言:

en

计算机处理:

monolingual

大小:

10K<n<100K

语言创建人:

found

批注创建人:

expert-generated

源数据集:

extended|bookcorpus

许可:

cc-by-4.0
英文

LAMBADA 数据集卡片

数据集摘要

LAMBADA 通过一个单词预测任务来评估计算模型在文本理解方面的能力。LAMBADA 是一组叙述性段落,具有这样一个特点:如果人类被暴露于整个段落,他们能够猜出它们的最后一个单词,但如果他们只看到目标单词前面的最后一句话,他们就无法猜到。要在 LAMBADA 上成功,计算模型不能仅仅依赖于局部语境,还必须能够跟踪更广阔的语篇中的信息。

LAMBADA 数据集从 BookCorpus 中提取,包含 10,022 个段落,分为 4,869 个开发集和 5,153 个测试集段落。用于在 LAMBADA 上测试的语言模型的训练数据包括 2,662 本小说的完整文本(与 dev+test 中的不重叠),总计 2.03 亿个单词。

支持的任务和排行榜

长程依赖性的(最后一个)单词预测

语言

数据集中的文本为英语。相关的 BCP-47 代码是 en 。

数据集结构

数据实例

数据点是一个文本序列(段落),包括上下文、目标句子(最后一个句子)和目标单词。对于 dev 和 test 的每个段落,要猜测的单词是最后一个单词。

训练数据包括 2,662 本小说的完整文本(与 dev+test 中的不重叠),总计超过 2 亿个单词。它由与 dev+test 段落相同领域的文本组成,但没有进行任何过滤。

每个训练实例都有一个“类别”字段,指示从哪个子类别中提取了该书。对于 dev 和 test 的拆分,不提供此字段。

一个示例如下:

{"category": "Mystery",
 "text": "bob could have been called in at this point , but he was n't miffed at his exclusion at all . he was relieved at not being brought into this initial discussion with central command . `` let 's go make some grub , '' said bob as he turned to danny . danny did n't keep his stoic expression , but with a look of irritation got up and left the room with bob",
}

数据字段

  • 类别:从中提取书籍的子类别。仅在训练拆分中提供。
  • 文本:文本(上下文、目标句子和目标单词的串联)。要猜测的单词是最后一个。

数据拆分

  • 训练集:2,662 本小说
  • 验证集:4,869 个段落
  • 测试集:5,153 个段落

数据集创建

策划理由

该数据集旨在评估语言模型保持长期上下文记忆的能力。实例从书籍中提取,因为它们显示长期依赖性。特别地,数据被精心策划,以便当人类只能看到最后一句话时,目标单词对于他们来说是很难猜到的,但如果可以看到它们来自的整个段落,目标单词就很容易猜到。

源数据

初始数据收集与规范化

该语料库经过复制,并使用停用词列表过滤掉潜在的冒犯性材料。

语言的源生产者是谁?

这些段落是从 Book Corpus 的小说中提取的。

标注

标注过程

作者要求两位连续的主体(付费众包人员)根据整个段落(包括上下文和目标句子)精确匹配缺失的单词,并确保没有主体(十位中的任何一位)能够根据仅给出 3 个猜测时的局部上下文提供它。

标注者是谁?

文本是自注释的,但通过询问(付费的)众包人员猜测最后一个单词进行策划。

个人和敏感信息

【需要更多信息】

使用数据的考虑事项

数据集的社会影响

【需要更多信息】

偏见讨论

【需要更多信息】

其他已知限制

【需要更多信息】

附加信息

数据集策划者

【需要更多信息】

许可信息

该数据集在 [CC BY 4.0(创意共享署名4.0国际)](https://creativecommons.org/licenses/by/4.0/) 许可下发布。

引用信息

@InProceedings{paperno-EtAl:2016:P16-1,
  author    = {Paperno, Denis  and  Kruszewski, Germ\'{a}n  and  Lazaridou,
Angeliki  and  Pham, Ngoc Quan  and  Bernardi, Raffaella  and  Pezzelle,
Sandro  and  Baroni, Marco  and  Boleda, Gemma  and  Fernandez, Raquel},
  title     = {The {LAMBADA} dataset: Word prediction requiring a broad
discourse context},
  booktitle = {Proceedings of the 54th Annual Meeting of the Association for
Computational Linguistics (Volume 1: Long Papers)},
  month     = {August},
  year      = {2016},
  address   = {Berlin, Germany},
  publisher = {Association for Computational Linguistics},
  pages     = {1525--1534},
  url       = {http://www.aclweb.org/anthology/P16-1144}
}

贡献

感谢 @VictorSanh 添加了这个数据集。