数据集:

lambada

任务:

文生文

语言:

计算机处理:

monolingual

大小:

10K<n<100K

语言创建人:

found

批注创建人:

expert-generated

源数据集:

extended|bookcorpus

其他:

long-range-dependency

许可:

cc-by-4.0

数据集介绍文件清单

英文

LAMBADA 数据集卡片

数据集摘要

LAMBADA 通过一个单词预测任务来评估计算模型在文本理解方面的能力。LAMBADA 是一组叙述性段落，具有这样一个特点：如果人类被暴露于整个段落，他们能够猜出它们的最后一个单词，但如果他们只看到目标单词前面的最后一句话，他们就无法猜到。要在 LAMBADA 上成功，计算模型不能仅仅依赖于局部语境，还必须能够跟踪更广阔的语篇中的信息。

LAMBADA 数据集从 BookCorpus 中提取，包含 10,022 个段落，分为 4,869 个开发集和 5,153 个测试集段落。用于在 LAMBADA 上测试的语言模型的训练数据包括 2,662 本小说的完整文本（与 dev+test 中的不重叠），总计 2.03 亿个单词。

支持的任务和排行榜

长程依赖性的（最后一个）单词预测

语言

数据集中的文本为英语。相关的 BCP-47 代码是 en 。

数据集结构

数据实例

数据点是一个文本序列（段落），包括上下文、目标句子（最后一个句子）和目标单词。对于 dev 和 test 的每个段落，要猜测的单词是最后一个单词。

训练数据包括 2,662 本小说的完整文本（与 dev+test 中的不重叠），总计超过 2 亿个单词。它由与 dev+test 段落相同领域的文本组成，但没有进行任何过滤。

每个训练实例都有一个“类别”字段，指示从哪个子类别中提取了该书。对于 dev 和 test 的拆分，不提供此字段。

一个示例如下：

{"category": "Mystery",
 "text": "bob could have been called in at this point , but he was n't miffed at his exclusion at all . he was relieved at not being brought into this initial discussion with central command . `` let 's go make some grub , '' said bob as he turned to danny . danny did n't keep his stoic expression , but with a look of irritation got up and left the room with bob",
}

数据字段

类别：从中提取书籍的子类别。仅在训练拆分中提供。
文本：文本（上下文、目标句子和目标单词的串联）。要猜测的单词是最后一个。

数据拆分

训练集：2,662 本小说
验证集：4,869 个段落
测试集：5,153 个段落

数据集创建

策划理由

该数据集旨在评估语言模型保持长期上下文记忆的能力。实例从书籍中提取，因为它们显示长期依赖性。特别地，数据被精心策划，以便当人类只能看到最后一句话时，目标单词对于他们来说是很难猜到的，但如果可以看到它们来自的整个段落，目标单词就很容易猜到。

源数据

初始数据收集与规范化

该语料库经过复制，并使用停用词列表过滤掉潜在的冒犯性材料。

语言的源生产者是谁？

这些段落是从 Book Corpus 的小说中提取的。

标注

标注过程

作者要求两位连续的主体（付费众包人员）根据整个段落（包括上下文和目标句子）精确匹配缺失的单词，并确保没有主体（十位中的任何一位）能够根据仅给出 3 个猜测时的局部上下文提供它。

标注者是谁？

文本是自注释的，但通过询问（付费的）众包人员猜测最后一个单词进行策划。

个人和敏感信息

【需要更多信息】

使用数据的考虑事项

数据集的社会影响

【需要更多信息】

偏见讨论

【需要更多信息】

其他已知限制

【需要更多信息】

附加信息

数据集策划者

【需要更多信息】

许可信息

该数据集在 [CC BY 4.0（创意共享署名4.0国际）](https://creativecommons.org/licenses/by/4.0/) 许可下发布。

引用信息

@InProceedings{paperno-EtAl:2016:P16-1,
  author    = {Paperno, Denis  and  Kruszewski, Germ\'{a}n  and  Lazaridou,
Angeliki  and  Pham, Ngoc Quan  and  Bernardi, Raffaella  and  Pezzelle,
Sandro  and  Baroni, Marco  and  Boleda, Gemma  and  Fernandez, Raquel},
  title     = {The {LAMBADA} dataset: Word prediction requiring a broad
discourse context},
  booktitle = {Proceedings of the 54th Annual Meeting of the Association for
Computational Linguistics (Volume 1: Long Papers)},
  month     = {August},
  year      = {2016},
  address   = {Berlin, Germany},
  publisher = {Association for Computational Linguistics},
  pages     = {1525--1534},
  url       = {http://www.aclweb.org/anthology/P16-1144}
}

贡献

感谢 @VictorSanh 添加了这个数据集。

作者:

佚名

数据集大小:

319.04 MB