数据集:

EleutherAI/lambada_openai

计算机处理:

translation

大小:

1K<n<10K

语言创建人:

machine-generated

源数据集:

lambada

许可:

mit
英文

数据集概述

这个数据集是由OpenAI预处理的LAMBADA测试集合组成(有关相关讨论,请参见相关讨论 here here )。它还包含了德语、西班牙语、法语和意大利语的机器翻译版本。

LAMBADA用于通过单词预测任务评估计算模型在文本理解方面的能力。LAMBADA是一组叙述性文本,其特点是如果人类主体接触整篇文本,他们能够猜出最后一个单词,但如果他们只看到目标单词前面的最后一个句子,他们就无法猜出。要在LAMBADA上成功,计算模型不能仅仅依赖于局部上下文,而必须能够跟踪更广泛的话语中的信息。

语言

英语、德语、西班牙语、法语和意大利语。

来源数据

对于非英语语言,数据集由谷歌翻译产生的。有关详细信息,请参见translation_script.py。

附加信息

哈希校验和

为了进行数据完整性检查,我们对该数据集中的文件留下了以下校验和:

File Name Checksum (SHA-256)
lambada_test_de.jsonl 51c6c1795894c46e88e4c104b5667f488efe79081fb34d746b82b8caa663865e
1234321 4aa8d02cd17c719165fc8a7887fddd641f43fcafa4b1c806ca8abc31fabdb226
lambada_test_en.jsonl 4aa8d02cd17c719165fc8a7887fddd641f43fcafa4b1c806ca8abc31fabdb226
lambada_test_es.jsonl ffd760026c647fb43c67ce1bc56fd527937304b348712dce33190ea6caba6f9c
lambada_test_fr.jsonl 941ec6a73dba7dc91c860bf493eb66a527cd430148827a4753a4535a046bf362
lambada_test_it.jsonl 86654237716702ab74f42855ae5a78455c1b0e50054a4593fb9c6fcf7fad0850

许可

许可证: Modified MIT

引用

@article{radford2019language,
  title={Language Models are Unsupervised Multitask Learners},
  author={Radford, Alec and Wu, Jeff and Child, Rewon and Luan, David and Amodei, Dario and Sutskever, Ilya},
  year={2019}
}
@misc{
    author={Paperno, Denis and Kruszewski, Germán and Lazaridou, Angeliki and Pham, Quan Ngoc and Bernardi, Raffaella and Pezzelle, Sandro and Baroni, Marco and Boleda, Gemma and Fernández, Raquel},
    title={The LAMBADA dataset},
    DOI={10.5281/zenodo.2630551},
    publisher={Zenodo},
    year={2016},
    month={Aug}
}

贡献

感谢Sid Black( @sdtblck )将lambada_openai数据集翻译成非英语语言。

感谢Jonathan Tow( @jon-tow )添加了此数据集。