数据集:
EleutherAI/lambada_openai
子任务:
language-modeling计算机处理:
translation大小:
1K<n<10K语言创建人:
machine-generated源数据集:
lambada许可:
这个数据集是由OpenAI预处理的LAMBADA测试集合组成(有关相关讨论,请参见相关讨论 here 和 here )。它还包含了德语、西班牙语、法语和意大利语的机器翻译版本。
LAMBADA用于通过单词预测任务评估计算模型在文本理解方面的能力。LAMBADA是一组叙述性文本,其特点是如果人类主体接触整篇文本,他们能够猜出最后一个单词,但如果他们只看到目标单词前面的最后一个句子,他们就无法猜出。要在LAMBADA上成功,计算模型不能仅仅依赖于局部上下文,而必须能够跟踪更广泛的话语中的信息。
英语、德语、西班牙语、法语和意大利语。
对于非英语语言,数据集由谷歌翻译产生的。有关详细信息,请参见translation_script.py。
为了进行数据完整性检查,我们对该数据集中的文件留下了以下校验和:
| File Name | Checksum (SHA-256) | 
|---|---|
| lambada_test_de.jsonl | 51c6c1795894c46e88e4c104b5667f488efe79081fb34d746b82b8caa663865e | 
| 1234321 | 4aa8d02cd17c719165fc8a7887fddd641f43fcafa4b1c806ca8abc31fabdb226 | 
| lambada_test_en.jsonl | 4aa8d02cd17c719165fc8a7887fddd641f43fcafa4b1c806ca8abc31fabdb226 | 
| lambada_test_es.jsonl | ffd760026c647fb43c67ce1bc56fd527937304b348712dce33190ea6caba6f9c | 
| lambada_test_fr.jsonl | 941ec6a73dba7dc91c860bf493eb66a527cd430148827a4753a4535a046bf362 | 
| lambada_test_it.jsonl | 86654237716702ab74f42855ae5a78455c1b0e50054a4593fb9c6fcf7fad0850 | 
许可证: Modified MIT
@article{radford2019language,
  title={Language Models are Unsupervised Multitask Learners},
  author={Radford, Alec and Wu, Jeff and Child, Rewon and Luan, David and Amodei, Dario and Sutskever, Ilya},
  year={2019}
}
 @misc{
    author={Paperno, Denis and Kruszewski, Germán and Lazaridou, Angeliki and Pham, Quan Ngoc and Bernardi, Raffaella and Pezzelle, Sandro and Baroni, Marco and Boleda, Gemma and Fernández, Raquel},
    title={The LAMBADA dataset},
    DOI={10.5281/zenodo.2630551},
    publisher={Zenodo},
    year={2016},
    month={Aug}
}
 感谢Sid Black( @sdtblck )将lambada_openai数据集翻译成非英语语言。
感谢Jonathan Tow( @jon-tow )添加了此数据集。