数据集:
narrativeqa_manual
计算机处理:
monolingual大小:
10K<n<100K语言创建人:
found批注创建人:
crowdsourced源数据集:
original预印本库:
arxiv:1712.07040许可:
语言:
任务:
子任务:
abstractive-qaNarrativeQA Manual 是一个英语数据集,包含了故事和相应问题,旨在测试阅读理解能力,尤其是对于长篇文档的阅读理解。此数据集需要手动下载文件!由于原始存储库中的脚本每次都会从原始 URL 下载故事,导致链接有时会失效或无效。因此,您需要使用作者提供的脚本手动下载这个数据集的故事( https://github.com/deepmind/narrativeqa/blob/master/download_stories.sh )。运行shell脚本将在根目录下创建一个名为“tmp”的文件夹,并将故事下载到该文件夹中。可以使用包含故事的此文件夹通过 datasets.load_dataset("narrativeqa_manual", data_dir="") 加载数据集。
数据集用于测试阅读理解能力。论文中提出了两个任务:“仅摘要”和“仅故事”,具体取决于是使用人工摘要还是完整的故事文本来回答问题。
英语
典型的数据点由一个问题和答案对以及可用于回答问题的摘要/故事组成。还提供了其他信息,如URL、单词计数、维基百科页面。
典型的例子如下:
{
"document": {
"id": "23jncj2n3534563110",
"kind": "movie",
"url": "https://www.imsdb.com/Movie%20Scripts/Name%20of%20Movie.html",
"file_size": 80473,
"word_count": 41000,
"start": "MOVIE screenplay by",
"end": ". THE END",
"summary": {
"text": "Joe Bloggs begins his journey exploring...",
"tokens": ["Joe", "Bloggs", "begins", "his", "journey", "exploring",...],
"url": "http://en.wikipedia.org/wiki/Name_of_Movie",
"title": "Name of Movie (film)"
},
"text": "MOVIE screenplay by John Doe\nSCENE 1..."
},
"question": {
"text": "Where does Joe Bloggs live?",
"tokens": ["Where", "does", "Joe", "Bloggs", "live", "?"],
},
"answers": [
{"text": "At home", "tokens": ["At", "home"]},
{"text": "His house", "tokens": ["His", "house"]}
]
}
根据故事将数据划分为训练集、验证集和测试集(即同一故事不能出现在多个拆分中):
| Train | Valid | Test |
|---|---|---|
| 32747 | 3461 | 10557 |
[需要更多信息]
故事和电影剧本是从 Project Gutenburg 以及一系列电影剧本存储库(主要是 imsdb )中下载的。
资源语言的生产者是谁?语言的生产者是故事和剧本的作者以及提问的亚马逊土耳其工人。
亚马逊土耳其工人根据故事提供了人工撰写的摘要(为了使标注工作可行,并引导标注者提问非局部化的问题)。使用标题将故事与维基百科的情节摘要进行匹配,并在人工标注者的帮助下验证匹配结果。要求亚马逊土耳其工人根据给定的摘要仅编写10个问题-答案对。要求标注者想象他们在为已阅读完整故事但未阅读摘要的学生设计测试问题。要求问题足够具体,考虑到叙述的长度和复杂性,并提供一组关于角色、事件、原因等各个方面的多样化问题。鼓励标注者使用自己的措辞,并禁止他们抄袭。要求答案是语法正确、完整的句子,并明确允许短答案(一个词、几个词的短语或一个简短的句子),因为我们认为在询问事实信息时,用一个完整的句子回答往往被认为是不真实的。要求标注者在问题或答案中避免额外、不必要的信息,并避免是/否的问题或关于作者或演员的问题。
标注者是谁?亚马逊土耳其工人。
没有
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
该数据集基于 Apache-2.0 License 发布。
@article{narrativeqa,
author = {Tom\'a\v s Ko\v cisk\'y and Jonathan Schwarz and Phil Blunsom and
Chris Dyer and Karl Moritz Hermann and G\'abor Melis and
Edward Grefenstette},
title = {The {NarrativeQA} Reading Comprehension Challenge},
journal = {Transactions of the Association for Computational Linguistics},
url = {https://TBD},
volume = {TBD},
year = {2018},
pages = {TBD},
}
感谢 @rsanjaykamath 添加了此数据集。