数据集:

cnn_dailymail

任务:

摘要生成

子任务:

news-articles-summarization

语言:

计算机处理:

monolingual

大小:

100K<n<1M

语言创建人:

found

批注创建人:

no-annotation

源数据集:

original

许可:

apache-2.0

数据集介绍文件清单

英文

CNN Dailymail数据集数据卡

数据集摘要

CNN / DailyMail数据集是一个包含超过30万个独特新闻文章的英语数据集，这些文章是CNN和Daily Mail的记者撰写的。当前版本支持摘录和抽象提要，尽管最初版本是为机器阅读和理解以及抽象问题回答而创建的。

支持的任务和排行榜

'summarization': Versions 2.0.0 and 3.0.0 of the CNN / DailyMail Dataset 可用于训练用于抽象和摘录提要的模型（ Version 1.0.0 用于机器阅读和理解以及抽象问题回答）。模型性能是通过将生成的摘要与原始文章作者撰写的重点进行比较的方式进行衡量的。

语言

美国英语的BCP-47代码是en-US，英国英语的BCP-47代码是en-GB。目前不清楚数据中是否包含其他英语方言变体。

数据集结构

数据实例

对于每个实例，都有一篇文章的字符串，一篇亮点的字符串和一个id的字符串。参见 CNN / Daily Mail dataset viewer 获取更多示例。

文章和亮点的平均标记计数如下：

数据字段

id：包含从URL获取文章的十六进制格式化SHA1哈希的字符串
文章：包含新闻文章内容的字符串
亮点：包含文章作者撰写的亮点的字符串

数据分割

CNN / DailyMail数据集有3个分割：训练集，验证集和测试集。以下是数据集版本3.0.0的统计信息。

数据集创建

策划原因

1.0.0版本旨在为机器阅读和问题回答的监督神经方法提供大量的真实自然语言训练数据，并发布了约313,000个独特文章和近1M个与这些文章相关的Cloze样式问题。2.0.0和3.0.0版本更改了数据集的结构，以支持摘要而不是问题回答。3.0.0版本提供了非匿名化的数据版本，而以前的版本经过预处理，将命名实体替换为唯一标识符标签。

源数据

初始数据收集和标准化

数据包含新闻文章和亮点句子。在问题回答数据设置中，文章被用作上下文，并且逐一隐藏亮点句子中的实体，从而产生了Cloze样式问题，模型的目标是正确猜测在亮点中隐藏的上下文实体。在摘要设置中，亮点句子被连接起来形成文章的摘要。CNN文章撰写于2007年4月至2015年4月。每日邮报文章撰写于2010年6月至2015年4月。

原始数据收集的代码可以在 https://github.com/deepmind/rc-data 中找到。文章是使用Web归档和的存档下载的。由于 Wayback Machine 的可访问性问题，Kyunghyun Cho 在 https://cs.nyu.edu/~kcho/DMQA/ 上提供了该数据集的资源。 https://github.com/abisee/cnn-dailymail 上的代码是不匿名化的更新版本。

Hermann 等人提供了他们自己的分词脚本。See 提供的脚本使用 PTBTokenizer。它还将文本转换为小写，并在缺少句号的行上添加句号。

谁是源语言生成者？

文本是由CNN和每日邮报的记者撰写的。

注释

数据集不包含任何其他注释。

注释的过程

[不适用]

谁是注释者？

[不适用]

个人和敏感信息

3.0版本未经匿名化，因此可以在数据集中找到个人名称。数据集中不包含有关原始作者的信息。

使用数据的注意事项

数据的社会影响

该数据集的目的是帮助开发能够将长段文字概括为一两个句子的模型。

这个任务对于在大量文本的基础上有效地呈现信息是有用的。但是，应该明确指出，基于此数据集训练的模型生成的任何摘要都反映了文章中使用的语言，但事实上是自动生成的。

偏见讨论

在CNN / Dailymail数据集和Penn Treebank、WikiText-2中， Bordia and Bowman (2019) 研究了测量性别偏见和除偏技术。他们发现根据他们的标准，CNN / Dailymail数据集的性别偏见略低于其他数据集，但仍然在某些词语（如“脆弱”）中显示出性别偏见。

由于这些文章是由美国和英国的人编写和为该国家的人撰写的，因此它们可能呈现特定于美国和英国的观点，并呈现出在文章发表期间被认为与这些人群有关的事件。

其他已知限制

研究表明新闻文章遵循一种写作约定，其中重要信息主要在文章的前三分之一中呈现。 Chen et al (2016) 对第一个版本数据集的100个随机样本进行了手动研究，发现25%的样本对人类来说难以正确回答，原因是模棱两可和指代错误。

还应注意的是，即使是抽取提要，机器生成的摘要在真实价值与原始文章相比可能存在差异。

其他信息

数据集维护者

数据最初由Google DeepMind的Karl Moritz Hermann，Tomáš Kočiský，Edward Grefenstette，Lasse Espeholt，Will Kay，Mustafa Suleyman和Phil Blunsom收集。Tomáš Kočiský和Phil Blunsom还隶属于牛津大学。他们发布了用于收集和处理数据以进行问题回答的脚本。

IMB Watson的Ramesh Nallapati，Bowen Zhou，Cicero dos Santos和Bing Xiang以及蒙特利尔大学的Çağlar Gülçehre修改了Hermann等人的收集脚本，将数据恢复到摘要格式。他们还制作了匿名化和非匿名化版本。

非匿名化版本的代码公开由Stanford University的Abigail See，Google Brain的Peter J. Liu和Stanford University的Christopher D. Manning提供，网址为 https://github.com/abisee/cnn-dailymail 。Stanford University的工作得到了DARPA DEFT计划AFRL合同号FA8750-13-2-0040的支持。

许可信息

CNN / Daily Mail数据集版本1.0.0在 Apache-2.0 License 下发布。

引用信息

@inproceedings{see-etal-2017-get,
    title = "Get To The Point: Summarization with Pointer-Generator Networks",
    author = "See, Abigail  and
      Liu, Peter J.  and
      Manning, Christopher D.",
    booktitle = "Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)",
    month = jul,
    year = "2017",
    address = "Vancouver, Canada",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/P17-1099",
    doi = "10.18653/v1/P17-1099",
    pages = "1073--1083",
    abstract = "Neural sequence-to-sequence models have provided a viable new approach for abstractive text summarization (meaning they are not restricted to simply selecting and rearranging passages from the original text). However, these models have two shortcomings: they are liable to reproduce factual details inaccurately, and they tend to repeat themselves. In this work we propose a novel architecture that augments the standard sequence-to-sequence attentional model in two orthogonal ways. First, we use a hybrid pointer-generator network that can copy words from the source text via pointing, which aids accurate reproduction of information, while retaining the ability to produce novel words through the generator. Second, we use coverage to keep track of what has been summarized, which discourages repetition. We apply our model to the CNN / Daily Mail summarization task, outperforming the current abstractive state-of-the-art by at least 2 ROUGE points.",
}

@inproceedings{DBLP:conf/nips/HermannKGEKSB15,
  author={Karl Moritz Hermann and Tomás Kociský and Edward Grefenstette and Lasse Espeholt and Will Kay and Mustafa Suleyman and Phil Blunsom},
  title={Teaching Machines to Read and Comprehend},
  year={2015},
  cdate={1420070400000},
  pages={1693-1701},
  url={http://papers.nips.cc/paper/5945-teaching-machines-to-read-and-comprehend},
  booktitle={NIPS},
  crossref={conf/nips/2015}
}

贡献

感谢 @thomwolf ， @lewtun ， @jplu ， @jbragg ， @patrickvonplaten 和 @mcmillanmajora 添加了该数据集。

作者:

佚名

数据集大小:

509.74 MB