数据集:

hlgd

语言:

en

计算机处理:

monolingual

大小:

10K<n<100K

语言创建人:

expert-generated

批注创建人:

crowdsourced

源数据集:

original

许可:

apache-2.0
英文

Headline Grouping (HLGD) 数据集卡片

数据集摘要

HLGD 是一个二分类数据集,包含20,056个带有标签的新闻标题对,指示这两个标题是否描述了同一事件。数据集已经根据训练集、验证集和测试集进行了划分(60-20-20)。

支持的任务和排行榜

引入HLGD的论文(NAACL2021)提出了三个挑战,利用了不同数量的数据:

  • 挑战1:仅使用标题。模型必须仅使用两个标题的文本进行预测。
  • 挑战2:标题+时间。模型必须使用两个标题的标题和发布日期进行预测。
  • 挑战3:标题+时间+其他信息。模型可以使用标题、发布日期以及通过标题附加的URL获取的任何其他相关元数据进行预测(完整文章内容、作者、新闻来源等)。

语言

数据集为英文。

数据集结构

数据实例

典型的数据集包含一个时间线ID、两个标题(A/B),每个标题关联一个URL和日期。最后,标签指示这两个标题是否描述了相同的事件(1)或不同的事件(0)。以下是训练集的一个示例:

{'timeline_id': 4,
 'headline_a': 'France fines Google nearly $57 million for first major violation of new European privacy regime',
 'headline_b': "France hits Google with record EUR50mn fine over 'forced consent' data collection",
 'date_a': '2019-01-21',
 'date_b': '2019-01-21',
 'url_a': 'https://www.chicagotribune.com/business/ct-biz-france-fines-google-privacy-20190121-story.html',
 'url_b': 'https://www.rt.com/news/449369-france-hits-google-with-record-fine/',
 'label': 1}

数据字段

  • 时间线ID:表示标题对所属的时间线的ID(值为0到9)。开发集由时间线0和5组成,测试集由时间线7和8组成。
  • headline_a,headline_b:要比较的标题对的原始文本
  • date_a,date_b:各自标题的发布日期,格式为YYYY-MM-DD
  • url_a,url_b:各自标题的原始URL。可以用于检索标题的其他元数据。
  • label:如果两个标题属于相同的标题组并描述了相同的事件,则为1,否则为0。

数据拆分

Train Dev Test
Number of examples 15,492 2,069 2,495

数据集创建

策划理由

对来自不同新闻源讨论同一事件的标题进行分组的任务对于实现能够呈现新闻事件多样性的界面非常重要。许多新闻聚合器(如Google或Yahoo新闻)为给定事件提供多个来源,目的是突出报道的多样性。自动分组新闻标题和文章仍然具有挑战性,因为新闻标题是短小、风格化的文本。HeadLine Grouping数据集引入了评估NLU模型按照其所描述的基本事件对标题进行分组的第一个基准。

源数据

初始数据收集和规范化

该数据集是通过从新闻镜头项目中选择时间线来收集的,每个时间线在主题上都是多样化的,每个时间线包含80到300篇新闻文章。

谁是源语言制作者?

源语言制作者是论文中列出的34个新闻组织的记者或新闻编辑。

注释

注释过程

每个时间线都被5个独立的注释员注释了组ID。这5个注释被合并为一个名为全局组的注释。然后使用全局组ID在时间线内生成所有标题对,并打上二进制标签:如果两个标题属于同一全局组,则为1,否则为0。使用一种启发式方法来删除负面例子,以获得最终数据集,其中正例数量为负例数量的1比5。

谁是注释者?

注释者是论文的作者和Upwork平台上的8名众包工人。众包工作者是以校对或数据录入为经验的英语母语人士。

个人和敏感信息

注释者的身份已经匿名化。由于新闻标题是公开的,不希望标题中包含个人敏感信息。

使用数据的注意事项

数据的社会影响

该数据集的目的是促进呈现多样的新闻报道的应用程序。

通过简化开发可以对描述相同事件的标题进行分组的模型的过程,我们希望社区能够构建展示读者多样化来源的新闻的应用程序。

然而,需要注意的是,注释主要是由众包工人完成的,尽管注释者之间的一致性很高,但并不完美。因此,数据集中仍然存在注释者的偏见。

偏见讨论

数据集中存在多个偏见源:

  • 注释者偏见:有10名注释者参与了数据集的创建。他们的意见和观点影响了数据集的创建。
  • 主题偏见:HLGD包含来自10个不同主题(空间、技术、政治等)的新闻时间线的标题。这个选择影响了数据集中出现的正面和负面例子的类型。
  • 源选择偏见:数据集中代表了33个英语新闻来源。新闻源的选择对时间线的内容和整个数据集有影响。
  • 时间范围:所选择的时间线涵盖从2010年到2020年,这对新闻标题的语言和风格产生了影响。

其他已知限制

对于标题分组任务,注释者间的一致性较高(0.814),但并非完美。一些关于标题分组的决策是主观的,取决于读者的解释。

附加信息

数据集策划者

该数据集最初由加利福尼亚大学伯克利分校的Philippe Laban,Lucas Bandarkar和Marti Hearst创建。

许可信息

数据集的许可状态取决于新闻标题的法律地位。通常认为新闻标题属于“公平使用”( American Bar blog post )。数据集仅分发标题、URL和发布日期。数据集的使用者可以通过查询URL直接获取其他信息(如正文内容、作者等)。

引用信息

@inproceedings{Laban2021NewsHG,
  title={News Headline Grouping as a Challenging NLU Task},
  author={Laban, Philippe and Bandarkar, Lucas and Hearst, Marti A},
  booktitle={NAACL 2021},
  publisher = {Association for Computational Linguistics},
  year={2021}
}

贡献

感谢 @tingofurro 添加了该数据集。