数据集:
hlgd
任务:
语言:
计算机处理:
monolingual大小:
10K<n<100K语言创建人:
expert-generated批注创建人:
crowdsourced源数据集:
original许可:
HLGD 是一个二分类数据集,包含20,056个带有标签的新闻标题对,指示这两个标题是否描述了同一事件。数据集已经根据训练集、验证集和测试集进行了划分(60-20-20)。
引入HLGD的论文(NAACL2021)提出了三个挑战,利用了不同数量的数据:
数据集为英文。
典型的数据集包含一个时间线ID、两个标题(A/B),每个标题关联一个URL和日期。最后,标签指示这两个标题是否描述了相同的事件(1)或不同的事件(0)。以下是训练集的一个示例:
{'timeline_id': 4, 'headline_a': 'France fines Google nearly $57 million for first major violation of new European privacy regime', 'headline_b': "France hits Google with record EUR50mn fine over 'forced consent' data collection", 'date_a': '2019-01-21', 'date_b': '2019-01-21', 'url_a': 'https://www.chicagotribune.com/business/ct-biz-france-fines-google-privacy-20190121-story.html', 'url_b': 'https://www.rt.com/news/449369-france-hits-google-with-record-fine/', 'label': 1}
Train | Dev | Test | |
---|---|---|---|
Number of examples | 15,492 | 2,069 | 2,495 |
对来自不同新闻源讨论同一事件的标题进行分组的任务对于实现能够呈现新闻事件多样性的界面非常重要。许多新闻聚合器(如Google或Yahoo新闻)为给定事件提供多个来源,目的是突出报道的多样性。自动分组新闻标题和文章仍然具有挑战性,因为新闻标题是短小、风格化的文本。HeadLine Grouping数据集引入了评估NLU模型按照其所描述的基本事件对标题进行分组的第一个基准。
该数据集是通过从新闻镜头项目中选择时间线来收集的,每个时间线在主题上都是多样化的,每个时间线包含80到300篇新闻文章。
谁是源语言制作者?源语言制作者是论文中列出的34个新闻组织的记者或新闻编辑。
每个时间线都被5个独立的注释员注释了组ID。这5个注释被合并为一个名为全局组的注释。然后使用全局组ID在时间线内生成所有标题对,并打上二进制标签:如果两个标题属于同一全局组,则为1,否则为0。使用一种启发式方法来删除负面例子,以获得最终数据集,其中正例数量为负例数量的1比5。
谁是注释者?注释者是论文的作者和Upwork平台上的8名众包工人。众包工作者是以校对或数据录入为经验的英语母语人士。
注释者的身份已经匿名化。由于新闻标题是公开的,不希望标题中包含个人敏感信息。
该数据集的目的是促进呈现多样的新闻报道的应用程序。
通过简化开发可以对描述相同事件的标题进行分组的模型的过程,我们希望社区能够构建展示读者多样化来源的新闻的应用程序。
然而,需要注意的是,注释主要是由众包工人完成的,尽管注释者之间的一致性很高,但并不完美。因此,数据集中仍然存在注释者的偏见。
数据集中存在多个偏见源:
对于标题分组任务,注释者间的一致性较高(0.814),但并非完美。一些关于标题分组的决策是主观的,取决于读者的解释。
该数据集最初由加利福尼亚大学伯克利分校的Philippe Laban,Lucas Bandarkar和Marti Hearst创建。
数据集的许可状态取决于新闻标题的法律地位。通常认为新闻标题属于“公平使用”( American Bar blog post )。数据集仅分发标题、URL和发布日期。数据集的使用者可以通过查询URL直接获取其他信息(如正文内容、作者等)。
@inproceedings{Laban2021NewsHG, title={News Headline Grouping as a Challenging NLU Task}, author={Laban, Philippe and Bandarkar, Lucas and Hearst, Marti A}, booktitle={NAACL 2021}, publisher = {Association for Computational Linguistics}, year={2021} }
感谢 @tingofurro 添加了该数据集。