数据集:

counter

英文

COUNTER 数据集卡片

数据集摘要

COUNTER(乌尔都语新闻文本复用语料库)包含了1200篇真实的新闻文本复用示例,内容涵盖了新闻领域。数据集在文档级别进行了手动注释,注释了三个层次的复用情况:完全派生、部分派生和非派生。

支持的任务和排行榜

其他任务:文本复用

语言

乌尔都语

数据集结构

数据实例

以下是数据集中的一个示例:

{"derived": {
"body" :"میر پور(وقت نیوز) بنگلہ دیش نے 5 میچوں کی سیریز کےآ خری میچ میں بھی فتح حاصل کر کے سیریز میں وائٹ واش کر دیا،زمبابوے ایک میچ بھی نہ جیت سکا۔آخری میچ میں زمبابوے کے 129 رنز کا ہدف بنگال ٹائیگرز نے 24.3 اوورز میں 5 وکٹوں کے نقصان پر حاصل کر لیا۔بنگلہ دیش کے شیر بنگلہ سٹیڈیم میر پور میں کھیلے گئے آخری ایک روزہ میچ میں زمبابوے کے کپتان چکمبورا نے ٹاس جیت کے بینٹگ کا فیصلہ کیا جو ان کی ٹیم کیلئے ڈراؤنا خواب ثابت ہوا اور پوری ٹیم 30 اوورز میں 128 رنز بنا کر پویلین لوٹ گئی زمبابوے کی پہلی وکٹ 16 رنز پر گری جب سکندر رضا صرف 9 رنز بنا کر مشرقی مرتضی کی بال پر آؤٹ ہوئے اس کے بعد مساکد ازااور سباندا کی پارٹنرشپنے ٹیم کا سکور95 رنز تک پہنچا دیا ۔مساکدازا 52 رنز بنا کر جبیر الحسن کا شکار بنے جبکہ سباندا نے 37 رنز کی اننگز کھیلی اس کے بعد کئی بھی زمبابوے کا کھلاڑی جم کر نہ کھیل سکا۔بنگال ٹائیگرز کی جانب سے عمدہ باؤلنگ کے نتیجے میں کپتان چکمبورا سمیت 8 کھلاڑی ڈبل فیگر کراس نہ کر سکے ۔بنگلہ دیش کی جانب سے ایک روزہ میچوں میں ڈیبیو کرنے والے تیج السلام نے اپنے پہلے ہی میچ میں ہیٹرک کی اسلام نے 7 اوورز میں صرف 14 رنز دئے اور چار کھلاڑیوں کع آؤٹ کیا جبکہ شکیب الحسن نے 30 رنز دیکر 3 اور جبیر الحسن نے41 رنز دیکر2 کھلاڑیوں کو پویلین کی راہ دکھائی ۔ 128 رنز کے جواب میں بنگال ٹائیگرز نے بیٹنگ شروع کی مشکلات کا سامنا رہا ان کے بھی ابتدائی 3 کھلاڑی 47 رنز پر پویلین لوٹ گئے۔ تمیم اقبال 10، انعام الحق8 رنز بنا کر آؤٹ ہوئے،آل راؤنڈر شکیب الحسن بغیر کوئی رنز بنائیپویلین لوٹ گئے وکٹ کیپر مشفق الرحیم صرف 11 رنز بنا کر چتارہ کا شکار بن گئے۔محمد اللہ نے51 رنز کی میچ وننگ اننگز کھیلی جبکہ صابر رحمٰن13 رنز بنا کر ناٹ آؤٹ رہے۔ زمبابوے کی جانب سے چتارہ نے 3 اور پنیا نگارا نے 2 کھلاڑیوں کو آؤٹ کیا ۔فتح کے ساتھ بنگلہ دیش نے سیریز میں وائٹ واش کر دیا۔زمبابوے کی ٹیم کوئی میچ نہ جیت سکی،تیج السلام کو میچ کا بہترین ایوارڈ دیا گیا جبکہ سیریز کا بہترین کھلاڑی مشفق الرحیم کو قرار دیا گیا۔",
"classification": 1,  # partially_derived
"domain": 1,  # sports
"filename": "0001p.xml",
"headline": "بنگلہ دیش کا زمبابوے کا ون ڈے سیریز میں 5-0 سے وائٹ واش",
 "newsdate": "02.12.14",
"newspaper": "daily_waqt",
"number_of_words_with_swr": 265,
"total_number_of_sentences": 13,
"total_number_of_words": 393},
"source": {
"body": "ڈھاکہ ۔ یکم دسمبر (اے پی پی) بنگلہ دیش نے زمبابوے کو ٹیسٹ کے بعد ون ڈے سیریز میں بھی وائٹ واش کر دیا۔ سیریز کے پانچویں اور آخری ون ڈے میچ میں بنگال ٹائیگرز نے زمبابوے کو 5 وکٹوں سے شکست دے دی، مہمان ٹیم پہلے بیٹنگ کرتے ہوئے 128 رنز پر ڈھیر ہوگئی۔ تیج الاسلام نے کیریئر کے پہلے ون ڈے میچ میں ہیٹ ٹرک کرکے نئی تاریخ رقم کر دی، انہوں نے 4 کھلاڑیوں کو آؤٹ کیا۔ جواب میں بنگلہ دیش نے ہدف 24.3 اوورز میں 5 وکٹوں کے نقصان پر حاصل کر لیا۔ محمد اللہ نے 51 رنز کی ناقابل شکست اننگز کھیلی۔ تفصیلات کے مطابق پیر کو شیر بنگلہ نیشنل سٹیڈیم، میرپور میں پانچویں اور آخری ون ڈے میچ میں زمبابوے کے کپتان ایلٹن چگمبورا نے ٹاس جیت کر پہلے بیٹنگ کا فیصلہ کیا جو غلط ثابت ہوا۔ زمبابوے کی پوری ٹیم ڈیبیو ون ڈے کھیلنے والے نوجوان لیفٹ آرم سپنر تیج الاسلام اور شکیب الحسن کی تباہ کن باؤلنگ کے باعث 30 اوورز میں 128 رنز پر ڈھیر ہوگئی۔ ہیملٹن ماساکڈزا 52 اور ووسی سبانڈا 37 رنز کے ساتھ نمایاں رہے، ان کے علاوہ کوئی بھی بلے باز دوہرا ہندسہ عبور نہ کر سکا۔ اپنا پہلا ون ڈے کھیلنے والے تیج الاسلام نے 11 رنز کے عوض 4 وکٹیں حاصل کیں جس میں شاندار ہیٹ ٹرک بھی شامل ہے، اس طرح وہ ڈیبیو میں ہیٹ ٹرک کرنے والے دنیا کے پہلے باؤلر بن گئے ہیں۔ شکیب الحسن نے تین اور زبیر حسین نے دو وکٹیں حاصل کیں۔ جواب میں بنگلہ دیش نے ہدف 24.3 اوورز میں 5 وکٹوں کے نقصان پر حاصل کر لیا۔ محمد اللہ نے 51 رنز کی ناقابل شکست اننگز کھیل کر ٹیم کی فتح میں اہم کردار ادا کیا۔ زمبابوے کی جانب سے ٹینڈائی چتارا نے تین اور تناشے پینگارا نے دو وکٹیں حاصل کیں۔",
"classification": 1,  # partially_derived
"domain": 1,  # sports
"filename": "0001.xml",
"headline": "بنگال ٹائیگرز نے کمزور زمبابوے کو ٹیسٹ کے بعد ون ڈے سیریز میں بھی وائٹ واش کر دیا، پانچویں اور آخری ون ڈے میچ میں بنگلہ دیش 5 وکٹوں سے فتح یاب، تیج الاسلام نے ڈیبیو ون ڈے میں ہیٹ ٹرک کرکے نئی تاریخ رقم کر دی"
"newsdate": "01.12.14",
"newspaper": "APP",
"number_of_words_with_swr": 245,
"total_number_of_sentences": 15,
"total_number_of_words": 352}}

数据字段

源文档:源文档

派生文档:派生文档对于每一对源文档和派生文档,我们有以下字段:

文件名(str):数据集中的文件名

标题(str):新闻项目的标题

正文(str):新闻项目的主要正文

文档总字数(int):文档中的词数

文档总句数(int):文档中的句子数

去除停用词后的词数(int):停用词去除后的词数

报纸(str):新闻项目发表的报纸

新闻日期(str):新闻项目发表的日期(DD.MM.YY)

领域(int):新闻项目的类别,从以下列表中选择:“business”、“sports”、“national”、“foreign”和“showbiz”

分类(int):来源于以下列表的三类复用:完全派生(WD)、部分派生(PD)和非派生(ND)

数据拆分

一个训练集包含600对文档。

该语料库由两种主要类型的文档组成:(1)源文档和(2)派生文档。语料库中共有1200份文档:600份是新闻机构的文章(源文档),另外600份是报纸的报道(派生文档)。整个语料库共包含275,387个词(token8),21,426个不同的词和10,841个句子。源文档的平均长度为227个词,而派生文档的平均长度为254个词。

数据集创建

组织理由

我们的主要目的是创建一个用于评估现有的文本复用检测系统的标准基准资源,特别是针对乌尔都语。为了生成一个具有现实示例的语料库,我们选择了新闻报道领域。在新闻报道中,同一条新闻会以不同的形式在不同的报纸上发布。所有报纸都会(记者和编辑)按照惯例复用(逐字逐句或修改)由新闻机构发布的新闻报道。

数据来源

COUNTER语料库由巴基斯坦的五家新闻机构发布的新闻文章(源文档)组成,它们是:巴基斯坦联合通讯社(APP)、国际新闻网络(INN)、巴基斯坦独立新闻社(INP)、国际新闻通讯社(NNI)和南亚新闻社(SANA)。对应的新闻报道(派生文档)是从巴基斯坦所有巴基斯坦全国报纸协会(APNS)订阅了这些新闻机构的九份国内发行量较大的日报中提取的,这些报纸包括Nawa-e-Waqt、Daily Dunya、Express、Jang、Daily Waqt、Daily Insaf、Daily Aaj、Daily Islam和Daily Pakistan。它们都是主流的国家级报纸,长期以来的日报,总发行量超过400万。新闻机构的文本(源文档)由这些新闻机构每天以电子形式提供。报纸报道(派生文档)则由三个志愿者在六个月的时间内(从2014年7月到12月)收集。数据收集主要针对国内、国外、商业、体育和娱乐领域。

谁是源语言的创作者?

[需要更多信息]

标注

语料库已经进行了文档级别的注释,标注了三类复用:完全派生(WD)、部分派生(PD)和非派生(ND)。派生文档集合中包含了各种程度的文本复用。其中一些报纸报道(派生文档)是从新闻机构的文本(源文档)中重写(逐字逐句或改写)而来的,而其他一些报道是记者独立创作的。对于前一种情况,源-派生文档对要么被标记为完全派生(WD),要么被标记为部分派生(PD),具体取决于新闻机构的文本对创建报纸报道时的文本复用量;而对于后一种情况,它们被标记为非派生(ND),因为记者没有从新闻机构的文本中复用任何内容,而是基于他们自己的观察和发现,创作和记录了报道。

上述注释分为三个阶段:(1)训练阶段,(2)注释,(3)冲突解决。在训练阶段,注释者A和B手动注释了60对文档,遵循初步版本的注释指南。之后进行了一次详细的会议讨论,讨论了问题和分歧。观察到PD和ND案例之间的不一致性最多,因为两者都难以区分这两类。原因是调整重写的门槛,即将文本大量改写或添加新信息使其成为独立撰写的(ND)。讨论后,稍微修改了注释指南,并保存了前60个注释结果。在注释阶段,另外的540对文档被两位注释者(A和B)手动检查。要求他们判断和分类(在文档级别)报纸报道(派生文档)根据从源(新闻机构文章)重写的文本量进入以下类别之一:其余的540对文档由两位注释者(A和B)手动检查。要求他们判断和分类(在文档级别)报纸报道(派生文档)根据从源(新闻机构文章)重写的文本量进入以下类别之一: 完全派生(WD):新闻机构的文本是复用新闻报道中的唯一来源,意味着它是源文本的逐字逐句复制。在这种情况下,大部分被复用的文本是源文本的逐字逐句复制。 部分派生(PD):新闻报道中的文本要么来自多个新闻机构,要么编辑人员在从新闻机构的文本重写时使用了大部分修改的文本。在这种情况下,派生文档的大部分部分包含了由记者自己发现的改写文本或新事实和数字。 非派生(ND):新闻机构的文本没有在报纸报道的制作中使用(尽管在两个文档中可能仍然存在相同的单词),派生文档具有完全不同的事实和数字,或者是从新闻机构的复制文本大量改写的。在这种情况下,派生文档是独立撰写的,并且包含了更多的新文本。

谁是注释者?

这项注释工作由三名注释者(A、B和C)进行,他们是乌尔都语的母语人士,也是改写机制的专家。他们都是毕业生,有着丰富的文本注释经验和高级的乌尔都语水平。

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

仅供研究目的使用的数据集。请查看数据集许可证获取更多信息。

附加信息

数据集策划人员

[需要更多信息]

许可信息

此数据集根据创作共用署名-非商业性使用-相同方式共享4.0国际许可协议进行许可。 (CC BY-NC-SA 4.0) .

引用信息

@Article{Sharjeel2016,
author="Sharjeel, Muhammad
and Nawab, Rao Muhammad Adeel
and Rayson, Paul",
title="COUNTER: corpus of Urdu news text reuse",
journal="Language Resources and Evaluation",
year="2016",
pages="1--27",
issn="1574-0218",
doi="10.1007/s10579-016-9367-2",
url="http://dx.doi.org/10.1007/s10579-016-9367-2"
}

贡献

感谢 @arkhalid 添加了此数据集。