数据集:

guardian_authorship

任务:

文本分类

子任务:

multi-class-classification topic-classification

语言:

计算机处理:

monolingual

大小:

1K<n<10K

语言创建人:

found

批注创建人:

found

源数据集:

original

许可:

license:unknown

数据集介绍文件清单

英文

"guardian_authorship" 数据集卡片

数据集简介

这是一个跨主题的作者归属数据集。该数据集由Stamatatos 2013.1提供。1- 跨主题的场景基于Stamatatos 2017中的Table-4（例如cross_topic_1 => row 1:P S U&W）。2- 跨类型的场景基于同一论文中的Table-5（例如cross_genre_1 => row 1:B P S&U&W）。

3- 同一主题/类型的场景是通过按以下方式分组所有数据集创建的。例如，要使用same_topic并将数据集拆分为60-40，请使用：train_ds = load_dataset('guardian_authorship'，name="cross_topic_<<#>>"，split='train[:60%]+validation[:60%]+test[:60%]')tests_ds = load_dataset('guardian_authorship'，name="cross_topic_<<#>>"，split='train[-40%:]+validation[-40%:]+test[-40%:]')

重要提示：train+validation+test[:60%]会生成错误的拆分，因为数据不平衡

详细信息和更多示例请参见 https://huggingface.co/docs/datasets/splits.html

支持的任务和评估指标

More Information Needed

语言

More Information Needed

数据集结构

数据实例

cross_genre_1

下载的数据集文件大小：3.10 MB
生成的数据集大小：2.74 MB
总磁盘使用量：5.84 MB

'train'的示例如下所示。

{
    "article": "File 1a\n",
    "author": 0,
    "topic": 4
}

cross_genre_2

下载的数据集文件大小：3.10 MB
生成的数据集大小：2.74 MB
总磁盘使用量：5.84 MB

'validation'的示例如下所示。

{
    "article": "File 1a\n",
    "author": 0,
    "topic": 1
}

cross_genre_3

下载的数据集文件大小：3.10 MB
生成的数据集大小：2.74 MB
总磁盘使用量：5.84 MB

'validation'的示例如下所示。

{
    "article": "File 1a\n",
    "author": 0,
    "topic": 2
}

cross_genre_4

下载的数据集文件大小：3.10 MB
生成的数据集大小：2.74 MB
总磁盘使用量：5.84 MB

'validation'的示例如下所示。

{
    "article": "File 1a\n",
    "author": 0,
    "topic": 3
}

cross_topic_1

下载的数据集文件大小：3.10 MB
生成的数据集大小：2.34 MB
总磁盘使用量：5.43 MB

'validation'的示例如下所示。

{
    "article": "File 1a\n",
    "author": 0,
    "topic": 1
}

数据字段

所有拆分的数据字段都是相同的。

cross_genre_1

作者：一个分类标签，可能的值包括catherinebennett（0）、georgemonbiot（1）、hugoyoung（2）、jonathanfreedland（3）、martinkettle（4）。
主题：一个分类标签，可能的值包括Politics（0）、Society（1）、UK（2）、World（3）、Books（4）。
文章：一个字符串特征。

cross_genre_2

作者：一个分类标签，可能的值包括catherinebennett（0）、georgemonbiot（1）、hugoyoung（2）、jonathanfreedland（3）、martinkettle（4）。
主题：一个分类标签，可能的值包括Politics（0）、Society（1）、UK（2）、World（3）、Books（4）。
文章：一个字符串特征。

cross_genre_3

作者：一个分类标签，可能的值包括catherinebennett（0）、georgemonbiot（1）、hugoyoung（2）、jonathanfreedland（3）、martinkettle（4）。
主题：一个分类标签，可能的值包括Politics（0）、Society（1）、UK（2）、World（3）、Books（4）。
文章：一个字符串特征。

cross_genre_4

作者：一个分类标签，可能的值包括catherinebennett（0）、georgemonbiot（1）、hugoyoung（2）、jonathanfreedland（3）、martinkettle（4）。
主题：一个分类标签，可能的值包括Politics（0）、Society（1）、UK（2）、World（3）、Books（4）。
文章：一个字符串特征。

cross_topic_1

作者：一个分类标签，可能的值包括catherinebennett（0）、georgemonbiot（1）、hugoyoung（2）、jonathanfreedland（3）、martinkettle（4）。
主题：一个分类标签，可能的值包括Politics（0）、Society（1）、UK（2）、World（3）、Books（4）。
文章：一个字符串特征。

数据拆分

name	train	validation	test
cross_genre_1	63	112	269
cross_genre_2	63	62	319
cross_genre_3	63	90	291
cross_genre_4	63	117	264
cross_topic_1	112	62	207

数据集创建

策划理由

More Information Needed

源数据

初始数据收集和归一化

More Information Needed

源语言制作者是谁？

More Information Needed

注释

注释过程

More Information Needed

注释者是谁？

More Information Needed

个人和敏感信息

More Information Needed

使用数据的注意事项

附加信息

数据集策划者

More Information Needed

许可信息

More Information Needed

引用信息

@article{article,
    author = {Stamatatos, Efstathios},
    year = {2013},
    month = {01},
    pages = {421-439},
    title = {On the robustness of authorship attribution based on character n-gram features},
    volume = {21},
    journal = {Journal of Law and Policy}
}

@inproceedings{stamatatos2017authorship,
    title={Authorship attribution using text distortion},
    author={Stamatatos, Efstathios},
    booktitle={Proc. of the 15th Conf. of the European Chapter of the Association for Computational Linguistics},
    volume={1}
    pages={1138--1149},
    year={2017}
}

贡献者

感谢 @thomwolf 、 @eltoto1219 、 @malikaltakrori 添加了该数据集。

作者:

佚名

数据集大小:

89.86 KB

"guardian_authorship" 数据集卡片

数据集简介

支持的任务和评估指标

语言

数据集结构

数据实例

数据字段

数据拆分

数据集创建

策划理由

源数据

注释

个人和敏感信息

使用数据的注意事项

数据的社会影响

偏差讨论

其他已知限制

附加信息

数据集策划者

许可信息

引用信息

贡献者