英文

维基百科数据集概述

数据集概要

维基百科数据集包含所有语言的已清理文章。这些数据集是从维基百科转储文件( https://dumps.wikimedia.org/ )构建的,每种语言有一个分区。每个示例包含清理后的一个完整维基百科文章的内容,去除了markdown和不需要的部分(引用等)。

文章是使用mwparserfromhell工具解析的。

要加载此数据集,首先需要安装Apache Beam和mwparserfromhell:

pip install apache_beam mwparserfromhell

然后,您可以通过以下方式加载每种语言和日期的任何子集:

from datasets import load_dataset

load_dataset("wikipedia", language="sw", date="20220120", beam_runner=...)

其中,您可以将beam_runner作为任何Apache Beam支持的(分布式)数据处理运行器传递(请参阅 here )。将其设置为"DirectRunner"可在本机上运行。

您可以找到完整的语言和日期列表 here

HuggingFace已经对维基百科的一些子集进行了处理,您可以直接加载它们:

from datasets import load_dataset

load_dataset("wikipedia", "20220301.en")

预处理子集的列表如下:

  • "20220301.de"
  • "20220301.en"
  • "20220301.fr"
  • "20220301.frr"
  • "20220301.it"
  • "20220301.simple"

支持的任务和排行榜

该数据集通常用于语言建模。

语言

您可以在此找到语言列表 here

数据集结构

数据实例

一个示例如下所示:

{'id': '1',
 'url': 'https://simple.wikipedia.org/wiki/April',
 'title': 'April',
 'text': 'April is the fourth month...'
}

HuggingFace已经对维基百科的一些子集进行了处理,如下所示:

20220301.de
  • 下载的数据集文件大小:6.84 GB
  • 生成的数据集大小:9.34 GB
  • 使用的磁盘总量:16.18 GB
20220301.en
  • 下载的数据集文件大小:21.60 GB
  • 生成的数据集大小:21.26 GB
  • 使用的磁盘总量:42.86 GB
20220301.fr
  • 下载的数据集文件大小:5.87 GB
  • 生成的数据集大小:7.73 GB
  • 使用的磁盘总量:13.61 GB
20220301.frr
  • 下载的数据集文件大小:13.04 MB
  • 生成的数据集大小:9.57 MB
  • 使用的磁盘总量:22.62 MB
20220301.it
  • 下载的数据集文件大小:3.69 GB
  • 生成的数据集大小:4.76 GB
  • 使用的磁盘总量:8.45 GB
20220301.simple
  • 下载的数据集文件大小:251.32 MB
  • 生成的数据集大小:246.49 MB
  • 使用的磁盘总量:497.82 MB

数据字段

所有配置的数据字段相同:

  • id(str):文章的ID。
  • url(str):文章的URL。
  • title(str):文章的标题。
  • text(str):文章的文本内容。

数据拆分

这里是几个配置的示例数:

name train
20220301.de 2665357
20220301.en 6458670
20220301.fr 2402095
20220301.frr 15199
20220301.it 1743035
20220301.simple 205328

数据集创建

策划原因

More Information Needed

来源数据

初始数据收集和标准化

More Information Needed

谁是源语言制作商?

More Information Needed

注释

注释过程

More Information Needed

谁是标注者?

More Information Needed

个人和敏感信息

More Information Needed

使用数据的注意事项

数据的社会影响

More Information Needed

偏见讨论

More Information Needed

其他已知限制

More Information Needed

附加信息

数据集策划者

More Information Needed

许可信息

维基百科的大部分文字和许多图像都是根据 Creative Commons Attribution-ShareAlike 3.0 Unported License (CC BY-SA)和 GNU Free Documentation License (GFDL)(未版本化,没有不变部分、封面文字或封底文字)共同许可的。

一些文本仅在CC BY-SA和CC BY-SA兼容许可下导入,不能在GFDL下再次使用;这样的文本将在页面页脚、页面历史记录或使用文本的文章的讨论页面上进行标识。

引用信息

@ONLINE{wikidump,
    author = "Wikimedia Foundation",
    title  = "Wikimedia Downloads",
    url    = "https://dumps.wikimedia.org"
}

贡献者

感谢 @lewtun @mariamabarham @thomwolf @lhoestq @patrickvonplaten 添加了此数据集。