英文

维基百科数据集卡片

本存储库是原始Hugging Face维基百科存储库 here 的派生版本。区别在于这个派生版本不再需要apache-beam,并且如果您的机器上有很多CPU,这个派生版本非常快。它将利用所有可用的CPU来创建一个干净的维基百科预训练数据集。在GCP n1-standard-96上处理所有英文维基百科不到一个小时。这个派生版本还被用于 OLM Project 来拉取并处理最新的维基百科快照。

数据集概要

包含所有语言的清理后的维基百科文章的维基百科数据集。这些数据集是从维基百科转储( https://dumps.wikimedia.org/ )构建的,每种语言一个拆分。每个示例包含一个完整维基百科文章的内容,并进行了清理以剥离markdown和不需要的部分(参考文献等)。

这些文章是使用mwparserfromhell工具解析的,并且我们使用multiprocess进行并行化处理。

要加载此数据集,您首先需要安装以下内容:

pip install mwparserfromhell==0.6.4 multiprocess==0.70.13

然后,您可以按照以下方式加载每种语言和每种日期的维基百科的任何子集:

from datasets import load_dataset

load_dataset("olm/wikipedia", language="en", date="20220920")

您可以在此处找到支持的语言和日期的完整列表 here

支持的任务和排行榜

该数据集通常用于语言建模。

语言

您可以在此处找到支持的语言列表 here

数据集结构

数据实例

一个示例如下所示:

{'id': '1',
 'url': 'https://simple.wikipedia.org/wiki/April',
 'title': 'April',
 'text': 'April is the fourth month...'
}

数据字段

所有配置的数据字段都相同:

  • id ( str ): 文章的ID。
  • url ( str ): 文章的URL。
  • title ( str ): 文章的标题。
  • text ( str ): 文章的文本内容。

策划理由

More Information Needed

来源数据

初始数据收集和规范化

More Information Needed

资源语言制作方是谁?

More Information Needed

注释

注释过程

More Information Needed

注释者是谁?

More Information Needed

个人和敏感信息

More Information Needed

使用数据的注意事项

数据的社会影响

More Information Needed

偏见讨论

More Information Needed

其他已知限制

More Information Needed

其他信息

数据集策划者

More Information Needed

许可信息

维基百科的大部分文本和许多图片都是根据 Creative Commons Attribution-ShareAlike 3.0 Unported License (CC BY-SA)和 GNU Free Documentation License (GFDL)(未版本化,没有不变的章节、封面文字或封底文字)进行共许可的。

一些文本仅根据CC BY-SA和CC BY-SA兼容许可证导入,不能在GFDL下再次使用;这样的文本将在页面页脚、页面历史或使用文本的文章的讨论页面中进行标识。

引用信息

@ONLINE{wikidump,
    author = "Wikimedia Foundation",
    title  = "Wikimedia Downloads",
    url    = "https://dumps.wikimedia.org"
}