数据集:

EleutherAI/wikitext_document_level

预印本库:

arxiv:1609.07843
英文

Wikitext 文档级别

这是 https://huggingface.co/datasets/wikitext 的修改版本,返回维基百科页面而不是逐行返回维基文本。原始的readme包含在下面。

“wikitext”数据集的数据卡

数据集概述

Wikitext语言建模数据集是从维基百科上的验证过的良好和特色文章集合中提取出的超过1亿个标记。该数据集在知识共享署名-相同方式共享许可下提供。

与预处理版本的宾夕法尼亚树库(PTB)相比,WikiText-2的大小增加了2倍以上,而WikiText-103的大小增加了110倍以上。WikiText数据集还具有更大的词汇量,并保留了原始大小写、标点符号和数字,而这些在PTB中被删除。由于它是由完整的文章组成的,所以该数据集非常适合那些能够利用长期依赖关系的模型。

支持的任务和排行榜

More Information Needed

语言

More Information Needed

数据集结构

数据实例

wikitext-103-raw-v1
  • 下载的数据集文件大小:183.09 MB
  • 生成的数据集大小:523.97 MB
  • 使用的总磁盘空间量:707.06 MB

'validation'的一个示例如下所示。

This example was too long and was cropped:

{
    "text": "\" The gold dollar or gold one @-@ dollar piece was a coin struck as a regular issue by the United States Bureau of the Mint from..."
}
wikitext-103-v1
  • 下载的数据集文件大小:181.42 MB
  • 生成的数据集大小:522.66 MB
  • 使用的总磁盘空间量:704.07 MB

'train'的一个示例如下所示。

This example was too long and was cropped:

{
    "text": "\" Senjō no Valkyria 3 : <unk> Chronicles ( Japanese : 戦場のヴァルキュリア3 , lit . Valkyria of the Battlefield 3 ) , commonly referred to..."
}
wikitext-2-raw-v1
  • 下载的数据集文件大小:4.50 MB
  • 生成的数据集大小:12.91 MB
  • 使用的总磁盘空间量:17.41 MB

'train'的一个示例如下所示。

This example was too long and was cropped:

{
    "text": "\" The Sinclair Scientific Programmable was introduced in 1975 , with the same case as the Sinclair Oxford . It was larger than t..."
}
wikitext-2-v1
  • 下载的数据集文件大小:4.27 MB
  • 生成的数据集大小:12.72 MB
  • 使用的总磁盘空间量:16.99 MB

'train'的一个示例如下所示。

This example was too long and was cropped:

{
    "text": "\" Senjō no Valkyria 3 : <unk> Chronicles ( Japanese : 戦場のヴァルキュリア3 , lit . Valkyria of the Battlefield 3 ) , commonly referred to..."
}

数据字段

所有拆分之间的数据字段相同。

wikitext-103-raw-v1
  • text:一个字符串特征。
wikitext-103-v1
  • text:一个字符串特征。
wikitext-2-raw-v1
  • text:一个字符串特征。
wikitext-2-v1
  • text:一个字符串特征。

数据拆分

name train validation test
wikitext-103-raw-v1 1801350 3760 4358
wikitext-103-v1 1801350 3760 4358
wikitext-2-raw-v1 36718 3760 4358
wikitext-2-v1 36718 3760 4358

数据集创建

策划理由

More Information Needed

源数据

初始数据收集和归一化

More Information Needed

源语言的制作者是谁?

More Information Needed

注释

注释过程

More Information Needed

注释者是谁?

More Information Needed

个人和敏感信息

More Information Needed

使用数据的考虑事项

数据的社会影响

More Information Needed

偏见讨论

More Information Needed

其他已知限制

More Information Needed

附加信息

数据集策划者

More Information Needed

许可信息

该数据集在 Creative Commons Attribution-ShareAlike License (CC BY-SA 4.0) 下可用。

引用信息

@misc{merity2016pointer,
      title={Pointer Sentinel Mixture Models},
      author={Stephen Merity and Caiming Xiong and James Bradbury and Richard Socher},
      year={2016},
      eprint={1609.07843},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

贡献

感谢 @thomwolf @lewtun @patrickvonplaten @mariamabarham 添加了该数据集。