数据集:

wikitext

英文

"wikitext" 的数据集卡片

数据集概要

WikiText是一个语言建模数据集,包含了从维基百科的优秀和精选文章中提取的1亿多个标记。该数据集基于创作共用许可证发布。

与Penn Treebank(PTB)的预处理版本相比,WikiText-2的规模增加了2倍以上,WikiText-103的规模增加了110倍以上。WikiText数据集还具有更大的词汇量,并保留了原始大小写、标点符号和数字,而这些都在PTB中被删除。由于由整篇文章组成,该数据集非常适合能够利用长期依赖关系的模型。

每个子集都有两个不同的变体:

  • 原始(用于字符级工作)包含添加了未知标记之前的原始标记。
  • 非原始(用于词级工作)仅包含其词汇表中的标记(wiki.train.tokens、wiki.valid.tokens和wiki.test.tokens)。未知标记已替换为。

支持的任务和排行榜

More Information Needed

语言

More Information Needed

数据集结构

数据实例

wikitext-103-raw-v1
  • 下载的数据集文件大小: 191.98 MB
  • 生成的数据集大小: 549.42 MB
  • 使用的总磁盘空间: 741.41 MB

'validation'的示例如下所示。

This example was too long and was cropped:

{
    "text": "\" The gold dollar or gold one @-@ dollar piece was a coin struck as a regular issue by the United States Bureau of the Mint from..."
}
wikitext-103-v1
  • 下载的数据集文件大小: 190.23 MB
  • 生成的数据集大小: 548.05 MB
  • 使用的总磁盘空间: 738.27 MB

'train'的示例如下所示。

This example was too long and was cropped:

{
    "text": "\" Senjō no Valkyria 3 : <unk> Chronicles ( Japanese : 戦場のヴァルキュリア3 , lit . Valkyria of the Battlefield 3 ) , commonly referred to..."
}
wikitext-2-raw-v1
  • 下载的数据集文件大小: 4.72 MB
  • 生成的数据集大小: 13.54 MB
  • 使用的总磁盘空间: 18.26 MB

'train'的示例如下所示。

This example was too long and was cropped:

{
    "text": "\" The Sinclair Scientific Programmable was introduced in 1975 , with the same case as the Sinclair Oxford . It was larger than t..."
}
wikitext-2-v1
  • 下载的数据集文件大小: 4.48 MB
  • 生成的数据集大小: 13.34 MB
  • 使用的总磁盘空间: 17.82 MB

'train'的示例如下所示。

This example was too long and was cropped:

{
    "text": "\" Senjō no Valkyria 3 : <unk> Chronicles ( Japanese : 戦場のヴァルキュリア3 , lit . Valkyria of the Battlefield 3 ) , commonly referred to..."
}

数据字段

所有拆分之间的数据字段是相同的。

wikitext-103-raw-v1
  • text : 一个 string 特征。
wikitext-103-v1
  • text : 一个 string 特征。
wikitext-2-raw-v1
  • text : 一个 string 特征。
wikitext-2-v1
  • text : 一个 string 特征。

数据拆分

name train validation test
wikitext-103-raw-v1 1801350 3760 4358
wikitext-103-v1 1801350 3760 4358
wikitext-2-raw-v1 36718 3760 4358
wikitext-2-v1 36718 3760 4358

数据集创建

策划理由

More Information Needed

源数据

初始数据收集和规范化

More Information Needed

源语言生成者是谁?

More Information Needed

注释

注释过程

More Information Needed

注释者是谁?

More Information Needed

个人和敏感信息

More Information Needed

使用数据的注意事项

数据的社会影响

More Information Needed

偏见讨论

More Information Needed

其他已知限制

More Information Needed

附加信息

数据集策划者

More Information Needed

许可信息

该数据集可以根据 Creative Commons Attribution-ShareAlike License (CC BY-SA 4.0) 获取。

引用信息

@misc{merity2016pointer,
      title={Pointer Sentinel Mixture Models},
      author={Stephen Merity and Caiming Xiong and James Bradbury and Richard Socher},
      year={2016},
      eprint={1609.07843},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

贡献

感谢 @thomwolf @lewtun @patrickvonplaten @mariamabarham 添加此数据集。