数据集:

enwik8

语言:

en

计算机处理:

monolingual

大小:

10K<n<100K

语言创建人:

found

批注创建人:

no-annotation

源数据集:

original

许可:

mit
英文

enwik8 数据集卡片

数据集摘要

enwik8 数据集是英文维基百科的 XML 转储的前 100,000,000 (100M) 个字节,采集于2006年3月3日,通常用于评估模型对数据的压缩能力。

支持的任务和排行榜

可以在 paperswithcode 上找到字节级因果语言建模的排行榜。

语言

英语(en)

数据集结构

数据示例

  • 下载的数据集文件大小:36.45 MB
  • 生成的数据集大小:102.38 MB
  • 总计使用的磁盘空间:138.83 MB
{
   "text": "In [[Denmark]], the [[Freetown Christiania]] was created in downtown [[Copenhagen]]....",
}

数据字段

数据字段在所有数据集中都相同。

enwik8
  • text: 字符串特征。
enwik8-raw
  • text: 字符串特征。

数据拆分

dataset train
enwik8 1128024
enwik8- raw 1

数据集创建

策划理由

[需要更多信息]

数据源

初始数据收集和归一化

数据只是2006年3月3日的英文维基百科 XML 转储,enwik8 基于行拆分,enwik8-raw 则没有基于行拆分。

谁是数据源的语言生成者?

[需要更多信息]

注释

注释过程

[需要更多信息]

谁是标注者?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集策划者

[需要更多信息]

许可信息

[需要更多信息]

引用信息

数据集不属于任何出版物,因此无法引用。

贡献

感谢 @HallerPatrick 添加了这个数据集,感谢 @mtanghu 进行了更新。