英文

mC4 数据集卡片

数据集概要

这是 Common Crawl 网络爬取语料库的多语言版本。基于 Common Crawl 数据集:“ https://commoncrawl.org" ”。

这是由 AllenAI 准备的版本,托管在以下地址: https://huggingface.co/datasets/allenai/c4

共支持 108 种语言,下表中列出了这些语言。

注意,以“-Latn”结尾的语言只是使用拉丁字母表写的变体。

language code language name
af Afrikaans
am Amharic
ar Arabic
az Azerbaijani
be Belarusian
bg Bulgarian
bg-Latn Bulgarian (Latin)
bn Bangla
ca Catalan
ceb Cebuano
co Corsican
cs Czech
cy Welsh
da Danish
de German
el Greek
el-Latn Greek (Latin)
en English
eo Esperanto
es Spanish
et Estonian
eu Basque
fa Persian
fi Finnish
fil Filipino
fr French
fy Western Frisian
ga Irish
gd Scottish Gaelic
gl Galician
gu Gujarati
ha Hausa
haw Hawaiian
hi Hindi
hi-Latn Hindi (Latin script)
hmn Hmong, Mong
ht Haitian
hu Hungarian
hy Armenian
id Indonesian
ig Igbo
is Icelandic
it Italian
iw former Hebrew
ja Japanese
ja-Latn Japanese (Latin)
jv Javanese
ka Georgian
kk Kazakh
km Khmer
kn Kannada
ko Korean
ku Kurdish
ky Kyrgyz
la Latin
lb Luxembourgish
lo Lao
lt Lithuanian
lv Latvian
mg Malagasy
mi Maori
mk Macedonian
ml Malayalam
mn Mongolian
mr Marathi
ms Malay
mt Maltese
my Burmese
ne Nepali
nl Dutch
no Norwegian
ny Nyanja
pa Punjabi
pl Polish
ps Pashto
pt Portuguese
ro Romanian
ru Russian
ru-Latn Russian (Latin)
sd Sindhi
si Sinhala
sk Slovak
sl Slovenian
sm Samoan
sn Shona
so Somali
sq Albanian
sr Serbian
st Southern Sotho
su Sundanese
sv Swedish
sw Swahili
ta Tamil
te Telugu
tg Tajik
th Thai
tr Turkish
uk Ukrainian
und Unknown language
ur Urdu
uz Uzbek
vi Vietnamese
xh Xhosa
yi Yiddish
yo Yoruba
zh Chinese
zh-Latn Chinese (Latin)
zu Zulu

您可以如下加载任何语言的 mC4 子集:

from datasets import load_dataset

en_mc4 = load_dataset("mc4", "en")

甚至可以指定语言列表:

from datasets import load_dataset

mc4_subset_with_five_languages = load_dataset("mc4", languages=["en", "fr", "es", "de", "zh"])

支持的任务和榜单

mC4 主要用于预训练语言模型和词表示。

语言

该数据集支持 108 种语言。

数据集结构

数据实例

英语配置示例如下:

{'timestamp': '2018-06-24T01:32:39Z',
 'text': 'Farm Resources in Plumas County\nShow Beginning Farmer Organizations & Professionals (304)\nThere are 304 resources serving Plumas County in the following categories:\nMap of Beginning Farmer Organizations & Professionals serving Plumas County\nVictoria Fisher - Office Manager - Loyalton, CA\nAmy Lynn Rasband - UCCE Plumas-Sierra Administrative Assistant II - Quincy , CA\nShow Farm Income Opportunities Organizations & Professionals (353)\nThere are 353 resources serving Plumas County in the following categories:\nFarm Ranch And Forest Retailers (18)\nMap of Farm Income Opportunities Organizations & Professionals serving Plumas County\nWarner Valley Wildlife Area - Plumas County\nShow Farm Resources Organizations & Professionals (297)\nThere are 297 resources serving Plumas County in the following categories:\nMap of Farm Resources Organizations & Professionals serving Plumas County\nThere are 57 resources serving Plumas County in the following categories:\nMap of Organic Certification Organizations & Professionals serving Plumas County',
 'url': 'http://www.californialandcan.org/Plumas/Farm-Resources/'}

数据字段

数据具有多个字段:

  • url:来源的 URL,类型为字符串
  • text:文本内容,类型为字符串
  • timestamp:时间戳,类型为字符串

数据拆分

为构建 mC4,作者使用 CLD3 来识别 100 多种语言。每种语言的 mC4 子集在下表中列出:

config train validation
af ? ?
am ? ?
ar ? ?
az ? ?
be ? ?
bg ? ?
bg-Latn ? ?
bn ? ?
ca ? ?
ceb ? ?
co ? ?
cs ? ?
cy ? ?
da ? ?
de ? ?
el ? ?
el-Latn ? ?
en ? ?
eo ? ?
es ? ?
et ? ?
eu ? ?
fa ? ?
fi ? ?
fil ? ?
fr ? ?
fy ? ?
ga ? ?
gd ? ?
gl ? ?
gu ? ?
ha ? ?
haw ? ?
hi ? ?
hi-Latn ? ?
hmn ? ?
ht ? ?
hu ? ?
hy ? ?
id ? ?
ig ? ?
is ? ?
it ? ?
iw ? ?
ja ? ?
ja-Latn ? ?
jv ? ?
ka ? ?
kk ? ?
km ? ?
kn ? ?
ko ? ?
ku ? ?
ky ? ?
la ? ?
lb ? ?
lo ? ?
lt ? ?
lv ? ?
mg ? ?
mi ? ?
mk ? ?
ml ? ?
mn ? ?
mr ? ?
ms ? ?
mt ? ?
my ? ?
ne ? ?
nl ? ?
no ? ?
ny ? ?
pa ? ?
pl ? ?
ps ? ?
pt ? ?
ro ? ?
ru ? ?
ru-Latn ? ?
sd ? ?
si ? ?
sk ? ?
sl ? ?
sm ? ?
sn ? ?
so ? ?
sq ? ?
sr ? ?
st ? ?
su ? ?
sv ? ?
sw ? ?
ta ? ?
te ? ?
tg ? ?
th ? ?
tr ? ?
uk ? ?
und ? ?
ur ? ?
uz ? ?
vi ? ?
xh ? ?
yi ? ?
yo ? ?
zh ? ?
zh-Latn ? ?
zu ? ?

数据集创建

策划理由

[需要更多信息]

源数据

初始数据采集和归一化

[需要更多信息]

谁是源语言生产者?

[需要更多信息]

注释

注释过程

[需要更多信息]

谁是注释者?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的考虑事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

数据集策划者

[需要更多信息]

许可信息

AllenAI 使用 ODC-BY 条款发布此数据集。使用该数据集,您还必须遵守 Common Crawl 使用条款中有关数据集内容的规定。

引用信息

@article{2019t5,
    author = {Colin Raffel and Noam Shazeer and Adam Roberts and Katherine Lee and Sharan Narang and Michael Matena and Yanqi Zhou and Wei Li and Peter J. Liu},
    title = {Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer},
    journal = {arXiv e-prints},
    year = {2019},
    archivePrefix = {arXiv},
    eprint = {1910.10683},
}

贡献者

感谢 @dirkgr @lhoestq 添加了此数据集。