数据集:

large_spanish_corpus

任务:

task_categories:other

语言:

计算机处理:

monolingual

大小:

100K<n<1M 100M<n<1B 10K<n<100K

语言创建人:

expert-generated

批注创建人:

no-annotation

源数据集:

original

许可:

mit

数据集介绍文件清单

英文

《大规模西班牙语语料库》数据集卡片

数据集简介

《大规模西班牙语语料库》是由15个未标记的西班牙语语料库组成，涵盖了从维基百科到欧洲议会笔记的内容。每个配置包含不同语料库的数据。例如，“all_wiki”仅包括来自西班牙语维基百科的示例：

from datasets import load_dataset
all_wiki = load_dataset('large_spanish_corpus', name='all_wiki')

默认情况下，配置设置为“combined”，加载所有语料库。

支持的任务和排行榜

[需要更多信息]

语言

西班牙语

数据集结构

数据实例

[需要更多信息]

数据字段

[需要更多信息]

数据拆分

以下是从该语料库的源存储库获取的内容：

西班牙语维基：包括维基百科、维基新闻、维基语录等。首先使用wikiextractor（ https://github.com/josecannete/wikiextractorforBERT ）处理了2019年4月20日的维基转储数据。
ParaCrawl：ParaCrawl的西班牙语部分（ http://opus.nlpl.eu/ParaCrawl.php ）
EUBookshop：EUBookshop的西班牙语部分（ http://opus.nlpl.eu/EUbookshop.php ）
MultiUN：MultiUN的西班牙语部分（ http://opus.nlpl.eu/MultiUN.php ）
OpenSubtitles：OpenSubtitles2018的西班牙语部分（ http://opus.nlpl.eu/OpenSubtitles-v2018.php ）
DGC：DGT的西班牙语部分（ http://opus.nlpl.eu/DGT.php ）
DOGC：DOGC的西班牙语部分（ http://opus.nlpl.eu/DOGC.php ）
ECB：ECB的西班牙语部分（ http://opus.nlpl.eu/ECB.php ）
EMEA：EMEA的西班牙语部分（ http://opus.nlpl.eu/EMEA.php ）
Europarl：Europarl的西班牙语部分（ http://opus.nlpl.eu/Europarl.php ）
GlobalVoices：GlobalVoices的西班牙语部分（ http://opus.nlpl.eu/GlobalVoices.php ）
JRC：JRC的西班牙语部分（ http://opus.nlpl.eu/JRC-Acquis.php ）
News-Commentary11：NCv11的西班牙语部分（ http://opus.nlpl.eu/News-Commentary-v11.php ）
TED：TED的西班牙语部分（ http://opus.nlpl.eu/TED2013.php ）
UN：联合国的西班牙语部分（ http://opus.nlpl.eu/UN.php ）

数据集创建

策划理由

[需要更多信息]

源数据

初始数据收集和规范化

[需要更多信息]

谁是源语言生成者？

[需要更多信息]

注释

注释过程

[需要更多信息]

谁是注释者？

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据时的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集策划者

[需要更多信息]

许可信息

[需要更多信息]

引用信息

[需要更多信息]

贡献

感谢 @lewtun 添加此数据集。

作者:

佚名

数据集大小:

5.4 GB