数据集:

large_spanish_corpus

语言:

es

计算机处理:

monolingual

语言创建人:

expert-generated

批注创建人:

no-annotation

源数据集:

original

许可:

mit
英文

《大规模西班牙语语料库》数据集卡片

数据集简介

《大规模西班牙语语料库》是由15个未标记的西班牙语语料库组成,涵盖了从维基百科到欧洲议会笔记的内容。每个配置包含不同语料库的数据。例如,“all_wiki”仅包括来自西班牙语维基百科的示例:

from datasets import load_dataset
all_wiki = load_dataset('large_spanish_corpus', name='all_wiki')

默认情况下,配置设置为“combined”,加载所有语料库。

支持的任务和排行榜

[需要更多信息]

语言

西班牙语

数据集结构

数据实例

[需要更多信息]

数据字段

[需要更多信息]

数据拆分

以下是从该语料库的源存储库获取的内容:

数据集创建

策划理由

[需要更多信息]

源数据

初始数据收集和规范化

[需要更多信息]

谁是源语言生成者?

[需要更多信息]

注释

注释过程

[需要更多信息]

谁是注释者?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据时的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集策划者

[需要更多信息]

许可信息

[需要更多信息]

引用信息

[需要更多信息]

贡献

感谢 @lewtun 添加此数据集。