数据集:

shunk031/livedoor-news-corpus

英文

Livedoor新闻语料库数据集

数据集摘要

本数据集收集了NHN Japan株式会社运营的“livedoor新闻”中适用于下列创作共用许可证的新闻文章,并尽可能去除了HTML标签进行了处理。

支持的任务和排行榜

[需要更多信息]

语言

[需要更多信息]

数据集结构

数据实例

from datasets import load_dataset

dataset = load_dataset(
    "shunk031/livedoor-news-corpus", 
    train_ratio=0.8,
    val_ratio=0.1,
    test_ratio=0.1,
    random_state=42, 
    shuffle=True,
)

print(dataset)
# DatasetDict({
#     train: Dataset({
#         features: ['url', 'date', 'title', 'content', 'category'],
#         num_rows: 5894
#     })
#     validation: Dataset({
#         features: ['url', 'date', 'title', 'content', 'category'],
#         num_rows: 737
#     })
#     test: Dataset({
#         features: ['url', 'date', 'title', 'content', 'category'],
#         num_rows: 736
#     })
# })

数据字段

[需要更多信息]

数据集分割

[需要更多信息]

数据集创建

策划理由

[需要更多信息]

数据源

初始数据收集和规范化

[需要更多信息]

谁是源语言的生产者?

[需要更多信息]

注释

注释过程

[需要更多信息]

谁是注释者?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

数据集策划者

[需要更多信息]

许可信息

各文章文件适用于创作共用许可证的“署名-禁止演绎”条款。由于信件类别不同,因此请查看下载文件解压缩后所在的子目录中的相应LICENSE.txt文件以了解信用说明。livedoor是日本NHN株式会社的注册商标。

引用信息

[需要更多信息]

贡献者

感谢 RONDHUIT Co., Ltd. 创建此数据集。