数据集:
shunk031/livedoor-news-corpus
本数据集收集了NHN Japan株式会社运营的“livedoor新闻”中适用于下列创作共用许可证的新闻文章,并尽可能去除了HTML标签进行了处理。
[需要更多信息]
[需要更多信息]
from datasets import load_dataset
dataset = load_dataset(
"shunk031/livedoor-news-corpus",
train_ratio=0.8,
val_ratio=0.1,
test_ratio=0.1,
random_state=42,
shuffle=True,
)
print(dataset)
# DatasetDict({
# train: Dataset({
# features: ['url', 'date', 'title', 'content', 'category'],
# num_rows: 5894
# })
# validation: Dataset({
# features: ['url', 'date', 'title', 'content', 'category'],
# num_rows: 737
# })
# test: Dataset({
# features: ['url', 'date', 'title', 'content', 'category'],
# num_rows: 736
# })
# })
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
谁是源语言的生产者?[需要更多信息]
[需要更多信息]
谁是注释者?[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
各文章文件适用于创作共用许可证的“署名-禁止演绎”条款。由于信件类别不同,因此请查看下载文件解压缩后所在的子目录中的相应LICENSE.txt文件以了解信用说明。livedoor是日本NHN株式会社的注册商标。
[需要更多信息]
感谢 RONDHUIT Co., Ltd. 创建此数据集。