数据集:
yhavinga/xsum_dutch
Xsum Dutch 🇳🇱🇧🇪 数据集是一个从英文翻译成荷兰语的数据集。
此数据集目前(2022年8月)有一个配置,即将默认配置 xsum 翻译为荷兰语,并转换为 yhavinga/t5-base-36L-ccmatrix-multi 。
极端摘要(XSum)数据集。
有三个特征:
'验证'的示例如下所示。
{
"document": "some-body",
"id": "29750031",
"summary": "some-sentence"
}
数据字段在所有拆分之间相同。
默认| name | train | validation | test |
|---|---|---|---|
| default | 204045 | 11332 | 11334 |
@article{Narayan2018DontGM,
title={Don't Give Me the Details, Just the Summary! Topic-Aware Convolutional Neural Networks for Extreme Summarization},
author={Shashi Narayan and Shay B. Cohen and Mirella Lapata},
journal={ArXiv},
year={2018},
volume={abs/1808.08745}
}
感谢 @thomwolf , @lewtun , @mariamabarham , @jbragg , @lhoestq , @patrickvonplaten 添加了该数据集的英文版本。该数据集是在Google通过 TPU Research Cloud 慷慨提供的Cloud TPU计算上进行的翻译。