数据集:
ccdv/govreport-summarization
用于对长文档进行摘要的数据集。改编自 这个 和 这个 数据集。如果您在 Transformers 脚本中添加了这一行到 summarization_name_mapping 变量中,该数据集与 run_summarization.py 脚本兼容。
该数据集有三个划分:训练集、验证集和测试集。使用 RoBERTa 分词器的令牌计数量。
@misc{huang2021efficient,
title={Efficient Attentions for Long Document Summarization},
author={Luyang Huang and Shuyang Cao and Nikolaus Parulian and Heng Ji and Lu Wang},
year={2021},
eprint={2104.02112},
archivePrefix={arXiv},
primaryClass={cs.CL}
}