数据集:
ghomasHudson/muld
多任务长文档基准测试
MuLD(多任务长文档基准测试)是一个包含6个自然语言处理任务的数据集,其中输入至少包含10,000个单词。该基准测试涵盖了各种任务类型,包括翻译、摘要、问答和分类。此外,输出长度从单词级别的分类标签到比输入文本更长的输出都有。
这6个MuLD任务包括:
数据以文本对文本的格式呈现,每个实例包含一个输入字符串、一个输出字符串和(可选的)JSON编码元数据。
{'input: 'Who was wearing the blue shirt? The beginning...', 'output': ['John'], 'metadata': ''}
每个任务包含不同的拆分,取决于源数据集中的可用内容:
| Task Name | Train | Validation | Test |
|---|---|---|---|
| NarrativeQA | ✔️ | ✔️ | ✔️ |
| HotpotQA | ✔️ | ✔️ | |
| AO3 Style Change Detection | ✔️ | ✔️ | ✔️ |
| Movie Character Types | ✔️ | ✔️ | ✔️ |
| VLSP | ✔️ | ||
| OpenSubtitles | ✔️ | ✔️ |
@misc{hudson2022muld,
title={MuLD: The Multitask Long Document Benchmark},
author={G Thomas Hudson and Noura Al Moubayed},
year={2022},
eprint={2202.07362},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
请同时引用直接在此基准测试中使用的论文。