MuLD

多任务长文档基准测试

MuLD（多任务长文档基准测试）是一个包含6个自然语言处理任务的数据集，其中输入至少包含10,000个单词。该基准测试涵盖了各种任务类型，包括翻译、摘要、问答和分类。此外，输出长度从单词级别的分类标签到比输入文本更长的输出都有。

存储库： https://github.com/ghomasHudson/muld
论文： https://arxiv.org/abs/2202.07362

支持的任务和排行榜

这6个MuLD任务包括：

NarrativeQA - 一个要求理解书籍和电影情节的问答数据集。
HotpotQA - HotpotQA的扩展版本，需要在多个维基百科页面之间进行多跳推理。此扩展版本包括完整的维基百科页面。
OpenSubtitles - 基于OpenSubtitles 2018数据集的翻译数据集。提供每个电视节目的全部字幕，英文和德文每行一个字幕。
VLSP（Very Long Scientific Papers） - 科学论文摘要数据集的扩展版本。我们不再删除非常长的论文（例如论文），而是明确包含它们并删除任何短论文。
AO3风格变化检测 - 由多个“我们档案馆”作者的作品组成的文档，任务是预测每个段落的作者。
电影角色类型 - 预测一个具名角色在电影剧本中是英雄/反派。

数据集结构

数据以文本对文本的格式呈现，每个实例包含一个输入字符串、一个输出字符串和（可选的）JSON编码元数据。

{'input: 'Who was wearing the blue shirt? The beginning...', 'output': ['John'], 'metadata': ''}

数据字段

输入 : 一个字符串，其结构因任务而异，但以统一格式呈现
输出 : 一个字符串列表，其中每个字符串都是可能的答案。大多数实例只有一个答案，但像NarrativeQA和VLSP这样的任务可能有多个答案。
元数据 : 可能有助于评估的附加元数据。在此版本中，只有OpenSubtitles任务包含元数据（用于ContraPro注释）。

数据拆分

每个任务包含不同的拆分，取决于源数据集中的可用内容：

Task Name	Train	Validation	Test
NarrativeQA	✔️	✔️	✔️
HotpotQA	✔️	✔️
AO3 Style Change Detection	✔️	✔️	✔️
Movie Character Types	✔️	✔️	✔️
VLSP	✔️
OpenSubtitles	✔️	✔️

引用信息

@misc{hudson2022muld,
      title={MuLD: The Multitask Long Document Benchmark}, 
      author={G Thomas Hudson and Noura Al Moubayed},
      year={2022},
      eprint={2202.07362},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

请同时引用直接在此基准测试中使用的论文。

作者:

ghomasHudson

数据集大小:

5.89 GB