数据集:
multi_re_qa
MultiReQA 包含来自八个公开可用的 QA 数据集(包括 SearchQA、TriviaQA、HotpotQA、NaturalQuestions、SQuAD、BioASQ、RelationExtraction 和 TextbookQA)的句子边界注释。其中,包括 SearchQA、TriviaQA、HotpotQA、NaturalQuestions 和 SQuAD 在内的五个数据集包含训练和测试数据,包括 BioASQ、RelationExtraction 和 TextbookQA 在内的三个数据集仅包含测试数据(官方文档中还提到了 DuoRC,但没有具体说明)
SearchQA、TriviaQA、HotpotQA、NaturalQuestions、SQuAD、BioASQ、RelationExtraction、TextbookQA 和 DuoRC 的句子边界注释
通用格式为: { "candidate_id": <candidate_id>, "response_start": <response_start>, "response_end": <response_end> } ...
SearchQA 的一个示例:{'candidate_id': 'SearchQA_000077f3912049dfb4511db271697bad/_0_1', 'response_end': 306, 'response_start': 243}
{ "candidate_id": <STRING>, "response_start": <INT>, "response_end": <INT> } ...
仅以下数据集提供训练和开发拆分:
仅以下数据集提供测试拆分:
下表列出了每个数据集的候选句子数量。
| MultiReQA | ||
|---|---|---|
| train | test | |
| SearchQA | 629,160 | 454,836 |
| TriviaQA | 335,659 | 238,339 |
| HotpotQA | 104,973 | 52,191 |
| SQuAD | 87,133 | 10,642 |
| NaturalQuestions | 106,521 | 22,118 |
| BioASQ | - | 14,158 |
| RelationExtraction | - | 3,301 |
| TextbookQA | - | 3,701 |
MultiReQA 是一个新的多领域 ReQA 评估套件,由来自 MRQA shared task 的现有公开 QA 任务转换为 MultiReQA 基准格式组成。
初始数据收集是通过将 MRQA 共享任务中的现有 QA 数据集转换为 MultiReQA 基准格式来完成的。
谁是原语言制作者?[需要更多信息]
[需要更多信息]
谁是标注者?数据集的标注者/策划者为 mandyguo-xyguo 和 mwurts4google ,他们是官方 MultiReQA GitHub 存储库的贡献者
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
数据集的标注者/策划者为 mandyguo-xyguo 和 mwurts4google ,他们是官方 MultiReQA GitHub 存储库的贡献者
[需要更多信息]
@misc{m2020multireqa,
title={MultiReQA: A Cross-Domain Evaluation for Retrieval Question Answering Models},
author={Mandy Guo and Yinfei Yang and Daniel Cer and Qinlan Shen and Noah Constant},
year={2020},
eprint={2005.02507},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
感谢 @Karthik-Bhaskar 添加此数据集。