数据集:

hotpot_qa

任务:

问答

语言:

计算机处理:

monolingual

大小:

100K<n<1M

语言创建人:

found

批注创建人:

crowdsourced

源数据集:

original

预印本库:

arxiv:1809.09600

其他:

multi-hop

许可:

cc-by-sa-4.0

数据集介绍文件清单

英文

"hotpot_qa"数据集卡

数据集摘要

HotpotQA是一个包含113,000个基于维基百科的问题-答案对的数据集，具有四个关键特征：(1)问题要求查找和推理多个支持文档以回答；(2)问题多样化，并不受任何预先存在的知识库或知识模式的限制；(3)我们提供了需要推理的句级支持事实，允许QA系统进行强有力的监督和解释预测；(4)我们提供了一种新类型的事实对比问题，用于测试QA系统提取相关事实并进行必要比较的能力。

支持的任务和排行榜

More Information Needed

语言

More Information Needed

数据集结构

数据实例

distractor

下载的数据集文件大小：612.75 MB
生成的数据集大小：598.66 MB
总使用的磁盘空间：1.21 GB

'validation'的示例如下所示。

{
    "answer": "This is the answer",
    "context": {
        "sentences": [["Sent 1"], ["Sent 21", "Sent 22"]],
        "title": ["Title1", "Title 2"]
    },
    "id": "000001",
    "level": "medium",
    "question": "What is the answer?",
    "supporting_facts": {
        "sent_id": [0, 1, 3],
        "title": ["Title of para 1", "Title of para 2", "Title of para 3"]
    },
    "type": "comparison"
}

fullwiki

下载的数据集文件大小：660.10 MB
生成的数据集大小：645.80 MB
总使用的磁盘空间：1.31 GB

'train'的示例如下所示。

{
    "answer": "This is the answer",
    "context": {
        "sentences": [["Sent 1"], ["Sent 2"]],
        "title": ["Title1", "Title 2"]
    },
    "id": "000001",
    "level": "hard",
    "question": "What is the answer?",
    "supporting_facts": {
        "sent_id": [0, 1, 3],
        "title": ["Title of para 1", "Title of para 2", "Title of para 3"]
    },
    "type": "bridge"
}

数据字段

数据字段在所有拆分中都是相同的。

distractor

id：字符串特征。
question：字符串特征。
answer：字符串特征。
type：字符串特征。
level：字符串特征。
supporting_facts：包含以下内容的字典特征：
- title：字符串特征。
- sent_id：int32特征。
context：包含以下内容的字典特征：
- title：字符串特征。
- sentences：字符串特征列表。

fullwiki

id：字符串特征。
question：字符串特征。
answer：字符串特征。
type：字符串特征。
level：字符串特征。
supporting_facts：包含以下内容的字典特征：
- title：字符串特征。
- sent_id：int32特征。
context：包含以下内容的字典特征：
- title：字符串特征。
- sentences：字符串特征列表。

数据拆分

distractor

train	validation
distractor	90447	7405

fullwiki

train	validation	test
fullwiki	90447	7405	7405

数据集创建

策划原理

More Information Needed

数据源

初始数据收集和标准化

More Information Needed

谁是源语言的制作者？

More Information Needed

注释

注释过程

More Information Needed

谁是注释者？

More Information Needed

个人和敏感信息

More Information Needed

使用数据的注意事项

附加信息

数据集策划者

More Information Needed

许可信息

HotpotQA在 CC BY-SA 4.0 License 下分发。

引文信息

@inproceedings{yang2018hotpotqa,
  title={{HotpotQA}: A Dataset for Diverse, Explainable Multi-hop Question Answering},
  author={Yang, Zhilin and Qi, Peng and Zhang, Saizheng and Bengio, Yoshua and Cohen, William W. and Salakhutdinov, Ruslan and Manning, Christopher D.},
  booktitle={Conference on Empirical Methods in Natural Language Processing ({EMNLP})},
  year={2018}
}

贡献

感谢 @albertvillanova ， @ghomasHudson 添加了此数据集。

作者:

佚名

数据集大小:

22.19 KB

"hotpot_qa"数据集卡

数据集摘要

支持的任务和排行榜

语言

数据集结构

数据实例

数据字段

数据拆分

数据集创建

策划原理

数据源

注释

个人和敏感信息

使用数据的注意事项

数据集的社会影响

偏见讨论

其他已知限制

附加信息

数据集策划者

许可信息

引文信息

贡献