数据集:

hotpot_qa

任务:

问答

语言:

en

计算机处理:

monolingual

大小:

100K<n<1M

语言创建人:

found

批注创建人:

crowdsourced

源数据集:

original

预印本库:

arxiv:1809.09600

其他:

multi-hop
英文

"hotpot_qa"数据集卡

数据集摘要

HotpotQA是一个包含113,000个基于维基百科的问题-答案对的数据集,具有四个关键特征:(1)问题要求查找和推理多个支持文档以回答;(2)问题多样化,并不受任何预先存在的知识库或知识模式的限制;(3)我们提供了需要推理的句级支持事实,允许QA系统进行强有力的监督和解释预测;(4)我们提供了一种新类型的事实对比问题,用于测试QA系统提取相关事实并进行必要比较的能力。

支持的任务和排行榜

More Information Needed

语言

More Information Needed

数据集结构

数据实例

distractor
  • 下载的数据集文件大小:612.75 MB
  • 生成的数据集大小:598.66 MB
  • 总使用的磁盘空间:1.21 GB

'validation'的示例如下所示。

{
    "answer": "This is the answer",
    "context": {
        "sentences": [["Sent 1"], ["Sent 21", "Sent 22"]],
        "title": ["Title1", "Title 2"]
    },
    "id": "000001",
    "level": "medium",
    "question": "What is the answer?",
    "supporting_facts": {
        "sent_id": [0, 1, 3],
        "title": ["Title of para 1", "Title of para 2", "Title of para 3"]
    },
    "type": "comparison"
}
fullwiki
  • 下载的数据集文件大小:660.10 MB
  • 生成的数据集大小:645.80 MB
  • 总使用的磁盘空间:1.31 GB

'train'的示例如下所示。

{
    "answer": "This is the answer",
    "context": {
        "sentences": [["Sent 1"], ["Sent 2"]],
        "title": ["Title1", "Title 2"]
    },
    "id": "000001",
    "level": "hard",
    "question": "What is the answer?",
    "supporting_facts": {
        "sent_id": [0, 1, 3],
        "title": ["Title of para 1", "Title of para 2", "Title of para 3"]
    },
    "type": "bridge"
}

数据字段

数据字段在所有拆分中都是相同的。

distractor
  • id:字符串特征。
  • question:字符串特征。
  • answer:字符串特征。
  • type:字符串特征。
  • level:字符串特征。
  • supporting_facts:包含以下内容的字典特征:
    • title:字符串特征。
    • sent_id:int32特征。
  • context:包含以下内容的字典特征:
    • title:字符串特征。
    • sentences:字符串特征列表。
fullwiki
  • id:字符串特征。
  • question:字符串特征。
  • answer:字符串特征。
  • type:字符串特征。
  • level:字符串特征。
  • supporting_facts:包含以下内容的字典特征:
    • title:字符串特征。
    • sent_id:int32特征。
  • context:包含以下内容的字典特征:
    • title:字符串特征。
    • sentences:字符串特征列表。

数据拆分

distractor
train validation
distractor 90447 7405
fullwiki
train validation test
fullwiki 90447 7405 7405

数据集创建

策划原理

More Information Needed

数据源

初始数据收集和标准化

More Information Needed

谁是源语言的制作者?

More Information Needed

注释

注释过程

More Information Needed

谁是注释者?

More Information Needed

个人和敏感信息

More Information Needed

使用数据的注意事项

数据集的社会影响

More Information Needed

偏见讨论

More Information Needed

其他已知限制

More Information Needed

附加信息

数据集策划者

More Information Needed

许可信息

HotpotQA在 CC BY-SA 4.0 License 下分发。

引文信息

@inproceedings{yang2018hotpotqa,
  title={{HotpotQA}: A Dataset for Diverse, Explainable Multi-hop Question Answering},
  author={Yang, Zhilin and Qi, Peng and Zhang, Saizheng and Bengio, Yoshua and Cohen, William W. and Salakhutdinov, Ruslan and Manning, Christopher D.},
  booktitle={Conference on Empirical Methods in Natural Language Processing ({EMNLP})},
  year={2018}
}

贡献

感谢 @albertvillanova @ghomasHudson 添加了此数据集。