数据集:

web_questions

任务:

问答

子任务:

open-domain-qa

语言:

en

计算机处理:

monolingual

大小:

1K<n<10K

语言创建人:

found

批注创建人:

crowdsourced

源数据集:

original
英文

数据集卡片: "web_questions"

数据集摘要

此数据集包含6,642对问题/答案。这些问题可以通过Freebase进行回答,Freebase是一个大型知识图谱。这些问题主要围绕一个具体的命名实体。这些问题是网络上常见的问题(至少在2013年是如此)。

支持的任务和排行榜

More Information Needed

语言

More Information Needed

数据集结构

数据实例

默认
  • 下载的数据集文件大小: 1.27 MB
  • 生成的数据集大小: 0.83 MB
  • 使用的总磁盘空间: 2.10 MB

'train'的示例如下所示。

{
    "answers": ["Jamaican Creole English Language", "Jamaican English"],
    "question": "what does jamaican people speak?",
    "url": "http://www.freebase.com/view/en/jamaica"
}

数据字段

数据字段在所有拆分中都相同。

默认
  • url : 一个 string 特征。
  • question : 一个 string 特征。
  • answers : 一个 string 特征的列表。

数据拆分

name train test
default 3778 2032

数据集创建

策划理由

More Information Needed

源数据

初始数据收集和标准化

More Information Needed

资源语言的生产者是谁?

More Information Needed

注释

注释过程

More Information Needed

注释者是谁?

More Information Needed

个人和敏感信息

More Information Needed

使用数据时的注意事项

数据的社会影响

More Information Needed

偏差讨论

More Information Needed

其他已知限制

More Information Needed

附加信息

数据集策划者

More Information Needed

许可信息

More Information Needed

引用信息

@inproceedings{berant-etal-2013-semantic,
    title = "Semantic Parsing on {F}reebase from Question-Answer Pairs",
    author = "Berant, Jonathan  and
      Chou, Andrew  and
      Frostig, Roy  and
      Liang, Percy",
    booktitle = "Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing",
    month = oct,
    year = "2013",
    address = "Seattle, Washington, USA",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/D13-1160",
    pages = "1533--1544",
}

贡献者

感谢 @thomwolf , @mariamabarham , @lewtun 添加此数据集。