数据集:

wikitablequestions

任务:

问答

语言:

en

计算机处理:

monolingual

大小:

10K<n<100K

语言创建人:

found

批注创建人:

crowdsourced

源数据集:

original

预印本库:

arxiv:1508.00305

许可:

cc-by-4.0
英文

WikiTableQuestions 数据集卡片

数据集概述

WikiTableQuestions 数据集是用于半结构化表格问答任务的大规模数据集。

支持的任务和排行榜

问答,表格问答

语言

中文

数据集结构

数据实例

默认
  • 下载的数据集文件大小:29.27 MB
  • 生成的数据集大小:47.90 MB
  • 总磁盘使用量:77.18 MB

'validation' 的一个示例如下所示:

{
    "id": "nt-0",
    "question": "what was the last year where this team was a part of the usl a-league?",
    "answers": ["2004"],
    "table": {
        "header": ["Year", "Division", "League", ...], 
        "name": "csv/204-csv/590.csv", 
        "rows": [
           ["2001", "2", "USL A-League", ...],
           ["2002", "2", "USL A-League", ...], 
           ...
        ]
    }
}

数据字段

所有拆分的数据字段相同。

默认
  • id:字符串特征。
  • question:字符串特征。
  • answers:字符串特征列表。
  • table:包含的字典特征:
    • header:字符串特征列表。
    • rows:字符串特征列表的列表。
    • name:字符串特征。

数据拆分

name train validation test
default 11321 2831 4344

数据集创建

策划理由

【需要更多信息】

源数据

初始数据收集和归一化

【需要更多信息】

谁是源语言的产生者?

【需要更多信息】

注释

注释过程

【需要更多信息】

谁是注释者?

【需要更多信息】

个人和敏感信息

【需要更多信息】

使用数据的注意事项

数据的社会影响

【需要更多信息】

偏见讨论

【需要更多信息】

其他已知限制

【需要更多信息】

附加信息

数据集策划者

Panupong Pasupat 和 Percy Liang

许可信息

知识共享署名相同方式共享 4.0 国际许可

引用信息

@inproceedings{pasupat-liang-2015-compositional,
    title = "Compositional Semantic Parsing on Semi-Structured Tables",
    author = "Pasupat, Panupong and Liang, Percy",
    booktitle = "Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing (Volume 1: Long Papers)",
    month = jul,
    year = "2015",
    address = "Beijing, China",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/P15-1142",
    doi = "10.3115/v1/P15-1142",
    pages = "1470--1480",
}

贡献者

感谢 @SivilTaram 添加此数据集。