英文

"trivia_qa"的数据集卡片

数据集概述

TriviaQA 是一个阅读理解数据集,包含超过65万个问题-答案-证据三元组。TriviaQA包括由知识爱好者撰写的95K个问题-答案对,并独立收集的证据文档,平均每个问题有6个提供高质量远程监督以回答问题的证据。

支持的任务和排行榜

More Information Needed

语言

英语。

数据集结构

数据实例

rc
  • 下载的数据集文件大小:2.67 GB
  • 生成的数据集大小:16.02 GB
  • 总共使用的磁盘空间:18.68 GB

'train' 的示例如下所示。

rc.nocontext
  • 下载的数据集文件大小:2.67 GB
  • 生成的数据集大小:126.27 MB
  • 总共使用的磁盘空间:2.79 GB

'train' 的示例如下所示。

unfiltered
  • 下载的数据集文件大小:3.30 GB
  • 生成的数据集大小:29.24 GB
  • 总共使用的磁盘空间:32.54 GB

'validation' 的示例如下所示。

unfiltered.nocontext
  • 下载的数据集文件大小:632.55 MB
  • 生成的数据集大小:74.56 MB
  • 总共使用的磁盘空间:707.11 MB

'train' 的示例如下所示。

数据字段

数据字段在所有拆分中都是相同的。

rc
  • 问题:一个字符串特征。
  • 问题ID:一个字符串特征。
  • 问题来源:一个字符串特征。
  • 实体页面:一个包含以下特征的字典特征:
    • 文档来源:一个字符串特征。
    • 文件名:一个字符串特征。
    • 标题:一个字符串特征。
    • Wiki上下文:一个字符串特征。
  • 搜索结果:一个包含以下特征的字典特征:
    • 描述:一个字符串特征。
    • 文件名:一个字符串特征。
    • 排名:一个整型特征。
    • 标题:一个字符串特征。
    • URL:一个字符串特征。
    • 搜索上下文:一个字符串特征。
  • 别名:一个字符串特征列表。
  • 规范化的别名:一个字符串特征列表。
  • 匹配的维基实体名称:一个字符串特征。
  • 规范化的匹配维基实体名称:一个字符串特征。
  • 规范化值:一个字符串特征。
  • 类型:一个字符串特征。
  • 值:一个字符串特征。
rc.nocontext
  • 问题:一个字符串特征。
  • 问题ID:一个字符串特征。
  • 问题来源:一个字符串特征。
  • 实体页面:一个包含以下特征的字典特征:
    • 文档来源:一个字符串特征。
    • 文件名:一个字符串特征。
    • 标题:一个字符串特征。
    • Wiki上下文:一个字符串特征。
  • 搜索结果:一个包含以下特征的字典特征:
    • 描述:一个字符串特征。
    • 文件名:一个字符串特征。
    • 排名:一个整型特征。
    • 标题:一个字符串特征。
    • URL:一个字符串特征。
    • 搜索上下文:一个字符串特征。
  • 别名:一个字符串特征列表。
  • 规范化的别名:一个字符串特征列表。
  • 匹配的维基实体名称:一个字符串特征。
  • 规范化的匹配维基实体名称:一个字符串特征。
  • 规范化值:一个字符串特征。
  • 类型:一个字符串特征。
  • 值:一个字符串特征。
unfiltered
  • 问题:一个字符串特征。
  • 问题ID:一个字符串特征。
  • 问题来源:一个字符串特征。
  • 实体页面:一个包含以下特征的字典特征:
    • 文档来源:一个字符串特征。
    • 文件名:一个字符串特征。
    • 标题:一个字符串特征。
    • Wiki上下文:一个字符串特征。
  • 搜索结果:一个包含以下特征的字典特征:
    • 描述:一个字符串特征。
    • 文件名:一个字符串特征。
    • 排名:一个整型特征。
    • 标题:一个字符串特征。
    • URL:一个字符串特征。
    • 搜索上下文:一个字符串特征。
  • 别名:一个字符串特征列表。
  • 规范化的别名:一个字符串特征列表。
  • 匹配的维基实体名称:一个字符串特征。
  • 规范化的匹配维基实体名称:一个字符串特征。
  • 规范化值:一个字符串特征。
  • 类型:一个字符串特征。
  • 值:一个字符串特征。
unfiltered.nocontext
  • 问题:一个字符串特征。
  • 问题ID:一个字符串特征。
  • 问题来源:一个字符串特征。
  • 实体页面:一个包含以下特征的字典特征:
    • 文档来源:一个字符串特征。
    • 文件名:一个字符串特征。
    • 标题:一个字符串特征。
    • Wiki上下文:一个字符串特征。
  • 搜索结果:一个包含以下特征的字典特征:
    • 描述:一个字符串特征。
    • 文件名:一个字符串特征。
    • 排名:一个整型特征。
    • 标题:一个字符串特征。
    • URL:一个字符串特征。
    • 搜索上下文:一个字符串特征。
  • 别名:一个字符串特征列表。
  • 规范化的别名:一个字符串特征列表。
  • 匹配的维基实体名称:一个字符串特征。
  • 规范化的匹配维基实体名称:一个字符串特征。
  • 规范化值:一个字符串特征。
  • 类型:一个字符串特征。
  • 值:一个字符串特征。

数据拆分

name train validation test
rc 138384 18669 17210
rc.nocontext 138384 18669 17210
unfiltered 87622 11313 10832
unfiltered.nocontext 87622 11313 10832

数据集创建

策展理由

More Information Needed

源数据

初始数据收集和规范化

More Information Needed

语言的生产者是谁?

More Information Needed

标注

标注过程

More Information Needed

标注者是谁?

More Information Needed

个人和敏感信息

More Information Needed

使用数据的注意事项

数据的社会影响

More Information Needed

偏见讨论

More Information Needed

其他已知限制

More Information Needed

附加信息

数据集策展人

More Information Needed

许可信息

华盛顿大学不拥有TriviaQA中包含的问题和文档的版权。

引用信息

@article{2017arXivtriviaqa,
       author = {{Joshi}, Mandar and {Choi}, Eunsol and {Weld},
                 Daniel and {Zettlemoyer}, Luke},
        title = "{triviaqa: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension}",
      journal = {arXiv e-prints},
         year = 2017,
          eid = {arXiv:1705.03551},
        pages = {arXiv:1705.03551},
archivePrefix = {arXiv},
       eprint = {1705.03551},
}

贡献

感谢 @thomwolf @patrickvonplaten @lewtun 添加此数据集。