数据集:

trivia_qa

任务:

问答

文生文

子任务:

open-domain-qa open-domain-abstractive-qa extractive-qa

语言:

计算机处理:

monolingual

大小:

10K<n<100K 100K<n<1M

语言创建人:

machine-generated

批注创建人:

crowdsourced

源数据集:

original

预印本库:

arxiv:1705.03551

许可:

license:unknown

数据集介绍文件清单

英文

"trivia_qa"的数据集卡片

数据集概述

TriviaQA 是一个阅读理解数据集，包含超过65万个问题-答案-证据三元组。TriviaQA包括由知识爱好者撰写的95K个问题-答案对，并独立收集的证据文档，平均每个问题有6个提供高质量远程监督以回答问题的证据。

支持的任务和排行榜

More Information Needed

语言

英语。

数据集结构

数据实例

下载的数据集文件大小：2.67 GB
生成的数据集大小：16.02 GB
总共使用的磁盘空间：18.68 GB

'train' 的示例如下所示。

rc.nocontext

下载的数据集文件大小：2.67 GB
生成的数据集大小：126.27 MB
总共使用的磁盘空间：2.79 GB

'train' 的示例如下所示。

unfiltered

下载的数据集文件大小：3.30 GB
生成的数据集大小：29.24 GB
总共使用的磁盘空间：32.54 GB

'validation' 的示例如下所示。

unfiltered.nocontext

下载的数据集文件大小：632.55 MB
生成的数据集大小：74.56 MB
总共使用的磁盘空间：707.11 MB

'train' 的示例如下所示。

数据字段

数据字段在所有拆分中都是相同的。

问题：一个字符串特征。
问题ID：一个字符串特征。
问题来源：一个字符串特征。
实体页面：一个包含以下特征的字典特征：
- 文档来源：一个字符串特征。
- 文件名：一个字符串特征。
- 标题：一个字符串特征。
- Wiki上下文：一个字符串特征。
搜索结果：一个包含以下特征的字典特征：
- 描述：一个字符串特征。
- 文件名：一个字符串特征。
- 排名：一个整型特征。
- 标题：一个字符串特征。
- URL：一个字符串特征。
- 搜索上下文：一个字符串特征。
别名：一个字符串特征列表。
规范化的别名：一个字符串特征列表。
匹配的维基实体名称：一个字符串特征。
规范化的匹配维基实体名称：一个字符串特征。
规范化值：一个字符串特征。
类型：一个字符串特征。
值：一个字符串特征。

rc.nocontext

问题：一个字符串特征。
问题ID：一个字符串特征。
问题来源：一个字符串特征。
实体页面：一个包含以下特征的字典特征：
- 文档来源：一个字符串特征。
- 文件名：一个字符串特征。
- 标题：一个字符串特征。
- Wiki上下文：一个字符串特征。
搜索结果：一个包含以下特征的字典特征：
- 描述：一个字符串特征。
- 文件名：一个字符串特征。
- 排名：一个整型特征。
- 标题：一个字符串特征。
- URL：一个字符串特征。
- 搜索上下文：一个字符串特征。
别名：一个字符串特征列表。
规范化的别名：一个字符串特征列表。
匹配的维基实体名称：一个字符串特征。
规范化的匹配维基实体名称：一个字符串特征。
规范化值：一个字符串特征。
类型：一个字符串特征。
值：一个字符串特征。

unfiltered

问题：一个字符串特征。
问题ID：一个字符串特征。
问题来源：一个字符串特征。
实体页面：一个包含以下特征的字典特征：
- 文档来源：一个字符串特征。
- 文件名：一个字符串特征。
- 标题：一个字符串特征。
- Wiki上下文：一个字符串特征。
搜索结果：一个包含以下特征的字典特征：
- 描述：一个字符串特征。
- 文件名：一个字符串特征。
- 排名：一个整型特征。
- 标题：一个字符串特征。
- URL：一个字符串特征。
- 搜索上下文：一个字符串特征。
别名：一个字符串特征列表。
规范化的别名：一个字符串特征列表。
匹配的维基实体名称：一个字符串特征。
规范化的匹配维基实体名称：一个字符串特征。
规范化值：一个字符串特征。
类型：一个字符串特征。
值：一个字符串特征。

unfiltered.nocontext

问题：一个字符串特征。
问题ID：一个字符串特征。
问题来源：一个字符串特征。
实体页面：一个包含以下特征的字典特征：
- 文档来源：一个字符串特征。
- 文件名：一个字符串特征。
- 标题：一个字符串特征。
- Wiki上下文：一个字符串特征。
搜索结果：一个包含以下特征的字典特征：
- 描述：一个字符串特征。
- 文件名：一个字符串特征。
- 排名：一个整型特征。
- 标题：一个字符串特征。
- URL：一个字符串特征。
- 搜索上下文：一个字符串特征。
别名：一个字符串特征列表。
规范化的别名：一个字符串特征列表。
匹配的维基实体名称：一个字符串特征。
规范化的匹配维基实体名称：一个字符串特征。
规范化值：一个字符串特征。
类型：一个字符串特征。
值：一个字符串特征。

数据拆分

name	train	validation	test
rc	138384	18669	17210
rc.nocontext	138384	18669	17210
unfiltered	87622	11313	10832
unfiltered.nocontext	87622	11313	10832

数据集创建

策展理由

More Information Needed

源数据

初始数据收集和规范化

More Information Needed

语言的生产者是谁?

More Information Needed

标注

标注过程

More Information Needed

标注者是谁?

More Information Needed

个人和敏感信息

More Information Needed

使用数据的注意事项

附加信息

数据集策展人

More Information Needed

许可信息

华盛顿大学不拥有TriviaQA中包含的问题和文档的版权。

引用信息

@article{2017arXivtriviaqa,
       author = {{Joshi}, Mandar and {Choi}, Eunsol and {Weld},
                 Daniel and {Zettlemoyer}, Luke},
        title = "{triviaqa: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension}",
      journal = {arXiv e-prints},
         year = 2017,
          eid = {arXiv:1705.03551},
        pages = {arXiv:1705.03551},
archivePrefix = {arXiv},
       eprint = {1705.03551},
}

贡献

感谢 @thomwolf ， @patrickvonplaten ， @lewtun 添加此数据集。

作者:

佚名

数据集大小:

3.27 GB

"trivia_qa"的数据集卡片

数据集概述

支持的任务和排行榜

语言

数据集结构

数据实例

数据字段

数据拆分

数据集创建

策展理由

源数据

标注

个人和敏感信息

使用数据的注意事项

数据的社会影响

偏见讨论

其他已知限制

附加信息

数据集策展人

许可信息

引用信息

贡献