"trivia_qa"的数据集卡片 
   数据集概述 
  TriviaQA 是一个阅读理解数据集,包含超过65万个问题-答案-证据三元组。TriviaQA包括由知识爱好者撰写的95K个问题-答案对,并独立收集的证据文档,平均每个问题有6个提供高质量远程监督以回答问题的证据。
   支持的任务和排行榜 
   
   More Information Needed
   
   语言 
   英语。 
   数据集结构 
   数据实例 
 rc 
  -  下载的数据集文件大小:2.67 GB 
-  生成的数据集大小:16.02 GB 
-  总共使用的磁盘空间:18.68 GB 
 'train' 的示例如下所示。 
 rc.nocontext 
  -  下载的数据集文件大小:2.67 GB 
-  生成的数据集大小:126.27 MB 
-  总共使用的磁盘空间:2.79 GB 
 'train' 的示例如下所示。 
 unfiltered 
  -  下载的数据集文件大小:3.30 GB 
-  生成的数据集大小:29.24 GB 
-  总共使用的磁盘空间:32.54 GB 
 'validation' 的示例如下所示。 
 unfiltered.nocontext 
  -  下载的数据集文件大小:632.55 MB 
-  生成的数据集大小:74.56 MB 
-  总共使用的磁盘空间:707.11 MB 
 'train' 的示例如下所示。 
   数据字段 
  数据字段在所有拆分中都是相同的。 
 rc 
  -  问题:一个字符串特征。 
-  问题ID:一个字符串特征。 
-  问题来源:一个字符串特征。 
-  实体页面:一个包含以下特征的字典特征:   -  文档来源:一个字符串特征。 
-  文件名:一个字符串特征。 
-  标题:一个字符串特征。 
-  Wiki上下文:一个字符串特征。 
 
-  搜索结果:一个包含以下特征的字典特征:   -  描述:一个字符串特征。 
-  文件名:一个字符串特征。 
-  排名:一个整型特征。 
-  标题:一个字符串特征。 
-  URL:一个字符串特征。 
-  搜索上下文:一个字符串特征。 
 
-  别名:一个字符串特征列表。 
-  规范化的别名:一个字符串特征列表。 
-  匹配的维基实体名称:一个字符串特征。 
-  规范化的匹配维基实体名称:一个字符串特征。 
-  规范化值:一个字符串特征。 
-  类型:一个字符串特征。 
-  值:一个字符串特征。 
 rc.nocontext 
  -  问题:一个字符串特征。 
-  问题ID:一个字符串特征。 
-  问题来源:一个字符串特征。 
-  实体页面:一个包含以下特征的字典特征:   -  文档来源:一个字符串特征。 
-  文件名:一个字符串特征。 
-  标题:一个字符串特征。 
-  Wiki上下文:一个字符串特征。 
 
-  搜索结果:一个包含以下特征的字典特征:   -  描述:一个字符串特征。 
-  文件名:一个字符串特征。 
-  排名:一个整型特征。 
-  标题:一个字符串特征。 
-  URL:一个字符串特征。 
-  搜索上下文:一个字符串特征。 
 
-  别名:一个字符串特征列表。 
-  规范化的别名:一个字符串特征列表。 
-  匹配的维基实体名称:一个字符串特征。 
-  规范化的匹配维基实体名称:一个字符串特征。 
-  规范化值:一个字符串特征。 
-  类型:一个字符串特征。 
-  值:一个字符串特征。 
 unfiltered 
  -  问题:一个字符串特征。 
-  问题ID:一个字符串特征。 
-  问题来源:一个字符串特征。 
-  实体页面:一个包含以下特征的字典特征:   -  文档来源:一个字符串特征。 
-  文件名:一个字符串特征。 
-  标题:一个字符串特征。 
-  Wiki上下文:一个字符串特征。 
 
-  搜索结果:一个包含以下特征的字典特征:   -  描述:一个字符串特征。 
-  文件名:一个字符串特征。 
-  排名:一个整型特征。 
-  标题:一个字符串特征。 
-  URL:一个字符串特征。 
-  搜索上下文:一个字符串特征。 
 
-  别名:一个字符串特征列表。 
-  规范化的别名:一个字符串特征列表。 
-  匹配的维基实体名称:一个字符串特征。 
-  规范化的匹配维基实体名称:一个字符串特征。 
-  规范化值:一个字符串特征。 
-  类型:一个字符串特征。 
-  值:一个字符串特征。 
 unfiltered.nocontext 
  -  问题:一个字符串特征。 
-  问题ID:一个字符串特征。 
-  问题来源:一个字符串特征。 
-  实体页面:一个包含以下特征的字典特征:   -  文档来源:一个字符串特征。 
-  文件名:一个字符串特征。 
-  标题:一个字符串特征。 
-  Wiki上下文:一个字符串特征。 
 
-  搜索结果:一个包含以下特征的字典特征:   -  描述:一个字符串特征。 
-  文件名:一个字符串特征。 
-  排名:一个整型特征。 
-  标题:一个字符串特征。 
-  URL:一个字符串特征。 
-  搜索上下文:一个字符串特征。 
 
-  别名:一个字符串特征列表。 
-  规范化的别名:一个字符串特征列表。 
-  匹配的维基实体名称:一个字符串特征。 
-  规范化的匹配维基实体名称:一个字符串特征。 
-  规范化值:一个字符串特征。 
-  类型:一个字符串特征。 
-  值:一个字符串特征。 
  数据拆分 
 
  
   
    | name | train | validation | test | 
  
  
   
    | rc | 138384 | 18669 | 17210 | 
   
    | rc.nocontext | 138384 | 18669 | 17210 | 
   
    | unfiltered | 87622 | 11313 | 10832 | 
   
    | unfiltered.nocontext | 87622 | 11313 | 10832 | 
  
 
   数据集创建 
   策展理由 
   
   More Information Needed
   
   源数据 
 初始数据收集和规范化 
  
   More Information Needed
   
 语言的生产者是谁? 
  
   More Information Needed
   
   标注 
 标注过程 
  
   More Information Needed
   
 标注者是谁? 
  
   More Information Needed
   
   个人和敏感信息 
   
   More Information Needed
   
   使用数据的注意事项 
   数据的社会影响 
   
   More Information Needed
   
   偏见讨论 
   
   More Information Needed
   
   其他已知限制 
   
   More Information Needed
   
   附加信息 
   数据集策展人 
   
   More Information Needed
   
   许可信息 
  华盛顿大学不拥有TriviaQA中包含的问题和文档的版权。 
   引用信息 
 
@article{2017arXivtriviaqa,
       author = {{Joshi}, Mandar and {Choi}, Eunsol and {Weld},
                 Daniel and {Zettlemoyer}, Luke},
        title = "{triviaqa: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension}",
      journal = {arXiv e-prints},
         year = 2017,
          eid = {arXiv:1705.03551},
        pages = {arXiv:1705.03551},
archivePrefix = {arXiv},
       eprint = {1705.03551},
}
   贡献 
  感谢 
   @thomwolf
   , 
   @patrickvonplaten
   , 
   @lewtun
   添加此数据集。