数据集:

hans

语言:

en

计算机处理:

monolingual

大小:

10K<n<100K

语言创建人:

expert-generated

批注创建人:

expert-generated

源数据集:

original

预印本库:

arxiv:1902.01007
英文

"hans"数据集的数据卡

数据集概述

HANS数据集是一个NLI评估集,用于测试NLI模型可能学习的无效启发式假设。

支持的任务和排行榜

More Information Needed

语言

More Information Needed

数据集结构

数据实例

plain_text
  • 下载的数据集文件大小:30.94 MB
  • 生成的数据集大小:31.81 MB
  • 总使用的磁盘空间:62.76 MB

“train”的示例如下所示。

数据字段

所有拆分的数据字段相同。

plain_text
  • premise:字符串特征。
  • hypothesis:字符串特征。
  • label:分类标签,可能的值包括蕴涵(0),非蕴涵(1)。
  • parse_premise:字符串特征。
  • parse_hypothesis:字符串特征。
  • binary_parse_premise:字符串特征。
  • binary_parse_hypothesis:字符串特征。
  • heuristic:字符串特征。
  • subcase:字符串特征。
  • template:字符串特征。

数据拆分

name train validation
plain_text 30000 30000

数据集创建

策划理由

More Information Needed

源数据

初始数据收集和规范化

More Information Needed

谁是源语言制作人?

More Information Needed

注释

注释过程

More Information Needed

谁是注释者?

More Information Needed

个人和敏感信息

More Information Needed

使用数据的注意事项

数据的社会影响

More Information Needed

偏见讨论

More Information Needed

其他已知限制

More Information Needed

其他信息

数据集策划者

More Information Needed

许可信息

More Information Needed

引用信息

@article{DBLP:journals/corr/abs-1902-01007,
  author    = {R. Thomas McCoy and
               Ellie Pavlick and
               Tal Linzen},
  title     = {Right for the Wrong Reasons: Diagnosing Syntactic Heuristics in Natural
               Language Inference},
  journal   = {CoRR},
  volume    = {abs/1902.01007},
  year      = {2019},
  url       = {http://arxiv.org/abs/1902.01007},
  archivePrefix = {arXiv},
  eprint    = {1902.01007},
  timestamp = {Tue, 21 May 2019 18:03:36 +0200},
  biburl    = {https://dblp.org/rec/journals/corr/abs-1902-01007.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

贡献者

感谢 @TevenLeScao @thomwolf 添加了此数据集。