数据集:

nlphuji/winogavil

语言:

en

计算机处理:

monolingual

大小:

10K<n<100K

语言创建人:

found

批注创建人:

crowdsourced

源数据集:

original

预印本库:

arxiv:2207.12576

许可:

cc-by-4.0
英文

WinoGAViL 数据集卡片

  • 数据集描述
    • 支持的任务和领先榜单
    • 使用 CLIP 进行 WinoGAViL 评估的 Colab 笔记本代码
    • 语言
  • 数据集结构
    • 数据字段
    • 数据拆分
  • 数据集创建
  • 使用数据时的注意事项
    • 许可信息
    • 引用信息

数据集描述

WinoGAViL 是一个用于评估视觉和语言常识推理能力的挑战性数据集。给定一组图像、一个线索和一个数字 K,任务是选择 K 张最能与关联匹配的图像。该数据集是通过 WinoGAViL 线上游戏收集图像和语言关联而创建的(例如,狼人与满月的关联)。受流行的卡牌游戏 Codenames 的启发,一个间谍负责给出与若干候选图像相关的文本线索,另一个玩家必须识别它们。人类玩家在创建对手 AI 模型具有挑战性但仍可被其他人类玩家解决的关联时获得奖励。我们评估了几种先进的视觉和语言模型,发现它们对于人类来说很直观(Jaccard 相似系数>90%),但对于先进的 AI 模型来说非常具有挑战性,其中最佳模型(ViLT)的分数为52%,主要在关联视觉指引明显的情况下成功。我们的分析以及从玩家那里收集到的反馈表明,收集到的关联需要多种推理能力,包括常识、抽象等等。

支持的任务和领先榜单

https://winogavil.github.io/leaderboard . https://paperswithcode.com/dataset/winogavil .

使用 CLIP 进行 WinoGAViL 评估的 Colab 笔记本代码

https://colab.research.google.com/drive/19qcPovniLj2PiLlP75oFgsK-uhTr6SSi

语言

英文。

数据集结构

数据字段

候选图像(list):["犀牛", "避难所", "胡须", "跳蚤", "牛", "刮"] - 图像候选列表。线索(string):pogonophile - 生成的线索。关联图像(string):["犀牛", "胡须", "刮"] - 与用户选择的线索相关联的图像。愚弄 AI 的分数(int64):80 - 愚弄 AI 的间谍大师分数(100 - 模型分数),使用 CLIP RN50 模型。关联数量(int64):3 - 与线索关联的图像数量。候选人数量(int64):6 - 总候选人数。解答者 Jaccard 平均分数(float64):1.0 - 在生成的关联案例上的三个解答者分数平均值。解答者 Jaccard 标准差(float64):1.0 - 在生成的关联案例上的三个解答者分数标准差。关联案例ID(int64):367。

数据拆分

有一个单独的测试拆分。在伴随的论文和代码中,我们对其进行采样以创建不同的训练集,但预期使用方式是将 winogavil 作为测试集。不同候选人数会导致不同的难度级别: - 候选人数为5时,随机模型的预期得分为38%。 - 候选人数为6时,随机模型的预期得分为34%。 - 候选人数为10时,随机模型的预期得分为24%。 - 候选人数为12时,随机模型的预期得分为19%。

为什么候选人数为5时随机成功的概率为38%?

这是一个二项分布的概率计算。

假设 N=5(候选人数),K=2(关联数量),可能会出现三种事件: (1) 在0个关联中,随机猜测的概率是正确的,它是0.3(详细情况如下),而 Jaccard 相似系数是0(正确标签和错误猜测之间没有交集)。因此,预期的随机得分是0。 (2) 在1个关联中,随机猜测的概率是正确的,它是0.6(交集=1,并集=3,一个正确的猜测和一个错误的猜测)。因此,预期的随机得分是0.6 * 0.33 = 0.198。 (3) 在2个关联中,随机猜测的概率是正确的,它是0.1(交集=2,并集=2)。因此,预期的随机得分是0.1 * 1 = 0.1。

  • 总而言之,当 K=2 时,预期得分是 0+0.198+0.1 = 0.298。

要计算 (1) ,首先猜测应该是错误的。有 3 个“错误”的猜测和 5 个候选人,所以它的概率是 3/5。下一个猜测也应该是错误的。现在只剩下 2 个“错误”的猜测和 4 个候选人,所以它的概率是 2/4。将 3/5 * 2/4 相乘得到 0.3。 (2) 和 (3) 同理。

现在我们可以对 K=3 进行相同的计算。 假设 N=5(候选人数),K=3(关联数量),可能会出现四种事件: (4) 在0个关联中,随机猜测的概率是正确的,它是0(交集=0)。因此,预期的随机得分是0。 (5) 在1个关联中,随机猜测的概率是正确的,它是0.3(交集=1,并集=4)。因此,预期的随机得分是0.3 * 0.2 = 0.06。 (6) 在2个关联中,随机猜测的概率是正确的,它是0.6(交集=2,并集=4)。因此,预期的随机得分是0.6 * 5 = 0.3。 (7) 在3个关联中,随机猜测的概率是正确的,它是0.1(交集=3,并集=3)。因此,预期的随机得分是0.1 * 1 = 0.1。

  • 总而言之,当 K=3 时,预期得分是 0+0.06+0.3+0.1 = 0.46。

对 0.298 和 0.46 取平均值,得到 0.379。

可以使用相同的方法计算 6 个候选人(以及 K=2、3、4)、10 个候选人(以及 K=2、3、4、5)和 123 个候选人(以及 K=2、3、4、5、6)的结果。

数据集创建

受流行的卡牌游戏 Codenames 的启发,一个“间谍大师”给出与若干候选图像相关的文本线索,另一个玩家必须识别它们。人类玩家在创建对手 AI 模型具有挑战性但仍可被其他人类玩家解决的关联时获得奖励。

注释

注释过程

我们支付了亚马逊机械土耳其工人来玩我们的游戏。

使用数据时的注意事项

所有的关联都是通过人类标注者获得的。

许可信息

CC-By 4.0

引用信息

@article{bitton2022winogavil, title={WinoGAViL: Gamified Association Benchmark to Challenge Vision-and-Language Models}, author={Bitton, Yonatan and Guetta, Nitzan Bitton and Yosef, Ron and Elovici, Yuval and Bansal, Mohit and Stanovsky, Gabriel and Schwartz, Roy}, journal={arXiv preprint arXiv:2207.12576}, year={2022}