数据集:

nlphuji/winogavil

语言:

计算机处理:

monolingual

大小:

10K<n<100K

语言创建人:

found

批注创建人:

crowdsourced

源数据集:

original

预印本库:

arxiv:2207.12576

其他:

commonsense-reasoning visual-reasoning

许可:

cc-by-4.0

数据集介绍文件清单

英文

WinoGAViL 数据集卡片

数据集描述
- 支持的任务和领先榜单
- 使用 CLIP 进行 WinoGAViL 评估的 Colab 笔记本代码
- 语言
数据集结构
- 数据字段
- 数据拆分
数据集创建
使用数据时的注意事项
- 许可信息
- 引用信息

数据集描述

WinoGAViL 是一个用于评估视觉和语言常识推理能力的挑战性数据集。给定一组图像、一个线索和一个数字 K，任务是选择 K 张最能与关联匹配的图像。该数据集是通过 WinoGAViL 线上游戏收集图像和语言关联而创建的（例如，狼人与满月的关联）。受流行的卡牌游戏 Codenames 的启发，一个间谍负责给出与若干候选图像相关的文本线索，另一个玩家必须识别它们。人类玩家在创建对手 AI 模型具有挑战性但仍可被其他人类玩家解决的关联时获得奖励。我们评估了几种先进的视觉和语言模型，发现它们对于人类来说很直观（Jaccard 相似系数>90%），但对于先进的 AI 模型来说非常具有挑战性，其中最佳模型（ViLT）的分数为52%，主要在关联视觉指引明显的情况下成功。我们的分析以及从玩家那里收集到的反馈表明，收集到的关联需要多种推理能力，包括常识、抽象等等。

主页: https://winogavil.github.io/
Colab: https://colab.research.google.com/drive/19qcPovniLj2PiLlP75oFgsK-uhTr6SSi
代码库: https://github.com/WinoGAViL/WinoGAViL-experiments/
论文: https://arxiv.org/abs/2207.12576
领先榜单: https://winogavil.github.io/leaderboard
联系人: winogavil@gmail.com; yonatanbitton1@gmail.com

支持的任务和领先榜单

https://winogavil.github.io/leaderboard . https://paperswithcode.com/dataset/winogavil .

使用 CLIP 进行 WinoGAViL 评估的 Colab 笔记本代码

https://colab.research.google.com/drive/19qcPovniLj2PiLlP75oFgsK-uhTr6SSi

语言

英文。

数据集结构

数据字段

候选图像（list）：["犀牛", "避难所", "胡须", "跳蚤", "牛", "刮"] - 图像候选列表。线索（string）：pogonophile - 生成的线索。关联图像（string）：["犀牛", "胡须", "刮"] - 与用户选择的线索相关联的图像。愚弄 AI 的分数（int64）：80 - 愚弄 AI 的间谍大师分数（100 - 模型分数），使用 CLIP RN50 模型。关联数量（int64）：3 - 与线索关联的图像数量。候选人数量（int64）：6 - 总候选人数。解答者 Jaccard 平均分数（float64）：1.0 - 在生成的关联案例上的三个解答者分数平均值。解答者 Jaccard 标准差（float64）：1.0 - 在生成的关联案例上的三个解答者分数标准差。关联案例ID（int64）：367。

数据拆分

有一个单独的测试拆分。在伴随的论文和代码中，我们对其进行采样以创建不同的训练集，但预期使用方式是将 winogavil 作为测试集。不同候选人数会导致不同的难度级别： - 候选人数为5时，随机模型的预期得分为38%。 - 候选人数为6时，随机模型的预期得分为34%。 - 候选人数为10时，随机模型的预期得分为24%。 - 候选人数为12时，随机模型的预期得分为19%。

为什么候选人数为5时随机成功的概率为38%？

这是一个二项分布的概率计算。

假设 N=5（候选人数），K=2（关联数量），可能会出现三种事件： (1) 在0个关联中，随机猜测的概率是正确的，它是0.3（详细情况如下），而 Jaccard 相似系数是0（正确标签和错误猜测之间没有交集）。因此，预期的随机得分是0。 (2) 在1个关联中，随机猜测的概率是正确的，它是0.6（交集=1，并集=3，一个正确的猜测和一个错误的猜测）。因此，预期的随机得分是0.6 * 0.33 = 0.198。 (3) 在2个关联中，随机猜测的概率是正确的，它是0.1（交集=2，并集=2）。因此，预期的随机得分是0.1 * 1 = 0.1。

总而言之，当 K=2 时，预期得分是 0+0.198+0.1 = 0.298。

要计算 (1) ，首先猜测应该是错误的。有 3 个“错误”的猜测和 5 个候选人，所以它的概率是 3/5。下一个猜测也应该是错误的。现在只剩下 2 个“错误”的猜测和 4 个候选人，所以它的概率是 2/4。将 3/5 * 2/4 相乘得到 0.3。 (2) 和 (3) 同理。

现在我们可以对 K=3 进行相同的计算。假设 N=5（候选人数），K=3（关联数量），可能会出现四种事件： (4) 在0个关联中，随机猜测的概率是正确的，它是0（交集=0）。因此，预期的随机得分是0。 (5) 在1个关联中，随机猜测的概率是正确的，它是0.3（交集=1，并集=4）。因此，预期的随机得分是0.3 * 0.2 = 0.06。 (6) 在2个关联中，随机猜测的概率是正确的，它是0.6（交集=2，并集=4）。因此，预期的随机得分是0.6 * 5 = 0.3。 (7) 在3个关联中，随机猜测的概率是正确的，它是0.1（交集=3，并集=3）。因此，预期的随机得分是0.1 * 1 = 0.1。

总而言之，当 K=3 时，预期得分是 0+0.06+0.3+0.1 = 0.46。

对 0.298 和 0.46 取平均值，得到 0.379。

可以使用相同的方法计算 6 个候选人（以及 K=2、3、4）、10 个候选人（以及 K=2、3、4、5）和 123 个候选人（以及 K=2、3、4、5、6）的结果。

数据集创建

受流行的卡牌游戏 Codenames 的启发，一个“间谍大师”给出与若干候选图像相关的文本线索，另一个玩家必须识别它们。人类玩家在创建对手 AI 模型具有挑战性但仍可被其他人类玩家解决的关联时获得奖励。

注释

注释过程

我们支付了亚马逊机械土耳其工人来玩我们的游戏。

使用数据时的注意事项

所有的关联都是通过人类标注者获得的。

许可信息

CC-By 4.0

引用信息

@article{bitton2022winogavil, title={WinoGAViL: Gamified Association Benchmark to Challenge Vision-and-Language Models}, author={Bitton, Yonatan and Guetta, Nitzan Bitton and Yosef, Ron and Elovici, Yuval and Bansal, Mohit and Stanovsky, Gabriel and Schwartz, Roy}, journal={arXiv preprint arXiv:2207.12576}, year={2022}

作者:

nlphuji

数据集大小:

4.39 GB