数据集:
nlphuji/winogavil
语言:
计算机处理:
monolingual大小:
10K<n<100K语言创建人:
found批注创建人:
crowdsourced源数据集:
original预印本库:
arxiv:2207.12576许可:
WinoGAViL 是一个用于评估视觉和语言常识推理能力的挑战性数据集。给定一组图像、一个线索和一个数字 K,任务是选择 K 张最能与关联匹配的图像。该数据集是通过 WinoGAViL 线上游戏收集图像和语言关联而创建的(例如,狼人与满月的关联)。受流行的卡牌游戏 Codenames 的启发,一个间谍负责给出与若干候选图像相关的文本线索,另一个玩家必须识别它们。人类玩家在创建对手 AI 模型具有挑战性但仍可被其他人类玩家解决的关联时获得奖励。我们评估了几种先进的视觉和语言模型,发现它们对于人类来说很直观(Jaccard 相似系数>90%),但对于先进的 AI 模型来说非常具有挑战性,其中最佳模型(ViLT)的分数为52%,主要在关联视觉指引明显的情况下成功。我们的分析以及从玩家那里收集到的反馈表明,收集到的关联需要多种推理能力,包括常识、抽象等等。
https://winogavil.github.io/leaderboard . https://paperswithcode.com/dataset/winogavil .
https://colab.research.google.com/drive/19qcPovniLj2PiLlP75oFgsK-uhTr6SSi
英文。
候选图像(list):["犀牛", "避难所", "胡须", "跳蚤", "牛", "刮"] - 图像候选列表。线索(string):pogonophile - 生成的线索。关联图像(string):["犀牛", "胡须", "刮"] - 与用户选择的线索相关联的图像。愚弄 AI 的分数(int64):80 - 愚弄 AI 的间谍大师分数(100 - 模型分数),使用 CLIP RN50 模型。关联数量(int64):3 - 与线索关联的图像数量。候选人数量(int64):6 - 总候选人数。解答者 Jaccard 平均分数(float64):1.0 - 在生成的关联案例上的三个解答者分数平均值。解答者 Jaccard 标准差(float64):1.0 - 在生成的关联案例上的三个解答者分数标准差。关联案例ID(int64):367。
有一个单独的测试拆分。在伴随的论文和代码中,我们对其进行采样以创建不同的训练集,但预期使用方式是将 winogavil 作为测试集。不同候选人数会导致不同的难度级别: - 候选人数为5时,随机模型的预期得分为38%。 - 候选人数为6时,随机模型的预期得分为34%。 - 候选人数为10时,随机模型的预期得分为24%。 - 候选人数为12时,随机模型的预期得分为19%。
为什么候选人数为5时随机成功的概率为38%?这是一个二项分布的概率计算。
假设 N=5(候选人数),K=2(关联数量),可能会出现三种事件: (1) 在0个关联中,随机猜测的概率是正确的,它是0.3(详细情况如下),而 Jaccard 相似系数是0(正确标签和错误猜测之间没有交集)。因此,预期的随机得分是0。 (2) 在1个关联中,随机猜测的概率是正确的,它是0.6(交集=1,并集=3,一个正确的猜测和一个错误的猜测)。因此,预期的随机得分是0.6 * 0.33 = 0.198。 (3) 在2个关联中,随机猜测的概率是正确的,它是0.1(交集=2,并集=2)。因此,预期的随机得分是0.1 * 1 = 0.1。
要计算 (1) ,首先猜测应该是错误的。有 3 个“错误”的猜测和 5 个候选人,所以它的概率是 3/5。下一个猜测也应该是错误的。现在只剩下 2 个“错误”的猜测和 4 个候选人,所以它的概率是 2/4。将 3/5 * 2/4 相乘得到 0.3。 (2) 和 (3) 同理。
现在我们可以对 K=3 进行相同的计算。 假设 N=5(候选人数),K=3(关联数量),可能会出现四种事件: (4) 在0个关联中,随机猜测的概率是正确的,它是0(交集=0)。因此,预期的随机得分是0。 (5) 在1个关联中,随机猜测的概率是正确的,它是0.3(交集=1,并集=4)。因此,预期的随机得分是0.3 * 0.2 = 0.06。 (6) 在2个关联中,随机猜测的概率是正确的,它是0.6(交集=2,并集=4)。因此,预期的随机得分是0.6 * 5 = 0.3。 (7) 在3个关联中,随机猜测的概率是正确的,它是0.1(交集=3,并集=3)。因此,预期的随机得分是0.1 * 1 = 0.1。
对 0.298 和 0.46 取平均值,得到 0.379。
可以使用相同的方法计算 6 个候选人(以及 K=2、3、4)、10 个候选人(以及 K=2、3、4、5)和 123 个候选人(以及 K=2、3、4、5、6)的结果。
受流行的卡牌游戏 Codenames 的启发,一个“间谍大师”给出与若干候选图像相关的文本线索,另一个玩家必须识别它们。人类玩家在创建对手 AI 模型具有挑战性但仍可被其他人类玩家解决的关联时获得奖励。
我们支付了亚马逊机械土耳其工人来玩我们的游戏。
所有的关联都是通过人类标注者获得的。
CC-By 4.0
@article{bitton2022winogavil, title={WinoGAViL: Gamified Association Benchmark to Challenge Vision-and-Language Models}, author={Bitton, Yonatan and Guetta, Nitzan Bitton and Yosef, Ron and Elovici, Yuval and Bansal, Mohit and Stanovsky, Gabriel and Schwartz, Roy}, journal={arXiv preprint arXiv:2207.12576}, year={2022}