DeepMind推出Gecko:全面评估文本到图像AI模型

2024年04月30日 由 daydream 发表 63 0

谷歌DeepMind最近的一项研究揭示了我们在评估这些文本到图像AI模型性能时存在的隐藏问题。在预印本服务器arXiv上发表的研究中,他们推出了一种名为“Gecko”的新方法,旨在为这种新兴技术提供一个更全面、更可靠的评估标准。


微信截图_20240430094955


“尽管文本到图像的生成模型已经非常普及,但它们生成的图片并不一定完全符合给定的文字描述。”DeepMind团队在他们的论文《使用Gecko重新评估文本到图像的评估:关于指标、提示和人类评分》中提醒说。


他们指出,目前用于评估DALL-E、Midjourney和Stable Diffusion等模型能力的主要数据集和自动评估指标并不全面。小规模的人类评估给出的信息有限,而自动评估指标可能会忽略重要的细节,甚至与人类评审员的看法相悖。


Gecko的介绍:文本到图像模型的新基准


为了揭示这些问题,研究人员开发了Gecko——一套新的评估工具集,为文本到图像模型设置了更高的难度。Gecko向这些模型投放了2000个文字描述,这些描述涵盖了广泛的技能和复杂程度。它将这些描述细分为具体的子技能,超越了模糊的类别,以精确指出阻碍模型发展的具体瓶颈。


“这种基于技能的基准将描述分类为子技能,让从业者不仅能够确定哪些技能具有挑战性,还能确定这些技能在何种复杂程度上变得具有挑战性。”共同主要作者奥利维亚·威尔斯(Olivia Wiles)解释道。


微信截图_20240430095029


AI能力的更准确画像


研究人员还收集了超过10万个由人类对Gecko提示下多个领先模型生成图像的评分。通过收集不同模型和评估框架中这种前所未有的反馈数据量,这个基准能够区分性能差异是由于模型的真正限制、描述的模糊性还是评估方法的不一致性造成的。


“我们收集了四个模板和四个文本到图像模型的人类评分,总数超过10万个注释。”该研究强调说。“这使我们能够了解差异是由于描述本身的模糊性造成的,还是由于评估指标和模型质量差异造成的。”


最后,Gecko采用了一种增强的基于问题回答的自动评估指标,与现有指标相比,该指标与人类判断更为吻合。当用于在新基准上比较最先进的模型时,这种组合揭示了这些模型在优缺点方面以前未检测到的差异。


“我们引入了一种新的基于QA的自动评估指标,该指标与我们新数据集的人类评分、不同人类模板以及TIFA160上的现有指标相比,具有更好的相关性。”论文指出。总体而言,DeepMind自己的Muse模型在经受Gecko的考验时表现最为出色。


研究人员希望他们的工作能够表明,在将文本到图像的AI部署到现实世界之前,使用多样化的基准和评估方法来真正了解其能做什么和不能做什么的重要性。他们计划将Gecko的代码和数据免费公开,以促进这一领域的进一步进步。


“我们的研究表明,数据集和评估指标的选择对性能感知有很大影响。”威尔斯说。“我们希望Gecko能够在未来更准确地评估和诊断模型能力。”


因此,尽管那些看似令人难以置信的AI生成图片可能令人印象深刻,但我们仍然需要严格的测试来区分真正的优秀作品和滥竽充数之作。Gecko为我们提供了一种方法来做到这一点。

文章来源:https://venturebeat.com/ai/googles-deepmind-creates-gecko-a-rigorous-new-standard-for-testing-ai-image-generators/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消