数据集:
laion/laion-coco
许可:
by:Christoph Schuhmann, Andreas Köpf, Richard Vencu, Theo Coombes, Romain Beaumont, 2022年10月10日作者:Christoph Schuhmann, Andreas Köpf, Theo Coombes, Richard Vencu, Benjamin Trom, Romain Beaumont
我们呈现LAION-COCO,这是世界上最大的公开网络图像数据集,包含6亿条高质量合成字幕
Laion5B拥有50亿个自然语言字幕。它们提供了大量的信息,但是合成字幕能够补充它们吗?为了回答这个问题,我们使用一些现有的公开模型,为MS COCO风格的图像生成高质量的字幕。我们使用BLIP L/14和2个CLIP版本(L/14和RN50x64)对Laion-5B英语子集中的6亿张图像进行了字幕生成。
这将有可能研究生成字幕对模型训练的价值。我们很好奇这些合成字幕会对训练在其上的模型产生怎样的影响!
这600M个样本以parquet文件的形式提供。数据列包括原始字幕、URL、最佳字幕以及一组具有较低CLIP相似度分数的备选字幕。
我们用来生成这些字幕的方法如下:
超参数是由Andreas Köpf通过网格搜索(设置)选择的,以最好地匹配MS COCO文本的风格(ROUGE scores)。
我们通过向人类评估员询问一条字幕是由人类还是由AI模型生成的来评估这些生成的字幕。我们还要求他们按照0(糟糕)到5(好)的评分标准对质量进行评价。
在第一轮评估中,我们向评估员呈现了每个含有100个AI生成字幕和100个人类编写的MS COCO字幕的样本组。
由人类编写的样本的平均评分和标准差:
均值:3.98
标准差:0.99
由AI生成的样本的平均评分和标准差:
均值:3.89
标准差:1.12
评估员认为由人类编写的样本的平均评分和标准差:
均值:4.44
标准差:0.61
评估员认为由AI生成的样本的平均评分和标准差:
均值:3.50
标准差:1.15
非常有趣的是,由人类和模型生成的样本的平均得分非常相似。我们还注意到生成字幕的标准差稍微更高。
我们假设在大多数情况下,生成字幕的质量被认为与人类编写的字幕的质量一样好。
但是有时候,显然字幕生成模型会失败,结果的质量非常低,因为模型无法对图片中正在发生的情况进行相关理解,因为它的知识没有建立在足够复杂的世界模型之上。
“两个人穿着婚礼服装,一个头上戴着雨伞,另一个长着红色的头发。”
“一位年长男子心脏病发作,手放在胸前。”
当我们从评估中去除所有评分为0或1的样本时,我们观察到平均评分和标准差更接近。
去除评分为0和1的样本后的得分
由人类编写的样本的平均评分和标准差:
均值:4.07
标准差:0.81
由AI生成的样本的平均评分和标准差:
均值:4.02
标准差:0.94
生成字幕的平均评分仍然稍微较低,标准差仍然稍微较高,但趋势非常明显。通过去除评分为2的样本,质量之间的差距可能会进一步减小。
仅生成字幕呈现:
接下来,我们向人类评估员呈现了400条仅由模型生成的字幕(其中没有人类编写的字幕):
所有样本的平均评分:
3.81
所有样本的标准差:
0.94
被评为人类的百分比:
47.5
被评为AI的百分比:
52.5
我们观察到,在所有情况中,47.5%的人类评估者认为这些字幕是由人类编写的。这使我们相信我们的字幕平均而言是相当不错的。当我们后来告诉评估员所有这些字幕都是由模型生成的时,他们告诉我们很难判断一条字幕是由模型还是人类编写的,除非在明显失败的情况下。
我们得出结论,我们的BLIP和CLIP集合已经非常好,并能够生成平均质量与MS Coco的人类编写字幕非常接近的字幕。
对于未来的工作来说,让人们按照更大的规模评价我们生成的字幕,并过滤掉评分较低的样本将非常有意义。这些结果可以用于训练模型评估字幕的质量,并预测一个字幕看起来是属于生成的还是人类编写的。
而即使不进行进一步的自动过滤,我们的字幕集合和人类评估员的集合也是一个非常好的工作流程,可以以比完全从头开始让人类编写字幕更低的成本来策划高质量的字幕。
我们感谢stability.ai提供用于生成数据集中的字幕的计算资源。