LAION COCO 翻译为201种语言
此数据集包含了使用最大的
NLLB-200 model
(3.3B 参数)将
LAION-COCO
数据集翻译成 201 种语言的样本。
字段说明
id - 图像的唯一 ID。 url - LAION-COCO 数据集中图像的原始 URL。 eng_caption - LAION-COCO 数据集中的原始英文标题。 captions - 一个包含从 Flores 200 数据集翻译成的语言的标题列表。列表中的每个项都是一个列表,其中第一个元素是 BCP-47 语言代码,第二个元素是该语言的标题。Flores 200 数据集的所有语言代码列表可以在
here
中找到。 score - 使用
LAION aesthetic predictor
生成的审美分数。数据集中的图像的分数为 4.5+。 图像
数据集已经被过滤,只包含有效的图像 URL。但是,可用性可能会在将来发生变化。因此,此数据集中的所有图像都可以在
https://nllb-data.com/
中找到。要获取图像,请使用以下格式:
https://nllb-data.com/{id}.jpg