数据集:

visheratin/laion-coco-nllb

英文

LAION COCO 翻译为201种语言

此数据集包含了使用最大的 NLLB-200 model (3.3B 参数)将 LAION-COCO 数据集翻译成 201 种语言的样本。

字段说明

  • id - 图像的唯一 ID。
  • url - LAION-COCO 数据集中图像的原始 URL。
  • eng_caption - LAION-COCO 数据集中的原始英文标题。
  • captions - 一个包含从 Flores 200 数据集翻译成的语言的标题列表。列表中的每个项都是一个列表,其中第一个元素是 BCP-47 语言代码,第二个元素是该语言的标题。Flores 200 数据集的所有语言代码列表可以在 here 中找到。
  • score - 使用 LAION aesthetic predictor 生成的审美分数。数据集中的图像的分数为 4.5+。
  • 图像

    数据集已经被过滤,只包含有效的图像 URL。但是,可用性可能会在将来发生变化。因此,此数据集中的所有图像都可以在 https://nllb-data.com/ 中找到。要获取图像,请使用以下格式:

    https://nllb-data.com/{id}.jpg