数据集:

laion/laion400m

许可:

cc-by-4.0
英文

LAION-400m_new

此数据集相对于原版的LAION_400m数据集有两个改进:

  • 使用多语言文本过滤器来过滤恶意内容
  • 使用更好的open_clip VitH模型来检测图像中潜在的有害内容
  • 总而言之,我们额外过滤掉了大约600万个图像-文本对,可能带有较高的误报率,以提高数据集的安全性。