模型:
M-CLIP/M-BERT-Distil-40
要使用此模型以及原始CLIP视觉编码器,您需要从 Multilingual-CLIP Github 下载代码和额外的线性权重。
完成后,您可以使用以下代码加载和使用模型
from src import multilingual_clip model = multilingual_clip.load_model('M-BERT-Distil-40') embeddings = model(['Älgen är skogens konung!', 'Wie leben Eisbären in der Antarktis?', 'Вы знали, что все белые медведи левши?']) print(embeddings.shape) # Yields: torch.Size([3, 640])
M-BERT Distil 40是一个调优后的模型,其嵌入空间与Res50x4视觉编码器所附的CLIP文本编码器的嵌入空间相匹配。在预训练期间使用了100种语言,请参阅 here 的完整列表,并在SupportedLanguages.md中找到40种语言的列表。
训练数据对是通过从 GCC + MSCOCO + VizWiz 的组合描述中为每种语言抽样了4万个句子并将其翻译成相应的语言生成的。所有翻译使用了 AWS translate service ,目前尚未分析这些翻译的质量,但可以假设40种语言之间的质量有所差异。
These results can be viewed at Github 。非严格的定性评估显示,对于法语、德语、西班牙语、俄语、瑞典语和希腊语,它似乎在大多数情况下产生可接受的结果。唯一的例外是希腊人显然无法识别快乐的人。在卡纳达语上进行测试(卡纳达语被包含在预训练中但未在微调中使用),其表现接近随机。