M-BERT Distil 40

Github Model Card

使用

要使用此模型以及原始CLIP视觉编码器，您需要从 Multilingual-CLIP Github 下载代码和额外的线性权重。

完成后，您可以使用以下代码加载和使用模型

from src import multilingual_clip

model = multilingual_clip.load_model('M-BERT-Distil-40')
embeddings = model(['Älgen är skogens konung!', 'Wie leben Eisbären in der Antarktis?', 'Вы знали, что все белые медведи левши?'])
print(embeddings.shape)
# Yields: torch.Size([3, 640])

关于

M-BERT Distil 40是一个调优后的模型，其嵌入空间与Res50x4视觉编码器所附的CLIP文本编码器的嵌入空间相匹配。在预训练期间使用了100种语言，请参阅 here 的完整列表，并在SupportedLanguages.md中找到40种语言的列表。

训练数据对是通过从 GCC + MSCOCO + VizWiz 的组合描述中为每种语言抽样了4万个句子并将其翻译成相应的语言生成的。所有翻译使用了 AWS translate service ，目前尚未分析这些翻译的质量，但可以假设40种语言之间的质量有所差异。

评估

These results can be viewed at Github 。非严格的定性评估显示，对于法语、德语、西班牙语、俄语、瑞典语和希腊语，它似乎在大多数情况下产生可接受的结果。唯一的例外是希腊人显然无法识别快乐的人。在卡纳达语上进行测试（卡纳达语被包含在预训练中但未在微调中使用），其表现接近随机。

作者:

Multilingual-CLIP

数据集大小:

514.96 MB