模型:

M-CLIP/M-BERT-Base-ViT-B

英文

M-BERT Base ViT-B

Github Model Card

Usage

要与原始的CLIP视觉编码器一起使用该模型,您需要从 Multilingual-CLIP Github 下载代码和额外的线性权重。

完成后,您可以使用以下代码加载和使用该模型

from src import multilingual_clip

model = multilingual_clip.load_model('M-BERT-Base-ViT')
embeddings = model(['Älgen är skogens konung!', 'Wie leben Eisbären in der Antarktis?', 'Вы знали, что все белые медведи левши?'])
print(embeddings.shape)
# Yields: torch.Size([3, 640])

About

将一个经过 BERT-base-multilingual 调整以匹配 ViT-B/32 视觉编码器的嵌入空间的 M-BERT 模型,与 CLIP文本编码器的嵌入空间相匹配。预训练期间使用的100种语言的完整列表可以在 here 找到,并且在微调期间使用的4069种语言的列表可以在 SupportedLanguages.md 找到。

训练数据对是通过从 GCC + MSCOCO + VizWiz 的组合描述中为每种语言采样了40k个句子,并将其翻译成相应的语言生成的。所有的翻译都是使用 AWS translate service 进行的,目前尚未分析这些翻译的质量,但可以假设质量在这69种语言之间有所差异。