模型:

optimum/all-MiniLM-L6-v2

任务:

句子相似度

类库:

ONNX Sentence Transformers

语言:

其他:

特征提取

预印本库:

arxiv:1904.06472 arxiv:2102.07033 arxiv:2104.08727 arxiv:1704.05179 arxiv:1810.09305

许可:

apache-2.0

模型介绍文件清单

英文

ONNX 转换 all-MiniLM-L6-v2

转换 sentence-transformers/all-MiniLM-L6-v2

这是一个 sentence-transformers 的模型：它将句子和段落映射到一个384维的稠密向量空间，可用于聚类或语义搜索等任务。

用法（Sentence-Transformers）

安装 sentence-transformers 后，使用该模型变得很简单：

pip install -U sentence-transformers

然后可以像这样使用模型：

from sentence_transformers import SentenceTransformer
sentences = ["This is an example sentence", "Each sentence is converted"]

model = SentenceTransformer('sentence-transformers/all-MiniLM-L6-v2')
embeddings = model.encode(sentences)
print(embeddings)

用法（HuggingFace Transformers）

如果没有 sentence-transformers ，可以这样使用模型：首先，将输入通过变换器模型，然后必须在上下文化的单词嵌入之上应用正确的池化操作。

from transformers import AutoTokenizer, AutoModel
import torch
import torch.nn.functional as F

#Mean Pooling - Take attention mask into account for correct averaging
def mean_pooling(model_output, attention_mask):
    token_embeddings = model_output[0] #First element of model_output contains all token embeddings
    input_mask_expanded = attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float()
    return torch.sum(token_embeddings * input_mask_expanded, 1) / torch.clamp(input_mask_expanded.sum(1), min=1e-9)


# Sentences we want sentence embeddings for
sentences = ['This is an example sentence', 'Each sentence is converted']

# Load model from HuggingFace Hub
tokenizer = AutoTokenizer.from_pretrained('sentence-transformers/all-MiniLM-L6-v2')
model = AutoModel.from_pretrained('sentence-transformers/all-MiniLM-L6-v2')

# Tokenize sentences
encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tensors='pt')

# Compute token embeddings
with torch.no_grad():
    model_output = model(**encoded_input)

# Perform pooling
sentence_embeddings = mean_pooling(model_output, encoded_input['attention_mask'])

# Normalize embeddings
sentence_embeddings = F.normalize(sentence_embeddings, p=2, dim=1)

print("Sentence embeddings:")
print(sentence_embeddings)

评估结果

有关此模型的自动评估，请参见 https://seb.sbert.net 的句子嵌入基准。

背景

该项目旨在使用自我监督的对比学习目标在非常大的句子级数据集上训练句子嵌入模型。我们使用预训练的 nreimers/MiniLM-L6-H384-uncased 模型，并在10亿个句对数据集上进行了微调。我们使用对比学习的目标：给定一对句子中的一个句子，模型应该预测在我们的数据集中实际与之配对的一组随机抽样的其他句子中哪个是配对的。

我们在由 Hugging Face 组织的 Community week using JAX/Flax for NLP & CV 中开发了这个模型。我们作为项目 Train the Best Sentence Embedding Model Ever with 1B Training Pairs 的一部分开发了这个模型。我们在运行该项目时从谷歌的Flax、JAX和Cloud团队成员那里获得了高效的硬件基础设施支持，包括7个TPU v3-8，以及关于高效深度学习框架的干预。

预期用途

我们的模型旨在用作句子和短段落编码器。给定一个输入文本，它输出一个捕捉语义信息的向量。句向量可用于信息检索、聚类或句子相似性任务。

默认情况下，超过256个词块的输入文本将被截断。

训练过程

预训练

我们使用预训练的 nreimers/MiniLM-L6-H384-uncased 模型。有关预训练过程的更详细信息，请参阅模型卡。

微调

我们使用对比目标对模型进行微调。形式上，我们计算批次中每对可能的句子对的余弦相似度。然后，通过与真实对进行比较，应用交叉熵损失。

超参数

我们在TPU v3-8上训练了模型。我们训练模型100,000步，使用批量大小为1024（每个TPU核心128）。我们使用了500的学习率预热。序列长度限制为128个令牌。我们使用了学习率为2e-5的AdamW优化器。完整的训练脚本可以在当前存储库的 train_script.py 中访问。

训练数据

我们使用多个数据集的连接来微调我们的模型。句对的总数超过10亿个句子。我们根据详细配置在 data_config.json 文件中的加权概率对每个数据集进行抽样。

Dataset	Paper	Number of training tuples
12312321	12313321	726,484,430
12314321 Citation pairs (Abstracts)	12315321	116,288,806
12316321 Duplicate question pairs	12317321	77,427,422
12318321 (Question, Answer) pairs	12319321	64,371,441
12314321 Citation pairs (Titles)	12315321	52,603,982
12314321 (Title, Abstract)	12315321	41,769,185
12324321 (Title, Body) pairs	-	25,316,456
12324321 (Title+Body, Answer) pairs	-	21,396,559
12324321 (Title, Answer) pairs	-	21,396,559
12327321 triplets	12328321	9,144,553
12329321	12330321	3,012,496
12331321 (Title, Answer)	12332321	1,198,260
12333321	-	1,151,414
12334321 Image captions	12335321	828,395
12336321 citation triplets	12337321	684,100
12331321 (Question, Answer)	12332321	681,164
12331321 (Title, Question)	12332321	659,896
12342321	12343321	582,261
12344321	12345321	325,475
12346321	12347321	317,695
12324321 Duplicate questions (titles)	304,525
AllNLI ( 12349321 and 12350321	12351321 , 12352321	277,230
12324321 Duplicate questions (bodies)	250,519
12324321 Duplicate questions (titles+bodies)	250,460
12355321	12356321	180,000
12357321	12358321	128,542
12359321	12360321	112,696
12361321	-	103,663
12362321	12363321	102,225
12364321	12365321	100,231
12366321	12367321	87,599
12368321	-	73,346
Total	1,170,060,424

作者:

Hugging Face Optimum

数据集大小:

87.59 MB