模型:

KBLab/sentence-bert-swedish-cased

任务:

句子相似度

类库:

PyTorch Sentence Transformers Transformers

其他:

bert 特征提取

预印本库:

arxiv:2004.09813

许可:

apache-2.0

语言:

模型介绍文件清单

英文

KBLab/sentence-bert-swedish-cased

这是一个模型：它将瑞典句子和段落映射到一个768维的稠密向量空间，可用于聚类或语义搜索等任务。该模型是根据论文和伴随其伴侣Python包中的说明进行训练的双语瑞典-英语模型。我们使用了最强大的预训练英语Bi-Encoder（）作为教师模型，预训练的瑞典（）作为学生模型.

有关该模型的更详细描述，请参阅我们在KBLab博客中发布的一篇文章以及更新的模型.

更新：自初始发布以来，我们发布了模型的更新版本。博文中描述的原始模型是v1.0。当前版本是v2.0。较新版本是在较长的段落上进行训练的，具有更长的最大序列长度。v2.0是用更强大的教师模型进行训练的，也是当前的默认版本。

Model version	Teacher Model	Max Sequence Length
v1.0	12318321	256
v1.1	12318321	384
v2.0	12320321	384

使用（Sentence-Transformers）

当您安装了其中之一后，使用此模型变得简单：

pip install -U sentence-transformers

然后您可以像这样使用模型：

from sentence_transformers import SentenceTransformer
sentences = ["Det här är en exempelmening", "Varje exempel blir konverterad"]

model = SentenceTransformer('KBLab/sentence-bert-swedish-cased')
embeddings = model.encode(sentences)
print(embeddings)

加载较旧的模型版本（Sentence-Transformers）

目前，加载较旧的模型版本的最简单方法是克隆模型存储库并从磁盘加载它。例如，要克隆v1.0模型：

git clone --depth 1 --branch v1.0 https://huggingface.co/KBLab/sentence-bert-swedish-cased

然后，您可以通过指向克隆模型的本地文件夹来加载模型：

from sentence_transformers import SentenceTransformer
model = SentenceTransformer("path_to_model_folder/sentence-bert-swedish-cased")

使用（HuggingFace Transformers）

如果您没有安装其中之一，可以像这样使用该模型：首先，将输入通过变换器模型，然后您必须在上下文化的词嵌入的基础上应用正确的汇集操作。

from transformers import AutoTokenizer, AutoModel
import torch


#Mean Pooling - Take attention mask into account for correct averaging
def mean_pooling(model_output, attention_mask):
    token_embeddings = model_output[0] #First element of model_output contains all token embeddings
    input_mask_expanded = attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float()
    return torch.sum(token_embeddings * input_mask_expanded, 1) / torch.clamp(input_mask_expanded.sum(1), min=1e-9)


# Sentences we want sentence embeddings for
sentences = ['Det här är en exempelmening', 'Varje exempel blir konverterad']

# Load model from HuggingFace Hub
# To load an older version, e.g. v1.0, add the argument revision="v1.0" 
tokenizer = AutoTokenizer.from_pretrained('KBLab/sentence-bert-swedish-cased')
model = AutoModel.from_pretrained('KBLab/sentence-bert-swedish-cased')

# Tokenize sentences
encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tensors='pt')

# Compute token embeddings
with torch.no_grad():
    model_output = model(**encoded_input)

# Perform pooling. In this case, max pooling.
sentence_embeddings = mean_pooling(model_output, encoded_input['attention_mask'])

print("Sentence embeddings:")
print(sentence_embeddings)

加载较旧的模型（Hugginfface Transformers）

要加载较旧的模型，请使用revisions参数指定版本标签。例如，要加载v1.0模型，请使用以下代码：

AutoTokenizer.from_pretrained('KBLab/sentence-bert-swedish-cased', revision="v1.0")
AutoModel.from_pretrained('KBLab/sentence-bert-swedish-cased', revision="v1.0")

评估结果

模型在和SweParaphrase v2.0上进行了评估。这个测试集是的一部分，用于自然语言理解任务的瑞典评估套件。我们计算了模型预测的相似度分数和人类相似度评分之间的皮尔逊和斯皮尔曼相关性。显示了来自SweParaphrase v1.0的结果.

Model version	Pearson	Spearman
v1.0	0.9183	0.9114
v1.1	0.9183	0.9114
v2.0	0.9283	0.9130

下面的代码片段可用于重现上述结果：

from sentence_transformers import SentenceTransformer
import pandas as pd

df = pd.read_csv(
    "sweparaphrase-dev-165.csv",
    sep="\t",
    header=None,
    names=[
        "original_id",
        "source",
        "type",
        "sentence_swe1",
        "sentence_swe2",
        "score",
        "sentence1",
        "sentence2",
    ],
)

model = SentenceTransformer("KBLab/sentence-bert-swedish-cased")

sentences1 = df["sentence_swe1"].tolist()
sentences2 = df["sentence_swe2"].tolist()

# Compute embedding for both lists
embeddings1 = model.encode(sentences1, convert_to_tensor=True)
embeddings2 = model.encode(sentences2, convert_to_tensor=True)

# Compute cosine similarity after normalizing
embeddings1 /= embeddings1.norm(dim=-1, keepdim=True)
embeddings2 /= embeddings2.norm(dim=-1, keepdim=True)

cosine_scores = embeddings1 @ embeddings2.t()
sentence_pair_scores = cosine_scores.diag()

df["model_score"] = sentence_pair_scores.cpu().tolist()
print(df[["score", "model_score"]].corr(method="spearman"))
print(df[["score", "model_score"]].corr(method="pearson"))

Sweparaphrase v2.0

总的来说，v1.1与Sweparaphrase v2.0上的文本相似度人类评估最相关。以下的预设分割上展示了模型的性能。它们展示了模型在即插即用的情况下，没有进行任何微调的情况下的性能。

Model version	Data split	Pearson	Spearman
v1.0	train	0.8355	0.8256
v1.1	train	0.8383	0.8302
v2.0	train	0.8209	0.8059
v1.0	dev	0.8682	0.8774
v1.1	dev	0.8739	0.8833
v2.0	dev	0.8638	0.8668
v1.0	test	0.8356	0.8476
v1.1	test	0.8393	0.8550
v2.0	test	0.8232	0.8213

SweFAQ v2.0

在检索任务中，v2.0与v1.1和v1.0相比，能够更好地将正确答案与问题匹配。

Model version	Data split	Accuracy
v1.0	train	0.5262
v1.1	train	0.6236
v2.0	train	0.7106
v1.0	dev	0.4636
v1.1	dev	0.5818
v2.0	dev	0.6727
v1.0	test	0.4495
v1.1	test	0.5229
v2.0	test	0.5871

可以在以下链接中找到如何在SuperLim套件的一些测试集上评估模型的示例：（瑞典FAQ）（SweSAT同义词）（SuperSim）。

训练

有关数据和模型v1.0的更多详细信息，请参阅文章。

使用了来自英瑞平行语料库的约1460万个句子来训练模型。数据来源于OPUS，通过python包下载。使用的数据集有：JW300、Europarl、DGT-TM、EMEA、ELITR-ECA、TED2020、Tatoeba和OpenSubtitles。

模型是使用以下参数进行训练的：

DataLoader：

torch.utils.data.dataloader.DataLoader长度为180513，参数为：

{'batch_size': 64, 'sampler': 'torch.utils.data.sampler.RandomSampler', 'batch_sampler': 'torch.utils.data.sampler.BatchSampler'}

损失：

sentence_transformers.losses.MSELoss.MSELoss

fit()方法的参数：

{
    "epochs": 2,
    "evaluation_steps": 1000,
    "evaluator": "sentence_transformers.evaluation.SequentialEvaluator.SequentialEvaluator",
    "max_grad_norm": 1,
    "optimizer_class": "<class 'torch.optim.adamw.AdamW'>",
    "optimizer_params": {
        "eps": 1e-06,
        "lr": 8e-06
    },
    "scheduler": "WarmupLinear",
    "steps_per_epoch": null,
    "warmup_steps": 5000,
    "weight_decay": 0.01
}

完整模型架构

SentenceTransformer(
  (0): Transformer({'max_seq_length': 384, 'do_lower_case': False}) with Transformer model: BertModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False})
)

引用和作者

此模型由瑞典国家图书馆的KBLab数据实验室训练。

您可以引用我们博客上的文章：

@misc{rekathati2021introducing,  
  author = {Rekathati, Faton},  
  title = {The KBLab Blog: Introducing a Swedish Sentence Transformer},  
  url = {https://kb-labb.github.io/posts/2021-08-23-a-swedish-sentence-transformer/},  
  year = {2021}  
}

致谢

我们衷心感谢HPC RIVR联盟和EuroHPC JU为本研究提供HPC系统Vega的计算资源。

作者:

National Library of Sweden / KBLab

数据集大小:

477.27 MB