sentence_transformers的作用

GOU92

已于 2025-03-10 14:14:30 修改

阅读量415

点赞数 8

文章标签： python

于 2025-03-10 13:20:36 首次发布

本文链接：https://blog.csdn.net/weixin_62533513/article/details/146152048

版权

sentence_transformers 是一个流行的 Python 库，用于将文本句子、段落或短文转换为固定大小的向量表示（嵌入）。这些嵌入可以用于各种自然语言处理（NLP）任务，如语义搜索、文本相似度计算、聚类等。SentenceTransformer 是该库中的一个核心类，用于加载预训练的模型并生成文本的嵌入表示。

以下是 sentence_transformers 的安装和基本使用示例：

安装

pip install sentence-transformers

基本用法

from sentence_transformers import SentenceTransformer

# 加载预训练模型
model = SentenceTransformer('all-MiniLM-L6-v2')

# 定义一些文本
sentences = [
    "This is an example sentence",
    "Each sentence is converted to a vector",
    "Sentence transformers are useful for NLP tasks"
]

# 生成嵌入
embeddings = model.encode(sentences)

# 打印嵌入的形状
print(embeddings.shape)  # 输出: (3, 384)，表示3个句子，每个句子的嵌入维度是384

详细说明

1. 加载预训练模型

sentence_transformers 提供了许多预训练模型，可以通过模型名称直接加载。例如：

'all-MiniLM-L6-v2'：一个轻量级模型，适合大多数NLP任务。
'all-mpnet-base-v2'：一个更强大的模型，性能更好但速度较慢。
'paraphrase-multilingual-mpnet-base-v2'：支持多种语言的模型。

# 加载不同的预训练模型
model = SentenceTransformer('all-mpnet-base-v2')

2. 生成嵌入

使用 model.encode() 方法可以将文本转换为嵌入向量。该方法支持单个字符串或字符串列表作为输入。

# 单个句子
sentence = "This is a single sentence."
embedding = model.encode(sentence)
print(embedding.shape)  # 输出: (384,)

# 多个句子
sentences = ["Sentence 1", "Sentence 2", "Sentence 3"]
embeddings = model.encode(sentences)
print(embeddings.shape)  # 输出: (3, 384)

3. 批量处理

对于大量文本，可以使用 model.encode() 的 show_progress_bar 参数来显示进度条。

# 大量句子
sentences = ["Sentence {}".format(i) for i in range(1000)]
embeddings = model.encode(sentences, show_progress_bar=True)

4. 保存和加载模型

可以将模型保存到本地，以便后续使用。

# 保存模型
model.save('my_model')

# 加载模型
loaded_model = SentenceTransformer('my_model')

实际应用示例

语义搜索

from sentence_transformers import util

# 定义查询和文档
query = "How to convert sentences to vectors?"
documents = [
    "Sentence transformers are used to convert sentences to vectors.",
    "Each sentence is converted to a fixed-size vector.",
    "The vectors can be used for semantic search."
]

# 生成查询和文档的嵌入
query_embedding = model.encode(query)
doc_embeddings = model.encode(documents)

# 计算相似度
cos_sim = util.cos_sim(query_embedding, doc_embeddings)
print(cos_sim)

文本聚类

from sklearn.cluster import KMeans

# 生成嵌入
embeddings = model.encode(sentences)

# 聚类
num_clusters = 2
clustering_model = KMeans(n_clusters=num_clusters)
clustering_model.fit(embeddings)
cluster_assignment = clustering_model.labels_

# 打印每个句子的聚类结果
for sentence_id, cluster_id in enumerate(cluster_assignment):
    print(f"Sentence: {sentences[sentence_id]} => Cluster: {cluster_id}")

常见问题

如何选择合适的模型？

如果需要处理多种语言，可以选择 'paraphrase-multilingual-mpnet-base-v2'。
如果需要更高的速度和较小的模型大小，可以选择 'all-MiniLM-L6-v2'。
如果需要更好的性能，可以选择 'all-mpnet-base-v2'。

如何自定义模型？

可以使用 Hugging Face 的 Transformers 库来加载自定义模型，并将其转换为 SentenceTransformer 格式。

from sentence_transformers import models
from transformers import AutoModel, AutoTokenizer

# 加载 Hugging Face 模型
word_embedding_model = models.Transformer('bert-base-uncased')

# 添加池化层
pooling_model = models.Pooling(word_embedding_model.get_word_embedding_dimension())

# 创建 SentenceTransformer 模型
model = SentenceTransformer(modules=[word_embedding_model, pooling_model])