NLP: SBERT介绍及sentence-transformers库的使用

最新推荐文章于 2025-04-26 15:53:15 发布

Sun_Sherry(停更)

最新推荐文章于 2025-04-26 15:53:15 发布

阅读量2.6k

点赞数 21

分类专栏： # 自然语言处理文章标签：自然语言处理人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yeshang_lady/article/details/142757136

版权

1. Sentence-BERT

Sentence-BERT(简写SBERT)模型是BERT模型最有趣的变体之一，通过扩展预训练的BERT模型来获得固定长度的句子特征，主要用于句子对分类、计算两个句子之间的相似度任务。

1.1 计算句子特征

SBERT模型同样是将句子标记送入预训练的BERT模型来获取句子特征的，但这里并不使用 $R_{[CLS]}$ 作为最终的句子特征。在SBERT中，通过汇聚所有标记的特征来计算整个句子的特征。具体的汇聚方法有两种：平均汇聚和最大汇聚。

平均汇聚：使用平均汇聚来获取句子特征。这种方法得到的句子的特征将包含所有词语(Token)的意义。
最大汇聚：使用最大汇聚来获取句子特征。这种方法得到的句子的特征将仅包含重要词语(Token)的意义。

1.2 SBERT架构

SBERT模型使用二元组网络架构来执行以一对句子作为输入的任务，并使用三元组网络架构来实现三元组损失函数。

1.2.1 使用二元组网络架构的SBERT模型

SBERT通过二元组网络(两个共享同样权重的相同网络)架构对执行句子对任务的预训练的BERT模型进行微调。句子对任务具体包括以下两种：

句子对分类任务: 判断句子对是否相似。相似则返回1，不相似则返回0。其SBERT模型架构为：
句子对回归任务：计算两个给定句子之间的语义相似度。其对应的SBERT架构为：

1.2.2 使用三元组网络架构的SBERT模型

三元组网络架构的SBERT模型的任务计算出一个特征，使锚定句和正向句之间的相似度高，锚定句和负向句之间的相似度低。其架构如下：
在这里插入图片描述

2. 计算文本相似度

2.1 bi-encoder VS cross-encoder

bi-encoder和cross-encoder是语义匹配、文本相似度、信息检索场景下下常用的两种模型架构。这两者都基于深度学习模型(如BERT等)进行编码和比较文本之间的相似度，但它们在计算方式、效率和适用场景上有显著的区别。

2.1.1 bi-encoder

bi-encoder是一种独立编码方式，即输入的两个文本会被分别编码为独立的向量，然后通过计算这两个

最低0.47元/天解锁文章

Sun_Sherry(停更)

博客等级

码龄9年

270
原创

1177
点赞

5132
收藏

676
粉丝

关注

私信

热门文章

分类专栏

vue
大语言模型 10篇
Tensorflow 2篇
Torch
LangChain 5篇
自然语言处理 6篇
区块链 15篇
Hyperledger Fabric 10篇
Go语言 3篇
机器学习 39篇
PySpark 16篇
数据清洗 16篇
Kettle工具 13篇
Python 57篇
Tableau 33篇
SQL 12篇
数据分析 18篇
Echarts 3篇
读书笔记 11篇
LeetCode 5篇
爬虫 6篇

展开全部收起

上一篇：: FastAPI: websocket的用法及举例

最新评论

Fabric:链码的部署及执行
2401_82389626: 哥们你们解决了吗，我也碰到了这个问题
LLM:函数调用(Function Calling)
某xxx: 所以 qwen 一直报这个错messages with role ‘tool’ must be a response to a preceeding message with ‘tool_calls’
Fabric:使用GoLand+Fabric-SDK-Go操作Fabric网络(附代码)
deft123456789: 想问一下博主是怎么设置背书策略的，我初始化的时候一直报错 error getting channel response for channel [carchannel]: Discovery status Code: (11) UNKNOWN. Description: error received from Discovery Server: failed constructing descriptor for chaincodes:<name:"carcc" > 查看容器日志报错， [discovery] chaincodeQuery -> Failed constructing descriptor for chaincode chaincodes:<name:"carcc" > : no peer combination can satisfy the endorsement policy 就是搞不懂背书策略哪里出错了
Fabric:使用GoLand+Fabric-SDK-Go操作Fabric网络(附代码)
deft123456789: 博主，这个每次运行代码之后，ccversion改动之后，还是报错了，我每次运行一次我就加一，我有一点不理解的是，我每次都是把容器清空了再启动再运行程序的，为什么还要改这个版本号呀，我直接docker-compose down -v，直接清空容器的，为啥还要加1呢？求博主解答
Fabric:使用GoLand+Fabric-SDK-Go操作Fabric网络(附代码)
deft123456789: 博主，遇到这个错误该咋处理呀，就是在组织批准链码的时候报错了 [fabsdk/util] 2025/02/27 02:47:43 UTC - lazyref.(*Reference).refreshValue -> WARN Error - initializer returned error: load MSPs from config failed: configure MSP failed: sanitizeCert failed the supplied identity is not valid: x509: certificate signed by unknown authority. Will retry again later sending approve transaction proposal failed to verify signature: Failed to verify signature: Endorser Client Status Code: (8) SIGNATURE_VERIFICATION_FAILED. Description: the creator certificate is not valid

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。