使用大模型计算语义相似度

jacky_wxl(微信同号）

已于 2024-12-02 14:51:34 修改

阅读量1.3k

点赞数 24

分类专栏：大模型文章标签：语义相似度

于 2024-11-29 10:04:28 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wxl781227/article/details/144128615

版权

计算语义相似度的方法有很多，具体选择哪种方法取决于应用场景和数据类型。以下是一些常见的计算语义相似度的方法：

### 1. **基于词袋模型（Bag of Words, BoW）**
- **原理**: 将文本表示为词频向量，然后计算向量之间的余弦相似度。
- **优点**: 简单易实现。
- **缺点**: 忽略了词序和语义信息。

### 2. **TF-IDF（Term Frequency-Inverse Document Frequency）**
- **原理**: 结合词频和逆文档频率，计算文本中词语的重要性，然后计算向量之间的余弦相似度。
- **优点**: 考虑了词语在文档中的重要性。
- **缺点**: 仍然忽略了词序和语义信息。

### 3. **Word2Vec**
- **原理**: 通过神经网络模型将词语映射到高维向量空间，然后计算词语向量之间的余弦相似度。
- **优点**: 捕捉词语的语义信息。
- **缺点**: 需要大量语料训练，且无法直接处理短语或句子。

### 4. **Doc2Vec**
- **原理**: 类似于Word2Vec，但用于处理整个文档或句子，生成文档或句子的向量表示。
- **优点**: 能够处理整个文档或句子，捕捉上下文信息。
- **缺点**: 需要大量语料训练。

### 5. **GloVe（Global Vectors for Word Representation）**
- **原理**: 结合全局统计信息和局部上下文信息，生成词语的向量表示。
- **优点**: 在捕捉词语语义方面表现良好。
- **缺点**: 需要大量

最低0.47元/天解锁文章

jacky_wxl(微信同号）

博客等级

码龄24年

146
原创

668
点赞

870
收藏

3208
粉丝

关注

私信

热门文章

分类专栏

AI智能体 8篇
其它 10篇
大模型 54篇
知识库 11篇
AI编程 10篇
ASR实战 4篇
声音克隆 5篇
ClickHouse 2篇
语音模型 1篇
AI Agent 1篇
RASA多轮对话 2篇
文本分类 5篇
BI数据库 5篇
因果推理 1篇
Zoom集成 8篇
Teams集成 4篇
iOS APP 2篇
命名实体 2篇
GPU环境 2篇
深度学习 6篇
SalesForce集成 1篇
离线安装 1篇
文生图 2篇
模拟登录 1篇

展开全部收起

上一篇：: 如何写好大模型英文提示词-相似问/新问题

下一篇：: 使用Google Cloud Video Intelligence API检测露骨内容

最新评论

dify知识库支持图文回复实践
初入社会，年少轻狂的好市民: 你好大佬，这个word中的![image](xx/xx.jpg)应该放在dify的什么位置他会识别到呢？还是改成https的方式呢?
坐席业绩数据分析
jacky_wxl(微信同号）: 针对该需求，只有豆包才能第一次输出最近接近目标的结果，而其它的模型都不行哦，包括：deepseek, qwen3, gpt-4o。
Phi-4-reasoning技术报告
jacky_wxl(微信同号）: phi4-reasoning:plus的准确率的确比较高，比如：分析某个csv文件，如：日均业绩趋势，代码是对的，但推理时间太长了。
使用Dify访问数据库(mysql)
jacky_wxl(微信同号）: 要么是用户表结构没有描述清楚，要么是模型能力不够，你再想想。
使用Dify访问数据库(mysql)
if you like.....: 博主，根据你的步骤，最后对智能体提问时，它一直采用不了知识库里的用户表结构文档，例如，我提问“查询用户表”，他会直接生成sql语句是“select * from 用户表”，它没有经过用户表结构文档进行转换，麻烦博主解答一下！

最新文章

2025

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

jacky_wxl(微信同号） 喜欢作者

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。