faiss 距离详解

目录

 

距离对应的结构体

理解L1,L2 范数

cosine similarity

Hammi汉明距离

参考:


 

距离对应的结构体

44 enum MetricType {

 45     METRIC_INNER_PRODUCT = 0,  ///< maximum inner product search 向量内积

 46     METRIC_L2 = 1,             ///< squared L2 search 定义了2种衡量相似度的方式,欧式距离

 47     METRIC_L1,                 ///< L1 (aka cityblock) 欧氏距离(L2)或曼哈顿距离(L1)

 48     METRIC_Linf,               ///< infinity distance

 49     METRIC_Lp,                 ///< L_p distance, p is given by metric_arg

 50

 51     /// some additional metrics defined in scipy.spatial.distance

 52     METRIC_Canberra =

### Faiss向量数据库详解 FAISS 是 Facebook 开源的一个高效相似度搜索库,主要用于大规模向量检索场景。其核心功能在于能够快速地在高维空间中找到最近邻点[^1]。 #### 数据集类设计 FAQDataset 类的设计是为了适配基于 FAISS 的向量存储需求。以下是该类的主要组成部分及其作用: - **`__init__` 方法**: 初始化数据集和分词器。这一步骤通常用于加载原始数据并配置必要的预处理工具。 - **`__getitem__` 方法**: 对单个样本进行处理,将文本输入通过分词器编码为 token IDs,并将其对应的标签设置为目标变量。此方法支持模型训练中的动态数据获取。 - **`__len__` 方法**: 返回整个数据集中可用样本的数量,便于框架管理批次大小以及迭代次数。 这些组件共同构成了一个结构化的方式以准备机器学习任务所需的数据形式。 #### 向量检索扩展 除了基本的功能外,FAISS 还提供了 `similarity_search_by_vector` 接口来实现仅依赖于嵌入表示而无需明确知道原文本内容的查询操作[^2]。下面展示了一个简单的例子说明如何利用 OpenAI Embeddings 和 FAISS 结合完成这一过程: ```python from langchain.embeddings.openai import OpenAIEmbeddings embedding_function = OpenAIEmbeddings() query = "我想了解一下产品价格" embedding_vector = embedding_function.embed_query(query) docs = db.similarity_search_by_vector(embedding_vector) print(docs[0].page_content) ``` 上述脚本首先计算给定问题字符串 `"我想了解一下产品价格"` 的嵌入表达;接着调用已建立好的 FAISS 索引对象 (`db`) 来寻找最接近当前询问语义的相关文档片段;最后打印匹配到的第一个结果的内容部分。 #### 实际应用价值 当面对复杂业务逻辑或者多模态信息融合时,仅仅依靠关键词无法满足精准推荐的需求。此时采用深度学习技术生成高质量特征向量并通过 FAISS 加速查找成为一种有效解决方案。特别是在客服机器人领域,预先构建好常见问题解答的知识图谱后,可以显著提升用户体验满意度。 --- ###
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值