
向量数据库Faiss是Facebook AI研究院开发的一种高效的相似性搜索和聚类的库。它能够快速处理大规模数据,并且支持在高维空间中进行相似性搜索。
本文将依faiss使用全流程来教学gpu版的faiss如何使用
整个使用流程是:
- faiss环境配置
- 获取词向量
- 词向量索引获取
- 索引-词向量文档存储
- 读取索引-词向量文档
- 向量匹配
环境配置
pip install faiss-cpu==1.7.3
# pip install faiss-gpu==1.7.2 # gpu安装
词向量获取
词向量模型可以从大规模文本嵌入基准 (MTEB) 排行榜中选取
可选
SentenceTransformer(‘lier007/xiaobu-embedding’)
FastTextEncoder( “infgrad/stella-base-zh-v2”)
FlagModel(‘BAAI/bge-large-zh-v1.5’,query_instruction_for_retrieval=“为这个句子生成表示以用于检索相关文章:”,
use_fp16=True)
等等……
通用加载方法:
model = SentenceTransformer('你的词向量模型')
sentence_embeddings = model.encode(texts, normalize_embeddings)
存储
sentence_embeddings = 获取到的词向量[]
dimension = sentence_embeddings.shape[1]
inde

最低0.47元/天 解锁文章

2505

被折叠的 条评论
为什么被折叠?



