【NLP】33. Pinecone + OpenAI ：构建自定义语义搜索系统

最新推荐文章于 2025-05-06 15:50:25 发布

pen-ai

最新推荐文章于 2025-05-06 15:50:25 发布

阅读量329

点赞数 7

分类专栏：深度学习机器学习文章标签：自然语言处理人工智能

本文链接：https://blog.csdn.net/weixin_48846514/article/details/147713126

版权

机器学习同时被 2 个专栏收录

66 篇文章

订阅专栏

深度学习

23 篇文章

订阅专栏

Pinecone + OpenAI 中文教学教程：构建自定义语义搜索系统

一、背景介绍

当下 AI 问答系统、矩阵检索、短文本分类等场景中，都需要很好地实现 “根据输入进行相似给点搜索”。这种算法基础称为 “向量搜索”，它的核心是将文本转换为向量后，在向量空间里搜索最相似的项目。

Pinecone 是一种专业的向量数据库服务，支持高效的向量存储、检索和更新。

二、实验目标

体验 Pinecone 的基础操作：

建立一个向量索引
将自定义的文本输入转换为向量并 upsert 到 Pinecone
输入自然语言问题，搜索最相似文档

示例场景：“动物百科问答” 搜索系统

三、环境准备

pip install -qU \
  openai==0.27.7 \
  pinecone==3.0.0 \
  sentence-transformers==3.4.1 \
  tqdm

四、设置 API Key

在 Pinecone 和 OpenAI 帐号中获取 API Key，并填入如下代码：

pinecone_api_key = 'your-pinecone-key'
openai_api_key = 'your-openai-key'

五、初始化 Pinecone 并创建索引

import pinecone
pinecone.init(api_key=pinecone_api_key, environment='gcp-starter')

index_name = 'custom-animal-db'
if index_name not in pinecone.list_indexes():
    pinecone.create_index(index_name, dimension=1536)
index = pinecone.Index(index_name)

六、定义自定义文档

documents = [
    {"id": "doc1", "text": "老虎是一种主要生活在亚洲的肉食动物"},
    {"id": "doc2", "text": "大象是陆地上最大的动物，有长鼻和大耳朵"},
    {"id": "doc3", "text": "保龄羊是生活在欧洲高原的羊类动物"},
    {"id": "doc4", "text": "老鼠是一种常见小型动物，有很强的生存力"}
]

七、使用 OpenAI 生成向量

import openai
openai.api_key = openai_api_key

def get_embedding(text):
    resp = openai.Embedding.create(
        input=text,
        model="text-embedding-ada-002"
    )
    return resp['data'][0]['embedding']

八、将文档向量化并 upsert 到 Pinecone

for doc in documents:
    vec = get_embedding(doc['text'])
    index.upsert([(doc['id'], vec, {"text": doc['text']})])

九、进行搜索：按問题返回相似给点

query = "哪些动物有长鼻或低温生存力强？"
query_vec = get_embedding(query)

result = index.query(vector=query_vec, top_k=2, include_metadata=True)

for match in result["matches"]:
    print(f"Score: {match['score']:.2f}, Text: {match['metadata']['text']}")