第12篇：基于Milvus的推荐系统中的向量检索

最新推荐文章于 2024-07-22 16:39:16 发布

Gemini技术窝

最新推荐文章于 2024-07-22 16:39:16 发布

阅读量745

点赞数 34

分类专栏： Milvus应用实战：AI与向量数据库的完美结合文章标签： milvus AIGC 机器学习

本文链接：https://blog.csdn.net/wjm1991/article/details/139665847

版权

Milvus应用实战：AI与向量数据库的完美结合专栏收录该内容

24 篇文章 10 订阅

订阅专栏

推荐系统在电商网站、视频流媒体和社交媒体等领域广泛应用。随着数据量的增大和用户需求的多样化，高效的向量检索技术变得尤为重要。Milvus作为一个开源的向量数据库，可以帮助我们高效地实现推荐系统中的向量检索。本文将详细介绍如何基于Milvus实现推荐系统中的向量检索，从需求分析、数据集准备与处理到系统实现步骤，并提供详细的Python代码实现。

文章目录

需求分析

在推荐系统中，向量检索主要用于以下需求：

高效的相似项查找：需要快速找到与用户兴趣相似的物品。
实时性：推荐系统需要实时响应用户的请求。
扩展性：系统需要能够处理不断增长的数据量。
高准确率：推荐结果需要具备较高的准确率，以满足用户需求。

数据集准备与处理

数据集准备

为了实现推荐系统中的向量检索，我们需要准备一个包含用户行为和物品特征的数据集。常见的数据集包括MovieLens、Amazon Product数据集等。这些数据集包含了用户对物品的评分、点击记录等信息。

数据集预处理

数据集预处理包括以下几个步骤：

数据加载：从数据集中加载用户行为和物品特征数据。
数据清洗：去除噪声数据，处理缺失值。
特征提取：将用户行为和物品特征转化为向量表示。
向量归一化：将向量归一化，以便于向量检索。

代码实现

以下是数据集预处理的Python代码实现。首先，我们需要安装相关的库：

pip install pandas numpy sklearn pymilvus

数据加载和清洗

import pandas as pd
import numpy as np

# 加载数据集
def load_data(file_path):
    data = pd.read_csv(file_path)
    return data

# 数据清洗
def clean_data(data):
    data = data.dropna()  # 去除缺失值
    return data

# 示例使用
data_file = "dataset.csv"
data = load_data(data_file)
cleaned_data = clean_data(data)
print(f"Loaded and cleaned data with {len(cleaned_data)} records.")

这里是一个示例数据集 dataset.csv 的内容示例，它包含了一些基本的用户行为和物品特征。这个示例数据集将帮助我们理解如何在推荐系统中使用Milvus进行向量检索。

示例数据集 `dataset.csv`

user_id,item_id,feature1,feature2,feature3
1,101,0.1,0.3,0.5
1,102,0.2,0.4,0.6
2,101,0.3,0.2,0.1
2,103,0.4,0.5,0.2
3,102,0.5,0.6,0.3
3,104,0.6,0.4,0.7
4,105,0.7,0.8,0.4
4,106,0.8,0.5,0.9
5,107,0.9,0.7,0.2
5,108,0.1,0.9,0.6

数据集字段说明

user_id: 用户ID
item_id: 物品ID
feature1, feature2, feature3: 物品的特征值，这些特征值可以是根据实际数据的特征提取得来的，如用户评分、点击行为等。

特征提取和向量归一化

from sklearn.preprocessing import StandardScaler

# 特征提取
def extract_features(data):
    features = data[['feature1', 'feature2', 'feature3']]  # 假设数据集中包含这些特征
    return features

# 向量归一化
def normalize_vectors(vectors):
    scaler = StandardScaler()
    normalized_vectors = scaler.fit_transform(vectors)
    return normalized_vectors

# 示例使用
features = extract_features(cleaned_data)
normalized_vectors = normalize_vectors(features)
print(f"Extracted and normalized {len(normalized_vectors)} feature vectors.")

系统实现步骤

实现步骤概述

搭建Milvus环境：在本地或服务器上安装并配置Milvus。
数据集准备与预处理：加载用户行为和物品特征数据，进行特征提取和向量归一化。
向量存储：将处理后的向量存储到Milvus中。
实现向量检索功能：开发向量检索接口，实现基于Milvus的推荐系统。
应用集成：将检索结果集成到推荐系统中。

1. 搭建Milvus环境

首先，我们需要搭建Milvus环境。可以参考Milvus的官方文档进行安装，这里简要说明Docker方式的安装步骤：

# 拉取Milvus Docker镜像
docker pull milvusdb/milvus:latest

# 启动Milvus容器
docker run -d --name milvus -p 19530:19530 milvusdb/milvus:latest

详细步骤可以参考前文：第2篇：Milvus安装与配置指南

2. 数据集准备与预处理

我们已经在上文中详细介绍了数据集准备与预处理的Python代码实现。

3. 向量存储

以下是将处理后的向量存储到Milvus的代码实现：

from pymilvus import connections, FieldSchema, CollectionSchema, DataType, Collection

# 连接到Milvus服务器
connections.connect("default", host="localhost", port="19530")

# 定义Milvus集合模式
fields = [
    FieldSchema(name="id", dtype=DataType.INT64, is_primary=True, auto_id=True),
    FieldSchema(name="vector", dtype=DataType.FLOAT_VECTOR, dim=normalized_vectors.shape[1])
]
schema = CollectionSchema(fields, "Recommendation collection")
collection = Collection(name="recommendation_collection", schema=schema)

# 插入向量到Milvus
def insert_vectors(vectors):
    collection.insert([vectors])
    collection.load()

# 示例使用
insert_vectors(normalized_vectors)
print("Data inserted successfully!")

4. 实现向量检索功能

以下是实现向量检索功能的代码：

def search(query_vector, top_k=5):
    # 搜索
    search_params = {"metric_type": "L2", "params": {"nprobe": 10}}
    results = collection.search(
        data=[query_vector],
        anns_field="vector",
        param=search_params,
        limit=top_k,
        expr=None
    )
    return results

# 示例使用
sample_query_vector = normalized_vectors[0]  # 使用第一条数据作为示例查询
results = search(sample_query_vector)
for result in results[0]:
    print(f"ID: {result.id}, Distance: {result.distance}")

5. 应用集成

将检索结果集成到推荐系统中，可以使用Flask来处理推荐请求，并返回检索结果：

from flask import Flask, request, jsonify

app = Flask(__name__)

@app.route('/recommend', methods=['POST'])
def recommend():
    user_data = request.json.get('user_data')
    user_vector = normalize_vectors([user_data])  # 对用户数据进行预处理
    results = search(user_vector[0])
    
    response = [{"id": result.id, "distance": result.distance} for result in results[0]]
    return jsonify(response)

if __name__ == '__main__':
    app.run(debug=True)

依赖包

请确保在你的项目中安装以下依赖包：

pandas==1.3.3
numpy==1.21.2
scikit-learn==0.24.2
pymilvus==2.2.0
flask==2.0.2

容易出错的地方

数据清洗和特征提取：确保数据的完整性，处理缺失值和异常值。
向量归一化：向量归一化是必要步骤，否则向量检索的结果可能会受到影响。
Milvus连接：确保Milvus服务已经正确启动并运行。
查询参数：设置搜索参数时要确保其与Milvus集合的索引匹配。

总结

通过这篇博客，我们详细介绍了基于Milvus的推荐系统中的向量检索的需求分析、数据集准备与处理、系统实现步骤。我们逐步实现了推荐系统中的向量检索，从需求分析开始，到数据集的预处理，再到系统的编码实现，涵盖了推荐系统中向量检索的所有关键环节。希望通过本文的讲解，您能对如何基于Milvus构建高效的推荐系统有一个全面的了解和实际操作的能力。

如果你喜欢这篇文章，别忘了收藏文章、关注作者、订阅专栏，感激不尽。