第23篇：Milvus在电商行业的应用

最新推荐文章于 2024-09-30 17:24:44 发布

Gemini技术窝

最新推荐文章于 2024-09-30 17:24:44 发布

阅读量931

点赞数 19

分类专栏： Milvus应用实战：AI与向量数据库的完美结合文章标签： milvus 推荐算法人工智能

本文链接：https://blog.csdn.net/wjm1991/article/details/139879563

版权

Milvus应用实战：AI与向量数据库的完美结合专栏收录该内容

24 篇文章 10 订阅

订阅专栏

随着电商行业的快速发展，如何提高用户体验和转化率成为了电商平台的重要任务。Milvus作为一个开源的向量数据库，专为处理大规模、高维向量数据而设计，可以在商品搜索、推荐系统和用户行为分析中发挥重要作用。本文将详细介绍Milvus在电商行业中的应用，讲解如何实现商品搜索与推荐、用户数据收集和行为分析，并提供具体的代码实现。

一、Milvus在电商行业的应用场景

1.1 商品搜索与推荐

商品搜索和推荐是电商平台的核心功能之一。通过对商品的特征进行向量化处理，使用Milvus进行相似性搜索，可以大幅提高商品搜索的准确性和效率。同时，通过对用户历史行为数据进行分析，利用Milvus进行推荐，可以提升推荐的精准度和用户满意度。

1.2 用户行为分析

用户行为分析是提升用户体验和优化运营策略的重要手段。通过对用户点击、浏览、购买等行为数据进行向量化处理，使用Milvus进行聚类和相似性分析，可以深入理解用户的偏好和需求，从而提供个性化的推荐和服务。

二、基于Milvus的商品搜索与推荐

2.1 数据准备

在进行商品搜索与推荐时，我们需要对商品数据进行向量化处理，将商品的特征（如标题、描述、价格、类别等）转换为高维向量。

示例数据

商品数据示例

假设我们有以下商品数据，存储在CSV文件中：

product_id	title	description	price	category
1	Red Shirt	Comfortable red shirt	19.99	1
2	Blue Jeans	Stylish blue jeans	39.99	2
3	Green Hat	Casual green hat	9.99	3
4	Yellow Jacket	Warm yellow jacket	59.99	4
5	Black Shoes	Elegant black shoes	49.99	5

用户行为数据示例

假设我们有以下用户行为数据，存储在CSV文件中：

user_id	clicks	views	purchases
1	10	20	1
2	5	15	2
3	8	30	3
4	2	5	0
5	7	25	1

安装依赖包

pip install pymilvus pandas numpy scikit-learn

数据示例

假设我们有一组商品数据，存储在CSV文件中：
字段包括标题、描述、价格和类别。实际的应用中，可以尽可能列出完整的数据字段。

import pandas as pd

# 加载商品数据
data_file = 'path_to_product_data.csv'
products = pd.read_csv(data_file)

下面使用示例数据的方式：

import pandas as pd
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.preprocessing import StandardScaler
from pymilvus import connections, Collection, CollectionSchema, FieldSchema, DataType

# 示例商品数据
data = {
    'product_id': [1, 2, 3, 4, 5],
    'title': ['Red Shirt', 'Blue Jeans', 'Green Hat', 'Yellow Jacket', 'Black Shoes'],
    'description': ['Comfortable red shirt', 'Stylish blue jeans', 'Casual green hat', 'Warm yellow jacket', 'Elegant black shoes'],
    'price': [19.99, 39.99, 9.99, 59.99, 49.99],
    'category': [1, 2, 3, 4, 5]
}

# 转换为DataFrame
products = pd.DataFrame(data)

# 提取文本特征
vectorizer = TfidfVectorizer(max_features=100)
tfidf_matrix = vectorizer.fit_transform(products['title'] + ' ' + products['description']).toarray()

# 提取数值特征
scaler = StandardScaler()
numeric_features = scaler.fit_transform(products[['price', 'category']])

# 生成商品特征向量
product_vectors = np.hstack([tfidf_matrix, numeric_features])

2.2 商品特征提取与向量化

使用TF-IDF对商品的标题和描述进行向量化处理，并结合价格和类别等数值特征，生成商品特征向量。

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.preprocessing import StandardScaler
import numpy as np

# 提取文本特征
vectorizer = TfidfVectorizer(max_features=100)
tfidf_matrix = vectorizer.fit_transform(products['title'] + ' ' + products['description']).toarray()

# 提取数值特征
scaler = StandardScaler()
numeric_features = scaler.fit_transform(products[['price', 'category']])

# 生成商品特征向量
product_vectors = np.hstack([tfidf_matrix, numeric_features])

2.3 创建Milvus集合并插入数据

from pymilvus import connections, Collection, CollectionSchema, FieldSchema, DataType

# 连接到Milvus服务器
connections.connect("default", host="localhost", port="19530")

# 定义Milvus集合的字段
fields = [
    FieldSchema(name="product_id", dtype=DataType.INT64, is_primary=True, auto_id=True),
    FieldSchema(name="embedding", dtype=DataType.FLOAT_VECTOR, dim=product_vectors.shape[1])
]

# 创建Milvus集合
schema = CollectionSchema(fields, "product_embeddings")
collection = Collection("product_embeddings", schema)

# 插入商品特征向量到Milvus
collection.insert([{'embedding': vector.tolist()} for vector in product_vectors])
print("Data inserted into Milvus successfully.")

2.4 商品搜索与推荐

通过相似性搜索实现商品推荐。

# 查询一个新的商品特征向量
new_product = {'title': 'new product title', 'description': 'new product description', 'price': 100, 'category': 1}
new_product_tfidf = vectorizer.transform([new_product['title'] + ' ' + new_product['description']]).toarray()
new_product_numeric = scaler.transform([[new_product['price'], new_product['category']]])
new_product_vector = np.hstack([new_product_tfidf, new_product_numeric]).tolist()

# 在Milvus中搜索相似商品
search_params = {"metric_type": "L2", "params": {"nprobe": 10}}
results = collection.search([new_product_vector], "embedding", search_params, limit=5)

# 输出搜索结果
print("Similar products:")
for result in results[0]:
    print(f"Product ID: {result.id}, Distance: {result.distance}")

流程图

三、基于Milvus的用户行为分析

3.1 数据准备

在进行用户行为分析时，我们需要对用户的行为数据进行向量化处理，将用户的点击、浏览、购买等行为转换为高维向量。

安装依赖包

pip install pymilvus pandas numpy scikit-learn

数据示例

假设我们有一组用户行为数据，存储在CSV文件中：

# 加载用户行为数据
behavior_file = 'path_to_user_behavior_data.csv'
behaviors = pd.read_csv(behavior_file)

下面使用示例数据的方式：

# 示例用户行为数据
data = {
    'user_id': [1, 2, 3, 4, 5],
    'clicks': [10, 5, 8, 2, 7],
    'views': [20, 15, 30, 5, 25],
    'purchases': [1, 2, 3, 0, 1]
}

# 转换为DataFrame
behaviors = pd.DataFrame(data)

# 提取用户行为特征
behavior_features = behaviors[['clicks', 'views', 'purchases']].values

# 标准化特征
scaler = StandardScaler()
behavior_vectors = scaler.fit_transform(behavior_features)

3.2 用户行为特征提取与向量化

# 提取用户行为特征
behavior_features = behaviors[['clicks', 'views', 'purchases']].values

# 标准化特征
scaler = StandardScaler()
behavior_vectors = scaler.fit_transform(behavior_features)

3.3 创建Milvus集合并插入数据

# 连接到Milvus服务器
connections.connect("default", host="localhost", port="19530")

# 定义Milvus集合的字段
fields = [
    FieldSchema(name="user_id", dtype=DataType.INT64, is_primary=True, auto_id=True),
    FieldSchema(name="embedding", dtype=DataType.FLOAT_VECTOR, dim=behavior_vectors.shape[1])
]

# 创建Milvus集合
schema = CollectionSchema(fields, "user_behavior_embeddings")
collection = Collection("user_behavior_embeddings", schema)

# 插入用户行为特征向量到Milvus
collection.insert([{'embedding': vector.tolist()} for vector in behavior_vectors])
print("Data inserted into Milvus successfully.")

3.4 用户行为分析

通过相似性搜索实现用户行为分析。

# 查询一个新的用户行为特征向量
new_behavior = {'clicks': 5, 'views': 10, 'purchases': 2}
new_behavior_vector = scaler.transform([[new_behavior['clicks'], new_behavior['views'], new_behavior['purchases']]]).tolist()

# 在Milvus中搜索相似用户行为
search_params = {"metric_type": "L2", "params": {"nprobe": 10}}
results = collection.search([new_behavior_vector], "embedding", search_params, limit=5)

# 输出搜索结果
print("Similar user behaviors:")
for result in results[0]:
    print(f"User ID: {result.id}, Distance: {result.distance}")