Lucas带你机器学习实战——KNN预测未来的爆品

本文链接：https://blog.csdn.net/weixin_50153843/article/details/143198414

KNN预测未来的爆品

KNN公式与原理

K近邻（K-Nearest Neighbors，简称KNN）是一种基本且广泛应用的分类与回归方法。其核心思想在于，给定一个训练数据集，其中实例标签已定，当输入新的实例时，可根据其最近的K个训练实例标签，预测新实例对应的标注信息。具体而言，KNN通过计算新实例与训练集中所有实例的距离，找出距离最近的K个实例，然后根据这些实例的标签进行预测。

在分类任务中，KNN选择K个最近邻实例中出现次数最多的类别作为预测结果；在回归任务中，KNN则取K个最近邻实例的标签的平均值作为预测结果。距离度量通常使用欧几里得距离或曼哈顿距离。

原理解释

KNN算法基于一个简单的假设：相似的实例在特征空间中距离较近。因此，对于一个新的实例，我们可以通过计算它与训练集中所有实例的距离，找到与其最相似的K个实例，然后根据这些相似实例的标签来预测新实例的类别或值。

算法过程

1, 计算训练样本和测试样本中每个样本点的距离（常见的距离度量有欧式距离，马氏距离；
2, 对上面所有的距离值进行排序；
3, 选前k个最小距离的样本；
4, 根据这k个样本的标签进行投票，得到最后的分类类别；

· 输入：训练数据集

在这里插入图片描述

其中，xi 为实例的特征向量， yi 为实例的类别，i=1,2,⋯,N

· 输出：实例x 所属的类 y

找出距离 x 最近的 K 个训练实例，然后根据这些实例的标签 yi 进行投票，最常见的标签即为预测结果。如果 K 个最近邻中有 k 个实例属于类别 Cj，则输出公式可以表示为：

在这里插入图片描述

其中在这里插入图片描述
是一个指示函数，如果
则为1，否则为0。

事例

假设我们有一个关于电影喜好的数据集，其中包括用户对不同类型电影的评分。现在，我们有一个新用户，他的电影喜好未知。我们可以使用KNN算法，根据新用户与已有用户在电影评分上的距离，找到与新用户最相似的K个用户，然后根据这些用户的喜好来预测新用户的喜好。

临近法统计分析

在使用KNN进行预测时，我们需要考虑几个关键因素：距离度量方式、K值的选择以及数据的预处理。距离度量方式决定了如何计算实例之间的相似性；K值的选择影响了模型的复杂度和对噪声的敏感度；数据的预处理则包括标准化和归一化等步骤，以确保不同特征对预测结果的影响是均衡的。

通过统计分析，我们可以评估KNN模型的性能。例如，我们可以使用交叉验证法来选择最优的K值，或者使用准确率、召回率等指标来评估模型的预测效果。

临近法预测

在实际应用中，KNN算法可以用于各种预测任务，如个性化推荐、股票预测等。在预测未来爆品方面，我们可以将历史销售数据作为训练集，使用KNN算法来预测新产品的销售潜力。具体来说，我们可以根据新产品的特征（如价格、品牌、类别等）与已有产品的相似性，找到与新产品最相似的K个产品，然后根据这些产品的销售情况来预测新产品的销售潜力。

临近法Python语言程序

以下是一个使用Python实现KNN算法的简单示例：

import numpy as np 
from sklearn.neighbors import KNeighborsClassifier 
from sklearn.model_selection import train_test_split 
from sklearn.preprocessing import StandardScaler 

# 假设我们有一个数据集X和对应的标签y 
# X = ... (特征矩阵) 
# y = ... (标签向量) 

# 数据预处理：标准化 
scaler = StandardScaler() 
X_scaled = scaler.fit_transform(X) 

# 划分训练集和测试集 
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.2, random_state=42) 

# 创建KNN分类器并训练模型 
k = 5 # 选择K值 
knn = KNeighborsClassifier(n_neighbors=k) 
knn.fit(X_train, y_train) 

# 使用模型进行预测 
y_pred = knn.predict(X_test) 

# 评估模型性能 
accuracy = np.mean(y_pred == y_test) 
print(f'准确率: {accuracy:.2f}')

离散统计模型与根据近期使用情况分析爆品的Python程序

在预测未来爆品时，除了使用KNN算法外，我们还可以结合离散统计模型来分析产品的使用情况。例如，我们可以使用泊松分布或二项分布来模拟产品的销售情况，并根据历史数据来估计模型的参数。然后，我们可以使用这些模型来预测新产品的销售潜力。

以下是一个使用Python分析近期使用情况并预测爆品的简单示例：

import pandas as pd 
import numpy as np 
from scipy.stats import poisson 

# 假设我们有一个包含产品销售数据的DataFrame 
# df = ... (包含产品ID、销售日期和销售数量的DataFrame) 

# 按产品ID分组并计算每个产品的总销售数量和最近N天的平均销售数量 
N = 7 # 选择最近N天进行分析 
grouped = df.groupby('产品ID').agg({ 
'销售数量': ['sum', lambda x: x.rolling(window=N).mean().iloc[-1]] 
}).reset_index() 
grouped.columns = ['产品ID', '总销售数量', '最近N天平均销售数量'] 

# 设置一个阈值来判断是否为爆品 
threshold = 100 # 假设平均销售数量超过100的产品为爆品 
exploding_products = grouped[grouped['最近N天平均销售数量'] > threshold]['产品ID'].unique() 

# 输出爆品列表 
print('爆品列表:', exploding_products) 

# 如果需要，我们还可以使用泊松分布来预测新产品的销售潜力 
# 假设新产品的平均销售数量与类似产品的平均销售数量相同 
# lambda_ = ... (新产品的平均销售数量估计值) 
# predicted_sales = poisson.rvs(mu=lambda_, size=1000) # 生成1000个模拟销售数据 
# print('预测销售数量:', predicted_sales.mean())