Python数据挖掘实战——KNN算法(K最近邻节点算法,k-NearestNeighbor)

一、分类

    分类是用来预测类别数据的一种方法,可以用来预测未来一段时间内用户是否会流失,预测用户是否会响应你的促销活动,能够评估用户的信用度是好还是差的一系列分类预测问题。

二、概念

2.1监督学习(Supervised Learning)   

从给定标注的训练数据集中学习出一个函数,根据这个函数为新数据进行标注。(有因变量y)回归分类、分类、时间序列等。

2.2无监督学习(Unsupervised Learning)

    从给定五标注的训练数据中学习出一个函数,根据这个函数为所有数据标注。(聚类、因子、关联等)

2.3分类(Classification)

    分类算法通过对已知类别训练数据集的分析,从中发现分类规格,以此预测新数据的类别,分类算法属于监督学习。

三、KNN算法(k-NearestNeighbor)

    

    1.找一个距离,例如最小的圆圈,圈内的训练样本数为3个,其中一个为矩形、两个三角形,待分类的数据从距离上看很可能是三角形。但是把虚线放大,放大到虚线的圆圈,其中有3个蓝色的矩形,2个红色的三角形,如果用这个距离绿色的圆很可能是蓝色矩形的分类。

四、分类算法的验证方法——交叉验证(Cross Validation)

4.1训练集(Train Set)
    用来训练模型或确定模型参数的数据。

4.2测试机(Test Set)
  • 0
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
可以使用Python中的Pandas库来读CSV文件。具体步骤如下: 1. 安装Pandas库:在命令行中输入`pip install pandas`。 2. 导入Pandas库:在Python文件中写入以下代码: ```python import pandas as pd ``` 3. 读CSV文件:使用Pandas库中的read_csv()函数来读CSV文件,例如: ```python data = pd.read_csv('filename.csv') ``` 其中,'filename.csv'是你要读的CSV文件名。 4. K-最近邻分类算法:K-最近邻分类算法是一种基于实例的学习方法,它通过比较新样本与训练集中的所有样本的距离来确定最近邻居。具体步骤如下: - 计算新样本与训练集中所有样本的距离; - 找到距离新样本最近的K个样本; - 根据这K个样本的类别标签来预测新样本的类别。 可以使用Python中的scikit-learn库来实现K-最近邻分类算法。具体步骤如下: 1. 安装scikit-learn库:在命令行中输入`pip install scikit-learn`。 2. 导入scikit-learn库:在Python文件中写入以下代码: ```python from sklearn.neighbors import KNeighborsClassifier ``` 3. 创建K-最近邻分类器:使用KNeighborsClassifier类来创建K-最近邻分类器,例如: ```python knn = KNeighborsClassifier(n_neighbors=3) ``` 其中,n_neighbors是你要选择的K值。 4. 训练分类器:使用fit()方法来训练分类器,例如: ```python knn.fit(X_train, y_train) ``` 其中,X_train是训练集中的特征数据,y_train是训练集中的类别标签。 5. 预测新样本的类别:使用predict()方法来预测新样本的类别,例如: ```python y_pred = knn.predict(X_test) ``` 其中,X_test是新样本的特征数据,y_pred是预测出的类别标签。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值