python机器学习实战

最新推荐文章于 2024-06-29 00:52:06 发布

十一月的萧邦。

最新推荐文章于 2024-06-29 00:52:06 发布

阅读量284

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/weixin_45625815/article/details/103219306

版权

1-1.准备导入数据

from numpy import *
import operator

def createDataSet():
    group = array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])
    labels = ['A','A','B','B']
    return group, labels

先来点开胃菜，在上面的代码中，我们导入了两个模块，一个是科学计算包numpy，一个是运算符模块，在后面都会用到，在createDataSet函数中，我们初始化了group，labels，我们将做这样一件事，[1.0,1.1]和[1.0,1.0] 对应属于labels中 A 分类，[0,0]和[0,0.1]对应属于labels中的B分类，我们想输入一个新的二维坐标，根据上面的坐标来判断新的坐标属于那一类，在这之前，我们要实现k-近邻算法，下面就开始实现

def classify0(inX, dataSet, labels, k):
    dataSetSize = dataSet.shape[0]                  
    diffMat = tile(inX, (dataSetSize,1)) - dataSet 
    sqDiffMat = diffMat**2
    sqDistances = sqDiffMat.sum(axis=1)
    distances = sqDistances**0.5                    
    sortedDistIndicies = distances.argsort()     
    classCount={
   }          
    for i in range(k):
        voteIlabel = labels[sortedDistIndicies[i]]
        classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1
    sortedClassCount = sorted(classCount.iteritems(), key=operator.itemgetter(1), reverse=True)
    return sortedClassCount[0][0]

代码解析：

函数的第一行是要得到数据集的数目，例如group.shape就是（4，2），shape[0]反应数据集的行，shape[1]反应列数

函数的第二行是array对应相减,tile会生成关于Inx的dataSetSize大小的array，例如，InX是[0,0],则tile(InX,(4,1))是array([[0, 0], [0, 0], [0, 0],[0, 0]]),然后与dataSet对应相减，得到新的array

函数的第三行是对第二步的结果进行平方算法，方便下一步算距离

函数的第四行是进行求和，注意是axis=1，也就是array每个二维数组成员进行求和(行求和)，如果是axis=0就是列求和

第五行是进行平方距离的开根号

以上5行实现的是距离的计算，下面的是选出距离最小的k个点，对类别进行统计，返回所占数目多的类别

classCount定义为存储字典，里面有‘A’和‘B’，它们的值是在前k个距离最小的数据集中的个数，本例最后classCount={‘A’:1,‘B’:2},函数argsort是返回array数组从小到大的排列的序号，get函数返回字典的键值，由于后面加了1，所以每次出现键值就加1，就可以就算出键值出现的次数里。最后通过sorted函数将classCount字典分解为列表，sorted函数的第二个参数导入了运算符模块的itemgetter方法，按照第二个元素的次序（即数字）进行排序，由于此处reverse=True，是逆序，所以按照从大到小的次序排列。

1-2.准备数据：从文本中解析数据
这上面是k-近邻的一个小例子，我的标题还没介绍，现在来介绍标题，准备数据，一般都是从文本文件中解析数据，还是从一个例子开始吧！

本次例子是改进约会网站的效果，我们定义三个特征来判别三种类型的人
特征一：每年获得的飞行常客里程数
特征二：玩视频游戏所耗时间百分比
特征三：每周消费的冰淇淋公升数
根据以上三个特征：来判断一个人是否是自己不喜欢的人，还是魅力一般的人，还是极具魅力的人

于是，收集了1000个样本，放在datingTestSet2.txt中，共有1000行，每一行有四列，前三列是特征，后三列是从属那一类人，于是问题来了，我们这个文本文件的输入导入到python中来处理，于是需要一个转换函数file2matrix，函数输入是文件名字字符串，输出是训练样本矩阵（特征矩阵）和类标签向量

def file2matrix(filename):
    fr = open(filename)
    numberOfLines = len(fr.readlines())         #get the number of lines in the file
    returnMat = zeros((numberOfLines,3))        #prepare matrix to return
    classLabelVector = []                       #prepare labels return   
    fr = open(filename)
    index = 0
    for line in fr.readlines():
        line = line.strip()
        listFromLine = line.split('\t')
        returnMat[index,:] = listFromLine[0:3]
        classLabelVector.append(int(listFromLine[-1]))
        index += 1
    return returnMat,classLabelVector

这个函数比较简单，就不详细说明里，这里只介绍以下一些函数的功能吧！
open函数是打开文件，里面必须是字符串，由于后面没加‘w’，所以是读文件
readlines函数是一次读完文件，通过len函数就得到文件的行数
zeros函数是生成numberOfLines X 3的矩阵，是array型的
strip函数是截掉所有的回车符
split函数是以输入参数为分隔符，输出分割后的数据，本例是制表键，最后输出元素列表
append函数是向列表中加入数据

1-3.分析数据：使用Matplotlib创建散点图
首先，从上一步得到训练样本矩阵和类标签向量,先更换一下路径

 cd /home/fangyang/桌面/machinelearninginaction/Ch02/

datingDataMat,datingLabels = file2matrix('datingTestSet2.txt')

import matplotlib
import matplotlib.pyplot as plt
fig = plt.figure()
ax =  fig.add_subplot(111)
ax.scatter(datingDataMat[:,0], datingDataMat[:,1], 15.0*array(datingLabels), 15.0*array(datingLabels))  #scatter函数是用来画散点图的
plt.show()

结果显示
在这里插入图片描述
1-4. 准备数据：归一化处理

我们从上图可以上出，横坐标的特征值是远大于纵坐标的特征值的，这样再算新数据和数据集的数据的距离时，数字差值最大的属性对计算结果的影响最大，我们就可能会丢失掉其他属性，例如这个例子，每年获取的飞行常客里程数对计算结果的影响远大于其余两个特征，这是我们不想看到的，所以这里采用归一化数值处理，也叫特征缩放，用于将特征缩放到同一个范围内。
本例的缩放公式 newValue = (oldValue - min) / (max - min)
其中min和max是数据集中的最小特征值和最大特征值。通过该公式可将特征缩放到区间（0，1）
下面是特征缩放的代码

def autoNorm(dataSet):

最低0.47元/天解锁文章

十一月的萧邦。

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
python机器学习实战

1-1.准备导入数据from numpy import *import operatordef createDataSet(): group = array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]]) labels = ['A','A','B','B'] return group, labels先来点开胃菜，在上面的代码中，我们导入...
复制链接

扫一扫

专栏目录