机器学习
文章平均质量分 66
westenboy
这个作者很懒,什么都没留下…
展开
-
机器学习之k近邻算法——2、文本解析(从txt格式到numpy的array数组)
上一节的kNN算法中,训练样本是直接输入进去的。这一节中,主要介绍如何把txt文本中的训练样本解析为numpy的array数组:文本数据解析伪代码的流程:1、打开txt训练文本:2、利用列表的strip函数和split函数来处理txt文件,函数的使用如下:3、通过numpy的zeros函数来创建一个array数组,来存储训练样本数据,zeros的使用如下:原创 2014-12-21 22:58:01 · 783 阅读 · 0 评论 -
机器学习之K近邻算法——1、kNN分类算法(基本原理)
kNN分类算法的伪代码流程:1、准备无标签测试数据:inX=[0,0]2、准备样本数据(特征值):dataSet={[[1,1],[1,2],[0,0],[0,1]])3、准备样本数据(标签/目标值): labels=[‘A’,‘A’,‘B’,‘B’]4、计算已知样本数据中的每个点和当前测试点之间的距离4.1、利用NumPy扩充数组函数tile来扩充测试数据,按照样本数据原创 2014-12-20 17:07:00 · 3566 阅读 · 0 评论 -
机器学习之k近邻算法——3、matplotlib简明教程
matplotlib安装:1、http://matplotlib.org/downloads.html中下载matplotlib-1.4.2.win32-py3.3.exe安装文件;2、运行时提示报错,如下:解决方法:https://pypi.python.org/pypi/six/中下载six-1.8.0.tar包,解压后将six.py放到C:\Python33\Lib中原创 2014-12-22 23:48:45 · 827 阅读 · 0 评论 -
机器学习之k近邻算法——4、特征值归一化
为什么需要做特征值归一化:对于特征是年龄、身高、年薪,标签是择偶观的样本数据而言,显然利用特征的差值来估算择偶观来看,年薪这一特征值对于计算结果的影响最大。因此,我们需要对样本数据做归一化处理。对于每一行样本数据来说,归一化处理公式如下:normDataSet=(data-min)/(max-min)就上图对于(年龄、身高、年薪)=(20、178、20000)的这行数据来说原创 2014-12-25 23:08:20 · 1608 阅读 · 0 评论 -
机器学习之k近邻算法——5、约会网站的配对开发流程
1、从文本中解析数据(特征数据和标签数据分离):file2matrix()文本中的部分样本数据如下:file2matrix()代码如下:利用file2matrix()将特征值和标签值分离:>>> import demo>>> data,label=demo.file2matrix('D:\\datingTestSet.txt')2、特征原创 2014-12-27 20:27:54 · 604 阅读 · 0 评论 -
机器学习之决策树——ID3算法简介
决策树简介 在相亲过程中,女方会根据男方的一些特征(年龄、长相、收入、是否公务员)来决策自己的行为(见还是不见)。如果利用kNN算法来预测女方是否去见相亲对象的话,需要保存样本数据,且需要将年龄等这些特征先转换为对应的数值,同时需要对所有数据计算距离值,非常耗时。因此,我们可以利用概率测量方法(决策树)来处理分类问题。决策树定义 决策树的基本组成部分:决策节原创 2014-12-28 17:19:21 · 1867 阅读 · 0 评论