想想还是把最近学的东西(AI机器学习)做一个分享吧,毕竟对知识的理解可能有错但按时成长是没有错的,本人对这些知识的认识比较粗浅还望大家多多包涵。
从零开始机器学习
第一章:
临近算法knn(k-nearest neighbor)的计算
k单位(个),意味需要预测判断的东东和离最近的几(k)个东东比较,从而判断需要预测判断的东东会是啥。
你讲的啥?好吧,我也不知道。 盗个图先
现在告诉你图里面有两种类型(红色三角和蓝色方框),让你预测一下绿色圆圈是属于红色三角还是蓝色方块
这时候我们就需要用到临近算法
当k=3的时候由图可知离绿色圆圈最近的3个有2个红色三角和一个蓝色方框(正所谓近朱者赤近墨者黑)在这种情况下我们会把圆圈判断为三角类型的,当k=5的时候方框占了3个三角有2个此时我们会让机器把圆圈判断为方框。(k一般取奇数,因为是偶数时当三角和方框个数相等时就有点为难聪明的机器了)
说到这里初学者应该有很多问题如下:
k不同,预测结果也会有相应的差异,我们该如何选取k以保证近邻分类器的性能
1. 将数据拆分为训练集和测试集的目的和意义
其实我们需要提前将已知数据分为训练集和测试集,一般情况我们的训练集要比测试集多得多。
然后我们来看看训练集和测试集分别是做什么的:
顾名思义训练集用来训练出k的值(即学习过程),测试集则是用来判断训练集所得的k准不准确。
切记训练集和测试集的数据是分开放的(相当于把一个桶里的小球随机放在两个桶内),不是放在一起计算。将数据拆分为训练集和测试集也是为了防止拿学习数据再次去判断比拆分数据更容易产生误差。
2.用训练集去计算出k
确定好训练集后我们需要选定一个k值然后一个个的选定其中一个数据计算计算在这个k值下的准确度(我们看到图一,假设我们选定一个蓝色正方形选定k=1如果离它最近的一个类别(数据)是蓝色方框那它就是正确的即分子加一),在这个k值下判断正确的所有个数做分子,整个训练集做分母。
将上个步骤取不同的k重复运算准确度最高的就是我们需要的k。一般k范围在1到训练集的完全平方根。
3. 用测试集来判断
测试集一般用来排除特殊情况,如果嫌麻烦不用也没有太大的影响
在训练集中计算出k的值后我们再把这个值代入到测试集中取判断它的准确定是否可靠,如果可行就可以用来预测未知数据的种类了
二.各个数据集间的距离该如何计算
由于我们平时遇到的数据并不都是只有两种(可能是多维的)这时我们需要用到欧拉公式求解:
二维数据大家都很熟悉:
三维数据计算距离:
多维数据计算距离
可以化简为:
*在knn算法中还包含着:
- 不相关属性与尺度缩放问题
- 性能方面的