机器学习
前言
个人认为,学习算法,因能力有限,了解其算法思想和概念即可,知道如何运用,何地、何时运用算法,不去深究算法的具体实现。毕竟,那些都是大V们倾尽毕生心血总结出来的经验,一时半会还真不弄不懂,哎,耐不住寂寞与繁华。。。
一、概念
从一堆数据中,通过某种手段,让机器计算和学习,得到有用的信息。
二、开发机器学习应用的步骤
从概念中,得到四大基本要素:
(1)数据,首先要收集数据,分清每一个样本的数据特征,相当于经验
(2)分析数据(总结经验)和处理数据,找到 采用”哪种算法” 处理数据,这是关键
(3)机器计算和学习,使用“算法”处理数据(学习经验),也叫“训练算法”
(4)遇到新的样本数据,输入机器,机器通过从过去的数据中总结的”经验”,得出结论,从而来验证“算法”
三、分类,两大类
1、监督学习算法, 就是 样本数据输入,能够得到具体的分类或预测结果值
=》以“群”分类,有因果关系
(1)分类算法,例如 一个新样本数据D(x0,x1,x3....xn)输入,已学习得到 n纬特征的权值向量是W(w1,w2,...wn),
Y= f(D*W) , 通过某种函数处理,得到最终的值,来判断属于 哪一类
(2) 回归预测,例如:一个新样本数据D(x0,x1,x3....xn)输入,已学习得到n纬特征的权值向量是W(w1,w2,...wn), Y=D*W,预测值是Y
2、无监督学习算法, 通过多个样本数据输入,按”某种纬度” 将数据分组,组内数据有相似性
=》“以类聚集”,无因果关系。
四、监督学习之分类算法
一般正常步骤:
(1)收集数据,找到影响分类的关键特征以及 样本的 特征值
(2)分析处理数据 ,选取哪种分类算法?
(3)找到 每个特征的权重集合W(w1,w2,w3,...wn)
(4)输入新样本数据,代入计算,得到分类结果。
特例是: 1、通过“概率论相关知识的分类算法”。
2、预测回归算法,在特征值n纬度的空间中模拟一个空间,将新样板代入,得到一个确定的值,既是预测值,例如:通过地点、时间、有没有地铁、品牌商等特征值预测房价等。
五、无监督学习
(1)聚类
(2)关联规则学习 , 样本数据之间的特征值数目可能不一样,找到特征之间的关联规则。
例子:假如数据有特征F1,F2,F3, 就能判断出 他可能有 特征 F4,F6, 既 F1,F2,F3 => F4,F6
假如数据有特征F2,就能判断出他可能有特征F5, 既 F2=>F5