机器学习点滴

人工智能其实就是统计学,只不过用了一个很华丽的辞藻,本质上就是统计学。很多的公式都非常老,而所有的人工智能利用的都是统计学来解决问题。

                                                                                                                                    ——诺贝尔经济学奖获得者 托马斯·萨金特

一些概念的普及

  • 什么是机器学习

对机器学习主要的一些定义如下:

  1. 机器学习是对能通过经验自动改进的计算机算法的研究。
  2. 机器学习是用数据或以往的经验,以此优化计算机程序的性能标准。
  3. 机器学习是一门研究机器获取新知识和新技能,并识别现有知识的学问。
  4. 机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能。
  • 机器学习的发展

1、第一阶段是在20世纪50年代中叶到60年代中叶,属于热烈时期。

2、第二阶段是在20世纪60年代中叶至70年代中叶,被称为机器学习的冷静时期。

3、第三阶段是从20世纪70年代中叶至80年代中叶,称为复兴时期。

4、机器学习的最新阶段始于1986年。

  • 机器学习的种类

监督学习、无监督学习、半监督学习、强化学习、其他

  • 主要的应用场景

1、数据挖掘

2、计算机视觉

3、自然语言处理

4、生物特征识别

5、搜索引擎

6、医学诊断

7、信用卡欺诈检测

8、证券市场分析

9、DNA测序

10、语音/手写识别

11、战略游戏

12、机器人运用

 

  1. 概率论数理统计,高代,线性代数
  2. LR、SVM、决策树、RF
  3. Python
  4. 论文博客
  5. 案例演示
  6. 深入研究

经典的理论和算法:

  支持向量机、逻辑回归、决策树、朴素贝叶斯分类器、随机深林、聚类算法、协同过滤、关联性分析、人工神经网络和BP算法、PCA、过拟合与正则化

第三方库:

pip install numpy --upgrade

pip install matplotlib --upgrade

pip install jupyter --upgrade

jupyter notebook

pip install scikit-image --upgrade

pip install libosa --upgrade

pip install nltk --upgrade

pip install keras --upgrade

pip install tflearn --upgrade

http://playground.tensorflow.org/

监督学习

在监督式学习下,每组训练数据都有一个标识值或结果值,如客户流失对应1,不流失对应0。在建立预测模型的时候,监督式学习建立一个学习过程,将预测的结果与训练数据的实际结果进行比较,不断的调整预测模型,直到模型的预测结果达到一个预期的准确率。

一、监督式学习 Supervised Learning

1. 分类 Classification

(1)K最近邻 K-Nearest Neighbor (KNN)

(2)朴素贝叶斯 Naive Bayes

(3)决策树 Decision Tree

        C4.5

     分类回归树 Classification And Regression Tree (CART)

(4)支持向量机器 Support Vector Machine (SVM)

2. 回归 Regression

(1)线性回归 linear regression

(2)局部加权回归 Locally weighted regression

(3)逻辑回归 logistic Regression

(4)逐步回归 stepwise regression

(5)多元自适应回归样条法 multivariate adaptive regression splines

(6)局部散点平滑估计 Locally estimated scatter plot smoothing ( LOESS )

(7)岭回归 Ridge Regression

(8)Least Absolute Shrinkage and Selection Operator ( LASSO )

(9)弹性网络 Elastic Net

(10)多项式回归 Polynomial Regression

3. 排序 Rank

(1)单文档分类 Pointwise

 McRan

(2)文档对方法(Pairwise)

Ranking SVM

RankNet

Frank

RankBoost

(3)文档列表方法(Listwise)

AdaRank

SoftRank

LambdaMART

4. 匹配学习

(1)人工神经网络

 感知神经网络 Perception Neural Network

 反向传递 Back Propagation

 Hopfield网络

 自组织映射 Self-Organizing Map ( SOM )

 学习矢量量化 Learning Vector Quantization ( LVQ )

 

半监督学习

在半监督学习方式下,训练数据有部分被标识,部分没有被标识,这种模型首先需要学习数据的内在结构,以便合理的组织数据来进行预测。算法上,包括一些对常用监督式学习算法的延伸,这些算法首先试图对未标识数据进行建模,在此基础上再对标识的数据进行预测。如深度学习:

1. 深度学习 Deep Learning

   深度学习是 监督学习的匹配学习中人工神经网络延伸出来发展出来的。

(1)受限波尔兹曼机 Restricted Boltzmann Machine ( RBM )

(2)深度信念网络 Deep Belief Networks ( DBN )

(3)卷积网络 Convolutional Network

(4)栈式自编码 Stacked Auto-encoders

无监督学习

在非监督式学习中,数据并不被特别标识,学习模型是为了推断出数据的一些内在结构。

1. 聚类

(1)K均值 k-means

(2)最大期望算法 Expectation Maximization ( EM )

(3)降维方法 Dimensionality Reduction

     主成分分析Principal Component Analysis ( PCA )

     偏最小二乘回归 Partial Least Squares Regression ( PLS )

     Sammon映射 Sammon Mapping

     多维尺度分析 Multidimensional Scaling ( MDS )

     投影寻踪 Projection Pursuit

     RD

2. 关联规则 Association Rule

(1)Apriori

(2)Eclat

增强学习

主要应用于学习控制移动机器人,在工厂中学习最优操作工序以及学习棋类对弈等。

       1. Q-Learning

       2. 时间差学习 Temporal difference learning

其他

集成算法用一些相对较弱的学习模型独立地就同样的样本进行训练,然后把结果整合起来进行整体预测。

1. Boosting

2. Bootstrapped Aggregation (Bagging)

3. AdaBoost

4. 堆叠泛化 Stacked Generalization

5. 梯度推进机 Gradient Boosting Machine ( GBM )

6. 随机森林 Random Forest

 

统计机器学习 把机器学习分了三个要素:

       模型、策略、算法

 

 

输入集合à函数à输出

 

函数就是模型  

策略就是损失函数

算法就是计算损失函数最小的方法

 

模型一般有概率模型和非概率模型

损失函数一般有

0-1损失函数:就是算对了为1,算错了就是0

绝对损失函数:就是求绝对值

平方损失函数:就是求方差

对数损失函数:就是求对数

 

举例说明 (是coursea上的作业):

 

一元线性回归:   y = kx +b

给定一组数据集,是x和y的组合

 

  目标:给定任意的x值,可以预测y的值

 

  流程: 首先要分析这是什么样的数据,

用什么方法去拟和

拟合之后要判断拟合的效果

           然后怎样把效果变好

       

  步骤:因为已经知道是一元线性回归问题了,这里可以先画个图

        如下是用python画的x,y点分布图

       

 

 

 

这里我们预测的函数就是

  y = k * x +b

一般的线性回归都是如下的样子

  y = w1*x1 + w2*x2 +… +wn*xn + b

 

比较规范的表示这个函数:

http://images2015.cnblogs.com/blog/715283/201611/715283-20161119155909951-316269234.png

 

损失函数:

http://images2015.cnblogs.com/blog/715283/201611/715283-20161119164254404-1778088725.png

 

梯度下降法:

 

        

拟合结果:用TensorFlow拟合,并用matplot画图

 

 

分类问题:

 

Sigmod函数

https://gss3.bdstatic.com/-Po3dSag_xI4khGkpoWK1HF6hhy/baike/c0%3Dbaike80%2C5%2C5%2C80%2C26/sign=33afcd8303f79052fb124f6c6d9abcaf/d009b3de9c82d158dfb4e7218a0a19d8bc3e426f.jpg

 

神经网络:

1.信息是通过神经元上的兴奋模式分布储在网络上;

2.信息处理是通过神经元之间同时相互作用的动态过程来完成的。

http://www.cnblogs.com/buptzym/p/5437973.html

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值