统计模型
文章平均质量分 66
路人甲wttttt
这个作者很懒,什么都没留下…
展开
-
隐马尔科夫模型(Hidden Markov Models)
在上课时,老师讲的HMM没有听懂,所以lz就找的这篇文章来看。 这篇文章写的很好,让我对HMM的基本概念的理解得很透彻,转载来做个备份。 文章里面可能有一些细小的错误,我尽可能的作了修改。 原文链接:http://blog.csdn.net/eaglex/article/details/6376826 介绍(introduction)生成模式(Generating Patterns转载 2015-05-25 15:55:11 · 1066 阅读 · 2 评论 -
2、朴素贝叶斯法
看了李航的《统计学习方法》中的第四章:朴素贝叶斯法,我的几点思考如下: 1、关于连续模型 如果模型的输入空间是连续的,那么是先量化再用离散模型做,还是直接使用连续模型拟合呢? 这一点还应该再看看书。 2、关于条件独立性假设 这个假设是很强的一个假设,直接导致了朴素贝叶斯法无法使用到一般问题中。一般问题都不满足条件独立性。 我认为可以先用KLT处理数据,去除相关性和噪声,再来处理。 3原创 2015-07-25 15:46:39 · 336 阅读 · 0 评论 -
1、k-邻近算法
1、首先要搭建环境 这里需要numpy、scipy、matplotlib三个库,下载地址如下,双击安装即可: (需要注意python的版本号和32/64位) numpy:http://sourceforge.net/projects/numpy/files/NumPy/1.7.0/ matplotlab:http://sourceforge.net/projects/matplotlib/原创 2015-07-24 19:56:12 · 481 阅读 · 0 评论 -
3、决策树
决策树主要包括ID3、C4.5、CART三种主要的算法。这三种算法的思想是一致的,都是选择一个属性,对特征空间逐步细分,最后再剪枝。这三步用书上的原话说就是:特征选择,决策树的生成和剪枝。 1、特征选择 信息增益相当于“用这个特征分类”和“数据集本身混乱度”之间的互信息。我们倾向于选择能提供更大互信息的特征,这样意味着用该特征分类更有价值。 在ID3算法中,特征选择是使用了信息增益最原创 2015-07-29 10:20:10 · 695 阅读 · 2 评论 -
4、Logistic回归
这一部分,主要是用来讲解最优化算法。 我们采用的算法是梯度上升法。梯度上升算法用来求最大值,梯度下降算法用来求最小值。 给出代码: from numpy import * def loadDataSet(): dataMat = []; labelMat = [] fr = open('testSet.txt') for line in fr.readlines()原创 2015-09-13 15:45:08 · 461 阅读 · 0 评论 -
5、支持向量机SVM
支持向量机的思想在于最小间隔最大化。这篇文章主要关注SMO算法的实现,和核函数的使用问题。 SMO算法的工作原理是每次循环中选择两个alpha值进行优化处理。这两个alpha满足一定的条件: 1、两个alpha必须要在间隔边界之外 2、两个alpha还没经过区间化处理或不在边界上 首先看一个简化版的SMO算法函数。 from numpy import * from time import原创 2015-09-13 16:57:06 · 872 阅读 · 0 评论 -
6、K均值算法
# -*- coding:utf-8 -*- ''' Created on Feb 16, 2011 k Means Clustering for Ch10 of Machine Learning in Action @author: Peter Harrington ''' from numpy import * def loadDataSet(fileName): #genera原创 2015-09-20 10:39:11 · 488 阅读 · 0 评论