机器学习实战
文章平均质量分 53
zhangjzyeah
这个作者很懒,什么都没留下…
展开
-
第2章 k-近邻算法总结
算法思想: 训练数据(特征+标签),新数据(特征)。输入新数据后,将新数据的每个特征与训练集(特征)中每条数据对应的特征进行比较,选择最相近的前k条数据,统计这k条数据所对应的标签种类及个数,选择出现次数最多的标签,作为新数据的分类标签。算法伪代码:输入:新数据向量,训练集,训练集对应的标签向量,k获取训练集的大小n,即行数新数据向量重复n行,1列。(方便计算距离)计算距离(可采用欧式距离)...原创 2018-03-31 20:10:14 · 145 阅读 · 0 评论 -
第5章 Logistic回归—示例
从疝气病症预测病马的死亡率1 准备数据处理数据中缺失值的方法: 使用可用特征的均值来填补缺失值 使用特殊值来填补缺失值,如-1 忽略有缺失值的样本 使用相似样本的均值添补缺失值 使用另外的机器学习算法预测缺失值 此例中选择用0来代替缺失值,可以在使用该样本跟新回归系数时不产生影响。忽略标签数据缺失的样本 2 测试算法:使用Logist...原创 2018-06-21 21:10:41 · 556 阅读 · 0 评论 -
第5章 Logistic回归
介绍:回归:用一条直线对已知数据点进行拟合的过程称作回归。利用Logistic回归进行分类的主要思想:根据现有数据对分类边界线建立回归公式,以此进行分类。回归的关键在于寻找最佳拟合参数,使用的是最优化算法。Logistic回归的一般过程:1 收集数据---2 准备数据---3 分析数据---4 训练算法(目的是找到最佳的分类回归系数,占用大部分时间)---5 测试算法 ...原创 2018-06-21 20:50:47 · 522 阅读 · 0 评论 -
第4章 4.6使用朴素贝叶斯过滤垃圾邮件
4.6使用朴素贝叶斯过滤垃圾邮件 其中有一部分函数在上一节的内容中记录过,因为该实例需要使用上节中介绍的某些函数,所以把那些函数拷贝过来了。 添加的新函数:text Parse(),spamTest() 其中spamTest()函数是对叶贝斯垃圾邮件分类器进行自动化处理。过程如下 导入文件夹spam和ham下的文本文件(分别对应正常邮件和垃圾邮件),将文本文件解析为词列表([...原创 2018-04-13 20:17:34 · 518 阅读 · 0 评论 -
第4章 4.5使用Python进行文本分类---4.5.3 测试算法:根据现实情况修改分类器
4.5.3 测试算法:根据现实情况修改分类器4.5.4 准备数据:文档词袋模型 词集模型:将每个词的出现与否作为一个特征。 词袋模型:每个词在文档中出现不止一次,这可能意味着包含该词是否出现在文档中所不能表达的某种信息,记录每个词出现的次数。 相应代码及解释如下:'''函数功能:判断待分类的文本向量,属于哪个类别(0,1)的概率大输入...原创 2018-04-10 18:47:20 · 423 阅读 · 0 评论 -
第4章 4.5 使用Python进行文本分类---4.5.2从词向量计算概率
4.5.2 训练算法:从词向量计算概率需要注意的地方:(因为这两个问题,一直看不懂该训练算法的思想) 1.本算法的目的是为了计算p(w|ci),并不是为了计算p(ci|w)。 2.p(w|ci)=该词条在该类别中出现次数 / 该类别中所有词条出现的总数目。【针对二分类问题】p(ci|w) = p(w|ci) * p(ci) /...原创 2018-04-10 17:19:30 · 1112 阅读 · 0 评论 -
第4章 使用朴素贝叶斯分类的一个简单总结
第4章 使用朴素贝叶斯分类的一个简单总结原创 2018-04-16 10:00:34 · 387 阅读 · 0 评论 -
机器学习中各种方法常用来解决的问题
朴素贝叶斯:是用于文档分类的常用算法原创 2018-04-10 16:20:46 · 309 阅读 · 0 评论 -
第4章 4.5 使用Python进行文本分类---4.5.1 从文本中构建词向量
朴素贝叶斯分类器通常有两种实现方式:基于贝努利模型和基于多项式模型 贝努利模型假设每个特征同等重要,就是只考虑词在文档中是否出现,并不考虑次数。而多项式模型考虑词在文档中出现的次数。 此处使用贝努利模型,则朴素贝叶斯方法进行的两个假设: 1:特征之间相互独立 2:每个特征同等重要4.5.1 准备数据:从文本中构建词向量'...原创 2018-04-10 16:20:23 · 1969 阅读 · 0 评论 -
第14章 利用SVD简化数据
SVD:Singular Value Decomposition14.1 优缺点:优点:简化数据,去除噪声,提高算法的结果缺点:数据的转换可能难以理解适用数据类型:数值型数据14.2 常见应用:隐性语义索引(Latent Semantic Indexing,LSI)/隐性语义分析(Latent Semantic Analysis,LSA)推荐系统14.3 基于...原创 2018-06-15 21:24:11 · 262 阅读 · 0 评论