机器学习
Hold_My_Own
When the dust settles, and it will, we'll see.
展开
-
机器学习实战学习笔记(十三)利用SVD简化数据
PS:该系列数据都可以在图灵社区(点击此链接)中随书下载中下载(如下)1 SVD的应用 奇异值分解优点:简化数据,去除噪声,提高算法的结果。缺点:数据的转换可能难以理解。适用数据类型:数值型数据。1.1 隐形语义索引 最早的SVD应用之一就是信息检索。我们称利用SVD的方法为隐性语义...原创 2019-11-15 10:12:02 · 475 阅读 · 0 评论 -
机器学习实战学习笔记(十二)利用PCA来简化数据
PS:该系列数据都可以在图灵社区(点击此链接)中随书下载中下载(如下)1 降维技术 对数据进行简化的原因:使得数据集更易使用;降低很多算法的计算开销;去除噪声;使得结果易懂。 主成分分析(Principal Component Analysis,PCA): 在PCA中,数据从原来的坐标系转换到了新的坐标系,新坐标系的选择是由数据本身决定的。第一个新坐标轴选择的是原始数据中方...原创 2019-11-14 20:41:57 · 452 阅读 · 0 评论 -
机器学习实战学习笔记(十一)使用FP-growth算法来高效发现频繁项集
PS:该系列数据都可以在图灵社区(点击此链接)中随书下载中下载(如下)FP-growth算法:比Apriori算法要快。它基于Apriori构建,但是在完成相同任务时采用了一些不同的技术。这里的任务是将数据集存储在一个特定的称作FP树的结构之后发现频繁项集或者频繁相对,即常在一块出现的元素项的集合FP树。这个算法能够更有效地挖掘数据。这种算法虽然能更为高效地发现频繁项集,但不能用于发现关联规则...原创 2019-11-14 16:36:41 · 1058 阅读 · 0 评论 -
机器学习实战学习笔记(十)使用Apriori算法进行关联分析
PS:该系列数据都可以在图灵社区(点击此链接)中随书下载中下载(如下) 从大规模数据集中寻找物品间的隐含关系被称作关联分析(association analysis) 或者关联规则学习(association rule learning)。1 关联分析 Apriori算法优点:易编码实现。缺点...原创 2019-11-05 16:12:10 · 861 阅读 · 0 评论 -
机器学习实战学习笔记(九)K-均值聚类算法
PS:该系列数据都可以在图灵社区(点击此链接)中随书下载中下载(如下) 聚类是一种无监督的学习,它将相似的对象归到同一个簇中。它有点像全自动分类,聚类方法几乎可以应用于所有对象,簇内的对象越相似,聚类的效果越好。K-均值(K-means) 聚类算法,之所以称之为K-均值是因为它可以发现k个不同的簇,且每个簇的中心采用簇中所含值的均值计算而成。 簇识别(cluster identifica...原创 2019-11-03 21:41:31 · 625 阅读 · 1 评论 -
机器学习实战学习笔记(八)树回归
PS:该系列数据都可以在图灵社区(点击此链接)中随书下载中下载(如下)原创 2019-11-03 15:57:03 · 369 阅读 · 0 评论 -
机器学习实战学习笔记(七)预测数值型数据:回归
PS:该系列数据都可以在图灵社区(点击此链接)中随书下载中下载(如下)1 用线性回归找到最佳拟合直线 线性回归 优点:结果易于理解,计算上不复杂。 缺点:对非线性的数据拟合不好。 适用数据类型:数值型和标称型数据。 假定输入数据存放在矩阵XXX中,而回归系数存放在向量www中。那么对于给定的数...原创 2019-10-31 16:25:17 · 475 阅读 · 0 评论 -
机器学习实战学习笔记(六)利用AdaBoost元算法提高分类性能
PS:该系列数据都可以在图灵社区(点击此链接)中随书下载中下载(如下)1 基于数据集多重抽样的分类器 我们可以将不同的分类器组合起来,而这种这结果则被称为集成方法(ensemble method) 或者元算法(meta-algorithm)。使用集成方法时会有多种形式:可以是不同算法的集成,也可以是同一算法在不同设置下的集成,还可以是数据集不同部分分配给不同分类器之后的集成。 ...原创 2019-10-30 15:36:56 · 317 阅读 · 0 评论 -
机器学习实战学习笔记(五)支持向量机
PS:该系列数据都可以在图灵社区(点击此链接)中随书下载中下载(如下)1 基于最大间隔分隔数据 支持向量机(Support Vector Machines, SVM) 优点:泛化错误率低,计算开销不大,结果易于解释。 缺点:对参数调节和核函数的选择敏感,原始分类器不加修改仅适用于处理二类问题。 使用数据类型:数值型和标称型数据。...原创 2019-10-28 22:18:54 · 194 阅读 · 0 评论 -
机器学习实战学习笔记(四)Logistic回归
PS:该系列数据都可以在图灵社区(点击此链接)中随书下载中下载(如下)1 基于Logistic回归和Sigmoid函数的分类 Logistic回归 优点:计算代价不高。易于理解和实现。 缺点:容易欠拟合,分类精度可能不高。 适用数据类型:数值型和标称型数据。 我们想要的函数应...原创 2019-10-25 15:07:57 · 329 阅读 · 0 评论 -
机器学习实战学习笔记(三)基于概率论的分类方法:朴素贝叶斯
PS:该系列数据都可以在图灵社区(点击此链接)中随书下载中下载(如下)1 基于贝叶斯决策理论的分类方法 朴素贝叶斯 优点:在数据较少的情况下仍然有效,可以处理多类别问题。 缺点:对于输入数据的准备方式较为敏感。 适用数据类型:标称型数据。 ...原创 2019-10-24 19:17:19 · 259 阅读 · 0 评论 -
机器学习实战学习笔记(二)决策树
PS:该系列数据都可以在图灵社区(点击此链接)中随书下载中下载(如下)1 决策树的构造 决策树 优点:计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不相关特征数据。 缺点:可能会产生过度匹配问题。 使用数据类型:数值型和标称型。 创建分支的伪代码函数createBranch()如下:检测数据集中的每个子项是否属于同一分类: If so...原创 2019-10-21 20:13:06 · 340 阅读 · 0 评论 -
机器学习实战学习笔记(一)k-近邻算法
1 k-近邻算法概述 简单地说,k-近邻算法(kNN)采用测量不同特征值之间的距离方法进行分类。 优点:精度高、对异常值不敏感、无数据输入假定。 缺点:计算复杂度高、空间复杂度高。 适用数据范围:数值型和标称型1.1 准备:适用Python导入数据 创建kNN.py的Python模块,在kNN.py文件中编写如下代码:from numpy import *import ope...原创 2019-10-20 18:06:23 · 301 阅读 · 0 评论