数据挖掘
文章平均质量分 84
Lee_jiaqi
这个作者很懒,什么都没留下…
展开
-
数据挖掘实例(航空公司客户价值分析)
一、实现目标(1)借助航空公司客户数据,对客户进行分类(2)对不同的客户进行特征分析,比较不同类客户的客户价值(3)对不同价值的客户类别提供个性化服务,指定相应的营销策略二、分析方法与过程航空客运信息挖掘主要步骤: (1)从航空公司的数据源进行选择性的抽取与新增数据抽取分别形成历史数据和增量数据(2)对步骤(1)中形成的两个数据集进行数据探索和预处理,包括数据缺失值与异常值的探索分析,数据的属性规原创 2017-11-29 18:12:40 · 10317 阅读 · 4 评论 -
机器学习实战—预测数值型数据:回归
一、用线性回归找到最佳拟合直线回归的目的是预测数值型的目标值,即依据输入写出一个目标值的计算公式。 这个公式就是所谓的回归方程,此处的HorsePower是我们要求的目标值,0.0015和-0.99就是回归方程的回归系数,annualSalary和hourListingToPublicRadio是计算目标值所需要输入的值。求这些回归系数的过程就是回归。给定输入X矩阵,回归系数存放...原创 2018-04-28 01:01:18 · 936 阅读 · 0 评论 -
机器学习实战—利用PCA来简化数据
一、降维技术在低维下,数据更容易处理。 对数据简化有如下原因: 1、使得数据集更易使用。 2、降低很多算法的计算开销。 3.去除噪声。 4.使得结果更易懂。第一种降维的方法是主成分分析(PCA),在PCA中,数据从原来的坐标系中转换到了新的坐标系,新坐标系的选择由数据本身决定。第一个新坐标轴选择的是原始数据中方差最大的方向,第二个新坐标轴的选择和第一个坐标轴正交且具有最大方差的方...原创 2018-05-06 12:45:15 · 862 阅读 · 0 评论 -
机器学习实战—使用FP-growth算法来高效发现频繁项集
FP-growth算法基于Apriori构建,但采用了高级的数据结构减少扫描次数,大大加快了算法速度。FP-growth算法只需要对数据库进行两次扫描,而Apriori算法对于每个潜在的频繁项集都会扫描数据集判定给定模式是否频繁,因此FP-growth算法的速度要比Apriori算法快。FP-growth算法发现频繁项集的基本过程如下: 1、构建FP树 2、从FP树中挖掘频繁项集FP-...原创 2018-05-05 20:52:23 · 3137 阅读 · 0 评论 -
机器学习实战—使用Apriori算法进行关联分析
从大规模数据集中寻找物品间的隐含关系被称作关联分析或者关联规则学习。一、关联分析频繁项集:经常出现在一块的集合。 关联规则:按时两种物品之间可能存在很强的关系。支持度:一个项集的支持度被定义为数据集中包含该项集的记录所占的比例。 可信度或置信度:是针对诸如{尿布}—>{葡萄酒}的关联规则来定义的,这条规则的可信度被定义为:支持度({尿布,葡萄酒})/支持度({尿布})支持...原创 2018-05-04 20:13:35 · 7891 阅读 · 3 评论 -
机器学习实战—利用AdaBoost元算法提高分类性能
元算法:是对其他算法进行组合的一种方式。一、基于数据集多重抽样的分类器将不同的分类器组合起来,这种组合结果被称为集成方法或者元算法。集成方法的形式: 1.不同算法的集成; 2.同一算法在不同设置下的集成; 3.数据集不同部分分配给不同分类器之后的集成; 本文介绍的两种集成算法都是基于同一分类器多个不同样本实例的方法。1.1 bagging:基于数据随机重抽样的分类器构建方法...原创 2018-04-25 22:38:55 · 1117 阅读 · 0 评论 -
机器学习实战—K-均值聚类算法
聚类是一种无监督的学习,它将相似的对象归到同一簇中,簇内的对象越相似,聚类的效果越好。K-均值聚类算法,它可以发现K个不同的簇,且每个簇的中心采用簇中所含值的均值计算而成。簇识别概念:假定有一些数据,现在将相似数据归到一起,簇识别会告诉我们这些簇到底都是些什么,聚类与分类的最大不同在于,分类的目标事先已知,而聚类则不一样。因为其产生的结果与分类相同,而只是类别没有预先定义,聚类有时也被称为无监...原创 2018-05-03 22:18:52 · 1673 阅读 · 0 评论 -
机器学习实战—树回归
线性回归包含了一些强大的方法,但这些方法创建的模型需要拟合所有的样本点(局部加权线性回归除外)。当数据拥有众多特征并且特征之间关系十分复杂时,构建全局模型的想法就太难了。一种可行的办法是将数据集切分成很多份易建模的数据,然后利用线性回归建模,如果首次切分后仍然难以拟合线性模型就继续切分,在这种切分方式下,树结构和回归法就很有用。这里介绍一种即可用于分类还可以用于回归的CART树构建算法。之后引...原创 2018-05-02 16:16:13 · 658 阅读 · 0 评论 -
机器学习实战—支持向量机
支持向量机中的数学推导太多了! 以下两篇博客内容对SVM的原理及数学推导做了详细解析,认认真真的看完,对支持向量机的认识就会很深刻了,阅读书中的代码毫不费力。 https://zhuanlan.zhihu.com/p/29604517 https://zhuanlan.zhihu.com/p/29872905...原创 2018-04-24 01:59:11 · 187 阅读 · 0 评论 -
机器学习实战—Logistic回归
回归:假设现在有一些数据点,我们用一条直线对这些点进行拟合(该线称为最佳拟合直线),这个拟合的过程叫做回归。训练一般是指训练机器学习模型的参数,优化参数。一、基于Logistic回归和Sigmoid函数的分类 我们需要的分类函数应该是接受所有的输入然后预测出类别,在二分类问题中,函数输出0或者1,为了避免函数在跳跃点上从0瞬间跳跃到1,可以使用sigmoid函数。为了实现Logistic...原创 2018-04-18 22:48:27 · 653 阅读 · 0 评论 -
机器学习实战—基于概率论的分类方法:朴素贝叶斯
分类器有时会产生错误,这时可以要求分类器给出一个最优的类别猜测结果,同时给出这个猜测的概率估计值。朴素贝叶斯:因为整个形式化过程只做最原始、最简单的假设。一、基于贝叶斯决策理论的分类方法: 用p1(x,y)表示数据点(x,y)属于类别1的概率 p1(x,y表示数据点(x,y)属于类别0的概率 如果p1(x,y)> p0(x,y) ,那么为类别1 如果p1(x,y)< p...原创 2018-04-12 16:46:02 · 411 阅读 · 0 评论 -
机器学习实战—(K-近邻算法)
K-近邻算法工作原理:存在一个样本数据集合,并且样本集中都存在标签,输入没有标签的新数据后,将新数据的每个特征与样本集合中数据对应的特征进行比较,然后算法提取样本集中特征最相似数据(最近邻)的分类标签,一般来说只选择样本数据集中前k个最相似的数据,最后,选择k个最相似数据中出现次数最多的分类,作为新数据的分类。K-近邻算法一般流程: 1.收集数据 2.准备数据 3.分析数据 4.训练数...原创 2018-04-09 18:43:38 · 353 阅读 · 0 评论 -
机器学习实战—决策树
决策树原理:通过一系列数据,最后给出分类结果,使用不熟悉的数据集合,从中提取出一系列规则。 决策树的主要优势在于数据形式非常容易理解 一、决策树的构建: 构造决策树时,第一个问题是当前数据集上哪个特征在划分数据分类时起决定性作用。 信息量的度量=信息不确定性的多少,变量的不确定性越大,熵越大,把它搞清楚所需的信息就越大。熵是信息的期望值。 划分数据集的大原则是:将无序的数据有序化,划分数...原创 2018-04-11 18:56:23 · 339 阅读 · 0 评论 -
数据挖掘实例(基于基站定位数据的商圈分析)
背景: 移动终端的普及,手机用户时间序列的手机定位数据,映射到现实的地理空间位置,即可完整、客观地还原出手机用户的现实活动轨迹,从而挖掘出人口空间分布与活动联系的特征信息。 注:移动通信网络的信号覆盖逻辑上被设计成由若干六边形的基站小区相互邻接而构成的蜂窝网络面状服务区目标: (1)对用户的历史定位数据,采用数据挖掘技术,对基站进行分群。 (2)对不同的商圈分群进行特征分析,比较不同商...原创 2018-03-31 16:21:19 · 8696 阅读 · 2 评论 -
机器学习实战—利用SVD简化数据
一、SVD的应用 奇异值分解: 优点:简化数据,去除噪声。提高算法的结果。 缺点:数据转换难以理解。利用SVD能够实现用小得多的数据集来表示原始数据集,这样做,实际上是去除了噪声和冗余信息。当我们视图节省空间时,去除噪声和冗余信息是目标,但是我们这里则是从数据中抽取信息,基于这个视角,我们可以把SVD看成是从有噪声的数据中抽取相关特征。1、隐性语义索引(LSI)利用SVD的方法为...原创 2018-05-06 21:18:51 · 682 阅读 · 1 评论