数据挖掘
文章平均质量分 65
Star-Technology
这个作者很懒,什么都没留下…
展开
-
数据挖掘的主要技术
决策树—分类、预测什么是决策树? 决策树是一种非常普遍的数据挖掘技术,顾名思义,决策树就是建模过程类似于一棵树的成长过程,从树根、树干、分支,分叉,最后到树叶,在决策树里,所分析的数据样本,先集成为一个树根,然后进行层层的分支,最后形成一个个的节点,每个节点代表一个结论决策树的优点有哪些? 1.决策树的优点在于决策树的构造不需要任何领域的知识,很适合探索性的数据挖掘发现,而且可以处理高纬度的数原创 2017-08-25 15:12:00 · 1517 阅读 · 0 评论 -
聚类分析的典型应用和技术
如何尽量保证数据的抽取正确反映业务需求? A:真正熟悉业务背景 B:确保抽取的数据所对应的当时业务背景与现在的业务需求即将应用的业务背景没有明显的重大改变 2.数据抽样 “抽样”对于数据分析和挖掘来说是一种常见的前期数据处理技术和手段,主要原因是如果数据全集的规模太大,针对数据全集进行分析计算不但会消耗更多的运算资源,还会显著增加运算分析的时间,甚至太大的数据量在数据分析挖掘软件运行时崩溃,原创 2017-08-31 19:19:46 · 16476 阅读 · 0 评论 -
数据挖掘之统计方法
统计学是一门收集、组织数据并从这些数据集中得出结论的科学,描述和组织数据集的一般特性是描述性统计学的主题领域,而怎样从这些数据中退出结论是统计推理的主题统计判断 在统计分析中观测到的所有值,不管其数量是有限还是无限,都称为总体,这个术语适用于任何统计对象,总体中观测值的数量称为总体的大小,一般来说,总体可能是无限的或有限的,但由于一些有限的总体太大,理论上,就把他们假定为无限的 根据已知的数据原创 2017-09-10 00:21:22 · 2079 阅读 · 0 评论 -
数据挖掘之决策树与决策规则
决策树和决策规则是解决实际应用中分类问题的强大的数据挖掘方法 一般来说,分类是一个学习函数的过程,该函数把数据项映射到其中一个预定义的类中,若一个样本集包含属性值向量和一个相应的类,则基于归纳学习算法的每个分类就指定为该样本集的输入,归纳学习的目标是构建一个分类模型,称为分类器,他可以更具有效的属性输入值预测某个实体所属的类,换句话说,分类是吧某个不连续的标识值(类)分配给未标识的记录的过程 分原创 2017-09-10 00:22:43 · 6248 阅读 · 0 评论 -
数据挖掘之遗传算法
自然演变是一种基于群体的优化过程,在计算机上对这个过程进行仿真,产生了随机优化技术,在应用于解决现实世界中的难题时,这种技术常胜过经典的优化方法,遗传算法就是根据自然演变法则开发出来的遗传算法的基本原理 遗传算法(GA)是不需要求导的随机优化方法,它以自然选择和演变过程为基础,但是联系又是不牢靠的 遗传算法(Genetic Algorithm)是模拟达尔文生物进化论的自然选择和遗传学机理的生物原创 2017-09-18 17:42:55 · 3282 阅读 · 0 评论 -
机器学习中的必修数学(六)
矩阵标准型 矩阵的变换 相似变换 相似变换下不变的性质 矩阵的相似标准型 线性映射的体积膨胀系数 例子 例题:秩 例子:相似标准型 小结 方阵的相合变换 相合不变量 方阵的正交相似变换 方阵的正交相似标准阵 主成分分析 PCA的步骤 长方矩阵的奇异值分解 多元函数的二阶逼近 极大似然估计的渐进正态性质 小结原创 2017-09-26 18:23:54 · 377 阅读 · 0 评论 -
预测响应模型的应用
1.预测响应模型是数据挖掘中最常见的应用模型,最直接的涉及的精细化运营的客户分层以及随后的个性化区别对待 2.预测响应模型涉及的几种算法:神经网络、决策树、逻辑回归、多元线性回归 3. 神经网络是一组互相连接的输入、输出单元,其中每个连接都会与一个权重相关联 人工神经网络的结构大致分为两类:前向型网络、反馈型网络 前向型网络:是指传播方向是从输入和输出端,并且没有任何的反馈,所谓的反馈型网络原创 2017-09-01 18:20:05 · 10674 阅读 · 0 评论 -
用户特征分析的应用
用户特征分析不仅仅是数据化运营的的基础,即使是传统行业,只要企业足够关注用户,一定定会进行用户特征分析 2.用户特征分析所使用的典型业务场景 A.寻找目标客户 包括虚拟的目标用户特征分析,这种场景主要适用于企业还没有实际使用的用户,业务方按照业务逻辑假设或者圈定一些典型的特征 B.寻找运营抓手 运营抓手指的是通过运营的方式可以用于改善和提升客户满意度的一些特定行为字段,常见的所谓运营抓手包原创 2017-09-02 11:28:40 · 5246 阅读 · 0 评论 -
运营效果分析的典型应用
业务落地应用得到检验,有两类检验,A、模型本身是否稳定,即在新数据中得到的验证结果是否与模型拟合时的表现相一致 B、运营效果分析,好的模型、好的分析报告能否在业务实践中通过业务图但对的工作有效转化成为生产力为什么要做运行效果分析? A、衡量运营工作的效率和效果 B、指导运营技巧的优胜劣汰 C、提升运营团队的专业能力 D、增强运营工作的商业价值统计技术在数据化运营中最重要最常见的应用原创 2017-09-02 11:30:03 · 3356 阅读 · 0 评论 -
机器学习中的必修数学(七)
优化问题 极大似然估计与最小二乘法例子 凸优化问题 凸优化的应用 凸集合和凸函数的定义 函数的上镜图 凸组合 集合的凸包与函数凸闭包 集合的凸包与函数的凸闭包的性质 凸集合与凸函数的性质 算数几何平均不等式与柯西不等式 凸集合和凸函数的性质 凸集合性质 凸函数的性质 凸集分离定理 共轭函数原创 2017-09-27 16:55:25 · 476 阅读 · 0 评论 -
数据挖掘之模糊集与模糊逻辑
1.模糊集 模糊这个概念来源于显示世界中常见的模糊线性,比如“下雨”难以精确的描述常见的自然现象,因为他可能发生在任何地方,有不同的强度等等,因此是一种模糊现象 2. 隶属度函数 若对论域(研究的范围)U中的任一元素x,都有一个数A(x)∈[0,1]与之对应,则称A为U上的模糊集,A(x )称为x对A的隶属度。当x在U中变动时,A( x)就是一个函数,称为A的隶属函数。隶属度A(x)越接近于1原创 2017-09-19 17:55:07 · 6131 阅读 · 0 评论 -
机器学习中的必修数学(八)
共轭函数 共轭函数的基本性质 共轭函数的进一步性质 拉格朗日量与拉格朗日对偶函数 对偶函数重要性质 对偶问题 线性约束优化问题的对偶问题 最小化向量范数 最大熵问题 对偶性 Slater条件 满足强对偶性的例子 KKT条件 KKT条件使用 使用KKT条件解决优化问题例子 支持向量机最简单的形式——分类问题原创 2017-09-28 18:13:40 · 377 阅读 · 0 评论 -
数据挖掘之集成学习
数据挖掘的主要目标之一是从观察到的样本中预测出新样本的未知值,这样的一个过程分为两个连续的阶段:A:训练阶段—使用某种现有的监督学习方法从训练样本中产生一个预测模型,B:检验阶段—使用未在训练集中用到的检验样本评估训练阶段生成的预测模型为了提高模型的准确性,可以使用集成学习的高效算法,他的核心思想是组合训练样本生成的各种预测模型的结果,主要动机就是减少错误率集成学习方法论 在训练阶段,集成方法原创 2017-09-12 18:38:39 · 842 阅读 · 0 评论 -
机器学习中的必修数学(一)
机器学习的领域 基本的机器学习算法的分类 得分函数 如图,经过一系列的计算,最后得到的概率就叫得分函数 4.损失函数 得分函数与真实数据比较之后的误差叫做损失函数 机器学习中的算法简介 无监督学习(连续型):SVD、PCA、K-means 无监督学习(离散型):Apriori、FP-Growth、Hidden Markov Model 监督学习(连续型):Regression(Lin原创 2017-09-21 21:04:04 · 3232 阅读 · 2 评论 -
机器学习中的必修数学(九)
线性回归 单变量线性回归 多变量 损失函数 最小化损失函数 梯度下降 学习率与梯度下降 线性判定边界 多分类 损失函数:hinge loss/支持向量机原创 2017-10-09 17:58:56 · 506 阅读 · 0 评论 -
机器学习中的必修数学(五)
线性空间 线性空间与基 例子:坐标系的选取 小结:线性空间与基 线性映射 线性变换的矩阵描述 线性映射与矩阵 线性映射与矩阵(小结) 几何变换 简单递归-斐波那契数列 线性模型递归 线性回归 几何逼近 最小二乘法(统计)原创 2017-09-25 17:15:12 · 302 阅读 · 0 评论 -
数据挖掘之从数据中学习
生物系统以数据驱动的方式学习如何处理环境中未知的统计属性 每个预测学习过程都包括两个阶段: 从已知样本集中学习或估计系统中未知的相关性 用估计得出的相关性为系统将来的输入值预测新的输出 这两个步骤对应于两种经典的推力模型:归纳(从特殊案例或训练数据中发展处一般依赖关系或模型)和演绎(从一般模型和给出的输入值中发展出特殊的输出值案例)估算出的模型一位置,学习函数可应用于任何地方,也就是说,学原创 2017-09-08 17:22:41 · 721 阅读 · 0 评论 -
漏斗模型和路径分析
在互联网数据化运营实践中,有一类数据分析应用是互联网行业所独有的,那就是漏斗模型和路径分析的应用漏斗模型通常是对用户在网页浏览中一些关键节点的转化程度所进行的描述,比如从浏览到实际购买产品都需要经历三个步骤:浏览商品、将商品加入到购物车、将购物车的东西提交到订单,直到订单完成在线支付,上面的三个步骤走下来,买家人数越来越少,这个过程就是漏斗模型,漏斗模型的主要分析目的是针对网站运营过程中的各个关键原创 2017-09-04 18:34:38 · 7129 阅读 · 2 评论 -
数据挖掘的概念
现在科学和工程用“首用原则模型”来描述物理、生物和社会系统,这种方法就是先建立基本的科学模型,比如扭动运动定律或者麦克斯韦的电磁公式,然后根据模型建立机械工程或电子工程方面的各种应用,在这种方法中,用实验数据来验证基本的“首要原则模型”,并估计一些难以直接测量或者根本不可能直接测量的参数,但是在很多领域,基本的“首要原则模型”都是未知的,或者所研究的系统太复杂了,难以进行数学定型,随着计算机的广发应原创 2017-09-05 18:17:02 · 627 阅读 · 0 评论 -
数据挖掘之数据准备
原始数据的表述 两种常见的数据类型:数值型和分类型 数值型值包括实型变量和整数变量,比如年龄、速度或长度,数值型特征有两个重要的属性:其值有顺序关系和距离关系 分类型变量只有两个值:相等或不等,再建立一种等同关系,比如眼睛颜色、性别等 2.基于变量值的变量分类,根据它是连续型变量还是离散型变量 连续型变量也成为定量型或度量型变量,可以使用间隔尺度或比例尺度来衡量,这两种尺度都允许在理论上无原创 2017-09-06 19:26:20 · 1996 阅读 · 0 评论 -
数据挖掘之聚类分析
聚类分析是依据样本间关联的量度标准将样本自动分成几组,使同一群组内的样本相似,而不同群组的样本相异的一组方法,聚类分析系统的输入是一组样本和一个度量两个样本间相似度(或相异度)的标准,聚类分析的输出是数据集的几个组,这些组构成一个分区或者一个分区结构聚类分析是根据所度量或感知到的内在特征或相似性,对对象分组或聚类分析的正式研究方法和算法,聚类的样本用度量指标的一个向量来表示,更正式的说法是,用多维原创 2017-09-14 18:00:24 · 4115 阅读 · 0 评论 -
机器学习中的必修数学(二)
常见的数学记号 极限 极限如何比较无穷小? 下面写错了,应该是cos(x) 无穷小阶数 无穷小也可以互相比较 利用多项式类型无穷小,可以定义无穷小的阶数 两边夹定理/夹逼定理 重要极限 微分学 函数的高阶导数 初等函数的导数 多元函数-偏导数 高阶偏导数 偏导数的例子 下面不是log,而是ln 求导法则 求导数例子 泰勒级数 泰勒级数的例子 罗比塔法则 求解简单的微分方程 牛顿法与梯度原创 2017-09-22 19:04:33 · 709 阅读 · 0 评论 -
机器学习中的必修数学(三)
常用的数学记号 黎曼积分 微积分基本定理:牛顿-莱布尼茨公式 不定积分的例子 多变量函数的积分 积分小结 离散随机变量 离散型随机变量是求和 连续随机变量 连续型随机变量是积分 如何理解概率 贝叶斯公式 参数估计 先验分布和后验分布 共轭分布 特殊分布的特殊函数 小结 随机变量的矩 切比雪夫不等式 随机变量随机系数 同一个随机变量的特征函数的重要性质 不同的随机变量的特征函数的重要性质 一个原创 2017-09-23 11:57:05 · 314 阅读 · 0 评论 -
机器学习中的必修数学(四)
参数估计:点估计和区间估计 常用的数学记号 参数估计问题 矩估计 矩估计的基本定理 点估计:矩估计的例子(两点分布的参数估计) 点估计:矩估计(正态分布的参数估计) 点估计:极大似然估计 极大似然估计基本原理:最大化似然函数 点估计的评判准则 相合性 正态分布的参数估计 无偏性 有效性 置信区间原创 2017-09-23 12:03:36 · 370 阅读 · 0 评论 -
数据挖掘建模的优化和限度
一句非常经典的广告语—“没有最好,只有更好”,揭示了“任何事物的发展和进步都是可以无限深入的”,一个人可以不断的进步,一个数据挖掘的模型也是可以不断的完善和优化的,只是,数据挖掘模型的每一次优化都需要有资源的投入,因此在模型优化和资源投入之间,又有一个微妙的平衡点—性价比,这个平衡点决定了模型的优化和完善是有限度的任何一个数据挖掘模型都是针对某一个特定具体的业务需求的,数据挖掘模型总是能够提高精确原创 2017-08-29 17:49:47 · 2394 阅读 · 0 评论 -
Mahout基本原理
Point 1:什么是Mahout? Mahout 是Apache的一个开源项目,提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序。Mahout包含许多实现,包括聚类、分类、推荐过滤、频繁子项挖掘。此外,通过使用 Apache Hadoop 库,Mahout 可以有效地扩展到云中。Mahout 是基于Hadoop的机器学习和数据挖掘的一个分布式框架。Mah原创 2017-09-23 12:18:03 · 1011 阅读 · 0 评论 -
数据挖掘之关联规则
用于数据挖掘的机器学习方法,分为参数化方法和非参数化方法,在用于密度估计、分类或回归的参数化方法中,假定最终模型在整个输入空间上有效在回归中,推导出一个线性模型后,把它应用于将来所有的输入,在分类中,假定所有样本(训练样本和新的检验样本)都来自于同一个密度分布,在这些情况下,模型是对整个n维样本空间都有效的全局模型参数化方法的优点是,用少量的参数简化了建模问题,主要缺点是初始假设在很多实际问题中原创 2017-09-15 18:15:44 · 1683 阅读 · 0 评论 -
数据挖掘之数据归约
对于真正意义上的大型数据集,在应用数据挖掘技术之前,还需要执行一个中间的、额外的步骤—数据归约,虽然大型数据集可能得到最佳的挖掘结果,但是未必能获得比小型数据集更好的数据挖掘结果, 2.维归约,主要问题是不降低成果质量的前提下,可否舍弃一些已准备和已预处理的数据 3.数据的描述以及特征的挑选、归约或转换可能是决定数据挖掘质量的最重要问题,在实践中,特征的数量可达到数百个之多,如果只有上百条样本可原创 2017-09-07 18:54:57 · 10446 阅读 · 0 评论 -
数据挖掘中常见的数据处理技巧
如何尽量保证数据的抽取正确反映业务需求? A:真正熟悉业务背景 B:确保抽取的数据所对应的当时业务背景与现在的业务需求即将应用的业务背景没有明显的重大改变 2.数据抽样 “抽样”对于数据分析和挖掘来说是一种常见的前期数据处理技术和手段,主要原因是如果数据全集的规模太大,针对数据全集进行分析计算不但会消耗更多的运算资源,还会显著增加运算分析的时间,甚至太大的数据量在数据分析挖掘软件运行时崩溃,原创 2017-08-30 22:13:34 · 5363 阅读 · 0 评论 -
数据挖掘之Web挖掘和文本挖掘
Web 挖掘 在分布式信息环境中,文档或对象通常被链接在一起,以便于互相访问,这种提供信息的环境包括WWW和在线服务,用户可以通过某些工具从一个对象转到另一个对象Web挖掘任务划分为4个任务: A: 寻找资源,这是一个从Web的多媒体资源中在线或离线检索数据的过程 B: 信息的选择和预处理,在之前的子任务中检索出不同种类的原始数据后,这个子任务负责转换这些是数据 C: 总结,总结是在一个和原创 2017-09-16 23:53:22 · 8600 阅读 · 0 评论 -
数据挖掘之图挖掘
图挖掘 传统的数据挖掘任务,比如关联规则挖掘、市场购物篮分析和聚类分析等,都是试图从一个具有单一关系的独立实例集中寻找模式 许多真实数据集描述的都是通过多种关系连接在一起的各种实体类型,应当小心妥善处理由于样本之间连接而导致的潜在关系,事实上,记录联动应该是可以利用的信息,显然,这些信息可以用来提高学习模型的预测准确度,:连接对象的属性往往是相关的,并且拥有共同点的对象之间往往有连接存在,作为一原创 2017-09-16 23:55:21 · 11560 阅读 · 0 评论 -
机器学习中的必修数学(十)
机器学习的步骤 SVM核心思想:最大间隔 SVM:核方法 SMO Hinge loss Regularization原创 2017-10-09 18:08:35 · 426 阅读 · 0 评论