Data Mining
文章平均质量分 70
这孩子谁懂哈
坚持比努力更可怕/You Reap What You Sow
展开
-
Python实现预测信用卡潜在客户
一、数据集有一家名为Happy Customer Bank (快乐客户银行) 的银行,是一家中型私人银行,经营各类银行产品,如储蓄账户、往来账户、投资产品、信贷产品等。该银行还向现有客户交叉销售产品,为此他们使用不同类型的通信方式,如电话、电子邮件、网上银行推荐、手机银行等。在这种情况下,Happy Customer Bank 希望向现有客户交叉销售其信用卡。该银行已经确定了一组有资格使用这些信用卡的客户。银行希望确定对推荐的信用卡表现出更高意向的客户。该数据集主要包括: 客户详细原创 2022-05-04 17:27:52 · 3467 阅读 · 6 评论 -
数据挖掘之关联规则(Apriori算法)
整理写一份比较易懂的Apriori算法:关联规则想必大家都是听说过 尿布和啤酒的故事;在一家超市里,有一个有趣的现象:尿布和啤酒赫然摆在一起出售。但是这个奇怪的举措却使尿布和啤酒的销量双双增加了。这不是一个笑话,而是发生在美国沃尔玛连锁店超市的真实案例,并一直为商家所津津乐道。沃尔玛拥有世界上最大的数据仓库系统,为了能够准确了解顾客在其门店的购买习惯,沃尔玛对其顾客的购物行为进行购物篮分析,想知道顾客经常一起购买的商品有哪些。沃尔玛数据仓库里集中了其各门店的详细原始交易数据。在这些原始交易数据的基础原创 2021-02-18 17:34:01 · 23977 阅读 · 0 评论 -
GBDT算法
转载:https://www.cnblogs.com/willnote/p/6801496.html简介GBDT即梯度提升树,提升方法依然采用的是加法模型与前向分布算法。以决策树为基函数的提升方法称为提升树。对分类问题决策树是二叉分类树,对回归问题决策树是二叉决策树。例如前文中的例子中所使用的决策树桩即为一个根节点直接连接两个叶节点的简单决策树。与Adboost的区别GBDT与Adboost最主要...转载 2018-06-28 15:07:20 · 1091 阅读 · 0 评论 -
GMM(高斯混合模型)
高斯混合模型--GMM(Gaussian Mixture Model)首先,我们先来了解一下,什么是高斯分布。若随机变量X服从一个数学期望为μ、方差为σ^2的正态分布,记为N(μ,σ^2)。其概率密度函数为正态分布的期望值μ决定了其位置,其标准差σ决定了分布的幅度。若随机变量 服从一个位置参数为 、尺度参数为原创 2017-10-16 19:14:45 · 3286 阅读 · 0 评论 -
KNN中的优化算法KD-tree
我们知道KNN是基于距离的一个简单分类算法,熟悉KNN的都知道,我们要不断计算两个样本点之间的距离,但是,试想一下,如果数据量特别大的时候,我们要每个都计算一下,那样计算量是非常大的,所以提出了一种优化KNN的算法-----kd-tree.实现k近邻法时,主要考虑的问题是如何对训练数据进行快速k近邻搜索。这在特征空间的维数大及训练数据容量大时尤其必要。k近邻法最简单的实现是线性扫描(穷原创 2017-09-26 16:55:18 · 7211 阅读 · 0 评论 -
大白话讲解EM算法
001、一个非常简单的例子假设现在有两枚硬币1和2,,随机抛掷后正面朝上概率分别为P1,P2。为了估计这两个概率,做实验,每次取一枚硬币,连掷5下,记录下结果,如下:硬币结果统计1正正反正反3正-2反2反反正正反2正-3反1正反反反反1正-4反2正反反正正3正-2反1反正正反反2正-3反可以很容易地估计出P1和P2,如下:P1 = (3+1+2)/ 15 = 0转载 2017-09-08 20:06:36 · 2385 阅读 · 1 评论 -
什么是范数
什么是范数?我们知道距离的定义是一个宽泛的概念,只要满足非负、自反、三角不等式就可以称之为距离。范数是一种强化了的距离概念,它在定义上比距离多了一条数乘的运算法则。有时候为了便于理解,我们可以把范数当作距离来理解。在数学上,范数包括向量范数和矩阵范数,向量范数表征向量空间中向量的大小,矩阵范数表征矩阵引起变化的大小。一种非严密的解释就是,对应向量范数,向量空间中的向量都原创 2017-09-05 19:35:30 · 9392 阅读 · 0 评论 -
ROC曲线详解
机器学习之分类器性能指标之ROC曲线、AUC值http://www.cnblogs.com/dlml/p/4403482.html分类器性能指标之ROC曲线、AUC值一 roc曲线1、roc曲线:接收者操作特征(receiveroperating characteristic),roc曲线上每个点反映着对同一信号刺激的感受性。横轴:负正类率(false postive rate FPR)特异转载 2017-05-18 15:42:49 · 17688 阅读 · 4 评论 -
机器学习中性能度量(错诶率、精度、查准率、查全率、F)
不同定义的区分:1、错误率(Error Rate): 分类错误的样本数占样本总数的比例。2、精度(accuracy):分类正确的样本数占样本总数的比例。3、查准率(Precision)and 查全率(Recall):错误率和精度在我们现实生活中虽然非常常用,但是有的时候并不能满足所有的任务需要,以周志华书中的西瓜为例,假定瓜农拉来一车的西瓜,我们使用训练好的模型对这原创 2017-05-15 15:37:38 · 5577 阅读 · 0 评论 -
大白话讲解SVM
支持向量机(SVM)基础 本文由LeftNotEasy发布于http://leftnoteasy.cnblogs.com, 本文可以被全部的转载或者部分使用,但请注明出处,如果有问题,请联系wheeleast@gmail.com。也可以加我的微博: @leftnoteasy 前言: 又有很长的一段时间没有更新博客了,距离上次更新已经有两个月的时间了。其转载 2017-05-14 18:03:57 · 1585 阅读 · 0 评论 -
libsvm中svmpredict返回值为空的解决办法
最近在使用svm做一些机器学习的东西,再用svm预测的时候,发现没有返回的精度,看了看workspace发现不仅仅是accuracy没有返回值,就连返回的label也没有返回值,咦这就奇怪了,再检查了好久,发现是因为libsvm的版本问题,如果我们使用的是以前老的版本,比如2.几的svm,大部分是要求我们输入两个参数就可以。 [pred,acc] = svmpredict(doub原创 2017-04-04 10:59:08 · 11297 阅读 · 38 评论 -
MDS(多维尺度法)的原理及MATLAB实现
在模式识别中,我们会考虑到距离distance的问题,就是一个样本和另一个样本在空间中的距离。根据距离的大小来判断分类。那么,也存在这样的一类问题:我们只知道空间中的点(样本)的距离,那么怎么来重构这些点的相对位置呢? 显然欧式距离是最直观的距离,那么我们就会想使用欧式距离来进行计算重构,我们还希望能够在不同维度上进行重构,比如2维或者3维。 怎么做? 有这么个解决方法叫做MDS 全称为原创 2017-03-02 17:11:02 · 16428 阅读 · 4 评论 -
HMM(隐马尔可夫详解)
隐马尔可夫模型 (Hidden Markov Model,HMM) 最初由 L. E. Baum 和其它一些学者发表在一系列的统计学论文中,随后在语言识别,自然语言处理以及生物信息等领域体现了很大的价值。平时,经常能接触到涉及 HMM 的相关文章,一直没有仔细研究过,都是蜻蜓点水,因此,想花一点时间梳理下,加深理解,在此特别感谢 52nlp 对 HMM 的详细介绍。 考虑下面交通灯的例子,一个转载 2017-02-23 13:58:32 · 3704 阅读 · 0 评论 -
奇异值分解(SVD)原理及详解
转载请声明出处http://blog.csdn.net/zhongkejingwang/article/details/43053513 在网上看到有很多文章介绍SVD的,讲的也都不错,但是感觉还是有需要补充的,特别是关于矩阵和映射之间的对应关系。前段时间看了国外的一篇文章,叫A Singularly Valuable Decomposition The SVD of a Matrix,觉得转载 2017-02-21 20:25:32 · 1620 阅读 · 0 评论 -
Data Mining
初识数据挖掘1 初识数据挖掘 随着社会的发展,各行各业都建立起了各自的数据库体系,如何对这些数据实现最大化利用是很值得研究的问题,由此数据挖掘技术应运而生,个人理解的数据挖掘就是从大量的数据中发现数据背后潜在的有用价值。 数据的产生和收集技术一直在不断提升,海量数据集随之增加,同时呢,高维数据也愈加普遍。由此要求数据挖掘算法必须具有可伸缩性,除此也要适应高维性。 可想而知,数据挖原创 2017-01-15 15:00:57 · 444 阅读 · 0 评论