机器学习与数据挖掘
文章平均质量分 69
Python实现一些机器学习算法
KeeJee
机器学习,数据挖掘
展开
-
机器学习 - Apriori算法关联规则学习
关联分析原创 2017-08-07 00:41:41 · 2106 阅读 · 0 评论 -
机器学习 - 降维算法概述
降维原创 2017-08-07 00:45:51 · 1231 阅读 · 0 评论 -
机器学习 - PCA
PCA降维原创 2017-08-07 00:47:01 · 3534 阅读 · 0 评论 -
机器学习 - SVD
1. SVD1.1 分解如下图,一个矩阵可以分解为两个方阵和一个对角矩阵的乘积:C = m * n;u = m * m;sigma = m * n;v' = n * n1.2 奇异值sigma是一个对角矩阵,但通常不是方阵。sigma的对角元素被称为奇异值,与特征值类似。因此与PCA类似,我们可以取sigma中最大的k个,来简化数据:u' = m * k;s原创 2017-08-07 00:52:54 · 8289 阅读 · 5 评论 -
机器学习 - sklearn算法选择图
原创 2017-07-29 19:11:01 · 3686 阅读 · 0 评论 -
机器学习 - Kmeans及其变体
1. K-means2. 二分K-means原创 2017-07-28 15:06:02 · 3666 阅读 · 2 评论 -
机器学习 - GMM高斯混合模型
高斯混合模型原创 2017-07-28 16:00:10 · 2592 阅读 · 0 评论 -
机器学习 - meanshift算法
meanshift算法原创 2017-07-28 16:01:52 · 1313 阅读 · 0 评论 -
机器学习 - DBSCAN算法
DBSCAN算法原创 2017-07-28 16:09:26 · 1362 阅读 · 0 评论 -
机器学习 - 谱聚类
谱聚类原创 2017-07-28 16:10:14 · 799 阅读 · 0 评论 -
机器学习与数据挖掘 - 目录导航
我简单的按照 sklearn的方式将其分为七个模块:分类,回归,聚类,降维,模型选择,数据预处理以及优化算法。1. 分类2. 回归3. 聚类4. 降维5. 模型选择6. 数据预处理7. 优化算法原创 2017-07-25 13:53:01 · 517 阅读 · 0 评论 -
机器学习 - knn算法
knn - k近邻算法,是一种利用相似度来对测试样本做出预测的非参数方法。原创 2017-07-26 18:34:40 · 691 阅读 · 0 评论 -
机器学习 - 聚类算法
聚类算法属于无监督学习范畴,为了便于记忆,简单的将韩家炜《数据挖掘:概念与技术》简单的总结为四种:基于距离,基于密度,基于层次,基于网格。1. 基于距离2. 基于密度3. 基于层次4. 基于网格参考书籍:《机器学习》 - 周志华《机器学习实战》- Peter Harrington《数据挖掘:概念与技术》- 韩家炜原创 2017-07-25 11:27:35 · 1076 阅读 · 0 评论 -
机器学习 - 线性回归
1. 普通线性回归2. ridge3. lasso原创 2017-07-24 11:25:18 · 3083 阅读 · 0 评论 -
机器学习 - 竞赛网站,算法刷题网站
数据竞赛类网站Kaggle阿里巴巴天池大数据比赛DataCastleCCF大数据与计算智能大赛Di-Tech算法大赛KDD-CupKDnuggets Competition全国高校云计算应用创新大赛Byte Cup国际机器学习竞赛WID数据竞赛数据火车竞赛网站DrivenData Competition上海SODA大赛赛氪网TopCoder大赛网数据科学&机器学习的在线学习原创 2017-07-24 13:35:13 · 22449 阅读 · 1 评论 -
数据挖掘 - TF-IDF(-)
这个标题看上去好像很复杂,其实我要谈的是一个很简单的问题。有一篇很长的文章,我要用计算机提取它的关键词(Automatic Keyphrase extraction),完全不加以人工干预,请问怎样才能正确做到?这个问题涉及到数据挖掘、文本处理、信息检索等很多计算机前沿领域,但是出乎意料的是,有一个非常简单的经典算法,可以给出令人相当满意的结果。它简单到都不需要高等数学,普通转载 2017-06-11 10:56:01 · 656 阅读 · 0 评论 -
TF-IDF与余弦相似性的应用(二):找出相似文章
今天,我们再来研究另一个相关的问题。有些时候,除了找到关键词,我们还希望找到与原文章相似的其他文章。比如,"Google新闻"在主新闻下方,还提供多条相似的新闻。为了找出相似的文章,需要用到"余弦相似性"(cosine similiarity)。下面,我举一个例子来说明,什么是"余弦相似性"。为了简单起见,我们先从句子着手。 句子A:我喜欢看电视,不喜欢看转载 2017-06-11 10:57:56 · 397 阅读 · 0 评论 -
机器学习 - logistic回归
统计机器学习有两种常见的机器学习算法:logistic回归和SVM,这两种算法都涉及到优化问题,是最重要的两种机器学习算法。原创 2017-07-10 21:08:12 · 1126 阅读 · 0 评论 -
机器学习 - 极大似然估计
极大似然估计是一种非常著名的参数估计方法。原创 2017-07-13 16:46:39 · 1280 阅读 · 0 评论 -
机器学习 - 集成学习
1. baggingbagging的核心思想: bootstrap sample自主采样;即从m个样本的数据集中有放回的随机采样n(n ≤ m)个样本;这样重复k次,将得到k个不同的数据集作为训练数据。随机森林:随机森林是bagging的经典应用;随机森林相对于bagging更加高级,不但可以对样本进行bootstrap sampling,而且可以对特征进行bootstrap;从而原创 2017-07-21 21:19:12 · 5656 阅读 · 0 评论 -
机器学习 - 非平衡分类问题
问题被研究的原因:在实际问题中,大多数分类问题,样本错分会带来不同的代价。1. 分类性能度量指标1.1 混淆矩阵混淆矩阵四个元素: 真正例(true positive),真反例(true negative),伪正例,伪反例。混淆矩阵主对角线所占比例越高越好。1.2 精确率(precision) & 召回率(reccall)& 准确率(accuracy)由原创 2017-07-21 22:14:56 · 1116 阅读 · 0 评论 -
机器学习 - 分类效果评估
1. 混淆矩阵(confusion matrix)2. 精确度(precision)3. 召回率(recall)4. 准确率(accuracy)5. F得分(F-score)6. ROC曲线(ROC curve)7. AUC面积8. lift曲线(lift Curve)9. KS曲线(ks curve)原创 2017-07-21 22:43:48 · 726 阅读 · 0 评论 -
机器学习 - 模型性能改善
机器学习最有价值(实际应用最广)的部分是预测性建模。也就是在历史数据上进行训练,在新数据上做出预测。 而预测性建模的首要问题是:如何才能得到更好的结果?这个备忘单基于本人多年的实践,以及我对顶级机器学习专家和大赛优胜者的研究。有了这份指南,你不但不会再掉进坑里,而且会提升性能,甚至在你自己的一些预测难题中取得世界领先水平的结果。让我们一起来看看吧!转载 2017-06-30 23:20:40 · 1154 阅读 · 0 评论 -
机器学习 - 决策树ID3算法
最近研究树模型,从最简单的决策树开始研究,扼要的说下最简单的ID3算法。对于机器学习的数据: train_x, train_y, test_x, test_y。当然test_y通常是被预测的值。对于决策树而言,就是事先利用train_x与train_y建立一颗泛化性能足够好的树,以供后期分类test_x。1. ID3算法的特征只能是标称属性;对于数值属性,则必须做离散化处理。原创 2017-07-01 15:52:36 · 1566 阅读 · 0 评论 -
机器学习 - 激活函数
激活函数是用来加入非线性因素的,因为线性模型的表达能力不够。常用激活函数 激活函数的选择是构建神经网络过程中的重要环节,下面简要介绍常用的激活函数。(1) 线性函数 ( Liner Function ) (2) 斜面函数 ( Ramp Function ) (3) 阈值函数 ( Threshold Fun原创 2017-07-02 19:09:41 · 1296 阅读 · 0 评论 -
机器学习 - 决策树C4.5算法
基于树的模型最简单的是ID3算法,ID3算法有两大特点:1)节点分支时,使用信息增益计算最合适的属性作为当前节点的划分属性。2)只能处理标称性属性。假设按照属性A对数据集D进行划分,划分之后生成N个数据集D1,D2...,则属性A的信息增益公式为:显然若一个属性取值较多,那么其熵En(D)相对就更大,gain(A)也就越大。1. 信息增益率C4.5为了克原创 2017-07-06 16:09:01 · 2053 阅读 · 0 评论 -
机器学习 - 决策树CART算法
决策树算法包括ID3,C4.5,CART。这里的CART:classification and regression tree.CART的本质是对特征空间进行二元分割,即CART生成的树是一颗二叉树,并能对标称属性与数值型属性进行分割。1. CART综述 树模型2. CART分类3. CART回归原创 2017-07-06 22:15:34 · 686 阅读 · 0 评论 -
数据挖掘 - 词集模型 & 词袋模型
词集模型:单词构成的集合,每个单词只出现一次。词袋模型:把每一个单词都进行统计,同时计算每个单词出现的次数。原创 2017-07-08 09:27:54 · 4488 阅读 · 0 评论 -
机器学习 - 朴素贝叶斯
朴素贝叶斯原创 2017-07-08 22:11:56 · 532 阅读 · 0 评论 -
机器学习 - 贝叶斯学派 & 频率学派
贝叶斯概率引入了先验来处理概率问题,而频率学派仅仅从数据本身获取信息,不考虑先验和逻辑推理。原创 2017-07-08 12:57:35 · 975 阅读 · 0 评论 -
机器学习 - 支持向量机(SVM)
支持向量机推导过程:http://download.csdn.net/detail/zk_j1994/9908152原创 2016-12-08 16:59:50 · 682 阅读 · 0 评论 -
机器学习 - 线性模型
一.线性回归—LR线性回归是一种监督学习下的线性模型,线性回归试图从给定数据集中学习一个线性模型来较好的预测输出(可视为:新来一个不属于D的数据,我们只知道他的x,要求预测y,D如下表示)。首先我们还是给定数据集的严格表示(我们这里直接讲多维的线性回归):即是线性模型,那么我们容易给出目标函数:用向量的方式来表示目标函数,其中目标函数产生的结果即是我们的输出:为了便原创 2016-12-12 11:13:29 · 5933 阅读 · 0 评论 -
机器学习 - 贝叶斯分类器
首先来说贝叶斯分类器就是一个概率密度估计的过程。一.贝叶斯决策论(1)后验概率与期望损失贝叶斯决策论是概率框架下实施决策的基本方法。贝叶斯分类器依据两大基石:概率和损失来进行最优分类。下面,我们以多分类为例来解释基本原理。引入参数:当将属于cj的样本误分为ci类,所产生的期望损失(条件风险)为:(2)贝叶斯判定准则1.1式可以看做是贝叶斯分类器的目标函数,那原创 2016-12-16 10:32:48 · 912 阅读 · 0 评论 -
机器学习 - 协方差与协方差矩阵
协方差的定义 对于一般的分布,直接代入E(X)之类的就可以计算出来了,但真给你一个具体数值的分布,要计算协方差矩阵,根据这个公式来计算,还真不容易反应过来。网上值得参考的资料也不多,这里用一个例子说明协方差矩阵是怎么计算出来的吧。记住,X、Y是一个列向量,它表示了每种情况下每个样本可能出现的数。比如给定则X表示x轴可能出现的数,Y表示y轴可能出现的。注意这里是关键,给定了4转载 2016-12-20 14:26:30 · 1390 阅读 · 0 评论 -
机器学习 - 最小二乘问题
关于最小二乘问题的求解,之前已有梯度下降法,还有比较快速的牛顿迭代。今天来介绍一种方法,是基于矩阵求导来计算的,它的计算方式更加简洁高效,不需要大量迭代,只需解一个正规方程组。 在开始之前,首先来认识一个概念和一些用到的定理。矩阵的迹定义如下 一个的矩阵的迹是指的主对角线上各元素的总和,记作。即转载 2017-01-03 16:58:06 · 769 阅读 · 0 评论 -
机器学习 - MLE、MAP
研一给我们上机器学习课程的一个计算所老师的总结原创 2017-01-03 20:45:37 · 3715 阅读 · 0 评论 -
数据挖掘 - pandas画图
基本画图命令Pandas通过整合matplotlib的相关功能实现了基于DataFrame的一些 作图功能。下面的数据是每年美国男女出生数据:url = 'http://s3.amazonaws.com/assets.datacamp.com/course/dasi/present.txt'present = pd.read_table(url, sep=' ')present.s转载 2017-01-25 15:18:12 · 1497 阅读 · 0 评论 -
数据挖掘 - pandas基本函数
读写csv文件写入 df.to_csv(filename)读取 pd.read_csv(filename,header=0) #保留列属性,header=None不读列属性缺失值处理去掉包含缺失值的行 df.dropna(how=’any’)对缺失值进行填充 df.fillna(value=5)选择行或列df.iloc[3] #第四行df.iloc[原创 2017-01-28 14:53:14 · 759 阅读 · 0 评论 -
LBP人脸识别
LBP(local binary pattern)是一种用来描述图像局部纹理特征的算子。原始的LBP于1994年提出,它反映内容是每个像素与周围像素的关系。后被不断的改进和优化,分别提出了LBP旋转不变模式、LBP均匀模式等。一:原始的LBP 给出一个简单的案例计算LBP:如下图,周围8个像素点比中间点像素值大(或者相等)的记为1,小的记为0,这样就得到二值图,然后按顺时针方向得到二进转载 2017-04-01 14:28:43 · 2034 阅读 · 0 评论 -
LBP人脸识别
第三种算法称之为LBP算法,这个算法的思路与PCA和Fisher有很大不同,他是考虑局部特征算子,并不是全局考虑。这种算法定义了一种LBP特征,这种特征与我们经常见到的Haar特征、HoG特征没有啥太大不同,都是特征算子,只是算法不同。因此,我们按照理解特征算子一类的算法去理解LBP就可以了。注意,LBP对关照不敏感,为什么?因为LBP算子是一种相对性质的数量关系,相比于PCA或者转载 2017-04-01 14:32:11 · 2795 阅读 · 1 评论