机器学习
文章平均质量分 75
KeeJee
机器学习,数据挖掘
展开
-
LBP人脸识别
LBP(local binary pattern)是一种用来描述图像局部纹理特征的算子。原始的LBP于1994年提出,它反映内容是每个像素与周围像素的关系。后被不断的改进和优化,分别提出了LBP旋转不变模式、LBP均匀模式等。一:原始的LBP 给出一个简单的案例计算LBP:如下图,周围8个像素点比中间点像素值大(或者相等)的记为1,小的记为0,这样就得到二值图,然后按顺时针方向得到二进转载 2017-04-01 14:28:43 · 2023 阅读 · 0 评论 -
LBP人脸识别
第三种算法称之为LBP算法,这个算法的思路与PCA和Fisher有很大不同,他是考虑局部特征算子,并不是全局考虑。这种算法定义了一种LBP特征,这种特征与我们经常见到的Haar特征、HoG特征没有啥太大不同,都是特征算子,只是算法不同。因此,我们按照理解特征算子一类的算法去理解LBP就可以了。注意,LBP对关照不敏感,为什么?因为LBP算子是一种相对性质的数量关系,相比于PCA或者转载 2017-04-01 14:32:11 · 2783 阅读 · 1 评论 -
pandas修改DataFrame列名
Pandas中DataFrame修改列名在做数据挖掘的时候,想改一个DataFrame的column名称,所以就查了一下,总结如下: 数据如下:>>>import pandas as pd>>>a = pd.DataFrame({'A':[1,2,3], 'B':[4,5,6], 'C':[7,8,9]})>>> a A B C0 1 4 71 2 5转载 2017-05-05 23:08:24 · 77802 阅读 · 1 评论 -
机器学习 - 激活函数
激活函数是用来加入非线性因素的,因为线性模型的表达能力不够。常用激活函数 激活函数的选择是构建神经网络过程中的重要环节,下面简要介绍常用的激活函数。(1) 线性函数 ( Liner Function ) (2) 斜面函数 ( Ramp Function ) (3) 阈值函数 ( Threshold Fun原创 2017-07-02 19:09:41 · 1280 阅读 · 0 评论 -
机器学习 - 极大似然估计
极大似然估计是一种非常著名的参数估计方法。原创 2017-07-13 16:46:39 · 1270 阅读 · 0 评论 -
机器学习 - 决策树C4.5算法
基于树的模型最简单的是ID3算法,ID3算法有两大特点:1)节点分支时,使用信息增益计算最合适的属性作为当前节点的划分属性。2)只能处理标称性属性。假设按照属性A对数据集D进行划分,划分之后生成N个数据集D1,D2...,则属性A的信息增益公式为:显然若一个属性取值较多,那么其熵En(D)相对就更大,gain(A)也就越大。1. 信息增益率C4.5为了克原创 2017-07-06 16:09:01 · 2037 阅读 · 0 评论 -
机器学习 - 决策树CART算法
决策树算法包括ID3,C4.5,CART。这里的CART:classification and regression tree.CART的本质是对特征空间进行二元分割,即CART生成的树是一颗二叉树,并能对标称属性与数值型属性进行分割。1. CART综述 树模型2. CART分类3. CART回归原创 2017-07-06 22:15:34 · 676 阅读 · 0 评论 -
机器学习 - sklearn算法选择图
原创 2017-07-29 19:11:01 · 3667 阅读 · 0 评论 -
机器学习 - logistic回归
统计机器学习有两种常见的机器学习算法:logistic回归和SVM,这两种算法都涉及到优化问题,是最重要的两种机器学习算法。原创 2017-07-10 21:08:12 · 1113 阅读 · 0 评论 -
机器学习 - 分类效果评估
1. 混淆矩阵(confusion matrix)2. 精确度(precision)3. 召回率(recall)4. 准确率(accuracy)5. F得分(F-score)6. ROC曲线(ROC curve)7. AUC面积8. lift曲线(lift Curve)9. KS曲线(ks curve)原创 2017-07-21 22:43:48 · 712 阅读 · 0 评论 -
机器学习 - 线性模型
一.线性回归—LR线性回归是一种监督学习下的线性模型,线性回归试图从给定数据集中学习一个线性模型来较好的预测输出(可视为:新来一个不属于D的数据,我们只知道他的x,要求预测y,D如下表示)。首先我们还是给定数据集的严格表示(我们这里直接讲多维的线性回归):即是线性模型,那么我们容易给出目标函数:用向量的方式来表示目标函数,其中目标函数产生的结果即是我们的输出:为了便原创 2016-12-12 11:13:29 · 5908 阅读 · 0 评论 -
数据挖掘 - 词集模型 & 词袋模型
词集模型:单词构成的集合,每个单词只出现一次。词袋模型:把每一个单词都进行统计,同时计算每个单词出现的次数。原创 2017-07-08 09:27:54 · 4466 阅读 · 0 评论 -
机器学习 - 模型性能改善
机器学习最有价值(实际应用最广)的部分是预测性建模。也就是在历史数据上进行训练,在新数据上做出预测。 而预测性建模的首要问题是:如何才能得到更好的结果?这个备忘单基于本人多年的实践,以及我对顶级机器学习专家和大赛优胜者的研究。有了这份指南,你不但不会再掉进坑里,而且会提升性能,甚至在你自己的一些预测难题中取得世界领先水平的结果。让我们一起来看看吧!转载 2017-06-30 23:20:40 · 1140 阅读 · 0 评论 -
机器学习 - 贝叶斯分类器
首先来说贝叶斯分类器就是一个概率密度估计的过程。一.贝叶斯决策论(1)后验概率与期望损失贝叶斯决策论是概率框架下实施决策的基本方法。贝叶斯分类器依据两大基石:概率和损失来进行最优分类。下面,我们以多分类为例来解释基本原理。引入参数:当将属于cj的样本误分为ci类,所产生的期望损失(条件风险)为:(2)贝叶斯判定准则1.1式可以看做是贝叶斯分类器的目标函数,那原创 2016-12-16 10:32:48 · 893 阅读 · 0 评论 -
机器学习 - 最小二乘问题
关于最小二乘问题的求解,之前已有梯度下降法,还有比较快速的牛顿迭代。今天来介绍一种方法,是基于矩阵求导来计算的,它的计算方式更加简洁高效,不需要大量迭代,只需解一个正规方程组。 在开始之前,首先来认识一个概念和一些用到的定理。矩阵的迹定义如下 一个的矩阵的迹是指的主对角线上各元素的总和,记作。即转载 2017-01-03 16:58:06 · 759 阅读 · 0 评论 -
机器学习 - MLE、MAP
研一给我们上机器学习课程的一个计算所老师的总结原创 2017-01-03 20:45:37 · 3700 阅读 · 0 评论 -
机器学习 - 距离计算
在做很多研究问题时常常需要估算不同样本之间的相似性度量(Similarity Measurement),这时通常采用的方法就是计算样本间的“距离”(Distance)。采用什么样的方法计算距离是很讲究,甚至关系到分类的正确与否。 本文的目的就是对常用的相似性度量作一个总结。本文目录:1. 欧氏距离2. 曼哈顿距离3. 切比雪夫距离4. 闵可夫斯基距原创 2017-04-25 16:24:38 · 698 阅读 · 0 评论 -
机器学习 - 数据不平衡问题
这几年来,机器学习和数据挖掘非常火热,它们逐渐为世界带来实际价值。与此同时,越来越多的机器学习算法从学术界走向工业界,而在这个过程中会有很多困难。数据不平衡问题虽然不是最难的,但绝对是最重要的问题之一。一、数据不平衡在学术研究与教学中,很多算法都有一个基本假设,那就是数据分布是均匀的。当我们把这些算法直接应用于实际数据时,大多数情况下都无法取得理想的结果。因为实际数据往往分布得很不转载 2017-05-07 22:17:43 · 1149 阅读 · 0 评论 -
机器学习 - xgboost参数详解
原文见:http://www.analyticsvidhya.com/blog/2016/03/complete-guide-parameter-tuning-xgboost-with-codes-python/这篇文章按照原文的分节,共分为三个部分,其中本章介绍第一部分。 1、简介与XGboost2、参数理解3、参数调优关于XG转载 2017-05-08 17:11:27 · 1804 阅读 · 0 评论 -
机器学习 - 奇异值分解(SVD)
【简化数据】奇异值分解(SVD)转自:http://blog.csdn.NET/u012162613/article/details/422142051、简介奇异值分解(singular Value Decomposition),简称SVD,线性代数中矩阵分解的方法。假如有一个矩阵A,对它进行奇异值分解,可以得到三个矩阵:这三个矩转载 2017-05-14 15:04:28 · 533 阅读 · 0 评论 -
机器学习 - xgboost调参
xgboost入门与实战(原理篇)前言:xgboost是大规模并行boosted tree的工具,它是目前最快最好的开源boosted tree工具包,比常见的工具包快10倍以上。在数据科学方面,有大量kaggle选手选用它进行数据挖掘比赛,其中包括两个以上kaggle比赛的夺冠方案。在工业界规模方面,xgboost的分布式版本有广泛的可移植性,支持在YARN, MPI, Su转载 2017-05-10 18:49:35 · 3042 阅读 · 0 评论 -
机器学习 - SVD分解
在网上看到有很多文章介绍SVD的,讲的也都不错,但是感觉还是有需要补充的,特别是关于矩阵和映射之间的对应关系。前段时间看了国外的一篇文章,叫A Singularly Valuable Decomposition The SVD of a Matrix,觉得分析的特别好,把矩阵和空间关系对应了起来。本文就参考了该文并结合矩阵的相关知识把SVD原理梳理一下。 SVD不仅是一个数学问题,在工程应转载 2017-05-23 02:38:54 · 635 阅读 · 0 评论 -
机器学习 - 卷积神经网络CNN初解
自今年七月份以来,一直在实验室负责卷积神经网络(Convolutional Neural Network,CNN),期间配置和使用过theano和cuda-convnet、cuda-convnet2。为了增进CNN的理解和使用,特写此博文,以其与人交流,互有增益。正文之前,先说几点自己对于CNN的感触。先明确一点就是,Deep Learning是全部深度学习算法的总称,CNN是深度学习算法在图像处转载 2017-05-15 00:16:32 · 1594 阅读 · 0 评论 -
数据挖掘 - pandas基本函数
读写csv文件写入 df.to_csv(filename)读取 pd.read_csv(filename,header=0) #保留列属性,header=None不读列属性缺失值处理去掉包含缺失值的行 df.dropna(how=’any’)对缺失值进行填充 df.fillna(value=5)选择行或列df.iloc[3] #第四行df.iloc[原创 2017-01-28 14:53:14 · 748 阅读 · 0 评论 -
数据挖掘 - pandas画图
基本画图命令Pandas通过整合matplotlib的相关功能实现了基于DataFrame的一些 作图功能。下面的数据是每年美国男女出生数据:url = 'http://s3.amazonaws.com/assets.datacamp.com/course/dasi/present.txt'present = pd.read_table(url, sep=' ')present.s转载 2017-01-25 15:18:12 · 1484 阅读 · 0 评论 -
机器学习 - 协方差与协方差矩阵
协方差的定义 对于一般的分布,直接代入E(X)之类的就可以计算出来了,但真给你一个具体数值的分布,要计算协方差矩阵,根据这个公式来计算,还真不容易反应过来。网上值得参考的资料也不多,这里用一个例子说明协方差矩阵是怎么计算出来的吧。记住,X、Y是一个列向量,它表示了每种情况下每个样本可能出现的数。比如给定则X表示x轴可能出现的数,Y表示y轴可能出现的。注意这里是关键,给定了4转载 2016-12-20 14:26:30 · 1373 阅读 · 0 评论 -
机器学习 - Apriori算法关联规则学习
关联分析原创 2017-08-07 00:41:41 · 2086 阅读 · 0 评论 -
机器学习 - 降维算法概述
降维原创 2017-08-07 00:45:51 · 1212 阅读 · 0 评论 -
机器学习 - 非平衡分类问题
问题被研究的原因:在实际问题中,大多数分类问题,样本错分会带来不同的代价。1. 分类性能度量指标1.1 混淆矩阵混淆矩阵四个元素: 真正例(true positive),真反例(true negative),伪正例,伪反例。混淆矩阵主对角线所占比例越高越好。1.2 精确率(precision) & 召回率(reccall)& 准确率(accuracy)由原创 2017-07-21 22:14:56 · 1102 阅读 · 0 评论 -
机器学习与数据挖掘 - 目录导航
我简单的按照 sklearn的方式将其分为七个模块:分类,回归,聚类,降维,模型选择,数据预处理以及优化算法。1. 分类2. 回归3. 聚类4. 降维5. 模型选择6. 数据预处理7. 优化算法原创 2017-07-25 13:53:01 · 506 阅读 · 0 评论 -
机器学习 - PCA
PCA降维原创 2017-08-07 00:47:01 · 3514 阅读 · 0 评论 -
机器学习 - 贝叶斯学派 & 频率学派
贝叶斯概率引入了先验来处理概率问题,而频率学派仅仅从数据本身获取信息,不考虑先验和逻辑推理。原创 2017-07-08 12:57:35 · 966 阅读 · 0 评论 -
机器学习 - 竞赛网站,算法刷题网站
数据竞赛类网站Kaggle阿里巴巴天池大数据比赛DataCastleCCF大数据与计算智能大赛Di-Tech算法大赛KDD-CupKDnuggets Competition全国高校云计算应用创新大赛Byte Cup国际机器学习竞赛WID数据竞赛数据火车竞赛网站DrivenData Competition上海SODA大赛赛氪网TopCoder大赛网数据科学&机器学习的在线学习原创 2017-07-24 13:35:13 · 22365 阅读 · 1 评论 -
机器学习 - 谱聚类
谱聚类原创 2017-07-28 16:10:14 · 784 阅读 · 0 评论 -
机器学习 - 决策树ID3算法
最近研究树模型,从最简单的决策树开始研究,扼要的说下最简单的ID3算法。对于机器学习的数据: train_x, train_y, test_x, test_y。当然test_y通常是被预测的值。对于决策树而言,就是事先利用train_x与train_y建立一颗泛化性能足够好的树,以供后期分类test_x。1. ID3算法的特征只能是标称属性;对于数值属性,则必须做离散化处理。原创 2017-07-01 15:52:36 · 1550 阅读 · 0 评论 -
机器学习 - knn算法
knn - k近邻算法,是一种利用相似度来对测试样本做出预测的非参数方法。原创 2017-07-26 18:34:40 · 683 阅读 · 0 评论 -
机器学习 - SVD
1. SVD1.1 分解如下图,一个矩阵可以分解为两个方阵和一个对角矩阵的乘积:C = m * n;u = m * m;sigma = m * n;v' = n * n1.2 奇异值sigma是一个对角矩阵,但通常不是方阵。sigma的对角元素被称为奇异值,与特征值类似。因此与PCA类似,我们可以取sigma中最大的k个,来简化数据:u' = m * k;s原创 2017-08-07 00:52:54 · 8269 阅读 · 5 评论 -
机器学习 - GMM高斯混合模型
高斯混合模型原创 2017-07-28 16:00:10 · 2571 阅读 · 0 评论 -
机器学习 - AGNES算法
AGNES是一种自底向上聚合策略的层次聚类算法。原创 2017-08-12 18:37:11 · 2766 阅读 · 3 评论 -
机器学习 - 神经网络
神经网络原创 2017-08-12 18:46:24 · 311 阅读 · 0 评论