![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据挖掘
文章平均质量分 66
YoYoDelphine
一个努力挣扎的菜鸡
展开
-
机器学习笔记 —— PCA
对于PCA老是懂了又忘,所以写一篇笔记总结一下好啦!1. PCA简介在多元统计分析中,主成分分析(英语:Principal components analysis,PCA)是一种分析、简化数据集的技术。主成分分析经常用于减少数据集的维数,同时保持数据集中的对方差贡献最大的特征。这是通过保留低阶主成分,忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面。但是,这也不是一定的,要视具体应用原创 2017-04-10 21:48:07 · 967 阅读 · 0 评论 -
[服务器小笔记]上传下载文件及python调试
首先,我使用的是XShell 连接ubuntu服务器,采用rz和sz命令即可上传或下载文件。同样,使用rz和sz需要安装lrzsz包。[lrzsz]:lrzsz是一款在linux里可代替ftp上传和下载的程序[安装]: apt-get install lrzsz使用时,直接输入命令rz,即可上传文件。python调试时,可以通过如下命令:python -m pdb原创 2016-11-23 21:45:54 · 2100 阅读 · 0 评论 -
[服务器小笔记]Ubuntu配置numpy等环境
配置非常简单,只需要三行命令即可配置numpy,matplotlib, scipysudo apt-get install Python-scipysudo apt-get install python-numpysudo apt-get install python-matplotlib[apt-get说明]:apt-get是一条linux命令,适用于deb包管理式的操作原创 2016-11-23 20:52:56 · 736 阅读 · 0 评论 -
机器学习笔记(三)牛顿法和梯度下降法
3 优化算法介绍3.1 梯度下降法梯度下降法:[定义] :梯度下降法(英语:Gradient descent)是一个一阶最优化算法,通常也称为最速下降法。 要使用梯度下降法找到一个函数的局部极小值,必须向函数上当前点对应梯度(或者是近似梯度)的反方向的规定步长距离点进行迭代搜索。如果相反地向梯度正方向迭代进行搜索,则会接近函数的局部极大值点;这个过程则被称为梯度上升法。(摘自维基)对θ使用梯度下降法原创 2016-10-21 23:45:45 · 2341 阅读 · 0 评论 -
机器学习笔记(二)L1,L2正则化
2.正则化2.1 什么是正则化?(截自李航《统计学习方法》)常用的正则项有L1,L2等,这里只介绍这两种。2.2 L1正则项L1正则,又称lasso,其公式为: L1=α∑kj=1|θj|L1=\alpha\sum_{j=1}^{k}|\theta_j|特点:约束θj的大小,并且可以产生稀疏性[问题] : 为什么L1正则可以产生稀疏性?从图形上理解,L1正则的实质,相当于约束了θ的绝对值之和原创 2016-10-21 23:42:17 · 3858 阅读 · 0 评论 -
机器学习笔记(一)逻辑回归与多项逻辑回归
1.逻辑回归与多项逻辑回归1.1什么是逻辑回归?逻辑回归,可以说是在线性回归的基础上加上一个sigmoid函数,将线性回归产生的值归一化到[0-1]区间内。sigmoid函数如下: sigmoid(x)=11+e−xsigmoid(x)=\frac{1}{1+e^原创 2016-10-21 23:34:01 · 17689 阅读 · 0 评论 -
转:了解信息增益和决策树
原文地址:http://www.cnblogs.com/wentingtu/archive/2012/03/24/2416235.html信息增益================一,特征选择中的信息增益:================信息增益是什么,我们先从它的用处来了解它:信息增益是特征选择中的一个重要指标,它定义为一个特征能够为分类系统带来多少信息,带来的信息越多转载 2016-08-13 00:06:51 · 698 阅读 · 0 评论 -
特征选择算法之 ReliefF 算法
ReliefF算法是Relief算法的扩展, Relief算法只适用于两类样本的问题, ReliefF算法可以应用到多个样本上。ReliefF算法步骤如下:现有不同类别的样本若干, 对每类样本称作 Xn。1. 从所有样本中,随机取出一个样本a。2. 在与样本a相同分类的样本组内,取出k个最近邻样本。3. 在所有其他与样本a不同分类的样本组内, 也分别取出k个最近邻样本。原创 2016-08-08 17:10:43 · 25327 阅读 · 7 评论 -
特征选择算法之 chisquare 算法
chisquare特征选择算法:通过计算各个特征的卡方值,进行排序后得到。步骤如下: 1. 假设该特征与目标特征无关。 2. 计算卡方值,若卡方值较小,则相关性较小; 若较大,则相关性较大。每个特征的卡方值计算应如下: X^2 = ∑ ((YA - YB)^ 2 / YB)其中,YA是每个样本中,YA的实际值,而YB为理想值,即假设无关成立时原创 2016-08-08 09:46:09 · 8311 阅读 · 0 评论 -
特征选择之 FCBF算法
FCBF算法介绍具体详述可见,提出该算法的论文 Feature Selection for High-Dimensional Data: A Fast Correlation-Based Filter SolutionFCBF算法: 全称 Fast Correlation-Basd Filter Solution, 是一种快速过滤的特征选择算法,一种基于symmetrical uncertaint原创 2016-10-17 15:05:27 · 12284 阅读 · 8 评论