![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
喵十八
这个作者很懒,什么都没留下…
展开
-
数据挖掘笔记--概述
更新记录2017.11.21 思维导图第一版。正文数据挖掘是一个大坑,借着公司正好在做,一点点完善自己的学习笔记。前期整理的思维导图如下:数据挖掘.png...原创 2017-11-21 23:16:41 · 67 阅读 · 0 评论 -
Sklearn-train_test_split随机划分训练集和测试集
一般形式X_train,X_test, y_train, y_test =cross_validation.train_test_split(train_data,train_target,test_size=0.4, random_state=0)参数解释train_data:所要划分的样本特征集train_target:所要划分的样本结果test_size:样本占比,如果是整数的话...原创 2017-11-22 10:34:10 · 102 阅读 · 0 评论 -
Python 数据预处理
存在问题获取未经处理的原始数据,可能有以下问题:不属于同一量纲:即数据的规格不一样,不能够放在一起比较。无量纲化可以解决这一问题。信息冗余:对于某些定量数据,其包含的有效信息为区间划分,例如学习成绩,假若只关心“及格”或不“及格”,那么需要将定量的考分,转换成“1”和“0”表示及格和未及格。二值化可以解决这一问题。定性特征不能直接使用:某些机器学习算法和模型只能接受定量数据的输入,那么需...原创 2017-11-22 11:50:15 · 391 阅读 · 0 评论 -
采样-概述
什么是不平衡分类不平衡分类是一种有监督学习,但它处理的对象中有一个类所占的比例远远大于其余类。比起多分类,这一问题在二分类中更为常见。(注:下文中占比较大的类称为大类,占比较小的类称为小类)不平衡一词指代数据中响应变量(被解释变量)的分布不均衡,如果一个数据集的响应变量在不同类上的分布差别较大我们就认为它不平衡。比如给1万个用户发推送,只有10个回应,这个就是不平衡的。如果拿全量数据去训练...原创 2017-11-23 09:26:02 · 145 阅读 · 0 评论 -
采样-SOMTE方法
简介SMOTE法(Synthetic Minority Oversampling Technique)是有效而常用的方法。该算法基于特征空间(而不是数据空间)生成与小类观测相似的新数据(译者注:总体是基于欧氏距离来度量相似性,在特征空间生成一些人工样本,更通俗地说是在样本点和它近邻点的连线上随机投点作为生成的人工样本)。我们也可以说,它生成了小类观测的随机集合来降低分类器的误差。步骤1.计...原创 2017-11-23 11:51:05 · 910 阅读 · 1 评论 -
pearson 相关系数可视化
import matplotlib.pyplot as pltplt.style.use('ggplot') #风格设置近似R这种的ggplot库import seaborn as snssns.set_style('whitegrid')def drawpearson(data): colormap = plt.cm.viridis plt.figure(figsiz...原创 2017-11-27 18:01:38 · 1443 阅读 · 0 评论 -
决策树 学习笔记
基本概念算法杂货铺的这篇介绍说的比较生动详细决策树算法原理(上) 对ID3、C4.5 的算法思想做了总结。介绍了两种算法的过程,以及优缺点。ID3 构造决策树是基于信息增益最大的情况进行。主要存在如下问题:ID3没有考虑连续特征,比如长度,密度都是连续值,无法在ID3运用。这大大限制了ID3的用途。ID3采用信息增益大的特征优先建立决策树的节点。很快就被人发现,在相同条件下,取值比较多...原创 2017-12-04 14:38:14 · 61 阅读 · 0 评论