数据分析
(๑• . •๑)框
我不爱学习
展开
-
KNN改进
from sklearn.datasets import load_irisfrom sklearn.model_selection import train_test_splitfrom sklearn.preprocessing import StandardScalerfrom sklearn.neighbors import KNeighborsClassifierfrom sklearn.model_selection import GridSearchCVdef knn_iris_gs原创 2020-07-31 16:23:22 · 179 阅读 · 0 评论 -
KNN算法
from sklearn.datasets import load_irisfrom sklearn.model_selection import train_test_splitfrom sklearn.preprocessing import StandardScalerfrom sklearn.neighbors import KNeighborsClassifierdef knn_iris(): #1、获取数据 iris = load_iris() #2、划分数据集原创 2020-07-31 15:44:10 · 130 阅读 · 0 评论 -
特征工程主要内容
原创 2020-07-31 11:48:06 · 203 阅读 · 0 评论 -
4-06主成成分分析
原创 2020-07-10 17:42:33 · 90 阅读 · 0 评论 -
4-05线性回归
如何评价线性回归效果的好坏(左边是一元线性系数,右边是多元线性系数)R越接近1,回归效果越好接近0,效果差好的回归DW接近2,4是残差正相关0是残差负相关原创 2020-07-10 17:21:28 · 76 阅读 · 0 评论 -
5-08特征衍生
通常我们采集到的数字特征一般维度不大,而且一般不能直接反应信息,需要通过已有的数据组合,加减乘除(时间)这些是推荐系统中,特征扩维常用的方法和思路原创 2020-07-09 16:43:14 · 87 阅读 · 0 评论 -
5-06特征变换3
正规化的本质是将一个向量的长度正规到单位1,以下有两种正则化L1正则化,L2正则化(也叫做欧式正则,分子保持不变分母用的是欧式长度)一般用在后两个在#正规化import numpy as npimport pandas as pdfrom sklearn.preprocessing import Normalizer#直接正规化就行,不用和标注一起进行(也就是监督学习),所以直接用fit_transform()#第一个结果不是我们想要的,因为他是对每一行进行正规化操作print(Nor原创 2020-07-09 15:13:59 · 181 阅读 · 0 评论 -
5-06特征变换代码2
独热编码是在数字编码的基础上进行变换处理,所以第一步要进行labelencoding(另外理解fix和transform)知乎python 的fit() transform()fit()可以说是调用的通用方法。fit(X),表示用数据X来训练某种模型。 函数返回值一般为调用fit方法的对象本身。fit(X,y=None)为无监督学习算法,fit(X,Y)为监督学习算法transform()在Fit的基础上,进行标准化,降维,归一化等操作Fit_transform()fit_transform是f原创 2020-07-09 14:45:59 · 97 阅读 · 0 评论 -
5-06特征变换2
下一个方法数值化在统计学中,统计数据主要可分为四种类型,分别是定类数据,定序数据,定距数据,定比变量。1.定类数据(Nominal):名义级数据,数据的最低级,表示个体在属性上的特征或类别上的不同变量,仅仅是一种标志,没有序次关系。例如, ”性别“,”男“编码为1,”女“编码为2。2.定序数据(Ordinal):数据的中间级,用数字表示个体在某个有序状态中所处的位置,不能做四则运算。例如,“受教育程度”,文盲半文盲=1,小学=2,初中=3,高中=4,大学=5,硕士研究生=6,博士及其以上=7。3.定原创 2020-07-08 21:36:10 · 102 阅读 · 0 评论 -
5-06特征变换代码
#连续数据离散化之分箱技术import numpy as npimport pandas as pdlst=[6,8,10,15,24,25,40,67]#第一种等深分箱(就是根据数量进行分箱)这里是将离散化数据更加规整print(pd.qcut(lst,q=3))print(pd.qcut(lst,q=3,labels=["low","medium","high"]))#第二种是等距分箱(就是根据数的大小,分成几个等分)print(pd.cut(lst,bins=3))print(pd原创 2020-07-08 20:48:35 · 79 阅读 · 0 评论 -
5-06特征变换
顾名思义就是根据选好的特征进行转换,使特征充分发挥他的特点**下面介绍比较常用的特征变换的方法(对指化)**1、(数值太小)取指数—归一化,在机器学习中,有一个直接的函数叫softmax numpy.exp2、取对数(数值太大)numpy.log下面介绍另一种方法离散化为什么离散化(第一数据有噪声,第二朴素贝叶斯只能用离散化数据,第三数据有明显拐角点,离散更有意义,见下图)方法(前两种叫做分箱)数据在分箱前,一定要进行排序,分好后找一个好的数来代替这个箱子里的内容,下面是等深分箱(原创 2020-07-08 20:23:43 · 1063 阅读 · 0 评论 -
5-05特征选择代码
import numpy as np#pandas主要作用是表结构DataFrame,另外嵌入numpy纯数学import pandas as pd#scipy是基于numpy纯数学,他的区别是有数学模型(正太什么的,比较直接0import scipy.stats as ssdf = pd.DataFrame({"A":ss.norm.rvs(size=10),"B":ss.norm.rvs(size=10),"C":ss.norm.rvs(size=10 ),"D":np.random.rand原创 2020-07-08 17:59:06 · 161 阅读 · 0 评论 -
5-05特征选择(特征预处理第一步)
区别:Numpy是以矩阵为基础的数学计算模块,纯数学。Scipy基于Numpy,科学计算库,有一些高阶抽象和物理模型。比方说做个傅立叶变换,这是纯数学的,用Numpy;做个滤波器,这属于信号处理模型了,在Scipy里找。Pandas提供了一套名为DataFrame的数据结构,比较契合统计分析中的表结构,并且提供了计算接口,可用Numpy或其它方式进行计算。特征选择可以在特征变化之前,也可以在之后,本章是根据统计学模型、机器学习模型进行相关度排序(最终实现降维度)特征选择需要重复做,需要模型去验证,原创 2020-07-07 20:41:20 · 166 阅读 · 0 评论 -
5-04标注
上一节我们讲了数据清晰的内容,通过清晰我们保留了正常的数据,在处理特征预处理内容之前,我们先要确定标注,反应目的的属性就是标注,其他有关系的特征原创 2020-07-07 18:32:54 · 77 阅读 · 0 评论 -
5-03异常值处理
#处理异常值import numpy as npimport pandas as pddf = pd.DataFrame({"A":["a0","a1","a1","a2","a3","a4"],"B":["b0","b1","b2","b2","b3",None],"C":[1,2,None,3,4,5],"D":[0.1,0.4,0.4,0.7,8.3,None],"E":["e1","e2","e3","e4","e5","w2"]})print(df)#注意数字为NaN,字符为None#空原创 2020-07-07 18:19:39 · 139 阅读 · 0 评论