![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据处理
文章平均质量分 61
Y_hero
不破不立,破而后立
展开
-
ADF 单位根检验 Dickey-Fuller 迪基-福勒检验
名词解释:Dickey-Fuller 迪基-福勒检验, 单位根检验, 如果存在时序数据中存在单位根, 则表明是非平稳序列ADF检验 增广迪基-福勒检验 排除了自相关的影响为什么需要检验:单位根检验师时序序列分析的一个热点问题, 大部分时序模型都要求输入数据具有稳定性, 因此要先检测数据是否稳定.如果数据本身是不稳定的, 要对数据做差分变化等操作消除单位根, 此时目标值已经没有了实际含义, 但是满足模型需求, 结果在逆向推导.检验原理:时序回归方程: x_t = k *(x_t -1)原创 2021-02-04 12:27:53 · 7141 阅读 · 0 评论 -
statsmodels 直接引用无有效内容
背景:pip install statsmodels 后, import statsmodels,发现没有statsmodels的函数.如下图。临时解决方案:直接引用自己所需的函数.如下图import statsmodels.api as smdir(statsmodels)[‘builtins’, ‘cached’, ‘doc’, ‘file’, ‘init’, ‘loader’, ‘name’, ‘package’, ‘path’, ‘spec’, ‘version’, ‘_vers原创 2021-02-04 10:58:36 · 315 阅读 · 1 评论 -
Tsfresh 时序数据特征挖掘 特征算子简介
本篇介绍现有主要算子含义和使用注意是想基础算子简单复合算子一.本身无时序概念算子二.本身有时序概念算子复杂复合算子一些使用感悟和补充懂的都懂,下文算子基本按照源码顺序罗列.如果有其他关于tsfresh的问题,欢迎留言讨论,后续可能会再写tsfresh的其他系列文章.部分算子示例:github_jupyter_notenook基础算子1.sum_values(x)2.median(x)3.mean(x)4.length(x)5.standard_deviation(x) 标准差6.vari原创 2020-11-28 21:56:00 · 1510 阅读 · 0 评论 -
gpsql常用操作
1.时间2.schema关系型数据库中存储数据,首先必须定义schema“模式”,也就是用一种预定义结构向数据库说明:要有哪些表格,表中有哪些列,每一列都存放何种类型的数据。必须先定义好模式,然后才能存放数据。nosql型数据库与之相反3.split集合 1.–select regexp_split_to_table(‘yaosting\test\split’,’\’) ;regexp_split_to_tableyaostingtestspl原创 2020-08-31 00:17:52 · 1132 阅读 · 0 评论 -
PCA降维原理及sklearn代码实现
PCA(Principal Component Analysis)是一种常用的数据分析方法。PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维。本文从实际问题代入探索PCA,尽量避免纯数学的推导,更简单明了地讲解PCA原理。1.数据的向量表示及降维问题的产生一般情况下,在数据挖掘和机器学习中,数据被表示为向量来进行处理,就拿我近期做的...原创 2019-03-08 11:42:55 · 5591 阅读 · 1 评论 -
pandas.get_dummies 的使用及含义
get_dummies 是利用pandas实现one hot encode的方式。get_dummies参数如下:pandas.get_dummies(data,prefix = None,prefix_sep =’_’,dummy_na = False,columns = None,sparse = False,drop_first = False,dtype = None )data :...原创 2019-03-08 21:40:17 · 11003 阅读 · 0 评论 -
kaggle泰坦尼克号数据transfrom归一化记录
首先本人是菜鸟一个,之前一直只看了些深度学习的理论知识,更多是模型方面的知识,近来在做kaggle上的入门比赛练手,发现数据预处理真的很重要,特此记录。以下是对age和fare的归一化处理代码为什么要进行归一详见:https://blog.csdn.net/Y_hero/article/details/88317682#对数据进行归一化处理import sklearn.preprocess...原创 2019-03-08 00:17:48 · 1301 阅读 · 1 评论 -
独热编码(待补充)
1.为什么要独热编码?正如上文所言,独热编码(哑变量 dummy variable)是因为大部分算法是基于向量空间中的度量来进行计算的,为了使非偏序关系的变量取值不具有偏序性,并且到圆点是等距的。使用one-hot编码,将离散特征的取值扩展到了欧式空间,离散特征的某个取值就对应欧式空间的某个点。将离散型特征使用one-hot编码,会让特征之间的距离计算更加合理。离散特征进行one-hot编码后,...转载 2019-03-13 16:13:23 · 617 阅读 · 0 评论