数据分析
文章平均质量分 51
...
EdVzAs
写下自己的学习笔记
展开
-
Python 第三方模块 统计2 patsy,chowtest
官方文档:https://pypi.org/project/patsy/一.概述1.简介:patsy是1个用于描述统计模型(尤其是线性模型或具有线性组件的模型)和构建设计矩阵的Python库.其受R/S语言中的公式迷你语言启发并与之兼容,为Python带来了"R公式"(R "formulas")的便利性2.安装:pip install patsy二.使用...原创 2021-10-30 21:06:37 · 1482 阅读 · 0 评论 -
数据分析 时间序列分析 时域分析
一.综述1.概念:"时域分析方法"(Time Domain Analysis)的原理是:事件的发展通常具有一定的惯性,也就是说序列值间存在着具有统计规律的相关关系.其目标是:找出序列值间相关关系的统计规律并拟合出适当的数学模型来描述这种规律,进而利用该模型预测序列未来的值.这种方法理论基础牢固,操作步骤规范,分析结果易于解释,是时间序列分析的主流方法2.步骤:①考察观察值序列的特征②根据序列的特征选择适当的模型③根据序列的观察数据确定模型的参数④检验并优化模型⑤利用拟合好的模型来推断序原创 2021-05-07 22:51:04 · 2132 阅读 · 0 评论 -
数据分析 时间序列分析 无季节效应的非平稳时间序列分析
一.综述1.概念:"频域分析方法"(Frequency Domain Analysis)又称"(频)谱分析"(Spectral Analysis),是1种非常有用的动态数据分析方法.但其分析方法复杂,结果抽象,使用上局限性较大.其原理是:假设任何无趋势的时间序列都可以分解为若干不同频率的周期波动.其目标为:...原创 2021-05-07 22:36:13 · 2196 阅读 · 0 评论 -
数据分析 时间序列分析 ARMA模型
一.概念具有如下结构的模型称为自回归移动平均模型(Auto Regression Moving Average Model;ARMA Model)原创 2021-05-18 21:44:48 · 1360 阅读 · 0 评论 -
数据分析 时间序列分析 MA模型
一.概念具有如下结构的模型称为q阶移动平均模型(Moving Average Model of order q;MA Model of order q),记为MA(q)MA(q)MA(q):xt=μ+εt−θ1εt−1−θ2εt−2−...−θqεt−q s.t.{θq≠0 ①E(εt)=0,D(εt)=σε2,γ(εt,εs)=E(εtεs)=0 (s≠t) ②x_t=μ+ε_t-θ_1ε_{t-1}-θ_2ε_{t-2}-...-θ_qε_{t-q}\\\qquad\qquad\qquad\qqua原创 2021-05-18 21:17:49 · 3757 阅读 · 0 评论 -
数据分析 时间序列分析 平稳时间序列分析
一.工具1.差分运算(1)ppp阶差分:xtx_txt的ppp阶差分为∇xt=xt−xt−1 (p=1)∇pxt=∇p−1xt−∇p−1xt−1 (p>1)\nabla x_t=x_t-x_{t-1}\,(p=1)\\\nabla^px_t=\nabla^{p-1}x_t-\nabla^{p-1}x_{t-1}\,(p>1)∇xt=xt−xt−1(p=1)∇pxt=∇p−1xt−∇p−1xt−1(p>1)(2)kkk步差分:xtx_txt的kkk步差分为∇k原创 2021-05-10 14:58:10 · 1053 阅读 · 0 评论 -
数据分析 时间序列分析 AR模型
一.AR模型二.MA模型三.ARMA模型原创 2021-05-10 14:59:00 · 2148 阅读 · 0 评论 -
数据分析 时间序列分析 时间序列的预处理
一.概述1.概念:对观测值序列的纯随机性和平稳性的检测称为"序列的预处理",根据检测结果可将序列分为不同类型.记γ(s,t)=Cov(Xs,Xt)2.特征统计量:一.平稳性检测(1)平稳序列:"平稳序列"(Stationary Series)是指在某1常数附近波动且波动幅度有限的序列.具体来说,要求期望/方差为常数而协方差只与时期间隔有关,即需要满足下述要求:①(Xt)=μ②D(Xt)=σ2③γ(t,t+k)=gk①(X_t)=μ\\②D(X_t)=σ^2\\③γ(t,t+k)=g原创 2021-05-07 23:02:51 · 1282 阅读 · 0 评论 -
数据分析 时间序列分析 概述
常用按时间顺序排列的1组随机变量X1,X2...Xt来表示1个随机事件的时间序列,简记为{Xt};用x1,x2...xn表示该随机序列的n个有序观测值,称为序列长度为n的"观测值序列",简记为{xt,t=1,2...n}一.时间序列的预处理对观测值序列的纯随机性和平稳性的检测称为"序列的预处理",根据检测结果可将序列分为不同类型.记γ(s,t)=Cov(Xs,Xt)1.平稳性检测(1)平稳序列:"平稳序列"是指在某1常数附近波动且波动幅度有限的序列.具体来说,要求期望/方差为常数而协方差只与原创 2021-02-18 19:57:43 · 3018 阅读 · 0 评论 -
Python 第三方模块 机器学习 Scikit-Learn模块 模型的选择与评估
一.impute1.简介:该模块用于处理缺失值2.使用:class sklearn.impute.SimpleImputer([missing_values=nan,strategy='mean',fill_value=None,verbose=0,copy=True,add_indicator=False])class sklearn.impute.IterativeImputer([estimator=None,missing_values=nan,sample_posterior=Fals原创 2021-04-11 15:44:36 · 1026 阅读 · 0 评论 -
Python 第三方模块 科学计算 SciPy模块7 稀疏矩阵2
十三.Csgraph子模块2.内容(4)其他:分析稀疏图中的"连通分量"(Connected Component):[<n_components>,<labels>=]scipy.sparse.csgraph.connected_components(<csgraph>[,directed=True,connection='weak',return_labels=True]) #参数说明: csgraph:指定稀疏图;为N×N sparse matrix原创 2021-03-20 20:46:50 · 279 阅读 · 0 评论 -
Python 第三方模块 科学计算 SciPy模块6 特殊函数2
十一.Special模块2.特殊函数(9)菲涅尔积分(Fresnel Integral):Fresnel integrals:[<S>,<C>=]scipy.special.fresnel(<z>[,out=None])Compute nt complex zeros of sine and cosine Fresnel integrals S(z) and C(z):[<Sz>,<Cz>=]scipy.special.fresnel_ze原创 2021-03-20 20:39:08 · 367 阅读 · 0 评论 -
Python 第三方模块 科学计算 SciPy模块5 统计3
九.Stats模块4.统计检验(Statistical Tests):进行单变量"T-检验"(T-Test):[<statistic>,<pvalue>=]scipy.stats.ttest_1samp(<a>,<popmean>[,axis=0,nan_policy='propagate',alternative='two-sided'])进行双独立变量T-检验:[<statistic>,<pvalue>=]scipy.stat原创 2021-03-20 20:35:33 · 206 阅读 · 0 评论 -
Python 第三方模块 科学计算 SciPy模块5 统计2
九.Stats模块3.描述统计(Descriptive Statistics)(1)概括性统计(Summary Statistics):返回数据集的相关信息:[<nobs>,<minmax>,<mean>,<variance>,<skewness>,<kurtosis>=]scipy.stats.describe(<a>[,axis=0,ddof=1,bias=True,nan_policy="propagate"])原创 2021-03-20 20:29:35 · 194 阅读 · 0 评论 -
Python 第三方模型 科学计算 SciPy模块8 优化与寻根
十二.Optimize模块1.优化(Optimization)(1)标量函数优化(Scalar Functions Optimization):(2)局部优化(Local Optimization):(3)全局优化(Global Optimization):2.最小二乘法与曲线拟合(1)非线性最小二乘法(Nonlinear Least-Squares):(2)线性最小二乘法(Linear Least-Squares):(3)曲线拟合(Curve Fitting):3原创 2021-03-17 19:26:44 · 1485 阅读 · 1 评论 -
Python 第三方模块 科学计算 SciPy模块7 稀疏矩阵1
十一.Sparse模块1.创建稀疏矩阵(1)类:块系数行矩阵:class scipy.sparse.bsr_matrix(<arg1>[,shape=None,dtype=None,copy=False,blocksize=None]) #参数说明: arg1:指定 shape: dtype: copy: blocksize:原创 2021-03-11 10:09:00 · 661 阅读 · 0 评论 -
Python 第三方模块 科学计算 SciPy模块6 特殊函数1
十.Special模块几乎所有以下函数均为"通用函数"(Universal Function),遵循"广播"(Broadcasting)及"自动数组循环"(Automatic Array-Looping)规则1.错误处理(Error Handling)(1)函数:Get the current way of handling special-function errors:[<err>=]scipy.special.geterr()#########################原创 2021-03-10 19:48:30 · 1220 阅读 · 2 评论 -
Python 第三方模块 科学计算 SciPy模块4 线性代数2
八.Linalg模块3.分解(2)SVD:对矩阵进行SVD:[<U>,<s>,<Vh>=]scipy.linalg.svd(<a>[,full_matrices=True,compute_uv=True,overwrite_a=False,check_finite=True,lapack_driver='gesdd']) #分解为<a>=<U>*<s>*<vh> #参数说明:其他参数同scipy.l原创 2021-03-20 20:27:10 · 173 阅读 · 0 评论 -
Python 第三方模块 科学计算 SciPy模块5 统计1
九.Stats模块1.概率分布(1)基类:连续型随机变量的基类:class scipy.stats.rv_continuous([momtype=1,a=None,b=None,xtol=1e-14,badvalue=None,name=None,longname=None,shapes=None,extradoc=None,seed=None])############################################################################原创 2021-02-27 14:49:07 · 389 阅读 · 0 评论 -
Python 第三方模块 科学计算 SciPy模块3 聚类,快速傅里叶变换
六.Cluster模块1.概述:scipy.cluster是scipy下的1个做聚类的包,包含了2类聚类方法:①矢量量化(scipy.cluster.vq):支持"矢量量化"(Vector Quantization)和"K-均值聚类算法"(M-Means Clustering Algorithm)②层次聚类(scipy.cluster.hierarchy):支持"层次聚类"(Hierarchical Clustering)和"凝聚聚类"(Agglomerative Clustering)2.矢量原创 2021-02-26 14:04:10 · 416 阅读 · 0 评论 -
Python 第三方模块 科学计算 SciPy模块4 线性代数1
七.IO模块1.mat文件(1)读取:读取.mat文件:[<mat_dict>=]scipy.io.loadmat("<file_name>"[,mdict=None,appendmat=True,byte_order=None,mat_dtype,squeeze_me,chars_as_strings,matlab_compatible,struct_as_record,verify_compressed_data_integrity,variable_names=None,原创 2021-02-22 16:11:23 · 565 阅读 · 0 评论 -
Python 第三方模块 科学计算 SciPy模块2 积分,插值
四.Fft模块注意:旧版是fftpack,不过目前使用fft或fftpack均可1.快速傅里叶变换(1)1维:进行1维离散傅里叶变换:[<out>=]scipy.fft.fft(<x>[,n=None,axis=-1,norm=None,overwrite_x=False,workers=None,plan=None]) #参数说明: x:指定向量;为ndarray-like(n≥1) #其中的元素可为复数;当维数>1时,会被拆分为多个向量分别原创 2021-02-22 16:11:32 · 668 阅读 · 0 评论 -
Python 第三方模块 统计1 statsmodels模块1 简介,回归
一.statsmodels模块官方文档:https://www.statsmodels.org/stable/index.html二.patsy模块官方文档:https://pypi.org/project/patsy/1.概述(1)简介:patsy是1个用于描述统计模型(尤其是线性模型或具有线性组件的模型)和构建设计矩阵的Python库.其受R/S语言中的公式迷你语言启发并与之兼容(2)安装:pip install patsy2.使用...原创 2021-02-19 20:59:21 · 3209 阅读 · 0 评论 -
Python 第三方模块 科学计算 SciPy模块1 简介,常数,IO
一.介绍1.介绍:SciPy是1个Python开源库,在BSD授权下发布,主要用于数学/科学/工程计算.SciPy依赖于NumPy来提供方便快速的n维数组操作.组合使用NumPy+SciPy+Matplotlib可以在很大程度上替代MATLAB,并且功能更强大,编程更容易...原创 2020-09-26 16:24:07 · 1374 阅读 · 0 评论 -
Python 第三方模块 数据分析 Pandas模块 Series2
.方法3.统计获得一些基础的统计信息:<S>.describe() #返回Series对象#实例:>>> s=pd.Series([1,2,3,4,5],index=['a','b','c','d','e'])>>> s.describe()count 5.000000#Series对象的长度mean 3.000000#平均值std 1.581139#样本标准差min 1.000000#最小值25%原创 2021-02-02 21:29:56 · 301 阅读 · 0 评论 -
Python 第三方模块 数据分析 Pandas模块 高级应用
一.类别型数据(Categorical Data)1.概念:"类别型变量"(Categorical Variable)是指仅有有限个取值的定性变量,表现为互不相容的类别或属性.在Pandas中的类型名为:category,又分为"有序型"(如改进程度)和"无序型"(如性别).类别型数据常用不同的int来表示,这种方法称为"分类编码表示法"或"字典编码表示法",这些int值称为"分类编码"或"编码".这种做法可以大大提高分析时的性能,节约内存资源,并可在在保持编码不变的情况下对分类进行转换,如:①重原创 2021-02-02 18:11:54 · 443 阅读 · 0 评论 -
数据分析 数据规约
一.概念"数据规约"(Data Reduction)是指在尽可能保持数据原貌的前提下,最大限度地精简数据集.数据规约又分为2类:"属性规约"和"数值规约"二.属性规约1.概念:"属性规约"(Attributes Reduction)是指通过减少数据集中的属性来精简数据集,目的是减少系统资源的消耗并降低无效/错误数据的影响.这相当于降低表示成向量的数据的维度,因此又称"数据降维".由于不同属性包含了不同的信息量,需要选择舍弃哪些属性才能最小化信息损失.降维方法有2大类:"特征选择"和"特征提取"原创 2021-01-29 22:17:19 · 8146 阅读 · 0 评论 -
Python 第三方模块 数据分析 Pandas模块 时间对象与时间序列
一.日期和时间数据类型1.相关模块:参见 Python.内置模块.时间 部分2.时间戳的Null值:Pandas中用pd.NaT(Not a Time)表示时间戳数据的Null值:>>> pd.NaTNaT>>> pd.to_datetime(['2011-07-06 12:00:00','2011-08-06 00:00:00',None,pd.NaT,"NaT",np.nan,""])DatetimeIndex(['2011-07-06 12:00:原创 2021-01-29 15:31:58 · 1573 阅读 · 0 评论 -
Python 第三方模块 数据分析 Pandas模块 DataFrame
二.DataFrame(2维数据)1.简介:提供了比R语言的data.frame更丰富的功能dataframe是带标签的大小可变的2维异构表格,由多个Series构成(在DataFrame中称为Column),但所有Series共用1组标签DataFrame unifies two or more Series into a single data structure.Each Series then represents a named column of the DataFrame, and原创 2021-01-25 22:36:14 · 559 阅读 · 0 评论 -
数据分析 数据特征分析
一.分布分析1.定量数据:对定量数据而言,选择"组数"和"组宽"是进行分布分析时最重要的问题,一般按以下步骤进行:①求极差②决定组距与组数③确定分点④列出频率分布表⑤绘制频率分布直方图要求:①各组间是互斥的②每个数据点都包含在某组中③各组的组宽应尽可能相等2.定性数据:对定性数据而言,常依据某个属性的不同值分组,绘制成饼图或条形图二.对比分析分为"绝对数比较"和"相对数比较"三.统计量分析1.集中趋势度量:平均水平的指标是对数据集中趋势的度量,包括"均值"/"中位数原创 2021-01-28 22:00:33 · 1103 阅读 · 0 评论 -
Python 第三方模块 数据分析 Pandas模块 字符串处理
一.大小写转换1.转换全部字母:将所有字母转换为小写:<Ss>.lower()将所有字母转换为大写:<Ss>.upper() #参数说明: Ss:指定pandas.core.strings.StringMethods object,可通过<S>.str得到#实例:>>> s=pd.Series(["ASjkdS","dKDsd","jksdAA"])>>> s.str.lower()0 asjkds1原创 2021-01-26 11:43:14 · 782 阅读 · 0 评论 -
Python 第三方模块 Matplotlib模块 绘制动图
一.Animation子模块概述参见:https://matplotlib.org/api/animation_api.html1.简介:animation是matplotlib模块中用于绘制动态图的子模块.该模块中最重要的是FuncAnimation类,还包含其他动图类和帮助类2.导入:from matplotlib import animation二.FuncAnimation类...原创 2021-01-17 23:51:02 · 130 阅读 · 0 评论 -
Python 第三方模块 Matplotlib模块 绘制子图
一.绘制子图子图:在同1张画布中创建多个图像,方便对数据进行对比1.fig.add_plot():添加子图:<ax>=<fig>.add_subplot(<xyn>) #参数说明: fig:Figure对象 x,y,n:分布表示有x行y列共x*y个子图,本子图是第n个;均为num/num str/ #注意这3个连这些,中间没有",";n从0开始 #如果x,y,n中某个>9,3者都需要用","隔开,如.add_sub原创 2021-01-16 20:42:33 · 645 阅读 · 0 评论 -
Python 第三方模块 数据分析 Pandas模块 其他
一.索引与切片操作1.对Series对象(1)方括号形:通过索引取值:<S>[<index>] #当返回值仅有1个时,返回类型和数据类型相同;当返回值有多个时,返回Series对象通过切片取值:<S>[<begin>:<end>[:<step>]] #总是返回Series对象;当标签不唯一时,不要使用标签进行切片 #索引和切片既可用于取值,也可用于赋值;与list/ndarray的索引方法不同,但形式相同 #参数原创 2021-01-14 20:58:52 · 791 阅读 · 1 评论 -
Python 第三方模块 科学计算 NumPy模块 子模块
一.矩阵与矩阵库1.矩阵(1)创建矩阵:np.matrix("<matrix_info>"):创建1个矩阵 #参数说明: matrix_info:指定矩阵中的元素 格式:"a11,a12...a1n;a21,a22...a2n;...;am1,am2...amn" 注意:①aij是第i行第j列处的元素 ②每行/每列的长度必须相等 ③整体是1个str ④','用于分隔同1行的不同元原创 2021-01-09 22:25:25 · 552 阅读 · 0 评论 -
Python 第三方模块 绘图 Seaborn模块2
四.可视化数据集的分布2.hex散点图:sns.jointplot(x=None,y=None,data=None,kind="hex",color=None,height=6,ratio=5,space=.2,dropna=False,xlim=None,ylim=None,marginal_ticks=False,joint_kws=None,marginal_kws=None,hue=None,palette=None,hue_order=None,hue_norm=None,**kwargs)原创 2020-11-28 13:02:23 · 206 阅读 · 0 评论 -
Python 第三方模块 数据分析 Pandas模块 介绍,IO,函数
一.介绍1.功能:Pandas是1个强大的分析结构化数据的工具集,旨在简单/直观地处理关系型/标记型数据,主要用于数据挖掘/分析,也提供数据清洗功能.其基于NumPy开发,可与其它第3方科学计算支持库完美集成,适用于处理以下类型的数据:①与SQL或Excel表格类似的,含异构列的表格数据②有序/无序(非固定频率)的时间序列数据③带行列标签的矩阵数据,包括同构/异构型数据④任意其它形式的观测/统计数据集,数据转入Pandas数据结构时不必事先标记Pandas的速度相对较快,很多底层算法都用Cy原创 2020-10-11 08:12:50 · 547 阅读 · 0 评论 -
Python 第三方模块 绘图 Seaborn模块1
一.介绍1.功能:Seaborn是基于Matplotlib的图形可视化Python包,在Matplotlib的基础上进行了更高级的API封装,使作图更容易.在多数情况下使用Seaborn能作出更有吸引力的图,而使用Matplotlib能作出更有特色/更复杂的图.同时Seaborn能高度兼容NumPy/Pandas的数据结构及SciPy/Statsmodels的统计方法.Seaborn是针对统计绘图的.一般来说,Seaborn能满足数据分析90%的绘图需求,但如果要绘制复杂的自定义图形,还是需要Mat原创 2020-11-21 21:35:25 · 1270 阅读 · 0 评论 -
Python 第三方模块 数据分析 Pandas模块 Series1
三.DataFrame(2维数据)1.简介:提供了比R语言的data.frame更丰富的功能dataframe是带标签的大小可变的2维异构表格,由多个Series构成(在DataFrame中称为Column),但所有Series共用1组标签DataFrame unifies two or more Series into a single data structure.Each Series then represents a named column of the DataFrame, and原创 2020-11-21 21:13:09 · 1241 阅读 · 0 评论 -
Python 第三方模块 绘图 Matplotlib模块 文本描述
文本信息查看:https://matplotlib.org/api/text_api.html#matplotlib.text.Text1.添加标题:matplotlib.pyplot.title("<title>"[,**fontdict=None,loc=None,pad=None]):添加标题 #参数说明:None表示默认值来自全局配置 title:指定标题文本;为str fontdict:指定标题外观;为dict/键值对 #使用键值对时键不为str,原创 2020-07-01 21:39:49 · 421 阅读 · 0 评论