统计学学习
自由的行走
向着有光的地方出发!!!
展开
-
pandas dataframe 一列数据变多列
一、问题描述希望把dataframe 中的一列数据分割为多列追加到dataframes上分割前示意图分割后效果图二、代码实现#提取出分割列的名称,或者可以自己定义分割后的列名称feature_name = data.columns[-1].split(",")#是用expand属性进行分割data[feature_name] = data[data.columns[-1]].str.split(',', expand=True)#目标列名称feature_nam.原创 2021-09-03 19:54:50 · 2140 阅读 · 0 评论 -
时间预测实践-汽车销量的分析预测
背景:03年到19年第一季度分季度的数据,13年之前只有传统汽车的销量,13年之后是传统汽车+新能源汽车的销量,需要预测未来三期传统汽车的销量数据链接:具体的实现过程:#loda datadata = pd.read_excel("/Users/jackwang/downloads/时序数据.xlsx")data.head()数据格式转换data = data...原创 2020-03-08 14:19:15 · 2196 阅读 · 1 评论 -
统计学习之时间序列分析
一、什么是时间序列 1、定义 按照时间的顺序把一个随机事件变化发展的过程记录下来 就构成了一个时间序列。 对时间序列进行观察、研究,找寻它变化发展的规律,预 测它将来的走势就是时间序列分析。 2、栗子7000年前,古埃及人把尼罗河涨落的情况逐天记录下来, 就构成所谓的时间序列。对这个时间序列长期的观察使他们发现尼罗河的涨落非常 有规律。当天狼星第一次和太阳同时升起的...原创 2020-03-01 17:29:29 · 2724 阅读 · 0 评论 -
统计学习-方差分析之单因素方差分析
1、数据背景有A、B、C、D四个地区,不同地区的销售量不一样,现抽取了不同时间段内每个地区的销售量,试使用方差分析的方法解决:1、每个地区间的销售量是否相同?2、不同月份的销售量是否相同?3、不同时间与地区的销售量是否相同?2、术语介绍学习方差分析,我们首先需要知道它所说的专业性术语,如:因素、水平、协方差、因变量,自变量等。单纯看定义可能会有点迷,下面我们通过一个栗子来看...转载 2020-03-01 16:38:04 · 7703 阅读 · 1 评论 -
统计学习之方差分析
零、案例说明为了检验某小学六年级教学质量的差异,从该小学六年级的三个班级中分别选取一定数量的学生,分成三个组(三个样本),对他们期末考试的平均分进行统计分析。如果实验显示每个每组的均值相同,即三个班期末考试的成绩差异不大,则表明该小学六年级不同班级的教学质量没有差异,and vice versa。每个样本组的平均分分别为 , ,方差分别为 ,,给出零假设 :==备择假设 :样...原创 2020-02-23 15:54:15 · 2847 阅读 · 0 评论 -
汽车销售数据相关性分析
数据:https://pan.baidu.com/s/1VlTy4nfvgXdDzgimVguZMg数据展示:券代码 日期 传统汽车销量 国内生产总值当季值(亿元)x1 汽油价格(元/吨)x2 人民币贷款基准利率%x3 汽车总产量(万辆)x4 公路里程数 汽车整车股票指数 消费者信心指数 65 2003年Q1 102....原创 2020-02-16 21:48:54 · 1661 阅读 · 0 评论 -
统计学习之回归分析
目录一、什么是回归分析二、回归分析有哪些?三、回归分析的应用四、回归分析常用工具(Python代码实现)五、如何选择合适的回归模型参考文献:一、什么是回归分析百度百科:回归分析是一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器)之间的关系。这种技术通常用于预测分析,时间序列模型以及发现变量之间的因果关系。例如,司机的鲁莽驾驶与道路交通事故数量之间的关...原创 2020-02-09 23:12:41 · 1323 阅读 · 0 评论 -
人体温度、心率和性别数据分析
任务描述Q1、人体体温的总体均值是否为98.6华氏度?Q2、人体的温度是否服从正态分布?Q3、人体体温中存在的异常数据是哪些?Q4、男女体温是否存在明显差异?Q5、体温与心率间的相关性(强?弱?中等?)数据链接:https://pan.baidu.com/s/1t4SKF6U2yyjT365FaE692A*笔者使用的是jupyter 进行的数据分析#导入相关的库impo...原创 2020-01-19 22:38:44 · 2744 阅读 · 1 评论 -
回归分析参数介绍
SS是平方和回归误差平方和(SSE)残差平方和(SSR)及总体平方和(SST)df(degree of freedom)为自由度。MS为SS与df的比值,与SS对应,SS是平方和,MS是均方,是指单位自由度的平方和。coeft表明系数的,因为该因素t检验的P值是0.000,所以表明有很强的正效应,认为所检验的变量对模型是有显著影响的。F是F test F 检验,联合显著检验...原创 2020-01-10 18:07:20 · 2915 阅读 · 0 评论 -
参数估计 python实践
1、背景想要探究movielens 1M评分数据的评分分布情况是否符合某种分布,做如下假设2、理论推导3、算法实现3.1 数据准备工作#导入所需要的库import pandas as pdimport numpy as npimport mathimport matplotlib.pyplot as plt#数据的准备工作with open("r...原创 2019-12-29 14:43:06 · 328 阅读 · 0 评论 -
统计学习系列之参数估计
参数估计1、什么是参数估计简单来说是:参数估计是指使用样本统计量估计总体的参数的【百度百科的解释如下】参数估计(parameter estimation),统计推断的一种。根据从总体中抽取的随机样本来估计总体分布中未知参数的过程。从估计形式看,区分为点估计与区间估计:从构造估计量的方法讲,有矩法估计、最小二乘估计、似然估计、贝叶斯估计等。要处理两个问题:(1)求出未知参数的估计量;(2)在...原创 2019-12-22 11:48:10 · 4399 阅读 · 0 评论 -
统计学习之假设检验
1、什么是假设检验假设检验(hypothesis testing),又称统计假设检验,是用来判断样本与样本、样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法。显著性检验是假设检验中最常用的一种方法,也是一种最基本的统计推断形式,其基本原理是先对总体的特征做出某种假设,然后通过抽样研究的统计推理,对此假设应该被拒绝还是接受做出推断。2、假设检验的相关概念2.1原假设和备择假...原创 2019-12-22 14:49:24 · 2616 阅读 · 0 评论 -
抽样分布实践(python版)
任务描述: 1、验证数据是否服从正太分布 2、验证数据是否服从T分布 3、验证数据是否服从卡方分布背景知识: 1、什么是假设检验 假设检验(hypothesis testing),又称统计假设检验,是用来判断样本与样本、样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法。显著性检验是假设检验中最常用的一种方法,也是一种最基本的...原创 2019-12-21 18:44:07 · 599 阅读 · 0 评论 -
统计学习-抽样分布
常用统计量:样本均值样本均值(sample mean)又叫样本均数。即为样本的均值。均值是表示一组数据集中趋势的量数,是指在一组数据中所有数据之和再除以这组数据的个数。它是反映数据集中趋势的一项指标。样本方差先求出总体各单位变量值与其算术平均数的离差的平方,然后再对此变量取平均数,就叫做样本方差。样本方差用来表示一列数的变异程度。样本均值又叫样本均数。即为样本的均值。样本变异系...原创 2019-12-08 22:18:21 · 3706 阅读 · 0 评论 -
统计学习第五弹--python实践概率分布
正态分布(Normal distribution)正态分布(Normal distribution),又名高斯分布(Gaussian distribution),正态曲线呈钟型,两头低,中间高,左右对称,中央部位的概率密度最大。越偏离均值,其概率密度减小。若随机变量X服从一个数学期望为μ、方差为σ2的正态分布,记为N(μ,σ2)。其概率密度函数为正态分布的期望值μ决定了其位置,其标准差σ决定...原创 2019-12-08 21:31:37 · 340 阅读 · 0 评论 -
统计学习第四弹--随机变量的概率分布
关于随机变量概率分布的重要概念:概率:对事件的发生的可能性大小的度量值随机变量:事先不能确定其取值的变量离散型随机变量:只能取有限个值的随机变量连续型随机变量:可以取一个或多个区间中任何值的随机变量期望值:随机变量的平均取值,求法是取值乘以取值概率,是一种加权的平均数随机变量的方差:随机变量的每一个取值与期望值的离差平方的期望值参数:对总体特征的某个概括...原创 2019-11-24 19:53:22 · 2223 阅读 · 0 评论 -
统计学习第二弹--描述性统计(理论公式)
思维导图(目录结构):集中趋势众数:一组数据中出现频数最多的数值,常用用Mo表示 #求众数def Max_number(nums): res = {} for num in nums: res.setdefault(num,0) res[num] += 1 res = sorted(res.items(),key ...原创 2019-11-07 13:09:46 · 1970 阅读 · 0 评论 -
统计学基础-数据的图表展示
理论基础:什么是统计学?统计学分为描述统计和推理统计统计学研究什么?统计学没有固定的研究对象,统计学研究的是来自各个领域的数据,靠解决其他领域内的工作而生存,我们并不能因此就看轻统计学,就好像计算机现在渗透在各行各业、我们生活中的方方面面,计算机也是为了应用而生的。在很多领域,如果没有统计学,虽然不会死亡但是一定会变的很弱。统计学在各个学科领域的独特地位和作用表明了统计作为一门独立...原创 2019-10-29 21:07:56 · 769 阅读 · 0 评论