自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 问题、思路与假设构建之问题:为什么

原因分为两种,数据因和实际因,数据因即数据表象层面上某变量某取值带来的结果指标上的差异,这是数据分析中需要做的基本功,在现在各大互联网企业都拥有成熟的数据可视化系统之后,可以通过各维度、指标的拆解观察发现变化的数据起源,所以追寻数据因倒不是难事,但追寻数据因并非是归因分析的终点,作为一个合格的数据分析师是要提供合理的实际因。分析问题实际上是一体两面的,一个问题会有业务问题(具体问题)和抽象问题两个形态,业务问题是表象,抽象问题是内在,下面就以抽象问题为主线,介绍具体与抽象二问题的关系。

2023-05-20 20:30:48 97

原创 数据思维-序

数据是对客观世界的一种反映,它和我们眼见之物和所听之物并无本质上的不同,只不过其拥有更加简洁与直观的形式,正是具有这样的性质,数据可以更加直观地反映客观世界。数据的形式有很多,依据规范的程度不同,可划分为结构化的数据、半结构化的数据和非结构化的数据,所谓的结构化的数据是以记录的形式存在的。在现代,很多人十分重视结构化数据,都致力于将非结构化与半结构化的数据转化成结构化的数据,如自然语言处理等,然而无论是结构化的数据,还是非结构化的数据都有其存在的道理,它们都是对客观世界的反映,只要善加利用,我们都可从其中

2021-01-07 21:50:27 102

原创 验证性分析---相关假设检验

验证性分析—相关假设检验前文中我们谈到了不同变量层次的相关计算,但那仅仅局限于样本,如果想对总体进行相关推导,就要进行相关假设检验。针对不同的变量层次变量,有四种相关假设检验方法:定类-定类 定类-定序卡方检验定序-定序Gamma检验定类-定距方差分析(F检验)定距-定距回归检验1.卡方检验卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,如果卡方值越大,二者偏差程度越大;反之,二者偏差越小

2020-06-07 10:17:05 2126

原创 验证性分析---相关

验证性分析—相关所谓相关,就是一个变项的值与另一个变项的值有连带性。相关的特征:相关程度有强弱之分:介于0和1之间的数值如果愈大,就表示相关的程度越强。相关的两个变量,不一定有因果之分,可能是共同变化。科学的研究比较重视因果关系,会假定某变项是因,另一变项是果,前者是自变项,后者是依变项。如果x影响y,y不影响x,那么其之间就是不对称关系,反之亦然;如果x影响y,y同样影响x,其就是对称关系。衡量不同层次变量时相关程度的方法:python实现#相关系数cofe = data.corr(

2020-05-30 20:35:02 408

原创 验证性分析--假设检验(一)均值与成数检测

验证信息分析–假设检验(一)均值与成数检测假设(hypothesis),又称统计假设,是对总体参数的具体数值所作的陈述。假设检验(hypothesis test) 是先对总体参数提出某种假设,然后利用样本信息判断假设是否成立的过程。假设检验的特点就是采用逻辑上的反证法和依据统计上 的小概率原理。小概率事件在单独一次的试验中基本上不会发生,可以不予考虑。在假设检验中,我们做出判断时所依据的逻辑是:如果在原假设正确的前提下,检验统计量的样本观测值的出现属于小概率事件,那么可以认为原假设不可信,从而否定它,转

2020-05-19 12:02:17 2076

原创 验证性分析---参数估计

参数估计参数估计分为点估计和区间估计。点估计点估计是依据样本估计总体分布中所含的未知参数或未知参数的函数。简单的来说,指直接以样本指标来估计总体指标,也叫定值估计。通常它们是总体的某个特征值,如数学期望、方差和相关系数等。点估计问题就是要构造一个只依赖于样本的量,作为未知参数或未知参数的函数的估计值。构造点估计常用的方法是:①矩估计法,用样本矩估计总体矩②最大似然估计法。利用样本分布密度构造似然函数来求出参数的最大似然估计。③最小二乘法。主要用于线性统计模型中的参数估计问题。④贝叶斯估计法。

2020-05-18 22:02:25 458

原创 抽样分布、大数定律与中心极限定理

抽样分布、大数定律与中心极限定理抽样分布抽样分布即为统计量的分布 。抽样分布与概率分布比较相同点:都是概率分布不同点:分类角度不同,常见的概率分布是从分布形态角度出发进行分类的,而抽样分布则是从参数角度进行分类抽样分布一般表现为分布族,随着决定参数的不同,抽样分布的形态也会随之变化Z分布背景:样本均值推断总体均值是最重要的推断统计学内容。样本均值的抽样分布是样本均值推...

2020-04-22 09:30:49 2073

原创 验证性分析---概率分布

概率分布概率分布为随机变量可能的取值及其对应的概率。概率分布分为两类,一类为离散型随机变量的分布,一类为连续型随机变量的分布。数学期望代表随机变量的集中趋势,方差代表随机变量的离散趋势。离散型随机变量分布两点分布两点分布又称伯努利分布。伯努利分布指的是对于随机变量X有, 参数为p(0<p<1),如果它分别以概率p和1-p取1和0为值。期望为E(X)= p方差为D...

2020-04-21 18:22:04 506

原创 验证性分析--描述性分析

描述性分析描述分析本质是对数据的特征进行概括,一般会表现在如下方面:1.集中趋势2.离散趋势3.分布概括的方式有数字和图表,不过在此部分我们先讲述数字,图表部分在后续的数据可视化部分说明。变量层次变量层次一般分为三类。定类层次该类变量的取值只有类别属性之分,无大小、程度之分。定序层次该变量的取值除了有类别属性之分,还有等级次序之分。定距层次该变量的取值除了有类别属性和次序...

2020-04-19 09:58:25 1388

原创 如何提出一个合理的假设

如何提出一个合理的假设假设模型有两种模式:1.差异式差异式仅说明现象之间存在关系,如A不同则B不同2.函数式函数式不仅说明现象之间存在的关系,还阐释变化的方向,如A高则B高A高则B低操作化定义当我们提出假设之后,就是要将其量化,进行操作化的定义。操作化定义即为用一串可以观察、可以测量的指标去模拟你提出的概念。简而言之,其为对抽象概念的间接测量,所以不唯一,操作化定义越接近概...

2020-04-14 09:40:38 1437

原创 统计模型方法-验证性分析总纲

统计模型方法-验证性分析总纲在前文说道:统计模型方法主要分为验证性分析和探索性分析。首先来说验证性分析,验证性分析主要是传统统计学的内容。所谓验证,就是要根据研究的问题提出假设,再用统计的方法进行判断提出的假设是否正确。验证性分析又可按照是否进行抽样而分为描述性分析(探索性分析也有该部分内容)和推断性分析。总而言之,研究总体的分布与各参数是否与假设相符就是验证性分析的内容。所以,根据以上...

2020-04-12 21:11:04 1094

原创 数据分析总纲

数据分析总纲一、定义数据分析,即从大量、无序的数据当中获取有用的信息进而形成相应策略的方法与手段。二、数据分析的三大原则1.在数据分析之前,必然要对所研究的事物做详尽的调查,只有全面的了解之后,你给出的策略才会更有意义。2.数据分析的方法追求适用,而不是复杂度。3.在不违反前两条的情况下,数据分析要追求创新性。三、数据分析流程在我看来数据分析主要分为五个大部分。数据分析理论基础—...

2020-04-02 09:27:24 139

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除