自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 收藏
  • 关注

原创 数据分析-python-基础知识

1、python的数据类型主要有数值,字符串,布尔等2、python的数据结构有列表(list),字典(dictionary),元祖(tuple)。通常数据结构都可以进行增删改查。但这三个各自有一些区别。3、python有变量的概念,变量可以动态赋值4、python在编程过程中常会用到控制流,主要包括if(条件控制),for(计数循环控制),while(条件循环控制)5、python中的...

2019-04-05 23:44:12 221

原创 数据分析-概率与数理统计-贝叶斯定理实例理解

贝叶斯定理主要是用在一些垃圾邮件,顾客判别等业务场景中。通常情况下,一件事情会有客观概率,也就是正确的概率。比如一个城市中黑色的汽车为85%,红色的汽车为15%。这个概率不会随人为因素改变。但是由于人群有色盲的原因,这些色盲在辨别汽车颜色时会存在误差,比如一半会错。因此当你和一个人讨论刚刚过去的车是红色时,可能刚刚过去的车不一定是红色。原因就是这个人可能是色盲,误判了颜色。那这种情况怎么去推测刚...

2019-04-04 00:12:28 423

原创 数据分析-概率统计-直方图业务应用场景

柱形图通常用来描述类别数据,而当类别是数据时,则采用直方图来描述。直方图通常比较理想的状态是对称分布,而实际业务时则会出现如下情况:1、陡壁型,这种情况通常是在外面数据中,起点一般就是10多元,没有小数据。2、偏锋型,这种情况通常出现在薪资、销售数据等数据,因为存在28法则。3、孤岛型,这种可能是存在异常数据,需要具体业务具体分析4、锯齿形,这种可能是数据收集存在问题,导致不稳定5、双...

2019-04-03 23:48:20 1457

原创 数据分析-SQL-细节补充1

1、where语句必须写在from之后;2、distinct必须放在select之后的第一个显示结果前面,不可以放在后面3、count(*),count(1),会将null行也计算在内,但是count(列名)则会刨除掉null。4、count,sum,average,min,max都是聚合函数,在计算时除了count以外,其他的函数都会将null值刨除5、mysql的注释为 :(空两个半角...

2019-04-03 22:05:01 178

原创 数据分析-统计学-切比雪夫定律&箱型图&正太标准化

通常我们在处理数据时会计算数据的平均值,标准差。但是当我们将平均值±标准差的时候会发现有一些数据不在这个范围内。这时我们就会考虑切比雪夫定律。75%的数据位于2个标准差范围内,89%的数据位于3个标准差范围内,96的数据位于5个标准差范围内。实际工作中的应用场景就是对异常值的判断,经过对一组含可疑数据进行平均值,标准方差计算后,可以根据切比雪夫定律来判断这个可疑数据的取舍。对于一组数据的分布...

2019-04-03 00:33:08 1722

原创 数据分析-mysql

企业级的数据通常都是百万级及以上的,而Excel通常操作的数据在一万以内,超过一万就会比较卡。所以这个时候我们需要通过专业的数据库来管理企业的数据。mysql数据库生产、维护数据通常都是由技术部门负责,数据分析师一般是只有查找权限,不具有写入权限,当然在数据表设置的时候需要数据分析师给IT人员一些建议,使得数据库的建设更符合使用条件。mysql在安装的时候会配置GUI操作界面workbench...

2019-04-03 00:19:41 574

原创 数据分析-Excel操作-时间函数

时间本质上就是数字,因此时间函数主要是为了做一些时间长度、周期的统计,主要用在销售等方面。包括:year,month,day,today,now,days,date。days:用来计算两个时间点之间的长度,里面可以嵌套today,now等函数date是year,month,day的反向操作,通常用在表格中日期是分散时候的合并。...

2019-03-29 16:12:21 257

原创 数据分析-Excel操作-数据分析

数据分析函数主要的作用是做一些数学计算统计。涉及的函数包括sum,sumif,rank,stdev,sumproduct,rand,randbetween,subtotal,count,averageint,max,min,quartile,roundrand:随机生成0-1之间的一个小数,在python编程中常常用rand函数生成一系列目标数。randbetween:指定上下界之间的一个随...

2019-03-29 14:29:42 443

原创 数据分析-Excel操作-逻辑运算

普尔值的结果为true, false,这两个值其实可以数字化为1,0。也就是说他们可以做数学运算。逻辑运算通常是指 and ,or。使用逻辑运算,通常可以清洗异常,缺失值,根据自己设定的条件得到目标条件下的结果。is系列函数参考:http://baijiahao.baidu.com/s?id=1600582758858252791&wfr=spider&for=pchttp:/...

2019-03-29 13:01:31 426

原创 数据分析-Excel操作-关联匹配

关联匹配函数通常是对两个表进行一些模型关联,和powerbi的模型通过关键字段建立关系是一样的。lookup&vlookup:lookup是通过对行的匹配找到相应的数作为目标列的查找索引。vlookup,是通过对一个区域的查找,返回指定列的值。该两个函数有很多相似的作用。index:通过指定具体索引,在画好的区域内找到目标数match:找到目标数的索引,只能是单列的区域内查找。通常...

2019-03-29 00:16:12 550

原创 数据分析-EXCEL操作-文本清洗

文本清洗主要是通过对文本数据的查找、替换、增加、减少等操作后通过计算、组合等,以实现对数据的分析目的。查找: 可以通过菜单栏执行,也可以使用left(从字符串的左边开始提取子字符串),right(从字符串的右边开始提取子字符串),mid(从字符串的中间开始提取子字符串),found(找到某个字符的位置)等替换:可以通过菜单栏执行,也可以用replace(直接替换字符串内容)substitude...

2019-03-28 15:25:38 1369

原创 可视化之powerbi

通常情况下,一张表或者图能说明的信息非常少,这个时候需要多张图表一起展示,比较好的方式就是利用bi。企业通常会根据自己的需要采购bi,比如Tabluea等等。考虑到商业化bi一般都有一笔费用,所以一般个人和小公司会使用powerbi,因为目前免费的。powerbi需要用公司邮箱注册,对于没有企业邮箱的个人可以使用钉钉邮箱进行注册,但是通常要几个小时才能收到微软官方的验证邮件。或者利用遨游的百变邮...

2019-03-24 23:11:57 977

原创 数据分析框架

数据分析需要搭建数据分析框架,通过数据分析框架实现数据分析目标。比较常见的数据框架有市场营销模型、产品运营模型、用户行为模型、流量模型等等。在框架搭建前需要建立框架内的指标。关于指标的建立技巧及建议如下:技巧:刚开始制定指标时可以根据采用组合的方式,比如,uv+浏览时长,可以根据浏览时长的值设定兴趣用户和一般用户等梯度,再根据各个梯度的人数占总人数的比重设置兴趣用户比率、一般用户比率等指标。...

2019-03-16 13:52:13 2799

原创 数据分析的七大技巧

技巧1:象限法比较常用的象限法包括四象限法和RFM其中四象限法经常用来作为事务的决策的划分手段。也可以作为运营决策的手段。比如第一象限的客户需要立刻处理,第二象限的客户需要提前有规划地设置营销策略以便转化,第三象限可以根据业务繁忙程度适当降低营销频次,第四象限应该直接舍弃。(具体地营销策略需要在业务中根据实际情况做调整)RFM其实就是根据客户的最近购买时间、购买频次、购买金额所画的立体象...

2019-03-13 16:02:17 412

原创 数据分析思维

数据分析思维数据分析思维通常为结构化、公式化、业务化结构化指数据分析师在做分析时需要有机构化的思维,结构化思维的代表就是麦肯锡的金字塔。在做数据分析时,需要将分析目标层层分解,类似于决策树,最终形成一个个叶子。在分解的过程中可以使用思维导图帮助理清思路。公式化是指数据分析师在结构化思维的基础上,要进一步将结构化的指标数据化。 因为数据分析师最终需要通过分析数据来实现分析的,所以需要将各个叶子...

2019-03-12 00:17:45 164

原创 描述统计的基本思维

** 描述统计的基本思维数据获取后需要对数据进行处理。通常的数据处理包括分组,聚集度分析,离散化分析,峰度偏度分析,数据可视化。1、分组一般分为按照性质行进分组和按照数量进行分组2、聚集度分析包含众数、中位数、平均数。其中平均数数使用频率最高,但是当数据存在较大的偏移时,平均数并不能很好的反映数据的真实情...

2019-03-10 22:21:39 284

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除