读书笔记之谁说菜鸟不会数据分析 (1)

第一章 :数据分析是什么

  1. 数据分析:用适当的统计分析方法对收集来的大量数据进行分析。总结研究对象内在规律。数据分析能够帮助管理者进行判断和决策,以便采取适当策略和行动。
  2. 数据分析作用:现状分析,原因分析,预测分析。
  3. 数据分析六部曲:明确 分析目的和思路,数据收集,数据处理,数据分析,数据展现,报告撰写。
    数据分析过程:
    明确分析目的&内容
    数据收集(数据库;互联网;公开出版物;市场调查)
    数据处理(清洗;转化;提取;计算)(有效性;可分析性;一致性)
    数据分析(excel;spss)
    数据展现(表格;图形)
    报告撰写(明确的结论&建议&解决方案)
  4. 数据挖掘侧重解决四类数据分析 问题:分类,聚类,关联和预测,重点在与寻找模式与规律。
  5. 绝对数:反映客观现象总体在 一定时间、地点下的总规模、总水平的综合性指标,如gdp,总人口。
  6. 相对数:两个有联系指标对比计算而得到的数值,用以反映客观现象之间数量联系程度的综合指标。(频数是绝对数,频率,比例和比率是相对数)
  7. 同比(历史同时期比较:2012.4/2013.4)&环比(与之前相比:2013.4/2013.5)
  8. 字段:事物或现象的某种特征,如姓名、分数,统计学中称为变量。
    记录:具体表现,如王小明、男、89,也成为数据/变量值。

2. 确定分析思路

数据分析方法论:主要用来指导数据分析师进行一次完整的数据分析,更多的是指数据分析思路。从宏观角度指导如何进行数据分析。

数据分析法:指具体的分析方法。
常见的数据分析方法论:

  • PEST分析法:用于对宏观环境的分析。宏观环境指影响一切行业和企业的各种宏观力量。包括政治(political)、经济(economic)、技术(technological)、社会 (social)。

主要用于行业分析。

  • 5W2H分析法:是以五个W开头的英语单词和两个H开头的英语单词进行提问,从回答中发现解决问题的线索,即何因(why)、何事(what)、何时(when)、何地 (where)、如何做(how)、何价(how much)。可以用于分析用户购买行为。

主要用于用户行为分析、业务问题专题分析。

  • 逻辑树分析法:将问题的所有子问题分层罗列,从最高层开始,并逐步向下扩展。使用必须遵循要素化,框架化,关联化。

主要用于业务问题专题分析。

  • 4P营销理论:营销组合可以概括为:产品(product),价格(price),渠道(place),促销(promotion)。

    用于用户行为研究分析。
    主要用于公司整体经营情况分析。

  • 用户行为理论:用户使用行为是指用户为获取、使用物品或服务所采取的各种行动,用户对产品首先需要有一个认知、熟悉的过程,然后试用,再决定是否继续消费使用,最后成为忠诚用户。

    网站分析有一套成熟的分析指标:IP、PV、页面停留时间、跳出率、回访率、新访问者、回访次数、回访相隔天数、流失率、关键字搜索、转化率、登录率。

结合起来可以得出用户的网站行为:网站访问、网站浏览、站内搜索、用户注册、用户登录、用户订购、用户粘性、用户流失。

就是用于用户行为研究分析。

3.数据准备

  1. 导入数据:导入文本数据,导入网页数据

4.数据处理

1.处理重复值:
函数法:countif
高级筛选法
条件格式法
数据透视表法

2.删除重复数据
通过菜单操作删除
通过排序删除重复项
通过筛选删除重复项

4.2缺失值处理

全选所有空值:开始+编辑+空值定位
缺失值处理:
1.用样本统计量值代替
2.模型统计计算出值代替
3.删除
查找替换

检查数据逻辑错误
利用if函数检查错误
利用条件格式标记错误

4.3 数据加工

数据抽取
1.字段分列
2.函数法left.rjght
3.字段合并concatenate
4.字段匹配

4.3.2 数据计算

1.函数计算

4.3.3 数据分组

vlookup 函数

4.3.4 数据转换

数据表的行列转换

4.5 数据抽样

RAND函数

阅读更多
想对作者说点什么?

博主推荐

换一批

没有更多推荐了,返回首页