数据类型:连续型、离散型、符号型、文本型
数据分析就是从原始数据中提取有效信息
信息是对数据更高层次的抽象,是数据处理之后的结论。
数据分析的目的:对研究的问题或系统建立数学或者逻辑模型。
数据分析流程详解
- 问题定义
- 数据抽取
- 数据清洗
- 数据转换
- 数据探索
- 数据模型
- 模型评估
- 解决方案部署
问题定义
数据分析总是始于要解决的问题,这个问题要事先定义。
如何预测豆瓣用户对不同电影的评分
如何给用户安排周边最近的又能通路的拼车
北京地区什么菜系最受欢迎。
问题定义的准确性能够保证分析过程是朝着目标结果前进。
数据抽取
对原始数据的提取,要以创建预测模型为目的
采集的样本数据尽可能真是反映实际情况
网页爬虫(或者调用API)—用户信息提取-----随机抽样
数据清洗:不同的抽取方式会得到不同的数据,需要对不同来源的数据进行归纳统一和去重。
数据转换
数据探索:从图形或者统计数字中搜寻数据,以发现其中的模式与联系
- 总结数据
- 为数据分组
- 探索不同属性之间的关系
- 识别模式与趋势
- 建立回归或者分类模型
预测模型:基于相似用户的评分预测
相似用户评分的加权平均值来预测这个用户的评分
模型评估:验证用先前采集的数据创建的模型是否有效
两种主要的评估方式:
在线平台的评估
在历史数据集上的评估
解决方案的部署:数据分析师撰写报告描述分析结果,提交报告至管理层,便于他们做出决策
数据分析师的日常工作: