数据分析的流程如下:
数据收集->数据存取->数据清洗->数据分析->数据可视化
数据收集:
通过公司内部网站,第三方数据,网络爬取
例如:赶集网,国家统计局等
数据存取:
1.半结构化的数据格式:文本和二进制格式
文本格式:Json,XML,CSV等
二进制格式:Excel,Pickle,NoSQL数据库(MongoDB)等
2.结构化数据格式:关系型数据库(MySQL等)
数据清洗:
“脏数据”是指不完整的,错误的,重复的数据,数据清洗,就是把这些脏数据给清洗掉
数据分析:
数据分析就是对数据进行统计分析,分为描述性分析和推论性分析
数据分析目的:
1.根据信息做决定
2.把不确定数据量化,用精确数据表达掌握不确定的数据
3.评估决策结果
数据可视化:
数据分析结果的展示
用到的技术:
1.matplotlib
2.seaborn
3.Pandas数据自动可视化方法
4.BaseMap可视化地理数据
5.PyeCharts