python数据分析流程

一般可以安装“数据获取-->数据存储与提取-->数据预处理-->数据建模与分析-->数据可视化”这样的步骤来实施一个数据分析项目。该流程需要掌握的知识点如下:

1)数据获取:

1.1.了解公开数据集的渠道

1.2.用爬虫爬取网站数据


2)数据存储、提前:

2.1.SQL实现数据存储、查询、提前

2.2.数据库的分组、聚合

2.3.SQL建立多表联系


3)数据预处理:

3.1.用python进行数据预处理


4)数据建模与分析:

4.1.统计学基础知识

4.2.统计量的描述与展示

4.3.假设检验

4.4.常用的回归分析

4.5.基本的分类、聚类算法

4.6.提升分析进度--特征工程


5)数据可视化:

5.1.用python进行可视化分析

5.2.分析结果展示、数据报告撰写


一、数据获取:公开数据、python爬虫

1.获取外部的公开数据:
UCI:加州大学欧文分校开放的经典数据集,被很多数据挖掘实验室采用。
http://archive.ics.uci.edu/ml/datasets.html

国家数据:数据来源于中国国家统计局,包含了我国经济民生等多个方面的数据。
http://data.stats.gov.cn/

CEIC:超过128个国家的经济数据,能精确查找GDP、进出口零售,销售等深度数据。
http://www.ceicdata.com/zh-hans

中国统计信息网:国家统计局官方网站,汇集了国民经济和社会发展统计信息。
http://www.tjcn.org/

优易数据:由国家信息中心发起,国内领先的数据交易平台,很多免费数据。
http://www.youedata.com/

2.python爬虫:

1)了解python的基础知识:元素(列表、字典、元组等)、变量、循环、函数...

2)python库(BeautifulSoup、requests、scrapy)

3)高级技巧:正则表达式、使用cookie信息、模拟用户登陆、抓包分析、搭建代理池


二、数据储存:SQL

1.提取特定情况下的数据

2.数据库的删、增、查、改

3.数据的分组聚合、如何建立多个表之间的联系


三、数据预处理:python(pandas)

1.选择:数据访问(标签、特定值、布尔索引等)

2.缺失值处理:对缺失数据行进行删除或填充

3.重复值处理:重复值的判断与删除

4.异常值处理:消除不必要的空格和极端、异常数据

5.相关操作:描述性统计、Apply、直方图等

6.合并:符合各种逻辑关系的合并操作

7.分组:数据划分、分别执行函数、数据重组

8.Reshaping:快速生成数据透视表


四、概率论及统计学知识:

1.基本统计量:均值、中位数、众数、百分位数、极值等;

2.其他描述性统计:偏度、方差、标准差、显著性等;

3.其他统计知识:总体和样本、参数和统计量、ErrarBar;

4.概率分布与假设检验:各种分布、假设检验流程;

5.其他概率论知识:条件概率、贝叶斯等;


五、python数据分析:

1.回归分析:线性回归、逻辑回归

2.基本的分类算法:决策树、随机森林

3.基本的聚类算法:k-means

4.特征工程基础:如何用特征选择优化模型

5.调参方法:如何调节参数优化模型

6.python数据分析包:scipy、numpy、sctiti-learn等

在数据分析这个阶段,重点了解回归分析的方法,利用描述性的统计分析和回归分析。更高级的算法:分类、聚类。一个好的分析师,应该也是一个初级的数据挖掘工程师。

六、系统实战与数据思维
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值