数据分析基本流程
-
获取数据
-
公开数据库
-
国家统计数据
-
人类基因数据
-
机器学习经典数据集(UIC)
-
疫情数据
-
地理数据
-
全球经济数据(CEIC)
-
金融数据
-
github共享数据
-
。。。
-
-
可爬取数据
-
财经数据
-
社交平台数据
-
招聘数据
-
电商数据
-
影音数据
-
百度指数
-
爱奇艺指数
-
-
需购买数据
-
商业数据
-
专业数据
-
-
-
认识数据
-
数据探索
-
数据质量
-
异常
-
缺失值
-
异常值
-
不一致值
-
特殊符号
-
-
数据预处理
-
清洗,删除处理无关/缺失/异常数据
-
集成,合并多个数据源
-
变换,规范化、离散化、数字化
-
归约,降低数据维度(聚类,主成分)
-
-
-
-
-
分析什么
-
数据特征
-
描述统计量
-
均值、中位数、众数、标准差、极差、变异系数、分位数
-
-
异常值检测
-
箱线图
-
-
数据分布
-
频率直方图、饼图、条形图
-
概率分布
-
二项分布
-
泊松分布
-
均匀分布
-
正态分布
-
-
-
相关性分析
-
相关系数、协方差矩阵、(条件)散点图、矩阵散点图、并列箱线图、复式条形图
-
-
对比分析
-
-
-
如何分析
-
数据挖掘建模-统计推断
-
参数估计&假设检验
-
判别分析
-
K-近邻、贝叶斯、(卷积)神经网络、逻辑回归、支持向量机、决策树、遗传算法、深度学习
-
-
回归分析
-
一元(多元)线性回归、非线性回归、Logistic回归、岭回归、逐步回归、加权回归
-
-
聚类分析
-
系统聚类、K-means、DBSCAN、STING、GMM、SOM
-
-
关联分析
-
Apriori、FP-tree
-
-
时间序列
-
周期因子、回归(ARMA/ARIMA)、序列分解、转图像/网络
-
-
-
-
工具选取
-
Excel(数据筛选)
-
数据透视、处理数据量较小、专业性稍差
-
-
MATLAB
-
矩阵运算、库函数丰富、需要编程基础
-
Simulink(仿真模块)
-
-
SPSS
-
简单易用(经济分析、社会市场数据分析)
-
商业软件
-
-
SAS
-
经济数据、时间序列、医学数据等
-
商业软件、入门困难(适合专业人士)
-
-
Python(了解算法模块及其源码)
-
数据分析库、可视化源代码丰富、可处理大数据、效率偏低、需要编程基础
-
-
R语言
-
兼容性强、各种分析包一应俱全、可视化开源免费、需要较多的编程基础
-
-
绘图软件
-
Origin
-
Power BI(网站)
-
-
翻译网页
-
CNKI翻译助手(单词)
-
deepl(句子)
-
-
文本编辑
-
overleaf
-
-
文献引用管理
-
结果解读