一、优秀数据分析师的三个特点
1.好奇,是数据分析师的动力
- 从数据中发现问题
- 解决问题
2.谨慎,数据分析师成熟的标致
- 没有完美的数据,也没有完美的方法
- 使用多维数据比较印证
从多个角度关注问题,不能简单地只关注自变量,因变量,要关注中介、调节变量
3.责任,是数据分析师存在的意义
- 为社会解决问题
二、避免对数据可视化的误解
1. 我要找到别人都没发现而我通过数据可视化发现的秘密
数据的准确性难以保证,发现的数据只是总体的一部分,不能简单地用部分替代整体
- 图标的常见用途
2.我要做到一鸣惊人、不明觉厉的图表/哪个软件可以做这样的图?
- 不明觉厉大数据:黑底 彩线 屏幕风 D3
- 基础图表美化版:主体化 扁平化 信息图表
- 似乎很美观点图: 精炼观点 复杂图像
- 容易忽略地图: 可替代图表 效果拔群
三、机器学习是什么
1.机器学习是什么
(1)定义
环境-数据输入-算法-数据输出-目标
机器学习是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的方法。
(2)要素
- 目标
- 模型
- 算法
(3)分类
按方式划分
- 监督学习
- 非监督学习
- 半监督学习
- 强化学习
按问题类型划分 - 分类
- 回归:数值类型
- 聚类
2.机器学习的形式
(1)常用工具
- python
- 数据科学包:pandas
- 机器学习包:scikit-learn tensorflow
- R
- matlab
(2)数据预处理
从数据到算法
- 缺失值处理
- 舍弃严重缺失的数据
- 填充缺失值(0,平均数,中位数,众数,随机数等)
- 建立模型预测缺失值
- 采用对数据缺失容忍性好的算法
- 标准化
- min-max
- z-score
- decimal scaling
(3)特征工程
从数据到算法
- 特征选择:直接减少维数的方法进行降维
- 过滤式:先对数据人为进行特征选择,再进行训练
- 包裹式:直接把不同特征组合作为训练集,根据训练结果的好坏来评价特征选择的好坏
- 嵌入式:将特征选择的过程融于算法,利用算法选择特征
- 特征生成: 在已有特征中提取主要信息,生成新特征的方式进行降维
- 主成分分析PCA
- 线性判别分析LDA
- 自编码器神经网络
(4)模型选择
从模型原型到算法
(5)训练
从算法到模型
利用算法从数据中学习规律,将模型原型转化为有规律的模型,进而实现目标的过程
(6)评价
从算法到模型
评价指标:根据实际情况分析
- 分类:精确度
- 回归:均方差
评价方式 - 留出:留出一部分训练数据用作检验
- 交叉验证:数据分为k组,每次用k-1组训练,1组检验;共进行k次
四、用数据改变未来
用什么数据 解决 什么问题
data how what
- 数据研究套路化
- 数据预处理:数据清洗、数据整合
- 分析算法构建:基本特征、统计分析、数学建模、功能封装
- 结论及表达:内容逻辑表达、图表、地理空间可视化、交互
- 套路方法之外的逻辑
- 提出问题
- 数据
- 数据研究:上述套路
数据工作流:不进入数据工作流的数据没有任何价值 - 问题结论:
- 解决方案
- 用数据改变未来的核心:
找到一个正确且落地的数据工作流,并不断迭代,完善。