学习记录 第01章 数据能做什么

一、优秀数据分析师的三个特点

1.好奇,是数据分析师的动力

  1. 从数据中发现问题
  2. 解决问题

2.谨慎,数据分析师成熟的标致

  1. 没有完美的数据,也没有完美的方法
  2. 使用多维数据比较印证
    从多个角度关注问题,不能简单地只关注自变量,因变量,要关注中介、调节变量

3.责任,是数据分析师存在的意义

  1. 为社会解决问题

二、避免对数据可视化的误解

1. 我要找到别人都没发现而我通过数据可视化发现的秘密

数据的准确性难以保证,发现的数据只是总体的一部分,不能简单地用部分替代整体

  • 图标的常见用途
    图源网易云课堂数据分析师课件

2.我要做到一鸣惊人、不明觉厉的图表/哪个软件可以做这样的图?

  • 不明觉厉大数据:黑底 彩线 屏幕风 D3
  • 基础图表美化版:主体化 扁平化 信息图表
  • 似乎很美观点图: 精炼观点 复杂图像
  • 容易忽略地图: 可替代图表 效果拔群

三、机器学习是什么

1.机器学习是什么

(1)定义

环境-数据输入-算法-数据输出-目标
机器学习是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的方法。

(2)要素

  • 目标
  • 模型
  • 算法

(3)分类

按方式划分

  • 监督学习
  • 非监督学习
  • 半监督学习
  • 强化学习
    按问题类型划分
  • 分类
  • 回归:数值类型
  • 聚类

2.机器学习的形式

(1)常用工具

  • python
    • 数据科学包:pandas
    • 机器学习包:scikit-learn tensorflow
  • R
  • matlab
    图源网易云课堂数据分析师课件

(2)数据预处理

从数据到算法

  1. 缺失值处理
  • 舍弃严重缺失的数据
  • 填充缺失值(0,平均数,中位数,众数,随机数等)
  • 建立模型预测缺失值
  • 采用对数据缺失容忍性好的算法
  1. 标准化
  • min-max
  • z-score
  • decimal scaling

(3)特征工程

从数据到算法

  1. 特征选择:直接减少维数的方法进行降维
  • 过滤式:先对数据人为进行特征选择,再进行训练
  • 包裹式:直接把不同特征组合作为训练集,根据训练结果的好坏来评价特征选择的好坏
  • 嵌入式:将特征选择的过程融于算法,利用算法选择特征
  1. 特征生成: 在已有特征中提取主要信息,生成新特征的方式进行降维
  • 主成分分析PCA
  • 线性判别分析LDA
  • 自编码器神经网络

(4)模型选择

从模型原型到算法

(5)训练

从算法到模型
利用算法从数据中学习规律,将模型原型转化为有规律的模型,进而实现目标的过程

(6)评价

从算法到模型
评价指标:根据实际情况分析

  • 分类:精确度
  • 回归:均方差
    评价方式
  • 留出:留出一部分训练数据用作检验
  • 交叉验证:数据分为k组,每次用k-1组训练,1组检验;共进行k次

四、用数据改变未来

用什么数据 解决 什么问题
data how what

  1. 数据研究套路化
  • 数据预处理:数据清洗、数据整合
  • 分析算法构建:基本特征、统计分析、数学建模、功能封装
  • 结论及表达:内容逻辑表达、图表、地理空间可视化、交互
  1. 套路方法之外的逻辑
  • 提出问题
  • 数据
  • 数据研究:上述套路
    数据工作流不进入数据工作流的数据没有任何价值
  • 问题结论:
  • 解决方案
  1. 用数据改变未来的核心
    找到一个正确且落地的数据工作流,并不断迭代,完善。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值