特征工程–机器学习之前的准备
课程目标
- 机器学习的简单理解
- 机器学习中的基础概念
- 机器学习模型雪莲工作原理
- 机器学习执行流程
- 数据处理对机器学习的重要性
- 特征工程
- 一个机器学习项目的数据处理流程
机器学习的简单理解
- 机器学习:选择一种学习算法,从数据中学习并建立成模型来 对新的数据进行预测的计算机科学
- 机器学习适用于:
- 不存在已知算法解决方案的复杂问题
- 需要大量手动调整或者规则列表超长的问题
- 可以适应环境波动的系统
- 机器学习就是要用数据和算法训练有效的模型,再用模型去预 测新的数据
机器学习中的基础概念
- 提供给算法的包含所需解决方案的训练数据,称为标签
- 属性加上其值 就是特征
- 通过给定的特征来预测一个目标数值,叫回归任务
- 用于训练模型的数据叫训练集
- 用于测试模型精度的数据叫测试集
- 每一条数据叫一个样本(x),样本对应的结果叫标签(y)
- 模型在训练数据上表现良好,泛化不好叫过度拟合,反之欠拟合
- 模型训练就是通过训练数据找到算法最合适的参数
机器学习模型训练工作原理
通过特征找到算法
机器学习执行流程
数据处理对于机器学习的重要性
- 机器学习的核心问题:算法好坏和数据好坏
- 复杂问题,数据比算法更重要
- 数据处理主要解决的问题:
- 数据量不足
- 训练数据不具备代表性
- 质量差的数据
- 特征筛选
特征工程
-
机器学习的关键是 提取出一组好的用来训练的特征集,这个过 程叫特征工程,包括:
- 特征选择 从现有特征中选择最有用的特征进行训练
- 特征提取 将现有特征进行整合,产生更有用的特征,比 如降维算法
- 通过收集 新数据创造新特征
一个机器学习项目的数据处理流程
- 真实数据观察全局
- 选择性能指标、检查假设
- 获取数据 创建工作区,快速查看数据结构,创建测试集
- 从可视化中探索数据 将数据可视化、寻找相关性、试验不同的属性组合
- 机器学习前的数据准备 数据清理、自定义转换器、特征缩放、转换流水线
- 选择训练模型 评估训练集、交叉验证、分析最佳模型及其错误、测试集评
- 模型调优
- 分析最佳模型和测试集评估
- 系统维护和监控
1 真实数据观察全局
- 需求:模型需要从这个数据中学习,根据所有特征,预测任意 区域的房价中位数
- 机器学习的本质就是:数据表达和特征提取,在复杂 问题上人工方式无法很好的抽取实体的特征组合
- 深度学习解决的核心问题之一就是自动地将简单的特 征组合成更复杂的特征,还可以自动的提取更复杂的 特征。
2. 选择性能指标、检查假设
- 目标:给机器学习提供更好的数据,才可以得到精度高的模型,来 预测新数据
- 需要:
提供足够数据量的数据
训练数据要具备代表性
数据质量不能太差
关键部分是提取出一组好的特征集来训练模型 - 一个机器学习项目的完成流程 和 前期的数据处理与特征工程
3. 获取数据