Python学习之特征工程

特征工程–机器学习之前的准备

课程目标

  1. 机器学习的简单理解
  2. 机器学习中的基础概念
  3. 机器学习模型雪莲工作原理
  4. 机器学习执行流程
  5. 数据处理对机器学习的重要性
  6. 特征工程
  7. 一个机器学习项目的数据处理流程
机器学习的简单理解
  1. 机器学习:选择一种学习算法,从数据中学习并建立成模型来 对新的数据进行预测的计算机科学
  2. 机器学习适用于:
    1. 不存在已知算法解决方案的复杂问题
    2. 需要大量手动调整或者规则列表超长的问题
    3. 可以适应环境波动的系统
  3. 机器学习就是要用数据和算法训练有效的模型,再用模型去预 测新的数据
机器学习中的基础概念
  1. 提供给算法的包含所需解决方案的训练数据,称为标签
  2. 属性加上其值 就是特征
  3. 通过给定的特征来预测一个目标数值,叫回归任务
  4. 用于训练模型的数据叫训练集
  5. 用于测试模型精度的数据叫测试集
  6. 每一条数据叫一个样本(x),样本对应的结果叫标签(y)
  7. 模型在训练数据上表现良好,泛化不好叫过度拟合,反之欠拟合
  8. 模型训练就是通过训练数据找到算法最合适的参数
机器学习模型训练工作原理

通过特征找到算法

机器学习执行流程

在这里插入图片描述

数据处理对于机器学习的重要性
  • 机器学习的核心问题:算法好坏和数据好坏
  • 复杂问题,数据比算法更重要
  • 数据处理主要解决的问题:
    1. 数据量不足
    2. 训练数据不具备代表性
    3. 质量差的数据
    4. 特征筛选
特征工程
  • 机器学习的关键是 提取出一组好的用来训练的特征集,这个过 程叫特征工程,包括:

    1. 特征选择 从现有特征中选择最有用的特征进行训练
    2. 特征提取 将现有特征进行整合,产生更有用的特征,比 如降维算法
    3. 通过收集 新数据创造新特征
一个机器学习项目的数据处理流程
  1. 真实数据观察全局
  2. 选择性能指标、检查假设
  3. 获取数据 创建工作区,快速查看数据结构,创建测试集
  4. 从可视化中探索数据 将数据可视化、寻找相关性、试验不同的属性组合
  5. 机器学习前的数据准备 数据清理、自定义转换器、特征缩放、转换流水线
  6. 选择训练模型 评估训练集、交叉验证、分析最佳模型及其错误、测试集评
  7. 模型调优
  8. 分析最佳模型和测试集评估
  9. 系统维护和监控
1 真实数据观察全局
  • 需求:模型需要从这个数据中学习,根据所有特征,预测任意 区域的房价中位数
    在这里插入图片描述
    在这里插入图片描述
  • 机器学习的本质就是:数据表达和特征提取,在复杂 问题上人工方式无法很好的抽取实体的特征组合
  • 深度学习解决的核心问题之一就是自动地将简单的特 征组合成更复杂的特征,还可以自动的提取更复杂的 特征。
2. 选择性能指标、检查假设
  1. 目标:给机器学习提供更好的数据,才可以得到精度高的模型,来 预测新数据
  2. 需要:
    提供足够数据量的数据
    训练数据要具备代表性
    数据质量不能太差
    关键部分是提取出一组好的特征集来训练模型
  3. 一个机器学习项目的完成流程 和 前期的数据处理与特征工程
3. 获取数据

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

对图表进行分析

  • 2
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值