机器学习概述二

一、基本概念

1.分类

    通过分类模型,将样本数据集中的样本映射到某个给定的类别中

2.聚类

    通过聚类模型,将样本数据集中的样本分为几个类别,属于同一类别的样本相似性比较大

3.回归

    反映了样本数据集中样本的属性值的特性,通过函数表达样本映射的关系来发现样本属性值之间的依赖关系

4.关联规则

    获取隐藏在数据项之间的关联或相互关系,即可以根据一个数据项的出现推导出其他数据项的出现频率

二、机器学习开发流程

    1.数据收集

    2.数据预处理

      主要是:数据过滤,处理缺失值,处理异常值,合并多个数据源,数据汇总。

      对缺失值的处理一般有上采样下采样

      在数据不均衡的情况,通过上采样人为的制造比例偏小的数据以使数据分布比较均衡;下采样就是抽取比例较大的数据以使数          据分布比较均衡;所谓均衡大概是维持在3:1~5:1之间。

    3.特征提取

      特征提取分为:特征选择特征降维

      特征选择是从总特征中选出若干比较重要的特征

      特征降维是在原始特征的基础上,通过一定的规则在保持原有特征维度不变情况下生成新的数据集,再从此基础上选取若干比          较重要的特征

    4.模型构建

    5.模型测试与评估

    6.投入使用(模型部署与整合)

    7.迭代与优化

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值