机器学习概述二

最新推荐文章于 2024-09-23 20:31:41 发布

yangjiajia123456

最新推荐文章于 2024-09-23 20:31:41 发布

阅读量200

点赞数

文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yangjiajia123456/article/details/84933320

版权

一、基本概念

1.分类

通过分类模型，将样本数据集中的样本映射到某个给定的类别中

2.聚类

通过聚类模型，将样本数据集中的样本分为几个类别，属于同一类别的样本相似性比较大

3.回归

反映了样本数据集中样本的属性值的特性，通过函数表达样本映射的关系来发现样本属性值之间的依赖关系

4.关联规则

获取隐藏在数据项之间的关联或相互关系，即可以根据一个数据项的出现推导出其他数据项的出现频率

二、机器学习开发流程

1.数据收集

2.数据预处理

主要是：数据过滤，处理缺失值，处理异常值，合并多个数据源，数据汇总。

对缺失值的处理一般有上采样和下采样。

在数据不均衡的情况，通过上采样人为的制造比例偏小的数据以使数据分布比较均衡；下采样就是抽取比例较大的数据以使数据分布比较均衡；所谓均衡大概是维持在3:1～5:1之间。

3.特征提取

特征提取分为：特征选择和特征降维

特征选择是从总特征中选出若干比较重要的特征。

特征降维是在原始特征的基础上，通过一定的规则在保持原有特征维度不变情况下生成新的数据集，再从此基础上选取若干比较重要的特征。

4.模型构建

5.模型测试与评估

6.投入使用(模型部署与整合)

7.迭代与优化

yangjiajia123456

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

yangjiajia123456 CSDN认证博客专家 CSDN认证企业博客

码龄7年

38: 原创

5万+: 周排名

2万+: 总排名

12万+: 访问

: 等级

1422: 积分

57: 粉丝

83: 获赞

24: 评论

217: 收藏

私信

关注

热门文章

分类专栏

高性能编程付费 1篇
GBDT 1篇
并发编程 1篇
kubernetes 1篇
go 1篇
python 22篇
边缘计算 1篇
numpy 1篇
django 5篇
概率论 3篇
机器学习 7篇

最新评论

kubernetes中共享内存和内存区别
CSDN-Ada助手: 不知道 CS入门技能树是否可以帮到你：https://edu.csdn.net/skill/gml?utm_source=AI_act_gml
python钻石继承
Derek Runfar: 总结一下，其实就是super调用同名方法的顺序和mro的顺序相反，这里mro顺序是：ways，one，two，base，所以调用顺序是base，two，one，ways，所以5先+3= 8，然后乘2得到16
python3使用saml2.0协议接入SSO
邓1136507751: 你好，最近入手了flask框架的，想参照下完整的demo，可以发我一份么？谢谢，375230341@qq.com
python执行精确的小数计算
ag0u_: 保留位数
python3使用saml2.0协议接入SSO
会飞的尼古拉斯: 你这回调函数没写吧

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。