机器学习总结第一课

最新推荐文章于 2022-07-25 20:16:13 发布

远古小山

最新推荐文章于 2022-07-25 20:16:13 发布

阅读量645

点赞数

分类专栏：机器学习文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zhulei19931019/article/details/78152635

版权

引言

这篇文章不涉及很多代码的部分，主要是机器学习处理数据的一些基本概念和流程。写这篇blog的原因是对前一段时间的总结。前一段时间参加阿里天池的贵州交通大数据的比赛，使用了很多机器学习的方法和模型(xgboost 和lightgbm)，但是当时只限于知道接口的使用和接口的作用，不了解原理或者知识点很凌乱。所以打算趁着十一的空闲时间把知识点梳理一下。主要的进度是根据“七月在线”的教程来进行的。接下来开始第一部分，“机器学习的基本流程”。不足的地方以后再补充。

首先有这么一句话，“数据和特征决定了机器学习的上限，而算法和模型只是逼近这个上限而已”，嗯嗯，数据处理和特征工程很重要，大概占据70%的工作量，而模型选择、模型调参、模型融合占据30%的工作量。
接下来看看数据分析的流程：

一、认识数据

数据的分布，比如分类问题中，正负样本均衡很重要，即正样本数：负样本数接近1：1比较好。
数据的类型
1. 数值型，是否跨度很大，比如[1,10000]，这样会导致收敛很慢，常常归一化、标准化；或者出现“长尾”数据，使用log归一化；或者离散化(把0-100分一类，100-200分类，等等)。
2. 类别性(category)，一般使用one-hot编码。
数据的维度，比如rgb颜色有三维数据，来表示一个颜色lable。
数据是否有缺省值。

二、数据预处理:

数据清洗：

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
机器学习总结第一课

机器学习总结第一课这篇文章不涉及很多代码的部分，主要是机器学习处理数据的一些基本概念和流程。写这篇blog的原因是对前一段时间的总结。前一段时间参加阿里天池的贵州交通大数据的比赛，使用了很多机器学习的方法和模型(xgboost 和lightgbm)，但是当时只限于知道接口的使用和接口的作用，不了解原理或者知识点很凌乱。所以打算趁着十一的空闲时间把知识点梳理一下。
复制链接

扫一扫

专栏目录

远古小山 CSDN认证博客专家 CSDN认证企业博客

码龄16年

101: 原创

18万+: 周排名

143万+: 总排名

23万+: 访问

: 等级

3127: 积分

19: 粉丝

39: 获赞

7: 评论

94: 收藏

私信

关注

热门文章

分类专栏

矩阵快速幂 4篇
欧拉函数 2篇
buriside引理 1篇
搜索 8篇
hadoop 7篇
java 1篇
Tensorflow 1篇
superset 1篇
机器学习 4篇
java-web 1篇
acm 4篇

最新评论

修改ubuntu的用户名(注意用户名和主机名的区别)
昵称未输入: 一个主机可以有多个主机？这是什么意思
hue 集成 hive问题
「已注销」: 大佬，我最近用hue遇到了一个问题，就是在用hive做查询的时候，刚查出来的结果是可以下载的，但是历史查询记录为什么不能下载，公司让我搞定这个。我是用的cloudera manager安装的hue，这个是版本的问题，还是本身就不能下载。版本号为hue3.9. 0+cdh5.14.0
superset 出现数据库错误
问下毅力: ~/.superset/superset.db 这是什么路径？ ~/.bash_profile 又在哪里呢？？
superset 出现数据库错误
问下毅力: 初始化的db文件在哪里？

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。