从零开始实现一个端到端的机器学习项目[1]

最新推荐文章于 2024-05-16 03:24:55 发布

不爱写程序的程序猿

最新推荐文章于 2024-05-16 03:24:55 发布

阅读量862

点赞数 3

分类专栏：从零实现端到端机器学习项目文章标签：机器学习人工智能 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45870904/article/details/121875999

版权

从零实现端到端机器学习项目专栏收录该内容

6 篇文章 1 订阅

订阅专栏

从零开始实现一个端到端的机器学习项目

基于书籍《Hands-on Machine Learning with Scikit-Learn, Keras & TensorFlow》的笔记

1.前言

本次博客遵从原书，同样从StatLib库中选择了加州住房价格的数据集，此数据集来源于1990年的加州人口普查，确实有点老了，但作为教程也已经足够了。
在这里插入图片描述

首先明确我们的目标是什么，我们希望通过加州人口普查的数据（包含很多特征（包括数值和文本特征）建立起加州的房价模型。作为一个专业的数据科学家，我们应该有一份专门的框架计划书可以照做，形成一个科学规范的流程。

机器学习项目规范步骤清单

如果你还在问为什么是英文的，那是因为如果你想要从事ML或者DL，你读各种文献-包括经典的国外教程都是英文的，这都是必经之路，如果实在看不懂，你也可以支持翻译作者出版的《机器学习实战》的中文版。

在这里插入图片描述

上图一个机器实战项目-房价预测落地的流水线-在工程中，老板并不会关心你的模型是什么，精度达到了多么高，他更关心你的模型怎么使用？怎么样获得收益？在上图中，事实上我们负责的部分只到district prices-也就是预测区域的房价，其将会作为一个特征与其他可能的特征一起被送入到下游的投资分析中，并最终决策是否进行投资，所以，我们要完成的工作事实上只是整个投资决策流水线中的一环。

关于流水线（大家可以仔细阅读下图）：

在这里插入图片描述

在开始我们的机器学习项目之前，在工程中，我们还需要请教之前做这个项目的专家，并从他们那里获得一些洞见，例如他们使用了什么样的复杂的启发式规则去进行预测？最终结果如何？这些规则是否值得我们借鉴去挖掘新的数据来帮助我们的机器学习模型？

得到了上面的所有信息后，我们可以开始对我们要做的机器学习系统做一个简单的思考。

很明显，房价预测是一个监督学习任务，且是一个回归任务，因为需要预测，有多个特征且只有一个预测值，所以是多重特征一元回归问题，没有一个连续的数据流不断流入系统，所以先只需要对目前的数据进行批量学习即可，当加入新的数据后再进行重新训练。当数据庞大时，需要使用大数据技术进行分布式存储与训练（如MapReduce技术）。

不爱写程序的程序猿

关注

3
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
从零开始实现一个端到端的机器学习项目[1]

本次将连载博客-从零实现一个端到端的机器学习项目，其基于书籍《机器学习实战》并加入自己的理解，帮助您快速上手机器学习并用于实践。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。