全国数据分析亚军教你0基础开展一个机器学习项目

最新推荐文章于 2024-07-12 19:06:42 发布

向瑶函

最新推荐文章于 2024-07-12 19:06:42 发布

阅读量188

点赞数

分类专栏：机器学习文章标签： python 算法机器学习人工智能数据分析

本文链接：https://blog.csdn.net/xiangyaohan/article/details/114634877

版权

我是一名0基础靠机器学习拿1.5万奖金的文科本科生

跟您一样，我的学习刚开始走过很多弯路：

硬啃周志华老师的《机器学习》西瓜书，一周才读了1页看吴恩达老师的《机器学习入门课》，看完连“线性回归”是什么都不知道
分不清机器学习算法和算法的区别，甚至把《算法导论》当做机器学习入门书

我身边连会python的都少之又少，更没有任何一个人研究机器学习了，但就是在这样的背景下，我没有报班，没有求助他人，完全靠自学夺得了【2020届全国Datathon数据分析大赛社会组亚军】。
右边的【向姚涵】便是我，尴尬的是，主办方把我的名字打错了……好在我的名字比较特别我才认得出来。
这里并不是想宣传什么课程或者是培训班，亦不会做什么书籍推荐，我学会这些的秘诀其实就只有1个字：

练！

是的。

刚开始学习一门新技能，最重要的并不是掌握基础知识，而是培养成就感和兴趣。

接下来我为您准备了一个比较完备且上手简单的机器学习项目，照着项目的代码一段一段进行尝试，

遇到不能理解的代码您可以直接复制，相信您也能够走出自己的机器学习之路，加油！

项目：【线性回归】法国玺镇4年内的家庭用电情况分析

数据源地址：http://archive.ics.uci.edu/ml/datasets/Individual+household+electric+power+consumption
在这里插入图片描述
点击上面的【Data Folder】即可下载数据集

1、了解数据和数据集：

这里就不带大家分析了，详见上方提供的网页链接

2、导入相关库、读取数据：

首先先导入常用的pip库（#后的注释内容如果在下没表述清楚，您可不看）：

%matplotlib inline 
#这行是为了方便jupyter画图，非jupyter环境可以删除这句
import matplotlib.pyplot as plt #这次不在python内画图，因此可以不用导入该库，此行展示仅供参考
import numpy as np
from sklearn.linear_model import LinearRegression
import pandas as pd #个人比较喜欢用modin库，据说会快一些，代码如下：import modin.pandas as pd
import sqldf #如果不太熟悉pandas语法的朋友可以导入这个库，可以用这个pip库来实现通过SQL语法更改dataframe

读取数据要用到这个指令：

df = pd.read_csv('household_power_consumption.txt',sep=';') #该代码不会自动拆分txt，不加分隔符（sep=';'）必出问题，如果报错，请在括号内添加Low memory=False

3、特征处理

特征处理可以说是机器学习最重要的一步，这里我们对特征的处理主要还是【数据清洗】：

1、空值处理 2、数据类型转换 3、单位转换 4、特征缩放 5、异常值处理
……

并非所有的数据都要经历以上N个步骤，我们要根据数据的实际情况进行取舍。

首先看看整个数据长啥样，最常用的指令无非就是下面2个：

df

最低0.47元/天解锁文章

向瑶函

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
全国数据分析亚军教你0基础开展一个机器学习项目

我是一名0基础靠机器学习拿1.5万奖金的文科本科生跟您一样，我的学习刚开始走过很多弯路：硬啃周志华老师的《机器学习》西瓜书，一周才读了1页看吴恩达老师的《机器学习入门课》，看完连“线性回归”是什么都不知道分不清机器学习算法和算法的区别，甚至把《算法导论》当做机器学习入门书我身边连会python的都少之又少，更没有任何一个人研究机器学习了，但就是在这样的背景下，我没有报班，没有求助他人，完全靠自学夺得了【2020届全国Datathon数据分析大赛社会组亚军】。这里并不是想宣传什么课程或者是培
复制链接

扫一扫