全国数据分析亚军教你0基础开展一个机器学习项目

我是一名0基础靠机器学习拿1.5万奖金的文科本科生

跟您一样,我的学习刚开始走过很多弯路:

硬啃周志华老师的《机器学习》西瓜书,一周才读了1页 看吴恩达老师的《机器学习入门课》,看完连“线性回归”是什么都不知道
分不清机器学习算法和算法的区别,甚至把《算法导论》当做机器学习入门书

我身边连会python的都少之又少,更没有任何一个人研究机器学习了,但就是在这样的背景下,我没有报班,没有求助他人,完全靠自学夺得了【2020届全国Datathon数据分析大赛社会组亚军】
右边的【向姚涵】便是我,尴尬的是,主办方把我的名字打错了……好在我的名字比较特别我才认得出来。
这里并不是想宣传什么课程或者是培训班,亦不会做什么书籍推荐,我学会这些的秘诀其实就只有1个字:

练!

是的。

刚开始学习一门新技能,最重要的并不是掌握基础知识,而是培养成就感和兴趣。

接下来我为您准备了一个比较完备且上手简单的机器学习项目,照着项目的代码一段一段进行尝试,

遇到不能理解的代码您可以直接复制,相信您也能够走出自己的机器学习之路,加油!

项目:【线性回归】法国玺镇4年内的家庭用电情况分析

数据源地址:http://archive.ics.uci.edu/ml/datasets/Individual+household+electric+power+consumption
在这里插入图片描述
点击上面的【Data Folder】即可下载数据集

1、了解数据和数据集:

这里就不带大家分析了,详见上方提供的网页链接

2、导入相关库、读取数据:

首先先导入常用的pip库(#后的注释内容如果在下没表述清楚,您可不看):

%matplotlib inline 
#这行是为了方便jupyter画图,非jupyter环境可以删除这句
import matplotlib.pyplot as plt #这次不在python内画图,因此可以不用导入该库,此行展示仅供参考
import numpy as np
from sklearn.linear_model import LinearRegression
import pandas as pd #个人比较喜欢用modin库,据说会快一些,代码如下:import modin.pandas as pd
import sqldf #如果不太熟悉pandas语法的朋友可以导入这个库,可以用这个pip库来实现通过SQL语法更改dataframe

读取数据要用到这个指令:

df = pd.read_csv('household_power_consumption.txt',sep=';') #该代码不会自动拆分txt,不加分隔符(sep=';')必出问题,如果报错,请在括号内添加Low memory=False

3、特征处理

特征处理可以说是机器学习最重要的一步,这里我们对特征的处理主要还是【数据清洗】:

1、空值处理 2、数据类型转换 3、单位转换 4、特征缩放 5、异常值处理
……

并非所有的数据都要经历以上N个步骤,我们要根据数据的实际情况进行取舍。

首先看看整个数据长啥样,最常用的指令无非就是下面2个:

df
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

向瑶函

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值