我是一名0基础靠机器学习拿1.5万奖金的文科本科生
跟您一样,我的学习刚开始走过很多弯路:
硬啃周志华老师的《机器学习》西瓜书,一周才读了1页 看吴恩达老师的《机器学习入门课》,看完连“线性回归”是什么都不知道
分不清机器学习算法和算法的区别,甚至把《算法导论》当做机器学习入门书
我身边连会python的都少之又少,更没有任何一个人研究机器学习了,但就是在这样的背景下,我没有报班,没有求助他人,完全靠自学夺得了【2020届全国Datathon数据分析大赛社会组亚军】。
这里并不是想宣传什么课程或者是培训班,亦不会做什么书籍推荐,我学会这些的秘诀其实就只有1个字:
练!
是的。
刚开始学习一门新技能,最重要的并不是掌握基础知识,而是培养成就感和兴趣。
接下来我为您准备了一个比较完备且上手简单的机器学习项目,照着项目的代码一段一段进行尝试,
遇到不能理解的代码您可以直接复制,相信您也能够走出自己的机器学习之路,加油!
项目:【线性回归】法国玺镇4年内的家庭用电情况分析
数据源地址:http://archive.ics.uci.edu/ml/datasets/Individual+household+electric+power+consumption
点击上面的【Data Folder】即可下载数据集
1、了解数据和数据集:
这里就不带大家分析了,详见上方提供的网页链接
2、导入相关库、读取数据:
首先先导入常用的pip库(#后的注释内容如果在下没表述清楚,您可不看):
%matplotlib inline
#这行是为了方便jupyter画图,非jupyter环境可以删除这句
import matplotlib.pyplot as plt #这次不在python内画图,因此可以不用导入该库,此行展示仅供参考
import numpy as np
from sklearn.linear_model import LinearRegression
import pandas as pd #个人比较喜欢用modin库,据说会快一些,代码如下:import modin.pandas as pd
import sqldf #如果不太熟悉pandas语法的朋友可以导入这个库,可以用这个pip库来实现通过SQL语法更改dataframe
读取数据要用到这个指令:
df = pd.read_csv('household_power_consumption.txt',sep=';') #该代码不会自动拆分txt,不加分隔符(sep=';')必出问题,如果报错,请在括号内添加Low memory=False
3、特征处理
特征处理可以说是机器学习最重要的一步,这里我们对特征的处理主要还是【数据清洗】:
1、空值处理 2、数据类型转换 3、单位转换 4、特征缩放 5、异常值处理
……
并非所有的数据都要经历以上N个步骤,我们要根据数据的实际情况进行取舍。
首先看看整个数据长啥样,最常用的指令无非就是下面2个:
df