吴恩达ML作业----线性回归

在python中pandas是基于numpy数组构建得,是数据的预处理、分析等变得更加简单。pandas是专门为处理表格和混杂数据设计的,而numpy适合处理统一的数组数据。导入pandas包:import pandas as pd
pd.read_csv()的使用:
初始文件内容在这里插入图片描述
先贴出一种读取方法,代码如下

import pandas as pd
path = 'test.txt'
data = pd.read_csv(path, header=None, skip_blank_lines=False) # header=None 为原始文件添加列和行索引,送o开始
data.head(7)

其中,先导入pandas包,然后定义文件路径。
pd.read_csv()中的参数:path为文件路径,也可以删除第一行定义,直接把文件名加单引号写入。header=None是为原始数据添加列跟行索引,默认从0开始。skip_blank_lines=False是指不忽略空行和注释行。这行不写默认True即默认忽略。
data.head()默认显示5行数据。
上述结果如下


          0	     1
0	6.1101	17.5920
1	5.5277	9.1302
2	NaN    	NaN
3	8.5186	13.6620
4	NaN	    NaN

下面做点改变

import pandas as pd
data = pd.read_csv('test.txt', header=0, names=['population', 'profit']) # header=None 为原始文件添加列和行索引,送o开始
data.head()

结果为


 population profit
0	5.5277	9.1302
1	8.5186	13.6620
2	7.0032	11.8540
3	5.8598	6.8233
4	8.3829	11.8860

header=0指数据的第一行为行索引,可通过names=[’…’]改变内容。如names=range(2,6)将行索引改成(2,3,4,5)

数值统计:

data.describe()

结果如下:


      Population	Profit
count	97.000000	97.000000   数量
mean	8.159800	5.839135    均值
std	    3.869884	5.510262    标准差
min 	5.026900	-2.680700   最小值
25%	    5.707700	1.986900    下四分位数
50% 	6.589400	4.562300    中位数
75% 	8.578100	7.046700    上四分位数
max	    22.203000	24.147000   最大值

下面做数据可视化,画出散点图,以population为x轴,profit为y轴。
首先要导入模块

import matplotlib.pyplot as plt

然后

data.plot(kind='scatter', x='Population', y='Profit', figsize=(12,8))
plt.show()

结果如下
在这里插入图片描述

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值