吴恩达ML作业----线性回归

最新推荐文章于 2022-10-22 18:48:44 发布

上五楼不快活 

最新推荐文章于 2022-10-22 18:48:44 发布

阅读量187

点赞数

文章标签：机器学习

本文链接：https://blog.csdn.net/weixin_45501013/article/details/109310662

版权

在python中pandas是基于numpy数组构建得，是数据的预处理、分析等变得更加简单。pandas是专门为处理表格和混杂数据设计的，而numpy适合处理统一的数组数据。导入pandas包：import pandas as pd
pd.read_csv()的使用：
初始文件内容在这里插入图片描述
先贴出一种读取方法，代码如下

import pandas as pd
path = 'test.txt'
data = pd.read_csv(path, header=None, skip_blank_lines=False) # header=None 为原始文件添加列和行索引，送o开始
data.head(7)

其中，先导入pandas包，然后定义文件路径。
pd.read_csv()中的参数：path为文件路径，也可以删除第一行定义，直接把文件名加单引号写入。header=None是为原始数据添加列跟行索引，默认从0开始。skip_blank_lines=False是指不忽略空行和注释行。这行不写默认True即默认忽略。
data.head()默认显示5行数据。
上述结果如下


          0	     1
0	6.1101	17.5920
1	5.5277	9.1302
2	NaN    	NaN
3	8.5186	13.6620
4	NaN	    NaN

下面做点改变

import pandas as pd
data = pd.read_csv('test.txt', header=0, names=['population', 'profit']) # header=None 为原始文件添加列和行索引，送o开始
data.head()

结果为


 population profit
0	5.5277	9.1302
1	8.5186	13.6620
2	7.0032	11.8540
3	5.8598	6.8233
4	8.3829	11.8860

header=0指数据的第一行为行索引，可通过names=[’…’]改变内容。如names=range(2,6)将行索引改成（2，3，4，5）

数值统计：

data.describe()

结果如下：


      Population	Profit
count	97.000000	97.000000   数量
mean	8.159800	5.839135    均值
std	    3.869884	5.510262    标准差
min 	5.026900	-2.680700   最小值
25%	    5.707700	1.986900    下四分位数
50% 	6.589400	4.562300    中位数
75% 	8.578100	7.046700    上四分位数
max	    22.203000	24.147000   最大值

下面做数据可视化，画出散点图，以population为x轴，profit为y轴。
首先要导入模块

import matplotlib.pyplot as plt

然后

data.plot(kind='scatter', x='Population', y='Profit', figsize=(12,8))
plt.show()

结果如下
在这里插入图片描述

上五楼不快活 

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫