**Task01:数据加载及探索性数据分析(2天)**

Task01:数据加载及探索性数据分析(2天)

1 第一章:数据载入及初步观察
1.1 载入数据
数据集下载 https://www.kaggle.com/c/titanic/overview
(已下载)
1.1.1 任务一:导入numpy和pandas
在这里插入图片描述
安装:
cmd
C:\Users\dsy51\pip install pandas
在这里插入图片描述

1.1.2
任务二:载入数据
(1) 使用相对路径载入数据
在这里插入图片描述
在这里插入图片描述
df是DataFrame的缩写

df.head()会将baiexcel表格中的du第一行看作列名,并默认输出之后的五行,所以head后面的括号中写3就是前3行。

Q:知道数据加载的方法后,试试pd.read_csv()和pd.read_table()的不同
A:read_csv和read_table都是是加载带分隔符的数据,每一个分隔符作为一个数据的标志,但二者读出来的数据格式还是不一样的,read_table是以制表符 \t 作为数据的标志,也就是以行为单位进行存储。
read_table:每一行字符串为一列
read_csv:每一个字符串作为一列

1.1.3
任务三:每1000行为一个数据模块,逐块读取
在这里插入图片描述
1.1.4
任务四:将表头改成中文,索引改为乘客ID

PassengerId => 乘客ID
Survived => 是否幸存
Pclass => 乘客等级(1/2/3等舱位)
Name => 乘客姓名
Sex => 性别
Age => 年龄
SibSp => 堂兄弟/妹个数
Parch => 父母与小孩个数
Ticket => 船票信息
Fare => 票价
Cabin => 客舱
Embarked => 登船港口

在这里插入图片描述
index_col=’乘客ID‘,第一列为乘客ID

Q: 还有其他的方法吗 ?
在这里插入图片描述
全部重命名 columns = new_columns,新列名的长度必须与旧列名一致。

如果部分重命名:
在这里插入图片描述

1.2.1
任务一:查看数据的基本信息
在这里插入图片描述

1.2.2
任务二:观察表格前10行的数据和后15行的数据
df.head(10)
df.tail(15)
和硬币的正面反面字母一样hhh

1.2.3
任务三:判断数据是否为空,为空的地方返回True,其余地方 返回False
df.isnull().head()
(中间的莫名消失了。。。。都操作了,没看见了,悲剧的括号)

1.3
保存数据
3.2.1
任务一:利用Pandas对示例数据进行排序,要求升序
在这里插入图片描述
arange ,reshape都是numpy中的内容,已学习。

在这里插入图片描述
sort_values:
df.sort_values(by=‘b’) 等同于df.sort_values(by=‘b’,axis=0)
必须指定by参数,即必须指定哪几行或哪几列
axis:{0 or ‘index’, 1 or ‘columns’}, default 0,默认按照列排序,即纵向排序;如果为1,则是横向排序。

df. sort_index()可以完成和df. sort_values()完全相同的功能,但python更推荐用只用df. sort_index()对“根据行标签”和“根据列标签”排序,其他排序方式用df.sort_values()。
在这里插入图片描述
在这里插入图片描述
frame.sort_values(by=[‘a’, ‘c’])
默认行标签升序排列
在这里插入图片描述
3.2.2
任务二:对泰坦尼克号数据(trian.csv)按票价和年龄两列进 行综合排序(降序排列),从数据中你能发现什么

在这里插入图片描述
在这里插入图片描述
从表格看出,票价越高,应该仓位越好,从前30位可以看出,有21位幸存,比率为70%。
年龄区间跨度比较大,是否和家族有关呢?
3.2.3
任务三:利用Pandas进行算术计算,计算两个DataFrame数 据相加结果

在这里插入图片描述
两个DataFrame相加后,会返回一个新的DataFrame,对应的行和列的值会相加,没有对应的会变成空值NaN。

3.2.4
任务四:通过泰坦尼克号数据如何计算出在船上最大的家族有 多少人?
在这里插入图片描述
在这里插入图片描述
3.2.5
任务五:学会使用Pandas describe()函数查看数据基本统计信 息

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
总票数为891,平均值为32.2,标准差为49.7,25%的人票价低于8元,50%的人票价低于14.5元,75%的人票价低于31元,而最高票价为512.3元。

在这里插入图片描述
总数据为891个,平均值为0.38,子女个数非常少,标准差为0.806,最小值为0,25%,50%,75%区间的数据都为零,也就是有孩子的人数非常少,拥有最多小孩的有6人。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值