动手学数据分析Task1:数据加载及探索性数据分析

这篇博客介绍了Pandas库在数据加载方面的使用,包括pd.read_csv()和pd.read_table()的区别以及如何进行逐块读取大数据。此外,还讲解了DataFrame的基础操作,如查看列名、筛选数据以及删除和隐藏列。最后,涉及了探索性数据分析,包括数据排序和计算泰坦尼克号数据中最大家庭人数。博客适合初学者,通过实例帮助理解Pandas的基本用法。
摘要由CSDN通过智能技术生成

Task1分为三个部分
1.数据的载入及数据观察;
2.pandas基础;
3.探索性数据分析。

一.数据的载入及数据观察

导入

import numpy as np
import pandas as pd

pd.read_csv()和pd.read_table()在数据加载中的不同

pd.read_csv() 从文件、URL、文件型对象中加载带分隔符的数据。默认分隔符为逗号
pd.read_table() 从文件、URL、文件型对象中加载带分隔符的数据。默认分隔符为制表符“\t”

如果要让他们效果一样,则指定分隔符

pd.read_table('', sep=',')

什么是逐块读取?为什么要逐块读取呢?
逐快读取就是将大块的数据分成很多个小块读入
这样可减少内存的存储与计算资源

chunker数据类型:

print(type(chunker))

得出的结果为‘str’

for循环打印

chunker = pd.read_csv('train.csv', chunksize=1000)
for chunker in df:
    print(chunker)

二.pandas基础:

DataFrame
一个表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型(数值,字符串,布尔值等)。

查看dataframe的数据每列的名称

df.columns

查看“Cabin”这列的所有值[有多种方法]

df['Cabin'].head(3)
df['Cabin'].head(3)

删除多余的列

del test_1['#列']
test_1.head(3)

隐藏列元素

df.drop(['PassengerId','Name','Age','Ticket'],axis=1).head(3)

数据的筛选,命名为midage

midage = df[(df["Age"]>10)& (df["Age"]<50)]
midage.head(3)

将midage的数据中第100行的"Pclass"和"Sex"的数据显示出来

midage = midage.reset_index(drop=True)
midage.head(3)

三:探索性数据分析:

第一步:导入numpy、pandas包和数据
第二步:利用Pandas对示例数据进行排序,要求升序,降序

# 让行索引升序排序
frame.sort_index()
# 让列索引升序排序
frame.sort_index(axis=1)
# 让任选两列数据同时降序排序
frame.sort_values(by=['a', 'c'], ascending=False)

通过泰坦尼克号数据如何计算出在船上最大的家族有多少人?

max(text['兄弟姐妹个数'] + text['父母子女个数'])

即找出兄弟姐妹个数和父母子女个数之和最大的数

分别看看泰坦尼克号数据集中 票价、父母子女 这列数据的基本统计数据,你能发现什么?
在这里插入图片描述
从图片可看出票价,平均值,标准差等数据

小结:task1难度基本合适,途中遇到的一些问题也基本能够自己解决,对新手来说可以接受。通过自己手动敲了些函数,只能说学到了一点点东西,以后还有很长的路要走。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值