Task1分为三个部分
1.数据的载入及数据观察;
2.pandas基础;
3.探索性数据分析。
一.数据的载入及数据观察
导入
import numpy as np
import pandas as pd
pd.read_csv()和pd.read_table()在数据加载中的不同
pd.read_csv() 从文件、URL、文件型对象中加载带分隔符的数据。默认分隔符为逗号
pd.read_table() 从文件、URL、文件型对象中加载带分隔符的数据。默认分隔符为制表符“\t”
如果要让他们效果一样,则指定分隔符
pd.read_table('', sep=',')
什么是逐块读取?为什么要逐块读取呢?
逐快读取就是将大块的数据分成很多个小块读入
这样可减少内存的存储与计算资源
chunker数据类型:
print(type(chunker))
得出的结果为‘str’
for循环打印
chunker = pd.read_csv('train.csv', chunksize=1000)
for chunker in df:
print(chunker)
二.pandas基础:
DataFrame
一个表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型(数值,字符串,布尔值等)。
查看dataframe的数据每列的名称
df.columns
查看“Cabin”这列的所有值[有多种方法]
df['Cabin'].head(3)
df['Cabin'].head(3)
删除多余的列
del test_1['#列']
test_1.head(3)
隐藏列元素
df.drop(['PassengerId','Name','Age','Ticket'],axis=1).head(3)
数据的筛选,命名为midage
midage = df[(df["Age"]>10)& (df["Age"]<50)]
midage.head(3)
将midage的数据中第100行的"Pclass"和"Sex"的数据显示出来
midage = midage.reset_index(drop=True)
midage.head(3)
三:探索性数据分析:
第一步:导入numpy、pandas包和数据
第二步:利用Pandas对示例数据进行排序,要求升序,降序
# 让行索引升序排序
frame.sort_index()
# 让列索引升序排序
frame.sort_index(axis=1)
# 让任选两列数据同时降序排序
frame.sort_values(by=['a', 'c'], ascending=False)
通过泰坦尼克号数据如何计算出在船上最大的家族有多少人?
max(text['兄弟姐妹个数'] + text['父母子女个数'])
即找出兄弟姐妹个数和父母子女个数之和最大的数
分别看看泰坦尼克号数据集中 票价、父母子女 这列数据的基本统计数据,你能发现什么?
从图片可看出票价,平均值,标准差等数据
小结:task1难度基本合适,途中遇到的一些问题也基本能够自己解决,对新手来说可以接受。通过自己手动敲了些函数,只能说学到了一点点东西,以后还有很长的路要走。