这门课程得主要目的是通过真实的数据,以实战的方式了解数据分析的流程和熟悉数据分析python的基本操作。知道了课程的目的之后,我们接下来我们要正式的开始数据分析的实战教学,完成kaggle上泰坦尼克的任务,实战数据分析全流程。
这里有两份资料需要大家准备:
z图书《Python for Data Analysis》第六章和 baidu.com &
google.com(善用搜索引擎)
本次学习由开源学习组织Datawhale发起
第一节数据加载
本次的数据分析用的是Anaconda中的pandas来进行数据处理。所以先让我们来导入numpy和pandas
#写入代码
import numpy as np
import pandas as pd
第二步就是要将下载好的数据载入进去,要观察路径是否正确哦
【提示】相对路径载入报错时,尝试使用os.getcwd()查看当前工作目录。
【思考】知道数据加载的方法后,试试pd.read_csv()和pd.read_table()的不同,如果想让他们效果一样,需要怎么做?了解一下’.tsv’和’.csv’的不同,如何加载这两个数据集?
个人认为pd.read_csv函数在读取文件时的格式更全面,并且一般读取文件的格式也是csv
注意:“csv文件的分隔符” 和 “我们读取csv文件时指定的分隔符” 一定要一致。
比如:上面的train.csv,我们将其分隔符从逗号改成"\t",如果这个时候还是用默认的逗号分隔符,那么数据读取之后便混为一体。
任务三:每1000行为一个数据模块,逐块读取
逐块读取的目的是为了将文件数据分成若干块进行读取并且可对该对象进行迭代遍历,可以完成逐块统计的合并处理。
chunker = pd.read_csv('train.csv', chunksize=1000)
小结
个人学习到了第一章第三节,所以这次打卡先就自己去仔细了解的部分进行总结,希望后续的学习效率要更高。
给明天的自己一颗糖