Hands-on data analysis 动手学数据分析Task1

该博客介绍了通过Python进行数据分析的初步步骤,包括使用pandas库加载和探索泰坦尼克数据集。作者强调了pd.read_csv()和pd.read_table()的区别,并指出在处理csv和tsv文件时需要注意分隔符的设置。此外,还提到了逐块读取大文件的方法,以避免一次性加载整个数据集。博客最后,作者分享了自己在学习过程中的体会,期待提高后续学习效率。
摘要由CSDN通过智能技术生成

这门课程得主要目的是通过真实的数据,以实战的方式了解数据分析的流程和熟悉数据分析python的基本操作。知道了课程的目的之后,我们接下来我们要正式的开始数据分析的实战教学,完成kaggle上泰坦尼克的任务,实战数据分析全流程。
这里有两份资料需要大家准备:
z图书《Python for Data Analysis》第六章和 baidu.com &
google.com(善用搜索引擎)
本次学习由开源学习组织Datawhale发起

task1数据加载及探索性数据分析

第一节数据加载

本次的数据分析用的是Anaconda中的pandas来进行数据处理。所以先让我们来导入numpy和pandas

#写入代码
import numpy as np
import pandas as pd

第二步就是要将下载好的数据载入进去,要观察路径是否正确哦
载入数据
【提示】相对路径载入报错时,尝试使用os.getcwd()查看当前工作目录。

【思考】知道数据加载的方法后,试试pd.read_csv()和pd.read_table()的不同,如果想让他们效果一样,需要怎么做?了解一下’.tsv’和’.csv’的不同,如何加载这两个数据集?

个人认为pd.read_csv函数在读取文件时的格式更全面,并且一般读取文件的格式也是csv
注意:“csv文件的分隔符” 和 “我们读取csv文件时指定的分隔符” 一定要一致。
比如:上面的train.csv,我们将其分隔符从逗号改成"\t",如果这个时候还是用默认的逗号分隔符,那么数据读取之后便混为一体。

任务三:每1000行为一个数据模块,逐块读取

逐块读取的目的是为了将文件数据分成若干块进行读取并且可对该对象进行迭代遍历,可以完成逐块统计的合并处理。

chunker = pd.read_csv('train.csv', chunksize=1000)

小结

个人学习到了第一章第三节,所以这次打卡先就自己去仔细了解的部分进行总结,希望后续的学习效率要更高。
给明天的自己一颗糖

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值