Hands-on data analysis 动手学数据分析Task1

最新推荐文章于 2023-09-23 08:45:02 发布

miskirito

最新推荐文章于 2023-09-23 08:45:02 发布

阅读量101

点赞数

分类专栏：自主学习 Datawhale组队学习笔记文章标签： python 数据分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_57171836/article/details/118712270

版权

自主学习同时被 2 个专栏收录

29 篇文章 2 订阅

订阅专栏

Datawhale组队学习笔记

27 篇文章 0 订阅

订阅专栏

该博客介绍了通过Python进行数据分析的初步步骤，包括使用pandas库加载和探索泰坦尼克数据集。作者强调了pd.read_csv()和pd.read_table()的区别，并指出在处理csv和tsv文件时需要注意分隔符的设置。此外，还提到了逐块读取大文件的方法，以避免一次性加载整个数据集。博客最后，作者分享了自己在学习过程中的体会，期待提高后续学习效率。

摘要由CSDN通过智能技术生成

这门课程得主要目的是通过真实的数据，以实战的方式了解数据分析的流程和熟悉数据分析python的基本操作。知道了课程的目的之后，我们接下来我们要正式的开始数据分析的实战教学，完成kaggle上泰坦尼克的任务，实战数据分析全流程。
这里有两份资料需要大家准备：
z图书《Python for Data Analysis》第六章和 baidu.com &
google.com（善用搜索引擎）
本次学习由开源学习组织Datawhale发起

task1数据加载及探索性数据分析

- 第一节数据加载
- 小结

第一节数据加载

本次的数据分析用的是Anaconda中的pandas来进行数据处理。所以先让我们来导入numpy和pandas

#写入代码
import numpy as np
import pandas as pd

第二步就是要将下载好的数据载入进去，要观察路径是否正确哦
载入数据
【提示】相对路径载入报错时，尝试使用os.getcwd()查看当前工作目录。

【思考】知道数据加载的方法后，试试pd.read_csv()和pd.read_table()的不同，如果想让他们效果一样，需要怎么做？了解一下’.tsv’和’.csv’的不同，如何加载这两个数据集？

个人认为pd.read_csv函数在读取文件时的格式更全面，并且一般读取文件的格式也是csv
注意：“csv文件的分隔符” 和 “我们读取csv文件时指定的分隔符” 一定要一致。
比如：上面的train.csv，我们将其分隔符从逗号改成"\t"，如果这个时候还是用默认的逗号分隔符，那么数据读取之后便混为一体。

任务三：每1000行为一个数据模块，逐块读取

逐块读取的目的是为了将文件数据分成若干块进行读取并且可对该对象进行迭代遍历，可以完成逐块统计的合并处理。

chunker = pd.read_csv('train.csv', chunksize=1000)

小结

个人学习到了第一章第三节，所以这次打卡先就自己去仔细了解的部分进行总结，希望后续的学习效率要更高。
给明天的自己一颗糖

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。