动手学数据分析Task1：数据加载及探索性数据分析

最新推荐文章于 2024-06-16 22:39:52 发布

weixin_53043133

最新推荐文章于 2024-06-16 22:39:52 发布

阅读量116

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_53043133/article/details/118709847

版权

这篇博客介绍了Pandas库在数据加载方面的使用，包括pd.read_csv()和pd.read_table()的区别以及如何进行逐块读取大数据。此外，还讲解了DataFrame的基础操作，如查看列名、筛选数据以及删除和隐藏列。最后，涉及了探索性数据分析，包括数据排序和计算泰坦尼克号数据中最大家庭人数。博客适合初学者，通过实例帮助理解Pandas的基本用法。

摘要由CSDN通过智能技术生成

Task1分为三个部分
1.数据的载入及数据观察；
2.pandas基础；
3.探索性数据分析。

一.数据的载入及数据观察

导入

import numpy as np
import pandas as pd

pd.read_csv()和pd.read_table()在数据加载中的不同

pd.read_csv() 从文件、URL、文件型对象中加载带分隔符的数据。默认分隔符为逗号
pd.read_table() 从文件、URL、文件型对象中加载带分隔符的数据。默认分隔符为制表符“\t”

如果要让他们效果一样，则指定分隔符

pd.read_table('', sep=',')

什么是逐块读取？为什么要逐块读取呢？
逐快读取就是将大块的数据分成很多个小块读入
这样可减少内存的存储与计算资源

chunker数据类型：

print(type(chunker))

得出的结果为‘str’

for循环打印

chunker = pd.read_csv('train.csv', chunksize=1000)
for chunker in df:
    print(chunker)

二.pandas基础：

DataFrame
一个表格型的数据结构，它含有一组有序的列，每列可以是不同的值类型（数值，字符串，布尔值等）。

查看dataframe的数据每列的名称

df.columns

查看“Cabin”这列的所有值[有多种方法]

df['Cabin'].head(3)

df['Cabin'].head(3)

删除多余的列

del test_1['#列']
test_1.head(3)

隐藏列元素

df.drop(['PassengerId','Name','Age','Ticket'],axis=1).head(3)

数据的筛选，命名为midage

midage = df[(df["Age"]>10)& (df["Age"]<50)]
midage.head(3)

将midage的数据中第100行的"Pclass"和"Sex"的数据显示出来

midage = midage.reset_index(drop=True)
midage.head(3)

三：探索性数据分析：

第一步：导入numpy、pandas包和数据
第二步：利用Pandas对示例数据进行排序，要求升序,降序

# 让行索引升序排序
frame.sort_index()

# 让列索引升序排序
frame.sort_index(axis=1)

# 让任选两列数据同时降序排序
frame.sort_values(by=['a', 'c'], ascending=False)

通过泰坦尼克号数据如何计算出在船上最大的家族有多少人？

max(text['兄弟姐妹个数'] + text['父母子女个数'])

即找出兄弟姐妹个数和父母子女个数之和最大的数

分别看看泰坦尼克号数据集中票价、父母子女这列数据的基本统计数据，你能发现什么？
在这里插入图片描述
从图片可看出票价，平均值，标准差等数据

小结：task1难度基本合适，途中遇到的一些问题也基本能够自己解决，对新手来说可以接受。通过自己手动敲了些函数，只能说学到了一点点东西，以后还有很长的路要走。

weixin_53043133

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。