【数据处理】在kaggle学pandas

本文是关于使用Pandas进行数据处理的学习笔记,涵盖了数据的创建、读写、选择与赋值、批量操作、数据类型与缺失值处理、组合数据等内容。通过实例演示了如何创建DataFrame和Series,读取CSV文件,选择和赋值数据,以及如何处理缺失值和批量操作数据。此外,还介绍了如何根据特定条件聚合数据并排序。
摘要由CSDN通过智能技术生成

虽然之前东一榔头,西一棒槌地学过一些pandas和numpy,但学得实在是很没有章法,用起来也很不顺手,所以决定跟着kaggle的课程重新过一遍。本次先主要学习pandas。

创建和读写

在进行数据处理前,首先我们要有数据。

创建读写对象

在pandas中主要有两种数据类型,一种叫series,一种叫dataframe。我们先来看dataframe。
Dataframe实际上就是一张用来填数据的表,在创建的时候一般使用字典结构。

import pandas as pd

data = {
   'name':['Mike', 'Rose'], 'age':[20,19]}
df = pd.DataFrame(data)

可以看到dataframe中可以存储任意类型的数据,可以是字符串也可以是整数。
创建后字典中的key值会是表格中的列名,而value值则会对应每一个entry(每一行)中的相应值。
一个简单的dataframe
这时候我们的列名是自己规定的,但是行名(index)只是一个默认生成的0,1,2,…的序列,如果我们想要自定义行名,该怎么做呢?
很简单,只要在创建dataframe时,传入一个Index对象就可以了。

data2 = {
   'name':['Mike', 'Rose'], 'age':[20,19]}
df2 = pd.DataFrame(data2, index = ['user1', 'user2'])

这时候我们就会得到一个行名和列名都是自定义的dataframe。
新的dataframe
现在来说说Series,它实际上就是一个数据序列。在我们的dataframe中,每一列都可以看成是一个series。
创建它的方式和dataframe差不多,只是要注意我们是没有列名的,因为只有一列,所以我们只能规定一个统一的name作为这个series的名字。

data3 = [_ for _ in range(3)]
sr = pd.Series(data3, index = ['开始','过程','结束'], name = 'mySeries'
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值