动手学数据分析第一章笔记

本文介绍了如何使用Pandas库在Python中加载数据,包括`pd.read_csv`函数的应用,以及数据的基本信息查看、列操作、索引方法(iloc和loc)等初步观察技巧。重点讲解了如何处理数据索引以保持一致性。
摘要由CSDN通过智能技术生成

第一章:数据载入及初步观察

1. train_set = pd.read_csv('train_chinese.csv')使用pd.read_csv()函数载入数据,括号内的路径要用引号括起来。

2. os.getcwd()查看当前工作目录

3. pd.read_csv()函数默认使用逗号(,)作为分隔符来读取数据,pd.read_table()函数默认使用制表符(\t)作为分隔符来读取数据,如果想让pd.read_csv()和pd.read_table()的效果一样,只需在调用read_table()时指定分隔符为逗号即可:

import pandas as pd

data = pd.read_table('data.txt', sep=',')  # 以逗号分隔

4. 查看数据的基本信息df.info(),查看数据维度df.shape,查看变量数据类型df.dtypes,查看数据描述df.describe(),查看列名df.colunms,查看行名df.index,查看数据前后五行df.head()、df.tail,查看某一列的值df[列名].values,查看某一列的唯一值df[列名].unique()。

5. 删除列可以使用del、pop、drop函数,del、pop会直接在dataframe上修改,pop函数会返回被删除的列,drop函数不会修改原dataframe,如要修改原dataframe,设置inplace=True即可。

6. 索引方式:iloc:通过整数位置进行索引选择。这意味着你可以使用行和列的整数位置来选择数据。loc:通过标签进行索引选择。这意味着你可以使用行和列的标签(索引或列名)来选择数据。是否包含终止位置:iloc:通常不包含终止位置的行或列,即左闭右开区间。loc:通常包含终止位置的行或列,即左闭右闭区间。

7. midage.reset_index(drop=True) 的含义是将 DataFrame midage 的索引重新设置,并且丢弃之前的索引列,只保留新生成的默认数值索引。因为midage是从df中条件筛选得到的,不重新设置索引的话,索引会和行号不匹配。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值