第一章:数据载入及初步观察
1. train_set = pd.read_csv('train_chinese.csv')使用pd.read_csv()函数载入数据,括号内的路径要用引号括起来。
2. os.getcwd()查看当前工作目录
3. pd.read_csv()函数默认使用逗号(,)作为分隔符来读取数据,pd.read_table()函数默认使用制表符(\t)作为分隔符来读取数据,如果想让pd.read_csv()和pd.read_table()的效果一样,只需在调用read_table()时指定分隔符为逗号即可:
import pandas as pd
data = pd.read_table('data.txt', sep=',') # 以逗号分隔
4. 查看数据的基本信息df.info(),查看数据维度df.shape,查看变量数据类型df.dtypes,查看数据描述df.describe(),查看列名df.colunms,查看行名df.index,查看数据前后五行df.head()、df.tail,查看某一列的值df[列名].values,查看某一列的唯一值df[列名].unique()。
5. 删除列可以使用del、pop、drop函数,del、pop会直接在dataframe上修改,pop函数会返回被删除的列,drop函数不会修改原dataframe,如要修改原dataframe,设置inplace=True即可。
6. 索引方式:iloc:通过整数位置进行索引选择。这意味着你可以使用行和列的整数位置来选择数据。loc:通过标签进行索引选择。这意味着你可以使用行和列的标签(索引或列名)来选择数据。是否包含终止位置:iloc:通常不包含终止位置的行或列,即左闭右开区间。loc:通常包含终止位置的行或列,即左闭右闭区间。
7. midage.reset_index(drop=True) 的含义是将 DataFrame midage 的索引重新设置,并且丢弃之前的索引列,只保留新生成的默认数值索引。因为midage是从df中条件筛选得到的,不重新设置索引的话,索引会和行号不匹配。