一、安装 - Python idle调用anaconda包
sys.path.append(r’E:\anaconda\Lib\site-packages’)
类型 Series和DataFrame
s2=pd.Series([1,2,3,4],[‘a’,‘b’,‘c’,‘d’])
s2.astype(‘str’)
属性
df.values 返回series对象所有元素 df.shape 返回数据形状 df.dtypes 返回数据类型
df.columns 列标签 tolist() 转为列表 df.ndim 维数 df.size 对象个数 NaN 缺失值
二、语句
1.读取文件
df =pd.read_csv(".csv", encoding= , dtype={’’:str},nrows,sep=’’)
read_excel(xlsx,encoding=,sheet_name=’’)
df.head() 前5条内容
2.操作函数
df.T 行列颠倒
df.sort_values([’’],ascending=False) 排序
df.x.rank(ascending=False,method=first,min,max) x代表列
df.x.unique() 去重
df.x.value_counts() 计数
df.describe() 统计描述
df.x.cumsum() 累加
pd.cut(df.x.bins=5) 将数字进行5等分区间显示
3.切片
order.loc[[7,10], [‘name’]] 取7-10行name列
order.loc[order[‘id’]==458, [‘id’,‘name’]]
order.iloc[2:7,