import pandas as pd
from pandas import Series,DataFrame
1.Series
创建及基本组成
索引
obj2=Series([4,3,2,5],index=['d','a','c','e'])
obj2['d']
obj2[['d','a']]
转化字典
stada={'a':'1','b':'2'}
obj3=Series(stada)
有缺失值
命名
2.DataFrame
创建
索引,赋值
加入和删除列
字典转化
命名
3.索引对象
Index
4.重新索引
reindex方法
fill—缺失值填充
fill_value=0
method=‘ffill’
丢弃指定轴上的项
drop方法
索引选取过滤
标签切片包含末端
算数运算和数据对齐
add只能用于series,(fill_value)
广播(每一行都运算)
函数应用和映射
lambda(匿名函数)方法:https://blog.csdn.net/yezonggang/article/details/50978114?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522160103347219195240427921%2522%252C%2522scm%2522%253A%252220140713.130102334…%2522%257D&request_id=160103347219195240427921&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2allfirst_rank_v2~rank_v28-1-50978114.pc_first_rank_v2_rank_v28&utm_term=python%E4%B8%ADlambda&spm=1018.2118.3001.4187
将函数应用到行或者列上:apply方法
排序和排名
对行或者列(索引排序),升序或者降序
对值排序,一列或者多列
https://blog.csdn.net/justinlonger/article/details/90646111?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522160129857419724836734151%2522%252C%2522scm%2522%253A%252220140713.130102334…%2522%257D&request_id=160129857419724836734151&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2allfirst_rank_v2~rank_v28-1-90646111.pc_first_rank_v2_rank_v28&utm_term=python+%E4%B8%ADrank&spm=1018.2118.3001.4187
带有重复值的轴索引
汇总和计算描述统计
skipan(对NaN自动排除)
返回索引
discove方法(数值型和非数值型)
https://blog.csdn.net/oyang_hesu/article/details/86617071?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522160138303619195264704097%2522%252C%2522scm%2522%253A%252220140713.130102334…%2522%257D&request_id=160138303619195264704097&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2allfirst_rank_v2~rank_v28-1-86617071.pc_first_rank_v2_rank_v28&utm_term=pandas.describe+%E8%BE%93%E5%87%BA%E5%8F%82%E6%95%B0%E8%A7%A3%E9%87%8A&spm=1018.2118.3001.4187
相关系数与协方差
协方差理解为:两个变量在变化过程中是同方向变化?还是反方向变化?同向或反向程度如何?
相关系数:既然是一种特殊的协方差,那它:
1、也可以反映两个变量变化时是同向还是反向,如果同向变化就为正,反向变化就为负。
2、由于它是标准化后的协方差,因此更重要的特性来了︰它消除了两个变量变化幅度的影响,而只
是单纯反应两个变量每单位变化时的相似程度。
https://blog.csdn.net/weixin_42933718/article/details/87983459?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522160138514419724848347046%2522%252C%2522scm%2522%253A%252220140713.130102334…%2522%257D&request_id=160138514419724848347046&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2allfirst_rank_v2~rank_v28-1-87983459.pc_first_rank_v2_rank_v28&utm_term=%E7%9B%B8%E5%85%B3%E7%B3%BB%E6%95%B0%E5%92%8C%E5%8D%8F%E6%96%B9%E5%B7%AE&spm=1018.2118.3001.4187
corr():计算两者的相关系数
cov():计算两者协方差
corrwith():Dataframe和Series或者Dataframe之间运算
#令returns,volume为Dataframe
returns.M.corr(returns.I) #I列与M列运算
returns.cov() #returns自己运算
returns.corrwith(returns.M) #M列与returns运算
returns.corrwith(volume,axis=1) #两个Dataframe行运算
唯一值:unique()
值频率计数:value_counts()
成员资格:isin()
Dataframe运用value_counts)——
成员资格
处理缺失数据
##一些方法
1.滤除缺失数据
dropna()方法
##默认删除带nan的全部行
##删除全为nan的列
填充缺失数据
fillna()方法
直接填充数字:
data.fillna(6)
##字典(列)
##方法填充
在原对象的基础上(inplace=True),向前填充(method=‘ffill’),一个单位(limit=1)
##特性值填充
层次化索引
##Series创建
##索引
##unstack()方法转换形式
##DataFrame形式
##命名
##索引
重排分级顺序
根据级别汇总统计
列或者行求和
使用DataFrame的列
##创建
##set_index()方法将其中列转为索引
##保存列
##reset_index()方法,将索引转为列