1.导入pandas,自己写一个dataframe
import pandas as pd
df = pd.DataFrame([[1,2,3],[4,5,6]],index = ['a','b'],columns = ['A','B','C'])
df
2.求各个特征值的和
df.sum()
df.sum(axis = 0)
df.sum(axis = 'index')
3.求每一行的值
df.sum(axis = 1)
df.sum(axis = 'columns')
4.求平均值、最大值、最小值、中位数
df.mean()
df.mean(axis = 1)
df.min()
df.max()
df.median()
5.二元统计
导入csv
df = pd.read_csv('./data/titanic.csv')
df.head()
求特征值之间的协方差
df.cov()
求特征值之间的相关系数
df.corr()
6.统计某一项特征值下不同数据的个数
df['Age'].value_counts()
df['Age'].value_counts(ascending = True)
默认为降序,ascending = True为升序
df['Pclass'].value_counts(ascending = True)
7.给某一项特征值划分为n个区间,并统计每个区间的数量
df['Age'].value_counts(ascending = True,bins = 5)