1.agg
数据集.agg({‘字段1’:‘count’,‘字段2’:‘sum’})
explain:对字段1计数,对字段2 求和
2.concat
pd.concat([数据表1, 数据表2],axis = 1)
explain:把两个数据表按列拼接
pd.concat([数据表1, 数据表2],axis = 1).T
explain:把这个结果转置
3.删除某一列等于0的所有行
X=xxhg[‘字段’] == 0
xxhg_a= xxhg.loc[-X]
xxhg_a就不回包含字段那一列等于0的了
4.rename=[’’,’’,’’,’’] # 这个是想添加的字段名
xxhg.columns=rename
输出xxhg就可以了
5.path=‘D:/test’ 路径可以查找文件的属性-位置
dcpfile = os.listdir(path)
就能返回test文件夹的所有文件名,包含后缀.xlsx等
6.locals() 会以字典类型返回当前位置的全部局部变量
示例:def test(arg):
print (locals())
输入test(4),输出{‘arg’: 4}
7.startswith判断字符串是否以指定字符或子字符串开头。
示例:str = “this is string example…wow!!!”
输入str.startswith( ‘is’, 2, 4 ) 输出True
# 第二个参数是设置字符串检测的起始位置,第三个参数是设置字符串检测的结束位置,如果检测到字符串则返回True,否则返回False
8.矩阵.sum(axis=1)
矩阵 按照行相加
9.No module named ‘scorecardpy’
解决办法:pip3 install scorecardpy
10.np.vstack
按(行顺序)堆叠数组构成一个新的数组
a = np.array([[1,2,3]])
b = np.array([[4,5,6]])
c = np.vstack((a,b))
c的输出是2行3列
11.np.hstack
按水平方向(列顺序)堆叠数组构成一个新的数组
12.把某一列符合特定条件的换成另外一个值。方法是新建一列
数据集[‘diff_p1’]=数据集[‘diff_p’]
数据集.loc[数据集[‘diff_p’]>=8,‘diff_p1’]=8
输出的结果就是diff_p大于8的全是8了