数据处理基础

1.agg
数据集.agg({‘字段1’:‘count’,‘字段2’:‘sum’})
explain:对字段1计数,对字段2 求和
2.concat
pd.concat([数据表1, 数据表2],axis = 1)
explain:把两个数据表按列拼接
pd.concat([数据表1, 数据表2],axis = 1).T
explain:把这个结果转置
3.删除某一列等于0的所有行
X=xxhg[‘字段’] == 0
xxhg_a= xxhg.loc[-X]
xxhg_a就不回包含字段那一列等于0的了
4.rename=[’’,’’,’’,’’] # 这个是想添加的字段名
xxhg.columns=rename
输出xxhg就可以了
5.path=‘D:/test’ 路径可以查找文件的属性-位置
dcpfile = os.listdir(path)
就能返回test文件夹的所有文件名,包含后缀.xlsx等
6.locals() 会以字典类型返回当前位置的全部局部变量
示例:def test(arg):
print (locals())
输入test(4),输出{‘arg’: 4}
7.startswith判断字符串是否以指定字符或子字符串开头。
示例:str = “this is string example…wow!!!”
输入str.startswith( ‘is’, 2, 4 ) 输出True
# 第二个参数是设置字符串检测的起始位置,第三个参数是设置字符串检测的结束位置,如果检测到字符串则返回True,否则返回False

8.矩阵.sum(axis=1)
矩阵 按照行相加

9.No module named ‘scorecardpy’
解决办法:pip3 install scorecardpy

10.np.vstack
按(行顺序)堆叠数组构成一个新的数组
a = np.array([[1,2,3]])
b = np.array([[4,5,6]])
c = np.vstack((a,b))
c的输出是2行3列
c
11.np.hstack
按水平方向(列顺序)堆叠数组构成一个新的数组

12.把某一列符合特定条件的换成另外一个值。方法是新建一列
数据集[‘diff_p1’]=数据集[‘diff_p’]
数据集.loc[数据集[‘diff_p’]>=8,‘diff_p1’]=8
输出的结果就是diff_p大于8的全是8了

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值