Numpy 功能十分强大,很多我们想要的复杂操作都有实现。 今天分享几个数据分析中经常需要用到的重要函数。 掌握这些函数可以帮助我们保持代码整洁并且避免重复造轮子。
准备工作
导入numpy
import numpy as np
示例数据
本文以二分类任务为例,通常我们的model会输出预测的概率,得到概率后需要进行后续的处理,比如:
• 根据阈值,将概率大于某个阈值的label设置为1,小于阈值的设置为0 • 在模型诊断过程中,找出满足某些条件的样本
本文使用的示例数据如下:
predict_prob = np.array([0.1,0.3,0.7,0.4,0.9])
where()
np.where() 方法可以帮助我们找到array中满足条件的元素的位置。现在我们可以使用np.where()找出所有预测概率大于0.5的的元素了:
predict_prob = np.array([0.1,0.3,0.7,0.4,0.9])
np.where(predict_prob > 0.5)
# output:array([2, 4]),)
如果我们想将所有概率大于0.5的元素替换为1,否则替换为0,该怎么做呢?
一个 简单粗暴的方式 是先用上面的方法分别找出array中概率大于或者小于0.5的索引,然后再对这些位置的元素重新赋值。
其实,np.where() 一个函数就能完成所