NAN:not a number(不是一个数字)
1.什么时候numpy中会出现nan?
当我们读取本地文件为float的时候,如果有缺失,就会出现nan
无穷大-无穷大等不合适计算的时候
INF:infinity,表示无穷大 有+inf 和-inf
一个数字除以0便是正无穷,python中会报错,而numpy中会将其划为inf类型
numpy中nan的注意点:
1.两个nan是不相等的
np.nan==np.nan
OUT:FALSE
利用该特性可以实现统计数组中的NAN数目:
print(t)
t=t.astype(float)
t[3,3]=np.nan
print(t)
[[ 0 1 2 3 4 5]
[ 6 7 8 9 10 11]
[12 13 14 15 16 17]
[18 19 20 21 22 23]]
[[ 0. 1. 2. 3. 4. 5.]
[ 6. 7. 8. 9. 10. 11.]
[12. 13. 14. 15. 16. 17.]
[18. 19. 20. nan 22. 23.]]
np.count_nonzero(t)可以输出t中所有非o元素的总数
t[:,0]=0
t
Out[6]:
array([[ 0., 1., 2., 3., 4., 5.],
[ 0., 7., 8., 9., 10., 11.],
[ 0., 13., 14., 15., 16., 17.],
[ 0., 19., 20., nan, 22., 23.]])
np.count_nonzero(t)
Out[7]: 20
只有当元素=np.nan时,才会导致np.nan!=np.nan
t!=t
Out[8]:
array([[False, False, False, False, False, False],
[False, False, False, False, False, False],
[False, False, False, False, False, False],
[False, False, False, True, False, False]])
True为1,False为0,统计非零数
np.count_nonzero(t!=t)
Out[10]: 1
得到数组中nan值只有一个
2.np.isnan()可以判断是否为nan
np.isnan(t)
Out[11]:
array([[False, False, False, False, False, False],
[False, False, False, False, False, False],
[False, False, False, False, False, False],
[False, False, False, True, False, False]])
同理可以将这个函数传入np.nonzero()中
np.count_nonzero(np.isnan(t))
Out[12]: 1
3.nan和任何值进行计算结果都为nan
np.sum(t)
Out[8]: nan
np.sum(t,axis=0)
Out[10]: array([36., 40., 44., nan, 52., 56.])
np.sum(t,axis=1)
Out[11]: array([15., 51., 87., nan])
所以说在一组数组中有nan值的时候(缺失值)的时候会对数组的计算造成很大的不方便
想要解决他,采用将所有nan值都替换为0的方法很不妥,因为替换后必然会造成均值的减少,所以更一般的方法是将缺失值替换为均值或者是直接删除有缺失值的那一行