numpy.ma详解

最新推荐文章于 2024-01-20 05:00:00 发布

zhenyu wu

最新推荐文章于 2024-01-20 05:00:00 发布

阅读量9.3k

点赞数 10

分类专栏： numpy 文章标签： python 数据分析机器学习 numpy 线性代数

本文链接：https://blog.csdn.net/wzy628810/article/details/103833856

版权

numpy 专栏收录该内容

32 篇文章 25 订阅

订阅专栏

numpy.ma

numpy.ma模块

基本原理

当数组元素包括缺失值或异常值时，该数组被称为掩码数组。numpy.ma模块的工作方式可以这么来解释：支持数值数组中包含掩码元素。

什么是掩码数组呢？

在很多情况下，数据集可能是不完整或存在无效数据的。例如，一个传感器对于某个数值可能有以下两种存储情况：存储失败、存入一个无效数据。numpy.ma模块通过引入掩码数组，为这种问题的解决提供了一种便捷的方法。
掩码数组是将标准的多维数组numpy.ndarray和掩码相结合。掩码要么是nomask，表示与该掩码有关数组的所有值都是有效的。要么是一个布尔值数组，用于确定关联数组的每个元素值是否有效。当掩码中某个元素值为False，那么关联数组的对应元素是有效的，即被认为是未掩码的。当掩码中某个元素值为True，那么关联数组的对应元素是无效的，即被认为是掩码的。
这个包可以确保掩码项不参与计算。
为了让大家有一个直观的认识，我们给出下例:

import numpy as np
import numpy.ma as ma
x = np.array([1, 2, 3, -1, 5])

我们想要将x数组中第四个值标记为无效数据。最便捷的方法是创建一个掩码数组:

mx = ma.masked_array(x, mask=[0, 0, 0, 1, 0])

现在，我们可以在不考虑-1这个异常值的情况下，计算数组x的均值:

print('仅仅计算[1, 2, 3, 5]的均值，计算结果为：{}'.format(mx.mean()))

仅仅计算[1, 2, 3, 5]的均值，计算结果为：2.75

numpy.ma模块

numpy.ma模块最主要的特性是掩码数组MaskedArray类，该类是多维数组numpy.ndarray的子类。掩码数组的属性以及方法详见MaskedArray class。
numpy.ma模块可以当作numpy包的补充:

import numpy as np
import numpy.ma as ma

我们可以这样子创建一个第二个元素无效的数组:

y = ma.array([1, 2, 3], mask = [0, 1, 0])

我们可以创建一个掩码数组，其中所有接近1.e20的值都是无效的:

z = ma.masked_values([1.0, 1.e20, 3.0, 4.0], 1.e20)

更多创建掩码数组的方法详见Constructing masked arrays。

使用numpy.ma

构建掩码数组

有如下几种方法来创建掩码数组。

第一种方式是直接调用MaskedArray类。
第二种方式是使用两种掩码数组构造函数，array和masked_array。
- array(data[, dtype, copy, order, mask, …])：定义了掩码值的数组类
- masked_array：和MaskedArray一样
第三种方式是获取现有数组的视图。在这种情况下，如果数组没有命名字段，或者没有与数组结构相同的布尔数组，则将视图的掩码设置为nomask。

x = np.array([1, 2, 3])
x.view(ma.MaskedArray)

masked_array(data=[1, 2, 3],
mask=False,
fill_value=999999)

x = np.array([(1, 1.), (2, 2.)], dtype=[('a',int), ('b', float)])
x.view(ma.MaskedArray)

masked_array(data=[(1, 1.0), (2, 2.0)],
mask=[(False, False), (False, False)],
fill_value=(999999, 1.e+20),
dtype=[(‘a’, ‘<i4’), (‘b’, ‘<f8’)])

以下函数也可以创建掩码数组:

函数名	功能
`asarray`(a[, dtype, order])	基于给定的数值类型将输入数据转换为掩码数组
`asanyarray`(a[, dtype])	不改变子类的前提下，将输入数据转换为掩码数组
`fix_invalid`(a[, mask, copy, fill_value])	将输入数组中的无效元素用填充值进行替代
`masked_equal`(x, value[, copy])	对数组中等于value的值进行掩码操作
`masked_greater`(x, value[, copy])	对数组中大于value的值进行掩码操作
`masked_greater_equal`(x, value[, copy])	对数组中大于等于value的值进行掩码操作
`masked_inside`(x, v1, v2[, copy])	对数组中落在给定区间的值进行掩码操作
`masked_invalid`(a[, copy])	对数组中无效数据（例如NaN或inf）进行掩码操作
`masked_less`(x, value[, copy])	对数组中小于value的值进行掩码操作
`masked_less_equal`(x, value[, copy])	对数组中小于等于value的值进行掩码操作
`masked_not_equal`(x, value[, copy])	对数组中不等于value的值进行掩码操作
`masked_object`(x, value[, copy, shrink])	对数组（元素为’cats’等对象）中等于value的值进行掩码操作
`masked_outside`(x, v1, v2[, copy])	对数组中落在给定区间之外的值进行掩码操作
`masked_values`(x, value[, rtol, atol, copy, …])	被掩码部分替换为`--`
`masked_where`(condition, a[, copy])	对数组中满足条件的部分进行掩码操作

访问数据

掩码数组的底层数据可以通过以下方式进行访问:

通过data属性。输出是数组的视图，该数组的类型取决于掩码数组创建时的底层数据类型，可能为numpy.ndarray或其子类。
通过__array__方法。输出为多维数组numpy.ndarray。
直接将掩码数组的视图视为多维数组numpy.ndarray或其子类之一(实际上是使用data属性来完成)。
通过使用getdata函数。
如果某些项被标已经被标记为无效，那么这些方法的结果都差强人意。有一个通用规则，如果需要一个没有任何掩码项的数组表示，建议使用填充filled的方法填充数组。

访问掩码

掩码数组可以通过其mask属性获取掩码。我们必须记住掩码中的True表示无效数据。使用getmask和getmaskarray函数也可以获取到掩码。如果x为掩码数组getmask(x)将返回x的掩码，否则返回nomask。如果x为掩码数组getmaskarray(x)将返回x的掩码。如果x没有无效值或者其不为掩码数组，该函数返回len(x)个False组成的布尔型数组。

仅获取有效值

为了检索数组中的有效值，我们可以使用掩码取反作为索引。掩码取反操作可以使用函数numpy.logical_not来完成，或者仅仅使用~操作符:

x = ma.array([[1, 2], [3, 4]], mask=[[0, 1], [1, 0]])
x[~x.mask]

masked_array(data=[1, 4],
mask=[False, False],
fill_value=999999)

另外一种检索有效值的方法是使用compressed方法，这个方法将返回一维向量ndarray（或者它的一个子类，取决于baseclass属性的值）:

x.compressed()

array([1, 4])
备注:compressed的返回值通常为1维。

修改掩码

屏蔽一个条目

将一个掩码数组中的一个或多个特定项标记为无效的推荐方法是将掩码值masked赋给它们:

x = ma.array([1, 2, 3])
x[0] = ma.masked
x

masked_array(data=[–, 2, 3],
mask=[ True, False, False],
fill_value=999999)

y = ma.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
y[(0, 1, 2), (1, 2, 0)] = ma.masked
y

masked_array(
data=[[1, --, 3],
[4, 5, --],
[–, 8, 9]],
mask=[[False, True, False],
[False, False, True],
[ True, False, False]],
fill_value=999999)

z = ma.array([1, 2, 3, 4])
z[:-2] = ma.masked
z

masked_array(data=[–, --, 3, 4],
mask=[ True, True, False, False],
fill_value=999999)

另外一种方法就是使用mask直接修改掩码，但是这种方法已经被废除了。
注意：
当使用简单的，非结构化的数据类型创建新的掩码数组时，掩码会被初始化为nomask，相当于布尔值序列全为False。
一个数组中的所有元素可以一并设置其掩码为True:

x = ma.array([1, 2, 3], mask=[0, 0, 1])
x.mask = True
x

masked_array(data=[–, --, --],
mask=[ True, True, True],
fill_value=999999,
dtype=int32)

可以通过对布尔值序列进行赋值来确定数组中的哪些元素用掩码表示:

x = ma.array([1, 2, 3])
x.mask = [0, 1, 0]
x

masked_array(data=[1, --, 3],
mask=[False, True, False],
fill_value=999999)