《机器学习》——一个筛选数据的小方法:[data[data[:, -1] == 1]]

例:[data[data[:, -1] == 1]]

[data[data[:, -1] == 1]] 这个代码中:

  • data是一个二维数组(或者可以理解为一个表格,其中包含了多行多列的数据)
  • 代码的目的是从data中选取所有最后一列(即索引为-1的列)值为1的行。

详细解释如下:

  • data[:, -1]:这部分是数组的切片操作。data是一个二维数组,: 表示选取所有行-1 表示选取最后一列。因此,data[:, -1] 获取了data数组中所有行的最后一列的数据。

  • data[:, -1] == 1:这部分将上一步得到的所有最后一列的值与1进行比较,生成一个布尔数组(或类似布尔索引的结构),其中True表示对应位置的值为1,False表示不是1

  • data[data[:, -1] == 1]:最后,这个布尔数组被用作索引来筛选data数组。具体来说,它会选取data中所有最后一列值为1的行

-举个例子,如果data是这样的:

import numpy as np  
  
data = np.array([
    [3, 18, 3],
    [3, 22, 1],
    [7, 8, 0],
    [9, 10, 1],
    [5, 6, 2],
    [12, 73, 8],
    [22, 24, 1],
    [27, 99, 12]
])

那么,data[data[:, -1] == 1]将会得到:

print(data[:, -1] == 1)
print(data[data[:, -1] == 1])
"""
结果:
[False  True False  True False False  True False]

[[ 3 22  1]
 [ 9 10  1]
 [22 24  1]]
"""

这是因为只有第2行、第4行和第7行的最后一列的值是1。

  • 给定不同的条件筛选想要的数据:
# 筛选出第1列等于3的所有行
data[data[:, 0] == 3]

# 筛选出第2列等于18的所有行
data[data[:, 1] == 18]

# 筛选出第1列大于10的所有行
data[data[:, 0] > 10]

# 筛选出最后1列不等于1的所有行
data[data[:, -1] != 1]

应用场景:

  • 当需要从数据集中基于某个特定列的值来筛选行时。
  • 在分类任务中,根据标签列的值来筛选数据。
  • 在数据预处理阶段,去除或选择满足特定条件的样本。

总结:

  • 此方法可以轻松地修改条件(如将1改为其他值或更复杂的表达式),以适应不同的筛选需求
  • 对于中等大小的数据集,这种方法通常足够快
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值