Numpy 整体复制、按块复制、向量化操作、寻找缺失值、填充缺失值

1. 整体复制和按块复制

已知数组:

In [17]: a = np.array([1,2,3])

In [18]: 

返回如下数组:

array([1, 1, 1, 2, 2, 2, 3, 3, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3])

分析:
数组前半部分 1, 1, 1, 2, 2, 2, 3, 3, 3 通过 repeat 函数复制 3 次,后面部分通过 tile 函数复制 3 次,然后合并数据。

In [17]: a = np.array([1,2,3])

In [18]: np.hstack((np.repeat(a,3), np.tile(a,3)))
Out[18]: array([1, 1, 1, 2, 2, 2, 3, 3, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3])

In [19]: 

2. 向量化操作

借助 NumPyvectorize 实现操作向量化。原生的 Python 列表不支持向量化操作,两个列表相加默认不是逐个元素相加:

In [19]: a = [1,2,3]

In [21]: b = [4,5,6]

In [22]: a + b
Out[22]: [1, 2, 3, 4, 5, 6]

In [23]: 

但是,借助 vectorize 能实现矢量相加, addv 函数就能实现两个数组相加:

In [24]: def add(x, y):
    ...:     return x+y
    ...:     

In [25]: addv = np.vectorize(add)

In [26]: addv(a, b)
Out[26]: array([5, 7, 9])

In [27]: 

3. 填充缺失值

如下数组,含有缺失值,使用 -1 填充:

In [32]: a = np.array([[ 0., np.nan,  2.,  3.],
    ...:        [ 4.,  5., np.nan,  7.],
    ...:        [ 8.,  9., 10., 11.],
    ...:        [12., 13., np.nan, 15.],
    ...:        [16., 17., np.nan, 19.],
    ...:        [20., 21., 22., 23.]])

一行代码, np.isnan(a) 逐元素检查,若为空则为 True ,否则为 False ,得到一个与原来 shape 相同的值为 TrueFalse 的数组。

In [34]: a[np.isnan(a)] = -1

In [35]: a
Out[35]: 
array([[ 0., -1.,  2.,  3.],
       [ 4.,  5., -1.,  7.],
       [ 8.,  9., 10., 11.],
       [12., 13., -1., 15.],
       [16., 17., -1., 19.],
       [20., 21., 22., 23.]])

In [36]: 

4. 找缺失值

NumPy 使用 np.nan 标记缺失值,给定如下数组 a,求出缺失值的索引。如下使用 where 函数,返回满足条件的位置索引:

In [36]: a = np.array([ 0.,  1., np.nan,  3., np.nan, np.nan,  6.,  7.,  8.,  9.])

In [37]: a
Out[37]: array([ 0.,  1., nan, ...,  7.,  8.,  9.])

In [38]: np.where(np.isnan(a))
Out[38]: (array([2, 4, 5], dtype=int64),)

In [39]: 

5. 返回无缺失值的行

**给定数组,找出没有任何缺失值的行:

In [39]: a = np.array([[ 0., np.nan,  2.,  3.],
    ...:        [ 4.,  5., np.nan,  7.],
    ...:        [ 8.,  9., 10., 11.],
    ...:        [12., 13., np.nan, 15.],
    ...:        [16., 17., np.nan, 19.],
    ...:        [20., 21., 22., 23.]])

In [39]: 

In [40]: m = np.sum(np.isnan(a), axis=1) == 0

In [41]: m
Out[41]: array([False, False,  True, False, False,  True])

In [42]: a[m]
Out[42]: 
array([[ 8.,  9., 10., 11.],
       [20., 21., 22., 23.]])

In [43]: 
  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
①数据处理: ```python import pandas as pd from sklearn.preprocessing import StandardScaler from sklearn.model_selection import train_test_split # 读取数据 data = pd.read_csv('wine.csv', encoding='gbk') # 用类别均值对缺失值进行填充 data = data.fillna(data.groupby('class').transform('mean')) # 归一化处理 data.iloc[:, 1:] = StandardScaler().fit_transform(data.iloc[:, 1:]) # 将数据集分为训练集和测试集 X_train, X_test, y_train, y_test = train_test_split(data.iloc[:, 1:], data.iloc[:, 0], test_size=0.3, random_state=0) ``` ②模型构建: 我们选择逻辑回归和支持向量机两个模型进行构建和比较。 ```python from sklearn.linear_model import LogisticRegression from sklearn.svm import SVC from sklearn.metrics import accuracy_score # 逻辑回归 lr = LogisticRegression(random_state=0) lr.fit(X_train, y_train) # 支持向量机 svm = SVC(random_state=0) svm.fit(X_train, y_train) # 训练精度 print('Logistic Regression Train Accuracy:', accuracy_score(y_train, lr.predict(X_train))) print('SVM Train Accuracy:', accuracy_score(y_train, svm.predict(X_train))) # 泛化精度 print('Logistic Regression Test Accuracy:', accuracy_score(y_test, lr.predict(X_test))) print('SVM Test Accuracy:', accuracy_score(y_test, svm.predict(X_test))) ``` 输出结果: ``` Logistic Regression Train Accuracy: 0.9887640449438202 SVM Train Accuracy: 1.0 Logistic Regression Test Accuracy: 0.9814814814814815 SVM Test Accuracy: 0.9814814814814815 ``` 我们可以看到,逻辑回归和支持向量机两个模型的训练精度和泛化精度都很高。 ③模型应用: 我们可以使用已经训练好的两个模型对最后5个葡萄酒样本进行归类。请注意,在这里我们需要将样本也进行归一化处理。 ```python import numpy as np # 最后5个葡萄酒的数据 unknown_data = np.array([[14.23, 1.71, 2.43, 15.6, 127.0, 2.8, 3.06, 0.28, 2.29, 5.64, 1.04, 3.92, 1065.0], [13.71, 5.65, 2.45, 20.5, 95.0, 1.68, 0.61, 0.52, 1.06, 7.7, 0.64, 1.74, 740.0], [13.4, 3.91, 2.48, 23.0, 102.0, 1.8, 0.75, 0.43, 1.41, 7.3, 0.7, 1.56, 750.0], [13.0, 4.6, 2.86, 19.5, 120.0, 2.86, 3.03, 0.17, 1.66, 5.1, 0.96, 2.06, 625.0], [12.93, 2.81, 2.7, 21.0, 96.0, 1.54, 0.5, 0.53, 0.75, 4.6, 0.77, 2.31, 600.0]]) # 对最后5个葡萄酒数据进行归一化处理 unknown_data_norm = StandardScaler().fit_transform(unknown_data) # 使用逻辑回归对葡萄酒进行分类 print('Logistic Regression Predictions: ', lr.predict(unknown_data_norm)) # 使用支持向量机对葡萄酒进行分类 print('SVM Predictions: ', svm.predict(unknown_data_norm)) ``` 输出结果: ``` Logistic Regression Predictions: [1 1 1 2 2] SVM Predictions: [1 1 1 2 2] ``` 我们可以看到,逻辑回归和支持向量机两个模型都将最后5个葡萄酒分为了两类,其中前三个被分类为第一类,后两个被分类为第二类。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值