学习记录634@python数据降维之PCA

本文介绍了在建立预测模型时遇到的高维特征问题,以及如何使用PCA(主成分分析)进行数据降维。通过实例展示了PCA如何将多维特征转化为主成分,降低模型复杂度并减少共线性。同时,代码演示了如何在实际数据集上应用PCA,包括数据标准化和主成分的解析公式展示。
摘要由CSDN通过智能技术生成

概述

建立模型分析特征数据时,很可能会面临特征数据维度过大的问题。例如,根据已有的信用卡持有人信息及其违约数据来建立信用卡违约预测模型时,数据可能包含申请人的收入、年龄、性别、婚姻状况、工作单位等数百个维度的特征。如果将所有特征数据都用来拟合模型,会提高模型的复杂度,造成过拟合风险显著增大,且不同的特征数据间可能存在共线性。此时就需要对数据进行降维,以浓缩特征向量。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

代码实战

import numpy as np  
# 也可以通过pandas库构造DataFrame数据,效果一样
X = np.array([[1, 1], [2, 2], [3, 3]])
from sklearn.decomposition import PCA
pca = PCA(n_components=1)
pca.fit(X)
X_transformed = pca.transform(X)
print(X_transformed)
#数据降维其实是通过线性组合完成的,通过如下代码可以获取线性组合系数。
print(pca.components_)

a = pca.components_[0][0]
b = pca.components_[0][1]
print(str(a) + ' * X + ' +  str(b) + ' * Y')

在这里插入图片描述

import pandas as pd
X = pd.DataFrame([[45, 0.8, 9120], [40, 0.12, 2600], [38, 0.09,3042], [30, 0.04, 3300], [39, 0.21, 3500]], columns=['年龄(岁)', '负债比率', '月收入(元)'])
# 标准化
from sklearn.preprocessing import StandardScaler
X_new = StandardScaler().fit_transform(X)
from sklearn.decomposition import PCA
pca = PCA(n_components=2)
pca.fit(X_new)
X_transformed = pca.transform(X_new)
print(pca.components_)
dim = ['年龄(岁)', '负债比率', '月收入(元)']
for i in pca.components_:
    formula = []
    for j in range(len(i)):
        formula.append(str(i[j]) + ' * ' + dim[j])
    print(" + ".join(formula))

分成了两个主成分
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值