2021华为杯-D题-傻瓜式复盘总结

题目

以下所有的知识点总结来自于:
(用于个人学习,侵权必删)
https://zhuanlan.zhihu.com/p/423246506
https://blog.csdn.net/LuohenYJ/article/details/107238504

已有条件:
给出了1974个训练样本和50个测试样本,每个样本有729个特征
每个训练样本有7个标签,分别是IC50值、pIC50值、和ADMET性质(包含5个标签)
IC50值、pIC50值是两个相关的连续变量。pIC50是IC50的负对数
ADMET性质的五个变标签都是布尔值

题目:
1.根据特征对IC50值和pIC50值影响的重要性进行排序,并给出前20个对IC50值和pIC50值最具有显著影响的特征
2.选择不超过20个特征,构建IC50值和pIC50值的定量预测模型,并计算测试样本的IC50值和pIC50值。
3.构建ADMET性质的分类预测模型,并计算测试样本的ADMET性质。
4.寻找并阐述哪些特征,以及这些特征在什么取值范围时,pIC50值取值较好,同时具有更好的ADMET性质(给定的五个ADMET性质中,至少三个性质较好)。

题目类型归类:
第一问主要问题:特征选择问题
第二问主要问题:回归预测问题
第三问主要问题:二分类问题
第四问主要问题:最优化问题

在使用机器学习模型之前,为简化模型,需要对题目做一些假设:
729个特征符合独立同分布
729个特征的值是准确可靠的
ADMET与IC50值和pIC50值是相互独立的

数据处理

在开展第一问之前,需要进行数据处理。包括:

相关特征(保留):对于学习任务(例如分类问题)有帮助,可以提升学习算法的效果;
无关特征(剔除):对于我们的算法没有任何帮助,不会给算法的效果带来任何提升;
冗余特征(剔除):不会对我们的算法带来新的信息,或者这种特征的信息可以由其他的特征推断出

本文首先把方差极小的特征删除,具体公式如下:
1.数据归一化(去量纲),保留原有特征分布。
在这里插入图片描述
2.方差过滤,剔除方差较小的特征。Var[X]= p(1-p)

sklearn中VarianceThreshold是特征选择的简单基准方法。它将删除方差未达到某个阈值的所有要素。默认情况下,它将删除所有零方差特征,即在所有样本中具有相同值的特征。

假设我们有一个具有布尔特征的数据集,我们想要删除80%以上的样本中要么是1要么是0的所有特征。布尔特征是伯努利随机变量,这些变量的方差由下式给出:

Var[X]= p(1-p)
因此我们可以使用阈值进行选择:0.8 * (1-0.8)

from sklearn.feature_selection import VarianceThreshold
X = [[0, 0, 1],[0, 1, 0], [1, 0, 0], [0, 1, 1], [0, 1, 0], [0, 1, 1]]
print("原始值为:",X)
selector = VarianceThreshold(threshold=(0.8 * (1 - 0.8)))
# 方差过滤后的值
# 这一步与selector.fit(X)和selector.transform(X)实现的功能一样
selector.fit_transform(X)

第一问:特征选择

使用了三种不同的方法进行特征选择:
灰色关联分析(GRA)
递归特征消除(RFE)
互信息法(MIR)

其中GRA用于表征线性关系,RFE和MIR用于表征非线性关系。

灰色关联度分析:

讲的超级清楚:https://blog.csdn.net/tangbiubiu/article/details/116012092?spm=1001.2014.3001.5501

最终得到的灰色关联度,每个特征对应一个值,值越大则关联度越大。

其余两种方法,可见最上方的知乎引用文档。

其他的特征提取方法学习: https://zhuanlan.zhihu.com/p/306057603

1.线性映射方法
主成分分析(PCA)
因子分析
2.流形学习
核化线性(KPCA)降维
t-SNE
多维标度法(MDS)
等距离映射(Isomap)
局部线性嵌入(LLE)

https://blog.csdn.net/qq_35759272/article/details/120839555

第二问:回归预测

可以采用BP神经网络进行预测,并用拟合优度,对第一问中的方法进行比较选取。同时完成第二问结果。

在这里插入图片描述

思考:回归系数的显著性检验用于线性回归预测中,非线性方法(如BP神经网络)中是否就不需要。

第三问:二分类问题

随机森林算法既可以做二分类模型,也可以进行特征选择。因此,本题选择这个算法就可以。

//朴素贝叶斯:情感分类。

第四问:最优化问题

此部分略过。采用最优化理论中的方法即可。

  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值