Datawhale AI 夏令营:siRNA药物药效预测-模型及方法介绍

LightGBM

LightGBM(Light Gradient Boosting Machine)是一种基于梯度提升框架(Gradient Boosting Framework)的机器学习算法,比传统的梯度提升决策模型有更快的训练速度和更高的准确性。在决策树的生成过程中,采用直方图算法;在减少训练时间和内存占用方面,使用带有leafwise的策略的树进行生长。 
在使用该模型之前,需要安装库:pip install ligntgbm。它的核心是由C++实现,但是提供了python接口。python环境中需要安装numpy和scikit-learn等依赖库。
它的核心优化技术包括以下几个方面:

①互斥特征捆绑(Exclusive Feature Bundling):将相似的特征记性捆绑,减少训练过程中的计算和存储开销。
②直方图算法:通过该算法近似寻找最优分割点,以提升计算速度。
③基于梯度的单边采样(Gradientbased OneSide Sampling):在每次迭代中,根据当前模型的梯度信息对样本进行采样,以加速训练过程。
④特征并行化:让每个计算单元(或称为worker)处理数据集的一个或多个特征子集,独立地计算每个特征子集的统计信息、最佳划分点或其他相关指标。之后将局部结果汇总,并用于确定全局最优的特征选择和参数设置。⑤数据并行化:把数据划分成若干块分别映像到不同的处理机上,每一台处理机运行同样的处理程序对所分派的数据进行处理。

⑥基于Hessian的投影方法:利用Hessian矩阵的投影来近似目标函数在约束条件下的局部曲率,并通过迭代更新解向量来逼近最优解。

网格搜索

网格搜索是一项模型超参数(即需要预先优化设置而非通过训练得到的参数)优化技术,常用于优化三个或者更少数量的超参数,本质是一种穷举法。对于每个超参数,使用者选择一个较小的有限集去探索。然后,这些超参数笛卡尔乘积得到若干组超参数。网格搜索使用每组超参数训练模型,挑选验证集误差最小的超参数作为最好的超参数。

例如,我们有三个需要优化的超参数A,B,C,候选的取值分别是{1,2},{3,4},{5,6}。则所有可能的参数取值组合组成了一个8个点的3维空间网格如下:

{(1,3,5),(1,3,6),(1,4,5),(1,4,6),(2,3,5),(2,3,6),(2,4,5),(2,4,6)}

网格搜索就是通过遍历这8个可能的参数取值组合,进行训练和验证,最终得到最优解。

贝叶斯优化

贝叶斯优化主要应用于以下场景: 函数成本评估复杂(训练时间长,调参成本高)、模型黑盒(无法直接观察目标函数)、优化目的为全局最优。

贝叶斯优化的主要模块如下:

①目标函数:这是我们要优化的函数。在许多现实问题中,评估目标函数可能需要大量计算、耗时或资源密集型。对于我们的示例,我们的目标函数是使用给定的超参数训练模型并返回其性能。

②概率模型:贝叶斯优化使用概率模型来估计函数。通常使用高斯过程 (GP),因为它们不仅提供每个点的平均预测,而且还量化该预测的不确定性(方差)。

③获取功能:该功能指导优化过程。它使用 GP 提供的均值和方差来建议目标函数中要评估的下一个点。常见的获取函数包括预期改进 (EI)、改进概率 (PI) 和置信上限 (UCB)。

④贝叶斯优化循环:这是一个迭代过程,其中模型使用目标函数中的新数据点进行更新,并且采集函数建议下一个要评估的点。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值