Datawhale AI 夏令营：siRNA药物药效预测-模型及方法介绍

最新推荐文章于 2024-10-16 09:19:27 发布

大浪2333333

最新推荐文章于 2024-10-16 09:19:27 发布

阅读量309

点赞数 3

文章标签：人工智能

本文链接：https://blog.csdn.net/weixin_51987551/article/details/140898757

版权

LightGBM

LightGBM（Light Gradient Boosting Machine）是一种基于梯度提升框架（Gradient Boosting Framework）的机器学习算法，比传统的梯度提升决策模型有更快的训练速度和更高的准确性。在决策树的生成过程中，采用直方图算法；在减少训练时间和内存占用方面，使用带有leafwise的策略的树进行生长。
在使用该模型之前，需要安装库：pip install ligntgbm。它的核心是由C++实现，但是提供了python接口。python环境中需要安装numpy和scikit-learn等依赖库。
它的核心优化技术包括以下几个方面：

①互斥特征捆绑（Exclusive Feature Bundling）：将相似的特征记性捆绑，减少训练过程中的计算和存储开销。
②直方图算法：通过该算法近似寻找最优分割点，以提升计算速度。
③基于梯度的单边采样（Gradientbased OneSide Sampling）：在每次迭代中，根据当前模型的梯度信息对样本进行采样，以加速训练过程。
④特征并行化：让每个计算单元（或称为worker）处理数据集的一个或多个特征子集，独立地计算每个特征子集的统计信息、最佳划分点或其他相关指标。之后将局部结果汇总，并用于确定全局最优的特征选择和参数设置。⑤数据并行化：把数据划分成若干块分别映像到不同的处理机上，每一台处理机运行同样的处理程序对所分派的数据进行处理。

⑥基于Hessian的投影方法：利用Hessian矩阵的投影来近似目标函数在约束条件下的局部曲率，并通过迭代更新解向量来逼近最优解。

网格搜索

网格搜索是一项模型超参数（即需要预先优化设置而非通过训练得到的参数）优化技术，常用于优化三个或者更少数量的超参数，本质是一种穷举法。对于每个超参数，使用者选择一个较小的有限集去探索。然后，这些超参数笛卡尔乘积得到若干组超参数。网格搜索使用每组超参数训练模型，挑选验证集误差最小的超参数作为最好的超参数。

例如，我们有三个需要优化的超参数A,B,C，候选的取值分别是{1,2}，{3,4}，{5,6}。则所有可能的参数取值组合组成了一个8个点的3维空间网格如下：

{（1,3,5），（1,3,6），（1,4,5），（1,4,6），（2,3,5），（2,3,6），（2,4,5），（2,4,6）}

网格搜索就是通过遍历这8个可能的参数取值组合，进行训练和验证，最终得到最优解。