机器学习中常见搜索算法-CSDN博客

本文链接：https://blog.csdn.net/weixin_45556264/article/details/147724199

机器学习中的搜索算法主要用于优化模型参数、特征选择、超参数调优或近似最近邻搜索等任务。常见的搜索算法分类及典型方法如下

1. 参数/超参数搜索算法

(1) 网格搜索（Grid Search）

原理：遍历所有可能的参数组合，选择最优解。
优点：简单、全局最优。
缺点：计算成本高，维数灾难。

工具：sklearn.model_selection.GridSearchCV

from sklearn.model_selection import GridSearchCV
param_grid = {'C': [0.1, 1, 10], 'kernel': ['linear', 'rbf']}
grid_search = GridSearchCV(SVC(), param_grid, cv=5)
grid_search.fit(X_train, y_train)

(2) 随机搜索（Random Search）

原理：从参数空间中随机采样组合。
优点：比网格搜索更高效，适合高维参数空间。

工具：sklearn.model_selection.RandomizedSearchCV

from sklearn.model_selection import RandomizedSearchCV
param_dist = {'C': [0.1, 1, 10], 'kernel': ['linear', 'rbf']}
random_search = RandomizedSearchCV(SVC(), param_dist, n_iter=10, cv=5)
random_search.fit(X_train, y_train)

(3) 贝叶斯优化（Bayesian Optimization）

原理：基于贝叶斯定理，用高斯过程建模目标函数，主动选择最有潜力的参数。
优点：高效，适合昂贵的目标函数（如深度学习调参）。

工具：scikit-optimize、Optuna、Hyperopt

from skopt import BayesSearchCV
opt = BayesSearchCV(SVC(), {'C': (0.1, 10.0), 'kernel': ['linear', 'rbf']}, n_iter=10, cv=5)
opt.fit(X_train, y_train)

(4) 进化算法（Evolutionary Algorithms）

原理：模拟自然选择（变异、交叉、选择）。
优点：适合非凸、多峰问题。

工具：DEAP、TPOT（自动机器学习）

from tpot import TPOTClassifier
tpot = TPOTClassifier(generations=5, population_size=20)
tpot.fit(X_train, y_train)

2. 特征选择搜索算法

(1) 穷举搜索

前向选择（Forward Selection）：逐步添加特征。
后向消除（Backward Elimination）：逐步删除特征。
工具：mlxtend.SequentialFeatureSelector

(2) 基于模型的搜索

递归特征消除（RFE）：
使用模型权重迭代剔除特征。

from sklearn.feature_selection import RFE
selector = RFE(estimator=LogisticRegression(), n_features_to_select=5)
selector.fit(X, y)

(3) 元启发式算法

遗传算法（GA）
粒子群优化（PSO）
适用于高维特征空间。

3. 近似最近邻搜索（ANN）

用于高维数据快速检索（如推荐系统、图像检索）：

KD-Tree：适合低维数据。
Ball-Tree：适合高维或非欧数据。
LSH（Locality-Sensitive Hashing）：适合超高维数据。
HNSW（Hierarchical Navigable Small World）：当前最先进的图索引方法。
工具库：FLANN、FAISS、Annoy。

4. 树搜索与图搜索算法

(1) 决策树相关

贪心搜索：CART、ID3等树的构建算法。
分支定界（Branch and Bound）：用于最优决策树剪枝。

(2) 强化学习中的搜索

蒙特卡洛树搜索（MCTS）：AlphaGo的核心算法。
A*搜索：结合启发式函数的路径规划。

5. 自动机器学习（AutoML）中的搜索

神经架构搜索（NAS）：
- 基于强化学习（如Google的NASNet）。
- 基于进化算法（如AmoebaNet）。
元学习（Meta-Learning）：学习如何快速搜索最优参数。

工具与库推荐

任务	工具
超参数调优	Optuna、Hyperopt、Scikit-optimize
特征选择	Scikit-learn、MLxtend
近似最近邻搜索	FAISS、Annoy、HNSW
自动机器学习	TPOT、Auto-Sklearn、H2O.ai