《Python机器学习及实践：从零开始通往Kaggle竞赛之路》第3章进阶篇学习笔记（七）3.1.4.2并行搜索总结

本文链接：https://blog.csdn.net/wyatt007/article/details/106810638

本文是《Python机器学习及实践》第3章中关于并行搜索的学习笔记。介绍了如何利用多核处理器进行并行搜索以大幅减少网格搜索的耗时，同时保持模型性能。在实践中，通过并行搜索技术优化朴素贝叶斯模型的超参数，实现了在1分13秒内完成36项计算任务，提高了运算速度近6倍，而分类准确性保持在82.27%。

摘要由CSDN通过智能技术生成

3.1.4.2并行搜索

1、并行搜索

2、编程实践

3.1.4.2并行搜索

1、并行搜索

尽管采用网格搜索结合交叉验证的方法，来寻找更好超参数组合的过程非常耗时；然而，一旦获取比较好的超参数组合，则可以保持一段时间使用。因此这是值得推荐并且相对一劳永逸的性能提升方法。更可喜的是，由于各个新模型在执行交叉验证的过程中间是互相独立的，所以可以充分利用多核处理器（Multicore processor）甚至是分布式的计算资源来从事并行搜索（Parallel Grid Search），这样能够成倍地节省运算时间。

2、编程实践

对超参数搜索的过程略作修改，替换为并行搜索，看看会有怎样的效率提升。

# 代码67：使用多个线程对文本分类的朴素贝叶斯模型的超参数组合执行并行化的网格搜索
# 从sklearn.datasets中导入20类新闻文本抓取器。
from sklearn.datasets import fetch_20newsgroups
# 导入numpy，并且重命名为np。
import numpy as np

# 使用新闻抓取器从互联网上下载所有数据，并且存储在变量news中。
news = fetch_20newsgroups(subset='all')

# 从sklearn.model_selection中导入train_test_split用来分割数据。
from sklearn.model_selection import train_test_split

# 对前3000条新闻文本进行数据分割，25%文本用于未来测试。
X_train, X_test, y_train, y_test = train_test_split(news.data[:3000], news.target[:3000], test_size=0.25, random_state=33)

# 导入支持向量机（分类）模型。
from sklearn.svm import SVC

# 导入TfidfVectorizer文本抽取器。
from sklearn.feature_extraction.text import TfidfVectorizer
# 导入Pipeline。
from sklearn.pipeline import Pipeline

# 使用Pipeline简化系统搭建流程，将文本抽取与分类器模型串联起来。
clf = Pipeline([('vect', TfidfVectorizer(stop_words='english', analyzer='word')), ('svc', SVC())])

# 这里需要试验的2个超参数的的个数分别是4、3，svc__gamma的参数共有10^-2, 10^-1...。这样我们一共有12种的超参数组合，12个不同参数下的模型。
parameters = {'svc__gamma': np.logspace(-2, 1, 4), 'svc__C': np.logspace(-1, 1, 3)}

# 从sklearn.grid_search中导入网格搜索模块GridSearchCV。
from sklearn.model_selection import Grid