支持向量机(Support Vector Machine,SVM)通常是通过离线训练完成的,不过有一些方法可以通过增量学习(Incremental Learning)来逐步更新模型。增量学习适用于当新数据不断到来时,我们希望在不重新使用整个数据集进行训练的情况下更新模型。
以下是使用 scikit-learn
库中的 SGDClassifier
实现增量学习的示例代码。注意,这里使用的是线性 SVM,而不是经典的核函数 SVM。增量学习的方法在在线学习场景中非常有用。
from sklearn.linear_model import SGDClassifier
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
# 生成示例数据
X, y = make_classification(n_samples=1000, n_features=20, n_informative=10, n_classes=2, random_state=42)
# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# 初始化增量学习的 SVM 模型
svm_model = SGDClassifier(loss='hinge', max_iter=1000, random_state=42)
# 初始模型训练
svm_model.fit(X_train, y_train)
# 预测
y_pred = svm_model.predict(X_test)
# 输出初始模型准确率
print(f"Initial Accuracy: {accuracy_score(y_test, y_pred)}")
# 模拟增量学习,添加新数据并更新模型
new_data_X, new_data_y = make_classification(n_samples=200, n_features=20, n_informative=10, n_classes=2, random_state=0)
svm_model.partial_fit(new_data_X, new_data_y)
# 预测
y_pred_incremental = svm_model.predict(X_test)
# 输出增量学习后模型准确率
print(f"Incremental Learning Accuracy: {accuracy_score(y_test, y_pred_incremental)}")
这个示例首先使用一部分数据训练一个线性 SVM 模型,然后模拟了新数据的到来,通过 partial_fit
方法更新模型。请注意,增量学习的效果可能取决于数据的分布和模型的特性,因此在实际应用中需要谨慎调整参数和监控性能。