(六)分类算法比较及可视化-感知器、逻辑斯蒂回归、K-近邻、朴素贝叶斯、线性支持向量机、高斯核的支持向量机、多项式核的支持向量机、决策树、随机森林、Adaboost、梯度提升树[机器学习代码]

这篇博客主要介绍了机器学习中的多种分类算法,包括感知器、逻辑斯蒂回归、K-近邻、朴素贝叶斯、线性支持向量机等,并要求读者通过代码实现将这些模型应用于不同分布的样本数据集,进行7:3的训练集和测试集划分,计算测试集准确率并进行可视化展示。文章未包含理论部分,但鼓励读者讨论和分享学习经验。
摘要由CSDN通过智能技术生成

    机器学习课程总结,本系列文章代码注释为主。
    理论部分搬至博客上比较耗费时间,所以缺少理论部分。但是也欢迎大家一起探讨学习。
    如果需要理论部分的讲义,可私信(个人觉的讲的很好很全)。

文章目录

问题需求

现在提供了三组不同分布的样本,请选择以下算法针对三组数据分别训练模型,并可视化结果,可视化的示例如附件所示。

要求:

  1. 将每组样本按照7:3的比例随机分成训练集和测试集;

  2. 在训练集上分别训练分类模型:感知器、逻辑斯蒂回归、K-近邻、朴素贝叶斯、线性支持向量机、高斯核的支持向量机、多项式核的支持向量机、决策树、随机森林、Adaboost、梯度提升树;

  3. 计算测试集上的准确率,并将准确率显示到可视化界面中;

  4. 可视化结果时,不同类别的样本用不同形状的点加以区分,同类型的训练样本和测试样本用颜色区分。如标注为1的样本用形状1的点,标注为0的样本用形状2的点,在所有样本中,训练样本用一种颜色,测试样本用另一种颜色。

  5. 提供了两种格式的数据文件:csv和npy,自己选择使用哪一种格式。

代码

在这里插入图片描述

# coding: utf-8

# In[373]:


import numpy as np
import pandas as pd
from sklearn import svm
import matplotlib.pyplot as plt
from sklearn.tree import DecisionTreeClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn.linear_model import Perceptron
from sklearn.ensemble import AdaBoostClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.ensemble import RandomForestClassifier

# In[374]:

# 数据的读取
data_circles = pd.read_csv('./data_csv/data_circles.csv', header=None)
data_moons = pd.read_csv('./data_csv/data_moons.csv', header=None)
linearly_separable = pd.read_csv('./data_csv/linearly_separable.csv', header=None)
# print(data_moons)
# print(linearly_separable)


# In[375]:


# 数据集拆分
Cf = data_circles.iloc[:, :2]  # 特征
Cl = data_circles.iloc[:, -1].astype('int')  # 标签
cf_train, cf_test, cl_train, cl_test = train_test_split(Cf, Cl, test_size=0.3)
print(Cf)
print(Cl)
input()

Mf = data_moons.iloc[:, :2]  # 特征
Ml = data_moons.iloc[:, -1].astype('int'
1. K-近邻算法:K-近邻算法是一种基于实例的学习方法,它通过计算样本之间的距离,将新的样本赋予距离最近的K个样本中出现次数最多的类别,作为该新样本的类别。该算法简单易懂,但容易受到噪声和样本分布的影响。 2. 决策树算法决策树算法是一种基于形结构的分类方法,它通过对数据集进行分裂,不断构建形结构,最终得到一个决策树模型。决策树的优点是易于理解和解释,但容易出现过拟合问题。 3. 朴素贝叶斯算法朴素贝叶斯算法是一种基于概率统计的分类算法,它通过计算样本属于每个类别的概率,选择概率最大的类别作为该样本的分类。该算法简单、快速,但对于特征之间存在依赖关系的数据集效果不佳。 4. 逻辑回归算法逻辑回归算法是一种广义线性模型,它通过对数据进行建模,将输入特征映射到0到1之间的概率值,从而进行分类。该算法易于实现和解释,但容易受到异常值和共线性的影响。 5. 支持向量机算法支持向量机算法是一种基于边界的分类方法,它通过找到数据集中的最优超平面,将不同类别的样本分隔开来。该算法具有很好的泛化性能,但计算复杂度较高。 6. 随机森林算法随机森林算法是一种集成学习方法,它通过构建多个决策树,并对每个进行随机特征选择和样本选择,最终通过投票的方式进行分类。该算法具有很好的鲁棒性和泛化性能,但模型解释性较差。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Windalove

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值