基于maltab数据探索案例——鸢尾花数据集以及算法

基于SVM的鸢尾花分类-数据探测
一、实验目的
使用MATLAB实现鸢尾花数据的可视化、分类、聚类,可以让我们更直观地理解数据特征、提升数据分析的效率。在深入探讨这一过程之前,重要的是要理解数据集的特征:鸢尾花数据集是一个经典的多变量数据集,机器学习领域常用的一个数据集。包含150个样本,每个样本有4个特征(萼片长度、萼片宽度、花瓣长度、花瓣宽度)和对应的这些样本分为三类,分别对应鸢尾花的三个品种:Setosa、Versicolour和Virginica。由于鸢尾花数据集具有特征明确、类别清晰的特点,通过可视化可以观察不同特征之间的关系,分类和聚类则是根据特征将数据分成不同的类别,从而实现对鸢尾花种类的精准预测。
二、数据探索
1.数据集简介
iris数据集的中文名是安德森鸢尾花卉数据集,英文全称是Anderson’s Iris data set,是一种多重变量分析的数据集,包含150个样本。每个样本包含了五个元素,其中前四个为特征特征元素,分别为花萼长度、花萼宽度、花瓣长度、花瓣宽度,最后一个为品种信息,即目标属性(也叫target或label。包括山鸢尾Setosa、变色鸢尾Versicolour和维吉尼亚鸢尾Virginica三个品种)。所以iris数据集是一个150行5列的二维表。部分样本数据如下表所示:

图表2- 1数据集表

2.数据导入
首先对数据集进行导入数据集名称:鸢尾花(Iris)数据集
数据规模:包含150个数据样本,分为3类(Setosa、Versicolour、Virginica),每类50个数据,特征属性:每个数据包含4个属性,即花萼长度、花萼宽度、花瓣长度、花瓣宽度。
%导入数据

flower=readtable('iris.csv')
sepall=flower.Sepal_Length
sepalw=flower.Sepal_Width
petall=flower.Petal_Length
petalw=flower.Petal_Width
species=flower.Species

图表2- 2数据集表显示

图表2- 3数据导入显示

3.数据质量分析
下面经行数据探索,对鸢尾花数据集进行数据质量分析,第一步首先就要进行缺失值分析,分析数据集中的萼片长度,萼片宽度,花瓣长度,花瓣宽度,以及花瓣种类中是否有缺失值,为后续分析打下基础。
下面为展示代码

%(1)缺失值分析
miss=ismissing(flower)
number=sum(miss)
%缺失值为0
%缺失率为0
rate=miss/150

图表2- 4缺失值分析
由结果可以看出来,鸢尾花数据集缺失值为0. 经过检查,数据集中不存在缺失值,即每个特征的缺失值数量均为0,缺失率故也为0,因此,不用进行任何缺失值处理。
下面进行异常值分析,首先进行离群点分析,通过函数max.min ,sort进行简单的统计量分析

%(2)异常值分析
%离群点分析-简单的统计量分析
sepalw1=max(sepalw)
sepalw2=min(sepalw)
seplaw3=sort(sepalw)

sepall1=max(sepall)
sepall2=min(sepall)
sepall3=sort(sepall)

图表2- 5异常值分析
下面使用函数boxplot绘制箱型图进行离群点分析,分析萼片的长度,萼片的宽度,花瓣的长度,花瓣的宽度以及和鸢尾花种类的箱型图离群点分析,并进行数据可视化展示。

%%绘制箱型图
figure
%speall的Sepal Length'——'萼片长度'
subplot(1,2,1)
boxplot(sepall)
title("萼片长度箱型图")
subplot(1,2,2)
boxplot(sepall,species)
title("萼片长度和鸢尾花种类的箱型图")
 
图表2- 6萼片长度箱型图
figure
%spealw的Sepal Width'——'萼片宽度
subplot(1,2,1)
boxplot(sepalw)
title("萼片宽度的箱型图")
subplot(1,2,2)
boxplot(sepalw,species)
title("萼片宽度和鸢尾花种类的箱型图")


 
图表2- 7萼片宽度箱型图

figure
subplot(1,2,1)
%Petal Length':'花瓣长度
boxplot(petall)
subplot(1,2,2)
title("花瓣长度的箱型图")
boxplot(petall,species)
title("花瓣长度和鸢尾花种类的箱型图")

 
图表2- 8花瓣长度箱型图

figure
subplot(1,2,1)
%Petal Width':'花瓣宽度
boxplot(petalw)
title("花瓣宽度的箱型图")
subplot(1,2,2)
boxplot(petalw,species)
title("花瓣宽度和鸢尾花种类的箱型图")
%鸢尾花种类
%boxplot(species)
%title("鸢尾花种类")

图表2- 9花瓣宽度箱型图
通过箱型图我们可以发现通过计算各特征的最大值、最小值和中位数,我们发现数据集中不存在明显的异常值。进一步通过绘制箱型图,我们确认了数据集中没有离群点,所有数据点均在正常范围内。
4.数据特征分析
首先进行数据的分布分析,通过词云图,饼图,条形图,直方图等形式进行展示,词云图显示了不同种类的相对频率,而饼图则展示了三种鸢尾花的相对比例。

%词云图
wordcloud(flower.Species)
title("花的种类词云图")
%饼图
%花瓣种类的饼图
figure
x=categorical({''})
species=categorical(species)
pie(species)
title("鸢尾花种类饼图")

图表2- 4-1词云图分析

图表2- 4-2鸢尾花种类饼图

下面经行直方图可视化显示,运用直方图进行对人萼片长度,萼片宽度,花瓣长度,花瓣宽度的直方图展示。
后续二叉树请关注留言。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值