机器学习：iris数据集

浊酒南街

已于 2023-05-10 20:40:20 修改

阅读量3.4k

点赞数 2

分类专栏： # 推荐系统与机器学习文章标签：机器学习 python 人工智能

于 2023-05-10 20:36:38 首次发布

本文链接：https://blog.csdn.net/weixin_43597208/article/details/130608989

版权

推荐系统与机器学习专栏收录该内容

47 篇文章

订阅专栏

鸢尾花数据集是常用机器学习示例，包含150个样本的花萼长度、花萼宽度、花瓣长度、花瓣宽度四个特征，用于三类鸢尾花的分类。文章展示了使用scikit-learn库加载数据，以及数据的基本操作，包括数据类型、维度和属性名。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、iris数据集简介

iris数据集的中文名是安德森鸢尾花卉数据集，英文全称是Anderson`s Iris data set。iris包含150个样本，对应数据集的每行数据。每行数据包含每个样本的四个特征，所以iris数据集是一个150行4列的二维表。

通俗地说，iris数据集是用来给花做分类的数据集，每个样本包含了花萼长度、花萼宽度、花瓣长度、花瓣宽度四个特征，我们需要建立一个分类器，分类器可以通过样本的四个特征来判断样本属于山鸢尾（setosa）、变色鸢尾（versicolor）、维吉尼亚鸢尾（virginica）这三个品种中的哪一个。
iris常用于监督式学习中分类模型：根据花的四个特征预测鸢尾花卉属于（iris-setosa，iris-versicolour，iris-virginica）中的哪一品种。

二、基本数据操作

# iris数据集加载
from sklearn import datasets
iris = datasets.load_iris()
#展示数据
#print(iris.data)
#展示每列的属性名
print(iris.feature_names)
#展示输出目标结果以及结果的含义
print(iris.target)
print(iris.target_names)
#查看输入和输出数据类型
print(type(iris.data))
print(type(iris.target))
#确认行列维度
print(iris.data.shape)
print(iris.target.shape)

[‘sepal length (cm)’, ‘sepal width (cm)’, ‘petal length (cm)’, ‘petal width (cm)’]
[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
2 2]
[‘setosa’ ‘versicolor’ ‘virginica’]
<class ‘numpy.ndarray’>
<class ‘numpy.ndarray’>
(150, 4)
(150,)

import pandas  as pd
from sklearn import datasets
iris = datasets.load_iris()
df =pd.DataFrame(data =iris.data,columns = iris.feature_names)
df['class'] =iris.target
df['class'] =df['class'].map({0: iris.target_names[0], 1: iris.target_names[1], 2: iris.target_names[2]})
print(df.head(10))
#print(df.describe())