sklearn 数据集

# sklearn 数据集

# 鸢尾花分类的数据集
from sklearn.datasets import load_iris
from sklearn.datasets import load_boston
from sklearn.datasets import fetch_20newsgroups
"""
  return Bunch(  data=data, // 特征值
                 target=target, // 目标值
                 frame=frame,
                 target_names=target_names, // 目标值的名称
                 DESCR=fdescr,  // 整体的魔术
                 feature_names=feature_names,// 特征值的名称
                 filename=iris_csv_filename)
"""
#
# lr = load_iris()
#
# # lr Bunch的对象
# print(lr.feature_names)
# print("lr的特征值: ", lr.data)
"""         
     萼片的长度              萼片的宽度           花瓣的长度         花瓣的宽度                    类别
['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']   ['setosa' 'versicolor' 'virginica']
[4.9                        3.                      1.4                     0.2]                    0
[4.7                        3.2                     1.3                     0.2]                    1
[4.6                        3.1                     1.5                     0.2]                    2    

"""

#
# print(lr.target_names)
# print(lr.target)

"""
['setosa' 'versicolor' 'virginica']
0 1 2

"""
# lb = load_boston()
#
# # lb 就是波士顿房价的对象
#
# # 特征值
# print(lb.feature_names)
# print(lb.data)
#
#
# # 目标值
# print(lb.target)

数据集划分

分割比例:

训练集:70% 测试集 30%

划分函数:

from sklearn.model_selection import train_test_split

train_test_split: 原型

def train_test_split(*arrays,

test_size=None,

train_size=None,

random_state=None,

shuffle=True,

stratify=None):

参数:

*arrays : 特征值, 目标值

test_size: 划分的测试集比例: 0.3

random_state: 随机数种子

返回值:

x: 特征值 y:目标值 train: 训练集 test:测试集

x_train, x_test, y_train, y_test

from sklearn.model_selection import train_test_split


def split_iris():
"""
        划分鸢尾花数据集
    :return: 
    """

    # 获取鸢尾花数据集
    lr = load_iris()

# 确定特征值与目标值
    x = lr.data
    y = lr.target

# 划分数据集
    x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3, random_state= 1)

    print("x_train的长度:", len(x_train))
    print("x_train: \n", x_train[:5])


def split_news():
"""
        新闻网站分类
    :return: 
    """

    # 获取新闻网站的数据集
    news = fetch_20newsgroups()

# 确认特征值与目标值
    x = news.data
    y = news.target

# 分割数据集
    x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3)

    print(x_train)
    print(y_train)

return None

split_news()
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小徐的记事本

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值