加载各类样本数据集

#在sklearn中,一些常用的数据集,以及调用他的方法
load_boston:
包含503个波士顿房价的观察值,用于研究回归算法的优质数据集
load_iris:
包含150个鸢尾花尺寸的观察值,用于研究分类算法的优质数据集
load_digits:
包含1797个手写数字图片的观察值,用于研究图像分类算法的优质数据集

1.加载csv文件

#加载csv文件
import pandas as pd
#创建URL
url='E:\zhuomian\PhiUSIIL_Phishing_URL_Dataset.csv'
#加载数据集
dataframe=pd.read_csv(url)
print(dataframe.head(2))

2.加载Excel文件

#加载Excel文件
import pandas as pd
url=r'E:\zhuomian\统计图.xlsx'
#加载数据集
dataframe=pd.read_excel(url)
print(dataframe.head(2))

3.加载JSON文件

#加载JSON文件
import pandas as pd
# 指定 JSON 文件的路径
url = r'E:\zhuomian\name.json'
# 使用 read_json() 函数读取 JSON 文件到 DataFrame
dataframe = pd.read_json(url,orient='index')
# 打印 DataFrame
print(dataframe)

4.加载手写数字数据集

#加载手写数字数据集
from sklearn import datasets
digits=datasets.load_digits()
#创建特征矩阵
features=digits.data
target=digits.target
print(features[0])
print(target)

5.加载鸢尾花的数据集

#加载鸢尾花的数据集
from sklearn import datasets
iris=datasets.load_iris()
features=iris.data
target=iris.target
print(iris.target)

6.创建仿真数据集 (利用make_regression(回归数据集))(make_classificcation分类)

#创建仿真数据集  (利用make_regression(回归数据集))(make_classificcation分类)
from sklearn.datasets import make_regression
# import matplotlib.pyplot as plt
features,target,coefficients=make_regression(n_samples=100, #样本数量
                                            n_features=3,  #特征数
                                             n_informative=3, #选出最相关和最具有分区的
                                             n_targets=1,
                                             noise=0.0,
                                             coef=True, #影响因子
                                             random_state=1
                                             )
print(coefficients)

7.随机生成聚类数据集

#随机生成聚类数据集
from sklearn.datasets import make_blobs   #聚类
import matplotlib.pyplot as plt
features,target=make_blobs(n_features=2,
                           n_samples=50,
                           centers=3,  #(聚类个数)
                           cluster_std=0.5,  #标准差
                           shuffle=True,  #是否打乱
                           random_state=1
                           )
plt.scatter(features[:,0],features[:,1],c=target)
plt.show()

结果:

8.numpy读取csv文件,用数组表示 

#numpy读取csv文件,用数组表示
import numpy as np
#创建URL
url='data.csv'
#加载数据集
array=np.loadtxt(url,delimiter=",",encoding='utf-8',skiprows=1)
print(array)

9.pandas读取csv文件

#pandas读取csv文件
import pandas as pd
#创建URL
url='E:\zhuomian\PhiUSIIL_Phishing_URL_Dataset.csv'
#加载数据集
dataframe=pd.read_csv(url)  #dataframe数据帧,读取的文件用行和列表示
print(dataframe.head(2))

  • 8
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值