加载各类样本数据集

人工智能碎碎学

已于 2024-04-01 10:31:03 修改

阅读量278

点赞数 8

文章标签： python 开发语言

于 2024-03-31 20:09:16 首次发布

此文章为白雪个人所有

本文链接：https://blog.csdn.net/weixin_62263529/article/details/137207807

版权

#在sklearn中，一些常用的数据集，以及调用他的方法
load_boston:
包含503个波士顿房价的观察值，用于研究回归算法的优质数据集
load_iris:
包含150个鸢尾花尺寸的观察值，用于研究分类算法的优质数据集
load_digits:
包含1797个手写数字图片的观察值，用于研究图像分类算法的优质数据集

1.加载csv文件

#加载csv文件
import pandas as pd
#创建URL
url='E:\zhuomian\PhiUSIIL_Phishing_URL_Dataset.csv'
#加载数据集
dataframe=pd.read_csv(url)
print(dataframe.head(2))

2.加载Excel文件

#加载Excel文件
import pandas as pd
url=r'E:\zhuomian\统计图.xlsx'
#加载数据集
dataframe=pd.read_excel(url)
print(dataframe.head(2))

3.加载JSON文件

#加载JSON文件
import pandas as pd
# 指定 JSON 文件的路径
url = r'E:\zhuomian\name.json'
# 使用 read_json() 函数读取 JSON 文件到 DataFrame
dataframe = pd.read_json(url,orient='index')
# 打印 DataFrame
print(dataframe)

4.加载手写数字数据集

#加载手写数字数据集
from sklearn import datasets
digits=datasets.load_digits()
#创建特征矩阵
features=digits.data
target=digits.target
print(features[0])
print(target)

5.加载鸢尾花的数据集

#加载鸢尾花的数据集
from sklearn import datasets
iris=datasets.load_iris()
features=iris.data
target=iris.target
print(iris.target)

6.创建仿真数据集（利用make_regression(回归数据集)）(make_classificcation分类)

#创建仿真数据集  （利用make_regression(回归数据集)）(make_classificcation分类)
from sklearn.datasets import make_regression
# import matplotlib.pyplot as plt
features,target,coefficients=make_regression(n_samples=100, #样本数量
                                            n_features=3,  #特征数
                                             n_informative=3, #选出最相关和最具有分区的
                                             n_targets=1,
                                             noise=0.0,
                                             coef=True, #影响因子
                                             random_state=1
                                             )
print(coefficients)

7.随机生成聚类数据集

#随机生成聚类数据集
from sklearn.datasets import make_blobs   #聚类
import matplotlib.pyplot as plt
features,target=make_blobs(n_features=2,
                           n_samples=50,
                           centers=3,  #(聚类个数)
                           cluster_std=0.5,  #标准差
                           shuffle=True,  #是否打乱
                           random_state=1
                           )
plt.scatter(features[:,0],features[:,1],c=target)
plt.show()

结果：

8.numpy读取csv文件，用数组表示

#numpy读取csv文件，用数组表示
import numpy as np
#创建URL
url='data.csv'
#加载数据集
array=np.loadtxt(url,delimiter=",",encoding='utf-8',skiprows=1)
print(array)

9.pandas读取csv文件

#pandas读取csv文件
import pandas as pd
#创建URL
url='E:\zhuomian\PhiUSIIL_Phishing_URL_Dataset.csv'
#加载数据集
dataframe=pd.read_csv(url)  #dataframe数据帧，读取的文件用行和列表示
print(dataframe.head(2))