实验七综合实验

我是小白新新

已于 2024-03-08 10:07:38 修改

阅读量854

点赞数 20

分类专栏：数据挖掘课程文章标签： python numpy matplotlib 数据挖掘

于 2024-03-05 10:27:19 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/youho111/article/details/136471371

版权

数据挖掘课程专栏收录该内容

6 篇文章 0 订阅

订阅专栏

本文详细介绍了如何在Anaconda环境中通过Jupyter和pip安装Python库，包括基本的pip命令检查和第三方库如numpy、pandas等的安装。此外，还展示了如何处理数据集，如adult.data，进行预处理，包括数据描述和可视化特征分布。

摘要由CSDN通过智能技术生成

一．

下载并成功运行Anaconda,jupyter book ,spyder

输入检验(print (“hello”))

二．

在jupyter prompt中安装库：

找到anaconda 的Scripts库，并复制路径以备后面安装命令

D:\Program Files\anaconda3\Scripts

进入prompt命令界面输入pip:

①第一个pip命令

检查pip是否成功

②第二个pip命令

③第三、四个pip命令

三．输入代码，依次运行

1.

import io, os, sys, types, time, datetime, math, random

import requests, subprocess,io, tempfile

2.

#导入第三方库

# 数据处理

import numpy as np

import pandas as pd

# 数据可视化

import matplotlib.pyplot as plt

import missingno

import seaborn as sns

from pandas.plotting import scatter_matrix

from mpl_toolkits.mplot3d import Axes3D

# 特征选择和编码

from sklearn.feature_selection import RFE, RFECV

from sklearn.svm import SVR

from sklearn.decomposition import PCA

from sklearn.preprocessing import OneHotEncoder, LabelEncoder, label_binarize

# 机器学习

import sklearn.ensemble as ske

from sklearn import datasets, model_selection, tree, preprocessing, metrics

from sklearn import linear_model

from sklearn.svm import LinearSVC

from sklearn.ensemble import RandomForestClassifier,GradientBoostingClassifier

from sklearn.neighbors import KNeighborsClassifier

from sklearn.naive_bayes import GaussianNB

from sklearn.linear_model import LinearRegression, LogisticRegression, Ridge, Lasso, SGDClassifier

from sklearn.tree import DecisionTreeClassifier

import xgboost as xgb

import lightgbm as lgb

# 网格搜索、随机搜索

import scipy.stats as st

from scipy.stats import randint as sp_randint

from sklearn.model_selection import GridSearchCV

from sklearn.model_selection import RandomizedSearchCV

# 模型度量（分类）

from sklearn.metrics import precision_recall_fscore_support, roc_curve, auc

# 警告处理

import warnings

warnings.filterwarnings('ignore')

# 在 Jupyter 上画图

%matplotlib inline

3.

# 字段名

headers = ['age', 'workclass', 'fnlwgt',

'education', 'education-num',

'marital-status', 'occupation',

'relationship', 'race', 'sex',

' capital-gain', 'capital-loss',

'hours-per-week', 'native-country',

'predclass']

# 加载训练集

# 读数据时如何处理缺失值

training_raw = pd.read_csv('C://Users//Administrator//Desktop//adult.data',

header=None,

names=headers,

sep=',\s',

na_values=["?"],

engine='python')

# 加载测试集

test_raw = pd.read_csv('C://Users//Administrator//Desktop//adult.test',

header=None,

names=headers,

sep=',\s',

na_values=["?"],

engine='python',

skiprows=1)

test_raw.shape # : (16281, 15)，数据的维度# 训练集和测试集加到一起做分析

dataset_raw = training_raw._append(test_raw) # 合并数据集# 为了避免索引引起的不必要错误，对索引进行处理

dataset_raw.reset_index(inplace=True) # 还原索引为数据

dataset_raw.drop('index', inplace=True, axis=1) # 删除还原的索引

#查看 DataFrame 占用内存

def convert_size(size_bytes):

if size_bytes == 0:

return "0B"

size_name = ("Bytes", "KB", "MB", "GB", "TB", "PB", "EB", "ZB","YB")

i = int(math.floor(math.log(size_bytes, 1024))) # 获取占用内存的级别（向下取整）

p = math.pow(1024, i)

s = round(size_bytes / p, 2) # 获取占用内存的大小，四舍五入，保留两位小数

# 返回数据对应的内存空间的大小。

# memory_usage:返回 DataFrame 中每个 series 对应的内存大小。

# sum：求和

return "%s %s" % (s, size_name[i])

convert_size(dataset_raw.memory_usage().sum())

运行结果

五、

dataset_raw.describe()

data

set_raw.describe(include=['O'])

六、（再 + 1 分）可视化图形（上节课运行不出来，这次老师改了下关于python版本的代码就好了）

def plot_distribution(dataset, cols=5, width=20, height=15, hspace=0.2, wspace=0.5):

plt.style.use('seaborn-v0_8-whitegrid')

fig = plt.figure(figsize=(width, height))

fig.subplots_adjust(left=None, bottom=None, right=None, top=None,wspace=wspace, hspace=hspace) # 调整图表位置和大小间距

rows = math.ceil(float(dataset.shape[1]) / cols) # ceil 方法向上取整

for i, column in enumerate(dataset.columns): # 返回索引和列名

ax = fig.add_subplot(rows, cols, i + 1) # 创建子图，类似于subplot方法

ax.set_title(column) # 设置轴的标题

if dataset.dtypes[column] == object: # 通过列的类型来区分所选取的图像类型

g = sns.countplot(y=column, data=dataset)

substrings = [s.get_text()[:18] for s in g.get_yticklabels()]

g.set(yticklabels=substrings)

plt.xticks(rotation=25)

else:

g = sns.distplot(dataset[column])

plt.xticks(rotation=25)

plot_distribution(dataset_raw, cols=3, width=20, height=20,hspace=0.45, wspace=0.5)

我是小白新新

关注

20
点赞
踩
25

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

我是小白新新 CSDN认证博客专家 CSDN认证企业博客

码龄2年

53: 原创

118万+: 周排名

9万+: 总排名

1万+: 访问

: 等级

773: 积分

179: 粉丝

241: 获赞

8: 评论

225: 收藏

私信

关注

热门文章

分类专栏

最新评论

JAVA项目-学生管理（先导课数组与集合1）
CSDN-Ada助手: Java 技能树或许可以帮到你：https://edu.csdn.net/skill/java?utm_source=AI_act_java
集合之List定义++遍历+使用
CSDN-Ada助手: 恭喜作者在博客中对List的定义、遍历和使用进行了详细地阐述，内容十分丰富。希望作者能够继续保持创作的热情，不断分享自己的学习心得和经验。下一步建议可以尝试探讨List与其他数据结构的对比和应用场景，或者结合具体的项目实例进行讲解，让读者更加深入地理解List的使用方法。期待作者更多精彩的博客！
Set定义＋使用
CSDN-Ada助手: 恭喜您写下了第17篇博客！标题中的“Set定义＋使用”让我想到了您在这篇博客中可能会介绍Set的基本概念以及如何在实际编程中使用它们。这是一个非常有用的主题，因为Set在数据结构中扮演着重要的角色。我希望您能在博客中详细说明Set的定义和用法，并提供一些实际的例子来帮助读者更好地理解。如果可能的话，您还可以探讨一些Set的高级特性或一些实际应用场景，这将进一步丰富您的内容。再次恭喜您的创作，期待您在下一篇博客中的精彩分享！请继续保持创作的热情，我相信您的博客会给读者带来更多的启发和帮助。
CircleTry(1):双层循环
CSDN-Ada助手: 恭喜你写了第7篇博客！看到你不断创作，真是非常令人欣慰。标题“循环-习题”让我感到很期待，希望能在你的博客中学到更多关于循环的知识和技巧。作为下一步的创作建议，或许你可以考虑分享一些实际应用场景中使用循环解决问题的例子，这样读者可以更好地理解循环的实用性。再次恭喜你，期待你未来更多精彩的博客！
3种循环介绍
CSDN-Ada助手: 恭喜你写了第8篇博客！标题中的“3种循环介绍”听起来非常有趣。我很高兴看到你持续创作，并分享你对循环的理解。你的文章让我对不同种类的循环有了更深入的了解。希望你能继续扩展这个主题，并分享更多关于编程的知识和经验。如果可以的话，我期待看到你在下一篇博客中介绍一些应用循环的实际案例。谢谢你的分享，期待你的下一篇作品！

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。