HNU 数据挖掘 实验1 实验报告

部署运行你感兴趣的模型镜像

实验一:实验平台及环境安装

课程:数据挖掘(Data Mining)
操作系统:Windows 11

1. 实验目的

  1. 掌握在 Windows 平台下安装与配置 Python 环境的方法。
  2. 掌握 Anaconda 的安装、环境管理与常用命令。
  3. 能够创建独立 Python 环境(本实验要求:创建名为 DM 的 Python 3.7 环境)。
  4. 熟练安装 PyCharm、Jupyter Notebook 等常用开发工具。
  5. 能够安装 PyTorch 2.2.2 及常见第三方库(numpy、pandas、tensorflow、h5py、mygene、matplotlib、seaborn、umap-learn)。
  6. 熟悉 pip 与 conda 的软件包管理方式。

2. 实验环境

  • Windows 11
  • Anaconda(Python 发行版)
  • PyCharm(Community 或 Professional)
  • Jupyter Notebook
  • Python 3.7
  • PyTorch 2.2.2(CPU/GPU 版本均可)

3. 实验内容与步骤

3.1 安装 Anaconda
  1. 从官网下载适用于 Windows 的 Anaconda 安装包。
  2. 双击安装程序,按默认设置安装
    • 勾选 Add Anaconda to my PATH(可选)。
    • 推荐使用 Anaconda Prompt 管理环境。
  3. 安装完成后,打开 Anaconda Prompt 验证:
conda --version

![[Pasted image 20251128224049.png]]
由于之前已经安装过,所以版本较旧。

3.2 创建 Python 环境 DM(Python 3.7)

Anaconda Prompt 中输入:

conda create -n DM python=3.7 -y # 创建名为 DM 的 Python3.7 环境
conda activate DM # 激活环境

![[Pasted image 20251128225214.png]]![[Pasted image 20251128230849.png]]
查看环境是否创建成功:

conda env list

![[Pasted image 20251128230954.png]]
可以看到在conda环境列表中已经有了DM,说明环境创建成功。

3.3 安装 Jupyter Notebook

Anaconda 自带 Jupyter,如缺失或希望重新安装,可执行:

conda install jupyter -y

启动 Jupyter:

jupyter notebook

浏览器正常打开 Jupyter 即成功。
![[Pasted image 20251128233351.png]]
![[Pasted image 20251128233519.png]]

3.4 安装 PyCharm
  1. 从 JetBrains 官网下载并安装 PyCharm。
  2. 安装完成后打开 PyCharm → File → Settings → Project → Python Interpreter
  3. 选择:
    • Add Interpreter → Conda Environment → Existing Environment
    • 选择路径:<Anaconda路径>\Scripts\conda.exe
  4. 点击 OK,让项目使用 DM 环境的解释器。
    ![[Pasted image 20251128235150.png]]
3.5 在 DM 环境安装 PyTorch 2.2.2

安装 GPU(CUDA)版本,例如 CUDA 12.1:

conda install pytorch==2.2.2 torchvision torchaudio cudatoolkit=11.8 -c pytorch -y

验证 PyTorch:

python -c "import torch; print(torch.__version__, torch.cuda.is_available())"

输出版本号说明安装成功。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在安装 Pytorch 的时候,发现 Pytorch=2.2.2 要求 python 版本>=3.10,与我们的 python 3.7 冲突。于是只好将 python 升级成3.10.

3.6 安装常用数据科学库

使用 conda 安装常见库

conda activate DM conda install numpy pandas matplotlib seaborn scikit-learn scipy -y

![[Pasted image 20251129182346.png]]
在这里插入图片描述
使用 conda-forge 安装 umap-learn

conda install -c conda-forge umap-learn -y

![[Pasted image 20251129182748.png]]
其余库使用 pip 安装

pip install h5py mygene 

![[Pasted image 20251129184720.png]]

3.7 pip 与 conda 常用命令总结

conda 常用命令

conda create -n envname python=3.X     # 创建环境 
conda activate envname                 # 激活环境 
conda deactivate                       # 退出环境 
conda install package                  # 安装包 
conda list                             # 查看已安装包 
conda remove -n envname --all          # 删除环境

pip 常用命令

pip install package                    # 安装包
pip uninstall package                  # 卸载包
pip list                               # 查看已安装包
pip install -U package                 # 更新包

4. 实验心得

通过本次实验,我系统地完成了在 Windows 平台下搭建 Python 数据挖掘环境的全过程,包括 Anaconda 安装、虚拟环境管理、Jupyter Notebook 与 PyCharm 的使用,以及 PyTorch 等关键库的安装配置。在实践中我深刻感受到虚拟环境的重要性,它能够避免不同项目之间的依赖冲突,使得实验环境更加稳定可控。同时,通过手动安装多个常用库,我进一步理解了 conda 与 pip 的区别,以及在不同场景下如何选择更合适的包管理方式。
在配置 PyTorch 的过程中,我也认识到 CPU/GPU 版本的差异以及 CUDA 兼容性的重要性,这对后续深度学习相关实验非常关键。整体而言,本次实验不仅提高了我对 Python 科学计算环境的搭建能力,也让我对数据挖掘实验中常见工具链的结构有了更清晰的认识,为后续的建模、训练和分析提供了坚实基础。

您可能感兴趣的与本文相关的镜像

Python3.9

Python3.9

Conda
Python

Python 是一种高级、解释型、通用的编程语言,以其简洁易读的语法而闻名,适用于广泛的应用,包括Web开发、数据分析、人工智能和自动化脚本

数据挖掘》 Weka实验报告 姓名 _ 学号_ 指导教师 开课学期 2015 至 2016 学年 2 学期 完成日期 2015年6月12日 1.实验目的 基于http://archive.ics.uci.edu/ml/datasets/Breast+Cancer+WiscOnsin+%28Ori - ginal%29的数据,使用数据挖掘中的分类算法,运用Weka平台的基本功能对数据集进 行分类,对算法结果进行性能比较,画出性能比较图,另外针对不同数量的训练集进行 对比实验,并画出性能比较图训练并测试。 2.实验环境 实验采用Weka平台,数据使用来自http://archive.ics.uci.edu/ml/Datasets/Br- east+Cancer+WiscOnsin+%28Original%29,主要使用其中的Breast Cancer Wisc- onsin (Original) Data Set数据。Weka是怀卡托智能分析系统的缩写,该系统由新西兰怀卡托大学开发。Weka使 用Java写成的,并且限制在GNU通用公共证书的条件下发布。它可以运行于几乎所有操作 平台,是一款免费的,非商业化的机器学习以及数据挖掘软件。Weka提供了一个统一界 面,可结合预处理以及后处理方法,将许多不同的学习算法应用于任何所给的数据集, 并评估由不同的学习方案所得出的结果。 3.实验步骤 3.1数据预处理 本实验是针对威斯康辛州(原始)的乳腺癌数据集进行分类,该表含有Sample code number(样本代码),Clump Thickness(丛厚度),Uniformity of Cell Size(均匀的细胞大小), Uniformity of Cell Shape (均匀的细胞形状),Marginal Adhesion(边际粘连),Single Epithelial Cell Size(单一的上皮细胞大小),Bare Nuclei(裸核),Bland Chromatin(平淡的染色质),Normal Nucleoli(正常的核仁), Mitoses(有丝分裂),Class(分类),其中第二项到第十项取值均为1- 10,分类中2代表良性,4代表恶性。 通过实验,希望能找出患乳腺癌客户各指标的分布情况。 该数据的数据属性如下: 1. Sample code number(numeric),样本代码; 2. Clump Thickness(numeric),丛厚度; 3.Uniformity of Cell Size(numeric)均匀的细胞大小; 4. Uniformity of Cell Shape(numeric),均匀的细胞形状; 5.Marginal Adhesion(numeric),边际粘连; 6.Single Epithelial Cell Size(numeric),单一的上皮细胞大小; 7.Bare Nuclei(numeric),裸核; 8.Bland Chromatin(numeric),平淡的染色质; 9. Normal Nucleoli(numeric),正常的核仁; 10.Mitoses(numeric),有丝分裂; 11.Class(enum),分类。 3.2数据分析 由http://archive.ics.uci.edu/ml/datasets/Breast+Cancer+WiscOnsin+%28Ori- ginal%29得到一组由逗号隔开的数据,复制粘贴至excel表中,选择数据——分列——下 一步——逗号——完成,该数据是有关乳腺癌数据集,有11个属性,分别为Sample code number(样本代码),Clump Thickness(丛厚度),Uniformity of Cell Size(均匀的细胞大小),Uniformity of Cell Shape (均匀的细胞形状),Marginal Adhesion(边际粘连),Single Epithelial Cell Size(单一的上皮细胞大小),Bare Nuclei(裸核),Bland Chromatin(平淡的染色质),Normal Nucleoli(正常的核仁), Mitoses(有丝分裂),Class(分类),因为复制粘贴过来的数据没有属性,所以手工 添加一行属性名。Weka分类数据需把excel保存为一个csv文件。 3.2.1 .csv -> .arff 将CSV转换为ARFF最迅捷的办法是使用WEKA所带的命令行工具。 打开weka,之后出现GUI界面,如图1所示: (图1) 点击进入"Exploer"模块,要将.csv 格式转换为 .arff格式,点击open file...,打开刚保存的"乳腺癌数据集.csv
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值