机器学习(一)

本文介绍了数据科学中的关键概念,如监督和无监督学习方法、训练流程,以及常用的编程库和框架。详细讲解了如何配置GPU环境,包括显卡驱动、CUDA工具包和cudnn的安装,以及Anaconda和JupyterNotebook的使用。还提到了数据集来源和科学编程的最佳实践。
摘要由CSDN通过智能技术生成

一、概念

从数据中获得模型,使用模型对数据进行预测、分类、检测等

1.1、分类

监督学习:输入数据是由输入特征和目标值所组成。函数的输出可以是一个连续的值(回归),或输出是有限个离散值(分类)

  • 分类:k邻近、贝叶斯、决策树、随机森林、逻辑回归
  • 回归:线性回归、岭回归

无监督学习:输入数据由输入的特征值所组成

  • 聚类:k-means

1.2、训练/开发流程

  1. 数据导入
  2. 数据预处理
  3. 特征工程
  4. 算法训练
  5. 模型评估
  6. 导出应用

1.3、理论基础

先整这几个吧,每个课大学至少半学期,有时间单独写吧

  • 高等数学
  • 数理统计
  • 线性代数
  • 数值分析
  • 优化算法

1.4、学习库/学习框架

框架:

  • pyTorch
  • TensorFlow
  • Keras
  • Paddle

库:

  • pandas
  • numpy
  • sklearn

1.5、工具

1、Anaconda

Anaconda,中文大蟒蛇,是一个开源的Python发行版本,其包含了conda、Python等180多个科学包及其依赖项。

2、JupyterNoteBook

Jupyter Notebook 是一个非常强大的工具,常用于交互式地开发和展示数据科学项目。它将代码和它的输出集成到一个文档中,并且结合了可视的叙述性文本、数学方程和其他丰富的媒体。它直观的工作流促进了迭代和快速的开发,使得 notebook 在当代数据科学、分析和越来越多的科学研究中越来越受欢迎。最重要的是,作为开源项目的一部分,它们是完全免费的。Anaconda中带有JupyterNoteBook,不用单独安装。

二、数据集

常用数据集包括如下三种:

1、Kaggle

竞赛必备,很多大佬和模型代码,英文不差基本无障碍并获得大量真实新鲜很经典,数据,但最好能科学上网

网址:https://www.kaggle.com

2、UCI

数据集很经典,许多样例代码都使用了该数据集,但数据集更新不是很快,好在不用科学上网

网址:https://archive.ics.uci.edu/

3、sklearn等一些库或者其他框架自带的gongjuji

一般用来复现论文的实验或学习模型的训练

4、爬虫

想要啥数据自己爬,别犯法!!!

三、环境配置

1、概念

GPU(Graphics Processing Unit):图形处理器。又称显示核心、视觉处理器、显示芯片,是一种专门在个人电脑、工作站、游戏机和一些移动设备(如平板电脑、智能手机等)上做图像和图形相关运算工作的微处理器。

GPU内部包括CUDA、CUDA toolkit、CUDNN、NVCC等名词。

  • CUDA:为“GPU通用计算”构建的运算平台。
  • cudnn:为深度学习计算设计的软件库。
  • CUDA Toolkit (nvidia): CUDA完整的工具安装包,其中提供了 Nvidia 驱动程序、开发 CUDA 程序相关的开发工具包等可供安装的选项。包括 CUDA 程序的编译器、IDE、调试器等,CUDA 程序所对应的各式库文件以及它们的头文件。
  • CUDA Toolkit (Pytorch): CUDA不完整的工具安装包,其主要包含在使用 CUDA 相关的功能时所依赖的动态链接库。不会安装驱动程序。
  • NVCC :CUDA的编译器,只是 CUDA Toolkit 中的一部分

2、安装

要安装显卡驱动、CUDA toolkit、cudnn

  1. 到官方网站下载显卡驱动

    网址:https://www.nvidia.cn/geforce/drivers/

  2. 安装CUDA toolkit

    Windows命令行中输入nvidia-smi查看版本信息
    在这里插入图片描述
    打开网址https://developer.nvidia.com/cuda-downloads#查找对应的版本安装包,下载后直接安装就行。
    查看是否安装好用 nvcc -V Windows命令查看,如果查不到需要修改计算机环境变量。
    在这里插入图片描述

  3. 安装cudnn

    下载网址:https://developer.nvidia.com/rdp/cudnn-download

    下载时可能需要登录,用邮箱注册个账号登录后即可下载,下载得到zip文件解压后将 bin、include、lib三个文件夹复制到C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\vxx.x目录下,xx.x代表版本号。

  4. 查看环境变量

    C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\vxx.x\bin
    C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\vxx.x\include
    C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\vxx.x\lib
    C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\vxx.x\libnvvp

原文链接:https://blog.csdn.net/qq_46941656/article/details/119681765

3、安装Anaconda3

官网下载地址:https://www.anaconda.com/download

  • 在所有程序里Anaconda3文件夹下打开Anaconda Prompt (Anaconda3)命令行工具输入conda env list查看所有环境
    -在这里插入图片描述
  • 创建虚拟环境

命令conda create -n 环境名 python=版本
在这里插入图片描述

  • 切换虚拟环境

命令conda activate 环境名
在这里插入图片描述

  • 添加清华源

换源可提高安装包下载速度。首先切换到想使用的环境,使用如下命令:(想使用其他的源可以自行百度)

conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge 
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/msys2/
conda config --add channels https://mirrors.ustc.edu.cn/anaconda/pkgs/main/
conda config --set show_channel_urls yes

查看安装的源

conda config --show-sources

4、使用JupyterNotebook

  1. 安装

    conda install jupyter
    
  2. 运行

    jupyter notebook
    
  3. 扩展

  • 汉化

    虚拟环境中输入

    pip install jupyterlab-language-pack-zh-CN
    

    进入JupyterNotebook后再设置界面设置简体中文

  • 自动补全

    使用tab补全或使用nbextension拓展包补全

  • 查看参数或源码

    方法1、直接在后面加??

    方法2、shift+tab

  • 18
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值