【Python】科研代码学习:十四 wandb (可视化AI工具)

【Python】科研代码学习:十四 wandb[可视化AI工具]

wandb 介绍

  • 【wandb官网】
    wandbWeights & Biases 的缩写(w and b)
  • 核心作用:
    • 可视化重要参数
    • 云端存储
    • 提供各种工具
    • 可以和其他工具配合使用,比如下面的 pytorch, HF transformers, tensorflow, keras 等等
      在这里插入图片描述
  • 可以在里面使用 matplotlib
  • 貌似是 tensorboard 的上位替代

注册账号

  • 首先我们需要去官网注册账号,貌似不能使用vpn
    注册号后,按照教程创建一个团队,然后来到这个界面
    可以按照这个 Quickstart 的样例走一下。选择 Track Runs,接下来可以选择使用哪个工具训练的模型
    然后需要 pip install wandb 导包,以及 wandb login 登录
    在这里插入图片描述

使用 HF Trainer + wandb 训练

  • 我们调用官方给的样例
    我们发现其实新添了这几个内容:
    WANDB_PROJECT 环境变量:项目名
    WANDB_LOG_MODEL 环境变量:是否保存中继到wandb
    WANDB_WATCH环境变量
  • TrainingArguments 中,设置了 report_to="wandb"
    最后调用 wandb.finish() ,整体变化不大
# This script needs these libraries to be installed: 
#   numpy, transformers, datasets

import wandb 

import os
import numpy as np
from datasets import load_dataset
from transformers import TrainingArguments, Trainer
from transformers import AutoTokenizer, AutoModelForSequenceClassification

# 设置GPU编号
os.environ["CUDA_DEVICE_ORDER"] = "PCI_BUS_ID"
os.environ["CUDA_VISIBLE_DEVICES"] = "1,2"

def tokenize_function(examples):
    return tokenizer(examples["text"], padding="max_length", truncation=True)

def compute_metrics(eval_pred):
    logits, labels = eval_pred
    predictions = np.argmax(logits, axis=-1)
    return {"accuracy": np.mean(predictions == labels)}

print("Loading Dataset")
# download prepare the data
dataset = load_dataset("yelp_review_full")

print("Loading Tokenizer")

tokenizer = AutoTokenizer.from_pretrained("distilbert-base-uncased")

small_train_dataset = dataset["train"].shuffle(seed=42).select(range(1000))
small_eval_dataset = dataset["test"].shuffle(seed=42).select(range(300))

small_train_dataset = small_train_dataset.map(tokenize_function, batched=True)
small_eval_dataset = small_train_dataset.map(tokenize_function, batched=True)

print("Loading Model")

# download the model
model = AutoModelForSequenceClassification.from_pretrained("distilbert-base-uncased", num_labels=5)

# set the wandb project where this run will be logged
os.environ["WANDB_PROJECT"]="my-awesome-project"

# save your trained model checkpoint to wandb
os.environ["WANDB_LOG_MODEL"]="true"

# turn off watch to log faster
os.environ["WANDB_WATCH"]="false"

# pass "wandb" to the 'report_to' parameter to turn on wandb logging
training_args = TrainingArguments(
    output_dir='models',
    report_to="wandb",
    logging_steps=5, 
    per_device_train_batch_size=32,
    per_device_eval_batch_size=32,
    evaluation_strategy="steps",
    eval_steps=20,
    max_steps = 100,
    save_steps = 100
)

print("Loading Trainer")

# define the trainer and start training
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=small_train_dataset,
    eval_dataset=small_eval_dataset,
    compute_metrics=compute_metrics,
)

print("Training")

trainer.train()

# [optional] finish the wandb run, necessary in notebooks
wandb.finish()
  • 在 wandb 网站中
    我们可以打开该 project。每一次运行相当于一次 run,我这里跑了三次所以就有三条线。
    这里主要是看 eval 验证集和 train 训练集的一些参数。
    在这里插入图片描述
    在这里插入图片描述
  • 我们可以删掉不关心的面板,或者增添一个想看的面板
    但如果两个参数的值域变化比较大的话,在一个图里面比较难看清,所以比较相关的参数才建议放在一个图里。
    在这里插入图片描述

低级 API

  • 这上面是封装比较高级的 API,一般我们也都配合 transformers 库去用
    如果想用比较原生的 API,一般用法如下:
    首先调用 wandb.init() 方法
    然后使用 wandb.log(dict) 输出你要可视化的参数即可。
# train.py
import wandb
import random  # for demo script

wandb.login()

epochs = 10
lr = 0.01

run = wandb.init(
    # Set the project where this run will be logged
    project="my-awesome-project",
    # Track hyperparameters and run metadata
    config={
        "learning_rate": lr,
        "epochs": epochs,
    },
)

offset = random.random() / 5
print(f"lr: {lr}")

# simulating a training run
for epoch in range(2, epochs):
    acc = 1 - 2**-epoch - random.random() / epoch - offset
    loss = 2**-epoch + random.random() / epoch + offset
    print(f"epoch={epoch}, accuracy={acc}, loss={loss}")
    wandb.log({"accuracy": acc, "loss": loss})

# run.log_code()
  • 24
    点赞
  • 30
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
当谈到Python代码可视化工具时,有几个流行的选择可以帮助开发者更好地理解和展示他们的代码。以下是一些常用的Python代码可视化工具: 1. Matplotlib:Matplotlib是一个功能强大的绘图库,可以用于创建各种类型的静态、动态和交互式图表。它支持多种图表类型,包括线图、散点图、柱状图、饼图等。Matplotlib提供了丰富的配置选项,使用户能够自定义图表的外观和样式。 2. Seaborn:Seaborn是基于Matplotlib的高级数据可视化库。它提供了一组简单而直观的函数,用于创建各种统计图表,如热力图、箱线图、小提琴图等。Seaborn还具有内置的颜色主题和样式,使得创建美观的图表变得更加容易。 3. Plotly:Plotly是一个交互式可视化库,可以创建漂亮而动态的图表和可视化。它支持多种图表类型,包括线图、散点图、柱状图、地理地图等。Plotly还提供了在线编辑器和共享平台,使用户能够轻松创建和分享他们的可视化作品。 4. Bokeh:Bokeh是一个用于创建交互式可视化Python库。它支持多种图表类型,包括线图、散点图、柱状图、地理地图等。Bokeh的一个主要特点是它可以生成HTML文件,使得可视化可以在Web浏览器中进行交互。 5. NetworkX:NetworkX是一个用于创建、操作和研究复杂网络的Python库。它提供了一组功能强大的函数和算法,用于分析和可视化网络结构。NetworkX可以绘制各种类型的网络图,包括有向图、无向图、加权图等。 这些工具都有详细的文档和示例代码,可以帮助您开始使用它们。您可以根据自己的需求和偏好选择适合您的工具

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值