使用yolov8训练数据集及使用中遇到的问题

1.下载yolov8文件夹

下载链接

就是这个文件夹,别怕

 2.yolov8模型

下载链接,我下了yolov8s.py,放在该路径E:\nfshare\yolov8\ultralytics\weights

ps:model文件类型可以是yaml,也可以是pt

 3.修改yolov8.yaml文件

E:\nfshare\yolov8\ultralytics\cfg\models\v8\yolov8.yaml,就改类别数

nc: 9  # number of classes

4.新建data文件

 E:\nfshare\yolov8\ultralytics\cfg\datasets\hr.yaml,这些和yolov5一样

5.修改default.yaml文件

E:\nfshare\yolov8\ultralytics\cfg\default.yaml ,就动了以下几个参数

model: weights/yolov8s.pt  # (str, optional) path to model file, i.e. yolov8n.pt, yolov8n.yaml
data:  cfg/datasets/hr.yaml # (str, optional) path to data file, i.e. coco128.yaml
epochs: 1  # (int) number of epochs to train for
amp: False
batch: 8

 运行代码 yolo cfg=cfg/default.yaml

6.训练yolov8模型(train)

1.新建.py文件训练模型

在路径下新建python脚本文件\yolov8\ultralytics\demo.py,就像运行yolov5的模型一样,运行该脚本文件。

下面这些参数要怎么设置我还没懂。

#import sys
#sys.path.append("/home/yyt/nfshare/yolov8/")
from ultralytics import YOLO

# Create a new YOLO model from scratch
#model = YOLO('/home/yyt/nfshare/yolov8/ultralytics/cfg/models/v8/yolov8.yaml')

# Load a pretrained YOLO model (recommended for training)
model = YOLO('/home/yyt/nfshare/yolov8/ultralytics/weights/yolov8s.pt')

# Train the model using the 'coco128.yaml' dataset for 3 epochs
results = model.train(data='/home/yyt/nfshare/yolov8/ultralytics/cfg/datasets/hr.yaml',amp=False,epochs=2,batch=8,val=True)

# Evaluate the model's performance on the validation set
#results = model.val(data='/home/yyt/nfshare/yolov8/ultralytics/cfg/datasets/hr.yaml',amp=False,epochs=2,batch=8)

success = model.export(format='onnx')

2.运行default.yaml文件训练模型

直接输入yolo cfg=/文件的路径/default.yaml

3.命令运行直接输:

yolo task=detect mode=train model=/yolov8/ultralytics/cfg/runs/detect/train6//weights/last.pt(模型位置,模型可以是.yaml形式或者.pt) data=/yolov8/ultralytics/cfg/datasets/hr.yaml(数据集.yaml文件位置) epochs=150 save=True resume=True (后面的都是参数,具体写什么看default.yaml里面你需要改什么)

7.测试训练后的模型(test)

1.运行default.yaml

修改default.yaml,运行代码和train一样

修改mode: val,model:/runs/detect/train6/weights/last.pt ,split: test 

2.代码运行

这个方法能显示test每张图片检测的结果

yolo predict model= '/home/yyt/nfshare/yolov8/ultralytics/cfg/runs/detect/train6/weights/last.pt'(模型路径) source= '/home/yyt/nfshare/zijianshujuji/image/test'(图片文件路径)

问题

1.box_loss   cls_loss   dfl_loss全显示为nan,map全为0

显卡问题,batch值太大

解决:在default.yaml中,改小batch值 ,amp改为False

2.val的box_loss、cls_loss、dfl_loss为0,train不为0

排查问题:

1.validator.py文件

为了解决问题1 result全显示为0,我删去了validator中的如下代码,恢复看看能不能跑通val

 self.args.half = self.device.type != 'cpu'  # force FP16 val during training

 失败

2.amp

amp改为ture,好的这个不能改,改了又都是nan

不是我瞎改的问题

尝试:

1.在trainer.py里面搜索half关键字,把所有有.half()变为.float()
            #'model': deepcopy(de_parallel(self.model)).half(),
            'model': deepcopy(de_parallel(self.model)).float(),
            #'ema': deepcopy(self.ema.ema).half(),
            'ema': deepcopy(self.ema.ema).float(),

 无效果

2.继续修改val.py,修改batch['img'].half()改为batch['img'].float()
#batch['img'] = (batch['img'].half() if self.args.half else batch['img'].float()) / 255
 batch['img'] = (batch['img'].float()) / 255

 3.继续修改validator.py

 不行

4.改小batch_size

batch_size=4

不行

解决:更新环境和其他安装包,pip install  -r requirement.txt

3.运行default.yaml,报错 ModuleNotFoundError: No module named 'ultralytics'

(yolov5) root@xxdell:/home/yyt/nfshare/yolov8/ultralytics# yolo cfg=/home/yyt/nfshare/yolov8/ultralytics/cfg/default.yaml
Traceback (most recent call last):
  File "/home/nephilim/environment/anaconda3/envs/yolov5/bin/yolo", line 5, in <module>
    from ultralytics.cfg import entrypoint
ModuleNotFoundError: No module named 'ultralytics'

解决方法:在/home/xx/environment/anaconda3/envs/yolov5/bin/yolo文件中添加路径

sys.path.append("/home/yyt/nfshare/yolov8/")

 再次运行,解决

4.训练结果runs文件保存路径改变

原本的训练结果保存在/home/yyt/nfshare/yolov8/runs 里面,即我的共享文件夹和yolov8存在的项目文件了,现在被更改了也不知道是怎么回事,前两次训练结果就没有出现。现在的文件夹路径在虚拟机的环境路径里/home/xx/environment/anaconda3/envs/yolov5/bin/runs/detect

感觉使用的不是yolov8,而是yolov5

(base) yyt@dell:/home/xx/environment/anaconda3/envs/yolov5/bin/runs/detect$ stat train
  File: train
  Size: 4096          Blocks: 8          IO Block: 4096   directory
Device: 824h/2084d    Inode: 16883842    Links: 3
Access: (0755/drwxr-xr-x)  Uid: (    0/    root)   Gid: (    0/    root)
Access: 2023-08-21 15:02:27.587039861 +0800
Modify: 2023-08-21 14:59:15.937472731 +0800
Change: 2023-08-21 14:59:15.937472731 +0800

分析:

这几次运行的都是配置default.yaml,运行python文件,正常显示。


5.断网导致训练中断,继续训练

参考http://t.csdn.cn/UZRqy

命令行直接输入代码如下,模型改为之前跑的last.pt,epochs是总的训练次数

yolo task=detect mode=train model=/home/yyt/nfshare/yolov8/ultralytics/cfg/runs/detect/train6//weights/last.pt data=/home/yyt/nfshare/yolov8/ultralytics/cfg/datasets/hr.yaml epochs=150 save=True resume=True

6.ValueError: cannot convert float NaN to integer

训练完模型后,继续跑val测试,出现以下错误。

Validating runs/detect/train/weights/best.pt...
Ultralytics YOLOv8.0.173 🚀 Python-3.9.17 torch-2.0.1+cu117 CUDA:0 (NVIDIA GeForce GTX 1660 SUPER, 5928MiB)
Model summary (fused): 168 layers, 11129067 parameters, 0 gradients
                 Class     Images  Instances      Box(P          R      mAP50  mAP50-95):   1%|▏         | 1/78 [00:00<00:26,  2.87it/s]Exception in thread Thread-25:
Traceback (most recent call last):
  File "/home/nephilim/environment/anaconda3/envs/yolov5/lib/python3.9/threading.py", line 980, in _bootstrap_inner
    self.run()
  File "/home/nephilim/environment/anaconda3/envs/yolov5/lib/python3.9/threading.py", line 917, in run
    self._target(*self._args, **self._kwargs)
  File "/home/yyt/.local/lib/python3.9/site-packages/ultralytics/utils/plotting.py", line 446, in plot_images
    annotator.box_label(box, label, color=color)
  File "/home/yyt/.local/lib/python3.9/site-packages/ultralytics/utils/plotting.py", line 116, in box_label
    self.draw.text((box[0], box[1] - h if outside else box[1]), label, fill=txt_color, font=self.font)
  File "/home/nephilim/environment/anaconda3/envs/yolov5/lib/python3.9/site-packages/PIL/ImageDraw.py", line 556, in text
    draw_text(ink)
  File "/home/nephilim/environment/anaconda3/envs/yolov5/lib/python3.9/site-packages/PIL/ImageDraw.py", line 496, in draw_text
    coord.append(int(xy[i]))
ValueError: cannot convert float NaN to integer
                 Class     Images  Instances      Box(P          R      mAP50  mAP50-95):   3%|▎         | 2/78 [00:01<00:44,  1.70it/s]Exception in thread Thread-27:
Traceback (most recent call last):
  File "/home/nephilim/environment/anaconda3/envs/yolov5/lib/python3.9/threading.py", line 980, in _bootstrap_inner
    self.run()
  File "/home/nephilim/environment/anaconda3/envs/yolov5/lib/python3.9/threading.py", line 917, in run
    self._target(*self._args, **self._kwargs)
  File "/home/yyt/.local/lib/python3.9/site-packages/ultralytics/utils/plotting.py", line 446, in plot_images
    annotator.box_label(box, label, color=color)
  File "/home/yyt/.local/lib/python3.9/site-packages/ultralytics/utils/plotting.py", line 116, in box_label
    self.draw.text((box[0], box[1] - h if outside else box[1]), label, fill=txt_color, font=self.font)
  File "/home/nephilim/environment/anaconda3/envs/yolov5/lib/python3.9/site-packages/PIL/ImageDraw.py", line 556, in text
    draw_text(ink)
  File "/home/nephilim/environment/anaconda3/envs/yolov5/lib/python3.9/site-packages/PIL/ImageDraw.py", line 496, in draw_text
    coord.append(int(xy[i]))

暂时没解决

7.关于requirements.txt安装文件的路径

这个默认安装路径一直让我很烦,安装前需要提前转到conda环境的路径下再运行命令

cd /home/111/yyt/anaconda3/envs/yolov8/lib/python3.10/site-packages(安装包路径)
pip install -r 路径/requirements.txt

参考这两篇文章http://t.csdn.cn/9edbLhttp://t.csdn.cn/oJXMF,提前确定好自己的安装位置,免得找不到安装包。

8.command 'yolonot found ,did you mean:command 'rolo' from deb rolo 

类似找不到命令的情况在yolov8里很常见

参考http://t.csdn.cn/R6aQY

运行yolov8目录下的setup.py文件

python setup.py install

9.seaborn/_oldcore.py:1119:FuturwWarning:use_inf_as_na option is be removed in a future version.Cohvert inf values to NaN before operating instead: 

 未来预警,意思是seaborn/_oldcore.py:1119:FuturwWarning:use_inf_as_na 选项将在未来版本中删除。在操作之前将 inf 值转换为 NaN:

只要不是报错不管他。

10.AssertionError: /home/wsjdy/yyt/nfshare/yolov8/ultralytics/runs/detect/train5/weights/last.pt training to 150 epochs is finished, nothing to resume.

训练150轮结束后,想要继续训练,增加训练轮数

修改resume=True epochs=300 models=/上次训练的结果/last.pt 

结果显示报错如上。

尝试:yolov8断点恢复训练及减少训练次数和增加训练次数-CSDN博客

修改ultralytics/engine/trainer.py文件

修改self.epochs=想要训练的总次数,结果失败

尝试2:Yolov8断点续训/继续训练_q1224352995的博客-CSDN博客 失败

屈服了

直接把models改为last.pt,resume=False,epochs=150,在原有的基础上加训

<think>嗯,用户之前问过关于训练结果完整性的问题,现在又遇到了验证时损失曲线没有图像的问题。我需要先理解他的代码和目录结构。 他提供的val.py文件使用YOLO的val方法,参数看起来没问题,比如数据集路径、图片大小、设备等。问题出在runs/train/yolov8s3目录下的results.png中没有val的损失曲线图像。这可能是因为在训练时没有启用验证,或者在验证时没有正确保存结果。 首先,YOLO训练过程中默认会进行验证,所以results.png应该包含训练和验证的损失曲线。如果val的损失曲线缺失,可能是因为训练时没有设置验证参数,比如验证频率不够,或者验证被跳过了。用户需要检查训练时的参数,比如是否设置了val=True,或者验证的数据集是否正确。 另外,用户现在运行的是单独的验证脚本,也就是val.py。这时候生成的验证结果会保存在runs/val/exp下,而不是训练目录下的results.png。所以用户可能在混淆了训练时的验证结果和单独验证的结果。需要确认用户是在查看训练目录下的results.png,而这个文件是否确实缺少了val的损失曲线。 可能的原因有几个:1. 训练时没有正确配置验证参数,导致验证损失没有被记录;2. 训练过程被中断,导致验证结果没有保存;3. 单独运行验证脚本不会更新训练目录下的results.png,而是生成新的结果在val目录下。 需要建议用户检查训练时的超参数,比如epochs、val_freq等,确保验证在训练过程中执行。同时,查看训练日志是否有验证相关的输出,确认验证是否实际运行。此外,检查results.csv中是否有val相关的指标,如果有数据但没图像,可能是绘图时出了问题,可以手动绘制。如果单独运行验证,应该去val目录下查看结果,而不是训练目录。 用户可能需要重新运行训练并确保验证配置正确,或者在验证脚本中增加参数来保存图像。另外,检查Ultralytics的版本,看看是否有已知的bug导致图像未生成,升级或重装可能解决问题。</think>--- ### **问题分析** 根据你的描述,`results.png` 中缺少 `val/box_loss`、`val/cls_loss`、`val/dfl_loss` 的图像,可能由以下原因导致: --- ### **1. 检查训练时的验证配置** YOLOv8 默认在训练时开启验证(每个epoch结束后自动验证),但需确认以下参数: - **是否禁用了验证**:在训练命令中若设置了 `val=False`,则不会生成验证损失曲线。 - **验证频率**:若设置 `val_freq=N`(例如每N个epoch验证一次),可能导致验证损失记录不完整。 **解决方法**: 检查训练时的超参数文件 `args.yaml`(位于 `yolov8s3` 目录),确认以下参数: ```yaml val: True # 是否开启验证 val_freq: 1 # 验证频率(默认每个epoch验证一次) ``` --- ### **2. 验证数据集未正确加载** 若验证集路径错误或数据格式不兼容,可能导致验证未执行,损失值未被记录。 **验证方法**: 检查训练日志 `train.log`(位于 `yolov8s3` 目录),搜索以下关键词: - `Validating...` → 确认验证是否启动。 - `Dataset not found` 或 `Missing labels` → 数据路径或格式错误。 **修复步骤**: 1. 检查 `traindata.yaml` 中的验证集路径 `val:` 是否有效。 2. 确保验证集标签文件存在且与图像匹配。 --- ### **3. 训练未完成或被中断** 如果训练中途停止(如手动中断或报错),可能导致验证损失记录不完整。 **验证方法**: 1. 打开 `results.csv`,检查最后一行的 `epoch` 是否达到目标轮次。 2. 查看 `train.log` 末尾是否有报错信息(如 `KeyboardInterrupt` 或 `CUDA out of memory`)。 --- ### **4. 单独运行验证脚本的注意事项** 你提供的 `val.py` 是**单独执行验证**的脚本,其生成的验证结果会保存在 `runs/val/exp` 目录下,与训练时的 `results.png` **无关**。 - 训练时的验证损失记录在 `yolov8s3/results.png`。 - 单独验证的指标保存在 `runs/val/exp` 中,且默认不生成损失曲线图。 **解决方法**: 若需在训练时生成完整的验证损失曲线,需确保训练过程正常完成且验证配置正确。 --- ### **5. 手动绘制损失曲线** 如果 `results.csv` 中有验证损失数据但 `results.png` 未显示,可手动绘制: 1. 使用 Python 读取 `results.csv`: ```python import pandas as pd import matplotlib.pyplot as plt df = pd.read_csv("D:/graduation_design/code/code24_yolov8/runs/train/yolov8s3/results.csv") plt.plot(df["epoch"], df["val/box_loss"], label="val_box_loss") plt.plot(df["epoch"], df["val/cls_loss"], label="val_cls_loss") plt.plot(df["epoch"], df["val/dfl_loss"], label="val_dfl_loss") plt.legend() plt.savefig("val_loss.png") ``` --- ### **6. 版本兼容性问题** Ultralytics 版本更新可能导致日志格式变化。检查以下内容: 1. 确认使用的 `ultralytics` 版本:`pip show ultralytics` 2. 尝试升级到最新版本:`pip install -U ultralytics` --- ### **总结解决方案** 1. **检查训练配置**:确保 `val=True` 且 `val_freq=1`。 2. **验证数据集有效性**:检查 `traindata.yaml` 和标签文件。 3. **确保训练完整执行**:通过 `results.csv` 和 `train.log` 确认无中断。 4. **区分训练与单独验证的结果**:训练时的验证损失在 `yolov8s3` 目录,单独验证结果在 `runs/val/exp`。 5. **手动绘制图像**(备用方案)。 若仍有问题,建议提供以下信息进一步排查: - `traindata.yaml` 的内容(隐藏敏感路径)。 - `yolov8s3/results.csv` 的截图(前几行和最后几行)。 - `train.log` 中的关键段落(如报错或验证部分)。
评论 26
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值