P2T训练自己的数据集

最新推荐文章于 2025-04-27 13:32:19 发布

勤劳节俭阿美莉卡

最新推荐文章于 2025-04-27 13:32:19 发布

阅读量754

点赞数

文章标签：深度学习人工智能

本文链接：https://blog.csdn.net/weixin_49656198/article/details/126989484

版权

P2T模型是基于mmdetection框架的，所以训练自己的数据集的步骤是相通的。我主要借鉴了这篇文章Swin Transformer实战实例分割：训练自己的数据集

1.安装环境

python=3.8

pytorch系列适配cuda11.0

mmdetection(按官方文档安装即可)

以及其他要求的库

2.数据集准备

coco格式，制作教程有很多，这里就不写了

3.相关文件修改

类别数量修改：configs\_base_\models\...py(采用的骨干设置文件)，将其中的num_classes由80改为1，

修改configs\_base_\default_runtime.py中interval(用于设置log的保存间隔与总训练次数),load_from（可选）

修改权重文件

修改configs/base/datasets/coco_instance.py中数据集路径

修改detection/configs/mask_rcnn_p2t_b_fpn_1x_coco.py中的max_epochs、lr

修改mmdet/core/evalution/class_names.py和mmdet/datasets/coco.py中的标签

def coco_classes():
      return ['cow']


class CocoDataset(CustomDataset):
 
      CLASSES = ('cow',)

训练：

cd detection

bash dist_train.sh configs/...py(权重文件) 8（gpus）

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

勤劳节俭阿美莉卡

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

Pix2Text (P2T) 新版发布，离Mathpix又近了一大步

u013250861的博客

01-15

386

用户输入一张包含文字和数学公式的图片，P2T 识别出图片中的文字和数学公式的 LaTeX 表示，最终返回纯文本形式的混合识别结果。P2T V0.2 的代码，以及预训练好的模型，都已经开源，欢迎大家使用。和 Mathpix 相比，P2T V0.2 的识别准确率和识别速度都还有很大提升空间，也请大家多包容，后续我们会继续推进相关优化。如果识别结果存在问题，可以通过网页左下侧框编辑识别效果，通过右下侧框可以实时看到编辑后的效果。进行文字检测和文字识别。旧的P2T只能识别要么是文字，要么是数学公式的单类型图片。

YOLOv9训练自己的数据集（从代码下载到实例测试）

Limiiiing的博客

07-26

3492

在Windows10上配置CUDA环境教程YOLOv9网络于2024年2月21日发布，其通过广义高效层聚合网络（GELAN）、可编程梯度信息（PGI）和辅助可逆分支设计等改进点，使得其在目标检测领域取得了显著的性能提升。在MS COCO数据集上，YOLOv9的四种不同参数数量的模型（v9-T、v9-S、v9-M、v9-C、v9-E）均取得了较高的检测精度，其中最小的模型达到了38.3%的AP，而最大的模型则达到了55.6%的AP。论文摘要翻译。

1 条评论您还未登录，请先登录后发表或查看评论

P2T: Pyramid Pooling T ransformer for Scene Understanding

qq_52302919的博客

01-19

1873

金字塔池化计算方式由于其出色的上下文提取能力，从而在各项视觉任务中取得了很好的效果。然而，金字塔池化在骨干网络的设计中至今并没有被探索过。因此，本文提出将金字塔池化引入到视觉 Transformer 中的多头自注意力模块（Multi-Head Self-Attention，MHSA）里面，既减少了图像词符序列的长度，同时提取到更好的语境特征。基于本文提出的金字塔池化多头注意力，提出金字塔池化 Transformer（Pyramid Pooling Transformer，P2T）骨干网络。

论文笔记(P2T)

Karl51的博客

03-04

263

论文阅读（P2T)

南开&阿里提出P2T：基于金字塔池化的视觉Transformer！可用于各类下游场景理解任务！...

阿木寺的博客

06-25

1364

点击下方卡片，关注“CVer”公众号AI/CV重磅干货，第一时间送达P2T: Pyramid Pooling Transformer for Scene Understanding作者单位...

使用PCReg.PyTorch项目训练自己的数据集&进行点云配准

a486259的博客

12-02

1442

本文方法与常见的图像配准逻辑类似，基于采样与transfrom操作从源点云生成目标点云，然后进行训练与评测。总体看来效果不如open3d自带的fgr方法，可以作为入门级项目进行使用。网络是基于PointNet + Concat + FC的，它没有其它复杂的结构，易于复现。因其简洁性，这里暂且把其称作点云配准的Benchmark。因作者源码中复杂的(四元数, 旋转矩阵, 欧拉角之间)的变换操作和冗余性，且其PyTorch版本的不完整性(缺少评估模型等，最近又更新了)，

手把手教程 | YOLOv8-seg训练自己的分割数据集

热门推荐

会AI的学姐

11-05

1万+

手把手教程：教会你如何使用自己的数据集开展分割任务

TPAMI 2024 | P2T：用于场景理解的金字塔池化Transformer

小白学视觉

08-19

784

最近，视觉Transformer通过推动各种视觉任务的最前沿取得了巨大成功。视觉Transformer面临的最大挑战之一是图像标记的大序列长度导致高计算成本（二次复杂度）。解决这个问题的一个流行方法是使用单个池化操作来减少序列长度。本文考虑了如何改进现有的视觉Transformer，其中通过单个池化操作提取的池化特征似乎不够强大。为此，我们注意到金字塔池化由于其在上下文抽象方面的强能力，在各种视觉任务中已被证明是有效的。然而，金字塔池化尚未在主干网络设计中被探索。

GRCNN抓取网络学习2【自制Jacquard数据集训练】

vor234的博客

09-01

1817

请先完成【机械臂视觉抓取从理论到实战】，这样有利于下面操作的理解！然后第二步是GRCNN抓取网络1【Jacquard数据集等效抓取集制作】，有了自己的数据集输入到GRCNN中是三种文件，接下来就是准备训练GRCNN网络啦！grasps.txtRGB.png本文帮大家根据自制Jacquard数据集训练GRCNN抓取网络，其中包含数据格式的对齐，列举了常见的几种训练方法，相信能坚持到这里的都应该试试顺利了吧！接下来会针对GRCNN调优，期待一下下吧，那就别宁色你的三连。

顶刊TPAMI 2022！金字塔池化的骨干网络，各大任务都涨点！南开&达摩院联合推出P2T...

阿木寺的博客

09-20

1781

点击下方卡片，关注“CVer”公众号AI/CV重磅干货，第一时间送达[TPAMI22] 金字塔池化的骨干网络，各大任务都涨点！南开&达摩院联合推出P2T英文标题：P2T: Pyramid Pooling Transformer for Scene Understanding中文标题：用于场景理解的金字塔池化Transformer作者列表：吴宇寰，刘云，占新，程明明作者单位：南开大学，阿里达...

探索未来场景理解的利器：Pyramid Pooling Transformer（P2T）

gitblog_00010的博客

06-09

353

探索未来场景理解的利器：Pyramid Pooling Transformer（P2T）去发现同类优质开源项目:https://gitcode.com/ 在这个不断进化的深度学习时代，我们很高兴向您介绍一个创新的开源项目——Pyramid Pooling Transformer（P2T）。这个项目由链接的官方论文支持，并提供了全面的代码和预训练模型，旨在图像分类、对象检测和语义分割等关键任务上打...

ptuning v2 的 chatglm垂直领域训练记录

weixin_41046245的博客

04-08

3187

第二我要减小十倍的学习率，观察一下减小十倍的学习率能不能提升ptuning的效果。基于终端的交互，基于简单界面的交互，基于fastapi框架提供的接口进行交互。从中国大百科爬下来的数据，有一些标题的输入是比较短的。喜欢大模型的小伙伴可以加我的 15246115202 一起交流训练大模型所需要的细节都有哪些。用这样的方式去加载已经ptuning训练好的模型就可以开始测试我们自己训练的数据集的效果了。找到了一些中国大百科的一对一对的数据集来ptuning chatglm 6B的对话模型。

使用OCR库Pix2Text执行p2t.recognize()时出现list index out of range的错误信息（附有Pix2Text识别图片内容和laTex公式的代码）

RenGJ010617的博客

03-23

2532

1、如何通过python使用Pix2Text识别图片。2、使用Pix2Text识别图片时出现list index out of range的错误信息的原因及解决方案

python处理图片文件_python 学习（二）处理图片、TXT文档

weixin_39873191的博客

12-03

374

一、尝试实现场景：将一个txt文档内容读到程序的数组内1、新建一个文档 array.txt,写入内容，如：2、使用命令行读取：1)在上述新建文档位置相同目录下打开命令提示窗2)打开文件，读入变量line中，打印可查看结果3)不知道上述命令怎么办？百度python怎么读txt 或查看官方文档、教程3、使用文件读取，在新建文档同级目录下新建 rtext.py文件，编写代码：importnumpy ...

中文文本匹配数据集整理

lc_love_ty的博客

06-11

3146

整理中文文本匹配（文本相似度）数据集了，后面准备基于该数据集，训练一个句向量表征模型。不找不知道，一找吓一跳，共整理了「16个」可用于文本匹配任务。

Chinese MNIST数据集（Kaggle）的pytorch实现

cxzgood的博客

11-14

3378

一、Chinese MNIST数据集本数据集来自Kaggle网站https://www.kaggle.com/gpreda/chinese-mnist 主要包括15000张64*64的手写中文数字图片，和一份内容文件。二、神经网络结构三层全连通网络：4096*300*80*15 三、传播过程 BP算法的计算过程可参考之前的文章，有详细说明，不再赘述。四、本项目重点：数据集的载入这里主要采用通...

【深度学习】Vision Transformer in CV

fengdu78的博客

04-16

866

https://github.com/dk-liang/Awesome-Visual-Transformerhttps://github.com/IDEACVR/awesome-detection-transformer本文主要包含跟Transformer相关的CV文章，用简短的话来描述一下涉及到文章的核心idea。可以看作是vision transformer的idea...

28-29【动手学深度学习】批量归一化 + ResNet