ML DL
文章平均质量分 88
jack_ya_ng
北航在读硕士,研究方向image captioning、object detection、DRL
展开
-
video bert & visual bert
最近需要处理一些多模态任务(图文匹配,caption等),需要用到多模态模型/算法。调研之后发现,目前处理此类问题的主流方法都是基于bert的多模态模型,因此总结一下学习过程中遇到的问题,以及自己对这些模型的理解。本文主要学习和记录一下video bert《VideoBERT: A Joint Model for Video and Language Representation Learning》这篇文章。读完这篇论文,给我的最大感受就是:为了让多模态数据(video和文本)能够同时输入到bert模型原创 2021-01-04 21:37:49 · 747 阅读 · 1 评论 -
像素均值 opencv实现mxnet均值归一化
opencv 实现mxnet/pytorch 图像均值归一化在一般的图像预处理过程中都会对图像进行减去mean,除以std操作。例如mxnet 中 mean = nd.array([123.68, 116.28, 103.53]) , std = nd.array([58.395, 57.12, 57.375])。在使用imageiter或者imagerecordIter等构训练或者验证集的...原创 2019-11-27 17:18:27 · 807 阅读 · 0 评论 -
二分类 多分类 多标签计算AP AR
二分类 多分类 多标签计算AP AR这几种分类模型的计算AP AR 过程基本一致比如有10个类别label为(0,1…9)predict\label0 (100)1234…0902313…1………所以类别1的accuracy=90/(90+2+3+1+3+…)类别1的recall=90/100注释:其中100为ground...原创 2019-11-27 16:53:27 · 1599 阅读 · 0 评论