![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
图像处理
文章平均质量分 79
AI强仔
人工智能爱好者、机器人爱好者
展开
-
OpenPose-人体姿态估计
本文根据2019年5月《OpenPose: Realtime Multi-Person 2D PoseEstimation using Part Affifinity Fields》翻译总结。不过openpose在2017年就发了。这个是更新版。人体姿态估计面临多种挑战:1)每张图片可能包含未知数量的人,他们出现在不同的未知,也不同的大小尺度;2)人体之间的交互,如接触,产生了复杂的空间预测;3)预测时间随着人的数量增加,增加了在实时场景预测的难度。翻译 2023-07-06 17:18:39 · 473 阅读 · 0 评论 -
视频理解AI模型分类与汇总
人工智能领域视频模型大体也经历了从传统手工特征,到卷积神经网络、3D卷积网络、双流网络、transformer的发展脉络。原创 2023-05-12 17:29:25 · 2379 阅读 · 0 评论 -
Next-ViT: Next Generation Vision Transformer
ResNet倾向于捕获高频信号,而对低频信号较困难。ViT(Swin)倾向于捕获低频信号,忽略高频信号。而Next-ViT同时捕获高低频翻译 2023-02-17 17:45:39 · 458 阅读 · 0 评论 -
timm(图像Imagenet预训练模型库)
timm(图像Imagenet预训练模型库)原创 2022-12-23 17:18:16 · 1244 阅读 · 3 评论 -
Vision Transformer (ViT)
ViT有两个特点,一是采用纯Transformer,没有CNN;二是基于大量的预训练数据。翻译 2022-10-04 14:42:39 · 989 阅读 · 0 评论 -
Focal Loss for Dense Object Detection
1 简介本文根据2018年《Focal Loss for Dense Object Detection》翻译总结的。图像识别的方法有两种,分别是one-stage和two-stage。two-stage方法,如R-CNN,第一个stage是生成一个稀疏的含候选物体位置的集合,第二个stage是采用卷积网络识别每一个候选位置,将其识别为foreground 类别或者background。two-stage方法具有较高的准确率,其分类器是应用于一个稀疏的集合。one-stage分类器应用于一个密集(de翻译 2022-04-29 16:42:29 · 934 阅读 · 0 评论 -
物体识别网络汇总
1 R-CNN:结合了region proposal和卷积网络,使region proposal方法流行起来;2 HCP-2014HCP(hypothesis-CNN-Pooling).采用BING生成proposal。3 SSPnet提升了R-CNN。引入了空间金字塔池化层。4 Fast R-CNN扩展了SSPnet,端到端训练,最小化一个损失(confidence 和bounding box 回归)。RPN产生region proposals。后面提出了mask R-CNN。5 Ove原创 2020-09-22 17:59:06 · 484 阅读 · 0 评论 -
SSD物体识别-论文笔记
1 简介本文根据2016年《SSD: Single Shot MultiBox Detector》翻译总结。SSD比YOLO更快、更准确;准确率也可以达到faster R-CNN的水平。2 SSD2.1 模型多尺度特征:如上图一堆extra feature layer层,他们的大小逐步减小,支持多尺度预测。卷积预测:使用卷积滤波,上面的每个特征层可以生成一个固定检测预测的集合。Bounding box offset output 是相对于一个默认的box 位置衡量的。默认boxes、纵横比翻译 2020-09-22 17:06:22 · 263 阅读 · 1 评论 -
YOLOv2、YOLO9000论文笔记
1. 简介:从2016年论文《YOLO9000:Better, Faster, Stronger》翻译总结的。物体实时检测,可以检测9000多种物体。介绍了YOLOv2、YOLO9000。YOLOv2在YOLO基础上进行了改进。YOLO9000联合优化detection和classification,可以检测9000种物体分类,使用了wordtree 来组合不同来源的数据,比如ImageNet和COCO。文中主要是和fast r-cnn 、SSD对比。YOLO是单步检测,在准确率和速度方面权衡。2.翻译 2020-09-22 10:07:14 · 224 阅读 · 0 评论 -
论文笔记3D Convolutional Neural Networks for Human Action Recognition
1 简介本文依据2009年左右的《3D Convolutional Neural Networks for Human Action Recognition》翻译总结.应该是较早提出3D CNN的文章。识别的人类动作主要要三种打电话、ObjectPut、Pointing。2 3D Convolutional Neural Networks2.1 2D CNN2.2 3D 卷积下图是共享权重的3D卷积。相同的3D kernel.不共享权重的3D卷积。右侧会产生两个不同的feature ma翻译 2020-08-15 16:20:56 · 536 阅读 · 0 评论 -
EfficientDet物体检测-论文笔记
1 简介本文依据2020年《EfficientDet: Scalable and Efficient Object Detection》翻译总结。在效率和准确率两方面兼顾。1,多尺度特征融合;2.模型的规模精简。下图可以看到,EfficientDet需要很少的训练参数和训练次数就可以取得很好的成绩AP。2 BiFPN如上图d,是BiFPN的结构,又融合多尺度,有比以前的a\b\c网络架构精简、准确率高。公式如下。2.1 权重特征融合不同的输入特征在不同的分辨率上,它们对输出的贡献各不同,翻译 2020-08-14 11:24:30 · 227 阅读 · 0 评论 -
DEEP SPINE论文笔记-椎体、椎间盘神经网络识别
1 简介本文根据《DEEP SPINE: AUTOMATED LUMBAR VERTEBRAL SEGMENTATION, DISC-LEVEL DESIGNATION, AND SPINAL STENOSIS GRADING USING DEEP LEARNING》翻译总结。本文实现多输入(矢状图、轴状图)、多任务(脊椎狭窄、左神经孔、右神经孔)、多分类(正常、轻度疾病、中度疾病、重度疾病)的模型。如下图,首先采用人工标注的椎体、尾椎的mask,用U-Net进行定位识别,对定位的椎体有个多项式曲线适配翻译 2020-08-12 11:27:02 · 571 阅读 · 0 评论 -
ILSVRC-ImageNet历年竞赛冠军
ImageNet是一个超过15 million的图像数据集,大约有22,000类。是由李飞飞团队从2007年开始,耗费大量人力,通过各种方式(网络抓取,人工标注,亚马逊众包平台)收集制作而成,它作为论文在CVPR-2009发布。当时人们还很怀疑通过更多数据就能改进算法的看法。深度学习发展起来有几个关键的因素,一个就是庞大的数据(比如说ImageNet),一个是GPU的出现。(还有更优的深度模型,更好的优化算法,可以说数据和GPU推动了这些的产生,这些产生继续推动深度学习的发展)。ILSVRC是一个原创 2020-08-09 12:34:51 · 30135 阅读 · 5 评论 -
Cascade R-CNN论文笔记
1 简介本文依据《Cascade R-CNN: Delving into High Quality Object Detection》翻译总结。Cascade R-CNN探究高质量物体检测。物体检测有两种方法,一种是单步的,像YOLO、SSD是单步物体识别模型。还有一种是两步的,如R-CNN系列。对于R-CNN物体检测方法,分为两步,第一步是proposal检测者(detector),产生假设(hypothesis)/box,第二步是region-wise检测者(detector)/分类器。其中,I翻译 2020-08-02 16:32:07 · 493 阅读 · 0 评论 -
Stacked Hourglass Networks人体姿势估计-论文笔记
1 简介本文依据《Stacked Hourglass Networks for Human Pose Estimation》翻译总结。Stacked Hourglass:(1) 一个最终姿势的估计是需要理解整个身体的。所以最好是图片不同尺度的识别。Stacked Hourglass对所有尺度下的特征都处理,以便更好的捕获关于身体的各种空间关系。(2) 仅关注RGB图片的单个人姿势的关键点定位。(3) 没有使用unpolling和deconv 层,使用的是simple nearest neighbo翻译 2020-08-01 15:00:40 · 284 阅读 · 0 评论 -
cv2函数方法大全
目录1 cv2.imread(): 12 cv2.imshow()显示图像 13 cv2.imwrite(file,img,num): 14 Img基本属性 15 图片颜色通道的分离与合并 16 图片相加、加减乘除、均值&方差、逻辑运算——与、或、非、异或 17 cv2.flip(img,flipcode)翻转图像 28 cv2.resize()缩放等几何变换 39 形态学转换 310 绘制线段,圆,矩形和多边形等 311 cvtColor颜色空间转换 312 二值化 41原创 2020-07-31 11:24:18 · 13752 阅读 · 2 评论 -
语义分割优秀模型一览
摘自https://blog.csdn.net/JianqiuChen/article/details/105332206语义分割优秀模型一览:转载 2020-07-28 22:35:55 · 3569 阅读 · 0 评论 -
HRNet-人体姿势估计-论文笔记
1.简介本文依据《Deep High-Resolution Representation Learning for Human Pose Estimation》翻译总结。HRNet指High-Resolution Net。人的姿势(肘、手腕等)预测如下图。对于单人姿势估计,神经网络有两种主要的方法,一种是回归keypoints的位置,一种是估计关键点热图。其中关键点热的主要部分,一般采用hign-to-low 和low-to-hign的框架。HRNet改进了hign-to-low 和low-to-h翻译 2020-07-28 21:57:20 · 1387 阅读 · 0 评论 -
python图像增强工具imgaug
1.简介:https://github.com/aleju/imgaugimgaug是一个封装好的用来进行图像augmentation的python库2.增强操作类型Fliplr:水平翻转Flipud:纵向翻转CropAndPad:裁剪图片Affine:变形操作Superpixels:生成随机数量的超像素区域,对原图进行替换,直观效果是原图部分区域变得模糊各种blur:模糊,对应几种滤波操作sharp:字面意思,锐化emboss:压印浮凸字体(或图案); 凹凸印EdgeDetect:原创 2020-07-22 10:52:33 · 1593 阅读 · 0 评论 -
U-Net论文笔记
1 摘要本文参考2015年《U-Net: Convolutional Networks for Biomedical Image Segmentation》翻译总结。深度网络的训练一般需要成千上万的标注训练集。U-Net会更加有效的运用样本,所以数量上可以少些。U-Net在2015年ISBI cell tracking challenge中获胜。深度卷积网络的一个重要突破是krizhevsky使用8层网络、1百万张 imageNet 训练数据。深度卷积网络另一个发展是Region的滑窗方法,但其有翻译 2020-07-19 12:57:25 · 401 阅读 · 0 评论 -
dicom 的mm换算成像素Pixel
[0028,0030]( Pixel Spacing ) 像素间距,单位是毫米(mm)例如PixelSpacing=0.625\0.815,表示水平像素间距为0.625mm,垂直间距为0.815mm。Pixel spacing:represents the distance on the ground for a pixel in the range and azimuth directions.PixelSpacing - 每个像素点实际的长度与宽度,单位(mm)所以,应该是6mm=6/Pixel原创 2020-07-15 16:44:52 · 2271 阅读 · 1 评论 -
论文笔记OHEM(Online Hard Example Mining)
简介 来自2016年论文《Training Region-based Object Detectors with Online Hard Example Mining》。在线困难样本挖掘OHEM(Online Hard Example Mining)。如字面意思,OHEM加强了对困难样例的检测,提高了mAP。Bootstrapping算法,指的就是利用有限的样本资料经由多次重复抽样,重新建立起足以代表母体样本分布的新样本。Bootstrapping现在经常叫做hard negative m...翻译 2020-06-23 15:53:02 · 672 阅读 · 0 评论 -
多标签多物体识别
CNN在识别单个物体方面取得了显著的发展,但如果只用CNN的话,在识别多个物体方面会遇到瓶颈。下面罗列了一些识别一张图片中多个不同的物体的方法,主要是结合CNN、RPN、LSTM,以及和RPN有类似作用的BING。HCP(hypothesis-CNN-Pooling):BING算法+shared CNN。BING算法生成object proposal。shared CNN网络采用imageNet(单独标签的)数据进行了预训练。RLSD(Regional Latent Semantic Depe原创 2020-06-20 11:32:58 · 2279 阅读 · 0 评论 -
论文笔记BING( Binarized normed gradients)与BING-E
1 简介本文主要基于论文《BING: Binarized normed gradients for objectness estimation at 300fps》翻译总结。BING可以用来生成图片的object proposal,物体识别的前奏。BING的好处主要是其运算速度快,同时识别的object proposal具有一般性,应用于不同的物体。BING(binarized normed gradients 二值化标准梯度)。对于物体的识别,比如RPN模型,其检测效果依赖于大量的ground-tr翻译 2020-06-19 20:44:12 · 900 阅读 · 0 评论 -
论文笔记HCP:Single-label to Multi-label
1 简介参考2014年论文《CNN: Single-label to Multi-label》,该论文中提出了HCP(hypothesis-CNN-Pooling)。HCP可以进行一张图片中多物体(多标签)的识别。Hypothesis基本可以理解为物体建议(object proposal)。先介绍个模型BING(binarized normed gradients 二值化标准梯度)。对于物体的识别,比如RPN模型,其检测效果依赖于大量的ground-truth 标注,这样就导致RPN的检测效果不具有一般翻译 2020-06-18 22:33:04 · 461 阅读 · 0 评论 -
Mask R-CNN论文笔记
1 简介来源论文《MaskR-CNN》。Mask R-CNN 可以进行物体实例的分割。在识别一张图片中各物体实例的同时,对每个实例产生高质量的分割蒙版(mask)。R-CNN (region-based CNN)发展到Faster R-CNN,现在又到了Mask R-CNN。Mask R-CNN是在Faster R-CNN的基础上增加了一个分支,用来进行RoI(region of interest)上的分割蒙版的预测。也增加了5fps(帧/秒)的消耗。如下图那些带颜色的蒙版。Mask R-CNN原创 2020-06-17 22:44:58 · 274 阅读 · 0 评论 -
论文笔记RLSD-Regional Latent Semantic Dependencies
1.简介:RLSD出自论文《Multi-label Image Classifification with Regional Latent Semantic Dependencies》中,即Regional Latent Semantic Dependencies。RLSD可以看做是CNN+RPN(region proposal network)+LSTM. 用于多标签图片分类,即识别一张图片中的多个物体与类别。CNN采用的VGGNET。所以RLSD在效果方面比CNN+RNN(LSTM)会好些,尤其是原创 2020-06-15 22:38:19 · 794 阅读 · 0 评论 -
mAP-Mean Average Precision
转载:https://www.pianshen.com/article/9216329593/reference:https://github.com/rafaelpadilla/Object-Detection-Metrics计算mAP的github:https://github.com/Cartucho/mAP1.TP、TN、FP、FNTrue positives(TP): 被正确地划分为正例的个数,即实际为正例且被分类器划分为正例的实例数;False positives(FP): 被错误地转载 2020-06-11 22:44:57 · 168 阅读 · 0 评论 -
机器学习/人工智能竞赛
1.1 Kaggle-国外https://www.kaggle.com/。Kaggle是由联合创始人、首席执行官安东尼•高德布卢姆(Anthony Goldbloom)2010年在墨尔本创立的,主要为开发商和数据科学家提供举办机器学习竞赛、托管数据库、编写和分享代码的平台。该平台已经吸引了80万名数据科学家的关注,这些用户资源或许正是吸引谷歌的主要因素。Kaggle上的竞赛有各种分类,例如奖金极高竞争激烈的的 “Featured”,相对平民化的 “Research”等等。但他们整体的项目模式是一样的,原创 2020-06-03 10:23:05 · 480 阅读 · 0 评论 -
论文笔记R-CNN
1 介绍本文基于《Rich feature hierarchies for accurate object detection and semantic segmentation》翻译总结,该文论述了R-CNN。最近10年,关于各种不同的视觉识别任务主要是基于SIFT和HOG。SIFT和HOG是块方向直方图。在R-CNN之前,物体识别停滞了几年。我们是结合了region proposals和CNNs,故取名R-CNN:Regions with CNN features。我们的方法有两个关键点:(1)将高翻译 2020-05-27 17:53:03 · 179 阅读 · 0 评论 -
论文笔记-Fast R-CNN
1 介绍本文基于《Fast R-CNN》翻译总结,作者是Ross Girshick(Microsoft Research)。Fast Region-based Convolutional Network method (Fast R-CNN) 用来进行物体识别。相比于图片分类,物体识别更具挑战,需要更加复杂的方法来解决。R-CNNR-CNN有以下三个缺点:1.训练是多步骤的:R-CNN首先微调一个卷积网络,使用log loss 进行物体检测;然后适配SVM到卷积特征。这些SVM作为物体检测者,代替翻译 2020-05-09 17:31:46 · 409 阅读 · 0 评论 -
FPN论文笔记
1.介绍1.1.介绍本文基于《Feature Pyramid Networks for Object Detection》翻译总结。FPN即特征金字塔网络,在微不足道的代价(计算、存储)下,利用了深度卷积网络中内在的multi-scale 金字塔特征层,在特征提取方面取得了良好的效果。2.相关知识介绍2.1.Featurized image pyramid图像金字塔在人工特征领域大量使...原创 2020-04-12 16:36:59 · 296 阅读 · 0 评论 -
弯曲文本检测PSENet论文笔记
1.介绍1.1.介绍本文基于《Shape Robust Text Detection with Progressive Scale Expansion Network》翻译总结。PSENet(Progressive Scale Expansion Network)称为渐进尺度扩展网络,主要是进行任意形状的文字定位,以及不同的光照条件、不同的颜色、不同的尺度大小。甚至文字区域非常接近,以及有部分...原创 2020-04-05 22:43:02 · 923 阅读 · 0 评论 -
论文笔记:SIFT(Scale-invariant feature transform 尺度不变特征变换)
1.SIFT介绍1.1.介绍SIFT(Scale-invariant feature transform 尺度不变特征变换)图像特征匹配,即使图像有旋转、模糊、尺度、亮度的变化,即使使用不同的相机,即使图像拍摄的角度不同,SIFT总能检测到稳定的特征点。SIFT是人工设计特征的一个巅峰。SIFT算法由加拿大英属哥伦比亚大学教授David Lowe 于 1999 年发表于会议ICCV ,原论文...原创 2020-04-01 22:29:58 · 6807 阅读 · 0 评论 -
图像预处理方法总结
1. 图像二值化1.1. 简单阈值或全局阈值gray = cv.cvtColor(image, cv.COLOR_RGB2GRAY) #把输入图像灰度化ret, binary = cv.threshold(gray, 0, 255, cv.THRESH_BINARY | cv.THRESH_TRIANGLE)简单阈值当然是最简单,选取一个全局阈值,然后就把整幅图像分成了非黑即白的二值图像...原创 2020-03-30 15:31:45 · 16693 阅读 · 0 评论