github网站下,open–mmlab的mmdetection下面会包括有物体检测(object detection),实例分割(instance segmentation )等内容,可选比较新的顶会论文研究。
实例分割就是要把每个小类别都要分割出来(不止分出大类,还要区分出每个实体出来);语义分割就是将图像中的每个象素点分类到不同类别中(同一类的用一种颜色表示,例几个人连在一起也就用同一种颜色表示,没细分第几个人),经典的语义分割模型是2015年的unet,应用领域包括自动驾驶中的识别道路,人,车等;还包括运用到医疗影象中的识别病变区域;还包括卫星图像中的识别不同的地物类型;还包括自动抠图中的从背景中分离出前景物体等等
一.unet
unet是主要用transformer的encoder,chatgpt主要用transformer的decoder,而h5就encoder与decoder都有用。
(1)图像分割和损失函数概述
1)图像分割与语义分割的概述
检测任务是指要找的物体框出来就行,分割任务是逐像素点找到你需要的物体。分割时有前景与背景(干拢因素)之说。
2)分割任务中的目标函数定义
它的损失函数就是逐像素的交叉熵,神经网络的分类任务损失函数就是用交叉熵,其公式就略了。优化后的损失函数就是在某些像素点难预测的权重占比大一小,也就是说前面乘上个参数值表示权重值。
3)miou评估标准
iou在多分类中的计算:iou=x/(tureValue+preValue-x),在行列式中x轴上表示某类的预测值preValuey,轴上表示某类的真实值tureValue,某类在x与y相交值为x。例如tureValue有1,2,3,4,5,6,7,8,9个,preValue有2,3,4,2,5,1,7,2,6