小周爱学习€
码龄3年
关注
提问 私信
  • 博客:30,400
    30,400
    总访问量
  • 29
    原创
  • 32,290
    排名
  • 359
    粉丝
  • 0
    铁粉
  • 学习成就

个人简介:道阻且长,行则将至,行而不辍,未来可期

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:湖南省
  • 加入CSDN时间: 2021-10-12
博客简介:

zsy54577的博客

查看详细资料
  • 原力等级
    成就
    当前等级
    3
    当前总分
    269
    当月
    34
个人成就
  • 获得536次点赞
  • 内容获得1次评论
  • 获得413次收藏
创作历程
  • 29篇
    2024年
  • 1篇
    2021年
成就勋章
TA的专栏
  • 论文复现
  • 论文阅读
    5篇
  • Pytorch学习
    9篇
创作活动更多

HarmonyOS开发者社区有奖征文来啦!

用文字记录下您与HarmonyOS的故事。参与活动,还有机会赢奖,快来加入我们吧!

0人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

Predicting Human Scanpaths in Visual Question Answering

注意力是人类和计算机视觉系统中的重要机制。尽管当前最先进的模型关注通过自由观察行为估计静态概率显著性图,现实场景中充满了类型和复杂性各异的任务,视觉探索是一个影响任务表现的时间过程。为弥合这一差距,我们首次研究和预测人类在执行通用任务时的眼动时间序列(即注视路径),并探讨注视路径如何影响任务表现。我们提出了一种新的深度强化学习方法,用于预测视觉问答任务中导致不同表现的注视路径。在任务引导图的条件下,所提出的模型学习特定问题的注意力模式以生成注视路径。
原创
发布博客 2024.11.21 ·
652 阅读 ·
27 点赞 ·
0 评论 ·
16 收藏

Target-absent Human Attention

预测人类注视行为对于构建能够预测用户注意力的人机交互系统非常重要。已经开发出计算机视觉模型来预测人们在搜索目标物体时的注视点。但当目标不存在于图像中时,又该如何处理呢?同样重要的是要了解当人们找不到目标时,他们如何进行搜索,以及何时停止搜索。在本文中,我们提出了一种数据驱动的计算模型,解决了搜索终止问题,并预测了人们在搜索图像中没有出现目标时的搜索注视路径。我们将视觉搜索建模为一个模仿学习问题,并通过一种新的状态表示方法来表示观察者通过注视点所获得的内部知识,称为聚焦特征图(FFMs)。
原创
发布博客 2024.11.20 ·
738 阅读 ·
7 点赞 ·
0 评论 ·
25 收藏

Unifying Top-down and Bottom-up Scanpath Prediction Using Transformers

大多数视觉注意力模型旨在预测自上而下或自下而上的控制,这些控制通过不同的视觉搜索和自由观看任务进行研究。本文提出了人类注意力变换器(Human Attention Transformer,HAT),这是一个能够预测两种形式注意力控制的单一模型。HAT采用了一种新型的基于变换器的架构和简化的视网膜模型,这些共同构建了一种类似于人类动态视觉工作记忆的时空意识。HAT不仅在预测目标呈现和目标缺失视觉搜索中的注视扫描路径以及“无任务”自由观看中表现出色,成为新一代最先进的技术,还使人类注视行为变得可解释。
原创
发布博客 2024.11.19 ·
914 阅读 ·
7 点赞 ·
0 评论 ·
9 收藏

动态上下文信念(DCB)

结合高分辨率和低分辨率的信念图以及注视历史,系统生成动态上下文信念(Dynamic Contextual Beliefs)。:这些动态上下文信念被转换为单热任务嵌入(One-hot Task Embedding),用于识别和定位图像中的特定对象。:最终,系统输出不同对象的信念图,如椅子、冰箱、微波炉和烤箱等,每个对象都有一个20x32的表示。:输入图像被转换为低分辨率版本,用于生成低分辨率的信念图(Low-res Beliefs)。DCB(动态上下文信念)是一个用于累积通过注视获得信息的状态表示组件。
原创
发布博客 2024.10.31 ·
242 阅读 ·
4 点赞 ·
0 评论 ·
8 收藏

牛马阅读《Gazeformer: Scalable, Effective and Fast Prediction of Goal-Directed Human Attention》

预测人类注视在人与计算机交互(HCI)中非常重要。然而,为了实际服务于HCI应用,注视预测模型必须具备可扩展性、快速性和在空间和时间上准确的注视预测。近期的扫描路径预测模型集中在目标导向的注意力(搜索)上。这类模型在应用上存在限制,主要是因为它们通常依赖于针对所有可能物体的训练目标检测器,以及用于训练的人类注视数据的可用性(这两者都不具备可扩展性)。
原创
发布博客 2024.10.28 ·
804 阅读 ·
29 点赞 ·
0 评论 ·
9 收藏

transformer的新手疑问

Transformer模型的原理主要基于。它的设计不依赖传统的循环神经网络(RNN)或卷积神经网络(CNN),而是通过并行的方式处理序列数据,极大提高了训练效率和性能。
原创
发布博客 2024.10.25 ·
353 阅读 ·
3 点赞 ·
0 评论 ·
10 收藏

理解一下SpFormer架构以及论文知识点

1024程序员节 | 征文#
原创
发布博客 2024.10.24 ·
1460 阅读 ·
46 点赞 ·
0 评论 ·
22 收藏

牛马阅读《SpFormer: Spatio-Temporal Modeling for Scanpaths with Transformer》

saccadic scanpath(扫视路径)是人类视觉行为的数据表示,在多个领域受到了广泛关注。扫视路径是一种复杂的眼动追踪数据形式,包括注视位置序列和注视持续时间,结合了图像信息。然而,以前的方法通常面临注视特征的空间错位问题以及关键时间数据的丢失(包括时间相关性和注视持续时间)。在本研究中,我们提出了一种基于Transformer的扫视路径模型SpFormer,以缓解这些问题。首先,我们提出了一种以注视为中心的范式,以提取对齐的空间注视特征并对扫视路径进行标记。
原创
发布博客 2024.10.23 ·
1127 阅读 ·
26 点赞 ·
0 评论 ·
9 收藏

视觉注意力模型的分析

1. Itti背景:基于人类视觉系统的生理特征,Itti模型是视觉显著性研究的奠基之作。 机制:通过提取颜色、亮度和方向等多种视觉特征,构建多个特征图。这些特征图经过抑制和竞争机制处理,形成一个显著性图,最终决定注意力的焦点。 应用:广泛应用于计算机视觉任务,如目标检测和图像分割。2. AWS (Adaptive Whitening Saliency)背景:旨在动态识别重要视觉信息的模型,结合了图像处理和心理学原理。 机制:通过滑动窗口的方式在图像上移动,使用自适应白化技术增强图像特征,
原创
发布博客 2024.10.22 ·
694 阅读 ·
24 点赞 ·
0 评论 ·
12 收藏

详细说明如何使用C++编写A*算法

它结合了广度优先搜索的全面性和深度优先搜索的效率,通过估计当前路径代价和到达目标的预估代价,来找到从起点到目标的最短路径。类型的指针,它指向当前节点的父节点。在路径搜索树中,每个节点(除了根节点)都有一个父节点,指向它在树中的直接上级。这个指针用于重建从起点到终点的路径,一旦找到终点,可以通过追踪这些父节点指针回溯到起点。通过构建一个优先队列,A*算法每次从未探索的节点中选择f值最小的节点进行扩展,直至找到目标节点或遍历完整个搜索空间。
原创
发布博客 2024.10.19 ·
1473 阅读 ·
40 点赞 ·
0 评论 ·
19 收藏

牛马阅读(知识+重点翻译) Advanced Deep-Learning Techniques for Salient and Category-Specific Object Detection

目标检测,包括目标检测(OD)、显著目标检测(SOD)和特定类别的目标检测(COD),是计算机视觉界最基本但最具挑战性的问题之一。在过去的几十年中,研究人员已经做出了巨大的努力来解决这个问题,因为它在其他计算机视觉任务(如活动或事件识别、基于内容的图像检索和场景理解)中得到了广泛的应用。虽然近年来提出了许多方法,但仍然缺乏对所提出的高质量对象检测技术的全面审查,特别是对于基于高级深度学习技术的技术的技术。为此,本文深入研究了该研究领域的最新进展,包括 1)每个子方向的定义、动机和任务;
原创
发布博客 2024.10.18 ·
1156 阅读 ·
20 点赞 ·
0 评论 ·
30 收藏

扫视扫描路径预测的评估:主观评估数 据库和基于循环神经网络的度量 记录

通过分析不同指标下的表现(如HD-AUC、MMD-AUC),可以识别出算法在哪些方面需要改进,例如,如果发现HD-AUC值较大,说明预测路径与参考路径差异较大,需要优化算法以减少这种差异。:扫描路径相似度(SS)指标,如SS-All和SS-AUC,提供了预测路径与参考路径在整体上相似性的评价。但在您提供的数据中,AUC似乎用于表示形状相似度,这种情况下,较高的AUC值也表示更好的相似度。它反映了观察者的视觉注意力在空间上的变化。HD值越小,表示预测路径与参考路径之间的差异越小,因此HD值越小越好。
原创
发布博客 2024.10.17 ·
845 阅读 ·
18 点赞 ·
0 评论 ·
8 收藏

darknet_ros 使用教程

darknet_ros 使用教程
原创
发布博客 2024.10.14 ·
415 阅读 ·
3 点赞 ·
0 评论 ·
0 收藏

Pytorch(笔记8神经网络nn)

torch.nn是专门为深度学习而设计的模块。torch.nn的核心数据结构是Module,它是一个抽象的概念,既可以表示神经网络中的某个层(layer),也可以表示一个包含很多层的神经网络。在实际使用中,最常见的做法是继承nn.Module,从而编写自己的网络/层。下面先来看看如何用nn.Module实现自己的全连接层。
原创
发布博客 2024.07.11 ·
1401 阅读 ·
16 点赞 ·
1 评论 ·
25 收藏

Pytorch(笔记7损失函数类型)

beta=1.0是PyTorch中SmoothL1Loss的默认值。这个值的选择是基于经验和实践的,旨在在L1损失和L2损失之间找到一个平衡点,以便在大多数情况下都能获得良好的性能。调整beta的值可以改变损失函数对误差的敏感度。较小的beta值会使损失函数在误差较小时更加接近L2损失,从而在原点附近更加平滑;较大的beta值则会使损失函数更早地过渡到L1损失的形式,从而减少对大误差的惩罚。
原创
发布博客 2024.07.05 ·
1454 阅读 ·
27 点赞 ·
0 评论 ·
10 收藏

xml 转 txt ,轻松转变(亲测有效)

【代码】xml 转 txt ,轻松转变(亲测有效)
原创
发布博客 2024.07.04 ·
573 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

OpenCV(绘图功能笔记)

学习使用OpenCV绘制不同的几何形状cv.line(),cv.circle(),cv.rectangle(),cv.ellipse(),cv.putText()等。
原创
发布博客 2024.07.03 ·
810 阅读 ·
24 点赞 ·
0 评论 ·
12 收藏

OPENCV(视频入门笔记)

通常情况下,我们必须用摄像机捕捉实时画面。提供了一个非常简单的界面。让我们从摄像头捕捉一段视频(我使用的是我笔记本电脑内置的网络摄像头) ,将其转换成灰度视频并显示出来。只是一个简单的任务开始。要捕获视频,需要创建一个 VideoCapture 对象。它的参数可以是设备索引或视频文件的名称。设备索引就是指定哪个摄像头的数字。。所以我简单地传0(或-1)。你可以通过传递1来选择第二个相机,以此类推。在此之后,你可以逐帧捕获。但是在最后,不要忘记释放俘虏。第一个参数返回布尔值(True/ False)
原创
发布博客 2024.07.03 ·
678 阅读 ·
11 点赞 ·
0 评论 ·
5 收藏

OPENCV(图像入门笔记)

使用OpenCV读取图像 展示图像
原创
发布博客 2024.07.03 ·
548 阅读 ·
12 点赞 ·
0 评论 ·
7 收藏

激活函数(1)笔记

最受欢迎的激活函数是修正线性单元(Rectified linear unit,ReLU),因为它实现简单,同时在各种预测任务中表现良好。ReLU提供了一种非常简单的非线性变换。
原创
发布博客 2024.07.01 ·
963 阅读 ·
16 点赞 ·
0 评论 ·
27 收藏
加载更多