多模态
文章平均质量分 78
yang_daxia
这个作者很懒,什么都没留下…
展开
-
sam2细节解析
模型输入prompt和image,特点是多了一个memory attention,将上一帧与当前帧通过attention机制进行融合,最后经过mask decoder推理输出。memory attention先self-attent,再和之前的帧(+目标点)cross-attention,最后接一个mlp。mask decoder结构,多任务的输出,除了mask输出,还有obj ptr、iou,occlusion。对于视频,是一帧一帧的进行输出的。不是batch的并行输出。原创 2024-10-15 17:31:34 · 168 阅读 · 0 评论 -
MiniCPM-V: A GPT-4V Level MLLM on Your Phone论文阅读
大模型的趋势:模型性能越来越好,模型参数变小,端边设备计算能力变强。原创 2024-08-19 16:26:27 · 1135 阅读 · 3 评论 -
论文阅读YOLO-World: Real-Time Open-Vocabulary Object Detection
RepVL-PAN由多尺度图像特征{C3, C4, C5}形成,利用了自顶向下和自底向上的路径来加强图像特征和文本特征之间的交互。模型架构:YOLO-World由YOLO检测器、文本编码器和RepVL-PAN组成,利用跨模态融合增强文本和图像表示。预训练方案:将实例注释重新定义为区域-文本对,通过大规模检测、定位和图像-文本数据进行预训练。V100上达到了52FPS!原创 2024-07-01 17:14:25 · 992 阅读 · 0 评论 -
clip系列改进Lseg、 group ViT、ViLD、Glip、CLIPasso、CLIP4Clip、ActionCLIP
在clip后面加一个分割head,然后用分割数据集有监督训练。textencoder使用clip,frozen住。原创 2024-06-27 17:58:09 · 419 阅读 · 0 评论 -
论文阅读Vlogger: Make Your Dream A Vlog
论文介绍了一个名为“Vlogger”的通用人工智能系统,它能够根据用户的描述生成分钟级的视频博客(vlog)。与通常只有几秒钟的短视频不同,vlog通常包含复杂的故事情节和多样化的场景,这对现有的视频生成方法来说是一个挑战。剧本(Script):使用LLM根据用户故事创建剧本,描述多个拍摄场景及其相应的拍摄时长。演员(Actor):根据剧本总结角色,并使用角色设计师生成这些角色的参考图像。原创 2024-06-27 11:34:38 · 913 阅读 · 1 评论 -
论文阅读KVQ: Kwai Video Quality Assessment for Short-form Videos
短视频格式、内容与长视频不同,需要引入新的质量评估方法。作者构建了一个新的用于质量评估的数据集,提出了新的质量评估方法。如下图所示,短视频有不同的格式、有模糊、噪声、编码等各种畸变。原创 2024-06-26 10:12:09 · 398 阅读 · 1 评论 -
论文阅读MVBench: A Comprehensive Multi-modal Video Understanding Benchmark
MVBench定义了20个视频理解任务,这些任务需要对视频的时间维度有深入理解,不能仅通过单个帧来解决。作者提出了一种从静态到动态的方法,将先前定义的静态图像任务转化为具有动态目标的视频任务,涵盖了从感知到认知的一系列时间理解技能。原创 2024-06-25 10:43:05 · 539 阅读 · 0 评论