自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

yul1024的博客

yul1024 CSDN认证博客专家 CSDN认证企业博客

码龄43天

4: 原创

149万+: 周排名

12万+: 总排名

3209: 访问

: 等级

109: 积分

53: 粉丝

69: 获赞

1: 评论

54: 收藏

私信

关注

热门文章

分类专栏

CV 4篇
多模态 4篇
LLM 2篇
agent 1篇
情感计算 1篇

最新评论

论文阅读：VideoAgent: A Memory-augmented Multimodal Agent for Video Understanding
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
论文阅读：How you feelin‘? Learning Emotions and Mental States in Movie Scenes
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
论文阅读：Koala: Key frame-conditioned long video-LLM
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
论文阅读：DTLLM-VLT: Diverse Text Generation for Visual Language Tracking Based on LLM
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
论文阅读：DTLLM-VLT: Diverse Text Generation for Visual Language Tracking Based on LLM
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天最佳新人】榜单，全部的排名请看 https://bbs.csdn.net/topics/619293449。

最新文章

agent

关注

文章平均质量分 88

关注数：文章数：1 文章阅读量：1141 文章收藏量：15

作者: yul1024

这个作者很懒，什么都没留下…

展开

论文阅读：VideoAgent: A Memory-augmented Multimodal Agent for Video Understanding

现有的多模态的模态大多对于视频理解的任务能力有限，主要局限于模型对于上下文的记忆能力有限。使用agent的方法，可以在不进行大量的训练和后续工程的情况下，获得更好的表现。从文章的内容来看，前半部分信息量比较大，后面的内容较少。不过，还是可以体会到文章一开始需要去构建记忆的实现花了很多功夫，当然从结果来看是比较直接的。agent在现在很大程度和多模态联系在一起，比较值得关注。从本文来看，进行agent相关的实践很有必要。

原创 2024-09-13 20:47:26 · 1147 阅读 · 0 评论