- 博客(15)
- 收藏
- 关注
原创 MLLM显著性预测:CaRDiff框架—CVPR2024
CaRDiff 框架的创新点多模态大型语言模型(MLLM):通过生成视频字幕,捕捉视频内容的高级语义信息。VSOR-CoT 方法:利用 MLLM 的推理能力,明确推导出显著目标的排名,而不仅仅是生成字幕。排名图:将显著目标的位置和排名信息编码为灰度值,为扩散模型提供明确的指导。
2025-05-13 00:40:01
937
原创 眼动&医学: Shifts in Doctors’ Eye Movements Between Real and AI-Generated Medical Images
眼动与医学图像中的探究性研究
2025-04-28 01:32:37
631
原创 显著性预测论文:CASP-Net
本文提出了一种一致性感知音频-视觉显著性预测网络(CASP-Net),有效地解决了视频显著性预测中潜在的音频-视觉不一致性问题。
2025-04-19 22:22:33
748
原创 步骤0:Linux服务器按照Anaconda
创建虚拟环境: conda create -n LLMenv python=3.11 (3.11是最新的security)uname -m命令查询系统架构( x86架构: x86_64 或 amd64;ARM64架构: aarch64 )查看conda环境: conda info --envs 或者 conda env list。一路按Enter, 然后选Yes, 系统帮助自动配置Anaconda路径。
2025-04-08 00:52:14
140
原创 ACL-A论文,Character-LLM: A Trainable Agent for Role-Playing
本文提出 Character-LLM 的概念,专注于编辑特定角色的档案作为该角色的经历,并训练模型成为具有这些经历的个人模拟体。
2024-11-28 13:51:01
1436
原创 2024ACL顶会M-LLM论文分享:GroundingGPT: Language Enhanced Multi-modal Grounding Model
GroundingGPT是一个创新性的多模态大语言模型,旨在解决多模态理解问题。
2024-10-14 10:41:42
1154
1
原创 Llama3.1技术报告极简概况
Llama 3是一个具有405B参数的大模型, 在评估方面达到了GPT4的水平, 但在实用性等方面其实还并不能相比.Llama 3通过compositional这个方法添加了图片, 视频, 语音的能力.
2024-08-30 02:21:54
2012
原创 提示词工程综述: PROMPT DESIGN AND ENGINEERING: INTRODUCTION AND ADVANCED METHODS
为了能够最大程度上挖掘大语言模型的潜力, 提示词工程的设计现在至关重要.提示词工程在生成式AI模型中是一个迅速发展的新兴学科, 主要是通过设计最优prompt来帮助生成式模型实现特定目标.
2024-08-15 14:34:11
2426
1
原创 RAG综述性论文: Retrieval-Augmented Generation for Large Language Models: A Survey
近年来大语言模型(LLM)在NLP领域展现了强大的能力, 在多个评估基准上展现了卓越的语言掌握和知识理解能力; 但在处理特定领域, 知识密集型任务, 时代型知识时, 大语言模型可能无法提供准确答案, 产生严重的幻觉.
2024-07-17 18:19:18
2923
2
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人