sam2细节解析 模型输入prompt和image,特点是多了一个memory attention,将上一帧与当前帧通过attention机制进行融合,最后经过mask decoder推理输出。memory attention先self-attent,再和之前的帧(+目标点)cross-attention,最后接一个mlp。mask decoder结构,多任务的输出,除了mask输出,还有obj ptr、iou,occlusion。对于视频,是一帧一帧的进行输出的。不是batch的并行输出。
Image matting入门 Deep Image Matting:A Comprehensive Surveyhttps://www.zhihu.com/question/68146993/answer/2791899921https://github.com/michaelowenliu/awesome-image-mattinghttps://www.alphamatting.com/eval_25.phphttps://paperswithcode.com/task/image-matting
OPENAI O1总结Learning to Reason with LLMs OpenAI 01在编程问题(Codeforces)上排名超过89%的人,在美国数学奥林匹克(AIME)预选赛中排名前500位,在物理、生物和化学问题(GPQA)的基准上超过了人类博士水平的准确性。参考:https://openai.com/index/learning-to-reason-with-llms/通过强化学习训练,O1推理时利用思维链,可以自动找到cot策略、纠正错误、简化推理步骤、再错误时换另一个思维链。和gpt4o相比,在编程、数据分析、数学计算等大幅领先gpt4o。所以这是一个偏科生。
LongWriter: Unleashing 10,000+ Word Generation from Long Context LLMs论文阅读 当前的LLMs能够处理100,000个token的输入,但在难以生成超过2,000个词。实验发现模型的有效生成长度本质上受到其在监督式微调(SFT)期间所见过的样本的限制。为了解决这个问题,我们引入了AgentWrite,它将超长生成任务分解为子任务,使现成的LLMs能够生成超过20,000个词的连贯输出。利用AgentWrite,我们构建了一个包含6,000个SFT数据的LongWriter-6k数据集,输出长度范围在2k到32k个词之间。
大模型微调算法汇总 Parameter-Efficient Fine-Tuning (PEFT) 技术旨在通过最小化微调参数的数量和计算复杂度,来提高预训练模型在新任务上的性能。一般新场景的业务,需要微调大模型。不需要从0训练。
Code Llama: Open Foundation Models for Code论文阅读 所有这些模型都是在大量代码数据上训练的,并且都经过了优化以提高在代码生成和理解任务上的性能。Code Llama - Python 专注于Python语言的代码生成,而 Code Llama - Instruct 专注于提高对自然语言指令的遵循能力,并增强了模型的安全性。基础模型 Code Llama 提供了广泛的代码生成能力,适用于多种不同的编程语言。Code Llama 发布了3款模型,包括基础模型、Python 专有模型和指令跟随模型,参数量分别为 7B、13B、34B 和 70B。
论文阅读YOLO-World: Real-Time Open-Vocabulary Object Detection RepVL-PAN由多尺度图像特征{C3, C4, C5}形成,利用了自顶向下和自底向上的路径来加强图像特征和文本特征之间的交互。模型架构:YOLO-World由YOLO检测器、文本编码器和RepVL-PAN组成,利用跨模态融合增强文本和图像表示。预训练方案:将实例注释重新定义为区域-文本对,通过大规模检测、定位和图像-文本数据进行预训练。V100上达到了52FPS!
clip系列改进Lseg、 group ViT、ViLD、Glip、CLIPasso、CLIP4Clip、ActionCLIP 在clip后面加一个分割head,然后用分割数据集有监督训练。textencoder使用clip,frozen住。
论文阅读Vlogger: Make Your Dream A Vlog 论文介绍了一个名为“Vlogger”的通用人工智能系统,它能够根据用户的描述生成分钟级的视频博客(vlog)。与通常只有几秒钟的短视频不同,vlog通常包含复杂的故事情节和多样化的场景,这对现有的视频生成方法来说是一个挑战。剧本(Script):使用LLM根据用户故事创建剧本,描述多个拍摄场景及其相应的拍摄时长。演员(Actor):根据剧本总结角色,并使用角色设计师生成这些角色的参考图像。
论文阅读KVQ: Kwai Video Quality Assessment for Short-form Videos 短视频格式、内容与长视频不同,需要引入新的质量评估方法。作者构建了一个新的用于质量评估的数据集,提出了新的质量评估方法。如下图所示,短视频有不同的格式、有模糊、噪声、编码等各种畸变。
论文阅读MVBench: A Comprehensive Multi-modal Video Understanding Benchmark MVBench定义了20个视频理解任务,这些任务需要对视频的时间维度有深入理解,不能仅通过单个帧来解决。作者提出了一种从静态到动态的方法,将先前定义的静态图像任务转化为具有动态目标的视频任务,涵盖了从感知到认知的一系列时间理解技能。
多模态大模型综述《A Survey on Multimodal Large Language Models》 在单模态的基础上,加了新的模态,encoder后,通过mlp或者其他方式与text对齐,再输入大模型。如果需要生成新的膜套,可以再通过生成器。(此处与SD不太一样),chatGPT不会生成图片,可以对图片进行理解。LLM 辅助的视觉推理:利用 LLM 强大的内嵌知识与能力,并借助其他工具,设计各种视觉推理系统,解决各种现实问题。多模态幻觉:可以增加图像分辨率、提高数据质量,图像token表征、图像文本的对齐方式等。多模态思维链:将复杂的问题分解为较简单的子问题,然后分别解决并汇总。
安装mmcv报错ERROR: No matching distribution found for tomli>=2.0.1 (from yapf) 原因:tomli>=2.0.1 (from yapf)导致的版本冲突。再pip install yapf --user。
Stable Diffusion原理 目前常采用的定量指标是FID(Fréchet inception distance)和CLIP score,其中FID可以衡量生成图像的逼真度(image fidelity),而CLIP score评测的是生成的图像与输入文本的一致性,其中FID越低越好,而CLIP score是越大越好。训练条件扩散模型时,往往会采用Classifier-Free Guidance(这里简称为CFG),同时训练一个无条件的扩散模型(以一定的比例是text为‘’),然后将两者加权,可以改善最终的生成质量。