- 博客(25)
- 收藏
- 关注
原创 10.15论文笔记
结论:基于上述证据,我们提供了选择连接器的建议:1. 图像分辨率为224时,建议使用双层MLP,因为它在三个任务中表现优异且计算资源需求适中。2. 分辨率为336时,若关注粗粒度感知和推理任务,推荐使用C-Abstractor和平均池化,它们在效率和效果间保持平衡。若优先精细感知任务,可选择双层MLP。具体而言,C-Abstractor在预训练阶段减少了80%的训练时间,微调阶段减少了51%,显著降低计算成本,适合资源有限的场景。
2024-10-15 14:26:19 156 1
原创 All Roads Lead to Rome: Unveiling the Trajectory of Recommender Systems Across the LLM Era
以往LLM+推荐综述只考虑把llm融入传统list/stream-wise推荐中,而忽略了对话推荐的领域。这篇综述从两个交互形式的路径出发,最后收敛到同一方向。
2024-08-05 17:39:12 217
原创 in-context learning and multi-view learning for recommendation
文本存在的问题:1.缺失属性、2.噪声文本数据 例如评价数据;采用的方法是利用LLM生成profile。LLM rerank的缺陷:1. 幻觉2.长度限制导致无法捕捉全局用户协同信号3.速度慢。类似华为的工作,用语义信息蒸馏embedding。通过检索筛选用户看过的物品,避免无用信息。序列预测加正则化 id+semantic。利用离线测试的偏序关系进行对比学习。主要研究将任务的形式转化为向量。从理论解释:实际就是对比学习。图文之间的关系以及意图。
2024-03-05 19:54:03 591 1
原创 qwen-vl源码阅读
对于文本编码,qwen-vl使用tiktoken进行编码,tiktoken相比较HuggingFace的tokenizer,其速度提升了好几倍。阅读qwen-vl的tokenizer:tokenization_qwen.py。
2024-02-01 16:02:59 1501 1
原创 Vector Quantization
将信息进行压缩,将连续映射为离散,算法的关键是设计密码本。然而设计一个最能代表输入向量集的密码本是 NP 难的。代表算法。
2023-12-02 11:28:58 438 1
原创 multimodal LLM相关
预定义的common space,每个模态到common space的映射分开学习。workshop的引文。两阶段召回,先粗后细。
2023-11-21 16:19:12 135
原创 LLM paper
用前缀学习attribute,同时对比地学习,使得可以用前缀控制生成的内容。做法是搜索相关内容,按时间排序,并根据搜索结果回答。让LLM回答最新的问题。
2023-10-12 20:53:45 20
原创 LLM agent
The Rise and Potential of Large Language Model Based Agents: A Survey
2023-09-20 20:18:42 215 1
原创 Contrastive learning
Understanding Multimodal Contrastive Learning and Incorporating Unpaired DataToward Understanding the Feature Learning Process of Self-supervised Contrastive Learning
2023-08-19 16:37:13 33
原创 Narrative text and semantic role labeling
Nattative text是叙述性的文本,读者需要general world knowledge来进行推测与理解文本为什么如此进行。Situation model: 人类主要关注于叙述性文本中空间和事件间相互的信息。这些事件可以通过时间、地点和主要人物进行检索。类似于一个Clip中的场景。Story structure theory:一个故事是存在一个内在结构的。比如故事发生的时间、场景和设定;故事所包含的角色;每个角色的主要目的。
2023-03-26 12:10:31 234
原创 multimodal efficient tuning
Frozen当中的visual encoder承担了两个任务,第一个任务是将图片进行encode,第二个任务是对齐图片模态以及文本模态。PromptFuse将两个任务进行disentangle,visual encoder的任务就是进行特征提取,并且不会再进行更新,而利用soft prompt来作为fusion的部分进行fine tune。论文想要将单模态few-shot的能力转化为多模态场景下,提出了Frozen的框架。该框架的具体做法是将图片encoder训练到word embedding的空间当中,
2023-03-18 22:10:29 350
原创 video understanding
这篇文献介绍了一个名为MovieGraphs的新数据集,该数据集提供了电影剪辑中描绘的社会情境的详细、基于图形的注释。每个图形包括几种类型的节点,以捕捉出现在剪辑中的人员、他们的情感和物理属性、他们之间的关系(即父/子关系)以及他们之间的互动。大多数交互行为都与提供额外细节的主题和给出行为动机的原因相关联,并且大多数交互行为和许多属性都是以时间戳为基础的。作者还提出了一种查询视频和文本的图形方法,并展示了这些图形包含丰富且充分的信息以概括和定位每个情境。该数据集还为交互理解和原因理解提出了方法。
2023-03-16 11:35:11 322
原创 Learning Semantic-Specific Graph Representation for Multi-Label Image Recognition 学习与复现
这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Markdown编辑器你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Mar
2021-07-25 18:12:40 1041 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人