zclfe-CSDN博客

原创 10.15论文笔记

结论：基于上述证据，我们提供了选择连接器的建议：1. 图像分辨率为224时，建议使用双层MLP，因为它在三个任务中表现优异且计算资源需求适中。2. 分辨率为336时，若关注粗粒度感知和推理任务，推荐使用C-Abstractor和平均池化，它们在效率和效果间保持平衡。若优先精细感知任务，可选择双层MLP。具体而言，C-Abstractor在预训练阶段减少了80%的训练时间，微调阶段减少了51%，显著降低计算成本，适合资源有限的场景。

2024-10-15 14:26:19 257 1

原创 scaling law笔记

相关视频：https://www.youtube.com/watch?

2024-10-04 13:46:24 318

原创 All Roads Lead to Rome: Unveiling the Trajectory of Recommender Systems Across the LLM Era

以往LLM+推荐综述只考虑把llm融入传统list/stream-wise推荐中，而忽略了对话推荐的领域。这篇综述从两个交互形式的路径出发，最后收敛到同一方向。

2024-08-05 17:39:12 316

原创 sigir + recsys + cikm + acl + AAAI 2024论文笔记

探索信息检索的scaling laws。

2024-07-19 17:58:29 1101 1

原创 in-context learning and multi-view learning for recommendation

文本存在的问题：1.缺失属性、2.噪声文本数据例如评价数据；采用的方法是利用LLM生成profile。LLM rerank的缺陷：1. 幻觉2.长度限制导致无法捕捉全局用户协同信号3.速度慢。类似华为的工作，用语义信息蒸馏embedding。通过检索筛选用户看过的物品，避免无用信息。序列预测加正则化 id+semantic。利用离线测试的偏序关系进行对比学习。主要研究将任务的形式转化为向量。从理论解释：实际就是对比学习。图文之间的关系以及意图。

2024-03-05 19:54:03 760 1

原创 qwen-vl源码阅读

对于文本编码，qwen-vl使用tiktoken进行编码，tiktoken相比较HuggingFace的tokenizer，其速度提升了好几倍。阅读qwen-vl的tokenizer：tokenization_qwen.py。

2024-02-01 16:02:59 2389 1

原创 Vector Quantization

将信息进行压缩，将连续映射为离散，算法的关键是设计密码本。然而设计一个最能代表输入向量集的密码本是 NP 难的。代表算法。

2023-12-02 11:28:58 488 1

原创 multimodal LLM相关

预定义的common space，每个模态到common space的映射分开学习。workshop的引文。两阶段召回，先粗后细。

2023-11-21 16:19:12 478

原创 Retrieval-Augmented Language Modeling

将IT和对比学习损失结合在一起。

2023-10-16 21:09:11 85

原创 LLM paper

用前缀学习attribute，同时对比地学习，使得可以用前缀控制生成的内容。做法是搜索相关内容，按时间排序，并根据搜索结果回答。让LLM回答最新的问题。

2023-10-12 20:53:45 72

原创 LLM agent

The Rise and Potential of Large Language Model Based Agents: A Survey

2023-09-20 20:18:42 424 1

原创 20230829笔记

motivationmethodconclusion:

2023-08-22 15:50:36 1128 1

原创 Contrastive learning

Understanding Multimodal Contrastive Learning and Incorporating Unpaired DataToward Understanding the Feature Learning Process of Self-supervised Contrastive Learning

2023-08-19 16:37:13 126

原创 230801

dataset。

2023-08-01 15:52:11 576 1

原创 Narrative text and semantic role labeling

Nattative text是叙述性的文本，读者需要general world knowledge来进行推测与理解文本为什么如此进行。Situation model: 人类主要关注于叙述性文本中空间和事件间相互的信息。这些事件可以通过时间、地点和主要人物进行检索。类似于一个Clip中的场景。Story structure theory：一个故事是存在一个内在结构的。比如故事发生的时间、场景和设定；故事所包含的角色；每个角色的主要目的。

2023-03-26 12:10:31 311

原创 multimodal efficient tuning

Frozen当中的visual encoder承担了两个任务，第一个任务是将图片进行encode，第二个任务是对齐图片模态以及文本模态。PromptFuse将两个任务进行disentangle，visual encoder的任务就是进行特征提取，并且不会再进行更新，而利用soft prompt来作为fusion的部分进行fine tune。论文想要将单模态few-shot的能力转化为多模态场景下，提出了Frozen的框架。该框架的具体做法是将图片encoder训练到word embedding的空间当中，

2023-03-18 22:10:29 451

原创 video understanding

这篇文献介绍了一个名为MovieGraphs的新数据集，该数据集提供了电影剪辑中描绘的社会情境的详细、基于图形的注释。每个图形包括几种类型的节点，以捕捉出现在剪辑中的人员、他们的情感和物理属性、他们之间的关系（即父/子关系）以及他们之间的互动。大多数交互行为都与提供额外细节的主题和给出行为动机的原因相关联，并且大多数交互行为和许多属性都是以时间戳为基础的。作者还提出了一种查询视频和文本的图形方法，并展示了这些图形包含丰富且充分的信息以概括和定位每个情境。该数据集还为交互理解和原因理解提出了方法。

2023-03-16 11:35:11 514

原创 multimodal prompting

论文笔记

2023-03-15 21:55:19 2099

原创 missing modality

MISSING MODAL

2023-02-15 21:33:12 2096

原创 Quality-aware news recommendation

notes

2022-11-19 15:47:14 156

原创 Federated learning non-iid

notes

2022-11-01 17:09:21 643

原创 UL read

读书笔记

2022-10-19 17:01:36 176

原创 Efficient transformers