- 博客(25)
- 收藏
- 关注
原创 论文阅读: MGDSPR, 淘宝向量召回方案
同时在 Softmax 里加入了 温度 \tau,并把生成的 I_{mix}(先挑选出一些难度大的负样本 I_{hard}, 再将正样本向量和负样本向量I_{hard}做线性插值, 得到I_{mix})加入分母。传统检索方法难以满足这种个性化需求。召回时,以用户塔输出的向量与 H_{\text{item}} 进行内积打分,实现高效候选生成。对商品标题文本,先分词得到词序列,再对各词向量进行 Mean-Pooling,然后经线性变换和激活函数处理,最后与 [其他向量] 相加,得到商品表征向量。
2026-03-05 11:39:40
510
原创 论文阅读: DIN, CTR 模型
Deep Interest Network for Click-Through Rate Prediction论文链接: https://arxiv.org/abs/1706.06978目标:在广告或推荐系统中,提升 CTR 预测模型对用户兴趣的建模能力,使其更准确地刻画用户对当前候选 item 的兴趣。如下图中 Base Model,传统的深度 CTR 模型(如 Embedding + MLP)通常:将所有特征(包括用户行为序列)统一编码为 固定长度向量,再交给全连接网络进行预测。这种固定向量对不同候选
2026-03-05 11:36:13
461
原创 论文阅读: DSSM, 召回/粗排模型
Learning Deep Structured Semantic Models for Web Search using Clickthrough Data论文链接: https://www.microsoft.com/en-us/research/wp-content/uploads/2016/02/cikm2013_DSSM_fullversion.pdfDSSM 是一种 Representation-Based 模型,核心思想是:分别用 Encoder(MLP)编码 query 和 document
2026-03-05 11:32:03
352
原创 【VSP】SalFoM
论文链接: https://arxiv.org/pdf/2404.03097视频显著性预测(Video Saliency Prediction, VSP)旨在预测人在观看视频时最可能关注的空间–时间区域,是认知建模、人机交互、视频理解等任务的重要基础。现有方法多采用基于 Transformer 的编码器–解码器结构,但通常 从图像模型扩展到视频,并且受限于 视频显著性数据规模较小,模型泛化能力不足。近年来,视频基础模型(Video Foundation Models, VFMs) 在自监督学习下展现出强大
2025-12-13 16:53:57
901
原创 VideoMamba: State Space Model for Efficient Video Understanding
VideoMamba提出首个基于选择性状态空间模型(SSM)的纯视频理解框架,通过3D双向Mamba块和时空扫描策略实现高效长视频建模。该模型采用3D Patch嵌入将视频转为序列,结合自蒸馏训练和行遮盖预训练方法,在保持线性复杂度的同时兼具短期动作识别和长时序建模能力。实验表明VideoMamba在长短视频任务上均优于传统3D CNN和Transformer方法,尤其擅长处理高分辨率长序列,展现出作为下一代视频基础模型的潜力。
2025-11-16 21:23:19
1212
原创 Modeling Saliency Dataset Bias
论文链接: 核心问题: 显著性预测模型在跨数据集泛化时性能显著下降本文研究目标: 量化并消除这种“数据集偏差”导致的泛化鸿沟,提出一种仅需调整不到 20 个可解释参数的新架构,使得模型在新数据集上仅用 50 张图片就能恢复 75% 的泛化性能损失,并在 MIT300、CAT2000、COCO-Freeview 三大基准上刷新 SOTA。相对尺度:相对尺度将图像按像素维度缩放至不同大小,用于捕捉相对于整幅图像具有特定比例的视觉模式。绝对尺度:绝对尺度会把图像缩放到一个固定的 px/dva 值,例如 40 px
2025-10-14 22:07:07
724
原创 Cross-Attention:Multi-Modality Cross Attention Network for Image and Sentence Matching
论文链接: Multi-Modality Cross Attention Network for Image and Sentence Matching | IEEE Conference Publication | IEEE Xplore图像–句子匹配是视觉与语言之间的重要任务,能够为跨模态检索、图文理解、视觉问答等下游任务提供基础。现有方法分为两类:为解决这些问题,本文提出 多模态交叉注意力网络(MMCAN):MMCA 的框架流程如下——两路自注意力编码(图像/文本)→ 拼接做一次跨注意力 Transf
2025-09-01 17:25:43
1073
原创 显著性预测:MDS-ViTNet
摘要:本文提出MDS-ViTNet模型,结合Vision Transformer与多解码器技术提升视觉显著性预测性能。该模型采用Swin Transformer编码器捕获长距离依赖关系,通过CNN解码器生成注意力图,有效减少信息损失。实验表明,该模型在多个基准测试中达到先进水平,验证了Transformer架构在眼动追踪任务中的优势。相关工作回顾了从传统特征方法到深度学习的演进历程,为模型设计提供理论基础。
2025-07-15 01:09:18
868
原创 M-LLM显著性预测:CaRDiff框架—CVPR2024
CaRDiff 框架的创新点多模态大型语言模型(MLLM):通过生成视频字幕,捕捉视频内容的高级语义信息。VSOR-CoT 方法:利用 MLLM 的推理能力,明确推导出显著目标的排名,而不仅仅是生成字幕。排名图:将显著目标的位置和排名信息编码为灰度值,为扩散模型提供明确的指导。
2025-05-13 00:40:01
1129
原创 眼动&医学: Shifts in Doctors’ Eye Movements Between Real and AI-Generated Medical Images
眼动与医学图像中的探究性研究
2025-04-28 01:32:37
745
原创 显著性预测论文:CASP-Net
本文提出了一种一致性感知音频-视觉显著性预测网络(CASP-Net),有效地解决了视频显著性预测中潜在的音频-视觉不一致性问题。
2025-04-19 22:22:33
968
原创 步骤0:Linux服务器按照Anaconda/Miniconda
创建虚拟环境: conda create -n LLMenv python=3.11 (3.11是最新的security)uname -m命令查询系统架构( x86架构: x86_64 或 amd64;ARM64架构: aarch64 )查看conda环境: conda info --envs 或者 conda env list。一路按Enter, 然后选Yes, 系统帮助自动配置Anaconda路径。
2025-04-08 00:52:14
251
原创 ACL-A论文,Character-LLM: A Trainable Agent for Role-Playing
本文提出 Character-LLM 的概念,专注于编辑特定角色的档案作为该角色的经历,并训练模型成为具有这些经历的个人模拟体。
2024-11-28 13:51:01
1963
原创 2024ACL顶会M-LLM论文分享:GroundingGPT: Language Enhanced Multi-modal Grounding Model
GroundingGPT是一个创新性的多模态大语言模型,旨在解决多模态理解问题。
2024-10-14 10:41:42
1413
1
原创 Llama3.1技术报告极简概况
Llama 3是一个具有405B参数的大模型, 在评估方面达到了GPT4的水平, 但在实用性等方面其实还并不能相比.Llama 3通过compositional这个方法添加了图片, 视频, 语音的能力.
2024-08-30 02:21:54
2148
原创 提示词工程综述: PROMPT DESIGN AND ENGINEERING: INTRODUCTION AND ADVANCED METHODS
为了能够最大程度上挖掘大语言模型的潜力, 提示词工程的设计现在至关重要.提示词工程在生成式AI模型中是一个迅速发展的新兴学科, 主要是通过设计最优prompt来帮助生成式模型实现特定目标.
2024-08-15 14:34:11
2828
1
原创 RAG综述性论文: Retrieval-Augmented Generation for Large Language Models: A Survey
近年来大语言模型(LLM)在NLP领域展现了强大的能力, 在多个评估基准上展现了卓越的语言掌握和知识理解能力; 但在处理特定领域, 知识密集型任务, 时代型知识时, 大语言模型可能无法提供准确答案, 产生严重的幻觉.
2024-07-17 18:19:18
3279
2
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅