自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(25)
  • 收藏
  • 关注

原创 论文阅读: MGDSPR, 淘宝向量召回方案

同时在 Softmax 里加入了 温度 \tau,并把生成的 I_{mix}​(先挑选出一些难度大的负样本 I_{hard}​, 再将正样本向量和负样本向量I_{hard}​做线性插值, 得到I_{mix}​)加入分母。传统检索方法难以满足这种个性化需求。召回时,以用户塔输出的向量与 H_{\text{item}} 进行内积打分,实现高效候选生成。对商品标题文本,先分词得到词序列,再对各词向量进行 Mean-Pooling,然后经线性变换和激活函数处理,最后与 [其他向量] 相加,得到商品表征向量。

2026-03-05 11:39:40 510

原创 论文阅读:DIEN, CTR 模型

论文链接:基于 DIN 模型的优化版本,引入序列模型。

2026-03-05 11:37:26 539

原创 论文阅读: DIN, CTR 模型

Deep Interest Network for Click-Through Rate Prediction论文链接: https://arxiv.org/abs/1706.06978目标:在广告或推荐系统中,提升 CTR 预测模型对用户兴趣的建模能力,使其更准确地刻画用户对当前候选 item 的兴趣。如下图中 Base Model,传统的深度 CTR 模型(如 Embedding + MLP)通常:将所有特征(包括用户行为序列)统一编码为 固定长度向量,再交给全连接网络进行预测。这种固定向量对不同候选

2026-03-05 11:36:13 461

原创 论文阅读: DSSM, 召回/粗排模型

Learning Deep Structured Semantic Models for Web Search using Clickthrough Data论文链接: https://www.microsoft.com/en-us/research/wp-content/uploads/2016/02/cikm2013_DSSM_fullversion.pdfDSSM 是一种 Representation-Based 模型,核心思想是:分别用 Encoder(MLP)编码 query 和 document

2026-03-05 11:32:03 352

原创 【VSP】SalFoM

论文链接: https://arxiv.org/pdf/2404.03097视频显著性预测(Video Saliency Prediction, VSP)旨在预测人在观看视频时最可能关注的空间–时间区域,是认知建模、人机交互、视频理解等任务的重要基础。现有方法多采用基于 Transformer 的编码器–解码器结构,但通常 从图像模型扩展到视频,并且受限于 视频显著性数据规模较小,模型泛化能力不足。近年来,视频基础模型(Video Foundation Models, VFMs) 在自监督学习下展现出强大

2025-12-13 16:53:57 901

原创 VideoMamba: State Space Model for Efficient Video Understanding

VideoMamba提出首个基于选择性状态空间模型(SSM)的纯视频理解框架,通过3D双向Mamba块和时空扫描策略实现高效长视频建模。该模型采用3D Patch嵌入将视频转为序列,结合自蒸馏训练和行遮盖预训练方法,在保持线性复杂度的同时兼具短期动作识别和长时序建模能力。实验表明VideoMamba在长短视频任务上均优于传统3D CNN和Transformer方法,尤其擅长处理高分辨率长序列,展现出作为下一代视频基础模型的潜力。

2025-11-16 21:23:19 1212

原创 Modeling Saliency Dataset Bias

论文链接: 核心问题: 显著性预测模型在跨数据集泛化时性能显著下降本文研究目标: 量化并消除这种“数据集偏差”导致的泛化鸿沟,提出一种仅需调整不到 20 个可解释参数的新架构,使得模型在新数据集上仅用 50 张图片就能恢复 75% 的泛化性能损失,并在 MIT300、CAT2000、COCO-Freeview 三大基准上刷新 SOTA。相对尺度:相对尺度将图像按像素维度缩放至不同大小,用于捕捉相对于整幅图像具有特定比例的视觉模式。绝对尺度:绝对尺度会把图像缩放到一个固定的 px/dva 值,例如 40 px

2025-10-14 22:07:07 724

原创 Cross-Attention:Multi-Modality Cross Attention Network for Image and Sentence Matching

论文链接: Multi-Modality Cross Attention Network for Image and Sentence Matching | IEEE Conference Publication | IEEE Xplore图像–句子匹配是视觉与语言之间的重要任务,能够为跨模态检索、图文理解、视觉问答等下游任务提供基础。现有方法分为两类:为解决这些问题,本文提出 多模态交叉注意力网络(MMCAN):MMCA 的框架流程如下——两路自注意力编码(图像/文本)→ 拼接做一次跨注意力 Transf

2025-09-01 17:25:43 1073

原创 显著性预测:MDS-ViTNet

摘要:本文提出MDS-ViTNet模型,结合Vision Transformer与多解码器技术提升视觉显著性预测性能。该模型采用Swin Transformer编码器捕获长距离依赖关系,通过CNN解码器生成注意力图,有效减少信息损失。实验表明,该模型在多个基准测试中达到先进水平,验证了Transformer架构在眼动追踪任务中的优势。相关工作回顾了从传统特征方法到深度学习的演进历程,为模型设计提供理论基础。

2025-07-15 01:09:18 868

原创 显著性预测 SUM

显著性预测

2025-06-30 23:00:58 1113

原创 [RL工程论文] TORL: Scaling Tool-Integrated RL

关于训练大语言模型工具调用能力的RL方法

2025-06-11 19:39:04 1388

原创 M-LLM显著性预测:CaRDiff框架—CVPR2024

CaRDiff 框架的创新点多模态大型语言模型(MLLM):通过生成视频字幕,捕捉视频内容的高级语义信息。VSOR-CoT 方法:利用 MLLM 的推理能力,明确推导出显著目标的排名,而不仅仅是生成字幕。排名图:将显著目标的位置和排名信息编码为灰度值,为扩散模型提供明确的指导。

2025-05-13 00:40:01 1129

原创 眼动&医学: Shifts in Doctors’ Eye Movements Between Real and AI-Generated Medical Images

眼动与医学图像中的探究性研究

2025-04-28 01:32:37 745

原创 显著性预测论文:CASP-Net

本文提出了一种一致性感知音频-视觉显著性预测网络(CASP-Net),有效地解决了视频显著性预测中潜在的音频-视觉不一致性问题。

2025-04-19 22:22:33 968

原创 MySQL速成

速成MySQL

2025-04-17 21:39:25 433

原创 面向力扣的Python速成经验(随时更新ing)

速成python,适用于有其他语言基础(如C)的同学

2025-04-09 00:39:29 427

原创 大语言模型部署技术经验博客(阶段性持续更新ing......)

大模型部署

2025-04-08 01:29:28 634

原创 步骤0:Linux服务器按照Anaconda/Miniconda

创建虚拟环境: conda create -n LLMenv python=3.11 (3.11是最新的security)uname -m命令查询系统架构( x86架构: x86_64 或 amd64;ARM64架构: aarch64 )查看conda环境: conda info --envs 或者 conda env list。一路按Enter, 然后选Yes, 系统帮助自动配置Anaconda路径。

2025-04-08 00:52:14 251

原创 ACL-A论文,Character-LLM: A Trainable Agent for Role-Playing

本文提出 Character-LLM 的概念,专注于编辑特定角色的档案作为该角色的经历,并训练模型成为具有这些经历的个人模拟体。

2024-11-28 13:51:01 1963

原创 2024ACL顶会M-LLM论文分享:GroundingGPT: Language Enhanced Multi-modal Grounding Model

GroundingGPT是一个创新性的多模态大语言模型,旨在解决多模态理解问题。

2024-10-14 10:41:42 1413 1

原创 GraphRAG综述性文章解读

GraphRAG

2024-09-26 22:07:15 1185

原创 Llama3.1技术报告极简概况

Llama 3是一个具有405B参数的大模型, 在评估方面达到了GPT4的水平, 但在实用性等方面其实还并不能相比.Llama 3通过compositional这个方法添加了图片, 视频, 语音的能力.

2024-08-30 02:21:54 2148

原创 提示词工程综述: PROMPT DESIGN AND ENGINEERING: INTRODUCTION AND ADVANCED METHODS

为了能够最大程度上挖掘大语言模型的潜力, 提示词工程的设计现在至关重要.提示词工程在生成式AI模型中是一个迅速发展的新兴学科, 主要是通过设计最优prompt来帮助生成式模型实现特定目标.

2024-08-15 14:34:11 2828 1

原创 Zotero问题解决汇总(自用)

Zotero问题汇总(自用)

2024-08-07 16:15:26 2101 1

原创 RAG综述性论文: Retrieval-Augmented Generation for Large Language Models: A Survey

近年来大语言模型(LLM)在NLP领域展现了强大的能力, 在多个评估基准上展现了卓越的语言掌握和知识理解能力; 但在处理特定领域, 知识密集型任务, 时代型知识时, 大语言模型可能无法提供准确答案, 产生严重的幻觉.

2024-07-17 18:19:18 3279 2

计算机网络 自顶向下 中文版

计算机网络 自顶向下 中文版

2024-12-17

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除