自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(28)
  • 收藏
  • 关注

原创 论文分享|ACMMM2024‘北航|利用大模型扩充正负例提升组合图像检索的对比学习性能

博主的第一篇一作论文:如何利用LLM的助力在组合图像检索任务达到sota

2024-08-13 18:18:05 991

原创 论文分享|MLLMs中多种模态(图像/视频/音频/语音)的tokenizer梳理

本文旨在对任意模态输入-任意模态输出 (X2X) 的LLM的编解码方式进行简单梳理,同时总结一些代表性工作。:图像代表Image,视频代表Video(不含声音),音频代表 Audio/Music,语音代表Speech。

2024-08-13 18:15:42 1098

原创 论文分享|SIGIR2024最佳论文‘清华|密集检索的Scaling Laws

密集检索模型的Scaling Law是什么样的?本文一探究竟

2024-07-23 09:34:38 297

原创 论文分享|AAAI2024‘北航|软标签监督实现通用密集检索——图文检索中的跨模态和单模态软标签对齐

近年来,目前的图像-文本检索方法取得了惊人的性能。模态间匹配缺失问题和模态内语义丢失问题。这些问题会显著影响图像-文本检索的准确性。为了解决这些挑战,我们提出了一种新的方法,称为跨模态和单模态软标签对齐(CUSA)。我们的方法利用单模态预训练模型的力量,为图像-文本检索模型提供软标签监督信号。利用这些信号,本文提出了两种对齐技术,跨模态软标签对齐(CSA)和单模态软标签对齐(USA),以减轻假负例问题,并增强单模态样本之间的相似性识别。我们的方法被设计为即插即用模块。

2024-07-17 09:50:07 1062

原创 论文分享|Arxiv2024‘复旦|如何让LLM说不?

最近,LLM在对话,解数学题,写代码,使用工具等各种任务上取得了出色的效果。尽管LLM处理了密集的世界知识,但他们在面对知识密集型任务比如开放域问答时仍然会出现事实错误,这些不诚实的回复可能会在实际应用中造成重大风险。我们认为,让LLM拒绝回答它不知道的问题,是减少幻觉和使助手诚实的关键方法。因此,在本文中,我们提出了这样一个问题:“人工智能助手能知道他们不会的内容,并通过自然语言来表达它们吗?”为了回答这个问题,我们基于现有的开放领域问答数据集,为LLM构建了一个特定于模型。

2024-07-16 07:49:10 999

原创 论文分享|AAAI2024‘北航|用大语言模型缩小有监督和无监督句子表示学习的差距

句子表示学习(SRL)是自然语言处理(NLP)中的一项基本任务,句子编码对比学习(CSE)因其优越的性能而成为主流技术。CSE中一个有趣的现象是有监督方法和无监督方法之间的显著性能差异,它们唯一的区别在于训练数据。以前的工作将这种性能差距归因于对齐和均匀性的差异。然而,由于对齐和均匀性只衡量结果,他们没有回答“训练数据的什么方面导致了性能差距?”以及“如何才能缩小性能差距?本文进行了实验来回答这两个问题。首先通过彻底比较监督和无监督CSE在各自训练过程中的行为来回答“什么”的问题。从比较中,我们确定了。

2024-07-16 07:48:03 889

原创 论文分享|RAG理论-第四篇-生成

RAG理论笔记第四篇

2024-07-15 15:59:06 958

原创 论文分享|RAG理论-第三篇-检索

RAG理论笔记第三篇

2024-07-15 15:58:08 1342

原创 论文分享|RAG理论-第二篇-评估

RAG理论笔记第二篇

2024-07-14 00:45:55 782

原创 论文分享|RAG理论-第一篇-概述

RAG理论笔记第一篇

2024-07-14 00:44:54 1055

原创 论文分享|ICLR2023‘北航|文本自监督对比学习中对齐和均匀性的不足

最近SRL中也有不少工作使用对比学习,但是SRL的评估除了VRL常用的外部协议(下游分类任务),还需要着重评估STS这样的内部协议(因为语义相似度质量优化本来就是预训练语言模型表示学习损失函数的目标,且外部协议已经被证明在SRL中可以较好完成)对于超球面中几何距离,梯度耗散可以解释为,CL在减小正例对距离的情况下,保持了正例对和负例对距离,而其他损失仅仅减小了正例对距离。我们在两种分解形式的四个优化目标上模拟了对比损失的相似的“梯度耗散”,并在STS任务上获得了与对比损失相同甚至更好的性能。

2024-07-13 17:07:52 756

原创 论文分享|NeurIPS2022‘华盛顿大学|俄罗斯套娃表示学习(OpenAI使用的文本表示学习技术)

OpenAI使用的文本表示学习技术

2024-07-13 16:58:55 782

原创 项目分享|贾清扬大佬500行代码的AI搜索引擎—search-with-lepton

开源AI搜索引擎介绍search-with-lepton

2024-07-12 10:24:24 587

原创 知识分享|如何简单通俗理解Transformer

简单通俗理解Transformer

2024-07-12 10:12:56 1471

原创 论文分享|ACL2024主会|RAG相关论文简读

ACL2024主会的RAG/检索方向26篇论文简读

2024-07-11 08:14:42 1862

原创 论文分享|NeurIPS2023|LLaVA-视觉指令微调

视觉语言经典大模型LLaVA追根溯源

2024-07-11 08:13:07 1056

原创 项目分享|RAG-Retrieval库实现基于LLM偏好监督RAG检索器微调

如何提升RAG性能?对于黑盒大模型比如GPT4来说,比较合适的是冻住LLM,利用来。开源地址:https://github.com/NLPJCL/RAG-Retrieval这里面关键一环是,即对于每个用户查询Q和一些文档 𝐷1,𝐷2,…,𝐷𝐾 ,得到Q和每个文档的分数。对于来说,可以利用来说,比较好的思路是利用来得到监督信号。2024.6.4更新:这两天发现GPT3.5/4以及大多数基于API的大模型,并不支持获取输入token的概率,一个可替代的方案是将大模型得到。得到监督信号后,利用将和。

2024-07-10 10:45:01 574

原创 论文分享|Arxiv2024‘人大|FlashRAG—快速开发和公平评估RAG算法

FlashRAG 是一个 Python 工具包,用于复现和开发检索增强生成(RAG)算法。此工具包包括 32 个经过预处理的基准 RAG 数据集和 12 种最先进的 RAG 算法。以下是架构图:最底层为组件层,包含RAG中的各种常用组件,包含检索器,重排器,压缩器,生成器,打分器等。第二层为流程层,包含顺序,分支,迭代,循环,条件等流程,这部分主要是合理使用各种组件来实现具体的算法第三层为数据层,包含用于检索的语料数据和用于评估的各种任务数据。

2024-07-10 10:43:31 972

原创 论文分享|Arxiv2024‘麦吉尔大学|LLM2Vec—将LLM转换为文本编码器

本文介绍一篇将LLM转换为Embedding模型的工作LLM2Vec

2024-07-09 17:40:00 645

原创 论文分享|KDD2024‘北航|平等对待每种语言:CCRK—1对K对比学习一致提升跨语言跨模态检索性能

推荐一篇笔者参与的KDD2024工作,面向多语言场景下的图文检索的CCRK

2024-07-09 12:41:44 1391

原创 LLaMA-Factory微调多模态大语言模型教程

手把手教你微调多模态大模型

2024-05-30 19:04:16 2651

原创 【SpeedAI科研小助手】2分钟解决知网维普AIGC检测

如何2分钟自动降重降AI?看这篇!!

2024-05-27 00:41:32 560

原创 软工尾声-提问回顾与个人总结

北航敏捷软工课程—个人总结

2022-06-24 12:46:37 437

原创 结对编程实况录像-2022北航软工

2022北航软件工程结对编程项目博客

2022-04-05 23:35:20 682

原创 软件案例分析-音乐软件界的卧龙凤雏-酷狗音乐与网易云音乐

项目内容这个作业属于哪个课程2022春季软件工程(罗杰 任健)这个作业的要求在哪里个人作业-软件案例分析我在这个课程的目标是学习软工的项目合作管理知识,提升软件开发技术这个作业在哪个具体方面帮助我实现目标深入分析软件的功能与问题,学习如何进行软件测评以及调研市场需求Part0 前言现在许多人生活中都离不开音乐,而当前主要的听音乐方式毫无疑问就是各种音乐软件,包括移动端,Web端,PC客户端这三种主要的软件呈现形式,当前国内的音乐app数量众多,本次作业主...

2022-03-17 10:46:19 5282

原创 2022软工出发-阅读和调研-构建之法与CICD与版本管理

构建之法与CICD

2022-03-08 23:55:24 951 5

原创 北航小程序兴趣课课程内容分享

北航小程序兴趣课资料分享简单介绍下课程安排:第一周:课程入门知识学习+小哥哥小姐姐带你了解云开发第二周:小程序入门第三周:云开发入门第四周:不止小程序,云开发还能…结课作业:用云开发实现一个XX小程序(卖个关子)课程每天12点发布,大家可以根据群内发布的课程内容进行学习,自由讨论,我们滴导师将在每天晚上集中回答大家反映的高频问题~第一周:11.9—11.15【第一周课程 · 一】JavaScript 入门学习教程地址:https://www.runoob.com/js/js-tutor

2020-11-12 00:13:22 306 1

原创 公众号文章写作学习|《写作,是最好的自我投资》干货整理

读书笔记及摘录《写作是最好的自我投资》1.全书梳理自序 没有写作,我可能要多奋斗十年第一,写作是利用碎片化时间最好的方式。 一般写作从灵感闪现、构思到成文,至少要花两个小时第二,写作让我摆脱了肤浅。 世俗的快乐,才是人性的快乐、真正的快乐,写作不是吸收,而是创造。而创造,让人走进内涵,走向思考,走向深刻和高级。第三,写作是这个时代最好的自我投资。 而写作,就是打造你个人品牌最好的方式之一。第一章 会说的人很多,能写的人太少职场,或者说当代社会,最重要的能力是表达能力。因为在未

2020-10-10 13:34:06 46071

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除