BrownSearch
码龄5年
关注
提问 私信
  • 博客:90,364
    社区:2
    动态:243
    90,609
    总访问量
  • 30
    原创
  • 44,019
    排名
  • 467
    粉丝
  • 0
    铁粉
  • 学习成就

个人简介:北航计算机本硕,研究方向为LLM和检索 公众号:布朗熊检索实验室 知乎:BrownSearch

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:北京市
  • 加入CSDN时间: 2019-10-22
博客简介:

weixin_45783724的博客

查看详细资料
  • 原力等级
    成就
    当前等级
    3
    当前总分
    358
    当月
    3
个人成就
  • 获得587次点赞
  • 内容获得12次评论
  • 获得526次收藏
  • 代码片获得180次分享
创作历程
  • 24篇
    2024年
  • 4篇
    2022年
  • 2篇
    2020年
成就勋章
TA的专栏
  • NLP/IR知识分享
    23篇
兴趣领域 设置
  • Python
    pythonscikit-learnpandasmatplotlib
  • Java
    javaspringmavenintellij-ideaspring bootspring cloudjvmjunitmybatisnio
  • 编程语言
    pythonjavac++c语言javascriptc#rubybashbatchmatlab
  • 前端
    html5javascriptchromecss3echartsnode.jsvue.jselementuinpm
  • 后端
    sqlrubymysqlspringnginxdjangoflasknode.jsspring bootruby on rails爬虫restful分布式
  • 移动开发
    androidios小程序android studio
  • 人工智能
    数据挖掘计算机视觉机器学习自然语言处理
  • 游戏
    unity游戏引擎arvr
  • 操作系统
    linuxubuntuwindowscentosrisc-vblackberry
  • 测试
    单元测试selenium测试工具压力测试测试用例postman集成测试模块测试测试覆盖率安全性测试功能测试
  • 软件工程
    结对编程极限编程软件工程软件构建
  • 网络空间安全
    系统安全web安全
  • 服务器
    ubuntu
  • 用户体验设计
    uiphotoshop
  • 音视频
    语音识别计算机视觉视觉检测视频编解码
TA的社区
  • 2023年北航敏捷软件工程
    78 成员 92 内容
    管理者
创作活动更多

AI大模型如何赋能电商行业,引领变革?

如何使用AI技术实现购物推荐、会员分类、商品定价等方面的创新应用?如何运用AI技术提高电商平台的销售效率和用户体验呢?欢迎分享您的看法

175人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

KDD2024参会笔记-Day2

听演讲者说现在的AIGC检测还是相对脆弱,往往只需要略微修改一些提示词就可以对抗攻击许多先进的检测算法,探究更鲁棒的方法以及检测的上界是现在的关注点。顺便记录一些到会场看到的情况:RAG和图模型报告的上座率很高,其他的比如检索、AIGC检测都相对人少。social方面基本就每个国家内部沟通的比较多,认识了一些国内的同行。今天准备出去玩一天,计划逛一逛市中心的核心建筑群,感受下巴塞罗那的文化。
原创
发布博客 2024.09.06 ·
216 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

KDD2024参会笔记-Day1

知乎想法:https://www.zhihu.com/pin/1811084177057116161?检索:RAG的检索器分为稀疏检索器,有监督密集检索器,无监督密集检索器,搜索引擎,提示词检索器,根据不同任务选择相应检索器。检索前后处理:前处理(查询改写,查询分解,查询扩展),后处理(重排,上下文压缩,修正)综述论文:https://arxiv.org/pdf/2405.06211。
原创
发布博客 2024.09.06 ·
391 阅读 ·
5 点赞 ·
0 评论 ·
0 收藏

论文分享|ACMMM2024‘北航|利用大模型扩充正负例提升组合图像检索的对比学习性能

博主的第一篇一作论文:如何利用LLM的助力在组合图像检索任务达到sota
原创
发布博客 2024.08.13 ·
1206 阅读 ·
25 点赞 ·
1 评论 ·
11 收藏

论文分享|MLLMs中多种模态(图像/视频/音频/语音)的tokenizer梳理

本文旨在对任意模态输入-任意模态输出 (X2X) 的LLM的编解码方式进行简单梳理,同时总结一些代表性工作。:图像代表Image,视频代表Video(不含声音),音频代表 Audio/Music,语音代表Speech。
原创
发布博客 2024.08.13 ·
1353 阅读 ·
8 点赞 ·
0 评论 ·
15 收藏

论文分享|SIGIR2024最佳论文‘清华|密集检索的Scaling Laws

密集检索模型的Scaling Law是什么样的?本文一探究竟
原创
发布博客 2024.07.23 ·
500 阅读 ·
5 点赞 ·
0 评论 ·
8 收藏

论文分享|AAAI2024‘北航|软标签监督实现通用密集检索——图文检索中的跨模态和单模态软标签对齐

近年来,目前的图像-文本检索方法取得了惊人的性能。模态间匹配缺失问题和模态内语义丢失问题。这些问题会显著影响图像-文本检索的准确性。为了解决这些挑战,我们提出了一种新的方法,称为跨模态和单模态软标签对齐(CUSA)。我们的方法利用单模态预训练模型的力量,为图像-文本检索模型提供软标签监督信号。利用这些信号,本文提出了两种对齐技术,跨模态软标签对齐(CSA)和单模态软标签对齐(USA),以减轻假负例问题,并增强单模态样本之间的相似性识别。我们的方法被设计为即插即用模块。
原创
发布博客 2024.07.17 ·
1166 阅读 ·
30 点赞 ·
0 评论 ·
29 收藏

论文分享|Arxiv2024‘复旦|如何让LLM说不?

最近,LLM在对话,解数学题,写代码,使用工具等各种任务上取得了出色的效果。尽管LLM处理了密集的世界知识,但他们在面对知识密集型任务比如开放域问答时仍然会出现事实错误,这些不诚实的回复可能会在实际应用中造成重大风险。我们认为,让LLM拒绝回答它不知道的问题,是减少幻觉和使助手诚实的关键方法。因此,在本文中,我们提出了这样一个问题:“人工智能助手能知道他们不会的内容,并通过自然语言来表达它们吗?”为了回答这个问题,我们基于现有的开放领域问答数据集,为LLM构建了一个特定于模型。
原创
发布博客 2024.07.16 ·
1045 阅读 ·
32 点赞 ·
0 评论 ·
18 收藏

论文分享|AAAI2024‘北航|用大语言模型缩小有监督和无监督句子表示学习的差距

句子表示学习(SRL)是自然语言处理(NLP)中的一项基本任务,句子编码对比学习(CSE)因其优越的性能而成为主流技术。CSE中一个有趣的现象是有监督方法和无监督方法之间的显著性能差异,它们唯一的区别在于训练数据。以前的工作将这种性能差距归因于对齐和均匀性的差异。然而,由于对齐和均匀性只衡量结果,他们没有回答“训练数据的什么方面导致了性能差距?”以及“如何才能缩小性能差距?本文进行了实验来回答这两个问题。首先通过彻底比较监督和无监督CSE在各自训练过程中的行为来回答“什么”的问题。从比较中,我们确定了。
原创
发布博客 2024.07.16 ·
948 阅读 ·
28 点赞 ·
0 评论 ·
18 收藏

论文分享|RAG理论-第四篇-生成

RAG理论笔记第四篇
原创
发布博客 2024.07.15 ·
1108 阅读 ·
29 点赞 ·
0 评论 ·
13 收藏

论文分享|RAG理论-第三篇-检索

RAG理论笔记第三篇
原创
发布博客 2024.07.15 ·
1506 阅读 ·
36 点赞 ·
0 评论 ·
14 收藏

论文分享|RAG理论-第二篇-评估

RAG理论笔记第二篇
原创
发布博客 2024.07.14 ·
996 阅读 ·
22 点赞 ·
0 评论 ·
11 收藏

论文分享|RAG理论-第一篇-概述

RAG理论笔记第一篇
原创
发布博客 2024.07.14 ·
1342 阅读 ·
22 点赞 ·
0 评论 ·
20 收藏

论文分享|ICLR2023‘北航|文本自监督对比学习中对齐和均匀性的不足

最近SRL中也有不少工作使用对比学习,但是SRL的评估除了VRL常用的外部协议(下游分类任务),还需要着重评估STS这样的内部协议(因为语义相似度质量优化本来就是预训练语言模型表示学习损失函数的目标,且外部协议已经被证明在SRL中可以较好完成)对于超球面中几何距离,梯度耗散可以解释为,CL在减小正例对距离的情况下,保持了正例对和负例对距离,而其他损失仅仅减小了正例对距离。我们在两种分解形式的四个优化目标上模拟了对比损失的相似的“梯度耗散”,并在STS任务上获得了与对比损失相同甚至更好的性能。
原创
发布博客 2024.07.13 ·
804 阅读 ·
12 点赞 ·
0 评论 ·
21 收藏

论文分享|NeurIPS2022‘华盛顿大学|俄罗斯套娃表示学习(OpenAI使用的文本表示学习技术)

OpenAI使用的文本表示学习技术
原创
发布博客 2024.07.13 ·
848 阅读 ·
14 点赞 ·
0 评论 ·
11 收藏

项目分享|贾清扬大佬500行代码的AI搜索引擎—search-with-lepton

开源AI搜索引擎介绍search-with-lepton
原创
发布博客 2024.07.12 ·
726 阅读 ·
4 点赞 ·
0 评论 ·
10 收藏

知识分享|如何简单通俗理解Transformer

简单通俗理解Transformer
原创
发布博客 2024.07.12 ·
1572 阅读 ·
46 点赞 ·
0 评论 ·
30 收藏

论文分享|ACL2024主会|RAG相关论文简读

ACL2024主会的RAG/检索方向26篇论文简读
原创
发布博客 2024.07.11 ·
5587 阅读 ·
33 点赞 ·
1 评论 ·
68 收藏

论文分享|NeurIPS2023|LLaVA-视觉指令微调

视觉语言经典大模型LLaVA追根溯源
原创
发布博客 2024.07.11 ·
1335 阅读 ·
22 点赞 ·
0 评论 ·
29 收藏

项目分享|RAG-Retrieval库实现基于LLM偏好监督RAG检索器微调

如何提升RAG性能?对于黑盒大模型比如GPT4来说,比较合适的是冻住LLM,利用来。开源地址:https://github.com/NLPJCL/RAG-Retrieval这里面关键一环是,即对于每个用户查询Q和一些文档 𝐷1,𝐷2,…,𝐷𝐾 ,得到Q和每个文档的分数。对于来说,可以利用来说,比较好的思路是利用来得到监督信号。2024.6.4更新:这两天发现GPT3.5/4以及大多数基于API的大模型,并不支持获取输入token的概率,一个可替代的方案是将大模型得到。得到监督信号后,利用将和。
原创
发布博客 2024.07.10 ·
646 阅读 ·
27 点赞 ·
0 评论 ·
16 收藏

论文分享|Arxiv2024‘人大|FlashRAG—快速开发和公平评估RAG算法

FlashRAG 是一个 Python 工具包,用于复现和开发检索增强生成(RAG)算法。此工具包包括 32 个经过预处理的基准 RAG 数据集和 12 种最先进的 RAG 算法。以下是架构图:最底层为组件层,包含RAG中的各种常用组件,包含检索器,重排器,压缩器,生成器,打分器等。第二层为流程层,包含顺序,分支,迭代,循环,条件等流程,这部分主要是合理使用各种组件来实现具体的算法第三层为数据层,包含用于检索的语料数据和用于评估的各种任务数据。
原创
发布博客 2024.07.10 ·
1108 阅读 ·
21 点赞 ·
0 评论 ·
18 收藏
加载更多