NLP
文章平均质量分 86
致Great
为将之道,当先治心
展开
-
RAG如何让生成AI更智能?最新方法与优劣深度解析
问答:在问答系统中,RAG可以从外部知识源获取与问题相关的信息,并生成更准确、更详细的答案。RAG 使人工智能能够始终使用最新的相关信息,使其成为信息快速变化的动态环境(例如新闻、金融和医学研究)中的宝贵工具。MS MARCO(微软机器阅读理解): MS MARCO 是一个用于文档检索和句子排名的大型数据集,包含来自 Bing 搜索日志的实际查询以及相应的句子和答案。依赖于检索到的文档的质量和相关性: RAG 系统的有效性从根本上来说与检索组件从庞大的数据库或文档集合中获取相关且准确的信息的能力有关。原创 2025-01-24 23:18:50 · 1478 阅读 · 0 评论 -
【RAG落地利器】Weaviate、Milvus、Qdrant 和 Chroma 向量数据库对比
向量数据库的核心功能是存储和查询高维向量数据,支持基于向量相似度的快速检索。它们广泛应用于推荐系统、图像检索、自然语言处理等领域,尤其在生成式人工智能(如 ChatGPT)中,向量数据库能够有效减少模型幻觉问题,提供更准确的信息检索。Weaviate:适合需要复杂查询和语义理解的场景,尤其是在知识图谱和推荐系统中表现优异。Milvus:适合大规模数据处理和高性能要求的应用,尤其是在图像和视频分析领域。Qdrant:适合中小规模项目,资源占用低,灵活性高,适合需要快速迭代的项目。Chroma。原创 2025-01-22 15:12:42 · 1583 阅读 · 0 评论 -
【RAG落地利器】向量数据库Weaviate部署与使用教程
Weaviate 是一种开源的向量搜索引擎数据库,允许以类属性的方式存储 JSON 文档,并将机器学习向量附加到这些文档上,以在向量空间中表示它们。Weaviate 支持语义搜索、问答提取、分类等功能,并且可以通过 GraphQL-API 轻松访问数据。原创 2025-01-22 14:28:23 · 2857 阅读 · 0 评论 -
【RAG落地利器】向量数据库Chroma入门教程
高效管理文本嵌入与相似度搜索的向量数据库随着大型语言模型(LLM)的广泛应用,向量数据库逐渐成为处理文本嵌入和相似度搜索的关键工具。Chroma是一个开源的向量数据库,专门设计用于存储和检索文本嵌入,帮助开发者更高效地构建基于大模型的应用。本文将带你了解Chroma的核心功能、设计理念以及如何使用它进行文本嵌入管理和相似度搜索。向量数据库是一种专门用于存储和检索高维向量数据的数据库。与传统的关系型数据库不同,向量数据库针对非结构化数据(如文本、图像等)的嵌入表示进行了优化。原创 2025-01-22 00:03:35 · 1852 阅读 · 0 评论 -
LLM Agent和 Agentic RAG 的最佳综述
代理式检索增强生成(Agentic RAG)通过在RAG管道中嵌入自主代理,代表了人工智能领域的重大飞跃。基础原理,包括代理模式,如反思、规划、工具使用和多代理协作。Agentic RAG系统的详细分类,展示了单代理、多代理、分层、纠正、自适应和图基RAG等框架。传统RAG、Agentic RAG和代理式文档工作流(ADW)的比较分析,突出它们的优势、劣势和最佳适用场景。跨行业的实际应用,如医疗、教育、金融和法律分析。挑战和未来方向,涉及扩展性、伦理AI、多模态集成和人机协作。原创 2025-01-21 14:59:59 · 1000 阅读 · 0 评论 -
重新思考RAG的相关性:相似≠相关
那么,如何定义相关性?这是一个复杂的问题。中提到了一些有趣的实验,研究者通过构建不同类型的信息(如无关信息部分相关的无关信息和相关但误导性的无关信息)来测试大模型对相关性的敏感性。例如,无关信息可能与问题主题无关,但由于高相似性得分而被检索到。而部分相关的无关信息则包含与问题主题部分重叠的信息,但不提供问题的答案。这些实验表明,大模型对相关性的理解与传统的检索系统并不完全一致。我们需要更精细的方法来衡量和优化相关性。大模型更容易被语义高度相关但不相关的信息误导。原创 2025-01-19 22:32:37 · 709 阅读 · 0 评论 -
【RAG最新研究】优化RAG系统的最佳实践与深度解析
这篇论文主要关注的是检索增强型生成(RAG)系统不同的组件和配置如何影响系统的性能。简单来说,RAG系统通过结合语言模型和外部知识库来生成更准确的回答,但之前的研究并没有深入探讨哪些因素(比如模型大小、提示设计、知识库大小等)对系统性能的影响最大。这篇论文的目标就是通过系统的实验和分析,找出这些关键因素,并提出一些新的配置方法,帮助提升RAG系统在各种复杂任务中的表现。原创 2025-01-15 17:49:36 · 2316 阅读 · 0 评论 -
新的开放式多语言嵌入模型发布!KaLM-Embedding
新的开放式多语言嵌入模型发布!KaLM-Embedding 是一系列基于。2 0.5B 构建并由 MIT 发布的嵌入模型。原创 2025-01-10 21:42:04 · 340 阅读 · 0 评论 -
RAG实战-Markdown文件解析思路分析与实现
最近遇到几个伙伴关于markdown解析的问题,都是比较偏向于实际使用场景的,这里我们一开始我们去做markdown文件解析会自觉的会困在一个陷阱,就是:我们想把Markdown文件解析效果想的太过理想,会不自觉的与实际生产稳当绑定一起,可能想把Markdown解析数据转成树结构更合理些,但同时考虑内容各式各样,那么这个时候很难下手,不知道怎么去写,常常思考过了半个小时后一行代码也没有写出来。下面不妨我们尝试把Markdown解析做的,其他文件类型解析也是这样的套路。原创 2025-01-08 21:37:48 · 1770 阅读 · 0 评论 -
不是炒作GenAI!终于有 BERT 的替代品了
在OpenAI o3火遍全网的同时,一个名为ModernBERT的热门模型已经发布并成为热门话题,而且 Huggingface 的官方博客也已发布,下面笔者是阅读相关资料之后的一些总结- ModernBERT 不仅在性能和效率上实现了全面提升,还将上下文长度扩展到了 8192 token,成为一个真正意义上的新一代编码器模型。论文链接:https://arxiv.org/pdf/2412.13663项目链接:https://github.com/answerdotai/modernbert。原创 2024-12-21 22:26:55 · 1081 阅读 · 0 评论 -
Invar-RAG:基于不变性对齐的LLM检索方法提升生成质量
在检索增强型生成(Retrieval-Augmented Generation, RAG)系统中直接应用大型语言模型(Large Language Models, LLMs)时面临的挑战。特征局部性问题(Feature Locality Problem):由于大型语言模型的庞大参数知识库阻碍了有效使用所有语料库中的全局信息,例如,基于LLM的检索器通常输入文档的摘要而不是整个文档,这可能导致无法充分利用全局信息。检索方差问题(Retrieval Variance)原创 2024-11-14 22:51:03 · 1286 阅读 · 0 评论 -
【GoMate框架案例】讯飞大模型RAG智能问答挑战赛top10 Baseline
【RAG框架】GoMate:RAG Framework within Reliable input,Trusted output【项目链接】:https://github.com/gomate-community/GoMate。原创 2024-09-10 16:24:29 · 986 阅读 · 0 评论 -
【保姆级教程】如何在Win11上搭建一个GPU环境
然后添加环境变量,鼠标右键此电脑 => 属性 => 高级系统设置 => 环境变量,将CUDA的安装目录添加到CUDA_PATH变量中。:https://developer.nvidia.com/cuda-downloads,图片下载的是。默认情况下,安装的 Linux 分发版为 Ubuntu。我们将文件夹覆盖到上面的CUDA安装目录下,比如我的CUDA的安装目录是。,将压缩包内对应的文件夹复制到bin、include、lib目录下即可。将 替换为要安装的发行版的名称。,能够正确显示各种信息就安装完成了。原创 2024-09-03 22:06:26 · 1506 阅读 · 2 评论 -
【RAG数据集】中文信息检索数据集整合
信息检索数据集原创 2024-09-02 10:44:35 · 3213 阅读 · 0 评论 -
RLHF 和 DPO:简化和增强语言模型的微调
人类反馈强化学习 (RLHF) 是人工智能领域的一种前沿方法,它利用人类偏好和指导来训练和改进机器学习模型。RLHF的核心是一种机器学习范式,它结合了强化学习和监督学习的元素,使人工智能系统能够以更加人性化的方式学习和做出决策。RLHF的重要性在于它有可能解决人工智能中的一些基本挑战,例如需要模型来理解和尊重人类的价值观和偏好。传统的强化学习模型通过与环境交互产生的奖励来学习,而 RLHF 则不同,它引入了人类反馈作为宝贵的指导来源。原创 2024-01-16 22:30:16 · 3250 阅读 · 0 评论 -
【LLM系列之指令微调】长话短说大模型指令微调的“Prompt”
或者有继续微调比较合适的方案也可以,不损失之前模型的效果(或者损失比较小),目前可以尝试Lora或者Qlora的方式微调底座模型,然后将训练好的Lora权重合并到原始模型,这样可以减轻多次微调对模型的影响。之前推理的时候,发现不加训练的时候prompt,直接输入模型性能会变差的,这个倒是可以理解。(3)另外通过实验发现,如果模型微调的时候使用模板,那么推理的时候应该也使用模板,否则效果会影响,直观上就是生成效果不理想,生成比较短,甚至“驴唇不对马嘴”;那高质量如何定义呢?和alpaca模板差不多。原创 2023-07-31 22:31:39 · 3510 阅读 · 0 评论 -
大模型评测平台OpenCompass
OpenCompass 是面向大模型评测的一站式平台。开源可复现:提供公平、公开、可复现的大模型评测方案全面的能力维度:五大维度设计,提供 50+ 个数据集约 30 万题的的模型评测方案,全面评估模型能力丰富的模型支持:已支持 20+ HuggingFace 及 API 模型分布式高效评测:一行命令实现任务分割和分布式评测,数小时即可完成千亿模型全量评测多样化评测范式:支持零样本、小样本及思维链评测,结合标准型或对话型提示词模板,轻松激发各种模型最大性能灵活化拓展:想增加新模型或数据集?原创 2023-07-21 13:26:06 · 2310 阅读 · 0 评论 -
【LLM系列之BLOOM】BLOOM: A 176B-Parameter Open-Access Multilingual Language Model
预训练语言模型已经成为了现代自然语言处理pipeline中的基石,因为其在少量的标注数据上产生更好的结果。随着ELMo、ULMFiT、GPT和BERT的开发,使用预训练模型在下游任务上微调的范式被广泛使用。随后发现预训练语言模型在没有任何额外训练的情况下任务能执行有用的任务,进一步证明了其实用性。此外,根据经验观察,语言模型的性能随着模型的增大而增加(有时是可预测的,有时是突然的),这也导致了模型规模越来越多的趋势。抛开环境的问题,训练大语言模型(LLM)的代价仅有资源丰富的组织可以负担的起。原创 2023-05-16 23:27:55 · 909 阅读 · 0 评论 -
【LLM系列之LLaMA】LLaMA: Open and Efficient Foundation Language Models
LLaMA 是 Meta AI 发布的包含 7B、13B、33B 和 65B 四种参数规模的基础语言模型集合,LLaMA-13B 仅以 1/10 规模的参数在多数的 benchmarks 上性能优于 GPT-3(175B),LLaMA-65B 与业内最好的模型 Chinchilla-70B 和 PaLM-540B 比较也具有竞争力。开源一系列语言模型,可以与SOTA模型竞争LLaMA-13B比GPT-3的性能更好,但是模型大小却是十分之一。原创 2023-05-15 14:40:24 · 1144 阅读 · 0 评论 -
【LLM系列之GLM】GLM: General Language Model Pretraining with Autoregressive Blank Infilling
目前,已经有各种类型的预训练架构,包括自编码模型(例如BERT),自回归模型(例如GPT)和编码器-解码器模型(例如T5)。然而,没有一个预训练框架对三个主要类别的所有任务(自然语言理解(NLU),无条件生成和有条件生成)都表现最佳。提出了一种基于自回归空白填充的通用语言模型(GLM)来应对上述三种任务。GLM通过添加2D位置编码并允许任意顺序预测跨度来改进空白填充预训练,从而在NLU任务上比BERT和T5获得了性能提升。通过变化空白数量和长度,可以针对不同类型的任务对GLM进行预训练。原创 2023-05-14 23:46:32 · 1485 阅读 · 0 评论 -
【LLM系列之PaLM】PaLM: Scaling Language Modeling with Pathways
PaLM 540B 在 1-shot 设置的 29 个任务中的 24 个和在 few-shot 设置的 29 个任务中的 28 个任务上优于之前的 SOTA。总体来说,该程序包含用于 pod 内前向+反向计算(包括 pod 内梯度减少)的组件 A,用于跨 pod 梯度传输的传输子图,以及用于优化器更新的组件 B(包括本地和远程梯度的求和) ).(2)提出Parallel Layers:每个 Transformer 结构中的“并行”公式:与 GPT-J-6B 中一样,使用的是标准“序列化”公式。原创 2023-05-14 01:24:35 · 2957 阅读 · 0 评论 -
LlamaIndex :面向QA 系统的全新文档摘要索引
在LlamaIndex中提出了一个新索引,它将为每个文档提取/索引非结构化文本摘要。该索引可以帮助提高检索性能,超越现有的检索方法。它有助于索引比单个文本块更多的信息,并且比关键字标签具有更多的语义。它还允许更灵活的检索形式:我们可以同时进行 LLM 检索和基于嵌入的检索。原创 2023-05-10 23:45:41 · 1407 阅读 · 0 评论 -
【LLM系列之FLAN-T5/PaLM】Scaling Instruction-Finetuned Language Models
研究已经证明,在一组表述为指令的数据集上微调语言模型可以提高模型性能和对未知任务的泛化能力。(1)缩放任务数量;(2)缩放模型大小;(3)链式思维数据微调;论文发现,在上述方面进行指令微调可以显着提高各种模型(PaLM、T5、U-PaLM)、提示设置(零样本、少样本、CoT)和评估基准(MMLU、BBH、 TyDiQA、MGSM、开放式生成、RealToxicityPrompts)。原创 2023-05-08 23:11:08 · 1553 阅读 · 0 评论 -
BigCode开放性能超越Copilot的代码生成模型Starcoder
StarCoder模型的优点之一,是可以处理比其他大型语言模型更多的输入,可以接受高达8,000个Token,而这将能支援更多样的应用,像是经过一系列的对话指示,便可使StarCoder成为技术助理。由于StarCoder是一个多语言模型,因此开发团队也使用MultiPL-E基准测试进行比较,在多语言上,StarCoder表现比OpenAI code-cushman-001模型更好,并在资料科学DS-1000基准测试上,击败其他开放存取模型。原创 2023-05-05 23:27:14 · 1981 阅读 · 0 评论 -
生成式AI的一小步,AGI的一大步:AIGC时代ChatGPT全盘调查
OpenAI 最近发布了 GPT-4(又名 ChatGPT plus),这被证明是生成式 AI (GAI) 的一小步,但是通用人工智能 (AGI)的巨大飞跃。此外,我们对 ChatGPT 如何发展以实现通用 AIGC(又名 AI 生成的内容)提出了展望,这将是一个重要的里程碑AGI的发展。其他关键词和短语:Survey、ChatGPT、GPT-4、Generative AI、AGI、Artificial General Intelligence、AIGC。CCS 概念: • 计算方法 → 计算机视觉任务;原创 2023-04-14 21:10:57 · 753 阅读 · 0 评论 -
DeepSpeed-Chat:最强ChatGPT训练框架,一键完成RLHF训练!
本着使 ChatGPT 式模型及其功能民主化的精神,DeepSpeed 自豪地推出了一个通用系统框架,用于为类 ChatGPT 模型提供端到端的培训体验,名为 DeepSpeed Chat。它可以自动采用你最喜欢的预训练大型语言模型,通过 OpenAI InstructGPT 风格的三个阶段来生成您自己的高质量 ChatGPT 风格模型。DeepSpeed Chat 使类似ChatGPT 风格的模型训练变得简单、快速、经济且可扩展。原创 2023-04-13 23:07:40 · 3286 阅读 · 4 评论 -
InstructGLM:基于ChatGLM-6B在指令数据集上进行微调
基于ChatGLM-6B+LoRA在指令数据集上进行微调。原创 2023-04-10 22:37:02 · 3769 阅读 · 0 评论 -
Google Brain新提出的优化器“Lion”,效果要比Adam(W)更好
Google Brain新提出的优化器“Lion”,效果要比Adam(W)更好。原创 2023-02-25 22:18:02 · 1504 阅读 · 0 评论 -
【论文解读】如何使用1B参数的小模型吊打GPT3.5
COT全称为Chain-of-Thought,定义是在应对推理任务时,在给出最终答案之前所产生的中间推理步骤,载体是一系列的短句子。简单来说,思维链是一种离散式提示学习,更具体地,大模型下的上下文学习(即不进行训练,将例子添加到当前样本输入的前面,让模型一次输入这些文本进行输出完成任务),相比于之前传统的上下文学习,即通过x1,y1,x2,y2,…原创 2023-02-24 18:40:06 · 3611 阅读 · 0 评论 -
百度搜索首届技术创新挑战赛:搜索模型推理优化
模型推理优化任务采用相对开放的设定,可自行选用各种模型推理框架,挖掘GPU加速硬件特性,通过异构算子优化、模型量化压缩等各种优化手段,追求最优的模型推理性能(推荐深入应用NVIDIA TensorRT优化技术)。参赛队员请用飞桨AI Studio配置的NVIDIA A100完成参赛作品。给出已经训练好的模型文件,模型结构以ERNIE结构为主,提供PaddlePaddle和ONNX两种模型格式;同时给定一批搜索线上模型推理测试数据,包括用户的实际query、候选文档等,所有数据均已ID化。原创 2022-11-28 15:59:34 · 286 阅读 · 0 评论 -
文本分类微调技巧实战2.0
讯飞比赛答辩结束,笔者和小伙伴们参加了一些讯飞的比赛,今年讯飞文本分类比赛相比去年更加多元化,涉及领域、任务和数据呈现多样性,听完各位大佬的答辩之后,结合之前经验和以下赛题总结下文本分类比赛的实战思路。原创 2022-11-18 17:40:42 · 995 阅读 · 0 评论 -
STI比赛任务一:【智能问答baseline】
https://aistudio.baidu.com/aistudio/projectdetail/5043272?contributionType=1原创 2022-11-16 13:03:24 · 677 阅读 · 0 评论 -
百度搜索首届技术创新挑战赛 丰厚奖励等你拿!
百度搜索首届技术创新挑战赛 丰厚奖励等你拿!原创 2022-11-02 17:13:52 · 893 阅读 · 0 评论 -
字节跳动安全Ai挑战赛-基于文本和多模态数据的风险识别总结
字节跳动安全Ai挑战赛-基于文本和多模态数据的风险识别总结原创 2022-10-13 16:27:54 · 1358 阅读 · 0 评论 -
【NLP基础】英文关键词抽取RAKE算法
【NLP基础】英文关键词抽取RAKE算法原创 2022-08-18 13:39:42 · 995 阅读 · 0 评论 -
中文文本纠错任务简介
中文文本纠错任务简介原创 2022-07-25 11:16:32 · 1997 阅读 · 0 评论 -
Kaggle 专利匹配比赛金牌方案赛后总结
Kaggle 专利匹配比赛赛后总结原创 2022-06-22 17:58:37 · 1205 阅读 · 0 评论 -
芒果TV商品意图识别top3思路分享
芒果TV商品意图识别top3思路分享原创 2022-06-14 18:11:55 · 350 阅读 · 1 评论 -
NLP比赛推送
NLP比赛推送原创 2022-06-09 19:56:18 · 390 阅读 · 0 评论 -
librosa音频处理教程
librosa音频处理教程原创 2022-05-05 21:51:00 · 3647 阅读 · 1 评论
分享