![](https://img-blog.csdnimg.cn/20190927151117521.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
大语言模型
文章平均质量分 95
大语言模型
数智笔记
目前从事数据挖掘工作,期望在自己学习总结的同时,也能分享有益的东西给别人,希望有志者能在数据挖掘领域共同进步
展开
-
2024年7月12日Arxiv语言模型相关论文
在这篇观点论文中,我们介绍了专业通用人工智能(SGAI或简称SGI)的概念,作为通向通用人工智能(AGI)的关键里程碑。与直接扩展通用能力相比,SGI被定义为至少在一项任务上专业化,超越人类专家,同时保留通用能力。这种融合路径使SGI能够迅速实现高价值领域。我们根据对专业技能和普遍性表现的掌握程度,将SGI分为三个阶段。此外,我们讨论了SGI在解决与大语言模型相关的问题方面的必要性,例如它们的普遍性不足、专业能力、创新的不确定性和实际应用。原创 2024-07-12 13:21:10 · 1206 阅读 · 0 评论 -
DSPY: 将声明性语言模型调用编译为自我改进的管道
机器学习社区正在快速探索促使语言模型(LMs)和将它们堆叠成解决复杂任务的管道的技术。不幸的是,现有的 LM 管道通常使用硬编码的“提示模板”实现,即通过试错发现的冗长字符串。为了更系统地开发和优化 LM 管道,我们引入了 DSPy,这是一个将 LM 管道抽象为文本转换图的编程模型,即通过声明性模块调用 LM 的命令式计算图。DSPy 模块是参数化的,意味着它们可以学习(通过创建和收集演示)如何应用提示、微调、增强和推理技术的组合。我们设计了一个编译器,可以优化任何 DSPy 管道以最大化给定的度量标准。原创 2024-06-06 09:57:46 · 957 阅读 · 0 评论 -
Codestral 22B 如何引领 AI 代码生成的潮流
Mistral AI 的 Codestral 22B 是 AI 驱动的代码生成中的一个关键工具,展现出在多个基准测试中的出色性能,如 HumanEval、MBPP、CruxEval-O、RepoBench 和 Spider。Codestral 22B 的一个显著特点是其广泛的 32k 令牌上下文窗口,与其竞争对手相比显著更大,例如 CodeLlama 70B、DeepSeek Coder 33B 和 Llama 3 70B,它们分别提供 4k、16k 和 8k 令牌的上下文窗口。原创 2024-06-04 14:09:40 · 638 阅读 · 0 评论 -
微软 Phi-3:从语言到视觉,这款新的人工智能模型正在改变人工智能
微软通过其最新的人工智能产品Phi-3系列模型推动了技术边界。这些紧凑而强大的模型最近在微软2024年Build大会上亮相,并承诺在各种应用中提供出色的人工智能性能。该系列包括迷你版Phi-3-mini、略大一些的Phi-3-small、中等规模的Phi-3-medium以及创新的Phi-3-vision——一个无缝融合语言和视觉能力的多模态模型。这些模型旨在实现实际应用,提供一流的推理能力和快速响应,同时在计算需求上保持精简。原创 2024-06-04 12:05:36 · 1054 阅读 · 0 评论 -
2024年5月31日Arxiv最新大语言模型相关论文
在这项工作中,我们提出了Xwin-LM,这是一个针对大语言模型(LLMs)的全面对齐方法套件。该套件包括几种关键技术,包括监督微调(SFT)、奖励建模(RM)、拒绝采样微调(RS)和直接偏好优化(DPO)。关键组件如下:(1)Xwin-LM-SFT,最初使用高质量指令数据进行微调的模型;(2)Xwin-Pair,一个大规模、多轮偏好数据集,使用GPT-4进行精心注释;(3)Xwin-RM,在Xwin-Pair上训练的奖励模型,规模为7B、13B和70B参数;原创 2024-05-31 17:04:21 · 1009 阅读 · 0 评论 -
释放图像处理潜能:深入解析 PaLiGemma 模型的调整与部署
PaLiGemma 是一个开源的最先进模型,与其他产品一起在 Google I/O 2024 上发布,结合了 Google 开发的另外两个模型。基于 SigLIP 视觉模型和 Gemma 语言模型等开放组件,PaLiGemma 是一个灵活且轻量级的视觉-语言模型(VLM),灵感来自 PaLI-3。它支持多种语言,在接受图像和文本输入后生成文本输出。它旨在作为各种视觉-语言活动的模型,包括文本阅读、对象识别和分割、视觉问答以及为图像和短视频加上标题。原创 2024-05-30 21:58:26 · 1105 阅读 · 0 评论 -
重新定义聊天机器人:GPT 4o 的多模态交互创新
自 OpenAI 推出 GPT 模型(如 GPT 4o)以来,自然语言处理的格局已经完全改变,并转向了一个称为生成式人工智能的新概念。大型语言模型是其核心,它们能够理解复杂的人类查询并生成相关的答案。对于这种大型语言模型的下一步发展是多模态性,即能够理解除文本以外的数据。这可能包括图像、音频和视频。最近一些多模型已经发布,包括开源和闭源的,比如谷歌的 Gemini、LlaVa 和 GPT 4v。最近,OpenAI 宣布推出了一种新的多模型,名为 GPT 4o(Omni)。原创 2024-05-30 21:57:30 · 581 阅读 · 0 评论 -
2024年5月30日Arxiv最新大语言模型相关论文
原标题作者摘要: 图表到摘要生成可以帮助探索数据,传达见解,并帮助视觉受损的人群。多模态生成模型已被用于生成流畅的摘要,但可能存在事实和感知错误。在这项工作中,我们提出了CHATS-CRITIC,一个用于评分忠实度的无参考图表摘要度量标准。CHATS-CRITIC由一个图像到文本模型和一个用于逐句评分摘要的表格蕴涵模型组成。我们发现,CHATS-CRITIC比基于参考的度量标准(无论是学习还是基于n-gram的)更好地根据人类评分评估摘要质量,并且可以进一步用于通过删除不受支持的句子来修复候选摘要。原创 2024-05-30 17:52:08 · 980 阅读 · 0 评论 -
2024年5月29日Arxiv最新大语言模型相关论文
我们对所有公开可用的 GPT-4 系列模型在文档理解领域进行了一项缺失的、可重现的评估,该领域经常需要理解文本的空间排列和视觉线索,除了文本语义。基准结果表明,虽然仅使用文本模型很难获得令人满意的结果,但当提供外部 OCR 引擎识别的文本和文档图像作为输入时,GPT-4 Vision Turbo 的表现良好。评估后进行了分析,表明可能存在对文本 GPT-4 模型的污染,并指出了长文档的显著性能下降。原创 2024-05-29 17:52:57 · 606 阅读 · 0 评论 -
2024年5月28日Arxiv最新大语言模型相关论文
仅使用解码器的大型语言模型(LLM)嵌入模型开始在通用文本嵌入任务中超越基于BERT或T5的嵌入模型,包括基于密集向量的检索。在这项工作中,我们引入了NV-Embed模型,采用多种架构设计和训练流程,显著提高LLM作为多功能嵌入模型的性能,同时保持其简单性和可重现性。对于模型架构,我们提出了一个潜在的注意力层来获取汇总嵌入,与使用LLMs中的平均汇总或最后一个标记嵌入相比,它始终改善了检索和下游任务的准确性。为了增强表示学习,我们在对比训练期间去除了LLMs的因果注意力掩码。原创 2024-05-29 06:26:30 · 1053 阅读 · 0 评论 -
【开源啦!】Langchain官方文档中文翻译项目 ——langchain-doc-zh
LangChain是使用非常广的大模型编排工具,可以低代码的做大模型各种应用,有点类似在数据分析处理里面Pandas的地位。所以我有了一些想把一些工具的文档翻译成中文的想法。希望对于大家有一些帮助。由于文档较多,人力和能力都有限,有可能很多地方有问题,如果发现,请给我反馈,我会修改优化。希望能抛砖引玉,更多人加入到翻译优秀AI工具文档中,对于国内广大Langchain使用者有一点帮助。未来我也会陆续翻译更多的优秀AI工具的文档。原创 2024-05-28 14:40:57 · 1390 阅读 · 0 评论 -
2024年5月22日Arxiv最新大语言模型相关论文
原标题作者机构: 英国法律:AI对判决书的主题建模的案例研究霍莉·萨金特、艾哈迈德·伊兹迪恩和费利克斯·斯特菲克摘要: 本文通过开发和应用一个新颖的分类法来处理法律分析中的一个关键空白,该分类法用于主题建模英国的判决案件。利用一个经过筛选的判决案件数据集,我们使用大语言模型Claude 3 Opus来探索功能性主题和趋势。我们发现Claude 3 Opus以87.10%的准确率正确分类了主题。分析揭示了在各种法律领域中应用判决的明显模式。原创 2024-05-22 18:53:12 · 1161 阅读 · 0 评论 -
【论文译文】震撼发布!亚马逊推出SpeechVerse:大规模音频语言模型
大规模语言模型(LLMs)在需要自然语言指令语义理解的任务中表现出了惊人的能力。最近,许多研究进一步扩展了这些模型感知多模态音频和文本输入的能力,但它们的功能通常限于特定微调任务,如自动语音识别(ASR)和翻译。因此,我们开发了SpeechVerse,一个稳健的多任务训练和课程学习框架,它通过一小组可学习参数结合预训练的语音和文本基础模型,并在训练过程中保持预训练模型冻结。模型使用从语音基础模型提取的连续潜在表示进行指令微调,以通过自然语言指令在各种语音处理任务上实现最佳零样本性能。原创 2024-05-21 12:02:30 · 348 阅读 · 0 评论 -
【论文译文】深入探索RAG:检索增强生成的全方位评估综述
检索增强生成(RAG)在自然语言处理领域已经成为一个关键的创新,通过整合外部信息检索提高生成模型的性能。然而,由于其混合结构和对动态知识源的依赖,评估RAG系统面临独特的挑战。因此,我们进行了广泛的调查,并提出了一个分析框架 RGAR(Retrieval,Generation,Additional Requirement),用于系统化分析RAG系统的基准,通过专注于可测量的输出和已知的真相对RAG基准进行系统分析。原创 2024-05-21 12:01:16 · 1048 阅读 · 0 评论 -
【论文译文】提升Transformer模型的动态可组合多头注意力机制
多头注意力(Multi-Head Attention,MHA)是Transformer模型中的关键组件。在MHA中,各个注意力头独立工作,会导致注意力分数矩阵的低秩瓶颈以及头部冗余等问题。我们提出了一种称为动态可组合多头注意力(Dynamically Composable Multi-Head Attention,DCMHA)的注意力架构,该架构在参数和计算方面都很高效,通过动态组合注意力头来解决MHA的缺点并增强模型的表现力。DCMHA的核心是一个Compose函数,它能根据输入动态地变换注意力分数和权重原创 2024-05-21 11:59:23 · 661 阅读 · 0 评论 -
如何在几分钟内使用HuggingFace创建自定义AI助手
现在,你可能会想:“为什么要构建一个自定义AI助手呢?”答案很简单。定制化使你能够根据自己的需求来定制助手,提高工作效率。此外,随着技术的进步,适应和个性化这些工具的能力将使你具备竞争优势。通过构建自定义AI助手,你不仅跟上了潮流,还在引领潮流。但为什么选择HuggingChat来构建你的AI助手呢?因为HuggingFace的HuggingChat界面简单易用,即使对人工智能领域新手也能轻松上手。它是创建自定义AI助手的最简单方法之一,如下所示。原创 2024-05-20 12:15:15 · 611 阅读 · 0 评论 -
用 RAGAS 评估 RAG 管道初学者指南
RAG工作流帮助我们管理和利用来自各种来源的数据,以提供准确和相关的结果。从不同的来源收集数据,如文本文件、PDF、网站、数据库或API。例如,Llama Hub提供了许多连接器,使这一步骤更容易。在索引阶段,系统将原始数据转换为向量嵌入并组织它们。使用句子转换模型将每个文档或数据片段转换为捕捉语义含义的高维向量。然后将这些向量组织成高效的数据结构,通常是n维树或哈希映射,以实现快速的相似性搜索。保存索引数据和标签,以便以后无需再次组织。将查询转换为向量,并使用余弦相似度或其他距离度量与索引向量进行比较。原创 2024-05-20 12:13:30 · 1227 阅读 · 0 评论 -
Llama 3 构建语音助手:将本地 RAG 与 Qdrant、Whisper 和 LangChain 集成
RAG工作流帮助我们管理和利用来自各种来源的数据,以提供准确和相关的结果。从不同的来源收集数据,如文本文件、PDF、网站、数据库或API。例如,Llama Hub提供了许多连接器,使这一步骤更容易。在索引阶段,系统将原始数据转换为向量嵌入并组织它们。使用句子转换模型将每个文档或数据片段转换为捕捉语义含义的高维向量。然后将这些向量组织成高效的数据结构,通常是n维树或哈希映射,以实现快速的相似性搜索。保存索引数据和标签,以便以后无需再次组织。将查询转换为向量,并使用余弦相似度或其他距离度量与索引向量进行比较。原创 2024-05-20 12:12:19 · 1258 阅读 · 0 评论 -
Ludwig: 使用 LoRA 进行 LLM 微调的全面指南
自然语言处理(NLP)和人工智能(AI)的发展对该领域产生了重大影响。这些模型可以理解和生成类似人类的文本,从而实现了诸如聊天机器人和文档摘要等应用。然而,为了充分利用它们的功能,需要针对特定用例进行微调。Ludwig 是一个低代码框架,用于创建自定义的 AI 模型,包括 LLM 和深度神经网络。本文提供了使用 Ludwig 进行 LLM 微调的全面指南,重点介绍如何为实际场景创建最先进的模型。Ludwig以其用户友好的低代码方法而闻名,支持各种机器学习(ML)和深度学习应用。这种灵活性使其成为开发人员和研原创 2024-05-20 12:11:01 · 644 阅读 · 0 评论 -
用 AI 技术让 PDF 图像“说话“,开启交互新模式
在我们的数字时代,信息主要通过电子格式共享,PDF作为一种重要的媒介。然而,其中的数据,尤其是图像,由于格式限制往往被低效利用。本文介绍了一种开创性的方法,不仅解放了PDF中的数据,而且最大化了其利用价值。通过使用Python和先进的人工智能技术,我们将演示如何从PDF文件中提取图像,并使用像LLava和LangChain这样的复杂AI模型与其进行交互。这种创新方法为数据交互开辟了新的途径,增强了我们分析和利用PDF中封存的信息的能力。原创 2024-05-19 08:26:02 · 1032 阅读 · 0 评论 -
用 Gemini Pro Vision 打造医疗助手,守护你的健康
Gemini 是谷歌推出的一系列新的基础模型。与PaLM相比,这是迄今为止谷歌最大的一组模型,并且从一开始就专注于多模态。这使得 Gemini 模型能够处理不同类型的信息组合,包括文本、图像、音频和视频。目前,API 支持图像和文本。Gemini 在基准测试中证明了其达到了最先进的性能,并在许多测试中击败了 ChatGPT 和 GPT4-Vision 模型。原创 2024-05-19 08:19:32 · 1001 阅读 · 0 评论 -
谷歌重磅发布!Gemini 1.5 模型震撼来袭
更长的上下文长度能够更好地总结大量文本,捕捉更多细微之处和细节,从而生成更准确和全面的摘要。原创 2024-05-19 08:14:47 · 998 阅读 · 0 评论 -
ReFT:新的语言模型微调技术
参数高效微调 (PEFT) 是一种用于自然语言处理(NLP)的技术,旨在提高预训练语言模型在特定任务上的表现。它通过重用大部分预训练模型的参数,仅对少量特定层进行微调,从而节省时间和计算资源。PEFT 方法通过围绕任务特定调整来适应新任务,特别是在资源匮乏的情况下,大大降低了过拟合的风险。参数高效微调 (PEFT) 方法通过仅调整模型的小部分权重来提供解决方案,从而节省时间和内存。Adapters 一种 PEFT,通过调整某些权重或添加新的权重来配合原模型工作。原创 2024-05-19 08:09:29 · 1029 阅读 · 1 评论 -
用 LLama-Factory 训练和微调 LLama3,打造你的专属 AI 模型!
微调模型涉及调整预训练或基础模型的参数,使其能够用于特定任务或数据集,从而提升其性能和准确性。这个过程包括为模型提供新的数据,并修改其权重、偏差和某些参数以最小化损失和成本。通过这样做,这个新模型可以在任何新任务或数据集上表现良好,而无需从头开始,从而节省时间和资源。通常,当一个新的大型语言模型(LLM)创建时,它会在一个大型文本数据语料库上进行训练,其中可能包含潜在有害或不良内容。在预训练或初始训练阶段之后,模型会被微调加入安全措施,确保其避免生成有害或不良的响应。然而,这种方法并非完美无缺。原创 2024-05-19 08:01:07 · 1741 阅读 · 0 评论 -
史上最快的推理终端来啦!Groq API 新手入门指南
成立于 2016 年的Groq是一家总部位于加利福尼亚山景城的 AI 解决方案初创公司。Groq 专注于超低延迟的 AI 推理,显著提高了 AI 计算性能。Groq 是 AI 技术领域的重要参与者,已将其名称注册为商标,并组建了一个致力于推广 AI 访问的全球团队。messages=[},",],第一行代码初始化了一个llm对象,使其能够与大型语言模型进行交互,类似于OpenAI的Chat Completion API。原创 2024-05-19 07:56:30 · 2167 阅读 · 1 评论 -
如何使用 GPT 4o API 实现视觉、文本、图像等功能?
GPT-4o 是 OpenAI 最新和最强大的 AI 模型。这不仅仅是 AI 聊天机器人领域的又一步,而是一个具有突破性功能的飞跃,称为多模态能力。这意味着:传统上,像以前版本的 GPT 这样的语言模型主要集中在理解和响应文本。GPT-4o 打破了这一模式,成为真正的多模态模型。这是其核心优势,允许 GPT-4o 进行对话、回答问题,以及生成诗歌或代码等创作性文本格式。想象一下,播放一首歌给 GPT-4o,让它分析音乐、描述激发的情感,甚至写出受其启发的歌词!原创 2024-05-18 20:35:16 · 4374 阅读 · 2 评论 -
OpenAI GPT-4o全面解析
我们宣布推出 GPT-4o,这是我们的新旗舰模型,可以实时处理音频、视觉和文本。GPT-4o(“o”代表“omni”)是向更自然的人机交互迈出的一步——它接受任何组合的文本、音频和图像作为输入,并生成任意组合的文本、音频和图像输出。它可以在短至 232 毫秒内响应音频输入,平均为 320 毫秒,这类似于对话中的人类响应时间(新窗口打开)。在英语文本和代码上,它与 GPT-4 Turbo 性能相当,在非英语语言文本上有显著改进,同时在 API 上也更快且成本降低了 50%。原创 2024-05-15 21:29:56 · 892 阅读 · 2 评论 -
时序基础模型综述:用大型语言模型泛化时序表示 A Survey of Time Series Foundation Models: Generalizing Time Series Represent
论文名称:A Survey of Time Series Foundation Models: Generalizing Time Series Representation with Large Language Model论文地址:https://arxiv.org/pdf/2405.02358时序数据在各个领域中无处不在,因此时序分析具有至关重要的意义。传统的时序模型是任务特定的,具有单一功能和有限的泛化能力。原创 2024-05-14 13:59:50 · 653 阅读 · 0 评论 -
DeepSeek-V2:一款强大、经济高效的专家混合语言模型
我们介绍了DeepSeek-V2,这是一款强大的专家混合(MoE)语言模型,具有经济高效的训练和推理特性。它包含2360亿个参数,其中每个标记激活了21亿个参数,并支持128K标记的上下文长度。DeepSeek-V2采用了创新的架构,包括多头潜在注意力(MLA)和DeepSeekMoE。MLA通过将关键-值(KV)缓存显著压缩为潜在向量,确保了高效的推理,而DeepSeekMoE通过稀疏计算实现了以经济的成本训练强大模型。原创 2024-05-14 11:28:28 · 356 阅读 · 0 评论 -
RAG遇见LLMs:走向检索增强型大语言模型 A Survey on RAG Meets LLMs: Towards Retrieval-Augmented Large Language Models
作为人工智能中最先进的技术之一,检索增强生成(RAG)技术可以提供可靠且最新的外部知识,为众多任务提供了巨大便利。特别是在人工智能生成内容(AIGC)时代,RAG中检索的强大能力在提供额外知识方面使得检索增强生成能够辅助现有生成型人工智能产生高质量输出。最近,大型语言模型(LLMs)展示了在语言理解和生成方面的革命性能力,但仍面临固有限制,如幻觉和过时的内部知识。原创 2024-05-14 11:27:57 · 298 阅读 · 0 评论 -
你只需缓存一次:解码器-解码器架构用于语言模型
我们引入了一种解码器-解码器架构,YOCO,用于大型语言模型,只需一次缓存键-值对。它由两个组件组成,即一个叠加在自解码器上的交叉解码器。自解码器通过交叉注意力有效地编码全局键-值(KV)缓存,这些缓存被交叉解码器通过交叉注意力重复使用。整体模型的行为类似于仅解码器的Transformer,尽管YOCO只缓存一次。该设计大大降低了GPU内存需求,同时保留了全局注意力能力。此外,计算流程使得可以提前预填充以提高速度,而不改变最终输出。原创 2024-05-14 11:27:20 · 342 阅读 · 0 评论 -
2024年5月8日大语言模型最新论文中文摘要
原标题作者摘要: 这项工作提出了一种动态词汇适应策略MEDVOC,用于微调预训练语言模型(PLMs),如BertSumAbs、BART和PEGASUS,以改进医学文本摘要。与现有的摘要领域适应方法不同,MEDVOC将词汇视为可优化的参数,并基于仅与下游任务的参考摘要有关的片段得分来优化PLM词汇。与先前关于词汇适应的工作(仅限于分类任务)不同,基于摘要任务优化词汇需要在大型摘要数据集上进行极其昂贵的中间微调步骤。原创 2024-05-08 22:31:11 · 318 阅读 · 0 评论 -
2024年5月7日大语言模型最新论文中文摘要
在这里,我们将使用 LangGraph、Groq-Llama-3 和 Chroma 构建可靠的 RAG 代理。我们将结合以下概念来构建 RAG 代理。自适应 RAG (论文。我们已经实现了本文中描述的概念,构建了一个路由器,用于将问题路由到不同的检索方法。校正 RAG (论文。我们已经实现了本文中描述的概念,开发了一个回退机制,用于在检索到的上下文与所问问题不相关时继续进行。自身 RAG (论文。我们已经实现了本文中描述的概念,开发了一个幻觉评分器,即修正那些产生幻觉或未回答所问问题的答案。原创 2024-05-08 10:21:44 · 1319 阅读 · 0 评论 -
使用 LangGraph 构建可靠的 RAG 代理
在这里,我们将使用 LangGraph、Groq-Llama-3 和 Chroma 构建可靠的 RAG 代理。我们将结合以下概念来构建 RAG 代理。自适应 RAG (论文。我们已经实现了本文中描述的概念,构建了一个路由器,用于将问题路由到不同的检索方法。校正 RAG (论文。我们已经实现了本文中描述的概念,开发了一个回退机制,用于在检索到的上下文与所问问题不相关时继续进行。自身 RAG (论文。我们已经实现了本文中描述的概念,开发了一个幻觉评分器,即修正那些产生幻觉或未回答所问问题的答案。原创 2024-05-07 08:14:06 · 1151 阅读 · 0 评论 -
RAG + LlamaParse:高级 PDF 解析与检索
支持的文件类型:PDF、.pptx、.docx、.rtf、.pages、.epub 等…转换的输出类型:Markdown、文本提取能力:文本、表格、图像、图表、漫画、数学方程定制解析指令:由于 LlamaParse 是 LLM 启用的,您可以像提示 LLM 一样传递指令。您可以使用此提示描述文档,从而为 LLM 在解析时提供更多上下文,指示您希望输出的外观,或要求 LLM 在解析过程中执行预处理,如情感分析、语言翻译、摘要等…JSON 模式。原创 2024-05-07 07:55:32 · 1545 阅读 · 1 评论 -
提升你的 RAG:在 Vertex AI 上调整嵌入
在Google Cloud上,Vertex AI的文本嵌入API使用户能够生成他们的文本嵌入。该API提供了各种版本的Gecko,这是一个性能良好、简洁灵活的文本嵌入模型。Gecko的检索性能来自一个基本概念:从广泛的语言模型(LLM)中提取知识并将其纳入到检索器中。要了解有关Gecko的更多信息,请查看原始论文。图1 - Gecko:从大型语言模型中提取的多功能文本嵌入在Vertex AI上,您可以根据要表示的文档的语言选择和模型。原创 2024-05-07 07:51:46 · 790 阅读 · 0 评论 -
使用 Llama-Index、Llama 3 和 Qdrant 构建高级重排-RAG 系统
RAG = 密集向量检索(R)+ 上下文学习(AG)检索:为所提问的问题找到参考文献。增强:将参考文献添加到提示中。生成:改进所提问的答案。在 RAG 中,我们通过将一系列文本文档或文档片段编码为称为向量嵌入的数值表示来处理它们。每个向量嵌入对应于一个单独的文档片段,并存储在称为向量存储的数据库中。负责将这些片段编码为嵌入的模型称为编码模型或双编码器。这些模型在大量数据集上进行训练,使它们能够创建出单个向量嵌入中文档片段的强大表示。为了避免幻觉,RAG 利用与 LLM 的推理能力分开的事实知识来源。原创 2024-05-07 07:47:00 · 1173 阅读 · 1 评论 -
详解微调语言模型(LLMs)的全面指南:模仿研究者的写作风格
微调语言模型(LLMs)已成为自然语言处理(NLP)任务中的一项关键技术,使模型能够适应特定领域或任务,并提高性能。在本文中,我们将使用Python探索微调LLMs的过程,重点介绍高效预处理文本数据的技术。脚本定义了示例文本,每个示例包含原始文本及其对应的中性版本。这些示例作为输入供LangChain模型学习和生成简化版本。原创 2024-05-07 07:39:04 · 948 阅读 · 0 评论 -
人工智能代理接管人类完成的计算机任务的开始
OS世界是一个专门为测试名为多模态代理的智能AI助手而设计的特殊计算机环境。这些AI助手可以像人类一样使用真实的计算机程序来看、理解和执行任务。OS世界适用于最流行的计算机系统——Windows、Linux和Apple(macOS)。这意味着AI代理可以在各种各样的软件和程序上进行训练。想象一下,一个AI代理试图写邮件、编辑电子表格或在互联网上搜索信息。OS世界为AI提供了一个安全的空间来练习这些真实任务,就像我们一样。OS世界关注的是反馈。原创 2024-05-06 22:46:14 · 1039 阅读 · 2 评论 -
2024年5月6日论文中文摘要 Arxiv Computation and Language语言模型相关论文
原标题作者摘要: 使用超出传统关键词范畴的属性或维度来总结结构化科学摘要或研究贡献可以增强科学可发现性。当前的方法,比如开放研究知识图谱(ORKG)所使用的方法,涉及手动筛选属性以结构化描述研究论文的贡献,但这种方法劳动密集且在领域专家人工筛选者之间存在不一致性。我们提议使用大语言模型(LLMs)自动建议这些属性。然而,在应用之前,评估像GPT-3.5、Llama 2和Mistral这样的LLMs准备就绪是至关重要的。我们的研究在ORKG手动筛选的属性与上述最先进LLMs生成的属性之间执行全面的比较分析。原创 2024-05-06 15:05:01 · 1213 阅读 · 0 评论