自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 论文研读: 有效调整大型语言模型提升基础化和引文生成质量

大型语言模型(LLMs)在自然语言理解和生成方面取得了显著进展。然而,在现实世界中广泛应用的一个主要问题是,它们可能会生成非事实的“虚幻”答案。为此,本文重点研究通过检索段落和提供引用来改善LLMs的基础,从而提高其准确性。我们提出了一个新的框架AGREE,即适应增强基础(Adaptation for GRounding EnhancEment),从整体角度改进基础。我们的框架调整了LLMs,使其在响应中自我基础化声明,并为检索到的文档提供准确的引用。

2024-06-16 11:17:44 1976

原创 书生·浦语大模型实战营 第八节课 微调弱智吧(如果AI可以正确回答弱智吧的所有问题,人类在AI眼里都是弱智吧!)

弱智吧的数据如何调教进行微调?

2024-06-11 09:30:00 2096

原创 书生·浦语大模型实战营 第七节课 OpenCompass 大模型评测实战(内容扩展)

基于上海人工智能实验室的大模型开源开放评测体系 “司南” (OpenCompass2.0),相信介绍如何使用,修改,调用,自定义数据集等功能。 包括实现的代码和基础逻辑,适用于初学者自学。

2024-06-10 10:56:30 1914

原创 书生·浦语大模型实战营 第六节课 Lagent & AgentLego 智能体应用搭建

Lagent 是一个轻量级开源智能体框架,旨在让用户可以高效地构建基于大语言模型的智能体。同时它也提供了一些典型工具以增强大语言模型的能力。Arxiv 搜索Bing 地图Google 学术搜索Google 搜索交互式 IPython 解释器IPython 解释器PPTPython 解释器在本节中,我们将基于 Lagent 自定义一个工具。Lagent 中关于工具部分的介绍文档位于动作 — Lagent。

2024-06-08 01:00:37 1010

原创 书生·浦语大模型实战营 第五节课 LMDeploy 量化部署 LLM 实践

我们可以使用KV8量化和W4A16量化。W4A16 量化,将 FP16 的模型权重量化为 INT4,Kernel 计算时,访存量直接降为 FP16 模型的 1/4,大幅降低了访存成本。模型在运行时,占用的显存可大致分为三部分:模型参数本身占用的显存、KV Cache占用的显存,以及中间运算结果占用的显存。TurboMind是LMDeploy团队开发的一款关于LLM推理的高效推理引擎,它的主要功能包括:LLaMa 结构模型的支持,continuous batch 推理模式和可扩展的 KV 缓存管理器。

2024-06-03 20:40:35 1023

原创 书生·浦语大模型实战营 第四节课 XTuner 微调 LLM:1.8B、多模态、Agent

XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。高效支持大语言模型 LLM、多模态图文模型 VLM 的预训练及轻量级微调。XTuner 支持在 8GB 显存下微调 7B 模型,同时也支持多节点跨设备微调更大尺度模型(70B+)。自动分发高性能算子(如 FlashAttention、Triton kernels 等)以加速训练吞吐。兼容DeepSpeed🚀,轻松应用各种 ZeRO 训练优化策略。灵活支持多种大语言模型,包括但不限于InternLMLlama 2ChatGLMQwen。

2024-06-03 03:48:35 717

原创 书生·浦语大模型实战营 第三节课 “茴香豆“:搭建你的 RAG 智能助理

RAG技术(Retrieval Augmented Generation)是一种结合检索和生成功能的自然语言处理(NLP)技术,旨在提高问答和文本生成任务的效果。它通过在大规模语料库中检索与输入问题或需求相关的信息,并结合生成模型对这些信息进行理解和处理,从而生成准确、相关的文本。RAG技术的主要优势包括提高内容准确性和相关性、缓解幻觉问题、加快知识更新速度以及增强内容生成的可追溯性。它在医疗健康、药物研发、市场准入和企业内部知识管理等领域具有广泛的应用前景。

2024-06-01 20:22:47 631

原创 书生·浦语大模型实战营 第二节课 轻松玩转书生·浦语大模型趣味 Demo

InternLM是一个开源的轻量级训练框架,旨在支持大模型训练而无需大量的依赖。通过单一的代码库,它支持在拥有数千个 GPU 的大型集群上进行预训练,并在单个 GPU 上进行微调,同时实现了卓越的性能优化。在 1024 个 GPU 上训练时,InternLM 可以实现近 90% 的加速效率。预训练模型(开源)LagentLagent 是一个轻量级、开源的基于大语言模型的智能体(agent)框架,支持用户快速地将一个大语言模型转变为多种类型的智能体,并提供了一些典型工具为大语言模型赋能。

2024-06-01 00:54:35 860

原创 书生·浦语大模型实战营 第一节课 InternLM2 技术报告

InternLM2 技术报告报告链接读前感:其实很纠结是否要读这份报告, 首先会花费很多时间,其次是个人能力不足会不会有很多专业的内容无法读懂。但最后还是下决心了。虽然很慢也很痛苦,但学习高质量的论文应该是更高效的方式。下面笔记只是论文的结构和基本轮廓,详细内容请各位自行查询。读后感:花了2天时间,借助AI通篇看了一下这篇文章。感觉大部分内容看不懂,具体的技术特性就略过了。收货是对大模型的训练、评估过程有了一个初步的轮廓,建立一个宏观的认知。

2024-05-30 18:10:08 979

原创 Llama3-Tutorial(Llama 3 超级课堂) 学习笔记

Llama3-Tutorial(Llama 3 超级课堂)学习笔记

2024-05-13 00:59:48 1030 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除