自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(38)
  • 收藏
  • 关注

原创 书生·浦语大模型实战营(第二期):OpenCompass司南大模型评测实战

上海人工智能实验室科学家团队正式发布了大模型开源开放评测体系 “司南” (OpenCompass2.0),用于为大语言模型、多模态模型等提供一站式评测服务。开源可复现:提供公平、公开、可复现的大模型评测方案全面的能力维度:五大维度设计,提供 70+ 个数据集约 40 万题的的模型评测方案,全面评估模型能力丰富的模型支持:已支持 20+ HuggingFace 及 API 模型分布式高效评测:一行命令实现任务分割和分布式评测,数小时即可完成千亿模型全量评测。

2024-04-23 16:10:34 561

原创 书生·浦语大模型实战营(第二期):LMDeploy量化部署

LMDeploy由MMDeploy和MMRazor团队联合开发,是涵盖了LLM任务的全套轻量化、部署和服务解决方案。核心功能包括高效推理、可靠量化、便捷服务和有状态推理高效的推理:LMDeploy开发了Continuous Batch,Blocked K/V Cache,动态拆分和融合,张量并行,高效的计算Kernel等重要特性。IntenLM2推理性能是vLLM的1.8倍可靠的量化:LMDeploy支持权重量化和k/v量化。4bit模型推理效率是FP16下的2.4倍。

2024-04-22 15:30:51 594

原创 书生·浦语大模型实战营(第二期):Lagent&AgentLego智能体应用搭建

可以感知环境中的动态条件能采取动作影响环境能运用推理能力理解信息、解决问题、产生推断、决定动作。

2024-04-22 13:00:30 811

原创 书生·浦语大模型实战营(第二期):XTuner 微调 LLM

增量预训练微调指令跟随微调傻瓜化:以配置文件的形式封装了大部分微调场景,0基础的非专业人员也能一键开始微调轻量级:对于7B参数量的LLM,微调所需的最小显存仅为8GB# 激活环境# 进入家目录 (~的意思是 “当前用户的home路径”)cd ~# 创建版本文件夹并进入,以跟随本教程# 拉取 0.1.17 的版本源码# 无法访问github的用户请从 gitee 拉取:# 进入源码目录# 从源码安装 XTuner。

2024-04-19 14:11:42 1004

原创 书生·浦语大模型实战营(第二期):茴香豆,搭建你的RAG智能助手

嵌入优化和索引优化均是提高向量数据库的质量查询优化和上下文管理始于Advanced RAG中的前检索和后检索部分。其中上下文管理可以使用小一点的语言模型来检测和筛选出不必要的标记,例如信息提取器和信息压缩器主要分为三个重要的部分预处理将用户的输入筛选转换为合适的问询拒答工作流根据问询和数据库示例问题的比较,给出相关性得分,根据得分判断是否进入应答工作流应答工作流。

2024-04-10 13:50:49 817

原创 书生·浦语大模型实战营(第二期):书生·浦语大模型趣味Demo

Lagent 是一个轻量级、开源的基于大语言模型的智能体(agent)框架,支持用户快速地将一个大语言模型转变为多种类型的智能体,并提供了一些典型工具为大语言模型赋能。八戒-Chat-1.8B:https://www.modelscope.cn/models/JimmyMa99/BaJie-Chat-mini/summary。待程序运行的同时,对端口环境配置本地 PowerShell。下载完后的文件会在root用户下的。

2024-04-03 20:04:17 787

原创 书生·浦语大模型实战营(第二期):书生·浦语大模型全链路开源体系

非常开心能够参加到第二期的书生·浦语大模型实战营,经过第一期的学习,初步了解了如何使用xtuner对模型进行微调,以及如何部署。遗憾的是没有更加深入学习并实现一个项目,此次学习过程中希望可以更进一步。

2024-03-29 12:37:22 187

原创 书生·浦语大模型实战营:基于InternLM2-chat-7B微调一个Text-to-SQL领域模型

目录训练阶段训练平台配置环境数据集模型下载微调将得到的PTH模型转换为HuggingFace模型,即:生成Adapter文件将HuggingFace Adapter合并到基座模型使用Xtuner chat进行验证在参加完书生·浦语大模型实战营后,我打算微调一个Text-to-SQL领域的垂直模型。选择上海人工智能实验室推出的InternLM2-chat-7B模型作为基座模型进行增量训练。训练阶段训练平台AutoDL平台、RTX 4090(24G)、Ubuntu22.04、CUDA 12.1配置环境

2024-03-14 21:52:24 570

原创 书生·浦语大模型实战营:5.LMDeploy 大模型量化部署实践

clone开发机上准备好的环境手动安装lmdeploy# 由于默认安装的是 runtime 依赖包,但是我们这里还需要部署和量化,所以,这里选择 [all]

2024-01-22 19:37:47 961

原创 书生·浦语大模型实战营:6.OpenCompass大模型评测

模型层:大模型评测所涉及的主要模型种类,OpenCompass以基座模型和对话模型作为重点评测对象。能力层:OpenCompass从本方案从通用能力和特色能力两个方面来进行评测维度设计。在模型通用能力方面,从语言、知识、理解、推理、安全等多个能力维度进行评测。在特色能力方面,从长文本、代码、工具、知识增强等维度进行评测。方法层:OpenCompass采用客观评测与主观评测两种评测方式。

2024-01-22 18:56:09 862

原创 书生·浦语大模型实战营:4.XTuner大模型单卡低成本微调实战

构建数据集,使用 XTuner 微调 InternLM-Chat-7B 模型, 让模型学习到它是你的智能小助手,效果如下图所示,本作业训练出来的模型的输出需要将不要葱姜蒜大佬替换成自己名字或昵称!微调前(回答比较官方)微调后(对自己的身份有了清晰的认知)以数据集为例原格式:(.xlsx)(问题 药物类型 问题类型 回答 主题 URL)此时,我们重新建一个文件夹来玩“微调自定义数据集”把前面下载好的internlm-chat-7b模型文件夹拷贝过来。

2024-01-17 14:50:07 925

原创 书生·浦语大模型实战营:3.基于InternLM和LangChain搭建你的知识库

复现课程知识库助手搭建过程 (截图)选择一个垂直领域,收集该领域的专业资料构建专业知识库,并搭建专业问答助手,并在 OpenXLab 上成功部署(截图,并提供应用地址)环境配置,模型,代码下载同书生·浦语大模型实战营:2.轻松玩转书生·浦语大模型趣味 DemoLangChain相关环境配置同时,需要使用到开源词向量模型:(我们也可以选用别的开源词向量模型来进行 Embedding,目前选用这个模型是相对轻量、支持中文且效果较好的)首先需要使用 huggingface 官方提供的 huggingface

2024-01-10 21:15:20 837

原创 书生·浦语大模型实战营:2.轻松玩转书生·浦语大模型趣味 Demo

由于服务器通常只暴露了用于安全远程登录的 SSH(Secure Shell)端口,如果需要访问服务器上运行的其他服务(如 web 应用)的特定端口,需要一种特殊的设置。我们可以通过使用SSH隧道的方法,将服务器上的这些特定端口映射到本地计算机的端口。由于代码修改的地方比较多,大家直接将 /root/code/lagent/examples/react_web_demo.py 内容替换为以下代码。步骤⑥:在本地终端输入以下指令 .6006 是在服务器中打开的端口,而 33090 是根据开发机的端口进行更改。

2024-01-07 16:46:45 881

原创 书生·浦语大模型实战营:1.书生·浦语大模型全链路开源体系

其中7B、20B都是开源的,免费商用的。从专用模型到通用大模型。

2024-01-04 16:53:43 582

原创 Datawhale--AI夏令营学习笔记(三)--NLP方向

keyBert,关键词提取

2023-07-30 21:50:55 181

原创 Datawhale--AI夏令营学习笔记(二)--NLP方向

Bert文本二分类,CountVectorizer,TfidfVectorizer

2023-07-24 19:42:58 141

原创 Datawhale--AI夏令营学习笔记(一)--NLP方向

文本分类算法赛

2023-07-22 17:58:42 126

原创 go-python3初体验

go-python3

2023-04-27 14:29:04 402 1

原创 PyTorch编程基础07--处理数据集的接口与使用

处理数据集的接口与使用

2023-03-12 14:44:13 225

原创 PyTorch编程基础06--训练模型的接口与使用

训练模型的接口与使用

2023-03-11 14:19:07 463 1

原创 PyTorch编程基础05--保存与载入模型的常用方法

保存模型,载入模型

2023-03-08 20:15:16 554

原创 PyTorch编程基础04--定义模型结构的常用方法

Module类是所有模型的基类。

2023-03-08 19:49:03 176

原创 PyTorch编程基础03--用PyTorch实现一个简单模型

一个简单的PyTorch模型

2023-03-05 17:42:01 426

原创 PyTorch编程基础02--Variable类型和自动微分模块

Variable类型是PyTorch中的另一个变量模型。它是由Autograd模块对张量进一步封装实现的。一旦张量(Tensor)被转换成Variable对象,便可以实现自动求导功能。自动微分(Autograd)模块是构成神经网络训练的必要模块。在神经网络的反向传播过程中,Autograd模块基于正向计算的结果对当前参数进行微分计算,从而实现网络权重的更新。

2023-03-04 12:54:53 301

原创 PyTorch编程基础01--PyTorch中的张量

PyTorch是一个Python包,用于将数据封装成张量(Tensor)来进行运算。张量是向量和矩阵的推广。PyTorch中的张量就是元素为同一种数据类型的多维矩阵。

2023-03-01 21:00:06 153

原创 NLP自然语言处理实战(四):词向量推理(Word2vec)

Word2vec

2023-02-28 18:46:16 452

原创 NLP自然语言处理实战(三):词频背后的语义--5.距离和相似度&反馈及改进

距离、相似度、LDA

2022-10-21 16:09:42 469

原创 NLP自然语言处理实战(三):词频背后的语义--4.隐性狄利克雷分布(LDiA)

LDiA

2022-10-21 12:27:51 379

原创 NLP自然语言处理实战(三):词频背后的语义--3.主成分分析

PCA

2022-10-20 15:23:39 629

原创 NLP自然语言处理实战(三):词频背后的语义--2.隐性语义分析及奇异值分解

LSA,SVD

2022-10-16 11:15:22 662

原创 NLP自然语言处理实战(三):词频背后的语义--1.从词频到主题得分

semantic parsing、TF-IDF、topic vector、LDA

2022-10-14 17:04:11 628

原创 NLP自然语言处理实战(二):词中的数学

向量化、余弦相似度、齐普夫定律、TF-IDF

2022-10-09 19:57:34 602

原创 NLP自然语言处理实战(一):利用分词器构建词汇表

在NLP中,分词(tokenization,也称分词)是一种特殊的文档切分(segmentation)过程。而文档切分能够将文本拆分成更小的文本块或片段,其中含有更集中的信息内容。文档切分可以是将文档分成段落,将段落分成句子,将句子分成短语,或将短语分成词条(通常是词)和标点符号。

2022-09-27 14:56:02 2374

原创 re正则表达式

正则表达式,python,re

2022-09-24 16:14:01 480

原创 数据挖掘--地区温度预测

数据挖掘,地区温度预测

2022-09-23 12:39:34 2348 2

原创 Spark3.0 Windows模式环境

在初学Spark时,启动虚拟机,配置集群非常麻烦,而且对硬件要求较高,占用大量的系统资源。于是我们可以采用Spark提供的在Windows系统下启动本地集群的方式。

2022-09-22 12:28:38 1008

原创 数据挖掘--糖尿病遗传风险检测

数据挖掘--糖尿病遗传风险检测

2022-07-27 22:29:58 3330 2

原创 Matplotlib的颜色

Matplotlib的颜色。

2022-07-23 10:29:12 1413 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除