- 博客(109)
- 资源 (12)
- 收藏
- 关注
原创 PyTorch实战:LSTM+Attention机制在文本分类中的应用
通过让Q和K中的每一个向量计算相似度,得到不同的权重(相似度越大权重越大),然后给K中的每一个向量加权。现在问题来了,如果要对文本做注意力,文本自身就是K,哪来的Q呢。这里的Q和K就是相同的。你可以这么算,另外一种方法就是《 Hierarchical Attention Networks for Document Classification》提出来的,也是上文我们实现的代码。我们就随机初始化一个Q,把它作为context vector,让它去代表整个句子的语义。然后让它和句子中每个向量相乘,得到权重。
2024-08-02 10:22:14 394
原创 PyTorch实战:BatchNorm1d与BatchNorm2d详解及running_mean、running_var计算
在测试阶段,不用再计算均值方差,则通过net.eval()固定该BN层的running_mean和running_var,此时这两个值即为训练阶段最后一次前向时确定的值,并在整个测试阶段保持不变。对于图像来说(4,3,2,2),一组特征图,一个通道的特征图对应一组参数,即四个参数均为维度为通道数的一维向量,图中gamma、beta参数维度均为[1,3]参数更新是以差分的形式进行的,xt代表新一轮batch产生的数据,x^代表历史数据,这个参数越大,代表当前batch产生的统计数据的重要性越强。
2024-08-02 10:21:42 458
原创 深入探索:GPT系列模型揭秘
un,GPT使用一个语言模型来极大化这个似然函数,这个语言模型是12层的Transformer中Decoder部分堆叠在一起,这个似然函数(第一个式子)就是在这个语言模型下预测第i个词出现的概率,每次拿K(K为滑动窗口)个连续的词来预测K个词后面那个词的概率,然后选取概率最高的,就是下一个词最可能出现的。:在做到下游任务的时候,会用一个叫做zero-shot的设定,zero-shot是说,在做到下游任务的时候,不需要下游任务的任何标注信息,那么也不需要去重新训练已经预训练好的模型。
2024-08-02 10:21:07 412
原创 深入浅出大模型:LangChain详解——打造你的自定义Chain与异步API
要实现自己的自定义链式连接,我们可以子类化Chain""""""@property"""@property"""def _call(self,# 在这里编写你的自定义链逻辑# 下面的示例仅模仿了 LLMChain# 当调用语言模型或其他链时,应该将回调管理器传递给它。# 这样可以让内部运行受到外部运行注册的任何回调的跟踪。# 你可以通过调用 `run_manager.get_child()` 获取回调管理器,如下所示。
2024-07-31 13:15:55 667
原创 大模型驱动的Query改写探索:PRF技术与论文解析
本文介绍了一篇典型的 PRF ()思路的论文,用于利用LLM来做query改写,提升召回率,召回效果。
2024-07-31 13:15:22 379
原创 Windows下使用oobabooga webui部署LLaMA2模型:cpp量化实战
https://github.com/ymcui/Chinese-LLaMA-Alpaca-2](/ “ymcui/Chinese-LLaMA-Alpaca-2: 中文LLaMA-2 & Alpaca-2大模型二期项目 + 16K超长上下文模型 (Chinese LLaMA-2 & Alpaca-2 LLMs, including 16K long context models) (github.com)”)量化完了以后在oobabooga webui里选择模型加载就可以用了。LLaMA2模型用的。
2024-07-31 13:14:39 318
原创 模态对齐新探索:LoRA在MLLM中的应用—— InternLM-XComposer2解析
我们介绍,这是一款先进的,擅长于自由形式的文本-图像组合和理解。该模型超越了传统的视觉语言理解, 巧妙地从各种输入中制作交织的文本-图像内容, 如和,实现了高度可定制的内容创建。InternLM-XComposer2 提出了方法,该方法专门将额外的 LoRA 参数应用于图像 token, 以保持预训练语言知识的完整性,找到了精确的视觉理解和具有文学才能的文本组合之间的平衡。
2024-07-30 08:38:52 311
原创 DINOv2深度学习:10亿参数的Transformer模型,自监督图像分割与多任务应用
在 AI 大模型竞赛中,Meta 选择重押视觉模型,并在推出零样本分割一切的 SAM 后,扎克伯格亲自官宣了重量级开源项目 DINOv2。据了解,DINOv2 是计算机视觉领域的预训练大模型,拥有 10 亿级参数量,采用 Transformer 架构,可在语义分割、图像检索和深度估计等方面实现自监督训练。无需微调,即可应用于多种下游任务,从而改善医学成像、粮食作物生长、地图绘制等领域。我们想象一下,你拿一张照片给它看,它能够告诉你这是一只猫、一辆车、一个人或者其他东西,而且能够非常准确地判断。
2024-07-30 08:38:08 551
原创 PyTorch模型转换实战:从.pth到.onnx再到TensorRT高效引擎
【代码】PyTorch模型转换实战:从.pth到.onnx再到TensorRT高效引擎。
2024-07-30 08:37:34 425
原创 使用VLLM库轻松调用大型模型实战指南
vllm 这个库目前只能在 linux 上用, win 是用不了的,pip 安装不了,这里弄了一个调用示例代码。
2024-07-28 22:21:51 546
原创 深入浅出GBDT:二分类算法原理解析
上一篇文章讲了GBDT的回归篇,其实这一篇文章的原理的思想基本与回归相同,不同之处在于分类任务需用的损失函数一般为logloss、指数损失函数。回顾下logistic regression有助于我们进一步的了解GBDT是如何进行分类的,线性模型是我们使用最简单的模型,但却蕴涵着机器学习中一些重要的基本思想,我们把线性回归模型简写为:考虑二分类任务,其输出标记为,而线性回归模型产生的预测值是实值,于是,我们需要将实值转换成的值,单位阶跃函数不连续,因此我们希望找到能在一定程度上近似单位阶跃函数
2024-07-28 22:21:09 243
原创 预训练模型加速秘籍:探索Megatron-LM、Colossal-AI与DeepSpeed等框架
PTM:大模型加速方法或框架(预训练阶段/推理阶段)的简介、常用框架(Megatron-LM/Colossal-AI/DeepSpeed等,FasterTransformer/FastLLM/vLLM/TurboTransformers等)、案例应用之详细攻略。:不同训练框架实现参数高效微调算法的效率会存在很大差异:比如使用Huggingface Transformers、DeepSpeed和Alpa训练名为"OPT-30"的模型。相对于使用Alpa框架,使用Huggingface。
2024-07-28 22:20:37 510
原创 基于GPT、GLM的大模型应用实战:单文档对话探索
gradio提供了很多Web页面组件,方便快速将开发的AI应用进行简单部署与分享,整个页面的代码如下所示,最后通过访问http:localhost:7860可以访问该页面,也可以将demo.launch()show_api和share设置为True,然后会生成相关网页链接,别人可以访问这个应用。temperature为生成结果的随机性,范围是(0-2),其中0为生成确定结果,temperature值越高,表示生成结果越随机。4.根据语义相似性进行数据库检索。2.导入文档并进行文档分割。
2024-07-26 20:05:20 343
原创 大模型时代:Prompt技术深度解析与实战探索
Prompt是一种基于自然语言处理的交互方式,它通过机器对自然语言的解析,实现用户与机器之间的沟通。Prompt主要实现方式是通过建立相应的语料库和语义解析模型,来将自然语言转换为机器可识别的指令。Prompt是一种计算机编程语言,它被广泛用于自然语言处理(NLP)和人工智能(AI)领域。在NLP中,Prompt通常用于生成文本,例如对话系统、机器翻译和文本摘要等应用。在AI中,Prompt则用于训练模型,以使其能够理解和生成人类语言。
2024-07-26 20:04:48 355
原创 CLIP驱动:DALL-E 2的文本到图像生成新境界
类似CLIP的对比模型已经被证明可以学习图像语义和风格稳健的图像表征。给定文本标题生成CLIP图像embedding。2.decoder:以图像embedding为条件生成图像。作者表明,明确地生成图像表征提高了图像的多样性,在逼真度和标题的相似度方面损失最小。作者以图像表征为条件的解码器也能产生图像的变化,保留其语义和风格,同时改变图像表征中不存在的非必要细节。此外,CLIP的联合嵌入空间使语言指导下的图像操作能够以zreo-shot的方式进行。
2024-07-26 20:04:16 382
原创 大模型巅峰对决:LLaMA、Baichuan、ChatGLM、Qwen与天工全面对比分析
llama2-chat使用3w条高质量SFT数据,更小学习率,2epoch,user_prompt不计算loss。相比llama1,数据增加40%,长度增加一倍,使用了group-query attention。训练中logits值偏大,在推理时,对重复惩罚参数比较。损失使用的是binary ranking loss,使用了margin进一步优化。llama2-chat是在llama2基础版本的基础上使用有监督微调和RLHF。支持UTF-8 character的byte编码,对未知词全覆盖。
2024-07-25 22:26:59 1559
原创 深度学习框架大比拼:TensorFlow与PyTorch模型加载实战
HDF5结构:File - Group - DataSet。:在不同TF版本之间载入模型,也可以调用该方法。
2024-07-25 22:26:25 268
原创 高效迁移利器:MSAdapter——PyTorch到MindSpore的无缝对接
为匹配用户习惯,MSAdapter设计目的是在用户不感知的情况下,能适配PyTorch代码运行在昇腾(Ascend)设备上。MSAdapter以PyTorch的接口为标准,为用户提供一套和PyTorch一样(接口和功能完全一致)的中高阶模型构建接口和数据处理接口。它能帮助用户高效使用中国算力网——智算网络的昇腾算力,且在不改变原有PyTorch用户使用习惯下,将代码快速迁移到MindSpore生态上。MSAdapter已在OpenI启智社区开源,社区为大家提供了普惠NPU算力资源,欢迎大家使用。
2024-07-24 22:05:24 870
原创 动手实践:Llama2本地部署,打造个人版GPT4替代方案
llama2 是Meta公司发布的大预言模型,而且是一款开源免费的AI模型。光开源这个格局就吊打了GPT。从性能上来说更是号称是GPT4的平替。2 本地mac环境部署llama2。llama2-chat体验网址。llama2官方网址。
2024-07-24 22:04:51 220
原创 PyTorch中如何在本地加载Roberta模型:Transformers实战指南
所需的有 config.json, merges.txt, pytorch_model.bin(下载后重命名), vocab.json。不同版本的transformers里import的用法可能不同,所以强调了版本,Roberta模型没有token_type_ids,也就是segment_ids。本地加载roberta-base模型文件,roberta-large同理,只不过hidden_size从768变为1024,此处transformers版本是2.11.0,Roberta 的则是。
2024-07-21 21:30:41 855
原创 PyTorch实战:深度解析Tensor归一化技巧与应用
在机器学习中,我们的数据通常都需要进行归一化。这是因为不同特征的数据值之间可能存在明显的偏差,从而会影响到模型的效果和准确度,同时也会提高模型的训练难度。在机器学习和深度学习中,数据预处理是一个关键的步骤。其中,对于某些情况下,特别是生产的环境,数据归一化是一项必不可少的任务。在 PyTorch 中,对于 Tensor 的归一化,它提供了一些内置的函数。一些常用的归一化方法包括:标准化、最大最小归一化和稀疏特征归一化等,下面将会逐一介绍。将每个特征的数值转换成标准正态分布,即均值为 0,方差为 1。
2024-07-21 21:30:08 563
原创 探索前沿:OOTDiffusion虚拟试穿技术与Groq超速大模型解析
Cosmopedia有8个子集,根据用于提示的种子样本的来源而划分。对于主题聚类,他们首先从网络数据集中聚类了数百万个文件,然后用这些样本的提取内容提示Mixtral 8x7B,并要求它找到它们共同的主题并为该主题提供教育得分。OOTDiffusion是一种基于潜在扩散的虚拟试穿技术,其主要目的是通过实现控制性的换装融合,让用户能够在虚拟环境中试穿不同的服装。SoraWebui是一个开源项目,它的主要功能是利用OpenAI开发的Sora模型,通过文本输入在线生成视频,非常简便易用,还支持一键式网站部署。
2024-07-21 21:29:35 290
原创 Python+Django+DRF+Vue:构建测试平台实战——第2步,集成DRF框架
ALLOWED_HOSTS是一个字符串列表,代表了这个Django网站可以服务的主机名或域名,填写上“*”可以使所有的网址都能访问Django项目了,项目测试的时候,可以这么做。把templates文件夹删除掉,db.sqlite3文件删除掉。②. ALLOWED_HOSTS默认值:[](空列表)将sqlite3数据文件形式修改为mysql。就此 DRF框架和Django集成完毕。就此 DRF框架和Django集成完毕。这个时候启动会报一个错误如下图。⑤. 配置drf相关包。
2024-07-16 09:01:28 345
原创 TensorFlow2实战:一步步构建Sequential模型
激活函数可选配置: softmax、elu、softplus、softsign、relu、tanh、sigmoid、hard_sigmoid、linear。#常数:zero、zeros(默认偏置项配置)、Zeros、one、ones、Ones、constant、Constant。#均匀分布:uniform、random_uniform、RandomUniform。#正态分布:normal、random_normal、RandomNormal。#正交:orthogonal、Orthogonal。
2024-07-16 09:00:54 371
原创 PyTorch模型可视化实战:理解与调试神经网络
pytorch的模型结构可视化方法:(1)使用tensorboardX(不太直观)(2)使用graphviz加上torchviz (依赖于graphviz和GitHub第三方库torchviz)(3)使用微软的tensorwatch (只能在jupyter notebook中使用,个人最喜欢这种方式)(4)使用netron可视化工具(.pt 或者是 .pth 文件)
2024-07-16 09:00:22 327
原创 PyTorch实战:模型训练学习率动态调整策略
在rel模式下,如果mode参数为max,则动态阈值(dynamic_threshold)为best*(1+threshold),如果mode参数为min,则动态阈值为best+threshold,如果mode参数为min,则动态阈值为best-threshold;因此,我们引入学习率衰减的概念,就是在模型训练初期,使用较大的学习率进行优化,随着迭代次数增加,学习率会逐渐进行减小,保证模型在训练后期不会有太大的波动,从而更加接近最优解,那么,在pytorch中,学习率衰减应该如何实现?
2024-07-16 08:51:13 575
原创 Tensorflow2.x实战:一步步教你玩转GPT模型
TensorFlow2.x 是目前最流行的机器学习和深度学习框架之一,对 GPT 模型的支持度也非常高。在本篇文章中,我们将详细介绍如何使用 Tensorflow2.x 构建并使用 GPT 模型。首先,我们需要安装 Tensorflow2.x 和 Transformers 库(该库是一个用于构建和使用自然语言处理模型的 Python 库)。在安装完成 Tensorflow2.x 和 Transformers 库之后,我们需要配置 GPT 模型的参数。您可以在 Anaconda 或 pip 中安装这两个库。
2024-07-16 08:50:42 264
原创 深入剖析Word2vec:Skip-Gram模型揭秘(结构篇)
Word2Vec是从大量文本语料中以无监督的方式学习语义知识的一种模型,它被大量地用在自然语言处理(NLP)中。那么它是如何帮助我们做自然语言处理呢?Word2Vec其实就是通过学习文本来用词向量的方式表征词的语义信息,即通过一个嵌入空间使得语义上相似的单词在该空间内距离很近。Embedding其实就是一个映射,将单词从原先所属的空间映射到新的多维空间中,也就是把原先词所在空间嵌入到一个新的空间中去。
2024-07-16 08:50:09 431
原创 2023年人工智能大模型:产业创新与价值深度探索.pdf【独家下载】
(到省时查报告小程序中搜索“ChatGPT”、“AIGC”、“大模型”、“人工智能”、“AI”、“元宇宙”、“数字人”、“人工智能”、“数字经济”、“增长”、“营销”、“运营”、“创业”、“商业”等关键词可以下载海量相关干货资料)更多细节和相关资料请到小程序省时查报告中查看全文并下载(可以搜索“推荐”获取更多推荐相关资料文档)。今天给大家分享速途网和大模型之家联合发布的干货报告《2023人工智能大模型产业创新价值研究报告.pdf》,关注大模型、AIGC、省时查报告-专业、及时、全面的行研报告库。
2024-07-13 21:35:01 338
原创 DALL·E 2 深度解析:预训练CLIP与扩散模型打造文本到图像生成术
最终训练好的prior,将与CLIP的text encoder串联起来,它们可以根据我们的输入文本y生成对应的图像编码特征zi了。我们这事丢掉CLIP中的img encoder,留下CLIP中的text encoder,以及新训练好的prior和decoder。并且decoder的重建过程也经常混淆属性和物体,如下图所示,例如中间的柯基图片,有的重建结果将其帽子和领结的颜色搞反了。DALL·E 2是将其子模块分开训练的,最后将这些训练好的子模块拼接在一起,最后实现由文本生成图像的功能。
2024-07-13 21:34:29 1081
原创 实战智谱AI:CharacterGLM操作指南
通过代码包中api文件,调用get_characterglm_response实现多轮对话,并在output_stream_response中实现保存对话至文件的功能,这里我们指定为json文件格式。1.基于一段文本(自己找一段文本,复制到提示词就可以了,比如你可以从小说中选取一部分文本,注意文本要用markdown格式)生成角色人设,可借助ChatGLM实现。4.(可选)设计图形界面,通过点击图形界面上的按钮执行对话数据生成,并展示对话数据。然后我们利用简单的示例进行测试,可以看出生成了不同风格的图片。
2024-07-13 21:33:56 300
原创 Transformer模型解析:走进自然语言处理的新时代
大家好!我是麦克船长,目前就职于阿里巴巴集团,任总监/资深综合运营专家,先后负责过淘宝行业产品团队、天天特卖、大聚划算运营中心。网名一直用「麦克船长」,中科大计算机本科毕业后先是做的音视频流媒体技术、分布式系统等等,干过 Full Stack,后来创业在技术、产品、运营、营销、供应链等等方面多年后来到阿里,在淘系带过不同业务的产品、运营团队。文本来自我的个人博客:MikeCaptain - 麦克船长的技术、产品与商业博客,梳理了自己在春节期间对 NLP 基础模型的技术演变学习笔记记录,写就于大年初一在香
2024-07-10 22:36:19 889 1
原创 使用AutoGPT构建智能体:从LSTM到Prompt编写实战教程001
如果报错,这里会有一个环境变量的设置需要设置上.然后这一节我们来自己制作一个智能体,来感受一下,实际上现在,大模型还是可以做很多功能的.可以看到上面是智能体的架构,之前也说过了,上面这几个功能,如果用我们人类去操作,还是需要花些时间的,如果用大模型就快很多了.以上是我们利用的三个文件,然后下面是我们用到的表格这两个excel文件。
2024-07-10 22:35:46 354
原创 PyTorch实战:利用matplotlib可视化模型内部Tensor
由于原本的tensor是4维的,所以需要将tensor压缩到3维(压缩掉只有一个参数的channel),使用的函数是squeeze,删除size=1的维度,详细用法可见https://pytorch.org/docs/stable/generated/torch.squeeze.html)。这里注意如果batch为1会把batch也压缩掉,下一不就不需要for直接imshow就可以。该可视化的假设是,tensor原本是四维,一个是channel一个是batch还有俩feature维度。
2024-07-10 22:35:13 331
原创 使用ChatGPT提升Python PyEcharts雷达图绘制技巧
雷达图是一种常用的数据可视化工具,通常用于比较量度数据之间的关系。雷达图通常由一组放射线、每个放射线的数据系列和一个共同中心点组成。最终,雷达图将数据表示为每个数据系列的分数或度数。Pyecharts雷达图是一种基于Python的工具,提供了创建雷达图的简单方法。它使用星形图形式来表示有关单个主题的不同数据点及其排名。
2024-07-08 08:24:10 312
原创 实战篇:逐步揭秘大模型应用开发——第二章 API调用指南
学习了国内外不同的大模型API的调用方式,同时基于Poe聊天界面开发一个小的爬虫问答应用,但是Poe的聊天界面也有轮次限制,基于爬虫的方式是高度定制的,针对每个聊天窗口是不太现实的,但是最起码可以自动化问答了,有助于利用大模型进行预测任务的完成。
2024-07-08 08:23:38 1892
原创 TensorFlow 2.0 模型保存与转换:.pb格式详解
tensorflow原生保存的模型不适用于多平台使用,将模型转化为.pb格式,可以更加方便的转化为别的格式,本文主要介绍如何转化.pb格式。这种方式是训练完,然后使用tf.saved_model.save()函数保存模型,然后将模型转化为.pb格式.这种方式的好处是可以将别人训练好的.h5模型文件拿来转.pb模型。测试转化的.pb模型是否转化成功,能否加载。
2024-07-08 08:22:55 928 1
原创 PyTorch模型权重初始化全攻略
Pytroch常见的模型参数初始化方法有apply和model.modules()。Pytroch会自动给模型进行初始化,当需要自己定义模型初始化时才需要这两个方法。
2024-07-08 08:04:43 508
基于ssm框架+微信小程序的会议发布与预约系统项目源码
2024-06-24
使用numpy从零搭建深度神经网络(DNN)
2024-06-23
Python爬虫获取小说信息(带实验报告)
2024-06-23
基于C#的可视化银行家算法
2024-06-22
基于scikit-learn SVM算法实现对新闻的文本分类
2024-06-22
基于ssm框架+微信小程序的汽车预约维修系统项目源码
2024-06-21
基于ssm框架+微信小程序的餐具销售系统项目源码
2024-06-21
基于ssm框架+微信小程序的计算机实验室排课与查询系统项目源码
2024-06-21
基于ssm框架+微信小程序的电影院订票选座系统项目源码
2024-06-20
基于ssm框架+微信小程序的小区租拼车管理信息系统项目源码
2024-06-20
基于ssm框架+微信小程序的家政平台项目源码
2024-06-20
基于ssm框架+微信小程序的大学生闲置物品交易平台项目源码
2024-06-19
基于ssm框架+微信小程序的考研论坛项目源码
2024-06-19
基于springboot框架+微信小程序的社区医院宣传系统项目源码
2024-06-19
基于ssm框架+微信小程序的健身房私教预约系统项目源码
2024-06-18
基于ssm框架+微信小程序的互助学习小程序的设计与实现项目源码
2024-06-18
基于ssm框架+微信小程序的考试系统项目源码
2024-06-18
基于ssm框架+微信小程序的在线投稿系统项目源码
2024-06-15
基于ssm框架+微信小程序的智能社区服务项目源码
2024-06-15
基于ssm框架+微信小程序的马拉松报名系统项目源码
2024-06-15
基于ssmpf框架+微信小程序的二手闲置交易平台项目源码
2024-07-26
基于ssm框架+微信小程序的农场驿站平台项目源码
2024-07-26
基于ssm框架+微信小程序的体育资讯平台项目源码
2024-07-26
基于ssm框架+微信小程序的校园综合服务平台项目源码
2024-07-16
基于ssm框架+微信小程序的校车购票系统项目源码
2024-07-16
基于ssm框架+微信小程序的社区养老服务项目源码
2024-07-16
基于ssm框架+微信小程序的影院选座系统项目源码
2024-07-02
基于ssm框架+微信小程序的警务辅助人员管理系统项目源码
2024-07-02
基于ssm框架+微信小程序的大学生心理健康服务项目源码
2024-07-02
基于ssm框架+微信小程序的体育报名系统项目源码
2024-07-01
基于ssm框架+微信小程序的跑腿预约平台项目源码
2024-07-01
基于ssm框架+微信小程序的远程在线诊疗系统项目源码
2024-07-01
基于ssm框架+微信小程序的培训咨询平台项目源码
2024-06-26
基于ssm框架+微信小程序的网上商城项目源码
2024-06-26
基于ssm框架+微信小程序的学生知识成果展示与交流平台项目源码
2024-06-26
基于ssm框架+微信小程序的停车场系统项目源码
2024-06-25
基于ssm框架+微信小程序的生鲜云订单零售系统项目源码
2024-06-25
基于ssm框架+微信小程序的家政服务管理系统项目源码
2024-06-25
基于springboot框架+微信小程序的预防接种预约系统项目源码
2024-06-24
基于ssm框架+微信小程序的旅游平台开发项目源码
2024-06-24
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人