AI智能体研发之路-模型篇
文章平均质量分 97
从应用角度出发,汇集模型相关的内容。
LDG_AGI
AIGC元年,再出发。
展开
-
【机器学习】Google开源大模型Gemma2:原理、微调训练及推理部署实战
Gemma 是 Google 推出的轻量级、先进的开放模型系列,采用与 Gemini 模型相同的研究成果和技术构建而成。它们是仅使用解码器的文本到文本大型语言模型(提供英语版本),为预训练变体和指令调整变体具有开放权重。Gemma 模型非常适合各种文本生成任务,包括问题解答、摘要和推理。由于它们相对较小,因此可以将其部署在资源有限的环境(如笔记本电脑、桌面设备或您自己的云基础架构)中,让更多人能够使用先进的 AI 模型,并帮助促进每个人的创新。原创 2024-07-04 22:52:53 · 3069 阅读 · 209 评论 -
【机器学习】FFmpeg+Whisper:二阶段法视频理解(video-to-text)大模型实战
本文在音频转文本的基础上,引入了视频转音频,这样可以采用二阶段法:先提取音频,再音频转文字的方法完成视频内容理解。之后可以配上LLM对视频内提取的文本进行一系列应用。原创 2024-07-01 20:39:26 · 3128 阅读 · 221 评论 -
【机器学习】Whisper:开源语音转文本(speech-to-text)大模型实战
本文是上一篇chatTTS文章的夫妻篇,既然教了大家如何将文本转语音,就一定要教大家如何将语音转成文本,这样技术体系才完整。首先简要概述了Whisper的模型原理,然后基于transformers的pipeline库2行代码实现了Whisper模型推理,希望可以帮助到大家。码字不易,如果喜欢期待您的关注+3连+投票。原创 2024-06-28 18:31:49 · 5353 阅读 · 236 评论 -
【机器学习】ChatTTS:开源文本转语音(text-to-speech)大模型天花板
本文首先以VITS为例,对TTS基本原理进行简要讲解,让大家对TTS模型有基本的认知,其次对ChatTTS模型进行step by step实战教学,个人感觉4万小时语音数据开源版本还是被阉割的很严重,可能担心合规问题吧。其次就是没有特定的角色与种子值对应关系,需要人工去归类,期待更多相关的工作诞生。原创 2024-06-25 01:01:00 · 4741 阅读 · 257 评论 -
【机器学习】GLM-4V:图片识别多模态大模型(MLLs)初探
本文首先在引言中强调了一下OpenAI兼容API的重要性,希望引起读者重视,其次介绍了GLM-4V的原理与模型结构,最后简要讲了下FastAPI以及搭配组件,并基于FastAPI封装了OpenAI兼容API的GLM-4V大模型服务端接口,并给出了客户端实现。本文内容在工作中非常实用,希望大家能有所收获并与我交流。期待您的关注+三连!原创 2024-06-21 01:59:57 · 3206 阅读 · 204 评论 -
【机器学习】阿里Qwen-VL:基于FastAPI私有化部署你的第一个AI多模态大模型
本文首先在引言中强调了一下OpenAI兼容API的重要性,希望引起读者重视,其次介绍了Qwen-VL的原理与模型结构,最后简要讲了下FastAPI以及搭配组件,并基于FastAPI封装了OpenAI兼容API的Qwen-VL大模型服务端接口,并给出了客户端实现。本文内容在工作中非常实用,希望大家能有所收获并与我交流。期待您的关注+三连原创 2024-06-17 23:47:08 · 4925 阅读 · 260 评论 -
【机器学习】Qwen2大模型原理、训练及推理部署实战
本文首先对Qwen2模型概述以及模型架构进行讲解,接着基于llama_factory命令行的方式进行模型训练演示,最后基于hf transformers进行模型推理的讲解。过程中排了好几个坑,呈上的代码保证在国内网络环境下是可运行的。希望能帮助到大家原创 2024-06-10 03:48:14 · 9093 阅读 · 289 评论 -
【机器学习】GLM4-9B-Chat大模型/GLM-4V-9B多模态大模型概述、原理及推理实战
本文首先对GLM4-9B的模型特点及原理进行介绍,接着分别对GLM4-9B-Chat语言大模型和GLM-4V-9B多模态大模型进行代码实践。排了很多坑,推荐阅读和收藏。原创 2024-06-06 22:42:55 · 10916 阅读 · 277 评论 -
【机器学习】Qwen1.5-14B-Chat大模型训练与推理实战
本文首先对Qwen1.5进行了概述,随后结合个人工作简要介绍了模型架构,最后对采用LLaMA-Factory大模型训练框架对Qwen1.5-14B-Chat的微调训练与推理进行测试。小道消息,马上就要正式发布Qwen2了,本博客也会第一时间跟进新版本的变化。原创 2024-06-03 23:46:01 · 5129 阅读 · 282 评论 -
【机器学习】基于YOLOv10实现你的第一个视觉AI大模型
本文首先介绍视觉模型在人工智能领域的位置,其次对原理概念初步进行说明,之后对推理与训练过程进行详细阐述,最后通过一个实战例子,用极少的代码行数将笔记本电脑的摄像头改装为实时视频监控,目标是让读者通过读完此文,快速上手YOLOv10技术进行物体目标检测,原创 2024-05-31 13:15:32 · 6164 阅读 · 242 评论 -
【机器学习】基于tensorflow实现你的第一个DNN网络
本文先对tensorflow深度学习框架历史、特点及安装方法进行介绍,接下来基于tensorflow带读者一步步开发一个简单的三层神经网络程序,最后附可执行的代码供读者进行测试学习。个人感觉tensorflow封装程度高于pytorch,网络结构也更加清晰,但pytorch更加透明。原创 2024-05-29 13:07:10 · 2911 阅读 · 113 评论 -
AI智能体研发之路-模型篇(五):pytorch vs tensorflow框架DNN网络结构源码级对比
两种框架在定义模型结构时思路基本相同,pytorch基于动态图,更加灵活。tensorflow基于静态图,更加稳定。原创 2024-05-27 22:07:45 · 1325 阅读 · 11 评论 -
AI智能体研发之路-模型篇(三):中文大模型开、闭源之争
本文首先对国内中文大模型开闭源情况进行概述,其次区分开源、闭源分析优缺点,最后谈了谈工作中对于开闭源大模型使用的感想。原创 2024-05-26 23:03:40 · 1243 阅读 · 5 评论 -
AI智能体研发之路-模型篇(二):DeepSeek-V2-Chat 训练与推理实战
本文首先针对deepseek-v2-chat这个大模型价格屠夫的模型特点和技术架构进行介绍,之后以LLaMA-factory为训练和推理框架,进行SFT微调训练和Infer推理测试。deepseek-v2-chat巧妙的将attention注意力机制和MoE网络架构与大模型相结合,通过模型算法与架构的升级,提升了推理和训练效率,最终呈现的就是成本的优化和商业市场价值的转化。是一个典型的通过技术创新直接创造商业价值的案例。值得互联网从业人员学习!原创 2024-05-23 18:53:59 · 2780 阅读 · 10 评论 -
AI智能体研发之路-模型篇(一):大模型训练框架LLaMA-Factory在国内网络环境下的安装、部署及使用
本文先对LLaMA-Factory项目进行介绍,之后逐行详细介绍了该项目在国内网络环境下如何安装、部署,最后以Baichuan2-7B为例,通过讲解训练参数的方式详细介绍了基于LLaMA-Factory WebUI的大模型微调训练。篇幅有限,专栏内会持续更新,详细介绍大模型微调训练方法。如果觉得对你有帮助,期待您的关注,点赞、收藏或评论,您的支持是我持续码字的动力。原创 2024-05-14 08:30:00 · 4035 阅读 · 4 评论