AI技术总览
文章平均质量分 91
夏沫の梦
人生苦短,我学GoLang
展开
-
watermark大模型水印详解
模型水印是一种用于模型版权保护的技术,通过向大模型植入水印(触发集数据加上特定的噪声或者标志),使得模型学习到这种特定的噪声或者标志的特征,通过特定的问题可以从大模型的回答中提取出水印进行验证。主要目的是保护模型的知识产权,防止未经授权的复制和使用。水印可以在模型的训练过程中嵌入,也可以在模型的推理过程中检测。原创 2024-11-11 10:44:22 · 821 阅读 · 0 评论 -
Checkpoint断点续训详解
模型在训练过程中的中间状态和结果,是大语言模型在训练过程中进行容错的一种关键技术,通过将中间状态和结果作为checkpoint保存到持久化存储,在训练任务由于异常失败时,可以从checkpoint中恢复训练中间状态继续训练,Checkpoint 的主要目的是防止训练过程中因意外中断而导致的训练进度丢失,并提供模型的不同版本以便于选择最佳模型。断点续训的基本原理是定期保存模型的状态(即检查点),包括模型的权重、优化器的状态、当前的训练轮数等信息。原创 2024-11-11 10:40:27 · 557 阅读 · 0 评论 -
quantize模型量化详解
模型量化,又称为模型压缩,是指以较低的推理精度损失将连续取值(通常为float32或者大量可能的离散值)的浮点型权重近似为有限多个离散值(通常为int8或int4)的过程。通过以更少的位数表示浮点数据,模型量化可以减少模型尺寸,进而减少在推理时的内存消耗,并且在一些低精度运算较快的处理器上可以增加推理速度。模型结构设计上,不要限制激活值的范围。(比如relu比relu6好)权衡好量化位宽。原创 2024-11-11 10:39:28 · 903 阅读 · 0 评论 -
DeepSpeed模型训练加速详解
DeepSpeed是一个由微软开发的开源深度学习优化库,基于pytorch构建,旨在提高大规模模型训练的效率和可扩展性。它通过多种技术手段来加速训练,包括模型并行化、梯度累积、动态精度缩放、本地模式混合精度等。DeepSpeed还提供了一些辅助工具,如分布式训练管理、内存优化和模型压缩等,以帮助开发者更好地管理和优化大规模深度学习训练任务。原创 2024-11-11 10:38:50 · 640 阅读 · 0 评论 -
Seldon Core大模型部署详解
Seldon Core 目前是机器学习模型部署领域最受欢迎的方案之一,由 Seldon 公司开源和维护,旨在为不同框架下训练出来的模型(Tensorflow,Pytorch,SKLearn,XGBoost)提供一套相对统一的部署方式,支持多种不同类型模型的Inference Server。seldoncore将ML模型(Tensorflow、Pytorch、H2o等)或语言包装器(Python、Java等)转换为生产REST/GRPC微服务。原创 2024-11-11 10:37:27 · 992 阅读 · 0 评论 -
LoRA详解
Low-RankAdaption of Large Language Models,大语言模型的低秩适应,是一种PEFT(参数高效性微调方法),其核心思想是对大型模型的权重矩阵进行隐式的低秩转换,LoRA 主要应用于自然语言处理(NLP)和计算机视觉(CV)等领域。原创 2024-10-09 15:03:24 · 1076 阅读 · 0 评论 -
ChatGLM详解
ChatGLM是由清华技术成果转化的公司智谱AI发布的开源的、支持中英双语问答的对话语言模型系列,并针对中文进行了优化,该模型基于General Language Model(GLM)架构构建,ChatGLM是一款基于人工智能技术的智能聊天机器人,它具备强大的自然语言处理能力,能够理解和回答我们的问题,通过与ChatGLM的对话,我们可以轻松获取各种信息,解决生活中的疑惑,甚至寻求专业建议,ChatGLM的出现,让我们在获取信息、解决问题上更加高效便捷。原创 2024-10-09 15:01:46 · 1021 阅读 · 0 评论 -
LLaMA详解
Large Language Model Meta AI,由Meta AI公司于2023年2月发布的开放且高效的大型基础语言模型系列,共有7B、13B、33B、65B四种版本,旨在推动自然语言处理(NLP)领域的发展,提供高效、强大的语言理解和生成能力。原创 2024-10-09 15:00:16 · 1097 阅读 · 0 评论 -
LLM详解
Large Language Model,称大规模语言模型或者大型语言模型,是一种基于大量数据训练的统计语言模型,可用于生成和翻译文本和其他内容,以及执行其他自然语言处理任务(NLP),通常基于深度神经网络构建,包含数百亿以上参数,使用自监督学习方法通过大量无标注文本进行训练。例如国外的有GPT-3、GPT-4、PaLM、Galactica和LLaMA等,国内的有ChatGLM、文心一言、通义千问、讯飞星火等。原创 2024-10-09 14:58:58 · 884 阅读 · 0 评论 -
AI技术总览
人工智能技术已经成为现代科技发展的重要驱动力,广泛应用于自然语言处理、计算机视觉、语音识别、自动驾驶等领域。AI技术的发展经历了早期的神经网络研究、现代的深度学习兴起以及生成式AI的广泛应用。原创 2024-10-09 14:56:26 · 1451 阅读 · 0 评论