关于大模型的一些基础内容

音视频开发进阶

于 2024-02-26 08:58:08 发布

阅读量1k

点赞数 17

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zhying719/article/details/136312078

版权

本文探讨了大模型的基础知识，如其定义（基于大量数据和超大型深度学习），对数据和算力的需求，以及国内外公司的大模型发展。文章还涉及模型的参数衡量、移动端部署的现状和未来潜力，以及大模型的实际应用，如代码生成和文本生成。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

跟上时代发展，作为 IT 人员都有必要了解大模型的一些基础知识。

从质疑 AI 到理解 AI，到最后使用并超越 AI 。

大模型定义：

大模型指的是 大语言模型（英文：Large Language Model，缩写LLM）， 大语言模型（LLM）是基于大量数据进行预训练的超大型深度学习模型。

这里面有两个关键描述，大量数据预训练和超大型深度学习模型，两方面都在体现着 “大” 的特性。

大模型对数据量的要求很高，通常会包含数十亿甚至数千亿个参数，模型大小可以达到数百GB甚至更大。

比如2020年5月的GPT-3，参数量达到了1750亿，预训练的数据量就达到 45TB 。

参数多，数据量大，模型深度也复杂，自然对算力要求很高，没有个千把张英伟达的 H100 就无从谈起训练自己的大模型，而一张 H100 的价格将近 4 万刀，约合28万元人民币。

有业内人士透露：“一般一台服务器上需要装配8张显卡”，按最高成交价28万元来算，一台服务器整机价格接近200多万元。

这么一看，吾等普通程序员的人力成本还是挺便宜，难怪英伟达的股价能一直涨涨涨。

目前有哪些大模型：

自从 OpenAI 的 GPT 3.5 大模型问世以来，国内外各大公司都发布了自己的大模型，真是五花八门，百花齐放！！！

比如谷歌的 Gemini、Meta 的 Llama 2、百度的文心大模型、腾讯的混元大模型、科大讯飞的星火大模型等等。

有不少大模型都开源的，可以在 https://huggingface.co/models 网站上可以下载对应的大模型。

大模型如此之多，如何衡量哪家大模型更强？在衡量大模型的能力时会提到一个参数 7B、2B、13B 等，这里的 B 就是可以量化的一个单位。

大模型参数的5B、7B是指模型中可训练参数的数量。这里的“B”表示10亿（Billion），即10^9。因此，5B表示50亿个可训练参数，7B表示70亿个可训练参数。这些参数是神经网络中的权重和偏置，它们在训练过程中通过反向传播算法进行更新，以使模型能够更好地拟合训练数据。

网上有一些对大模型进行打分的评比，贴了一个截止2023年10月的大模型评测得分：

快要过去半年了，大模型天梯榜早已更新，就在前几天谷歌又发布了全球最强开源大模型 Gemma，7B 性能超越 Meta 的 Llama 2 13B！

照这个速度卷下去，大模型都要变成大白菜了，数据量太少的模型都不能上榜的。

大模型的移动端部署

目前大模型都还是部署在服务器上，移动端应用通过网络请求来调用相关的服务。

这是因为大模型不仅是参数量大，对计算资源和内存空间的要求也很大，移动端的算力还不能满足现有的模型部署。

还有一种方法对当前的模型进行裁剪，减少计算量和内存需求。在 Github 上有个开源项目就是尝试在 Android 手机上部署大模型并运行，参考这里：

https://github.com/Tao-begd/mlc-llm-android

或许在将来，移动端甚至嵌入式设备的算力进一步提升，都可以在本地跑大模型，那时候智能硬件才算是有点智能了吧。（是不是可以提起买入高通的股票，等着高通芯片支持大模型运算）

大型语言模型有哪些应用？

大模型有很多实际应用。具体有哪些，这个问题就让 ChatGPT 自己回答吧 ~ ！

文案写作

除了 GPT-3 和 ChatGPT 之外，Claude、Llama 2、Cohere Command 和 Jurassic 也可编写原件。AI21 Wordspice 建议修改原始语句以改善风格和语音。

知识库回答

该技术通常称为知识密集型自然语言处理（KI-NLP），是指可以根据数字存档中的信息帮助回答特定问题的 LLM。AI21 Studio playground 能够回答常识性问题就是此类示例。

文本分类

使用集群，LLM 可以对含义或情绪相似的文本进行分类。用途包括衡量客户情绪、确定文本之间的关系和文档搜索。

代码生成

LLM 擅长根据自然语言提示生成代码。示例包括 Amazon CodeWhisperer 和 GitHub Copilot 中使用的 Open AI Codex，它们可以用 Python、JavaScript、Ruby 和其他几种编程语言编码。其他编码应用包括创建 SQL 查询、编写 Shell 命令和进行网站设计。

文本生成

与代码生成类似，文本生成可以完成不完整的语句，编写产品文档，或者像 Alexa Create 一样创作简短的儿童故事。

大模型的技术实现：

啥？？？？？

这道题超纲了，看了好多文章也没搞懂大模型具体怎么实现的，超出理解范围，溜了溜了~~~~

推荐阅读：

音视频开发工作经验分享 || 视频版

OpenGL ES 学习资源分享

开通专辑 | 细数那些年写过的技术文章专辑

Android NDK 免费视频在线学习！！！

你想要的音视频开发资料库来了

推荐几个堪称教科书级别的 Android 音视频入门项目

觉得不错，点个在看呗~

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

音视频开发进阶 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。