初学者怎么入门大语言模型（LLM）？

麻辣排骨面

于 2024-09-18 11:11:45 发布

阅读量914

点赞数 29

文章标签：语言模型人工智能自然语言处理 pdf 产品经理 AIGC

本文链接：https://blog.csdn.net/ytt0523_com/article/details/142327806

版权

大语言模型（LLM）是一门博大精深的学科，涉及到高等数学、python编程、PyTorch/Tensorflow/Onnx等深度学习框架……然而奇妙的是，越是看上去难得要死、一辈子都学不完的技术，入门起来却越是容易。

正如阿瑟·克拉克的名言：足够先进的科技看上去与魔法无异。大语言模型先进得如同魔法，我们这些麻瓜也许一辈子都没法完全理解它。但乐观地看，既然大语言模型是魔法，那我们就把它当魔法用好了，用这个魔法发掘自己的天赋，兑现自己的价值。至于你会不会成为下一个Hinton或Ilya，成为AGI时代的天命人——那就不是“初学者”操心的事了。

一块4090都不用买，找一个可以在线调用API的大模型平台就可以入门。智谱推出【BigModel开放平台】，网址很直白，叫bigmodel.cn，就差把“大模型”三个字刻在脑门上了。

平台提供了纯文字模型、文生图模型和文生视频模型，基本上囊括了目前LLM领域的所有大方向。注册一下，在模型中心就可以开始体验。这么多模型，够你玩一年。

我尤其感兴趣的是智谱 BigModel开放平台的文生图模型CogView-3-Plus。

文生图前两年就火了，比如这个领域大名鼎鼎的鼻祖Stable Diffusion。但是Diffusioin模型用的是UNet架构，而BigModel平台这个用的是Transformer架构。

也就是说，BigModel平台的文生图不是简单复刻Diffusion，而是走上了GPT-4O的方向：文本、图片、音视频都用同一个Transformer架构，最终融合成一个模型，听说读写无所不能，琴棋书画样样精通。

这样做的好处是，我们希望模型能在图、文两个不同模态触类旁通，从而让文字prompt更精准地控制生成的图像。而不是像过去的Diffusion一样，说画一个在黑暗中的人，立马画了一个黑人。

现在的文生图用户已经不满足于用赛博画图博出位，而是在思考一个严肃的问题：怎样用模型创造价值？

说到这个，我对BigModel平台的CogView-3-Plus简直有一种相见恨晚之感。要知道，我最近刚写完一本集科幻和科普于一身的漫画作品：《西游物理学》，正在走出版流程。提前看过这本书的朋友都说有一种被知识强行进入却大喊别停的感觉，堪称科普界的黑童话·悟理。

如果AI能按我的剧本画出漫画，不仅可以省掉100万的制作费，还可以省掉大半年的精（che）心（pi）制（si）作（bi）时间。

所以今天，我就要用BigModel平台的CogView-3-Plus来干点正事：用AI，把我的《西游物理学》改编成漫画。

比如说，这是分镜头剧本里的一段场景描写：

“（略带俯视）悟理站在围墙上，向院子里看。院子中央有一个巨大的牛顿雕像，牛顿举着一只金苹果。院子的尽头是一座两层的塔楼，里面供着一尊金光灿灿的佛像，那佛的发型神似爱因斯坦，睁一只眼闭一只眼，还吐着舌头。小鬼们肆无忌惮地从围墙上跳了下去，冲进院子里。”

我的prompt很简单，简单到就是把剧本里这段话丢进去，然后加了一句：

新海诚画风。

果然，画出来的东西都有一种超现实的干净感：

真的……很像。

庭院、雕像、苹果、发型全部到位。

而一旦换成“宫崎骏画风”——

下面请看人类画师的表现：

如果你会写简单的python（不会的话让AI帮你写），可以用代码调用BigModel平台api，也超级方便：

from zhipuai import ZhipuAI

client = ZhipuAI(api_key=“”) # 请填写您自己的APIKey

response = client.images.generations(

model=“cogview-3-plus”, #填写需要调用的模型编码

prompt=“一只可爱的小猫咪”,

)

print(response.data[0].url)

返回的url就是图片url。

CogView-3-Plus的表现让我振奋起来。你知道吗？我从小就有一个不为人知的梦想：当导演。

既然我的散文写得比鲁迅还散，那有没有一种可能，我的台词比斯皮尔伯格还皮，设定比诺兰还难，人物比张艺谋还emo？

以前，我觉得这个梦想大概永远不会实现了，毕竟入门导演比入门大模型要贵得多。

但现在有了AI，我突然觉得我又行了。

比如说，文学作品影视化改编是老大难问题，耗费巨资不说，拍出来的还遭原著党嫌弃。就比如《安娜·卡列尼娜》这段最经典的心理描写，被认为几乎不可能改编成电影。原著在不同时代改编了至少5部电影，没有一个能把这段拍好的：

“不早不晚，就在前后车轮正中间来到，她面前的瞬间，她扔掉红色手提包，头往肩膀里一缩，两手着地。扑到车厢下面，微微动了动，好像准备马上站起来似的，就扑通一下跪了下去。就在同一刹那间，她对她的做法害怕了。

“我这是在哪儿？我这是做什么呀？何苦呢？”她就想站起来，躲开；可是一个无情的庞然大物撞到她头上，挂住了她的脊背。“上帝呀，饶恕我的一切吧！”她觉得无法挣扎了，就说道。那个矮小的汉子嘴里还说着什么，摆弄着铁器。

那支蜡烛，她曾经借着烛光阅读充满忧伤、欺诈、悲伤和罪恶的人生之书的，闪了一下比任何时候都明亮的光芒，为她照亮了原来在黑暗中的一切，就哔剥一声，昏暗下去，永远熄灭了。”

我把这段话输给BigModel平台的GLM-4-Plus，告诉它我要把这段剧情用AI画一个电影镜头，它立刻给我一段用于文生图的prompt。然后再放到CogView-3-Plus里去……

嘿嘿，这就叫取之于AI，用之于AI。

效果如下：

这表情，绝了。

安娜卡列尼娜白富美出身，老公相当于正部级，最后竟落得一个车裂的下场。那一瞬间情感复杂到极点，伤心、恐惧、自私、虚荣、骄傲、兴奋、害羞等等，那些情感……这样，它又那样……总之老复杂了，你懂吗？你拍得出来吗？

你看人家BigModel平台的CogView-3-Plus就帮我拍出来了。

除了充满心理描写的经典文学，还有一个更难影视化的：

科幻文学。

用同样的套路，我让BigModel平台的CogView-3-Plus给我拍了一个《乡村教师》的镜头：

“奇点炸弹脱离导轨后，沿一条由母舰发出的力场束加速，直奔目标恒星。过了不长的一段时间，这颗灰尘似的黑洞高速射入了恒星表面火的海洋。想象在太平洋的中部突然出现一个半径一百公里的深井，就可以大概把握这时的情形。巨量的恒星物质开始被吸入黑洞，那汹涌的物质洪流从所有方向会聚到一点并消失在那里，物质吸入时产生的辐射在恒星表面产生一团刺目的光球，仿佛恒星戴上了一个光彩夺目的钻石戒指。随着黑洞向恒星内部沉下去，光团暗淡下来，可以看到它处于一个直径达几百万公里的大漩涡正中，那巨大的旋涡散射着光团的强光，缓缓转动着，呈现出飞速变幻的色彩，使恒星从这个方向看去仿佛是一张狰狞的巨脸。很快，光团消失了，旋涡渐渐消失，恒星表面似乎又恢复了它原来的色彩和光度。但这只是毁灭前最后的平静，随着黑洞向恒星中心下沉，这个贪婪的饕餮者更疯狂地吞食周围密度急剧增高的物质，它在一秒钟内吸入的恒星物质总量可能有上百个中等行星。黑洞巨量吸入时产生的超强辐射向恒星表面蔓延，由于恒星物质的阻滞，只有一小部分到达了表面，但其余的辐射把它们的能量留在了恒星内部，这能量快速破坏着恒星的每一个细胞，从整体上把它飞快地拉离平衡态。从外部看，恒星的色彩在缓缓变化，由浅红色变为明黄色，从明黄色变为鲜艳的绿色，从绿色变为如洗的碧蓝，从碧蓝变为恐怖的紫色。这时，在恒星中心的黑洞产生的辐射能已远远大于恒星本身辐射的能量，随着更多的能量以非可见光形式溢出恒星，这紫色在加深，这颗恒星看上去像太空中一个在忍受着超级痛苦的灵魂，这痛苦在急剧增大，紫色已深到了极限，这颗恒星用不到一个小时的时间走完了它未来几十亿年的旅程。”

令我震惊的，不是AI画得有多好，而是它居然画得是对的！

“太平洋中部出现一个半径一百公里的深井”、“仿佛恒星戴上了一个光彩夺目的钻石戒指”、“直径达几百万公里的大漩涡，散射着光团的强光”——对上了，全对上了呀！

原来大刘当时脑子里的画面，就是这样子的啊……

从我今天体验的BigModel平台CogView-3-Plus模型来看，文生图已经到了一个新的阶段，画出复杂精美的图已经不足为奇，难的是要精确理解创作者的创意，宏大而不失细节，既要天马行空，又要不失严谨。就像CogView-3-Plus，在影视化改编中展现了强大的图像生成能力。这样的文生图，才有更大的市场价值。

不久的将来，文生视频一旦成熟，每个人都可以当5分钟的导演。用GLM-4-Plus生成提示词，CogView-3-Plus做分镜头，用CogVideoX生成视频，把脑子里翻江倒海的创意变成看得见摸得着的产品，那就是大模型给每个人带来价值的一天。

总之，大语言模型的入门并不难，尤其是有像CogView-3-Plus这样强大的工具来辅助学习和应用，BigModel平台还有一系列Plus模型等你来进阶。通过不断的学习和实践，初学者能够很快掌握这项技术，并在各自的领域中发挥其巨大潜力。无论是在文学影视化改编，还是其他创新应用场景，CogView-3-Plus都将是你不可或缺的助手。