写给童童的AI科普- # 08-AI个人应用的相关知识

原来我的这个标题叫做AI的相关知识,我想了一下,这个还差的比较远,也许之后我会给你解释一下具体AI的工作原理,但是在你有志成为一个AI科学家之前,我们先来看看现如今的AI个人工具能够怎么影响我们的个人工作。

为什么不说工作呢?要展开这一点又非常复杂了……因为很多工作的改变,可不是那么容易的。这促使我要告诉你这几十年国家发展的社会历程和运行规律,这个话题有点大,我们以后慢慢说,或者你也会慢慢体会到。如果你作业做的足够快的话,也许我会带你玩一个叫星际争霸或者文明的游戏,这样你可以简单直观的看一下科技是如何在一个文明或者社会发展的历程中起到什么作用的了,比如刀枪打不赢导弹。不过那些并不能代表全部,战争和征服在人类发展历程中可只是一个点而已。举个例子,比如我们说船闸大坝的制作,应该如何计算?需要用模拟仿真软件来测算吗?要知道这往往关系到江河下游无数人的生命,那么这个软件的计算测定,应该是非常慎重的一件事情,对于一个公司也好地方政府也好国家也好,所以一个工作的流程,都是一个赋予挑战且有意义的事情。平时在图书馆除了做作业也多看看各方面的书,有机会我们可以一起讨论下。

然后这里我有点犯难,主要是我要如何分类讲解,因为确实现阶段不太好去归类,如果我从计算机学科的讲解来给你阐述我感觉你会听不懂,我们家阳台书架上有一本蓝色的厚书,叫《人工智能》,你有兴趣可以翻开看看,它里面有非常学术的分类方法。请放心,前面我已经和你讲解过现代这波人工智能浪潮之父辛顿教授,他所坚持且不断研究的理论就来自于六十多年前甚至更久,所以不要怀疑先贤们在理论上的超前构建,当然也不用菲薄当下科学家在实际命题上的逐个突破。所以请放心食用,共产主义理论中有一个非常重要概念叫唯物主义辩证法,就是辩证客观现实的去看待一个事情,并寻求事情运行的真理。所以对于科学观点方面,结合历史发展历程大胆去学习就好。

我尝试按照这几年大家认知的AI工具发展来讲一下吧,我简单分个类:
1. 生成式语言对话类:主要代表ChatGPT、deepseek等等大模型。严格来说,他们其实不单纯属于对话类,属于人工智能的深度学习类,而语言对话其实属于人工智能的另外一个范畴即NLP自然语言处理,早期我学习的资料叫自然语义,所以说现在大家使用的商业AI其实是一种综合工具,后面我会专门写一篇内容介绍的。深度学习最大的特点在于,本地AI大模型会成长,就好像一个人在成长一样,但是这些技术也在快速进化和变化,目前即便它已经取得了举世瞩目的成就,但它还可以向专业方向继续发展,这里就是我们所说的- [RAG知识库]这个内容了,后面我们会具体说到。

2. 语言识别类:这一类应用其实比较早了,代表就是语音助手、翻译软件等等,就是小爱同学或者高德百度导航助手,这里的主要作用是能够听懂和说出人类的语言,他们的主要理论依据才是NLP。但NLP并不是到这里才产生的,而是早已存在,我们之前在介绍汇编语言的时候已经提及过,其实类似C语言这样的就算是计算机的高级语言了,当用户输入一句话的时候,计算机其实是要分析你的句子是什么意思的,这个时候语法就已经使用上了,只不过早期计算机的处理能力有限,程序的构建者在语法上限定了大家的使用方式。如果计算机学科的同学认真的去读龙书,哪怕是不认真的读,都会看到《汇编原理》中有非常大的一章节在介绍自然语义,它在详细介绍一个句子如何去分段,计算机如何判断人类输入的一句话,应该如何理解,那些情况应该报错等等,这里请大家就自行去补课吧,当然我并不是鼓吹汇编就解决了现代的语言功能实现,而是强调思想其实早就具备,只是实现上大家是承前启后一代接一代不断挑战才到今天的。由于这里要展开的点过多,我们就只点到为止。

3. 对话式生成图形图像类:为什么不是图形图像类呢?因为AI图形图像类的能力早就实现了,已经在人类社会顺利运行数十年了,它就是我们现在大家所熟识的人脸识别,广泛应用与个人手机刷脸、园区安防、高铁认证等等社会场景了,它的使用工具在前几年叫做Transformer,翻译过来其实有一个有趣的名字,变形金刚哈哈,对的就是你看的那个电影,其实这个词语的意思是转换、变形。想一下我之前提到过的向量,这里就用得上了。图形图像识别用到了人工智能的一个工具,叫做机器学习,也用到了深度学习。
   我们之前说的辛顿教授、李飞飞教授带领的那场人工智能比赛,也是基于计算机能力的图形图像识别,然后经历了千千万万行业从业者的数十年如一日的推动,而我们今天正在享用这个成果。这里说一下作为中国人我们有非常多的优秀公司在参与之前这场变革,他们既有安防视频类的先锋比如海康大华宇视,也有算法类的先锋比如旷视商汤依图,这都是上一波浪潮的佼佼者了,你可以在最近几年的美国制裁名单上看到他们,能够引起世界第一强国的注视行业内的大家都有一种受宠若惊的感觉呢。这里我们做的事情,是让计算机看图,给它眼睛。
   那么我们这一波对话式生成图形图像的能力就又不一样了,这里面既有第1、2点的能力调用,又和过去不一样,这里是我们给计算机艺术细胞,让它画画,到现在最新的能力是让它做生成视频,做电影。
   这一波的浪潮主要出现在前三年,主要代表是Stable Diffusion等等,然后国内也有非常多的商业公司在做这类方向,主要的能力就是输入一段对话,AI会根据你的描述来画画,说的越详细,它画的就越准,而且AI会输入不同的模型,比如一个京剧的模型生成的画面都是京剧风格的,一个卡通的模型生成的人物都是卡通的。这部分极大的充实了艺术类的产品,比如电影、短视频方面的制作。也给未来的发展方向带来了无限的遐想,终极目标现在大家期望AI能够接入生产力,这部分原有的绘图类厂家反而更快的在拥抱未来,我们可以看到AutoCAD和Photoshop已经在展示他们的AI能力了,国内的我们常用的类似WPS图像或者美图秀秀等个人应用都在自己的点上做得很好了,视频专业类的我不是很熟悉,但是从前两年国内生成式AI在互联网上的发展态势而言,我觉得专业应用应该不会差。
   生成式视频方面,这里引发了大家的一个关注点,就是:
   
   “提示词”
   
   提示词在生成式图像AI浪潮中引起的关注度甚至早于现在的生成对话式AI,那么究竟这玩意是啥呢?为了保持我的文本简洁我就不贴图了,你可以自己找任何一款可以文生图或者图生图的AI软件,至于哪一款可以用,你也可以去问AI,这里需要你动一点脑筋并看出差别。
   下面我们来举例,现在我们向提示框内输入要求:
   “生成一个大熊猫”
   此时各种AI会依据它使用的模型,并按照它的理解画出一个大熊猫,它可能是任何样子。
   但是我们如果输入:“生成一个在北京动物园内穿着工人衣服的大熊猫正在打篮球”。你可以看一下效果。这个句子的条件就复杂很多了。
   下面我们更加精确的输入:“生成一副高清图片,分别率达到2k像素。背景地点位于北京动物园熊猫馆。当天是晴天阳光普照,光线从正面照射。画面中心主体为一个大熊猫,穿着灰色工人服饰,左手抱着一个篮球,右手正在向观众打招呼。”
   这一段词,就类似提示词了,提示词的功能是源于AI理解人类语言的结构,前面我们说过了,比如C语言就是高级语言,而汇编就是机器语言。我们前两个句子就类似高级语言来说,是人类的自然语言,这样AI需要先翻译这句话到它懂的内容。而我们第三次的提问,目标就是向机器语言在前进,真实提示词其实是以英文为基础的,这里的提示词往往是生成类AI能够理解的编程类语言,比如我们说的背景,这个命令可能在有的AI内就是background,而我们的内容,可能是填写像素的颜色,但是我们要用多进制数据来写,比如00F654这样的代码,这样就能进准的让AI来理解我们需要的东西。
   
   但这里面其实有两个前提:第一个就是计算机类的语言表达方式,这个查询一下其实大多数人很快就可以掌握了,对表输出即可等等。第二个就比较难了,这个就是要对于计算机图像的技术理解了,我们说简单一点就是画画或者摄影。我这里用画画来和你做比喻,因为我带着你学过一些,你还记得我们画一幅画比如素描的时候我们有哪些基本要素吗?我们先要打底画出人物的形状对不对,然后开始初步的绘制人体框架,然后逐步的调整画出具体的形状比如眼睛头发,然后整体的调色开始铺色表达明暗关系,最后点出高亮部分如果有的话,最最后精修。计算机绘画本质是把人绘画的形式换种方式表达,所以这些美术理念的根本是不会变的。我们这里就需要基本框架搭建、结构细节塑造、背景敷设、光影表达。你在看一下我们第三次提问,是不是基本对应了这些内容。这样我们描述的越准确,那么计算机就能够越理解我们的内容。
   
   所以,想让计算机按照你的想法来画画,首先你得会画画,这个过程是跑不掉的,在脑机接口诞生之前,所想即所得这个事情还是需要学习的,是门技术。
   其次我们才是要掌握传统计算机绘图方式最好,能够了解计算机绘图所必须的步骤等等。
   这样我们在使用AI绘画的时候,才能够用提示词或者自然语言比较好的向AI表达清楚我们要画的内容,才能够从玩一玩到走的比较专业。
   
   另外说一个有趣的问题关于提示词:在网络发展的过程中,有一些非常聪明的人想到了一些破解网站内容的方法,普通我们的网页是只能输入它允许的内容的,比如我们有一个网络调查,正常你只能在网页空格内输入姓名,但是有些聪明的朋友会利用系统的漏洞写一段代码进去,有些没有安全措施或者升级的网页就会大脑失灵,执行这个不应该执行命令,把大家的账号密码给吐出来或者让这个人就能够非法进入网站,在黑客技术内我们叫这个方法为SQL注入。
   这也是一种类似提示词的应用哦哈哈,当然这样不是太好,网管应该加强它的网络管理。
   
   所以同理,目前生成类语言交互程序,其实也可以用专业的提示词方式向它进行提问,这样它回答的准度就会更高,而这,需要大家去学习掌握。

4. AI编程类(这个是从应用出发的,其实本质还是使用deepseek等大模型)
   这个部分我就不过于展开了,我建议你去尝试一下,让AI帮你编程,这个我觉得才是有趣的一步。通过编程去解决你的一个具体问题。
   但你可能马上就会问,我有什么问题呢?好问题,这个就是软件的需求拟定。
   然后第二个问题可能会问,我用什么编程呢?好问题,试着跟着AI老师来问一下,看它是否能带你走进编程的世界。
   
我们之前已经讨论过了,从软件类型而言,我们有各种各样的软件分类,从不同的角度出发可能学习过程会非常繁杂且没有目的,那么作为目前我们可以用到的以上四类AI能力,我们可能会遇到一下场景:

如果我想提高我的文章的专业性的话我会告诉你这些:

 - [RAG知识库]
 - [Dify工作流]
 - [Agent]
 - [AI编程]
 - [IDE使用]
等等等等,但是我觉你肯定听不懂,所以接下来我还是用白话来说这些内容,但是并不代表你以后不用去学习更专业的表达,因为在真实的世界中没有人会这样和你坦诚沟通和描述的。

好了我们继续:
1. 生成式语言对话类:这部分要感谢我们湖北邮电规划设计有限公司的彭诗杰博士的亲自归纳,确实彭博士在AI的理解上不是一般的深。使用商用AI工具我们在上一次已经说了。如果自己体验开源工具且准备深入理解并想按照自己的意图来做更多的事情,大概有很多方法目前。但是目前比较流行大致有两类方式,一类是使用开源软件,一类是获取专业服务。
   什么是开源软件我会在以后和你阐述,因为这点倒是挺重要的。
   简单说开源软件就是自己做,但是你尝试安装一个AI到本机就知道了,现在的deepseek大模型对于我们个人计算机往往是有要求的,这个要求的卡点主要在昂贵的显卡,大概价格从几千到上万元甚至数十万元一块不等,但普通人往往不确定自己是否要进行这样的投入。于是就有了很多AI服务商,他们在数据中心服务器上整理好了各种能力的AI服务,如果只是短期体验的话,大家可以通过网络服务来购买这种AI能力,按需来计费。目前这种软件可以叫利用MCP协议的AI集成服务软件,主要通过网络接口或者本地接口都方式来调用AI模型的能力。
   目前比较突出能力的是Cherry Studio,可以调用目前主流的AI能力,但我个人认为个人用户应该搞清楚cherry的使用范围,然后再着手开动。应用上调用本地知识库就是能力之一。
   另外一种就是调试好的专业AI调用能力了,这种往往涉及到企业用户,需要专业的前端页面和后端部署,以及和客户的精准需求拟定,这个我们在前面已经聊过了,这不是一般人可以完成的专业工作,需要有专业团队来完成完善。
2. 语言识别类:我觉得个人目前使用最大的专业场景就是会议录音,我用的比较多的专业工具有科大讯飞、WPS、有道笔记等等,各家的辨识方式算法还有很大的不同,但是都是特别优秀的工具。
3. 对话式生成图形图像类:这个如果个人计算机部署要要花费相当的金额来购买显卡,我个人在需求不是很明确的情况下还没有尝试,我主要是用网络端来搭建做一些尝试。这方面的专业客户端相当多,就不一一介绍了。
4. AI编程类:这一类主要有两个应用方向,一个方向为针对软件企业内部优化,即更强的编程能力。一个方向为学习类使用。目前对外提供服务的AI编程能力很多还不到企业级,对于完全小白的客户可能很难实现复杂需求,特别是定制化需求。这个和之前的AI绘画其实是一样的道理,最好是有一定的美术基础(至少知道一些基本的颜色光影造型概念),也对传统电子绘画工具有一定了解(至少了解蒙版分层,再来进行相关使用和创作可能更会得心应手。而作为专业产品而言,在某些情况下我认为这可能是专业公司组织专业人员而形成的有时间限制的工作比较合适。
   为什么不多说呢,嗯……
   我们看一下动物指南:
   《JavaScript权威指南》
   《MongoDB权威指南》
   《Kafka权威指南》
   《HTTP权威指南》
   《Kubernetes网络权威指南》
   《Rust权威指南》
   《Visual Studio Code权威指南》
   《Web性能权威指南》
   《Trino权威指南》
   《Hadoop权威指南》
   《深度学习进阶-自然语言处理》
   《高性能MYSQL》
   《Python金融大数据分析》
   《深度学习入门-基于Python的理论与实现》
   《Python机器学习基础教程》
   《SRE-google运维解密》
   …………
   我们先能把O书封面上的动物认清楚就已经是一件了不起的事情了,计算机类大数据类的书籍如果按照出版数量的话我觉得应该是一个惊人的数字,就更别提要了解相关的计算机网络基础还有数学理论了,随便挑几本就可以轻松超过一个人的身高。这应该是一个非常长期的学习过程,所以这部分应该需要大家逐步有序慢慢学习,甚至是专业公司来处理,作为学习个人是肯定可以不断进取去了解的,但是作为社会分工而言我个人觉得这已经不是一个人穷其一生可以承受的知识能力和可以完成的工作量了,这是需要有组织有计划的社会分工来完成的具体现代软件工程工作。另外一点就是原理类书籍是教你制造工具的通常,而应用类书籍是使用工具的,造锤子和用锤子是完全不一样的一个形式。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值