1 前言
2024年终于结束了。回首这一年,我也做了一些AI和GIS的融合的探索,如果要谈AI和GIS结合起来能干什么,我想我折腾了这么久,多少还是有点心得来谈上一谈。
2024这一年中大多数人都在默默看着AI发展,其实并没有多少人在真正在使用AI,或者更恰当的说,并没有多少人使用AI让自己的效率成倍的提升。这是因为还没有一些趁手的工具出现,大多数人都停留在和AI的聊天层面。最近我看到不少同行都发表了看法,探讨AI在地理信息、遥感行业的应用前景。我觉得非常棒,既然大家都有了这个共识,那么相信这个生态相信很快就能建立起来了,就像现在大家都使用开源技术框架来运营自己公司的项目,对人员的技术栈要求基本是一样的。而当AI生态建立起来以后,对AI的技术栈要求也应该大差不差的,这样人员才能流动,就像血液流动起来一样,人才有生机。而我也深知生态的建立不是一个人能左右的,需要广大同行们的共同努力。
2 从智能体谈起
首先什么是智能体?智能体英文为Agent,直译过来叫做代理。所谓代理就是用户和大模型之间的桥梁、中间人。简单来说智能体就是增强大模型能力的工具,让你不再局限于聊天。比如它可以操作你的电脑,操作你的浏览器,帮你自动干活。智能体和智能体之间还可以进行交流,可以有一群智能体帮你干活。通常比较复杂的工作都是多智能体协同工作的。就拿AI程序员来说,其实也是一个多智能体工具,里面包含了需求智能体、架构师智能体、产品智能体、研发智能体、测试智能体等等。
半年前,也就是2024年6月初,我就已经做出来了可以说是国内首个地图智能体——AIGIS地图智能体。有兴趣的同学可以访问AIGIS地图智能体功能预览。而在我发布了AIGIS地图智能体之后,2024年6月底,阿里云发布了AI程序员,实现了和AIGIS地图智能体类似的操作,即通过自然语言对话实现代码修改和功能实现。2024年8月,Claude 3.5 Sonnet发布后集成的artifacts功能也有类似的效果。2024年10月,OpenAI同样发布了类似的 Canvas 功能。
为什么这些人工智能巨头们做出来该功能的时间比我晚?倒不是说他们能力不够,而是因为他们忙着卷大模型的参数,升级大模型的能力。而我只是站在巨人的肩膀上,做了一个小功能而已。GIS智能体的出现,很大几率能解决各行各业的痛点。而这个痛点并不是由程序员来解决做主导的,而是由各行各业的从业人员使用GIS智能体进行解决的。因为GIS智能体拥有的功能不仅仅是对话,它自己就能写代码做软件。所以当各行各业的从业人员只要能表述清楚自己的需求,GIS智能体写的代码能够顺利运行,那么这个正反馈、正循环很快就会建立起来。
3 转折点
毫无疑问ChatGPT功能刚出来之时,引起了一大波人的焦虑,担心会被AI取代,我也在其中。但是使用了一段时间ChatGPT后,发现它不是那么智能,渐渐的也就接受了这个过程,并逐步开始使用ChatGPT来辅助代码开发。2024这一年中出现了好几个转折点。首先就是ollama功能的发布可以使几十亿参数的小模型在用户本地运行,有兴趣的同学可以参考作者之前的文章Windows(Win10、Win11)本地部署开源大模型保姆级教程。这给GIS这种保密性要求特别高的行业带来了新的生机,因为不怕数据泄密了,内网也可以调用了。同时也给小模型的微调带来了大量的流量和机会,当然仅限于开发者。然后是ChatGPT o1模型的出现,让大模型具有了思考的能力;o3模型官方宣称已经到达了博士的水平。再然后就是现在,2025年1月7日,英伟达发布了个人AI超级计算机,别看体积和移动硬盘差不多,但配置足以运行现在市面上主流的千亿参数的大模型。这就相当于给你的电脑插上一个移动硬盘,就可以随时、随地、随意的使用这个世界上最强的几个大模型,不受网络限制,还能内网保密,如果真能在5月份量产使用,绝对能引起无限想象。
3.1 国外主流大模型参数量(网传微软论文版)
GPT-4参数约1.76万亿
GPT-4o参数约2000亿
GPT-4o mini参数约80亿
o1-preview参数约3000亿
o1-mini参数约1000亿
Claude 3.5 Sonnet参数约1750亿
Gemini 2.0 Flash参数约5400亿
3.2 经典开源大模型参数量
DeepSeek-V3参数约6710亿
DeepSeek-coder-v2参数约2360亿
qwen2.5最高参数约720亿
qwen1.5最高参数约1100亿
qwen2.5-coder最高参数约320亿
llama3.2-vision最高参数约900亿
llama 3.1最高参数约4050亿
codellama最高参数约700亿
3.3 英伟达个人AI超级计算机Project Digits
在 CES 2025 发布会上,英伟达宣布将于 5 月推出一款名为 Project Digits 的个人 AI 超级计算机。这个东西尺寸和移动硬盘类似。英伟达还号称Project Digits 是可以处理多达 2000 亿个参数的 AI 模型,售价为 3000 美元(约合 21999 元人民币)。这是什么概念?这意味着我们市场上目前主流的大模型它都可以运行!这意味着内网情况下(尤其GIS行业很多都是内网开发、部署)不再局限于使用10b(100亿)参数以下的小模型了,而且 Project Digits 还可以好几个组合起来使用,这对于GIS行业是个重大利好,毕竟大模型的能力远远不是小模型可以比拟的。
4 GIS与遥感大模型
很遗憾,GIS领域貌似没有出现什么经典的大模型。因为GIS数据很多不是结构化的,数据量也不是很大(相对于大模型需要的几百亿到几千亿的数据量而言),倒是遥感领域有大量的影像数据比较适合用来训练大模型,于是出现了好几个大模型,而他们其实也都带有一些GIS功能的,我们就列举几个比较经典的吧。
4.1 阿里达摩院遥感大模型AIE-SEG
2023年10月,阿里达摩院宣布发布业内首个遥感AI大模型 AIE-SEG,并称已率先在遥感领域实现了图像分割的能任务统一功能,一个模型即可实现“万物零样本”的快速提取,并可识别农田、水域、建筑物等近百种遥感地物分类,还能根据用户的交互式反馈自动调优识别结果,同时也发布了国内首个云端一站式海量InSAR地表形变分析工具。
AIE-SEG最近一次大版本更新时间为2024年4月,发布了AIE-SEG V3.0版本,该版本主要上线模型微调定制功能,基于AIE-SEG遥感解译通用分割模型,可使用更少的样本快速微调训练得到专属定制模型(相较于从0到1自建自定义模型所需样本量减少80%)。
AIE-SEG体验地址为:
https://engine-aiearth.aliyun.com/docs/page/guide?d=ae5c2b
4.2 商汤科技遥感大模型平台SenseEarth
商汤科技的AI遥感大模型平台SenseEarth最初是在2023年的WGDC(全球地理信息开发者大会)被大众所熟知。官方宣称SenseEarth平台已经实现了全国不同地物种类、不同影像类型、不同影像时间的高泛化能力,拥有先进的地物解译能力和媲美人工标注的生成式图斑效果,并涵盖了46类语义分割、5类目标监测、4类变化检测、2类超分辨率算法。
SenseEarth最近一次更新是在2024年5月,推出了遥感分析一张图功能。背后的能力来自于商汤面向遥感领域的商汤“地界”AI遥感大模型。基于全新“日日新5.0”基座大模型强大多模态能力,结合多年赋能实践经验,构建了针对农业领域垂直场景的思维链。如提供“耕地种植结构AI遥感分析一张图”,直接给出耕地地块识别、作物识别、非粮要素识别等种植结构分析,实现耕地地块、作物识别、非粮要素识别的自动化、智能化、常态化。
SenseEarth体验地址为:
https://senseearth-cloud.com
4.3 中科院空天院遥感大模型空天·灵眸
2024年9月21日,第一届空天信息技术大会在山东省济南市开幕。会议期间,中国科学院空天信息创新研究院研究员付琨团队联合鹏城实验室,正式发布了自主研制的百亿级遥感解译基础模型——“空天·灵眸”3.0版,这是迄今为止全球首个百亿参数级空天一体遥感解译基础模型。
空天·灵眸是国际首个面向多模态遥感数据的生成式自监督预训练模型,已成功应用于多模态遥感地物要素提取、遥感场景分类、细粒度目标精细化识别、像素级变化检测、三维重建等重要任务中,在12个国际标准数据集中取得世界领先水平。其不仅具备“数据多源异构、遥感特性驱动、应用任务泛化”的特点,还填补了多模态生成式预训练模型在遥感专业领域的空白,可面向遥感学术研究、行业应用等产学研领域推广使用。
空天灵眸体验地址为:
https://www.mindspore.cn/largeModel/ringmo
5 GIS相关的AI空间技术
5.1 中科院大规模3D场景生成框架SceneX
继阿里云发布了数字孪生3D场景生成方案“山海计划”仅一月后,2025年1月,中国科学院自动化研究所和北京科技大学的联合团队,首次提出了一种全新的3D场景生成框架SceneX,只需简单的文字描述,就能快速生成高质量的3D虚拟场景。
SceneX_城市场景
该框架生成大型场景时间短、效率高。不论是辽阔的自然风景,还是充满活力的城市街道,模型都能轻松应对。该框架提出的生成方法包括两个组件,PCGHub 和 PCGPlanner。前者包含大量可访问的程序场景和数千个手工制作的 API 文档,可作为程序可控生成(PCG) 控制器的标准协议执行。后者旨在为 Blender 生成可执行操作,以根据用户的指令生成可控且精确的 3D 场景。
数字孪生领域一直以来都存在为整个城市建模费时费力的问题,因此很多数据在大规模场景时都采用了白模建筑,只有小场景时通过航拍技术进行建模。该框架正好可以用来解决数字孪生领域生成大型3D场景困难的问题。
5.2 全新AI物理仿真引擎Genesis
Genesis不仅是一个通用物理引擎,还集成了轻量级仿真平台、照片级渲染系统和生成式数据引擎,能够将自然语言描述转化为多模态数据进行场景建模。
genesis
Genesis 是一款高度优化的物理引擎,利用 GPU 加速的并行计算,具有优化碰撞检查、自动休眠、接触岛等功能。Genesis 在各种场景中提供前所未有的模拟速度。Genesis 的物理引擎由基于 VLM(视觉语言模型) 的生成智能体提供支持,该智能体使用模拟基础设施提供的 api 作为工具来创建 4D 动态世界,然后可将其用作提取各种数据模态的基础数据源。结合用于生成摄像头和物体运动的模块,我们能够生成物理准确且视图一致的视频和其他数据模态。Genesis为小场景中各种精细动作提供了一整套api,虽然目前只开源了初始版本,相信不久的将来就会发布稳定版本,为三维GIS各种小场景提供了无限可能。
5.3 李飞飞WorldLabs与Google Genie2
WorldLabs 是华裔科学家李飞飞创立的空间智能先锋企业发布的产品,该公司的人工智能系统赋予用户前所未有的能力,使他们能够踏入任何图像内部,以三维视角自由探索其内在世界。目前处于测试阶段,只放出了一些介绍视频,用户还无法直接参与测试。
worldlab
Genie2是由Google DeepMind 团队发布的产品,是 WorldLabs 的竞品,它能够将一张图像转化为可交互的3D游戏世界,通过鼠标和键盘控制,用户可以在其中自由探索长达1分钟之久。根据作者的实践,感觉Genie2比WorldLabs 的效果还要好一些。该功能目前也处于测试阶段,只放出了一些介绍视频,用户还无法直接参与测试。
genie2
WorldLabs 和 Genie2 都是将一张图片转化为3D空间进而产生互操作的技术。因为这两是一个类型的技术,因此放在一起讲。目前这两技术都并未向大众开放,我们目前只能通过一些介绍进行了解。未来该技术成熟后,和目前的街景图片结合在一起,或许会产生一些有趣的应用。
6 GIS展望未来
6.1 模型微调与本地知识库引用
我们GIS行业最大的问题就是我们历年来积累了大量的数据,这些数据又都是保密的或者内网环境下的,因此是不能直接拿到外网交给公用的大模型去管理的。因此内网环境下模型的微调和本地知识库的引用这两种需求是天生就存在的。这样就催生了两种内网模式下的应用:1.大模型(百亿到千亿参数)+知识库 2.小模型(几十亿参数)+ 微调+知识库。这两种模式互补,能解决内网环境下90%的问题。
6.2 智能体重塑传统开发和桌面软件使用模式
毫无疑问智能体是未来AI发展的重中之重。因为智能体拓展了大模型的能力,既包括开发方面也包括应用方面。我们传统的开发模式一定会随着AI开发的改变而改变。这其中既包括了传统开发人员使用AI加速应用的实现,也包括了非开发人员使用AI程序员开始成为新型开发人员。至于传统桌面应用如ArcGIS、MapGIS、QGIS等等,会结合AI变为通过自然语言驱动形成调用链来完车复杂任务,如矢量化、空间校正、空间分析、数据提取、制图出图等等。
6.3 三维GIS领域理论和实践研究的全面深化
目前三维GIS的应用确实很火爆,但三维GIS缺乏相应的理论研究和实践。目前我们在三维领域(以Cesium为例)GIS基本就是提供一个位置和底图,三维分析方面比较弱,没有一个集成的、通用的框架。至于各种特殊的效果,都得要通过计算机图形学的方式去实现。这样一来就造成了一个尴尬的局面,学GIS的不一定能干的过学计算机的,因为这里面涉及到的GIS转换都被框架封装了,因此这就要求我们广大GISer不断加深理论研究和实践应用,自立自强、光大门楣。
6.4 GIS科普、创意视频赛道有望持续增长
现在结合短视屏生成工具Sora、可灵、AI音频生成工具、自动配音工具等,可以快速的生成短视屏。唯一美中不足的是短视屏生成长视屏需要解决画面转场过程中的背景、环境、动作、bgm等等的协调一致,视屏首尾帧的衔接流畅,都需要耗费大量的时间,另外也需要懂一些剪辑软件的使用。而这些其实还都是基础,在这些基础之上,最重要的是创意。即我们GIS要如何结合历史、地理、人文等等知识,讲解好每个故事。如李白的流浪轨迹、东坡肉的制作过程、三峡的修建、都江堰的奇迹…广大GISer们去探索吧。
6.5 小说、风水等小众赛道
不知道有多少人曾经看过中科院成都山地所张信保老师的《100个科研故事》。这本书还是当年读研究生时在课堂上我的导师推荐给我们的,初入科研的我们当时读来只觉得新奇有趣。该书通过这些故事发生的环境背景和作者大学毕业后的人生经历,让读者对我国的过去和他们这一代知识分子有更深刻的了解。作者以亲身的践行,阐明了如何在滑坡、土流、泥石流,核示踪与侵蚀泥沙,水土保持与生态修复,西南喀斯特和地貌演化的科研工作中敏锐地发现问题,深刻地认识问题,切合实际地解决问题的全过程。
每个方向都有一批感兴趣的人,GISer们何不把自己的经历也整理成为一本小说,也许突然火了呢?还是星爷说的好,人没有梦想何咸鱼有什么区别,哈哈哈。另外就是风水赛道,风水这个东西,不好说。信则有不信则无。有些人对这个东西深信不疑,有些人又觉得毫无逻辑。就像中医的穴位一样,对西医来说,也找不到过硬的佐证。所以不同价值观人的没必要硬往一起掰,我觉得各自玩各自的,挺好。
6.6 这些工作都被AI干了我们干什么去?
我觉得没必要过分悲观,新技术的出现会让一部分岗位消失,但是也会产生一些新的岗位。我想过去历次工业革命、科技革命已经说明了这个问题。而当下AI会影响哪些人?我觉得是那些抵制AI,不能拥抱AI,不能正确使用AI,不会灵活使用AI的人。就拿智能体来说,只要你使用过了之后,你就会发现智能体之间要交流沟通,SOP(标准工作流程)很重要;要想使用好智能体,提示词很重要;当AI干不好时,及时纠错很重要;而这些关系、流程,架构等等都需要人去维护。因此各位的担忧我觉得大可不必。尽早进入到这个领域里来才是正事。毕竟雷军说过,站在风口上,猪也能飞起来。不要逆着潮流走,顺着潮流走,你会事半功倍的。
7 总结
这几年大家都很艰难。我们GIS行业也因主要项目都来自事业单位,经济下行周期,很多单位都出现了回款困难的问题。其实大家都一样,不要慌。人生么,就是酸甜苦辣咸各种味道,不能总是甜,也不会总是苦。你只管大步向前,其他的交给时间。人生匆匆几十年,干点自己喜欢的事吧。最近网传当年明月疯了,如果是真的,实在令人唏嘘。前段时间才读完《明朝那些事儿》,受益匪浅,不希望作者出任何事。
现在AI发展的速度太快了,用一天一个样来形容毫不夸张。2024年初的时候还没什么单位招搞智能体的人才,大都是招搞大模型的人才。现在到2025年了,再去看,出现了一大批招智能体人才的公司,不过都是大公司。毕竟小公司耗不起这个烧钱的玩意儿,在形势没有完全明朗之前,公司和个人都需要自己去探索。我自己在做AIGIS智能体,中国地质大学团队在做MapGPT智能体,相信未来会出现更多的智能体,期待那一天到来。我目前比较推荐SceneX + Genesis框架去做三维GIS,相信未来这两AI框架都能迸发出强大的生命力。Genesis目前已经开源了部分代码,可以快速生成很精细的场景和动作。有兴趣的同学可以公众号回复Genesis交流群深入交流。
本文就分享到这里了,自己一点不成文的思考,让各位见笑了,欢迎读者交流指正。最后以一张图结束本文,勉励自己和所有 AI 从业者。