我自己的原文哦~ https://blog.51cto.com/whaosoft/14193077
#北大校友、华人学者金驰新身份
普林斯顿大学终身副教授
今天,华人学者金驰(Chi Jin)宣布他在普林斯顿晋升为终身副教授。
金驰于 2019 年加入普林斯顿大学电气与计算机工程系,担任助理教授。在普林斯顿的 6 年任期内,他在 AI 领域的学术影响力迅速提升。
- 个人主页:https://sites.google.com/view/cjin/
他的副教授任命将于 2026 年 1 月 16 日正式生效。这一任命不仅是金驰个人学术生涯的重要里程碑,更是对他在机器学习理论领域所做出的基础性贡献的高度认可,这些贡献为当前 LLM 的崛起提供了关键的数学基石。
去年 2 月,金驰与杨笛一、杜少雷等华人学者一起获得了 2024 斯隆奖。
主要贡献
金驰的职业生涯恰逢深度学习革命的爆发。自 2012 年 AlexNet 引领热潮以来,学界与业界在 2010 年代中期已能训练大规模非凸模型,但一个根本问题依然悬而未决:为何像随机梯度下降(SGD)这样简单的优化器能如此有效,尤其在鞍点问题上缺乏理论解释。
金驰与导师 Michael I. Jordan 等人的合作正面回应了这一挑战,为深度学习的实践成功提供了坚实的理论基础。
与此同时,随着强化学习因其在复杂控制和 AI 对齐中的潜力而受到关注,他的研究也为强化学习核心算法的样本效率建立了严谨证明。
总体而言,金驰的工作为两个核心问题奠定了理论保障:
- 如何高效训练庞大而复杂的模型?
- 如何确保这些模型在与人类交互时可靠且有益?
非凸优化
深度学习训练的核心挑战之一是非凸优化。与只有唯一最优解的凸问题不同,神经网络的损失函数景观充满局部最小值与鞍点。鞍点尤其棘手:梯度为零却不是最优解,可能导致算法停滞。长期以来,人们担心优化器会在高维空间中被困住。
金驰通过多篇论文证明,即便是简单的梯度方法,只要存在少量噪声(无论来自 SGD 本身还是显式加入),就能有效「逃离」鞍点,并在多项式时间内继续向更优区域探索。
- 论文标题: How to Escape Saddle Points Efficiently,ICML 2017
- 论文地址:https://arxiv.org/abs/1703.00887
- 论文标题: Accelerated Gradient Descent Escapes Saddle Points Faster than Gradient Descent,COLT 2018
- 论文地址:https://arxiv.org/abs/1711.10456
这些成果证明,鞍点并非不可逾越的障碍,优化过程在计算上也相对「廉价」。
在金驰等人的工作之前,深度学习的实践成功已超前于理论,但始终存在疑问:我们是否只是「运气好」?会不会在某种规模下,简单方法彻底失效?
金驰与合作者给出了明确答案:对于一大类函数,鞍点不是根本性障碍。
这项工作成为大型模型训练的隐形基石。它解释了为何简单的算法在复杂问题上表现出「不合理的有效性」,也让公司和研究机构敢于投入数十亿美元进行模型训练,确信底层优化过程是稳健的。从理论优化角度看,金驰为深度学习的规模化扫清了一个重大风险。
强化学习:可证明的高效性
强化学习(RL)的核心是智能体通过与环境交互学习决策,以最大化累积奖励。然而,在许多现实应用中,交互成本高昂或缓慢,因此样本效率成为关键指标。其常用的衡量方式是遗憾值(regret)——智能体表现与最优策略的差距。低遗憾值意味着算法能以更少样本学到有效策略。
金驰在多篇高被引论文中,为基础 RL 算法建立了严格的遗憾界限,推动了理论突破:
- 论文标题: Is Q-learning Provably Efficient?,NIPS 2018
- 论文地址:https://arxiv.org/abs/1807.03765
- 论文标题: Provably Efficient Reinforcement Learning with Linear Function Approximation,COLT 2020
- 论文地址:https://arxiv.org/abs/1907.05388
这些工作首次证明了无模型算法(如 Q-learning)在复杂设定下依然具备样本效率,达到了近乎最优的
遗憾界限(T 为总步数)。这使 RL 理论达到了与多臂赌博机等经典问题相当的严谨性,为函数逼近与大状态空间下的学习奠定了数学基础。
金驰的研究承接了两端:一端是深度强化学习在 AlphaGo 等系统中的实践成功,另一端是抽象的序列决策数学理论。他的成果解释了为何「面对不确定性时的乐观主义」这一启发式策略有效,并为其提供了坚实的理论基础。例如,他证明了最小二乘价值迭代(LSVI)的乐观版本是可证明高效的。
这种理论保障不仅回应了学术上的疑问,也为开发更稳健、更可靠的 RL 算法提供了指导,确保其能在更高风险、更关键的应用中安全部署。
学术背景
金驰的学术背景为其理论研究奠定了坚实基础。他于 2012 年在北京大学获得物理学理学学士学位,这一背景为其后续研究注入了严谨的数学与分析思维。
随后,他前往加州大学伯克利分校深造,并于 2019 年获得电气工程与计算机科学博士学位。在此期间,伯克利正值人工智能与机器学习研究的关键发展期,为金驰提供了世界顶级的学术环境。
其博士阶段导师为 Michael I. Jordan 教授。Jordan 教授是机器学习领域的泰斗级人物,以其在统计学与计算机科学之间的桥梁性工作而闻名。这段师承关系将金驰置于一个强调统计严谨性与理论保障的学术传统之中。他早期的多篇关键论文,均是与 Jordan 教授合作完成的。
在 Google Scholar 网站上,他的论文引用数量已经达到 13588 次。
以下是我们之前报道过的金驰团队的相关工作:
- 普林斯顿团队领衔发布最强开源数学定理证明模型:32B 性能大幅超越前代 SOTA DeepSeek 671B
- 哥德尔-Prover 超过 DeepSeek-Prover,金驰、陈丹琦团队造出当前最强形式化推理模型
....
#Agent S3
你敢信?GPT-5的电脑操作水平只比人类低2%了
Agent(智能体)是最近一段时间的人工智能热点之一,将大语言模型的能力与工具调用、环境交互和自主规划结合起来,使其能够像虚拟助理一样完成复杂任务。
其中「计算机使用智能体」(computer-use agent,CUA)是一种能够直接在电脑环境中代替人类执行操作的智能体。它和传统的对话式 AI 不同,不只是回答问题,而是模拟人类使用鼠标、键盘和操作软件来完成任务。在该领域,Simular Research 推出的框架 Agent S 是典型代表之一。
一年前,Agent S 在 CUA 基准测试「OSWorld 」上取得了 20.6% 的成绩。此后能力继续扩展,Agent S2 将业界水平提升到了 48.8%。就在昨日,Agent S3 又刷新了自身记录,将性能拉升到了 69.9%,超出先前的 SOTA 10%,接近人类水平的 72%。
加州大学圣巴巴拉分校助理教授、Simular 研究负责人 Xin Eric Wang表示,「接下来是超越人类的计算机使用」。
在技术层面,Agent S3 直接在 Agent S2 的基础之上构建,通过简化框架并引入原生的代码智能体,将 OSWorld 上的性能提升至 62.6%,实现了新的 SOTA。
不仅如此,Agent S3 还首次引入了并行扩展的 CUA 框架 ——Behavior Best-of-N (bBoN),它不再依赖单次智能体运行,而是从多次 rollout(执行过程)中挑选最佳结果。这种方法解锁了可扩展的性能提升,使准确率从 62.6% 提高到 69.9%,并展示了智能体框架如何仅凭借扩展多样化运行次数,就能获得持续改进。
目前,Agent S3 已经放出了相关论文,并且完全开源。
- 论文标题:The Unreasonable Effectiveness of Scaling Agents for Computer Use
- arXiv 地址:https://arxiv.org/pdf/2510.02250
- 代码地址:https://github.com/simular-ai/Agent-S
接下来看 Agent S3 的技术和实验细节。
方法改进
计算机使用智能体(CUA)描绘了这样一个未来:软件自己运行,帮你订票、填写表格、操作应用,而你无需亲自动手。
但在当下,即便是最强的 CUA,在任务变得冗长复杂时也常常出错。一次误点、一次延迟响应,或者一个意外的弹窗,都可能让整个执行过程偏离轨道。小错误会不断叠加,本该顺畅的自动化最终变成了挫败感。
这正是 CUA 面临的核心瓶颈:高方差(即高波动性)。同一个智能体,可能这一次顺利完成任务,而下一次却完全失败。这种不一致性让 CUA 难以预测,也凸显了在复杂、日常工作流中实现可靠性的巨大挑战。
缓解这种脆弱性的一个自然方法是并行扩展(Wide Scaling):与其简单地接受单个智能体的一次执行结果,不如扩大智能体数量,让它们并行生成多个执行过程,再从中选择最佳结果。
这种并行扩展的思路利用了一个事实:尽管单个智能体往往不够理想,但它们通常会在不同的任务子集上互补成功。不过,对 CUA 进行规模扩展也带来了独特的挑战。
长时间跨度的执行轨迹信息密度极高,且包含多模态细节,其中大多数与任务成功无关,这使得轨迹的表示、理解和比较变得困难。同时,评估本身也并非易事:许多计算机使用任务本身存在多种有效解法,而自动化评估往往难以判断某条轨迹是否真正正确。
因此,要实现对 CUA 的有效并行扩展,需要全新的应对方法:
- 在紧凑编码长轨迹的同时,保留与任务相关的语义;
- 可靠地评估多样化的解题路径,从而识别出成功的执行结果。
针对此,Agent S3 引入了 Behavior Best-of-N (bBoN) 来实现 CUA 的并行扩展,包括以下两个关键组件:
(1) 行为叙事生成(Behavior Narrative Generation)
本文的方法从生成事实开始。原始的智能体运行包含大量逐步的细节,其中许多无关紧要或冗余。通过生成「事实」,将这些嘈杂的运行过程转化为简洁的陈述,只关注那些与任务成功直接相关的信息。而将这些事实串联起来,就形成了一个「行为叙事」,它清晰地总结了智能体在每一步的操作,使其运行过程更加可解释,也更易于比较。
(2) 行为最佳选择评判(Behavior Best-of-N Judge)
在得到行为叙事后,进一步应用评判机制来决定哪一次运行最能完成任务。与直接比较原始输出不同,评判过程基于每个行为叙事中的事实进行决策。通过跨运行引用这些事实,评判者可以进行对比推理,从而判断哪一次尝试最为有效,并最终选出最佳执行结果。
另外,上个版本 Agent S2 采用了管理者 — 工作者(manager–worker)分层结构。但是随着基础模型的增强,这种层级反而成了不必要的开销。
因此,Agent S3 对框架进行了精简,移除了这一层级结构,并引入了一个原生代码智能体,能够直接生成和执行代码。这样不仅让解决方案更加多样,既能处理代码任务,也能覆盖图形界面(GUI)任务,同时可靠性也得到了提升。
这些改进共同带来了约 13% 的性能提升,使 Agent S3 在单次运行上的表现达到 62.6%,刷新当前 SOTA。
实验结果
在改进基线的基础上,本文的核心贡献 Behavior Best-of-N (bBoN),在 GPT-5 上实现了 69.9% 的成功率(SR),相比 Agent S3 的单次运行提升了 7.3 个百分点;在 GPT-5 Mini 上实现了 60.2% 的成功率,提升幅度为 10.4 个百分点。
考虑到人类的表现大约为 72%,这些结果凸显了 bBoN 不仅大幅超越了现有方法,而且已经接近人类水平的能力。
此外,本文还在单次运行设定(不使用扩展)下,将 Agent S3 与 Agent S2 进行了对比。结果显示,Behavior Best-of-N 带来了 13.8% 的成功率提升,使每个任务的 LLM 调用次数减少了 52.3%,平均任务完成时间缩短了 62.4%。因此,Agent S3 不仅能力更强,而且效率更高。
增加智能体运行次数实现扩展
在 OSWorld 上,本文发现随着智能体运行次数的增加,性能会逐步提升。当并行运行 10 次智能体时,性能达到最高:GPT-5 的表现为 69.9%,GPT-5 Mini 的表现为 60.2%。
如何选择混合模型集成?
bBoN 可以在不同模型之间扩展。下表展示了 bBoN 在使用不同混合模型组合时的成功率和任务覆盖率。任务覆盖率的计算方式是:只要在某个任务中至少有一条轨迹正确,就认为该任务成功,即 Pass@N。
观察结果如下:
- GPT-5 + Gemini 2.5 Pro 的组合实现了 66.7% 的最高成功率和 78.0% 的任务覆盖率,这表明选择由能力互补且多样化的模型构成的混合模型集成,可以获得最佳性能,并将上限提升到最高。
- 最具多样性的混合(All) 相比任何单模型组合,取得了更高的任务覆盖率(75.4%),这证明了多样性是提升成功率上限的关键。
- 再次强调,GPT-5 + Gemini 2.5 Pro 的混合组合不仅实现了最高的成功率(66.7%),任务覆盖率也达到了 78.0%,说明模型的多样性选择能够带来最优表现和最高上限。
行为叙事与其他轨迹表示的对比
本文对行为叙事表示进行了消融实验。对比对象包括:
- 仅截图基线
- 简单描述基线(即对每张截图单独生成描述)
结果表明,行为叙事在 bBoN 中是一种更有效的表示方式,相比最佳基线提升了 3.4%。这说明仅依靠截图难以充分理解任务过程,而有必要在状态转变之间生成事实,而不是仅仅描述单一状态。
评判器对比
本文对 bBoN Judge 和 WebJudge 进行了对比。其中对 WebJudge 进行了修改,使其能够在多个轨迹中进行选择,方法是对轨迹进行独立排序,并选出排名最高的。
总体而言,bBoN Judge 的表现优于 WebJudge;而 WebJudge 相比单纯的多次运行平均性能,只带来了有限的提升。另外,随着运行次数的增加,bBoN Judge 的扩展性表现更好。
评判器与人类的一致性
本文考察了评判器可能提升性能的任务(占 OSWorld 的 44%),结果发现评判器在 78.4% 的任务上做出了正确选择。进一步复核后发现:评判器实际上在 92.8% 的任务上是正确的,这意味着 OSWorld 的真实性能更接近 76.3%。
这一结果表明,评判器与人类偏好具有较高的一致性,使其成为评估 CUA 任务的一个颇具前景的工具。
....
#吴恩达执教的深度学习课程CS230秋季上新
新增GPT-5专题
「人工智能是新的电力。」——吴恩达
吴恩达 (Andrew Ng) 执教的斯坦福 CS230 深度学习旗舰课程已更新至 2025 秋季版,首讲视频现已公开!
课程采用翻转课堂模式,学生需提前观看 Coursera 上的 deeplearning.ai 专项课程视频(包括神经网络基础、超参数调优、结构化机器学习项目等模块),然后参加线下课程。
- 课程主页:https://online.stanford.edu/courses/cs230-deep-learning
- YouTube:https://www.youtube.com/watch?v=_NLHFoVNlbg
- Coursera:https://www.coursera.org/learn/neural-networks-deep-learning
CS230 自 2017 年起开设,2025 秋季版在核心框架上与前几年(如 2024 秋季)相似,但引入了针对最新 AI 发展的更新。以下是主要区别:
- 最大变化:新增 GPT-5 专题章节
课程将深入探讨 OpenAI 于今年 8 月发布的 GPT-5 模型。内容覆盖其具体特性,如「过度拒绝」问题、安全行为机制、微调技术以及创新的 agentic workflows,紧密贴合多模态能力和 AI 伦理等前沿议题。
- 强化生成模型内容
在原有基础上,新版课程增强了对生成模型的讲解,并整合了最新的 RAG 和 AI Agents 等热门技术,并结合 GPT-5 进行案例分析。
- 更注重 AI 项目开发全生命周期
课程强调从科学、工程到决策的完整项目技能,并推荐使用如 Workera 等前沿评估工具来辅助技能提升与项目实践。
这是该课程的教职工阵容:
- 吴恩达 (Andrew Ng):斯坦福大学客座教授,Coursera 和 DeepLearning.AI 创始人。他在人工智能领域的开创性研究和致力于普及 AI 知识的贡献闻名于世。
- Kian Katanforoosh:斯坦福大学讲师,长期主讲 CS230。他也是 AI 技能评估平台 Workera 的创始人兼 CEO,曾入选《福布斯》「30 Under 30」榜单,并因卓越教学荣获斯坦福大学多项大奖。
课程简介
CS230 是斯坦福大学计算机科学系开设的一门关于深度学习的旗舰课程。它旨在为学生提供深度学习领域的全面、深入且实践性强的知识。
这门课由人工智能领域的顶尖专家,特别是 Andrew Ng (吴恩达) 教授及其团队打造,因此在全球范围内都享有极高的声誉。
CS230 的核心目标是让学生掌握构建和应用深度学习模型所需的理论基础和实践技能。课程内容覆盖了从基本的神经网络概念到当前最前沿的深度学习架构。
与偏重理论的课程不同,CS230 极其强调动手实践,学生将通过一系列编程作业和最终的大型项目来巩固所学知识。
课程时间表与内容
2025 年秋季课程从 9 月底开始,持续约 10 周。以下是主要日程(基于 2025 秋季大纲,可能有微调):
- 教学大纲:https://cs230.stanford.edu/syllabus/
课程核心主题
CS230 覆盖了从基础理论到前沿应用的完整知识体系,并极其强调动手实践。
- 神经网络与深度学习基础:打下坚实的理论根基。
- 神经网络优化技术:学习正则化、Adam 优化器、超参数调优、Dropout、批量归一化 (BatchNorm) 等关键技术。
- 机器学习项目构建策略:掌握从构思到成功部署一个完整机器学习项目的策略与方法。
- 卷积神经网络 (CNN):深入理解 CNN 及其在图像分类、目标检测、人脸识别等领域的应用。
- 循环神经网络 (RNN):掌握 RNN、LSTM 及其在自然语言处理、语音识别等序列任务中的应用。
- 前沿高级主题:探索生成对抗网络 (GANs)、深度强化学习、对抗性攻击等。
- 行业与学术洞见:获取来自产业界与学术界的宝贵见解,以及实用的 AI 职业发展建议。
....
#One Flight Over the Gap
Insta360最新全景综述:全景视觉的挑战、方法与未来
本文作者团队来自 Insta360 影石研究院及其合作高校。目前,Insta360 正在面向世界模型、多模态大模型、生成式模型等前沿方向招聘实习生与全职算法工程师,欢迎有志于前沿 AI 研究与落地的同学加入!简历投递邮箱:research@insta360.com
在虚拟现实、自动驾驶、xx智能等新兴应用中,全景视觉正逐渐成为不可或缺的研究方向。相比于常规透视图像(正常平面图像,也是大部分 CV 任务使用的标准输入),全景图像捕捉的是 360°×180° 的完整球面视域(包含四周、头顶天空与脚下地面),仿佛将站立点周围的整个空间展开成一张“大照片”。正因两者在几何投影、空间采样与边界连续性上的本质差异,直接把基于透视视觉开发的算法迁移到全景视觉往往失效。
本文基于 300+ 篇论文、覆盖 20+ 代表性任务,首次以 “透视-全景 gap” 为主线,系统梳理了三大 gap、两条核心技术路线与未来方向展望,既帮助研究者 “按任务选解法”,也为工程团队 “按场景落地” 提供清晰坐标。
- 论文标题:One Flight Over the Gap: A Survey from Perspective to Panoramic Vision
- 项目地址:https://insta360-research-team.github.io/Survey-of-Panorama/
- 综述文章链接: https://arxiv.org/pdf/2509.04444
- 全景文章汇总链接:https://github.com/Insta360-Research-Team/panoramic-vision-survey
研究背景与动机
左侧展示了由全景相机获取的球面影像,经过投影后变成常见的等距矩形投影 (ERP) 全景图像。相比下方的透视图像,虽然能完整覆盖 360° 场景,却引入了三大核心挑战:
- 几何畸变:球面展开到平面时,两极区域被严重拉伸,物体形状被破坏。
- 非均匀采样:赤道像素密集、极区像素稀疏,同一物体在不同纬度分辨率差异明显。
- 边界连续性:ERP 左右边界实际上在球面上相邻,但在二维图像上却被分割,导致模型学习时出现连续性问题。
这三大 gap 正是透视方法难以直接适配全景场景的根源,也构成了后续研究创新的出发点。相较现有的全景视觉综述多沿 “单一任务线” 纵向梳理,本文以 “透视→全景” 的 gap 为问题原点进行分类与分析,从数据、算法到应用层面揭示两者差异及全景研究滞后的原因,这是一个更具动机张力、且现有综述未充分展开的创新视角。
策略速览
四类方法、一张图看懂任务适配
在全景视觉中,分割/修复等依赖全局语义一致性,而深度/光流等强调局部几何精度,因此形成了不同策略谱系。图(c)给出跨方法(cross-method)纵向对照:明确 Distortion-Aware / Projection-Driven / Physics-/Geometry-based 的适用分工,并与代表性任务逐一进行策略适配。其价值在于提供一个统一参考:研究者可从整体视角理解任务需求,快速选型或设计最合适的方法,也为多策略融合与后续创新奠定基础。
图(a)和图(b)分析了两种典型的策略:
① Distortion-Aware(失真感知方法):直接在 ERP 全景格式上建模,通过畸变设计、畸变图权重或自适应注意力来补偿极区问题。
- 优势:保留全局像素级别的语义对应,不丢失信息;与主流架构高度兼容;端到端设计,简洁易用。
- 局限:极区残余畸变依旧影响准确率;在几何敏感任务(如深度、光流)上鲁棒性不足。
② Projection-Driven(投影驱动方法)
- 思路:通过立方体投影(Cubemap)、切平面投影(Tangent)、二十面体投影(Icosahedron)等,将球面转换为多个畸变较小的子视图。
- 优势:有效缓解极区畸变与接缝问题;能直接复用透视模型和大规模预训练网络;在几何敏感任务中表现突出;可根据应用灵活选择不同投影。
- 局限:多视图信息碎片化,需要额外融合机制;计算与存储开销更高;部分投影方式需定制网络结构。
③选型分析:
- Distortion-Aware 适配:全局语义一致性与感知质量的任务(超分辨率、修复、补全、分割、检测。
- Projection-Driven 适配:强调局部几何精度的任务(深度估计、光流、关键点匹配、新视角合成;多模态融合任务。
两大策略的交叉适配:
- 超分辨率:视频播放 / 沉浸显示→ Distortion-Aware(强调整体一致性);结构 / 精细重建→Projection-Driven(强调几何保真)。
- 文生图 / 视频生成:保证整体语义对齐→Distortion-Aware;提供更细粒度的局部几何控制→Projection-Driven。
Physics-driven 适配:一些特异性的任务依赖物理先验(如光照估计、反射去除、布局检测)。
任务工具箱
20+ 任务一览,按任务选策略
这是全文的横向 cross-task 对照表:将全景视觉的 20+ 代表性任务按四大板块归类(增强与评估、理解、多模态、生成),并在每个任务下标注了具有代表性的方法路线与代表工作。它与前一张 “cross-method” 图形成互补:前者 “纵向看方法→适配哪些任务”,这张表 “横向看任务→常用哪些策略 / 里程碑工作”。
具体地,左侧是任务清单。每一行右侧列出该任务的主流路线及典型论文。这让读者可以反向索引:从任务入手,快速定位合适的技术路线与关键文献。值得一提的是关于新范式加速渗透的整理:Diffusion / 生成式模型在 T2I/V、IC、NVS 与世界模型方向快速涌现,强调语义一致与可控性;3DGS:在 NVS / 场景重建中带来高效高保真渲染;多模态对齐尤其是音频 / 文本 / LiDAR 与全景的对齐成为新热点。
未来展望
关于全景视觉的未来,要想从 “可用” 走向 “好用”,需要在数据—模型—应用三条主线上同步推进:
(1) 数据瓶颈(图左上)
- 数量:缺少大规模、跨任务、跨场景的标准 360° 数据,限制通用训练与可复现评测。
- 多样性:过度集中于室内 / 城市场景,自然 / 空中 / 混合环境覆盖不足,难以走向开放世界。
- 质量:高质量、细粒度标注(深度 / 分割 / 检测 / 跟踪 / 建图)稀缺,真实场景标注成本高。
- 多模态:图文、视音频、LiDAR 等跨模态资源不足,制约 VQA、生成与对齐研究进程。
(2) 模型范式(图右上)
- 基础模型:将对比 / 掩码 / 自监督迁移到全景视觉;从大规模透视模型迁移到全景域,强调零样本鲁棒性。
- 专家模型:面向检测 / 分割 / 深度 / 时序等,设计参数高效的全景专家模块,与预训练骨干解耦协同。
- 多模态:语言 - 音频 - 全景的空间连续性与对齐仍是难点;亟需理解+生成一体化与世界模型式框架。
- 全景生成:评测指标缺失、极区一致性、真实畸变复现、曲线运动轨迹建模与全景视频时空一致性是核心痛点。
(3) 下游应用(图下)
- 空间智能与自动系统:xx智能、自动驾驶、UAV 导航,依赖无盲区全局感知与稳健决策。
- XR 与沉浸式交互:全景录制与高分辨生成 + 空间音频 / 触觉等多感官,走向轻量化穿戴端。
- 三维重建与数字孪生:全景→完整重建 / 数字孪生,支撑智慧城市 / 文博修复等。
- 广泛的社会应用:安防、教育、文娱、医疗等行业化场景,强调可部署性与合规性。
结语
透视到全景并非一次简单的 “投影转换”,而是一场贯穿数据、模型与应用的系统性升级。本综述以 “透视—全景 gap” 为主线,梳理挑战、方法与未来应用,为研究者与工程团队提供按任务选型的 “路线图”。我们也欢迎社区共同完善基准与数据,推动全景视觉在 XR、机器人系统与数字孪生等关键场景中真正 “好用、可用、可落地”。
....
#xxx
....
#xxx
....
#xxx
....
#xxx
....
#xxx
....
#xxx
....
#xxx
....
#xxx
....
#xxx
....
#xxx
....
#xxx
....
#xxx
....
#xxx
....
#xxx
....
#xxx
....
#xxx
....