重塑生成式AI研究前景的综述：谷歌的Gemini和OpenAI的Q*_首次提出generative artificial intelligence概念的论文-CSDN博客

本文链接：https://blog.csdn.net/yorkhunter/article/details/139401221

23年12月来自澳大利亚和新西兰的综述论文“From Google Gemini to OpenAI Q* (Q-Star): A Survey of Reshaping the Generative Artificial Intelligence (AI) Research Landscape“。

这项综合调研探讨了生成性人工智能（AI）的发展前景，特别关注专家混合（MoE）、多模态学习的变革影响，以及对通用人工智能（AGI）的推测进步。它批判性地研究了生成人工智能（AI）的现状和未来轨迹，探索了谷歌的Gemini和预期的OpenAI Q*项目等创新如何重塑各个领域的研究重点和应用，包括对生成人工智能研究分类法的影响分析。它评估了这些技术的计算挑战、可扩展性和现实世界的影响，同时强调了它们在推动医疗保健、金融和教育等领域取得重大进展方面的潜力。它还解决了人工智能主题和人工智能生成论文激增所带来的新学术挑战，研究了它们对同行评审过程和学术交流的影响。该研究强调了将伦理和以人为本的方法纳入人工智能开发的重要性，确保与社会规范和福利保持一致，并概述了未来人工智能研究的战略，重点是MoE的平衡和认真应用、多模态和生成式AI中的AGI。
如图是arXiv上面cs.AI类论文的统计：

添加图片注释，不超过 140 字（可选）

专家混合（MoE）是一种范式转变。LLM中MoE架构的采用标志着人工智能技术的关键演变。这种创新的方法，以谷歌的Switch Transformer和MistraAI的Mixtral-8x7B等高级模型为例，利用多个基于Transformer的专家模块进行动态token路由，提高了建模效率和可扩展性。MoE的主要优势在于它能够处理巨大的参数规模，显著减少内存占用和计算成本[93]，[94]，[95]，[96]，[97]。这是通过跨专业专家的模型并行性实现的，允许训练具有数万亿参数的模型，其在处理不同数据分布方面的专业化增强了其在少样本学习和其他复杂任务中的能力[94]，[95]。为了说明MoE的实用性，请考虑其在医疗保健中的应用。例如，基于MoE的系统可以用于个性化医疗，不同的“专家”模块专门从事患者数据分析的各个方面，包括基因组学、医学成像和电子健康记录。这种方法可以显著提高诊断准确性和治疗个性化。同样，在金融领域，MoE模型可以用于风险评估，专家可以分析不同的财务指标、市场趋势和监管合规因素。

尽管如此，但MoE在动态路由复杂性[98]、[99]、[100]、[101]、[102]、专家不平衡[103]、[104]、[105]、[106]和概率稀释[107]方面面临挑战，这些技术障碍需要复杂的解决方案来充分利用MoE的潜力。此外，虽然MoE可以提高性能，但它并不能从本质上解决人工智能[108]、[109]、[110]中的道德一致问题。MoE模型的复杂性和专业化可能会模糊决策过程，使确保道德合规和与人类价值观一致的努力复杂化[108]，[111]。尽管向MoE的范式转变标志着LLM发展的重大飞跃，提供了显著的可扩展性和特殊化优势，但确保这些模型的安全性、道德一致性和透明度仍然是最重要的问题。MoE的架构虽然技术先进，但需要持续的跨学科研究和治理，以使人工智能与更广泛的社会价值观和道德标准保持一致。

谷歌Gemini重新定义多模态的基准。Gemini是一个开创性的多模态会话系统，它超越了传统的基于文本的LLM，如GPT-3，甚至其多模态组件ChatGPT-4，标志着人工智能技术的重大转变。Gemini的架构旨在整合文本、图像、音频和视频等多种数据类型的处理，其独特的多模态编码器、跨模态注意网络和多模态解码器提供了便利[112]。Gemini的架构核心是其双编码器结构，具有用于视觉和文本数据的独立编码器，实现了复杂的多模态上下文分析[112]。该架构超过了单编码器系统的能力，使Gemini能够将文本概念与图像区域相关联，并实现对场景的组合理解[112]。此外，Gemini整合结构化知识，并为跨模态智能采用了专门的训练范式，为人工智能树立新的基准[112]。在[112]中，谷歌声称并证明Gemini通过几个关键功能与ChatGPT-4区别开来：

模态的广度：与主要关注文本、文档、图像和代码的ChatGPT-4不同，Gemini处理的模式范围更广，包括音频和视频。这种广泛的范围使Gemini能够更有效地处理复杂的任务和理解现实世界的环境。
性能：Gemini Ultra在关键的多模态基准测试方面表现出色，尤其是在大规模多任务语言理解（MMLU）方面，它涵盖了科学、法律和医学等多个领域，优于ChatGPT-4。
可扩展性和可访问性：Gemini有三个定制版本——Ultra、Pro和Nano——可满足从数据中心到设备上任务的一系列应用程序，这是ChatGPT-4中所没有的灵活性。
代码生成：Gemini在理解和生成各种编程语言的代码方面的熟练程度更高，提供了超出ChatGPT-4能力的实际应用程序。
透明度和可解释性：对可解释性的关注使Gemini与众不同，因为它为其输出提供了理由，增强了用户对人工智能推理过程的信任和理解。

多模态人工智能系统的开发面临着几个技术障碍，包括创建强大和多样化的数据集、管理可扩展性以及增强用户信任和系统可解释性[113]，[114]，[115]。由于数据获取和注释问题，数据偏斜和偏差等挑战普遍存在，这需要通过采用数据增强、主动学习和迁移学习等策略进行有效的数据集管理[113]、[116]、[80]、[115]。一个重大挑战是同时处理各种数据流的计算需求，需要强大的硬件和多编码器的优化模型架构[117]，[118]。需要先进的算法和多模态注意机制来平衡跨不同输入媒体的注意，并解决模态之间的冲突，尤其是当它们提供矛盾的信息[119]，[120]，[118]。由于所需的大量计算资源，有限的高性能硬件可用性加剧了可扩展性问题[121]，[122]。还迫切需要校准的多模态编码器，用于合成场景理解和数据集成[120]。完善这些系统的评估指标对于准确评估现实世界任务中的性能是必要的，需要全面的数据集和统一的基准，并通过可解释的人工智能在多模态环境中增强用户信任和系统可解释性。应对这些挑战对于多模态人工智能系统的发展至关重要，实现与人类期望一致的无缝智能交互。

多模态人工智能系统的扩展带来了好处，也带来了复杂的道德和社会挑战，这些挑战超出了基于文本的人工智能所面临的挑战。在商业中，多模态AI可以通过整合视觉、文本和听觉数据来改变客户参与度[123]，[124]，[125]。对于自动驾驶汽车，多模态可以通过合成来自各种传感器的数据来增强安全性和导航性，包括视觉、雷达和激光雷达（LIDAR）[126]，[125]，[127]。尽管如此，DeepFake技术生成令人信服的逼真视频、音频和图像的能力是多模态中的一个关键问题，因为它带来了错误信息和操纵的风险，严重影响了公众舆论、政治景观和个人声誉，从而损害了数字媒体的真实性，并在社会工程和数字取证中提出了问题，在这些问题中，区分真实内容和人工智能生成的内容变得越来越具有挑战性[128]，[129]。在多模态人工智能中，由于其处理和关联不同数据源的能力，隐私问题被放大，可能导致侵入性监视和分析，这引发了对个人同意和权利的质疑，尤其是当未经个人许可使用的人工智能训练或内容创建[113]，[130]，[131]。此外，多模态人工智能可以在不同的模态中传播和放大偏见和刻板印象，如果不加以控制，这可能会使歧视和社会不平等永久化，因此必须有效解决算法偏见[132]，[133]，[134]。多模态人工智能系统的道德发展需要强有力的治理框架，重点关注透明度、同意、数据处理协议和公众意识，而道德准则必须不断发展，以应对这些技术带来的独特挑战，包括制定数据使用标准和防止个人信息非许可的利用[135]，[136].此外，人工智能读写程序的发展对于帮助社会理解多模态人工智能技术并负责任地与之互动至关重要[113]，[135]。随着该领域的进展，跨学科合作将是确保这些系统在符合社会价值观和伦理原则的方式下开发和部署的关键[113]。

从以游戏为中心的人工智能AlphaGo到概念Q项目的历程，代表了人工智能的一次重大范式转变。AlphaGo对围棋游戏的精通凸显了深度学习和树搜索算法在定义明确基于规则环境中的有效性，突显了人工智能在复杂战略和决策中的潜力[137]，[138]。然而，据推测，Q将超越这些限制，旨在将强化学习的优势（如AlphaGo中所示）与LLM的知识、自然语言生成（NLG）、创造力和多功能性以及A类寻路算法的战略效率相结合。这种融合，融合了寻路算法和LLM，可以使人工智能系统超越棋盘游戏的限制，并通过Q的自然语言处理与人类语言交互，实现细微的交互，标志着向擅长结构化任务和复杂的类人通信和推理的人工智能迈进。此外，Q-学习和A算法的结合将使Q能够优化决策路径并从其交互中学习，随时间的推移，使其更具适应性和智能性。这些技术的结合可能会使人工智能不仅在解决问题方面更高效，而且在方法上更具创造性和洞察力。从AlphaGo以游戏为中心的力量到Q的全面潜力，这一推测性的进步说明了人工智能研究的动态和不断发展的本质，并为人工智能应用开辟了可能性，这些应用与人类生活更加融合，能够以更大的自主权和复杂性处理更广泛的任务。

预期中的Q项目将Q-学习和A算法与LLM的创造力相结合，体现了人工智能的突破性一步，有可能超越Gemini等最近的创新。Q中提出的融合，指向结构化、目标导向的学习与生成式创造性能力的融合，这种结合可以超越Gemini现有的成就。虽然Gemini代表了多模态人工智能的重大飞跃，它结合了文本、图像、音频和视频等各种形式的数据输入，但据推测，Q将带来创造性推理和结构化解决问题的更深刻融合。这将通过将A类算法的精度和效率与Q-学习的学习适应性、以及LLM提供的对人类语言和上下文的复杂理解相结合来实现。这种集成可以使人工智能系统不仅能够处理和分析复杂的多模态数据，而且能够自主地在结构化任务找到方法，同时参与创造性的问题解决和知识生成，反映出人类认知的多方面性质。这一潜在进步的意义是巨大的，表明其应用范围超出了Gemini等当前多模态系统的能力。将传统人工智能算法的确定性与LLM的创造性和生成潜力相结合，Q可以为人工智能开发提供一种更全面的方法。这可以弥合人工智能的逻辑、基于规则的处理与人类智能的创造性、抽象思维特征之间的差距。Q*的推出，将结构化学习技术和创造性解决问题的方法融合在一个单一的高级框架中，有望不仅扩展而且显著超越Gemini等系统的多模态能力，从而预示着生成人工智能领域的另一个改变游戏规则的时代，展示了其潜力，这是人工智能发展过程中人们热切期待的一个关键发展。

下表是目前生成式AI和LLM研究的分类：模型架构分成Transformer、RNN、MoE和多模态模型，训练方法分成监督、无监督、强化和迁移学习，应用域分成自然语言理解、自然语言生成、对话AI和创造性AI，合规性和道德考量包括减缓偏差、数据安全、AI伦理和隐私保护，高级学习包括自监督、元学习、微调和人类价值对齐，涌现趋势包括多模态、交互协同AI、人工通用智能（AGI）开发和控制。

添加图片注释，不超过 140 字（可选）

MoE模型体系结构代表了基于Transformer语言模型的开创性进展，提供了无与伦比的可扩展性和效率，如图所示概念图。正如最近的模型所证明的那样，如1.6万亿参数的Switch Transformer[285]和8x7B参数的Mixtra[286]，基于MoE的设计正在迅速重新定义不同语言任务的模型规模和性能的前沿。

添加图片注释，不超过 140 字（可选）

在新兴的人工智能领域，预期的Q项目是潜在突破的灯塔，预示着可能重新定义AI能力格局的进步，如图是预期Q的概念图。中心是增强的通用智能，自学习和探索、人类级理解、常识推理和真实世界知识集成等汇聚在其中。

添加图片注释，不超过 140 字（可选）

AGI是人工智能的一次变革性飞跃，致力于在软件范式中反映人类的认知能力，如图是AGI能力的概念性图。AGI的发展以先进的自学习能力为标志，利用策略神经网络和复杂的强化学习技术进行自主适配。将思维树/思维图等算法与这些网络相结合，预示着AGI可以在不同领域独立获取和应用知识的未来。

添加图片注释，不超过 140 字（可选）

生成式AI的应用领域非常多样化和不断发展，包括已建立和新兴的研究和应用领域。这些领域受到了人工智能技术最新进展和人工智能应用范围不断扩大的显著影响。

会话性AI：该领域致力于开发能够流畅、自然和上下文感知的人机交互AI系统，专注于对话建模、问题回答、用户意图识别和多轮上下文跟踪[204]、[205]、[206]、[207]。在金融和网络安全领域，人工智能的预测分析改变了风险评估和欺诈检测，带来了更安全、更高效的运营[205]，[19]。Meena和BlenderBot等大型预训练模型证明了这一领域的进步，显著增强了人工智能交互的同理和反应能力。这些系统不仅提高了用户的参与度和满意度，而且在多轮对话中保持了对话的流畅性，提供了连贯、情境相关和引人入胜的体验[208]，[209]。

创造性AI：这一新领域横跨文本、艺术、音乐等，通过参与艺术内容的生成，包括创意生成、讲故事、诗歌、音乐创作、视觉艺术和创意写作等方面的应用，在包括图像、音频和视频在内的各种形式上突破了人工智能的创造和创新潜力的边界，并在商业上取得了成功，如MidJourney和DALL-E[210]，[211]，[212]。该领域的挑战包括找到合适的数据表示、算法和评估指标，有效评估和培养创造力[212]，[213]。创造性人工智能不仅是自动化和增强艺术过程的工具，也是探索新的艺术表达形式媒介，能够创造多样的创造性产出[212]。这一领域代表着人工智能参与和贡献创造性努力的能力的重大飞跃，重新定义了技术和艺术的交叉点。