1:什么是AI
AI:人工智能(Artificial Intelligence)的缩写。
Artificial: 人造的,人工的
Intelligence:智力,才能,智能
AI是指由计算机系统所表现出的智能行为,以及与其相关的理论、方法和技术。简而言之,AI旨在使机器具备类似于人类的智能,能够执行复杂的任务,包括但不限于理解语言、学习新知识、识别图像、进行逻辑推理以及解决复杂问题等。
2:AI多模态
可以同时处理多种类型的数据:
1:文本
2:图像
3:视频
4:声音
5:传感器数据,等等
而单一模态的模型是指只能处理文字或图片或声音的模型。
我们再看一下人类是怎么感知世界的:
感知:通过五官(视觉、听觉、嗅觉、味觉、触觉)来感知外界事物,获取现实世界的信息。
视觉:通过眼睛观察周围的世界,捕捉光线和颜色,形成对物体形状、大小、颜色、位置等属性的认识。
听觉:通过耳朵聆听声音,识别声音的来源、音调、音色和节奏等,从而感知外界的声音信息。
嗅觉:通过鼻子嗅闻气味,区分不同的气味类型,获取关于物体和环境的气味信息。
味觉:通过舌头品尝食物和饮料的味道,感知甜、咸、酸、苦等基本味道,以及更复杂的味道组合。
触觉:通过皮肤感受触摸、温度和压力等物理刺激,获取关于物体形状、质地、温度等属性的信息。
思维:在感知的基础上,对获取的信息进行加工、分析、归纳、总结,形成对事物的认识。思维方式包括归纳、演绎、类比、抽象等,这些思维方式帮助人们理解世界、解决问题和做出决策。
语言:通过语言表达和交流思想,传递信息。语言是人类认识世界的重要工具,它使人们能够共享知识、经验和观点,从而深化对世界的理解。
所以输入图片,就相当于让AI看到世界,输入声音就相当于让AI听到世界,等等,多模态的核心就是让AI能接收多维度的信息类别。(核心:怎么更像人~~)
3:AI模型参数
AI模型参数是指在定义AI模型时需要设定的变量。参数是指模型的大小,一般来说参数越大,模型的能力越强。大模型的参数单位一般用“B”来表示,1B代表10亿参数。
参数是 AI 模型在训练过程中学习和调整的变量。它们的数量决定了模型的复杂度和性能。参数越多,模型能够表示更复杂的关系,从而在任务上取得更好的效果,但也需要更多的训练数据和计算资源。
例如:GPT-3 拥有 1750 亿个参数
4:AI Token
Token:代币,象征
token是大模型处理数据的最小单位,比如一个字、一个词、一个像素、一段音轨等。
5:大语言模型(LLM)
大语言模型:Large Language Model,简称LLM
能听懂人话并且和人沟通的模型,叫做大语言模型。
大语言模型是一种基于深度学习和自然语言处理技术构建的模型,它通过对海量的文本数据进行训练,学会了理解和生成人类语言的能力。这种模型能够处理复杂的自然语言任务,如文本生成、问答、对话等。其工作原理通常包括预处理、建模和生成文本三个主要步骤。在预处理阶段,会对语料库进行分词、去除停用词等操作;在建模阶段,模型会根据语料库中的数据学习语言规则;在生成文本阶段,模型会使用已经学习的语言规则来生成与上下文连贯的文本。
6:机器学习
从数据中学习规律和模式的方法,通过数据来预测,分类或者决策。
7:具身AI
具身AI:Embodied AI
指一种具有物理身体并能通过感知和交互与环境进行实时互动的智能系统。
简单来说,它让AI不再局限于虚拟世界的数据处理和决策,而是能够像人类一样在现实世界中感知、学习和行动。
具身AI由“本体”和“智能体”两个核心要素耦合而成:(有点肉体和灵魂的感觉~~~)
本体:是具身AI的物理载体,负责在物理或虚拟世界中进行感知和任务执行。随着技术的进步,本体形态日益多样化和灵活化,如四足机器人、复合机器人和人形机器人等。
智能体:是具身于本体之上的智能核心,负责感知、理解、决策和控制等核心工作。它能够感知复杂环境,理解环境所包含的语义信息,并与环境进行交互。同时,它可以根据环境变化和目标状态做出决策,进而控制本体完成任务。