前言
从端到端的角度来看,数据在Transformer中的流转可以概括为四个阶段:Embedding(嵌入)、Attention(注意力机制)、MLPs(多层感知机)和Unembedding(从模型表示到最终输出)。
下面对第一个阶段Embedding(向量化)进行详细介绍:
“Embedding”在字面上的翻译是“嵌入”,但在机器学习和自然语言处理的上下文中,我们更倾向于将其理解为一种“向量化”或“向量表示”的技术,这有助于更准确地描述其在这些领域中的应用和作用。
Embedding(向量化)的目的:
- 数值化表示:Embedding的目的主要是指将离散的高维数据(如文字、图片、音频、视频)映射到低维度的连续向量空间。这个过程会生成由实数构成的向量,用于捕捉原始数据的潜在关系和结构。
- 捕捉语义信息:Embedding向量通常能够捕获单词之间的语义关系。在训练过程中,模型会学习将具有相似含义或上下文的单词映射到相近的向量空间位置,使得向量之间的距离或夹角能够反映单词之间的语义相似度。
- 提取复杂特征:Embedding层通过提供的连续向量表示,能够更全面地捕捉数据的复杂特征,使模型能够更好地学习并应用这些特征。
Embedding(向量化)的工作流程:
- Tokenization:
(1)对于文本数据:在自然语言处理(NLP)中,Tokenization 是一个关键步骤,它将输入的文本内容(如句子、段落或整个文档)拆分成更小的片段或元素,这些片段通常被称为词元(tokens)。
(2)对于非文本数据(如音频、图像或视频):Tokenization 的概念也可以类比应用。例如,在音频处理中,音频信号可以被分割成帧(frames)作为音频词元;在图像处理中,图像可以被分割成图像块(patches)作为图像词元;在视频处理中,视频可以被分割成视频块(patches)作为视频词元。
- 词元Tokens:
(1)文本Tokens:在 NLP 中,tokens 是许多任务的基础,如词性标注(POS tagging)、命名实体识别(NER)、句法分析(parsing)和文本分类等。对于文本来说,Tokens通常是单词。
(2)图像或者声音Tokens:在图像和声音处理中,Tokens 的表示方式与文本有所不同,但它们的核心思想仍然是将输入数据分解为可处理的基本单元。图像或者声音,Tokens表示为图像块或者声音块。
(3)视频Tokens:为了将视觉数据转换成适合生成模型处理的格式,研究者提出了视觉块嵌入编码(visual patches)的概念。这些视觉块是图像或视频的小部分,类似于文本中的词元。OpenAI的Sora将视觉数据转换为视觉块(Turning visual data into patches)。
- Embedding向量:
(1)向量语义表示:Embedding向量是一个固定大小的实数向量,每个Token对应到一个Embedding向量,用于表示Token在语义空间中的位置。而这些向量都是通过无监督学习算法在大量数据上训练得到的。
(2)向量语义相似度:在高维空间中,含义相似的词汇倾向于在彼此相近的向量上 。这是因为算法在训练过程中学会了将具有相似上下文的单词映射到相近的向量空间中。
最后
感谢你们的阅读和喜欢,我收藏了很多技术干货,可以共享给喜欢我文章的朋友们,如果你肯花时间沉下心去学习,它们一定能帮到你。
因为这个行业不同于其他行业,知识体系实在是过于庞大,知识更新也非常快。作为一个普通人,无法全部学完,所以我们在提升技术的时候,首先需要明确一个目标,然后制定好完整的计划,同时找到好的学习方法,这样才能更快的提升自己。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】
一、全套AGI大模型学习路线
AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!
二、640套AI大模型报告合集
这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。
三、AI大模型经典PDF籍
随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。
四、AI大模型商业化落地方案
五、面试资料
我们学习AI大模型必然是想找到高薪的工作,下面这些面试题都是总结当前最新、最热、最高频的面试题,并且每道题都有详细的答案,面试前刷完这套面试题资料,小小offer,不在话下。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】