自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(26)
  • 收藏
  • 关注

原创 Transformer 模型

Transformer 是由多层的多头自注意力模块堆叠而成的神经网络模型。原始的 Transformer 模型由编码器和解码器两个部分构成,而这两个部分实际上可以独立使用,例如基于编码器架构的 BERT 模型和解码器架构的 GPT 模型。与 BERT 等早期的预训练语言模型相比,大语言模型的特点是使用了更长的向量维度、更深的层数,进而包含了更大规模的模型参数,并主要使用解码器架构,对于 Transformer 本身的结构与配置改变并不大。

2024-04-30 10:55:19 761

原创 数据准备——词元化(分词)

词元化(Tokenization)是数据预处理中的一个关键步骤,旨在将原始文本分割成模型可识别和建模的词元序列,作为大语言模型的输入数据。

2024-04-30 10:37:41 664

原创 数据准备——数据预处理

当收集了丰富的文本数据之后,为了确保数据的质量和效用,还需要对数据进行预处理,从而消除低质量、冗余、无关甚可能有害的数据。一般来说,需要构建并使用系统化的数据处理框架(如开源库 Data-Juicer),从而保证预训练数据的质量。在这一节,我们将介绍一系列常用的数据预处理流程与方法。为了对于预处理过程有一个全面的了解,读者可以参考典型的大语言模型预训练数据的预处理流程(如下图)。下面将对于其中的重要步骤进行具体介绍。

2024-04-29 11:12:14 689

原创 数据准备——数据来源

根据数据来源不同,预训练数据主要分为两种类型:通用文本数据和专用文本数据。通用文本数据涵盖了网页、书籍和对话文本等。由于通用文本数据规模较大、多样性强且易于获取,大多数大语言模型都会收集大量的通用文本数据,以增强其语言建模能力。此外,为了进一步提升大语言模型在特定专业任务上的表现,人们还将预训练语料的范围扩展至更专业的数据集,如多语数据、科学数据和代码数据等。

2024-04-29 10:37:50 900 2

原创 大语言模型在专业领域的应用——金融场景下的大语言模型

随着金融科技的快速发展,金融领域对于自动化的数据处理和分析技术日益增长。在这一背景下,大语言模型技术开始逐步应用于金融领域的多种相关任务(如投资倾向预测、投资组合设计、欺诈行为识别等),展现出了较大的应用潜力。

2024-04-29 08:00:00 326

原创 大语言模型在专业领域的应用——法律场景下的大语言模型

在法律领域,相关从业人员需要参与合同咨询、审查、案件判决等日常重复性任务。这些任务需要耗费大量的人力成本,亟需面向法律领域的人工智能技术辅助完成这些工作,从而减轻从业人员的工作负担。大语言模型具有优秀的模型能力,经过领域适配以后,能够助力完成多种法律任务,如合同信息抽取、法律文书撰写和案件判决生成,具有较好的应用场景。

2024-04-28 11:05:09 827

原创 大语言模型在专业领域的应用——教育场景下的大语言模型

教育是人类社会进步的基石,对个人和社会发展都至关重要。在教育系统中,大语言模型已经被用于多种教育相关任务,有助于增强教育场景的智能化、自动化和个性化。

2024-04-28 09:07:34 1545

原创 大语言模型在专业领域的应用——医疗场景下的大语言模型

医疗是与人类生活密切相关的重要领域之一。由于具有较强的通用任务解决能力,大语言模型被广泛用于辅助医生处理各种相关医疗任务,例如医疗诊断、临床报告生成、医学语言翻译、心理健康分析等。为了充分发挥大语言模型在医疗领域的作用,研发医疗相关的大语言模型非常重要。

2024-04-26 15:55:39 812

原创 大语言模型在研究领域的应用——知识图谱增强的大语言模型

尽管大语言模型具有出色的自然语言生成能力,但在知识密集型任务中常常面临一些挑战,例如可能生成幻象或事实错误内容。因此,在一些特定场景中,需要向大语言模型补充外部的知识信息。知识图谱(Knowledge Graph, KG)存储了大量的结构化知识信息,常用于知识密集型的任务场景,也广泛被用于补充大语言模型的知识信息。本部分将从两个方面讨论如何使用知识图谱增强大模型,包括基于子图检索的方法和基于查询交互的方法。

2024-04-26 14:34:58 1164

原创 大语言模型在研究领域的应用——多模态大语言模型

多模态大语言模型(Multimodal Large Language Model, MLLM)主要是指那些能够处理和整合多种模态信息(比如文本、图像和音频)的大语言模型。本节内容将以视觉-语言大语言模型为例,对相关技术进行介绍,类似的技术也可扩展到其他模态(如音频-语言)。

2024-04-24 14:22:59 1641

原创 大语言模型在研究领域的应用——推荐系统中的大语言模型

推荐系统的核心在于捕捉并理解用户的潜在偏好,进而为用户推送合适的信息资源。目前,主流的研究工作通常依赖于用户的交互行为日志数据(如点击商品、评论文本数据)来训练推荐模型(通常是深度学习模型)。然而,这些方法在实践中面临着一系列技术挑战,如缺乏通用的知识信息、难以应对冷启动和领域迁移问题等。由于大语言模型具有优秀的语言理解和知识推理能力,近期很多研究工作尝试将其应用在推荐系统领域。下面将从以下三个方面概述大语言模型在推荐系统中的相关研究进展。

2024-04-24 14:08:41 1199

原创 大语言模型在研究领域的应用——信息检索中的大语言模型

大语言模型对于传统信息检索技术与应用范式带来了重要影响。这两者在技术路径上具有紧密的互补性。大语言模型拥有强大的语言理解、推理与生成能力,能够助力构建更为智能的信息检索系统;而信息检索技术能够高效地从外界获取所需要的相关信息,可以为大语言模型提供更为精确、可靠的上下文信息。本部分将概要介绍如何利用大语言模型提升信息检索效果,以及检索增强的大语言模型。

2024-04-22 17:12:38 1508

原创 大语言模型在研究领域的应用——传统自然语言处理任务中的大语言模型

语言模型是自然语言处理领域的重要研究方向之一,相关技术进展有力地推动了下游应用任务的性能提升。本部分内容将主要介绍大语言模型在三大类经典自然语言处理任务上的应用,包括**序列标注、关系抽取以及文本生成**任务,这些任务构成了许多现有自然语言处理系统和应用的基础。

2024-04-22 16:59:02 1208

原创 公开可用的通用大语言模型检查点

此外,Meta AI 使用 LLaMA-2 作为基座模型,通过进一步的有监督微调、基于人类反馈的强化学习等技术对模型进行迭代优化,完整经历了“预训练-有监督微调-基于人类反馈的强化学习”这一训练流程,并发布了面向对话应用的微调系列模型 LLaMA-2 Chat(同样具有四种参数规模的版本)。根据 Qwen 的技术报告,2024年2月最新发布的 Qwen-1.5 (72B) 在其评估的测试基准上优于 LLaMA-2 (70B) 的表现,在语言理解、推理、数学等方面均展现出了优秀的模型能力。

2024-04-19 15:21:47 670

原创 大语言模型——涌现能力

大语言模型的涌现能力被非形式化定义为在小型模型中不存在但在大模型中出现的能力”,具体是指当模型扩展到一定规模时,模型的特定任务性能突然出现显著跃升的趋势,远超过随机水平。

2024-04-19 09:23:17 673

原创 大语言模型——扩展法则

建立定量的建模方法,即扩展法则(Scaling Law),来研究规模扩展所带来的模型性能提升具有重要的实践指导意义。

2024-04-18 16:25:10 1550

原创 大语言模型——大语言模型的构建过程

大语言模型是一种基于 Transformer 结构的神经网络模型。它的训练过程可以分为大规模预训练和指令微调与人类对齐两个阶段。

2024-04-17 16:55:23 1044

原创 大语言模型——GPT 系列模型的技术演变

截止到目前,OpenAI 对大语言模型的研发历程大致可分为四个阶段:早期探索阶段、路线确立阶段、能力增强阶段以及能力跃升阶段。

2024-04-17 10:43:42 1012

原创 大语言模型——大语言模型的能力特点

大语言模型——大语言模型的能力特点

2024-04-16 16:47:06 1276

原创 大语言模型——语言模型的发展历程

语言模型的发展历程

2024-04-16 16:29:09 1200

原创 WPS中安装MathType时报错解决方案

WPS中安装MathType时报错解决方案,放对文件位置很重要!

2024-03-22 20:50:42 430

原创 第一章 字符数组

读入一组文本行,并把最长的文本行打印出来#include<stdio.h>#define MAXLINE 1000 // 允许的输入行的最大长度int getline(char s[],int lim);void copt(char to[],char from[]);// 读入一组文本行,并把最长的文本行打印出来main(){ // 私有变量 局部变量 int len; // 当前行的长度 int max; // 目前为止发现的最长行的长度,初始置0 .

2021-11-12 17:19:04 266 1

原创 字符的输入 / 输出

标准库提供了一次读/写一个字符的函数:getchar() 和 putchar()1、getchar()!=EOF 的值是1还是0? 12、EOF的值是? -13、行计数注意:EOF在键盘上的输入:回车 -> ctrl+z -> 回车#include <stdio.h>int main(){ int c,nu=0; while((c=getchar())!=EOF){ if(c == '\n'){ ++nu;

2021-11-12 16:31:02 401

原创 函数 参数

1、编写一个求幂的函数power(m,n)#include <stdio.h>int power(int m,int n);// 函数原型main(){ int i; for(i=0;i<10;i++){ printf("%d %d %d\n",i,power(2,i),power(-3,i)); } getchar();}int power(int base,int n){ // 求底数的n次幂 int i,p=1

2021-11-12 16:00:30 700

原创 华氏温度与摄氏温度对照表的打印

华氏温度与摄氏温度对照表的打印代码:#include <stdio.h>#include <stdlib.h>int main(){ int fahr,cel; // 温度表的上限、下限、步长 int lower=0,upper=300,step=20; fahr=lower; while(fahr<=upper){ cel=5*(fahr-32)/9; printf("%d %d\n",

2021-11-06 09:14:25 1985

原创 VS code运行C程序时结果框一闪而过的解决办法

VS code运行C程序时结果框一闪而过的解决办法在return 0;语句之前加上:getchar();此时getchar会一直等待输入,程序运行结果框也就可以正常运行结果了。如下图所示:#include <stdio.h>int main(){ printf("hello world\n"); getchar(); return 0;}...

2021-11-06 08:56:33 3668

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除