- 博客(140)
- 资源 (2)
- 收藏
- 关注
原创 LLM(二)| LIMA:在1k高质量数据上微调LLaMA1-65B,性能超越ChatGPT
目前大部分LLM都是decoder-only,通常是续写任务,有时候未必符合用户的需求,SFT是通过构造指令输入和期待的输出数据微调LLM,让LLM根据输入的指令输出期待的内容,这样微调好的LLM会输出更符合用户需求或者特点任务,
2023-09-22 10:19:10
298
原创 LLM微调(一)| 单GPU使用QLoRA微调Llama 2.0实战
要揭秘LLM能力,构建Prompt是至关重要,通常的Prompt形式有三个字段:Instruction、Input(optional)、Response。含义可以参考:https://github.com/ArronAI007/Awesome-AGI/blob/main/LLM%E4%B9%8BGenerate%E4%B8%AD%E5%8F%82%E6%95%B0%E8%A7%A3%E8%AF%BB.ipynb。:是一个模块名称列表,如“q_proj”和“v_proj“,用作LoRA模型的目标。
2023-09-20 18:27:44
238
1
原创 LLM预训练之RLHF(一):RLHF及其变种
在ChatGPT引领的大型语言模型时代,国内外的大模型呈现爆发式发展,尤其是以年初的LLaMA模型为首的开源大模型和最近百川智能的baichuan模型,但无一例外,都使用了「基于人类反馈的强化学习」(RLHF)来提升语言模型的性能,并在模型重注入了人类的偏好,以提高模型的有用性和安全性。HIR是如何工作的?SFT的训练过程类似Pre-training阶段,也是预测「下一个单词」,但是需要人工标注的指令数据集,其中模型的输入是一个指令(根据任务的不同,也可能包含一段输入文本),输出为模型的预期回复内容。
2023-09-19 00:26:24
92
原创 LLM(一)| 百川智能baichuan7B、13B、53B以及baichuan2总结
之前在文章中做过百川大模型53B和ChatGLM 6B模型的效果对比,由于百川大模型的内测模型是53B,因此本次对比参数量差异较大,但仍然可以看到两个模型的效果。2023年6月15日,百川智能发布了baichuan-7B,它基于 Transformer 结构,在大约1.2万亿 tokens 上训练的70亿参数模型,支持中英双语,上下文窗口长度为4096。原始数据包括开源的中英文数据和自行抓取的中文互联网数据,以及部分高质量知识性数据。参考相关数据工作,频率和质量是数据处理环节重点考虑的两个维度。
2023-09-18 09:53:39
164
原创 baichuan-53B VS ChatGLM-6B对比
由于百川智能的内测模型是baichuan-53B,尽管模型大小不一致,为了方便,我们仍然选择百川智能baichuan-53B与ChatGLM-6B内测结果进行对比,其中ChatGLM-6B的结果来自https://github.com/THUDM/ChatGLM-6B,假设ChatGLM-6B的结果是可靠的,那么为了公平,百川智能baichuan-53B也使用这些Prompt进行测试。7、在主观评论方面,两个都表现的比较理智和客观,没有模型个人观点,百川智能baichuan-53B条理更清晰一些;
2023-09-14 17:37:53
65
原创 LLM推理部署(一):LLM七种推理服务框架总结
自从ChatGPT发布以来,国内外的开源大模型如雨后春笋般成长,但是对于很多企业和个人从头训练预训练模型不太现实,即使微调开源大模型也捉襟见肘,那么直接部署这些开源大模型服务于企业业务将会有很大的前景,本文将介绍七中主流的LLM推理和服务开源库。下面首先来总结一下这些框架的特点,如下表所示::适用于大批量Prompt输入,并对推理速度要求高的场景;:依赖HuggingFace模型,并且不需要为核心模型增加多个adapter的场景;:可在CPU上进行推理;
2023-08-30 19:05:59
314
原创 扩散模型实战(八):微调扩散模型
在生成图像的每一步中,模型都会接收一个带有噪声的输入,并且需要预测这个噪声,以此来估计没有噪声的完整图像是什么。这个过程被称为采样过程,在Diffusers库中,采样通过调度器控制的,之前的文章中介绍过DDPMScheduler调度器,本文介绍的DDIMScheduler可以通过更少的迭代周期来产生很好的采样样本(生成的效果虽然不错,但是速度稍微有点慢,其实有更快的采样器可以加速这一过程,比如下面介绍的DDIM。从图中可以看出生成的图像有蝴蝶数据的风格。输出4幅蝴蝶图像,便于观察。
2023-08-30 01:10:23
165
原创 LLM本地知识库问答系统(二):如何正确使用LlamaIndex索引
这就是LlamaIndex引入文档摘要索引的地方,该索引可以为每个文档提取和索引非结构化文本摘要,从而提高了现有方法之外的检索性能。LlamaIndex索引包括列表索引、矢量存储索引、树索引和关键字表索引,当然也包括一些特殊索引,比如图索引、Pandas索引、SQL索引和文档摘要索引。然而,这种方法有其自身的一系列挑战,例如通过手动工作或使用NLP关键字提取/主题标记模型来为每个文档识别适当的关键字,以及从查询中推断正确的关键字。在索引构建过程中,树是以自下而上的方式构建的,直到我们最终得到一组根节点。
2023-08-29 18:43:43
213
原创 扩散模型实战(七):Diffusers蝴蝶图像生成实战
我们计划把训练好的模型上传到huggingface中,因此我们需要首先登录huggingface,可以通过访问https://huggingface.co/settings/tokens获取huggingface的token。scheduler和unet两个子文件夹包含了生成图像所需的全部组件,其中unet子文件夹包含了描述模型结构的配置文件config.json和模型参数文件diffusion_pytorch_model.bin。guidance_scale:决定模型的输出与Prompt之间的匹配程度;
2023-08-29 00:38:18
143
原创 LLM本地知识库问答系统(一):使用LangChain和LlamaIndex从零构建PDF聊天机器人指南
如果你需要得到之前关于寻找苹果上季度收入的问题的答案,我们首先需要在嵌入Chroma等数据库的基础上进行相似性搜索或语义搜索,以提取相关信息,并将这些信息提供给LLM模型来获得答案。起初,我们的想法是用特定的数据对模型进行微调,以实现这一目标,但这可能成本高昂,并且需要庞大的数据集。上面的大部分代码都是非常基本的。随着大型语言模型(LLM)(如ChatGPT和GPT-4)的兴起,现在比以往任何时候都更容易构建比普通熊更智能的智能聊天机器人,并且可以浏览堆积如山的文档,为您的输入提供准确的响应。
2023-08-27 23:49:12
547
原创 扩散模型实战(六):Diffusers DDPM初探
之前的五篇文章主要是为了解释扩散模型的基本概念和流程,使读者更容易理解扩散模型的工作原理,但与实际工作中使用的模型差异较大,从本文开始,我们将初步使用DDPM模型的开源实现库Diffusers,在Diffusers库中DDPM模型的实现库是UNet2DModel。,这样的好处是在后向过程开始过程先把"明显"的噪声给去除,对应着较大的扩散率;下面是DDPM论文中的公式,Training步骤其实是退化过程,给原始图像逐渐添加噪声的过程,:我们都知道在前向过程中是不断添加噪声的,其实这个。
2023-08-25 17:58:59
106
原创 扩散模型实战(五):采样过程
从上图可以看出,模型在第一步就已经输出了去噪的图片,只是往最终的目标前进了一小步,效果不佳,但是迭代5次以后,发现效果越来越好。如果迭代更多次数,效果如何呢?从上图可以看出,虽然在迭代多次以后,生成的图像越来越清晰,但是最终的效果仍然不是很好,我们可以尝试训练更长时间的扩散模型,并调整模型参数、学习率、优化器等。
2023-08-25 00:45:15
112
原创 扩散模型实战(四):从零构建扩散模型
扩散模型应该学习什么?从上图可以看出,对于噪声量较低的输入,模型的预测效果是很不错的,当amount=1时,模型的输出接近整个数据集的均值,这正是扩散模型的工作原理。从上图可以看出,从左到右加入的噪声逐步增多,当噪声量接近1时,数据看起来像纯粹的随机噪声。至此,已经完成数据加载和UNet模型构建,当然UNet模型的结构可以有不同的设计。MNIST数据集是一个小数据集,存储的是0-9手写数字字体,:我们的训练并不太充分,读者可以尝试不同的超参数来优化模型。此时会输出运行环境是GPU还是CPU。
2023-08-17 19:32:40
874
原创 大模型PEFT技术原理(二):P-Tuning、P-Tuning v2
随着预训练模型的参数越来越大,尤其是175B参数大小的GPT3发布以来,让很多中小公司和个人研究员对于大模型的全量微调望而却步,近年来研究者们提出了各种各样的参数高效迁移学习方法(Parameter-efficient Transfer Learning),即固定住Pretrain Language model(PLM)的大部分参数,仅调整模型的一小部分参数来达到与全部参数的微调接近的效果(调整的可以是模型自有的参数,也可以是额外加入的一些参数)。
2023-08-15 17:11:58
157
原创 大模型PEFT技术原理(三):Adapter Tuning及其变体
随着预训练模型的参数越来越大,尤其是175B参数大小的GPT3发布以来,让很多中小公司和个人研究员对于大模型的全量微调望而却步,近年来研究者们提出了各种各样的参数高效迁移学习方法(Parameter-efficient Transfer Learning),即固定住Pretrain Language model(PLM)的大部分参数,仅调整模型的一小部分参数来达到与全部参数的微调接近的效果(调整的可以是模型自有的参数,也可以是额外加入的一些参数)。
2023-08-15 17:05:00
111
原创 从ChatGLM2-6B来看大模型扩展上下文和加速推理相关技术
ChatGLM2-6B 是开源中英双语对话模型 ChatGLM-6B 的第二代版本,在保留了初代模型对话流畅、部署门槛较低等众多优秀特性的基础之上,ChatGLM2-6B 引入了如下新特性:更强大的性能:基于 ChatGLM 初代模型的开发经验,全面升级了 ChatGLM2-6B 的基座模型。
2023-08-13 03:03:38
312
原创 扩散模型实战(三):扩散模型的应用
同样,文本生成3D扩散模型能够将输入的文本转换为相应的3D物体。而在加入扩散的方法之后,就可以获取更精准的分割和检测结果了,例如Meta AI的Se 制扩散模型可以生成分割Mask图(如图3-1所示),检测扩散模型DiffusionDet同样可以端到端地从随权经光根逐步生成检测框(如图3-2所示)。只要将自然语言类的句子分调并转换为词向量之后,就可以通过扩散的方法来学习自然语言的语句生成,进而完成自然语言领域一些更复杂的任务,如语言翻译、问答对话、搜索补全、情感分析、文章续写等。
2023-08-08 01:22:21
201
原创 扩散模型实战(二):扩散模型的发展
正是由于这项技术和扩散模型的结合,才引起基于文字引导的文字生成图像扩散型在图像生成领域的彻底爆发,例如 OpenAI 的 GLIDE 、 DALL - E 、 DALL -E2(基于 DALL -E2生成的图像如图2-3所示), Google 的 Imagen 以及开源的 Stable Diffusion ( Stable Diffusion v2扩散模型的主页如图2-4示)等,优秀的文字生成图像扩散模型层出不穷,给我们带来无尽的惊喜。在图像生成领域,最早出现的扩散模型是 DDPM (于2020年提出)。
2023-08-06 02:03:24
337
原创 扩散模型实战(一):基本原理介绍
随着扩散过程的进⾏,这滴墨⽔随着时间的推移逐步扩散到⽔中,⽔的颜⾊也逐渐变成这滴墨⽔的颜⾊,如图1-1所示。DDPM还做了⼀些假设,例如假设扩散过程是⻢尔可夫过程 (即每⼀个时间步状态的概率分布仅由上⼀个时间步状态的概率分布加上当前时间步的⾼斯噪声得到),以及假设扩散过程的逆过程是⾼斯分布等。可以看出,在训练 DDPM 时,只要用一个简单的 MSE ( Mean Squared Error ,均方误差)损失来最小化时向过程施加的噪声分布和后向过程预测的噪声分布,就能实现最终的优化目标。
2023-08-06 01:26:38
218
原创 全面解析大语言模型的工作原理
当ChatGPT在去年秋天推出时,在科技行业乃至世界范围内引起了轰动。当时,机器学习研究人员尝试研发了多年的语言大模型(LLM),但普通大众并未十分关注,也没有意识到它们变得多强大。如今,几乎每个人都听说过LLM,并有数千万人用过它们,但是,了解工作原理的人并不多。你可能听说过,训练LLM是用于“预测下一个词”,而且它们需要大量的文本来实现这一点。但是,解释通常就止步于此。它们如何预测下一个词的细节往往被视为一个深奥的谜题。其中一个原因是,这些系统的开发方式与众不同。
2023-08-02 15:17:07
2362
1
原创 ChatGLM-6B VS 昆仑万维天工对比
下面进行昆仑万维天工与ChatGLM-6B内测结果进行对比,其中ChatGLM-6B的结果来自https://github.com/THUDM/ChatGLM-6B,假设ChatGLM-6B的结果是可靠的,那么为了公平,昆仑万维天工(https://tiangong.kunlun.com/interlocutionPage)也使用这些Prompt进行测试。2、在文案写作,写邮件方面,两个模型都表现不错,而且生成的结果还非常相似;1、关于自我认知、提纲写作方面,两个模型表现都不错,条理清晰;
2023-07-31 17:06:41
173
原创 SuperCLUE中文大模型排行榜(2023年7月)
中文通用大模型综合性测评基准(SuperCLUE),是针对中文可用的通用大模型的一个测评基准。它主要要回答的问题是:在当前通用大模型大力发展的情况下,中文大模型的效果情况。包括但不限于:这些模型哪些相对效果情况、相较于国际上的代表性模型做到了什么程度、 这些模型与人类的效果对比如何?它尝试在一系列国内外代表性的模型上使用多个维度能力进行测试。SuperCLUE,是中文语言理解测评基准(CLUE)在通用人工智能时代的进一步发展。
2023-07-25 18:10:20
273
原创 多模态大模型(MLLM)之VisCPM:支持中文对话文图双向生成
提供了两个模型版本,分别为 VisCPM-Chat-balance 和 VisCPM-Chat-zhplus,前者在英文和中文两种语言上的能力较为平衡,后者在中文能力上更加突出。两个模型在指令精调阶段使用的数据相同,VisCPM-Chat-zhplus 在预训练阶段额外加入了 20M 清洗后的原生中文图文对数据和 120M 翻译到中文的图文对数据。通过进一步加入 20M 清洗后的原生中文图文对数据,以及 120M 翻译到中文的图文对数据,模型的中文文到图生成能力可以获得进一步提升。
2023-07-24 17:26:12
183
原创 Meta发布升级大模型LLaMA 2:开源可商用
最后对模型进行了 2 次微调。不出所料,Meta 自己的奖励模型在基于 LLaMA 2-Chat 收集的内部测试集上表现最佳,其中「有用性」奖励模型在「元有用性」测试集上表现最佳,同样,「安全性」奖励模型在「元安全性」测试集上表现最佳。Meta 研究了奖励模型在数据和模型大小方面的缩放趋势,在每周收集的奖励模型数据量不断增加的情况下,对不同的模型大小进行了微调。在预训练的碳足迹方面,Meta 根据以往的研究方法,利用 GPU 设备的功耗估算和碳效率,计算了 LLaMA 2 模型预训练所产生的碳排放量。
2023-07-19 18:33:40
1156
1
原创 大语言模型(LLM)评估综述
在这一部分,总结了LLMs在不同任务中的成功和失败案例。6.1 LLMs能够在哪些方面表现出色?LLMs在生成文本方面展现出熟练度,能够产生流畅且准确的语言表达。LLMs在语言理解方面表现出色,能够进行情感分析和文本分类等任务。LLMs具备强大的语境理解能力,能够生成与输入一致的连贯回答LLMs在多个自然语言处理任务中表现出令人称赞的性能,包括机器翻译、文本生成和问答任务。6.2 LLMs在什么情况下可能会失败?LLMs在生成过程中可能会表现出偏差和不准确性,导致产生有偏差的输出。
2023-07-18 16:14:49
350
原创 LLaMA以及其扩展模型总结(一)
3月23日,AI公司Nebuly开源了第一个基于人类反馈强化学习 (RLHF) 的 LLaMA模型:ChatLLama(https://github.com/nebuly-ai/nebullvm/tree/main/apps/accelerate/chatllama),允许用户基于预训练的LLaMA模型构建个性化的ChatGPT服务,且训练速度更快,成本更低。3月15日,斯坦福发布语言大模型Alpaca,它是由Meta的LLaMA 7B微调而来的全新模型,仅用了52k数据,性能约等于GPT-3.5。
2023-07-16 16:05:53
900
1
原创 谷歌Bard_VS_百度文心一言
今天还是以ChatGLM-6B的query来进行测试,但由于Bard目前只支持英文,因此对ChatGLM-6B的case翻译成英文进行测试对比(限于翻译水平,可能会引起不公平的对比)
2023-05-24 16:22:27
161
原创 Vicuna:斯坦福开源一个性能相当于90%ChatGPT的聊天机器人
在90%以上的问题中,GPT-4更喜欢Vicuna,而不是最先进的开源模型(LLaMA、Alpaca),并且它实现了与专有模型(ChatGPT、Bard)相比具有竞争力的性能。另外,研究人员将较长的对话划分为较小的片段,以适应模型的最大上下文长度。自从Meta公司发布LLaMA以来,围绕它微调和开发的模型越来越多,这得益于它的性能和效果,2023年3月份发布的草泥马(Alpaca)是由Meta的LLaMA 7B微调而来的全新模型,仅用了52k数据,性能约等于GPT-3.5。
2023-05-24 16:18:22
1006
原创 谷歌Bard_VS_Baize-7B_VS_文心一言体验对比
结论:Bard和文心一言都生成了一段文案,而Baize-7B只是把关键词split出来了;在线 Demo:https://huggingface.co/spaces/project-baize/baize-lora-7B。结论:在旅游推荐方面,上述三个模型都给出了答案,但是Baize-7B的答案没有换行,缺少条例性。结论:角色扮演方面Bard表现较好,而文心一言和Baize-7B几乎没有这样的能力。结论:文心一言拒绝回答这样的问题,而Bard和Baize-7B都给出了自己的看法;
2023-05-24 14:57:56
1009
原创 Koala:加州大学BAIR团队使用ChatGPT蒸馏数据和公开数据集微调LLaMA模型得到
最初的假设是 Koala-All 应该至少表现得更好一些,因此在所有评估中都将其用作主要模型,但这些实验的一个潜在收获是有效的指令和辅助模型可以从 LLM 主干(如 LLaMA)中进行微调完全使用来自更大更强大模型的数据,只要这些响应的提示代表用户将在测试时提供的提示类型。当然,Koala 测试集中的对话提示越多,越接近 Koala 训练集,所以这也许并不奇怪,但就此类提示越接近此类模型的可能下游用例而言,这表明 Koala 是预期的在类似助手的应用程序中表现更好。为了进行评估,我们提示带有正标记的模型。
2023-05-24 14:54:31
905
原创 使用 RLHF 训练 LLaMA 的实践指南:StackLLaMA
一般来说,在 RL 中希望获得最高的reward,但是在 RLHF 中,使用了一个不完美的奖励模型,PPO 算法将利用这些不完美,这可能表现为奖励的突然增加,但是当我们从策略中查看文本生成时,它们主要包含字符串 ``` 的重复,因为奖励模型发现包含代码块的stack exchange答案reward分数是最高的。StackLLaMA模型开源了,并且在Huggingface Hub上可以使用,地址:https://huggingface.co/trl-lib/llama-7b-se-rl-peft;
2023-05-24 14:47:00
1741
原创 OpenAssistant_VS_百度文心一言
以下Prompt来自https://github.com/THUDM/ChatGLM-6B。:对中文的支持非常差。
2023-05-24 14:40:01
103
原创 ChatGPT全球最大开源平替OpenAssistant:基于Pythia和LLaMA微调而来
通过监督微调(SFT)、人类反馈强化学习 (RLHF)大大减少了有效利用LLMs能力所需的技能和领域知识,然而,RLHF需要依赖高质量的人工反馈数据,这种数据的创建成本很高,而且往往是专有的。该数据集是一个由13500 名志愿者人工生成、人工注释的助理式对话语料库,覆盖了广泛的主题和写作风格,由 161443 条消息组成,分布在 66497 个会话树中,使用 35 种不同的语言,有461292个质量评级标注。数据标注人员来自不同的背景,有各种各样的兴趣,但在性别和年龄有偏向性。
2023-05-24 14:10:52
758
原创 GPT-4平替版:MiniGPT-4,支持图像理解和对话,现已开源
MiniGPT-4 由一个带有预训练的 ViT(与BLIP-2一样) 和 Q-Former 的视觉编码器、一个单一的线性投影层和一个 Vicuna 大语言模型组成,只训练线性投影层,视觉编码器和Vicuna的参数冻结。实验发现,MiniGPT-4 具有出色的多模态能力,如从手写草稿创建网站、生成详细的图像描述、根据图像创作故事和诗歌、为图像中描述的问题提供解决方案,以及根据食物照片教对话对象如何烹饪一道美味的菜品等。最终人工进行检查,最后整理符合要求的样本有3500个,这些样本将用于第二阶段微调。
2023-05-24 14:03:55
3369
1
原创 BLIP-2:salesforce提出基于冻结视觉编码器和LLM模型参数的高效训练多模态大模型
对于基于encoder-decoder的LLM,使用前缀语言建模损失进行预训练,并且将文本分为两个部分,前缀文本与视觉表示作为LLM编码器的输入,后缀文本用作LLM解码器的生成目标。本文提出的BLIP-2方法是一套新型多模态预训练模型的框架,思路是通过在冻结的预训练图像编码器和冻结的预训练大语言模型之间添加一个轻量级 查询 Transformer (Query Transformer, Q-Former) 来弥合视觉和语言模型之间的模态隔阂 (modality gap)。Z表示输出的query。
2023-05-24 13:53:34
434
原创 讯飞星火_VS_文心一言
在旅游向导方面,两个模型都给出了旅游建议,他们都有各自明显的特点:星火是“位于{},是{}”的结构,而文心一言是“这是{},然后是简单介绍”;在角色扮演方面,两个模型都有明显的不足,星火有角色扮演的能力,不过刚开始的文本理解不太正确,后来角色扮演的效果还可以接收;在写邮件方面,两个模型都表现的非常好,而且百度文心一言甚至给出更详细的提示,比如给暴雪公司的邮件中还写了“主题”,而且在发件人还预留了“联系方式”在信息提取方面,两个模型都可以输出JSON格式,但是在结果上星火明显优于文心一言,提取的信息更全面。
2023-05-24 13:45:40
1613
原创 阿里通义千问_VS_讯飞星火
在角色扮演方面,两个模型都有明显的不足,星火有角色扮演的能力,不过刚开始的文本理解不太正确,后来角色扮演的效果还可以接收;在旅游向导方面,两个模型都给出了旅游建议,他们都有各自明显的特点:星火是“位于{},是{}”的结构,而通义千问直接给出景点的名称,没有更多描述,在具体位置描述也不太准确。在自我认知方面,星火除了简单介绍自己,还稍微进行了一些扩展,而阿里通义千问给出了更简洁的回答;在介绍优缺点的时候,阿里通义千问更有条理一些。在文案写作方面,星火给出的答案非常不错,而通义千问似乎没有理解#分隔符的意思;
2023-05-18 00:30:51
514
原创 ChatGPT支持第三方plugins,并且推出了网络浏览器和代码解释器两个插件
通过显示的集成外部数据,如在线最新信息、基于代码的计算或自定义插件检索的信息,语言模型可以基于这些有力的证据来回复用户,用户也可以评估模型输出的可信度,从而降低对大模型输出的过渡依赖,正如。2023年3月23日,OpenAI实现了对ChatGPT插件的初步支持,还推出了两个插件,一个网络浏览器和代码解释器,并且开源了知识库检索插件的代码,任何有信息的开发者都可以自行托管,以增强ChatGPT的功能。与此同时,插件可能会采取有害或意外的行动,增加欺诈、误导或虐待他人的不良行为者的能力,从而增加安全挑战。
2023-03-24 15:12:01
4113
1
原创 论文《Can AI-Generated Text be Reliably Detected?》译文
摘要大型语言模型(LLM)的快速发展使它们能够在包括文档续写和问答系统在内的各种任务中表现惊人。然而,不受监管地使用这些模型可能导致恶意后果,如抄袭、伪造新闻、垃圾邮件等。因此,可靠地检测人工智能生成的文本对确保负责任地使用LLM至关重要。最近的工作试图解决这个问题,比如在生成文本上加入使用特定模型生成的签名,或者在输出 上加入水印技术。在本文中,无论是从经验上还是从理论上,我们都证明了这些探测器在实际情况下不可靠。根据经验,我们发现在生成文本模型的顶部应用一个简单的转述,转述攻击可能会破坏一系列检
2023-03-22 22:03:01
1085
原创 GPT-4 System Card译文
摘要大型语言模型(LLM)正被部署在我们生活的许多领域(从浏览到语音助手,再到编码辅助工具),具有巨大的社会潜力影响。此system card分析GPT系列中最新的LLM:GPT-4模型。首先,我们强调了模型的局限性带来的安全挑战(例如,产生令人信服的微妙错误的文本)和能力(例如,提高熟练度在提供非法建议、军民两用能力表现和危险的紧急行为方面)。其次,我们对OpenAI用于制备GPT-4的安全流程进行了高级概述用于部署。这涵盖了我们在测量、模型级别更改、产品系统级干预措施(如监测和政策)以及外部专家参与
2023-03-16 16:26:43
1381
《GAN:实战生成对抗网络》_刘梦馨.pdf
2019-06-14
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人