AI知识图谱大本营-CSDN博客

原创如何在LaTeX文档中为脚注添加横线，并调整横线的长度和厚度。

这个例子展示了如何为脚注添加横线，并调整其长度和厚度。你可以根据需要调整`\hrule\@width`和`\@height`的值来改变横线的长度和厚度。在Overleaf中，点击“Recompile”按钮来编译你的文档。你将看到脚注下方有一条横线，其长度和厚度是根据上述代码设置的。当然，以下是一个简单的例子，展示了如何在LaTeX文档中使用`scrextend`宏包来为脚注添加横线，并调整横线的长度和厚度。接下来，你可以重新定义脚注的格式，包括横线的长度和厚度。现在，你可以编写文档的内容，并添加脚注。

2025-01-02 21:01:00 783

原创大型语言模型微调新进展-4篇论文

本文介绍了一种名为 INVERSE-INSTRUCT 的方法，该方法通过利用代码本身来生成指令，从而进一步提升了指令微调的代码大型语言模型的能力。研究人员提出了一种新的代码难度评估指标，并设计了一种新的课程学习时间表，证明了课程学习方法在训练代码语言模型上的有效性，为未来研究代码语言模型的课程学习应用提供了新的思路。本文提出了一种名为 Genetic-Instruct 的方法，该方法利用自指令学习，从少量种子数据中生成大量的合成指令，从而提高大型语言模型的代码生成能力。

2024-08-06 12:14:52 723

原创 5 篇有关基座大模型的论文

摘要：发布时间：2024-06-27链接：https://storage.googleapis.com/deepmind-media/gemma/gemma-2-report.pdf机构：Google DeepMind摘要：发布时间：2024-07-04链接：https://arxiv.org/abs/2407.03941机构：Infosys Limited摘要：发布时间：2024-07-12链接：https://arxiv.org/abs/2407.09276机构：H2O.ai摘要：发布时间：2024-0

2024-08-06 12:06:32 1203

原创模型和多模态模型代码论文5篇

本文介绍了Qwen2系列开源大模型和多模态模型，涵盖了从0.5B到72B参数的不同规模模型，以及密集模型和混合专家模型。Qwen2在语言理解、生成、多语言能力、编码、数学和推理等方面超越了大多数先前的开源模型，并在各种基准测试中展现出与闭源模型相媲美的性能：基座模型MMLU 84.2分，GPQA 37.9分，HumanEval 64.6分，GSM8K 89.5分，BBH 82.4分；微调模型MT-Bench 9.1分，Arena-Hard 48.1分，LiveCodeBench 35.7分。

2024-08-06 12:00:57 1006

原创 ChatGLM-Math：强化数学能力

大型语言模型（LLM）在文本摘要、问答和角色扮演对话等语言任务上表现出色，在数学推理等复杂问题上也具有应用潜力。但目前提高 LLM 数学问题解决能力的方法，往往会导致其他方面能力的下降。例如RLHF的方法，虽然可以提高文本生成的质量，但却会忽略解决数学问题所需要的准确性和逻辑连贯性，而 SFT 微调，则可能降低大模型本身的语言多样性。针对这一问题，我们提出了一种的迭代训练方法，通过自我反馈的机制，可以使 LLM 的语言能力和数学能力得到同步提升。

2024-05-08 20:23:09 833

原创厦大教授宣布退出学界：对学术体制已经完全绝望

那么我只能选择退出学界了。我拒绝为了凑足选课人数而降低我的课程难度，我甚至把已经选了我的博士课程的其他专业的博士生和硕士生劝出了我的课堂，因为我坚持把博士课程开成与国际同行最新研究水准持平的创造性课程（我认为不仅厦大就是全国高校也没有几个博士生能听懂我的课程），并因此取得了明显的成效——博士生通过博士课程的结业考试论文发表在《南开学报》首篇，我指导的博士生获得哈佛大学比较文学系著名教授的邀请，前往哈佛联合培养一年，而她在哈佛大学开学术讲座时，所讲的内容恰恰是她上我的课的作业。所以我选择在此时说出我的心声。

2024-05-07 20:19:52 905

原创如何处理多模态数据噪声不均衡动态？天大等最新《低质量数据的多模态融合》综述

一些最近的研究实证和理论上表明，传统的多模态融合可能在野外的低质量多模态数据上失败，例如不平衡【7】【8】【9】【10】、噪声【11】或甚至损坏【12】的多模态数据。针对这一问题，旨在探索具有部分缺失模态的不完整多模态数据的信息的不完整多模态学习出现，并在近年来获得了越来越多的研究关注【52】。在以下部分中，我们通过最近的进展和多模态融合面临的技术挑战详细介绍了这一领域：在噪声多模态数据上的学习（第2节）、缺失模态插补（第3节）、平衡多模态融合（第4节）和动态多模态融合（第5节）。

2024-05-07 20:01:35 1667

原创 cTBLS：使用对话表格增强大型语言模型

3.提出证据证明，使用编码器语言模型排序的知识源增强最先进的 LLM 解码器，可在自动（ROUGE-精确度）和人工（连贯性、流畅性和信息量）评估中为基于知识的响应生成带来更好的结果，同时降低了对这些模型的 API 调用次数。粗系统状态跟踪会对表格中的单元格进行排序，而细系统状态跟踪则会识别与回答查询最相关的单元格中的细粒度信息。提示包括对话历史、排序的知识源和要回答的查询。单元编码器嵌入所有单元和相关的超链接信息，而问题编码器则生成对话历史的嵌入，其中包括当前回合的查询以及之前的查询和回复。

2024-04-25 20:05:23 1084

原创自适应剪枝让多模态大模型加速2-3倍，哈工大联合度小满推出SmartTrim

基于 Transformer 结构的视觉语言大模型（VLM）在各种下游的视觉语言任务上取得了巨大成功，但由于其较长的输入序列和较多的参数，导致其相应的计算开销地提升，阻碍了在实际环境中进一步部署。与前人方法相比，SmartTrim 不需要额外的预训练，而且还通过 token 和 head 两个方面提供了更细粒度地控制模型的计算开销，以更好地探索效率与性能之间的权衡，下面的帕累托图显示我们的方法在 1.5x 的加速比下甚至相比原始模型性能有所提升，而在高加速比下的相比其他加速方法具有显著优势。

2024-04-25 20:01:18 1250

原创大型语言模型高效推理综述

众多开源的LLMs已经出现，包括GPT系列（GPT-1 [1]，GPT-2 [2]，和GPT-3 [3]），OPT [4]，LLaMA系列（LLaMA [5]，LLaMA 2 [5]，百川2 [6]，Vicuna [7]，长聊 [8]），BLOOM [9]，FALCON [10]，GLM [11]，和Mistral [12]，这些模型被用于学术研究和商业目的。目前，已经进行了几项综述 [17]，[18]，[19]，[20]，[21]，[22]，主要关注LLMs效率的不同方面，但仍提供了进一步改进的机会。

2024-04-24 20:58:30 1684

原创 LoRA: 大模型的低秩适配

随着我们预训练更大的模型，全量微调，即重新训练所有模型参数，变得不太可行。我们提出了低秩适应（Low-Rank Adaptation），简称LoRA，它冻结了预训练模型的权重，并将可训练的秩分解矩阵注入Transformer架构的每一层，大大减少了用于下游任务的可训练参数数量。神经网络有很多计算矩阵乘法的稠密层，这些层中的矩阵都是满秩的，但是在适应特定任务时，预训练语言模型表现出有更小的“本质秩”（instrisic rank），也就是即使将这些矩阵投影到更小的空间中，模型依然可以有效学习。

2024-04-24 20:52:37 1096

原创 Meta提出全新文档级嵌入框架，利用LLM来增强信息检索能力

近年来，基于嵌入式检索（embedding-based search）或密集检索（dense retrieval）相比传统的稀疏检索（sparse retrieval）或基于词袋（bag of words）的方法，已经展示出了更先进的结果。

2024-04-22 20:15:29 1049

原创使用大模型来实现医疗领域的隐私信息保护

传统隐私保护技术主要包括联邦学习、差分隐私、同态加密等，这些技术在大模型背景下的应用挑战不断加剧：(1)联邦学习应用于大模型中时更注重使用多个小模型来训练性能更强的大模型，对隐私的关注有所减少；作者首先对数据建立基线，提取关键隐私指标(常见症状、患者情绪或医疗查询的趋势)，用LLM掩盖敏感信息，确保仅更改数据的个人身份或敏感部分，数据的整体结构和本质保持不变，为实现在对话中保持历史背景(指向同一含义的不同token)，方案中使用外部存储，将已识别的PII映射到其匿名对应项。图1 生成的对话数据。

2024-04-16 23:07:09 1700

原创普林斯顿伯克利最新「扩散模型」综述：应用、引导生成、统计率和优化

扩散模型是一种强大且通用的生成性人工智能技术，在计算机视觉、音频、强化学习和计算生物学中取得了巨大的成功。在这些应用中，扩散模型提供了灵活的高维数据建模，并作为采样器在主动引导下生成具有任务所需属性的新样本。尽管在实践中取得了显著的成功，但扩散模型的理论研究非常有限，这可能会减缓原则上的方法论创新，进一步利用和改进扩散模型。在本文中，我们回顾了扩散模型的新兴应用，理解其在各种控制下的样本生成。接下来，我们概述了扩散模型的现有理论，包括其统计特性和采样能力。我们采取渐进式的程序，从无条件扩散模型开始，并连接到

2024-04-15 19:06:17 2685

原创大模型LLM论文整理

Gemini：一族功能强大的多模态模论文名称：Gemini: A Family of Highly Capable Multimodal Models论文地址：https://arxiv.org/pdf/2312.11805会议：论文方法：该论文介绍了一种新的多模态模型系列，Gemini，在图像、音频、视频和文本理解方面具有非凡的能力。Gemini系列包括Ultra、Pro和Nano三种规模，适用于从复杂的推理任务到设备上的内存受限用例。论文实验结果：在广泛的基准测试中，该论文最先进的Gemini Ultr

2024-03-31 22:17:32 2340

原创国内复现Sora并开源：成本降低46%，序列扩充近百万！

Colossal-AI非常善于大模型的优化，例如，预训练一个大模型需要100块GPU，通过Colossal-AI的优化方案可以降低至50块同时保持性能。以在单台H800 SXM 8*80GB GPU上使用DiT-XL/2模型的性能测试为例，在600K的序列长度时，Open-Sora的方案比基线方案有40%以上的性能提升和成本降低。，未来会持续迭代、创新Open-Sora，希望借助开源的力量可以打造媲美Sora的产品，帮助影视、游戏开发、广告营销等领域实现降本增效。支持多种并行训练优化。

2024-03-30 14:14:55 1095

原创具备实时数据更新能力的大语言模型——Larimar

Larimar主要设计了一个外部记忆模块,专门储存独立的实时数据,并将这些记忆有效地注入到大语言模型中,使得Larimar无需重新预训练就能在内容生成过程中精准使用新的知识数据。研究人员表示，Larimar是一种创新技术架构，可以有效解决大语言模型数据更新不及时、消除数据中存在的非法、偏见、错误等数据，同时可以很好保护那些敏感的数据防止外漏。海马体对短期记忆转化为长期记忆至关重要，特别是在形成新的记忆和学习新信息的过程中，帮助将经验和信息从短期记忆库存转移到大脑的其他部分以形成长期记忆。

2024-03-30 14:12:52 1343

原创深入了解大语言模型（LLM）微调方法

2021年微软提出的 LORA，斯坦福提出的 Prefix-Tuning，谷歌提出的 Prompt Tuning，2022年清华提出的 P-tuning v2、2023年华盛顿大学提出的QLoRA、2024年英伟达提出DoRA等基本上都是属于该范畴）。需要注意的是，与预训练一样，全微调需要足够的内存和计算预算来存储和处理训练过程中的所有梯度、优化器和其他更新组件。其中，大模型微调技术在此过程中起到了非常关键的作用，它提升了模型的生成效率和适应性，使其能够在多样化的应用场景中发挥更大的价值。

2024-03-13 13:07:28 2522

原创增强PLMs可塑性！MetaAI | 提出主动遗忘机制，加快模型收敛，准确率高出21.2%！

预训练语言模型（Pretrained Language Models, PLMs）在自然语言处理（Natural Language Processing, NLP）领域的应用上存在一定的局限性。具体来说，预训练语言模型的核心是通过汲取大型数据集来获取知识，并在预训练期间将这些知识存储在参数中，然后通过微调（fine-tuning）或提示（prompting）将这些知识应用于各种下游任务，如语义分析、问答等。尽管 PLM 取得了成功，但仍然存在许多缺点。特别是「在适应新语言」

2024-03-13 13:06:23 1022

原创 ELF-DISCOVER：大型语言模型自我构建推理结构

我们引入了SELF-DISCOVER，这是一个通用框架，用于让LLMs自我发现任务内在的推理结构，以解决对典型提示方法具有挑战性的复杂推理问题。该框架的核心是一个自我发现过程，在这个过程中，LLMs选择多个原子推理模块，比如批判性思维和逐步思维，并将它们组合成一个明确的推理结构，供LLMs在解码过程中遵循。

2024-03-11 11:23:02 1382

原创 2024 最新综述 | 当知识图谱遇上多模态学习

例如，像猫和狗这样的一般概念在大脑中表现为通用的、平均的视觉动物图像，而特定的限定词，如“阿拉斯加雪橇犬”，提供了清晰度，类似于MMKG中的基于路径的图像检索。如果我们只知道独角兽是有角的马，这个特定的图像在脑海中就是我们记住的那样，而不是有角的海豹或狮子。这种混合方法的优势是双重的：它扩大了图像数量的覆盖范围（第一种范式），还融入了第二种范式特有的广泛知识规模，这可以促进大规模、三元组级别的多模态信息生成，为未来在多模态实体对齐和MMKG驱动的应用（如MLLM预训练和VQA）提供新的机遇。

2024-02-27 19:34:19 7283

原创京东电商知识图谱与AIGC落地

导读本文将分享如何将知识图谱应用到电商场景下的 AIGC。文章将围绕下面五个方面进行分享：1.导言2.基于领域知识图谱的商品文案生成3.基于通用知识图谱的商品文案生成4.基于领域知识图谱的 LLM5.基于通用知识图谱的 LLM分享嘉宾｜李浩然博士京东科技言犀大模型算法负责人出品社区｜DataFun01导言首先介绍一下京东在电商场景下 AIGC 方面的探索。这是一个商品营销文案自动生成的全景图，自下而上首先是商品的输入信息。输入信息是异构

2024-02-27 19:29:58 1221

原创图解GPT2

从存储空间来看，我们的输入法只需要几十MB的空间，但是GPT-2最小的模型就需要500MB来存储它的参数，而最大的GPT-2模型是它的13倍，需要6.5GB的存储空间来存储其参数。在《Sample Efficient Text Summarization Using a Single Pre-Trained Transformer》，只有解码器的transformer结构首先在语言模型上进行预训练，然后微调做摘要任务，结果证明，在有限的数据设置中，它比预先训练的编码器-解码器变压器取得更好的结果。

2024-02-06 17:16:05 1498

原创华为、清华等开源超高清、精准文生图模型，0.5秒极速生成！

桌子上透明罐子里壮观的微小世界，大会堂内部，精心设计，雕刻建筑，解剖，象征，几何和参数化细节，精确的平面线细节，图案，黑暗幻想和难以表达的神秘情绪，技术设计，复杂的超细节，风格化和未来主义和仿生细节，建筑概念，低对比度细节，电影照明，8K，虚幻，逼真，超现实。美丽的女孩，雀斑，笑容灿烂，蓝色的眼睛，姜黄色的短发，深色的妆容，穿着花蓝色背心，柔和的光线，深灰色的背景，写实风格。而LCM通过预测增强的PF-ODE方法，将生成过程简化为几个微小步骤，以帮助模型用最快的速度生成高质量的图像。

2024-02-06 17:14:41 871

原创像人一样浏览网页执行任务，腾讯AI lab发布多模态端到端Agent

类似于人类浏览网页，Agent也将网页的视觉信息（屏幕截图）作为主要输入来源。因此观察空间包括当前的网页截图和辅助文本。通过在网页上的交互元素上叠加边框和数字标签，Agent能够更准确地确定需要交互的元素，并执行相应的动作。▲网页截图示例。

2024-02-03 10:37:57 2210

原创第一个多模大模型!1080Ti轻松运行

Vary-toy的模型结构和训练流程如上图所示，大体上继承了Vary，使用Vary-tiny+结构，pretrain出一个更好的视觉词表，然后将训好的视觉词表merge到最终结构进行multi-task training/SFT。众所周知一个好的数据配比对于产生一个能力全面的VLM是很重要的。因此在pretrain阶段，我们使用了5种任务类型的数据构建对话，数据配比和示例prompt如下；而在SFT阶段，我们只使用了LLaVA-80K数据。

2024-02-03 10:29:11 1363

原创 HiFT全参数微调新范式---逐层微调

以65B模型为例，单精度仅模型参数需求内存约为242G，半精度的内存需求约为121G，混合精度下仅模型参数需求的内存为242+121=363G，只有当混合精度降低的动态内存超过121G时候，混合精度的优势才能体现出来，但是大多数情况下，设备的限制，无法使用大的batch size. 根据我们的实验结果看，当微调3B（GPT-Neo）左右的模型时候，在小的batch下（我们设置的batch size 为8，句子长度为512），混合精度已经没有内存优势。可训练参数量的减少，将直接会降低梯度参数的内存使用。

2024-02-03 10:26:24 1553

原创基于知识图谱的少样本和零样本学习综述

应用范围: ZSL被广泛应用于从图像分类和视觉问答（VQA）到文本分类、知识提取和知识图谱补全等不同任务。监督式机器学习分类定义: 在监督式机器学习分类中，训练数据集用于训练分类器，从而在测试集上准确预测标签。ZSL的正式定义: ZSL旨在使用训练样本集训练函数来预测测试集上的样本，其中测试样本的类别与训练样本的类别不相交，即。辅助信息的使用: 由于未见类别没有标记样本，ZSL方法依赖于辅助信息，如类属性、类文本描述和类层次结构。

2024-02-03 10:24:09 1698

原创从大模型到现在的 Agent的技术发展

引一个乐观主义者的悲观估计随着大规模模型技术的兴起，我们正处于一个崭新的智能时代的黎明。我们有一个大胆的预测，未来的5到10年将可能带来一场大变局：99%的开发、设计和文字工作将被AI接管。这不仅仅是一个想象，而是对未来可能趋势的深思熟虑。在互联网时代，我们目睹了大量网站的崛起，成为互联网时代的原生应用的主要载体，这个时代有了 Web 相关的新技术，这些技术承载着 Google、Facebook、Twitter 等互联网明星企业的崛起。

2024-02-03 10:22:53 2533

原创大模型时序应用——基于对比学习的时序数据embedding

Text embedding space of LLM (TEST)总共分为两步：（1）将TS token化，并训练编码器一个encoder，用对比学习表征TS tokens；（2）创建prompts，使LLM对表征更开放，并实现TS任务。

2024-01-29 20:26:12 2506

原创 LMC：通过大模型合作与互相评估来进行无需训练的开放集识别

在这个工作中我们首先观察到，尤其从去年开始各式各样的大模型已经出现在我们的日常生活中，这些大模型往往具有丰富的知识，并具有不同的能力：比如ChatGPT具有丰富的常识；我们提出的LMC框架可以有效地避免开放集图片被误认为属于训练集，同时，我们也在现有常用的数据集与评估指标上，以无需训练的方式达到了比之前需要训练的方式更好的结果。1)我们提出的 LMC 是一个新颖的框架，它可以通过协作不同的现成预训练大模型的方式，以互补的方式利用它们的知识，以免训练的方式处理开放集物体识别任务。第一步用模型来提供反馈；

2024-01-29 20:23:49 1196

原创大模型：合成数据、安全挑战与知识注入

根据"Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training"这篇论文，即便LLM经过了广泛的安全调教，被提前训练进模型中的后门攻击仍然能留存下来，只是等待被特定的指令触发后就能做出恶意行为，例如生成一段黑客攻击代码。"Textbooks Are All You Need"的研究证实，知识丰富的LLM可以通过在更小、经过筛选的数据集上进行训练来实现，例如教科书。

2024-01-29 20:20:47 1522

原创最骚NLP论文：欺骗大模型却能大幅提升效果的骚操作

为了评估∅-shot提示的性能，主实验使用的LLM模型分别是PaLM 2，PaLM 2 for Chat，GPT-3.5 Turbo和GPT-4 Turbo，扩展分析使用的LLM模型是Llama 2 7B和Llama 2 7B Chat。也就是说，∅CoT提示有可能在更强的模型中突破用于减少幻觉的措施，特别是在需要复杂推理的任务中。在大模型的提示工程中，少样本提示，思维链提示（CoT）都是行之有效的方法，通过为大模型提供几个样例，为模型提供更多更相关的上下文，让模型回答时有所参照，可以提高模型性能。

2024-01-29 16:48:26 1045

原创大模型时代下的文本水印综述

当前的研究工作已经为各种 LLM 类型开发了水印算法，包括嵌入式（输入是文本，输出是该文本的相应嵌入）、生成式（目前最常用的 LLM，其输入和输出都是文本）和分类式（输入是文本，输出是特定的类别）的 LLM。为增强公众信任，需要确保水印技术的透明度和可靠性。本文介绍首个大模型时代下的文本水印综述，由清华、港中文、港科广、UIC、北邮联合发布，全面阐述了大模型时代下文本水印技术的算法类别与设计、评估角度与指标、实际应用场景，同时深入探讨了相关研究当前面临的挑战以及未来发展的方向，探索文本水印领域的前沿趋势。

2024-01-29 16:43:59 3855

原创腾讯多模态大模型最新综述，从26个主流大模型看多模态效果提升关键方法

在腾讯 2024 数字科技前沿应用趋势中，强调了“通用人工智能渐行渐近，大模型走向多模态，AI智能体（Agent）有望成为下一代平台当下多模态大模型不仅仅是学界新宠，也是未来行业发展进步的一大方向，站在这篇综述的基础之上，期待我们可以更快更好的理解未来多模态大模型的发展，赶上这波通用人工智能的新浪潮！

2024-01-29 16:38:37 5349

原创伯克利&DeepMind联合研究，RaLMSpec让检索增强LLM速度提升2-7倍！

RaLMSpec通过引入推测性检索和批量验证，显著提高了迭代式检索增强语言模型的服务效率。实验结果表明，RaLMSpec能够在保持模型输出质量的同时，实现对不同检索器（包括精确密集检索器、近似密集检索器和稀疏检索器）的显著加速。特别是在使用精确密集检索器时，RaLMSpec+PSA（结合预取、最优推测步长调度器和异步验证）能够与基线相比，在不同的语言模型和数据集上实现高达2.39倍的加速比。

2024-01-29 16:36:33 1385

原创 EMNLP‘23：大模型时代的数据标注—FreeAL

获取高质量的标记数据以用于模型训练对于各种自然语言处理任务来说往往耗时且劳动密集。尽管提出了许多解决方案，如小型语言模型（SLMs）的主动学习和大型语言模型（LLMs）时代流行的上下文学习，它们在一定程度上缓解了标注负担，但它们的性能仍然取决于人工干预。在LLMs时代如何降低注释成本仍然是一个未被充分探讨的问题。为了弥合这一差距，我们对传统主动学习进行了革新，并提出了一种创新的协同学习框架FreeAL，以交互式地从LLMs中提炼和过滤任务特定知识。

2024-01-29 12:34:04 1306

原创使用机器学习算法检测交易中的异常行为

现在，我们可以计算数据中的异常数量，从而找出数据中异常的比例，这在使用孤立森林等异常检测算法时非常有用：。按年龄划分的平均交易金额没有差异。现在让我们看一下一周中各天的交易数量：。现在让我们看一下数据中一些交易相关的列之间的相关性：。现在我们可以通过以下方式可视化数据中的异常情况：。现在我们可以训练机器学习模型来检测异常：。最后，我们使用经过训练的模型来检测异常：。现在我们来看看这个异常检测模型的性能：。

2024-01-28 21:59:39 1475

原创代码增强LLM

与LLM推理机制中严格硬编码工具调用的固定实践流程相反，以代码为中心的范式允许LLM动态生成tokens，并使用可适应的参数（adaptable parameters）调用执行模块，为LLM与其他功能终端交互提供了一种简单明了的方法，增强了其应用程序的灵活性和可扩展性。对于数据密集型领域中更复杂的任务，如化学、生物学和天文学，这些任务涉及对特定领域python库的调用，其中包含许多不同功能的复杂函数，增强LLMs正确调用这些功能函数的学习能力是一个前瞻性的方向，可以使LLMs在细粒度领域中执行专家级任务。

2024-01-28 21:40:50 1007 1

原创【无标题】

使用编码器/解码器架构 [1] 的想法为生成建模找到了新的相关性，随着变分自编码器（VAEs）[67] 和生成对抗网络（GANs）[42] 的出现，以及后来的扩散模型 [134]。随后进行了更多扩展基本方法的工作。特别是，第2.1节涵盖了从文本生成图像，第2.2节讨论了标准方法的迭代扩展，第2.3节聚焦于基于Transformer的变种，第2.4节描述了自监督方法，第2.5节强调了从文本输入生成视频的可能性，第2.6节处理了根据描述编辑图像的任务，第2.7节考虑了图方法，而第2.8节回顾了剩余的特殊方法。

2024-01-28 13:03:54 854

ChatGLM3+更强大的基础模型： ChatGLM3-6B 的基础模型 ChatGLM3-6B-Base 采用了更多样的训练数

ChatGLM3 是智谱AI和清华大学 KEG 实验室联合发布的新一代对话预训练模型。ChatGLM3-6B 是 ChatGLM3 系列中的开源模型，在保留了前两代模型对话流畅、部署门槛低等众多优秀特性的基础上，ChatGLM3-6B 引入了如下特性：更强大的基础模型： ChatGLM3-6B 的基础模型 ChatGLM3-6B-Base 采用了更多样的训练数据、更充分的训练步数和更合理的训练策略。在语义、数学、推理、代码、知识等不同角度的数据集上测评显示，* ChatGLM3-6B-Base 具有在 10B 以下的基础模型中最强的性能*。更完整的功能支持： ChatGLM3-6B 采用了全新设计的 Prompt 格式，除正常的多轮对话外。同时原生支持工具调用（Function Call）、代码执行（Code Interpreter）和 Agent 任务等复杂场景。更全面的开源序列：除了对话模型 ChatGLM3-6B 外，还开源了基础模型 ChatGLM3-6B-Base 、长文本对话模型 ChatGLM3-6B-32K。以上所有权重对学术研究完全开放

2024-01-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

ChatGLM3+更强大的基础模型： ChatGLM3-6B 的基础模型 ChatGLM3-6B-Base 采用了更多样的训练数

DesktopVoc-5.20-Setup.zip

科技论文写作简明教程.pdf

python爬虫25个项目教程

PDF内容编辑修改+PDFeditor

Could not load dynamic library &#039;cublas64_11.dll&#039;;此类报错的dll资源

空空如也

Could not load dynamic library 'cublas64_11.dll';此类报错的dll资源