大语言模型
文章平均质量分 82
介绍人工智能和自然语言处理领域大语言模型相关技术
ZedKingCarry
成长中……
展开
-
【持续学习(十)】Bayesian Parameter-Efficient Fine-Tuning for Overcoming Catastrophic Forgetting
论文提出了一种新的贝叶斯参数高效微调方法,用于解决在微调大型预训练模型时出现的灾难性遗忘问题。通过在微调过程中保留预训练知识,作者的方法在不降低微调性能的同时,成功克服了灾难性遗忘。实验结果表明,使用Kronecker分解近似的Hessian比对角近似提供了更有效的预训练知识保留和更好的微调性能。尽管存在一些限制,但这项工作为未来在更大模型上的应用提供了有价值的见解。原创 2024-02-27 11:32:34 · 858 阅读 · 0 评论 -
【阅读笔记】Chain of LoRA
Chain of LoRA (COLA) 是一种新的微调框架,它通过迭代优化和残差学习来提高大型语言模型在特定任务上的性能。与现有的LoRA方法相比,COLA在不增加计算成本的情况下,能够实现更好的泛化性能。通过实验验证,COLA在多个模型和任务上都显示出了其有效性,并为未来的研究提供了新的方向。原创 2024-01-11 22:22:11 · 1135 阅读 · 0 评论 -
【持续学习系列(八)】《Continual Learning Through Synaptic Intelligence》
论文通过引入智能突触的概念,提出了一种新的持续学习方法,该方法通过让每个突触估计其对解决过去任务的重要性,并惩罚变化最重要的突触,从而在不断变化的数据分布中实现新任务的学习,同时最小化对旧任务的遗忘。实验结果表明,这种方法在多个数据集上都表现出了良好的性能,为解决灾难性遗忘问题提供了一种新的视角。原创 2024-01-05 20:11:07 · 895 阅读 · 0 评论 -
【持续学习系列(七)】Gradient Episodic Memory for Continual Learning
论文提出了一个名为GEM的模型来解决持续学习中的灾难性遗忘问题,并在实验中展示了其有效性。GEM通过使用情节记忆来最小化对旧任务性能的负面影响,并允许有益的知识传递。尽管GEM在实验中表现出色,但仍有改进的空间,特别是在利用任务描述符、记忆管理和计算效率方面。原创 2024-01-05 17:59:17 · 971 阅读 · 0 评论 -
【持续学习系列(六)】《iCaRL》
iCaRL是一种新的训练策略,它允许在类增量学习环境中同时学习分类器和数据表示。通过使用最近均值样本规则、基于放牧的优先样本选择和知识蒸馏,iCaRL能够在长时间内增量学习多个类别,而其他方法很快就会失败。尽管如此,作者认为类增量分类仍然是一个开放的研究领域,特别是在提高性能和探索隐私敏感的应用方面。原创 2024-01-05 15:51:07 · 464 阅读 · 0 评论 -
【阅读笔记】LoRAHub:Efficient Cross-Task Generalization via Dynamic LoRA Composition
Experiments:Flan-T5->BBH benchmark->与few-shot ICL相比效果相当->减少了推理时间->gradient free减少计算开销。原创 2023-12-27 22:47:22 · 1393 阅读 · 2 评论 -
【Kimi帮我看论文(二)】脑机信号与语言模型的共同之处
这篇论文通过行为和神经实验证据,揭示了人类大脑和自回归DLMs在处理自然语言时共享的三个核心计算原则。这些发现支持了一个统一的建模框架,用于研究语言的神经基础,并为理解人类大脑如何处理语言提供了新的视角。原创 2023-12-27 19:56:55 · 886 阅读 · 0 评论 -
【Kimi帮我看论文(二)】Parameter-Efficient Fine-Tuning Methods for Pretrained Language Models—Survey
论文提供了对PEFT方法的全面分析和回顾,识别了关键技术和方法,并将它们分类为不同的微调方法。通过广泛的实验,论文评估了这些方法在参数效率和内存效率方面的表现,并揭示了未来研究的潜在方向。这些研究为研究人员和实践者在面对LLMs带来的挑战和机遇时提供了宝贵的资源。原创 2023-12-25 15:29:34 · 1153 阅读 · 0 评论 -
【Kimi帮我读论文】《LlaMaVAE: Guiding Large Language Model Generation via Continuous Latent Sentence Spaces》
论文提出了LlaMaVAE模型,旨在通过VAE架构和INN来提升LLMs的文本生成控制能力。通过实验验证了模型的有效性,并指出了未来研究的可能方向,包括探索更大的LLMs和更多样化的INN架构。原创 2023-12-25 15:16:28 · 762 阅读 · 0 评论 -
[论文阅读笔记] TRACE: A Comprehensive Benchmark for Continual Learning In Large Language Models
现有的评估标准在全面评估LLMs时存在不足,要么因为标准过于简单,要么忽视了关键能力,如遵循指令和安全性。为了解决这个问题,我们引入了一个名为TRACE的综合性评估标准,该标准包含多样化的挑战性任务和全面的评估指标。我们的实验显示了LLMs面临的真实挑战,特别是在持续学习过程中它们一般能力的明显下降。同时,我们的增强推理的持续学习(RCL)方法凸显了在训练中使用推理的重要性,尽管这并不是一个完整的解决方案。我们相信这个领域非常重要,希望我们的工作为未来的研究奠定了坚实的基础。原创 2023-12-22 23:57:00 · 1052 阅读 · 0 评论 -
【论文阅读笔记】MultiLoRA: Democratizing LoRA For Better Multi-Task Learning
本文介绍了MultiLoRA,通过改善LoRA奇异值分解不均匀的问题,提高LoRA在多任务领域的性能表现。本文通过多个LoRA连加并且引入可训练的系数因子改变LoRA中B矩阵的初始化方式提高性能表现。通过多个空间特征的热力图对比,证明了方法的有效性。原创 2023-11-27 21:37:45 · 432 阅读 · 0 评论 -
【chatgpt的日常应用场景】
chatgpt一些应用,日常积累,将使用chatgpt提高日常生产效率。原创 2023-03-16 21:33:21 · 508 阅读 · 0 评论 -
LSTM理解
要点:1.LSTM 即 Long Short-Term Memory 长短期记忆网络, 是一种特殊的RNN循环神经网络。2.LSTM解决了RNN存在的长期依赖问题而专门设计出来的。RNN的问题在于其中重复神经网络模块的链式形式只有一个非常简单的结构,如一个tanh层。这就使得RNN在以前信息距离现在信息很近的时候,可以利用以前的信息。但当以前的信息距离现在很远的时候,RNN就无法利用信息。3.LSTM是如何解决远距离信息无法利用的问题的?与标准RNN中的重复模块的单层神经网络不同,LSTM转载 2021-04-07 16:13:30 · 1625 阅读 · 0 评论 -
【论文阅读】CCT5: A Code-Change-Oriented Pre-Trained Model
本文提出了一个专门为代码更改设计的预训练模型,以便更好地支持开发人员进行软件维护。为此,我们首先收集了一个包含150万+代码更改和提交消息的成对数据的大规模数据集。基于这些数据,我们进行策划五个不同的预训练任务,使模型具备关于代码更改的不同领域知识。我们在三个被广泛研究的任务上对预训练模型CCT5进行微调代码变更和两个特定于代码审查过程的任务。结果表明,CCT5在这些任务上优于传统的深度学习方法和现有的预训练模型。原创 2023-04-20 09:56:16 · 89 阅读 · 0 评论 -
【ChatGPT】各大互联网企业开发的类ChatGPT大模型
ChatGPT是由开放人工智能公司OpenAI开发的一款基于人工智能技术的聊天机器人,采用了大规模Transformer网络,可以实现对话的生成和理解。其可以进行多轮对话,并具备一定的语言理解和推理能力,可以回答关于各种主题的问题,并为用户提供个性化的服务。ChatGPT的目标是打造一种真正智能、有趣、富有同理心的对话体验,使人与机器之间的交流更加自然和流畅。本文总结了目前各大互联网企业开发的类ChatGPT大模型,旨在了解当前领域的研究动态。原创 2023-04-12 09:22:18 · 4076 阅读 · 0 评论 -
上下文文本嵌入方法研究阅读笔记
这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Markdown编辑器你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Mar原创 2021-08-01 19:32:29 · 484 阅读 · 0 评论