聚焦学术界产业界应用前沿,探索大模型提效赋能现状
- 大模型联合训练实现功能融合
由Google提出,通过引入基础模型和特定领域增强模型中间层的少量训练参数,实现两个模型功能的融合。
优势:①节约训练成本;②无需特定领域的隐私数据。
原文:LLM AUGMENTED LLMS: EXPANDING CAPABILITIES THROUGH COMPOSITION
论文来源:https://arxiv.org/pdf/2401.02412.pdf - 多模态指令生成图像
由Google提出,通过自然语言合并图像的风格、主题、线条和图义等多种模态,实现图像多模态信息的统一格式输出,完成对模型生成图像过程的标准化指令调整。
原文:Instruct-Imagen: Image Generation with Multi-modal Instruction
论文来源:https://arxiv.org/pdf/2401.01952.pdf - LLaMA大模型扩展Transformer模块实现微遗忘训练
由港大、腾讯提出,通过拓展LLaMA中的Transformer模块,实现在新的数据集上对LLaMA2-7B基座模型的微遗忘训练,得到各项性能均得到提升的LLaMA Pro 8.3B模型。
原文:LLAMA PRO: Progressive LLaMA with Block Expansion
论文来源:https://arxiv.org/pdf/2401.02415.pdf