书生浦语实战营课程一作业

最新推荐文章于 2024-04-25 14:00:23 发布

weixin_44112772

最新推荐文章于 2024-04-25 14:00:23 发布

阅读量806

点赞数 22

文章标签：语言模型

本文链接：https://blog.csdn.net/weixin_44112772/article/details/138181869

版权

课程一笔记

首先是介绍了InternLM2模型是什么。这里需要关注不同后缀的模型的区别。

InternLM2-Base：这个名字应该是一个基座模型，效果应该是只会补全，相当于是在做完形填空。
InternLM2:应该是在Base模型的基础上进行了增量训练，赋予了大模型各方面的能力。但是我在用的时候确实发现了一些不同，比如和他对话的时候他似乎不能理解什么是疑问句。
InternLM2-Chat：这个可能是做过指令跟随微调了，有对话的能力。

大模型本质上是在做语言建模这件事情，给定context，预言接下来的token。因此训练的数据很重要。很多的idea其实不难想，但是如何得到相关的数据是一个很大的问题。

注意一下什么是代码解释器，代码解释器应该是lagent部分的内容。到时候需要关注一下如何搭建。

应用到部署的过程如下，注意对我而言需要重点关注模型的微调、量化部署以及智能体三方面。
在接下来的课程中需要关注构建智能体时如何调用外部的API或者工具，大模型怎么知道什么时候该调用API。

InternLM2是全链条开源的，这给了我一个很好的学习机会。

对于预训练来说，这个步骤我应该是不需要接触了，因为肯定都是从别人预训练好的模型基座上进行开发。

微调是使用的Xtuner，号称8G调7B！！！！！到时候一定要体验一下。而且还号称方便配置。

对于开源的评测方案，说是开源的OpenCompass。这个到时候体验一下，但是和我的目标关系不大。

开源的部署方案是LMDeploy，我已经尝试过了，其提供的4bit量化功能，以及加速推理的方案真的很nice。

对于智能体框架Lagent，应该也会很有用。

这里记录一下自己在阅读InternLM2报告时的重点和疑问，等结营时看看自己能不能简单理解。

关注