今天给大家介绍下如何在矩池云使用InternLM-7B模型。
租用机器
需要选择显存大于15G的机器,比如 A4000,不然InternLM-Chat-7B模型会因为显存不够而报错(CUDA out of Memory)
点击租用按钮,进入镜像筛选页面,点击右侧蓝色InternLM
进行镜像筛选,选择第一个INternLM-Chat-7B
镜像,然后点击租用即可。
机器启动成功后,会出现以下界面:
- 8501 端口对应链接,是 InternLM-Chat web UI 服务默认启动端口,这个服务默认开机自启,大家无需手动启动了(服务启动加载模型预计要2-3分钟),也就是点击这个链接后,等待2-3分钟后。
- SSH,一种连接服务器的方法
- JupyterLab,一种连接服务器的方法,比较常用
使用InternLM-Chat
打开页面
InternLM-Chat web UI 服务启动加载模型需要 2-3分钟,如果直接点击8501 端口对应链接显示无法连接不要着急,等1-2分钟就好,进去后可能会提示正在加载模型,大约需要2-3分钟的时间,成功打开后的界面如下图
查看日志
在上面的页面中,点击 JupyterLab- 点击打开 文字按钮,会打开 JupyterLab 页面,我们新建一个 Terminal ,
然后输入以下指令可以查看程序运行日志。
tail -f /InternLM/run_log.log
通过程序运行日志,我们能看到程序的运行状态等信息,如果程序运行出现故障,也可以在日志里找到故障原因,及时排查问题。
基本使用
-
基本对话:在8051端口对应的链接打开的界面,我们就可以开始进行模型对话了,比如在图示中的对话框中输入文字,点击“发送”键或者键盘上的“Enter”键,就可以向模型发送提问,模型即会自动生成对话,如下图所示
-
参数调整
-
MaxLength
:表示长对话的能力,即模型最多能记住多长的历史对话记录,该值也越大,模型理解上下文的能力越强。 -
Top P
:核心采样,即核心采样(nucleus sampling),是控制语言模型输出随机性的超参数配置。它设定了一个概率阈值,并选择累积概率超过该阈值的最佳词汇,然后模型从这组词汇中随机抽取以生成输出。例如 top p 为 0.9 时模型将仅考虑概率阈值 90% 以上的词汇。 -
Temperature
: 温度参数,由于从生成模型中抽样包含随机性,因此每次点击“生成”时,相同的提示可能会产生不同的输出。温度参数是用于调整随机程度的数字。较低的温度意味着较少的随机性;温度为 0 将始终产生相同的输出。执行具有“正确”答案的任务(如问题回答或总结)时,较低的温度(小于 1)更合适。如果模型开始自我重复,则表明温度过低。高温意味着更多的随机性,这可以帮助模型给出更有创意的输出。如果模型开始偏离主题或给出无意义的输出,则表明温度过高。随着序列变长,模型自然会对其预测更有信心,因此您可以在不偏离主题的情况下为长提示提高温度。相反,在短提示上使用高温会导致输出非常不稳定。
-
-
重置对话:点击左侧的
Clear Chat History
按钮,即可清空重置所有对话内容