前言
第一次意义上接触AI是动手玩了玩B站秋叶大佬的懒人一站式Stable Diffusion,去年为了能在大学本科四年好好地van(玩)AI,也是特意买了一台普普通通的幻16,本地的4060 Laptop GPU算力只能说,够我一个人过家家般地“玩耍”。
这个暑假我也参加了学校与某外企联合创办的AI Hackthon,开发一款基于AI的个人助手,队伍的大家思维都很活跃,AI的全栈开发可能是未来的一个趋势,我很有幸在准大二的时间段接触到了Datawhale AI夏令营,尝试过第三期地球科学的内容,感觉,是我的feel(怎么还湾湾腔啊喂)手把手教学文档、有趣的比赛、免费的算力平台(A10还是阔以滴),资源可以说是非常优质了。
1.1 环境搭建
PAI-DSW(Data Science Workshop) 是阿里云提供的云原生AI一站式开发平台,其集成了类如JupyterLab、Terminal等多种云端环境,让开发者可以快速进行人工智能等开发。(喜闻乐见的AI集成开发环境,我的评价是还蛮方便的)
本次还是使用了ModelScope魔搭平台,这次直接使用了阿里云的DSW。配置过程就再次闭眼略了。
(A100也可以用嘻嘻嘻(一股没有见过世面的样子)
到了这里,就算成功开通了PAI-DSW的免费试用了。、
1.2 初始化环境
git lfs install
git clone https://www.modelscope.cn/datasets/Datawhale/AICamp_yuan_baseline.git
pip install streamlit==1.24.0
streamlit run AICamp_yuan_baseline/Task\ 1:零基础玩转源大模型/web_demo_2b.py --server.address 127.0.0.1 --server.port 6006
在Terminal输入以上命令。出现了网址证明已经生成了对话。
(此时在加载模型)
遇到问题
2.0.1 问题复现
没有按照教程简单的询问一个简单的代码,我直接向其提问了一个比较困难的问题,生成出的答案并没有达到理想效果,这是正常的,因为我使用的是原始的模型,并没有对其进行更多的数据训练与微调。
当我们再输入一个问题时,它报错了。
2.0.2 问题分析
我们再输入一个2,输入一个3,观察报错内容。
我发现,矛头都指向了max_length,这是一个输入最大长度的参数。
我猜测,为了实现上下文连续推断,之前输入过的内容也会随着后文一起输入,从而导致后面会爆范围。
2.0.3 解决方案&最终效果
从1024改到了2048.
最终的效果。