简要总结 通过自监督学习在大量无标签数据上进行预训练,训练目标为最大化下一个单词出现的概率通过增大模型的参数量和训练数据量来提升基础模型的基本能力融入代码数据进行预训练提升基础模型的推理能力通过指令微调让基础模型与用户的需求对齐基于人类反馈的强化学习(RLHE)则进一步让模型生成更加安全可靠的内容大模型已经具备一定程度的智能 标题注意事项 缺乏实时信息缺乏常识推理对偏见和歧视的反映容易出现幻觉(hallucination),不可靠缺乏判断力,可能给出不合适或不道德的建议