大模型是大规模语言模型(Large Language Model)的简称,“大”主要指参数量巨大。
大模型旨在提供更强大、更准确的模型性能,以应对更复杂、更庞大的数据集或任务。
AI大模型:“预训练”+“大模型”,在大规模数据集上完成了预训练后无需或仅需要少量数据的微调,就能直接支撑各类应用。
为什么用大模型?
语言模型是用一种统计方法来预测句子或者文档中一系列单词出现的可能性的机器学习模型。早期模型简单,参数量较少,但是这些模型在捕捉词语之间的距离依赖关系 和 生成连贯的有意义的文本方面存在局限性,如GPT这样的大模型具有上千亿的参数,相比早期的模型大了很多。大量的参数可以让这些模型捕捉到它们所训练的数据中更复杂的模式,从而生成更准确的结果。
大模型优势:
1、上下文理解能力强
2、语言生成能力强
3、学习能力强
4、可迁移性高,一次训练就可以将模型应用到多种任务上,无需重新训练。
最近热点:
1、大模型(LLM)评估。
LLM核心模块:Transformer中的自注意力模块,可以高效处理序列,实现并行化、捕捉文本长距离依赖关系。
LLM关键特征:上下文学习;从人类反馈中强化学习。
近几年的相关研究可见一篇综述:"A Survey on Evaluation of Large Language Models" https://arxiv.org/abs/2307.03109
主要描述的内容:
1)评估内容。2)评估领域。3)评估方法。
主要贡献:
1)描述:评估什么(现有任务)、在哪里评估(数据集和基准测试)、如何评估。
2)评估什么:总结各领域的现有任务,LLMs成功与失败案例的结论。
3)在哪里评估:评估指标、数据集和基准。
4)如何评估:研究当前评估方法,总结新的评估方法。