大模型微调选型指南:我的企业需要微调或者训练一个自己的大模型吗?还是RAG更适合我?先说结论:微调duck不必

图片

大家可能看到网上有很多教大家微调大模型的教程,但是大多数作者往往都没有告诉我们微调适用于哪些场景,而哪些场景不需要微调。

对大模型还不甚了解的客户可能会问:我的企业需要花时间精力微调或者训练一个自己的大模型吗?

今天我就用实际案例给大家来分享一下我们对这个问题的看法,如有不对之处,欢迎大家纠正,共同交流学习。


先说结论:大多数情况下都不需要自己训练,直接使用开源的大模型即可

图片

为什么这么说呢?

因为微调后AI大模型并不会严格按照你的数据进行回答,所以如果您是政务,医疗,法律等对回答准确度要求很高的客户,不能答错一个字,则您需要的是AI语义匹配算法,而不是训练大模型。

下面我就用一个实际例子来跟大家展示实际微调后的效果,这是一个医疗问诊开源大模型微调的项目

图片

上面用户的问题是:想咨询哪些保健品适合爷爷奶奶

训练数据首先提到可以尝试:鱼油 ;二  烟酸 三 叶黄素 

作者用50多万条实际医疗问诊数据来微调拉玛模型,这是其中一条问题,同时也是训练数据,我们现在看看训练后同样的问题是否会产生同样的答案

图片

经过训练之后,再问同样的问题,大模型生成了更加详细的回答,乍一看很专业,给的理由也很充分。像一个专业医生回答的。但!是!

我们如果再仔细看回答里推荐的保健品。可以看到,微调后的回答并没有按照原训练数据进行回答,像这里提到的 smart Heart Plus, 以及 Q10, 跟上述训练数据提到的烟酸叶黄素完全不同,我们也仔细查找了所有50万条训练数据,里面并没有Q10这样的关键词,所以我们给大家证明了,大模型微调后并不能按照你的意思进行回答,甚至会出现无中生有的情况。

这对于政务和医疗等对准确性要求很高的领域来说并不安全,所以可以得出结论:微调只是让回答大意不会错,或者语言风格得以修改,但细节和事实部分跟原始数据大相径庭,大家千万要注意,不要以为大模型训练之后就完全按照你的意思回答了

图片

如果您需要严格按照您的数据来回答,您应该选择:

1. (知识库+通义千问)中文 

2. (知识库+llama3)英文

这样的方案可以保证回答不会错。适合政务,医疗,法律等行业的客户。

图片

这里我们也展示一下我们在政务行业做的一个案例,这个就是利用了大模型的语义匹配的能力来实现政务领域智能客服问答的。并不需要训练大模型,效果远超之前的搜索引擎。

比如说:我们智能客服可以理解 个人所得税 和 个税 是同一个概念,从而将话题库里的内容推荐出来,这在以往的搜索引擎中靠关键词匹配是完全做不到的。

然而,大家可能会问:到底什么时候需要lora微调大模型呢?

图片

我们给大家总结了4大场景,大家可以对比自己企业实际情况来决定:

  1. 对回答准确度要求不高的场景,比如情感类,咨询类,陪聊类场景,可以只要lora微调

  2. 当你对回答的语言风格不满意时,比如 通用大模型回答没有个性,你需要一个特定人设

  3. 当你的领域是一个细分领域,有很多专有名词时,lora微调可以让回答更加专业

  4. 当你需要对问答库进行总结,润色,不是原封不动返回正确回答时。

总之,根据我们的测试结果来看,如果通用大模型回答的结果是的,或者跟您的专业领域大相径庭,甚至胡言乱语出现幻觉;您都可以用微调来尝试调整,微调后从语言上和整体上来看都要更好。只是不能要求他100%遵照训练数据回答而已,所以我们建议对回答准确度要求不高的场景,可以利用lora来改变大模型的回答行为和语气。

图片

这里,我们同样给大家展示一下英文原版llama3对上述保健品问题的回答结果, 可以看到,未经微调的回答 先乱答了一下,反问患者是哪个国家的医生。

图片

经过微调之后,llama3可以按我们的指令进行回答了

图片

这里还有一个有意思的点是 我们并没有用中文训练集进行微调,而用的是aplaca5万条英文默认数据

https://huggingface.co/datasets/yahma/alpaca-cleaned/tree/main,很神奇的是,用英文微调之后llama3对中文指令回答效果有了显著提升.

图片

最后,我们来总结一下,知识库和微调的试用场景,纵坐标是 外部信息的利用度,如果外部信息很多,甚至更新频率很快,这时候更推荐用知识库+大模型的方案,因为训练成本很高且频繁训练不现实

图片

如果您的数据较少,且不怎么更新,对准确度要求不高,同时您又希望大模型具备:鲜明的个性,特殊的语言风格或写作风格,以及特殊专业里的专业用词,这时您应该考虑微调大模型,而不是知识库;

当然,如果您抛开训练成本,最好的方式是两者结合,采用类似AI Agents/LangChain的架构,同时做到大知识库+特定领域专家大模型的组合无疑是效果最好的。

图片

最后,从开发难易程度来说,提示词工程最简单,上线最快,知识库增强次之,微调大模型较难,从头训练非常难;

而从回答质量来说,提示词工程方案由于单轮回答处理不了太长数据,所以遇到大量知识需要配合知识库检索的方案,而如果您对大模型语言风格不满意,或特定领域怎么回答都不准确,则应该考虑微调了,因为大模型对您专有名词不熟悉,需要用特定领域的数据来教他。

最后,微调只能改变大模型的少量参数,对预训练大模型能力的提升水平有明显的天花板,所以如果您开发能力出色,可以尝试从头训练一个独一无二属于自己的大模型。

大模型微调选型指南:我的企业需要微调或者训练一个自己的大模型吗?还是RAG更适合我?先说结论:微调duck不必

感谢大家读到最后,以上是视频讲解版,同时我们正在筹备AIGC技能提升特训营,欢迎大家扫码加入。我们会陆续推出一系列AIGC课程,让您快人一步,深入了解AIGC全貌。

图片

  • 13
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值