博客摘录「 大模型时代程序员应有的正确姿势」2024年2月19日

1. AIGC时代小团队开发重获竞争优势

过去一年,以扩散模型和大语言模型为代表的 AIGC 技术普及。AIGC在重构工作流程,重构人与人、人与机器、机器与机器的关系。

上一次类似的技术变革是上个世纪 90 年代末的互联网走向普通大众。

在 AIGC 的时代,计算机的能力得到了极大的增强,人与机器、机器与机器之间的协作构成了新的工具杠杆,加之开源软件的广泛应用,个体、小团队重新获得了竞争优势。

AIGC时代则在编程能力之外,还增加了对熟练开发或应用 AI 的能力。在实践中,除了做 AI 编译器、优化器搞模型训练,绝大多数工作并不需要太多数学知识。

2.引入当前数据集无关的外部领域知识,可以提升系统的综合性能(f-score) 

以分词算法为例。二十年前,全文检索系统风头正劲,准确的中文切分器能够让检索系统在构建索引的速度、索引大小与检索质量上获得一个较好的平衡。当时的主流是隐式马尔科夫的切分方案,基于 CRF 的字标注方法刚刚提出,CRF 方法的优化器采用拟牛顿法,需要计算 Hessian 矩阵的近似,这个近似会占用大量内存。作者从工程上优化了其物理内存占用,但是完成这个工作并不需要了解拟牛顿法的数学细节,而提升 CRF 方法分词器的效果需要引入更多、更全面的特征,这一工作也不需要特别高深的数学知识。

如何更好的构造关联到字的特征向量成为新的问题。基于神经网络的语言模型可以将稀疏高维的特性向量压缩到稠密低维的特征向量,并进而 Word2vec发现可以对计算出的词向量执行语义计算,而 GPT、BERT 等预训练大语言模型更是把英文单词都切分成了多个 token,交由神经网络本身在前8层 Transformer Block 进行还原。要完成这些工作,仍然不需要特别高深的数学知识,依赖的是巧妙的任务设计和对概率论的初步了解。

在 BERT 时代,基于知识库的问答,BERT 已经显著优于关键词和向量召回。

预训练语言模型非常消耗算力。2019年 Google 提出了 T5 模型,提出了可以基于前缀文本区分任务,进而在统一的框架内对语言模型进行预训练,例如当进行翻译任务时在需要处理的文本前面附加 translate English to German: ,当需要进行文本情感分析时附加sentiment: 。类似的思路表现为现在的大语言模型普遍都有SFT或指令对齐阶段。OpenAI 发现可以借助 Prefix 或者这里我们称它为 Prompt , 可以激发模型未被设计、训练的新的能力。

3.问题远没有得到解决

到 ChatGPT 为代表的大语言模型出现,传统意义上 NLP 的所有问题都得到解决,日常大量的文本处理类的工作可以无脑的使用大语言模型。但是,拥有了堪称强大的自然语言处理工具的现下,我们要解决的现实问题远没有得到解决。

在程序员的视角看,大语言模型的出现给程序开发带来了下面若干新问题(略)

现有的部分中文大语言模型其 Tokenizer 部分是存在缺陷的。中文历史上存在单字成词的传统,理论上在 Tokenizer 中除了单字和成语,不应该出现常见字的两字组合(鸳鸯、麒麟等是特例)。更进一步的,如果字出现的频率不高,单字也可以不出现(回退到 OpenAI 的方案)。

4.原理的重要性

考虑到现实的算力限制,并不是每个程序员都有机会从头训练大语言模型,但是我们仍然需要对大语言模型的工作原理以及其工作方式的可能解释进行研究,因为创新往往需要通过观察事物并深入了解其原理后才能产生。

                   
原文链接:https://blog.csdn.net/csdnnews/article/details/136064228

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值