Anthropic推出了Claude 3系列三个级别的模型:Haiku、Sonnet和Opus,从低到高依次提升智能能力。Claude 3 Opus顶级付费版,据称在逻辑推理能力上强于 GPT-4 和谷歌 Gemini Ultra。Claude 3 Sonnet 次级免费版,性能略低于 Opus 但仍优于 GPT-4。Claude 3 Haiku(未发布)专注于响应速度,旨在为企业提供近实时的 AI 客服等服务。
1.优势在哪?
一:超长上下文快速响应
响应速度得到优化,Haiku可以在3秒内完成阅读1万token的研究论文任务,包含图标、图形等各类数据,适用于实时应用场景。Sonnet比之前版本快2倍,能高效完成知识检索,销售自动化等任务。
传统大模型类似于黑盒子,其中的神经元是不可解释的,在于单一神经元产生了概念重叠,比如一个神经元在对不同任务甚至不同语言都能表现出激活状态,这叫“多义性”。
claude提出了一种解耦算法,相当于编纂了一个字典,把神经元分解为可解释的特征,比如512个神经元的单层Transformer,通过80亿数据点的训练就能得到13万个有意义的特征,这些特征之间还能实现分离和转换,从而产生更加复杂的行为。
这项工作相当于可以查看黑盒子的内容,理解能力和阅读速度自然大幅度提升。
二:强大的逻辑推理能力
从刷分指标上看,全面超越GPT4
尤其是在高级推理,数学问题,编程能力三项进展显著。
GPT采用人类反馈强化学习,Claude提出AI反馈强化学习,对于错误响应评价和修改,产生微调的监督学习宪法试验模型,然后将其与偏好模型结合,再循环迭代训练,通过不断加入更复杂的规则,显然能够实现更强大的逻辑推理能力。
三:多模态视觉能力显著提升
Claude3模型具有先进的视觉能力,与其他领先的模型相当。它们可以处理各种视觉格式,包括照片、图表、图形和技术图表。
技术报告没有透露具体细节,猜测类似谷歌Gemini原生图文混训技术,显然应用更多提示工程技术,比如思维树、图谱提示、检索增强生成RAG等等,隐式的构建了知识图谱。
四:长语境和近乎完美的记忆力
Claude3系列模型最初将在发布时提供200K上下文窗口。但是,所有三种模型都能够接受超过100万个令牌的输入,我们可以将其提供给需要增强处理能力的特定客户。
为了有效地处理长上下文提示,模型需要强大的回忆能力。“大海捞针”(NIAH)评估衡量一个模型从大量数据中准确回忆信息的能力。我们通过对每个提示使用30个随机针/问题对中的一个,并在多样化的众包文档语料库上进行测试,增强了该基准的鲁棒性。Claude 3 Opus不仅实现了近乎完美的召回,准确率超过99%,而且在某些情况下,它甚至通过识别“针”句子似乎是由人类人为插入原始文本来识别评估本身的局限性。
2.发展历程
大号的Opus有钱就能使,中号的Sonnet免费用,小号Haiku目前还不能用
3.缺点:
尚无文生图、文生视频能力,NLP上的性能干死了GPT4,其余能力跟Sora比还是一个追随者。 指标有刷榜之嫌。
4.瑕不掩瑜
充分彰显了大模型的快速进展,督促GPT5的发布。