LLMs之Anthropic Claude3的闪光点

Anthropic推出了Claude 3系列三个级别的模型:Haiku、Sonnet和Opus,从低到高依次提升智能能力。Claude 3 Opus顶级付费版,据称在逻辑推理能力上强于 GPT-4 和谷歌 Gemini Ultra。Claude 3 Sonnet 次级免费版,性能略低于 Opus 但仍优于 GPT-4。Claude 3 Haiku(未发布)专注于响应速度,旨在为企业提供近实时的 AI 客服等服务。

1.优势在哪?

一:超长上下文快速响应

响应速度得到优化,Haiku可以在3秒内完成阅读1万token的研究论文任务,包含图标、图形等各类数据,适用于实时应用场景。Sonnet比之前版本快2倍,能高效完成知识检索,销售自动化等任务。

传统大模型类似于黑盒子,其中的神经元是不可解释的,在于单一神经元产生了概念重叠,比如一个神经元在对不同任务甚至不同语言都能表现出激活状态,这叫“多义性”。

claude提出了一种解耦算法,相当于编纂了一个字典,把神经元分解为可解释的特征,比如512个神经元的单层Transformer,通过80亿数据点的训练就能得到13万个有意义的特征,这些特征之间还能实现分离和转换,从而产生更加复杂的行为。

这项工作相当于可以查看黑盒子的内容,理解能力和阅读速度自然大幅度提升。

二:强大的逻辑推理能力

从刷分指标上看,全面超越GPT4

尤其是在高级推理,数学问题,编程能力三项进展显著。

GPT采用人类反馈强化学习,Claude提出AI反馈强化学习,对于错误响应评价和修改,产生微调的监督学习宪法试验模型,然后将其与偏好模型结合,再循环迭代训练,通过不断加入更复杂的规则,显然能够实现更强大的逻辑推理能力。

三:多模态视觉能力显著提升

Claude3模型具有先进的视觉能力,与其他领先的模型相当。它们可以处理各种视觉格式,包括照片、图表、图形和技术图表。

技术报告没有透露具体细节,猜测类似谷歌Gemini原生图文混训技术,显然应用更多提示工程技术,比如思维树、图谱提示、检索增强生成RAG等等,隐式的构建了知识图谱。

四:长语境和近乎完美的记忆力

Claude3系列模型最初将在发布时提供200K上下文窗口。但是,所有三种模型都能够接受超过100万个令牌的输入,我们可以将其提供给需要增强处理能力的特定客户。

为了有效地处理长上下文提示,模型需要强大的回忆能力。“大海捞针”(NIAH)评估衡量一个模型从大量数据中准确回忆信息的能力。我们通过对每个提示使用30个随机针/问题对中的一个,并在多样化的众包文档语料库上进行测试,增强了该基准的鲁棒性。Claude 3 Opus不仅实现了近乎完美的召回,准确率超过99%,而且在某些情况下,它甚至通过识别“针”句子似乎是由人类人为插入原始文本来识别评估本身的局限性。

2.发展历程

大号的Opus有钱就能使,中号的Sonnet免费用,小号Haiku目前还不能用

3.缺点:

尚无文生图、文生视频能力,NLP上的性能干死了GPT4,其余能力跟Sora比还是一个追随者。 指标有刷榜之嫌。

4.瑕不掩瑜

充分彰显了大模型的快速进展,督促GPT5的发布。

LLMs的embedding方法可以通过将待分析的文本转化为embedding向量来实现。这可以使用原始的LLMs生成embedding向量,这样可以方便地操作,并在检索过程中保留LLMs的"思维过程"。首先,需要将所有文档中的文本转化为embedding向量,并将这些原始文本的embedding向量和原数据存储在Milvus中。在查询时,可以使用相同的模型将问题转化为embedding向量,然后搜索相似性高的相关问题,并将这些相关问题作为输入,生成答案。这种方法可以结合其他推荐系统技术一起使用,以避免一些缺点并获得更好的效果。例如,可以提取基于嵌入的特征用于协同过滤,或与"Two Tower"架构结合使用等等。\[1\]\[2\] #### 引用[.reference_title] - *1* [探索将大语言模型用作推荐系统](https://blog.csdn.net/Baihai_IDP/article/details/130679043)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] - *2* [LLMs 诸神之战:LangChain ,以【奥德赛】之名](https://blog.csdn.net/weixin_44839084/article/details/130731843)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] - *3* [使用langchain打造自己的大型语言模型(LLMs)](https://blog.csdn.net/weixin_42608414/article/details/129493302)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值