Claude 3正式发布,性能超越GPT-4,免费使用且支持中文!

前言

在3月4日晚,著名的生成式AI平台Anthropic在其官方网站上正式发布了Claude 3系列多模态大模型。这个系列包括三个版本:Haiku、Sonnet和Opus。

其中,Claude 3 Opu 为 Claude 3 系列模型的最强版本,具有接近人类的理解能力,可以灵巧地处理开放式提示和复杂的任务,根据官方给到的资料,其性能全面超过了 GPT-4。
在这里插入图片描述

  • Opus: 在多个维度上超过了OpenAI的GPT-4,包括研究生水平专家推理、基础数学、本科水平专家知识、代码等10个方面。
  • Haiku: 这个模型特别注重效率,能够在短短3秒内阅读一份包含10,000
    tokens的论文。这种高速的阅读能力使其在需要快速处理大量信息的任务中具有明显优势。
  • Sonnet: 相比于之前的Claude 2/2.1版本,Sonnet更加智能,特别适合用于知识检索等任务。
    在这里插入图片描述

这三个模型都支持高达20万的上下文窗口,能够处理和理解大量的背景信息。Anthropic还表示,这些模型实际上支持高达100万的上下文,但由于这会消耗巨大的AI算力,因此这一功能目前只对特定用户开放。

评测展示

在这里插入图片描述
根据最新的评测结果,Claude 3 Opus 在多数常用的AI系统评估基准上展现了卓越的性能,超越了同类产品。
该模型在以下关键领域取得了显著优势:

  • 本科生水平的专家知识 (MMLU): 在这项评估中,Claude 3 Opus 展示了其深厚的专业知识储备,超过了其他竞争产品。
  • 研究生水平的专家推理 (GPQA): 该模型在高级推理任务中的表现同样出色,证明了其在复杂逻辑和推理方面的高级能力。
  • 基础数学 (GSM8K): 在数学问题解决方面,Claude 3 Opus 也展现出了强大的能力。

所有 Claude 3 模型在分析和预测、细微内容创建、代码生成以及西班牙语、日语和法语等非英语语言对话方面的能力都得到了提高。

Claude3功能对比

指令遵循能力大幅度提升

Claude 3模型在指令遵循能力方面取得了显著的改进。与之前的Claude模型相比,该模型在处理安全性问题上表现得更为灵活。以前的版本可能因缺乏语境理解而频繁拒绝回答某些问题,但Claude 3在这方面做出了重大调整。
在这里插入图片描述

根据Anthropic的说法,Claude 3在识别真正违反内容政策的问题方面表现得更加细致和准确。它能够更好地区分哪些请求是真正有问题的,而哪些是无害的。这意味着与其他几代模型相比,如Opus、Sonnet和Haiku,Claude 3在面对接近系统边界的提示时拒绝回答的可能性明显降低。

在这里插入图片描述

200K上下文窗口和近乎完美的记忆

Claude 3系列型号在发布时,将初始提供200K的上下文窗口。然而,这三种模型版本(Opus、Sonnet和Haiku)都具有处理超过100万token币输入的能力。

在处理长篇上下文提示时,模型需要具备强大的记忆回忆能力。为此,“大海捞针”(NIAH)评估方法被用来测试模型从大量数据中准确回忆信息的能力。这个基准测试通过在每个提示中使用30个随机针/问题对之一,并在不同众包文档库上进行测试,以增强其稳健性。

Claude 3 Opus在这个测试中表现出色,不仅实现了近乎完美的召回率,超过99%的准确率,而且在某些情况下,它甚至能够识别出评估本身的局限性,例如识别出“针”这句话似乎是人为插入到原文中的。

在这里插入图片描述

近乎即时的结果

Claude 3 型号可以支持实时客户聊天、自动完成和数据提取任务,在这些任务中,响应必须是即时和实时的。

Haiku 是市场上最快、最具成本效益的智能类别模型。它可以在不到三秒的时间内读取有关arXiv(~10k个代币)的信息和数据密集的研究论文,其中包含图表和图形。发布后,我们预计会进一步提高性能。

对于绝大多数工作负载,Sonnet 比 Claude 2 和 Claude 2.1 快 2 倍,具有更高的智能水平。它擅长需要快速响应的任务,例如知识检索或销售自动化。Opus 提供与 Claude 2 和 2.1 相似的速度,但智能水平要高得多。

强大的视觉能力

Claude 3 型号具有与其他领先型号相媲美的复杂视觉功能。它们可以处理各种视觉格式,包括照片、图表、图形和技术图表。我们特别高兴能为我们的企业客户提供这种新模式,其中一些客户拥有多达 50% 的知识库以各种格式编码,例如 PDF、流程图或演示幻灯片。
在这里插入图片描述

后记

官方人员回答:
我们认为模型智能不会接近其极限,我们计划在未来几个月内频繁发布 Claude 3 模型系列的更新。我们也很高兴发布一系列功能来增强我们模型的功能,特别是对于企业用例和大规模部署。这些新功能将包括工具使用(又名函数调用)、交互式编码(又名 REPL)和更高级的代理功能。

随着我们不断突破 AI 功能的界限,我们同样致力于确保我们的安全护栏跟上这些性能飞跃的步伐。我们的假设是,处于人工智能发展的前沿是引导其走向积极社会成果的最有效方式。

参考链接:
https://www.anthropic.com/news/claude-3-family

  • 55
    点赞
  • 37
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 7
    评论
使用Claude 2,您可以按照以下步骤进行操作: 1. 首先,打开Meet Claude的官方网址,以进行授权。您可以在https://www.anthropic.com/claude-in-slack 找到官方网址。 2. 授权后,您可以开始使用Claude 2。它是"claude-v1.2"的改进版本,具有在一般帮助、指令遵循、编码和其他任务方面的改进。此外,针对非英语语言,该模型也有相当好的表现。它还能够以一种更一致、更全面的方式进行角色扮演,并且默认情况下会编写更长、更彻底的回复。 3. 如果您之前已经体验过poe和slack的集成版,那么相比之下,Claude 2的响应速度要快得多。它具有更快的速度和更流畅的体验,为您提供更高效的交互。 通过按照以上步骤,您可以充分利用Claude 2,并享受更好的使用体验。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* [Meet Claude:免注册且免费GPT使用指南](https://blog.csdn.net/weixin_44339690/article/details/130252039)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] - *2* *3* [ChatGPT 的平替 Claude 使用指南](https://blog.csdn.net/hero272285642/article/details/130002563)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

以山河作礼。

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值