新模型Claude 3实测!各项能力超强,确实比GPT-4好用

2024最新教程Claude 3注册账号,小白教程包教包会

过去不到一个月,OpenAI 扔出 Sora 这个重磅炸弹后成为全球焦点,不断推出的视频更是赚足眼球、热度不减。昨晚,Anthropic 突然惊喜上线,时隔八个月携着 Claude 3 走来,让世界再次将目光聚焦到这一个被视为 ChatGPT 强大竞争对手之一的多模态模型。

1

响应速度达即时水准

长文本与多模态双拳出击

图片

据 Anthropic 官方表示,Claude 3 是针对不同功能的一个模型系列,分别是:Opus、Sonnet 和 Haiku。尽管 Anthropic 并未给出 Claude 3 模型的具体参数,但也公布了此三个版本在各自性能和适配的任务上的差异,具体表现为:

  • Claude 3 Opus——最智能的模型,可跨 API 和数据库规划和编码,在药物研发、市场分析等高度复杂的任务上具有最佳性能。
  • Claude 3 Sonnet——平衡智能和速度,其高耐用性更适合企业,更实惠和适合规模化。
  • Claude 3 Haiku——最快、最紧凑的模型,具有近乎即时的响应能力,能提供无缝问答体验。

目前,Opus 和 Sonnet 现已可以使用,而 Claude 的 API 也已在159 个国家/地区广泛开放。其中,开发者们可以在官网上免费体验最经济实惠的 Sonnet,而 Opus 则需要 订阅 Claude Pro 后付费使用。

与大半年前发布的 Claude 2 相比, Claude 3 有什么令人瞩目的进步呢?

首先,Claude 3 响应速度接近即时。

Claude 3 模型支持实时对话、自动完成和数据提取任务。对于绝大多数工作负载,Claude 3 Sonnet 的速度比 Claude 2 和 Claude 2.1 快 2 倍,且智能水平更高。Sonnet 擅长执行需要快速响应的任务,例如知识检索或销售自动化。Opus 的速度与 Claude 2 和 2.1 相似,但拥有更高的智能水平。而 Haiku 作为速度最快且最具成本效益的型号,它可以在不到三秒的时间内阅读 arXiv 上包含图表和图形的信息和数据密集的研究论文(约 10k tokens)。

其次,Claude 3 大大增强了对语境的理解,减少了不必要的拒绝。

Anthropic 在语境理解的领域取得了有显著进展。与前几代模型相比,Claude 3 Opus、Sonnet 和 Haiku 发出拒绝回答提示的可能性明显降低,展现出 Claude 3 模型家族能对请求表现出更细致的理解,能够识别真正的伤害,并且拒绝回答无害提示的频率要少得多。

图片

另一方面,Claude 3 还提高了回答的准确性。Anthropic 官方表示,他们使用了大量复杂的事实问题来针对解决当前模型中已知的弱点,将答案分为正确答案、错误答案(或幻觉)和承认不确定性,其中模型“承认不确定性”表示它不知道答案,而不是提供不正确的信息。

图片

与 Claude 2.1 相比,Opus 在具有挑战性的开放式问题上的准确性提高了一倍,同时也减少了错误答案的水平。另外, Anthropic 很快还将在 Claude 3 模型中启用引用功能,以便用户可以指向参考材料中的精确句子来验证他们的答案。

尽管由 Sora 引发的文生视频热潮似乎已成为2024年的新趋势,但毋庸置疑的是,以长文本为核心的大语言模型依旧是各大科技巨头的兵家必争之地。

同老对手OpenAI GPT-4与谷歌 Gemini Pro相比,Claude 3 的优势又在哪里呢?

Claude 本次更新的一大亮点,在于长文本能力的升级以及对多模态能力的突破。

Anthropic 在推出 Claude 3 时升级了其复杂视觉功能,使其领先于其他模型,多模态能力比肩GPT-4V。

Claude 3 可以处理各种视觉格式,包括照片、图表、图形和技术图表,在数学推理、文档视觉、科学图表等各方面性能超越 GPT-4V,能让企业客户的知识库高达 50% 以各种格式编码,例如 PDF、流程图或演示幻灯片。

图片

至于在原本就拥有的长文本分析优势上, Anthropic 也做出了升级。

Claude 3 提升了上下文对话窗口,最高达到200k。值得一提的是,它还具有超强的回忆能力。Claude 3 Opus 能够 “大海捞针”(NIAH),即通过将一个特定的句子(即“针”)隐藏在一堆看似杂乱无章的文档(即“大海”)中,然后询问一个只有通过找到那个“针”才能回答的问题,从而考察模型的信息回忆能力。

图片

研发团队通过在每个提示中使用 30 个随机“针”对其中之一并在不同的众包文档库上进行测试,增强了该基准的稳健性。测试证明,Claude 3 Opus 不仅实现了近乎完美的召回率,超过 99% 的准确率,而且在某些情况下,它甚至可以通过识别“针”这句话似乎是人类人为插入到原文中来识别评估本身的局限性。

英伟达首席AI科学家 Jim Fan 在 Claude 3 发布后立即表示其他LLM也应该像 Anthropic一样出击金融、医药等需要专业意见和优质报告的领域:

图片

Claude 3 的发布极为低调,直接在X上丢出一个链接。而最让人眼前一亮的便是,Claude 3发布后即提供了免费试用的机会,此举吸引了大量用户积极参与体验。在社交媒体X上,一位博主发起了一场有趣的测试挑战,上传了一张酷狗的图片,并使用免费版Claude 3进行尝试,以检验其对图像内容的理解和描述能力。最终结果显示,相较于ChatGPT,Claude 3对于该图片信息的解读更详尽、贴切。

图片

最后,在多模态场景下,博主让Claude解读一篇论文的部分内容,其分析逻辑清晰、准确。尽管如此,在信息丰富度方面,Claude的表现略逊于GPT-4,尚有提升空间,特别是在多模态信息整合与呈现的能力上,仍有待进一步加强。

图片

2

双管齐下锁定企业市场:

Claude 3的定价策略

Claude 3,这款颠覆了大模型领域格局的AI产品背后母公司Anthropic,是一家战略上秉承谨慎与安全优先原则的初创企业。自公司创立之日起,其核心科研工作始终聚焦在人工智能治理和模型安全性的强化上。即使面对2023年ChatGPT在全球范围内引发的性能竞赛热潮,Anthropic并未盲目追求技术性能指标上的超越,而是坚守对AI安全的重视。

去年9月,Anthropic获得了亚马逊高达40 亿美元,约 280 亿人民币的重磅投资。获得巨头青睐的原因,一方面是其卓越的技术能力,另一方面,业界普遍认同,该公司的技术创新策略首先是确保服务于构建可靠且安全的人工智能框架,其次才是对技术极限进行探索和突破。

这意味着,在追求卓越的同时,Anthropic始终坚持将安全性作为其AI产品和技术研发的基石。

其创始人 Daniela Amodei 与 Dario Amodei 是两兄妹。

值得一提的是,Daniela Amodei 是该公司的总裁,曾负责监督 OpenAI 的政策和安全团队在加入 OpenAI 之前,她曾公开表示 Anthropic 的安全第一政策是其主要差异化优势之一。这也决定了Claude系列以安全为首的技术基因。

在Claude3 技术文档中,我们也看到了Anthropic对安全理念的一以贯之。

Claude 3团队表明:现阶段已经组建了多个专门团队,负责监控和减少一系列广泛的风险,包括错误信息、儿童性剥削材料(CSAM)、生物滥用、选举干预以及自主复制能力等。并将持续开发如宪法式 AI 等方法,以提升模型的安全性和透明度,并对模型进行了调整优化,以降低由新型模态引发的隐私问题。

对于日益复杂的模型中所存在的偏见问题,根据问题回答偏见基准测试(BBQ),Claude 3 模型相比之前的产品表现出更少的偏见。

团队将继续致力于推动减少偏见并促进模型更大程度中立性的技术进步,确保它们不会偏向任何特定的政治立场。

图片

实质上,关于AI 安全的问题,在此前一直是一个争议的热点。曾获得图灵奖、被称为“AI 教父”的加拿大计算机科学家 Yoshua Bengio就曾呼吁,AI 领域被少数科技公司控制的可能性,将会是该技术带来生存风险之后的“第二大问题”。

Anthropic 的创始团队从 OpenAI 出来,并且参加过 GPT-3 的核心研发工作,目前也许是除了微软与 OpenAI 之外,最了解 OpenAI 与 GPT 系列大模型的公司。而他们选择的道路与Open AI相比也正好印证了技术路线的分歧:到底是性能先行还是兼顾技术治理。

这也是他们在发展理念上的终极竞争。

而关于Claude 3 带给行业接下来的影响,除了对于Open AI 霸主的地位的冲击外,有行业人士直接表示,行业有望很快从模型竞争转变为工作流竞争。

图片

该观点的形成与Claude 3系列模型在定价策略上的与众不同相关。目前,Claude 3系列中最顶级版本Claude 3 Opus的价格设定凸显其高端定位,对于每100万条token的使用费用为15美元,明显高于GPT-4 Turbo的10美元收费标准。

然而,Anthropic也透露,Claude 3系列中性能相对较低的Sonnet和Haiku版本,在处理相同数据量时的收费至少比Claude 3 Opus低五倍。

举例来说,如果用Claude来创建电子表格并比较其不同层级模型与GPT-4 Turbo以及GPT-3.5的成本,可以发现,在高端产品线上,Claude 3 Opus在输入和输出成本上均超过了GPT-4 Turbo;但在小型或中低端模型方面,例如Claude 3 Haiku的定价则较GPT-3.5-turbo-0125更为经济实惠。

2024最新教程Claude 3注册账号

这种价格差异使得业界开始讨论小规模模型的市场前景,有人甚至预测小模型可能在未来市场竞争中逐渐淡出。

与此同时,Anthropic对AI安全性的高度重视及定价策略上的亲民设计,显示了该公司商业模式上的独特布局,即更倾向于瞄准具有较高付费能力的企业级客户群体。

Claude 3发布后,市场上对下一代大模型GPT-5的期待声浪愈发高涨,许多业内专家认为,这不仅标志着Claude的崛起时刻,同时也是Open AI展现实力的关键阶段。有网友乐观预计,也许不久就能见证GPT-4.5的诞生。虽然最终结果有待观察,但可以预见的是,这场围绕大模型技术的竞争即将迎来新一轮的升级与高潮。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/512725.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

洛谷 P1083 [NOIP2012 提高组] 借教室(二分+差分)

题目链接: P1083 [NOIP2012 提高组] 借教室 - 洛谷 | 计算机科学教育新生态 (luogu.com.cn) 在大学期间,经常需要租借教室。大到院系举办活动,小到学习小组自习讨论,都需要向学校申请借教室。教室的大小功能不同,借教…

掌握WhatsApp手机号质量评分:增加信息可达性

WhatsApp手机号质量评分是用于衡量用户手机号与平台互动的健康度,确保用户通讯时的合规性和安全性。在实掌握WhatsApp手机号质量评分实际应用中,这个评分会影响用户的消息发送的可达性。高质量的评分意味着用户的账户被视为可信赖的,其发送的…

批量下载抖音视频|抖音数据挖掘软件

高效批量下载抖音视频,轻松满足您的需求 在日常工作中,需要下载大量视频时,传统的方式往往效率低下,一个个复制粘贴链接进行下载太过繁琐。为了解决这一难题,我们研发了一款基于C#的视频下载软件,让您可以通…

DML相关操作

DML 是数据操作语言,用来对数据库中表的数据记录进行增删改操作 添加数据(insert)修改数据(update)删除数据(delete) DML-添加数据 1.给指定字段添加数据 insert into 表名(字段…

【排序】详解冒泡排序

一、思想 冒泡排序的基本思想是利用两两比较相邻记录的方式,通过一系列的比较和交换操作,使得较大或较小的元素逐渐移动到数列的一端。在每一轮的排序过程中,都会从数列的起始位置开始,对相邻的元素进行比较,如果它们…

【c++设计模式14】结构型6:享元模式(Flyweight Pattern)

【c设计模式14】结构型6:享元模式(Flyweight Pattern) 一、定义二、适用场景三、过程四、享元模式类图五、C示例代码六、使用注意事项 类型序号设计模式描述结构型1适配器模式(Adapter Pattern)它用于在不修改已有类的…

MS2351M——RF 检测器/控制器

产品简述 MS2351M 是一款对数放大器芯片,主要用于接收信号强度 指示 RSSI 与功率放大器控制,工作频率范围是 50M  3000MHz , 因频率与温度不同,动态范围达 35dB 到 45dB 。 MS2351M 是电压响应器件, 50M…

关于Java并发多线程的一点思考

写在开头 在过去的2023年双11活动中,天猫的累计访问人次达到了8亿,京东超60个品牌销售破10亿,直播观看人数3.0亿人次,订单支付频率1分钟之内可达百万级峰值,这样的瞬间高并发活动,给服务端带来的冲击可想而…

WPF真入门教程31--WPF版房屋租售系统

1、教程回顾 到现在为止,“蒸”入门系列教程已完成了30刺由浅入深地讲解,当然不可能讲到了WPF的所有技能点,但读者看到了wpf的内部各种功能及之间的联系,在此基础上,再提供一个完整有效的综合项目,本项目采…

实用干货:分享一个自动切换输入法的IDE插件

大家好,我是大澈! 本文约1100字,整篇阅读大约需要3分钟。 关注微信公众号:“程序员大澈”,免费加入问答群,一起交流技术难题与未来! 现在关注公众号,免费送你 ”前后端入行大礼包…

DHCP自动获取IP地址实验(思科·)

华为设备参考: 一,实验目的 路由器搭载DHCP,让PC通过DHCP自动获取IP地址 二,不划分vlan 1,实验拓扑 2,配置命令 Switch Switch>enable Switch#configure terminal Switch(config)#int f0/1 Switch(…

Jmeter事务控制器聚合报告

Jmeter 事务控制器。 在Jmeter中,默认一个取样器就是一个事务事务控制器控制其子集取样器,合并为一个事务 添加:逻辑控制器/Logic Controller -> 事务控制器/Transaction Controller TPS: 服务器每秒处理的事务数在事务控制器下添加多个…