[ 云计算 | AWS ] ChatGPT 竞争对手 Claude 3 上线亚马逊云,实测表现超预期

在这里插入图片描述

文章目录

    • 一、前言
    • 二、Claude 3 介绍以及相关测试细节
    • 三、在亚马逊云科技上体验 Claude 3
      • 3.1 在 Amazon Bedrock 服务中配置 Claude 3
      • 3.2 为聊天配置使用 Claude 3 模型
      • 3.3 Caude 3 Sonet 聊天体验
    • 四、文末总结
    • 五、参考文献

一、前言

3月4号,Anthropic 发布了号称现阶段宇宙最强大模型 Claude 3,到底强到什么程度,直接看这张图即可。

发文时间点 Claude 3 Sonnet 模型现已在亚马逊云科技的 Amazon Bedrock 正式可用本文第三节会介绍如何在亚马逊云科技上使用 Claude3 模型。

二、Claude 3 介绍以及相关测试细节

这次发布包括了三个版本:Claude 3 Haiku、Claude 3 Sonnet和Claude 3 Opus,它们的能力从低到高。

首先是Haiku,它是市场上速度最快、成本效益最高的选择,对于大部分的纯文本任务表现出色,同时也支持多模态能力。

Sonnet 则比之前的 Claude 2 和 Claude 2.1 快两倍,并且智能水平更高。它擅长处理需要快速响应的智能任务,比如知识检索或者销售自动化。它在智能和速度之间达到了完美平衡,这对企业应用来说尤为重要。

Opus 是最顶级、最强大的基础模型,具备深度推理、高级数学和编码能力,在高度复杂的任务上表现出色。它能够流畅地处理各种开放式提示和新颖场景,包括任务自动化、假设生成以及图表、图形和预测的分析。适用于需要高度智能和复杂任务处理的场景,比如企业自动化、复杂金融预测、研究和开发等。

Claude 3 Haiku、Claude 3 Sonnet和Claude 3 Opus的能力可以参考下面的图示:

在这里插入图片描述

在相关测评中,Opus表现出色,多项基准测试中的得分都超过了GPT-4和Gemini 1.0 Ultra,在数学、编程、多语言理解、视觉等多个维度上树立了新的行业标准。特别是在特定测试场景下,如研究生水平考试Q题解A和数学Q题解决上,Claude 3的表现优于GPT-4。比如,在zero-shot学习环境下,Claude 3的准确率达到了60%,超过了GPT-4的52%。

在 Babel.cloud 开源评估项目的 LLMRGB 项目中,Claude3 在单次测试中获得了高达97.6的高分,大大超过了GPT-4,成为当前大型模型能力的领先者。

在这里插入图片描述

(测试结果图片以及仓库见文末参考文献)

要特别注意的是,在 LLM-RGB 评估中,015_simple_mahjong 是个超级难题。简单地说,大型模型被教了一些简单的麻将规则,还给了一些例子,然后要求在一个具体情境下做出选择。这个问题在以前的测试中很少有人能正确解答。不过,Claude 3 Opus20%的几率给出最佳解答,还有80%的几率给出次优解。这意味着它的多轮推理能力远远超过其他模型,能够快速学习并应用有限的知识。这使得 Claude 3 的应用领域不仅限于简单的客服和文本生成,它在工程过程更长的领域也能表现出色。

三、在亚马逊云科技上体验 Claude 3

3.1 在 Amazon Bedrock 服务中配置 Claude 3

目前,Anthropic 的 Claude 3 Sonnet 模型现已在亚马逊云科技的 Amazon Bedrock 正式可用。目前可以完全免费试用

Amazon 上的体验服务入口:https://portal.cloudassist-beta.sign-up.china.aws.a2z.com/demo/qrcode?trk=KOCKOL

进入后无需注册账号,仅需要扫码进入 CloudAssist,然后点击限时试用即可,如下图

下一代 Claude (Claude 3) 的三个模型 Claude 3 Opus、Claude 3 Sonnet 和 Claude 3 Haiku 将陆续登陆 Amazon Bedrock。Amazon Bedrock 是目前第一个也是唯一一个提供 Claude 3 Sonnet 的托管服务。

在这里插入图片描述

在 Amazon Bedrock 服务中,点击下面的入门按钮

在这里插入图片描述

进入到 Amazon Bedrock 后,首先需要管理模型的访问权限,这后面需要申请所需的模型,在这个步骤直接点击 [管理模型访问权限] 按钮即可。

在这里插入图片描述

进入到模型列表页面后,可以看到 Amazon Bedrock 中内嵌了很多模型,不过这些模型默认没有配置访问,这需要你做访问请求,也就是继续点击配置模型访问权限操作。

在这里插入图片描述

进入到模型请求访问权限页面后,可以看到 Anthropic 公司的模型,在做请求之前,需要先提交应用场景。如下图

在这里插入图片描述

下面的信息是必填信息,需要填写后,按钮才会高亮,允许继续点击

在这里插入图片描述

在上一步点击提交按钮后,勾选所需的模型,这里直接全选了所有模型做请求。

在这里插入图片描述

最后请求过程中可能需要等待几分钟。等待请求完成即可。

在这里插入图片描述

3.2 为聊天配置使用 Claude 3 模型

在上述步骤配置好后,在 Amazon Bedrock 页面,选择聊天菜单,之后点击【选择模型】按钮,选择 Claude 3 模型。

在这里插入图片描述

进入到模型选择页面,选择 Anthropic 公司中的 Claude 3,点击应用即可。

在这里插入图片描述

3.3 Caude 3 Sonet 聊天体验

第一个问题我是直接问他使用pyhon写一个3次的循环,可以看出 Caude 3 不局限一种方式书写,并且将多个实现写出,后面并且给出的测试打印结果。可以说你后面想问的或者拓展的很好。

在这里插入图片描述

接下来我使用 Claude 3 进行了一个图片识别,并且让 Claude 3 进行了分析总结, 传给 Claude 3 的图片是一张中国地图,并且带有一些描述信息。

可以看到最后 Claude 3 给的分析总结非常精准,精准到我有点吃惊。

在这里插入图片描述

对图片进行识别的测试,我上传了一只猫,可以看到 Claude 3 不仅分析了动物是什么,还直接描述了这个图片中猫的场景动作。

在这里插入图片描述

另外一个让我吃惊的是,我上传了一张车的图片,让他识别出来车的型号,Claude 3 可以几乎精准识别。问题以及 Claude 3 的回答可以看下图。

在这里插入图片描述

四、文末总结

个人觉得,Claude 3 的超预期成功并不意味着 Anthropic 的能力已经完全超越了OpenAI。现在看 Claude 3 显然比 GPT4 更强大,但也许GPT-5 已经在 OpenAI 手中了。

然而,Claude 3 的出现表明大型模型领域不再由单一实体主导,也没有只有 OpenAI 才能创造的“核心魔法”。更多地涉及领先于工程能力和资源投入。大型基础模型之间的竞争为上层应用开发人员提供了更多选择,并将不可避免地带来更低的价格。从这个角度来看,无论 Claude 3 的成功被高估了多少,都带来了重要的行业价值和社会影响。

五、参考文献

  • https://github.com/babelcloud/LLM-RGB
  • https://llm-rgb.babel.run/view/testId/a581e4a9-ce1e-4b2f-8f45-980889913b58
  • https://mp.weixin.qq.com/s?__biz=MzA4ODMwMDcxMQ==&mid=2651122739&idx=1&sn=667fcc30565cb1ba6510307747fbf78e

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/549370.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

深入解析:在 Node.js 中删除文件的正确姿势

引言 在 Node.js 中处理文件尤其是移除文件,对于维护高效应用程序至关重要。储存和秩序当道的今天,删除不必要或冗余的文件能力显得尤为关键。本文深入探讨你会想要使用这个强大功能的时刻和原因,并通过各种案例展示了这个概念,同…

HTTP 工作流程请求响应 - 面试常问

文章目录 HTTP 工作流程请求和响应格式HTTP请求格式请求行:请求头部字段:空行:消息正文(请求正文): HTTP响应格式状态行:响应头部字段:空行: HTTP方法HTTP状态码常用HTTP…

强缓存和协商缓存

前言 计算机网络模型从底到上:物理层(光纤、网线)、链路层(MAC地址)、网络层(IP协议)、传输层(TCP\UDP)、应用层(HTTP\FTP\DNS)。HTTP协议是作用…

Midjourney绘图欣赏系列(十三)

Midjourney介绍 Midjourney 是生成式人工智能的一个很好的例子,它根据文本提示创建图像。它与 Dall-E 和 Stable Diffusion 一起成为最流行的 AI 艺术创作工具之一。与竞争对手不同,Midjourney 是自筹资金且闭源的,因此确切了解其幕后内容尚不…

机器学习——终身学习

终身学习 AI不断学习新的任务,最终进化成天网控制人类终身学习(LLL),持续学习,永不停止的学习,增量学习 用线上收集的资料不断的训练模型 问题就是对之前的任务进行遗忘,在之前的任务上表现不好…

Java学习五—数组

一、关于数组 1.1简介 在Java中,数组是一种特殊的对象,用于存储固定大小的相同类型的元素。数组可以存储基本数据类型(如int、char、boolean等)或对象引用。 ​ 1.2背景 我们可以想一个问题,如果现在让你存储100个…

openKylin系统安装ssh服务结合内网穿透实现固定公网地址访问

文章目录 1. 安装SSH服务2. 本地SSH连接测试3. openKylin安装Cpolar4. 配置 SSH公网地址5. 公网远程SSH连接小结 6. 固定SSH公网地址7. SSH固定地址连接 openKylin是中国首个基于Linux 的桌面操作系统开发者平台,通过开放操作系统源代码的方式,打造具有自…

VR历史建筑漫游介绍|虚拟现实体验店加盟|VR设备购买

VR历史建筑漫游是一种利用虚拟现实技术,让用户可以身临其境地参观和探索历史建筑的体验。通过VR头显和相关设备,用户可以在虚拟环境中自由移动和互动,感受历史建筑的真实氛围和文化内涵。 在VR历史建筑漫游中,您可以选择不同的历史…

文心一言赋能问卷生成,打造高效问卷调研工具

当前,各种大语言模型(LLM,Large Language Model)井喷式发展,基于LLM的应用也不断涌现。但是,当开发者基于LLM开发下游应用时,LLM直接生成的结果在格式、内容等方面都存在许多不确定因素&#xf…

【办公类-22-15】周计划系列(5-6)“周计划-06 周计划打印pdf(docx删除内容转PDF)“ (2024年调整版本)

作品展示 背景需求: 前期用docx(删除第一页反思部分内容)转PDF转png(第一页)的方式获得上传网页用的图片。 【办公类-22-14】周计划系列(5-5)“周计划-05 上传周计划png(docx转PDF…

汽车功能安全整体方法

摘 要 ISO26262道路车辆功能安全标准已经制定实践了多年,主要目标是应对车辆的电子和电气(E/E)系统失效。该方法践行至今,有些系统功能安全方法已经成熟,例如电池管理系统(BMS),并且…

DockerFile遇到的坑

CMD 命令的坑 dockerfile 中的 CMD 命令在docker run -it 不会执行 CMD 命令。 FROM golang WORKDIR / COPY . ./All-in-one CMD ["/bin/sh","-c","touch /kkk.txt && ls -la"] RUN echo alias ll"ls -la" > ~/.bashrc(不…