GLM-4 能力接近ChatGPT4和Claude 2.1

本文以GLM-4 发布功能作为基准对比ChatGPT4,Claude-2测试。

帮关注下

输入测试用例是GLM-4提供,用专业性打败专业性才有趣!

以多模态理解,代码解释器,工具调用,逻辑推理方向测试。

1月16日,智谱AI首届技术开放日在京举办,智谱AI团队全面展示了其投身大模型事业三年多来所积累的技术成果,并发布了新一代基座大模型GLM-4。

多模态理解

GLM-4 进入体验地址,没有找到上传图片功能入口,找到官网Demo。就以官网这个张图片测试,能放到官网作为展示,肯定是有信心以此为宣传的。

GLM-4

在这里插入图片描述
从写作手法分析

生成文字叙事性开头,开头句式 “这是一张描绘秋天的野餐场景的图片”,带有明确的叙事性,介绍图片内容。

描写的地方是描绘图片中的具体对象,如“编织的篮子”“里面装满了各种食物”“周围散落着一些橙色的南瓜”等,细致地描绘画面的细节。

没有议论地方。

ChatGPT4

在这里插入图片描述
从写作手法分析

叙事性:开头用“这幅画展示了一个秋天的野餐场景”引出全文,明确指出画作内容,具有叙事作用。

描写性:用大量笔触描绘画中的具体细节,如“打开的藤制野餐篮”“盛有橙色小南瓜的盘子”等,细致地描绘画面。

说明性:对一些要素进行补充解释,如“都拥有木质手柄”“一个小碗里可能是酱料”等,进行说明性叙述。

议论性:有少量个人观点,如“色彩鲜艳,给人一种温馨和宁静的感觉”,加入个人对画面的主观看法。

整体而言,以细致的描写为主,同时加入叙事引出画面,说明补充画面内容,融入少量个人观点,多种文学手法融合,形象丰富地呈现画面。

小结

GPT4 写作手法要比 GLM-4 更加精细。GPT4组合很多写作手法,细致描写手法穿插叙事。

代码解释器

GLM-4

在这里插入图片描述
在这里插入图片描述

ChatGPT

在这里插入图片描述

在这里插入图片描述

小结

基本爱心形态都有,但是GPT4效果明显比GLM-4 更漂亮!

逻辑推理

GLM-4

在这里插入图片描述

ChatGPT

在这里插入图片描述

Claude-2

在这里插入图片描述

小结

** 逻辑推理能力GLM-4、ChatGPT、Claude-2不分伯仲!**

工具调用

GLM-4

在这里插入图片描述

ChatGPT

在这里插入图片描述

小结

在这里插入图片描述
不相伯仲!

GLM-4

新一代基座大模型GLM-4,整体性能相比GLM3全面提升60%,逼近GPT-4;支持更长上下文;更强的多模态;支持更快推理速度,更多并发,大大降低推理成本;同时GLM-4增强了智能体能力。

基础能力(英文):GLM-4 在 MMLU、GSM8K、MATH、BBH、HellaSwag、HumanEval等数据集上,分别达到GPT-4 94%、95%、91%、99%、90%、100%的水平。
在这里插入图片描述
指令跟随能力:GLM-4在IFEval的prompt级别上中、英分别达到GPT-4的88%、85%的水平,在Instruction级别上中、英分别达到GPT-4的90%、89%的水平。
在这里插入图片描述
对齐能力:GLM-4在中文对齐能力上整体超过GPT-4。
在这里插入图片描述
长文本能力:我们在LongBench(128K)测试集上对多个模型进行评测,GLM-4性能超过 Claude 2.1;在「大海捞针」(128K)实验中,GLM-4的测试结果为 128K以内全绿,做到100%精准召回。
在这里插入图片描述
多模态-文生图:CogView3在文生图多个评测指标上,相比DALLE3 约在 91.4% ~99.3%的水平之间。
在这里插入图片描述

结语

现在的基准测试,更多像商品宣传图,无法判断真实样子,使用一遍之后,知道模型下限在哪里!

GLM-4 工具调用,逻辑推理比较好,其他方面对比ChatGPT 和 Claude 2.1 还有距离,继续加油!

Claude 2.1 长文仍然是大哥!

欢迎留言交流!

帮关注下

独立开源软件开发者,SolidUI作者,对于新技术非常感兴趣,专注AI和数据领域,如果对我的文章内容感兴趣,请帮忙关注点赞收藏,谢谢!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/413096.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

提纲框架写作方法

论文提纲 论文提纲的意义 有利于检查构思有利于调整修改和写作 拟定提纲的目的 拟标题写总论点做总安排:几个方面,什么顺序做下位论点:每个项目的下位论点,直到段一级,写段的论点句考虑各段安排,把材料…

新火种AI|GPT-5前瞻!GPT-5将具备哪些新能力?

作者:小岩 编辑:彩云 Sam Altman在整个AI领域,乃至整个科技领域都被看作是极具影响力的存在,而2023年OpenAI无限反转的宫斗事件更是让Sam Altman刷足了存在感,他甚至被《时代》杂志评为“2023年度CEO”。 也正因此&…

01 SpringMVC的快速理解

1.1 如图所示,SpringMVC负责表述层(控制层Controller)实现简化! SpringMVC的作用主要覆盖的是表述层,例如: 请求映射、数据输入、视图界面、请求分发、表单回显、会话控制、过滤拦截、异步交互、文件上传…

CSS 网页布局

文章目录 布局元素页眉标签导航栏侧边栏网页主体文章页脚测试网页布局元素 布局元素 在html4.01等之前的版本中html并没有专用的布局元素,而是统统使用div进行布局 页眉标签 header标签一般用来嵌套网页的标题,搜索栏,导航栏等 导航栏 n…

redis原理(四)redis命令

目录 一、字符串命令: 二、列表命令: 三、集合命令: 四、散列命令: 五、有序集合命令: 六、redis发布与订阅命令: 七、事务命令 八、其他命令 1、排序:SORT 2、键的过期时间&#xff…

使用muduo库编写网络server端

muduo库源码编译安装和环境搭建 C muduo网络库知识分享01 - Linux平台下muduo网络库源码编译安装-CSDN博客 #include<iostream> #include<muduo/net/TcpServer.h> #include<muduo/net/EventLoop.h> using namespace std; using namespace muduo; using name…

STC8H8K蓝牙智能巡线小车——1. 环境搭建(基于RTX51操作系统)

1. 基本介绍 开发环境准备&#xff1a;Keil uVision5 烧录软件&#xff1a;STC-ISP&#xff08;V6.92A&#xff09; 芯片&#xff1a; STC8H8K64U-45I-LQFP64 芯片引脚&#xff1a; 2.创建项目 打开Keil&#xff0c;点击【Project】&#xff0c;选择【new uVersion proje…

中北数据结构2023真题

雪雾: 设计一个算法&#xff0c;将一个节点值为自然数的单列表拆分成两个单列表&#xff0c;原表中值为偶数的节点保留&#xff0c;而值为奇数的节点&#xff0c;按他们在原表的相对次序组成一个新的单列表 #include <stdio.h> #include <stdlib.h>typedef struct…

【计算机图形学】习题课:Viewing

【计算机图形学】Viewing 部分问题与解答 CS100433 Computer Graphics Assignment 21 Proof the composed transformations defined in global coordinate frame is equivalent to the composed transformations defined in local coordinate frame but in different composing…

Python+Selenium+Unittest 之selenium13--WebDriver操作方法3-鼠标操作2

这篇说下ActionChains里常用的几种鼠标操作的方法。 ActionChains常用的鼠标操作方法 click()鼠标左键单击double_click()鼠标左键双击context_click()鼠标右键单击move_to_element()鼠标移动到某个元素上&#xff08;鼠标悬浮操作&#xff09;click_and_hold()点击鼠标左键&am…

工作流管理框架airflow-安装部署教程

1 概述 Airflow是一个以编程方式编写&#xff0c;用于管理和调度工作流的平台。可以帮助你定义复杂的工作流程,然后在集群上执行和监控这些工作流。 Airflow计划程序在遵循指定的依赖项&#xff0c;同时在一组工作线程上执行任务。丰富的命令实用程序使在DAG上执行复杂的调度…

LabVIEW精确测量产品中按键力和行程

项目背景 传统的按键测试方法涉及手工操作&#xff0c;导致不一致和效率低下。在汽车行业中&#xff0c;带有实体按键的控制面板非常常见&#xff0c;确保一致的按键质量至关重要。制造商经常在这些组件的大规模、准确测试中遇到困难。显然&#xff0c;需要一个更自动化、精确…