GLM-4多模态重磅更新！摸着OpenAI过河！-编程知识

GLM-4多模态重磅更新！摸着OpenAI过河！

news/2025/2/23 0:57:03/文章来源:https://blog.csdn.net/ll15982534415/article/details/135684633

智谱CEO张鹏说：OpenAI摸着石头过河，我们摸着OpenAI过河。
摸来摸去摸了一年，以每3-4个月升级一次基座模型的速度，智谱摸着OpenAI过河的最新成绩到底怎么样？真如所说吗？

听到GLM-4发布的当天，我就去试用了一下GLM-4，毕竟是国内 全自研第四代基座大模型GLM-4！

实际体验

我依次测试了多模态、ALL Tools、个性化智能定制功能。

多模态

首先测试其图片理解能力，上传了一张猫片：

从结果来看，它基本上理解了这个图片的内容。

上传一张更复杂的图片试试呢？图片里有几个人？几个男人几个女人？

我也是学CV的，它答不准的原因在于底层图片识别、图像分割能力的不足，还需要继续努力。

为了测试它到底是不是真的理解图片里的含义，我上传了五环的图片，它成功的告诉我这个是五环，代表世界五大洲的团结和合作，赞！

All Tools

All Tools其实代表的是模型能否理解复杂指令，自由调用WebGLM搜索增强、Code Interpreter代码解释器和多模态生成能力，完成复杂任务。

我首先提了一个问题来验证联网能力：

它通过联网搜索的方式给出了答案：

总体来说，给出的内容还算不错。

我想进一步看看它的信息整合能力如何，于是让它进行表格的整理，这次等待的时间比较长，因为联网搜索了很久···，甚至还超时失败了，最终也没成功。

代码解释（CodeInterpreter）能力如何呢？先问了一下运行环境，但是无法给出准确的内存限制等，只给出了一些支持的代码或者运行库，值得注意的是，在运行的代码里本身不能联网：

为了测试基本的代码能力，我让它进行python得文件读取和保存：

画图能力如何呢？尝试一个主体进行三种风格的爆改：

怎么说呢，虽然在细节方面还不够好，比不上Dalle-3、SD或者MJ，但是已经基本能够满足要求了。可以满足给小朋友或者简单场景的绘画需求。

GLMs个性化智能体定制

这个功能其实瞄准的就是GPTs了，甚至从官方公告上来看，未来GLMs也将开放出开发者权限，并且进行收益分成（但是现在有个问题，GLM本身是不收费的，怎么盈利分成呢？可能的答案是：进行会员收费；回答里嵌套广告）

MaaS平台和API

按照智谱AI官方的说法，GLM-4性能相比GLM-3提升60%，逼近GPT-4（11月6日最新版本效果） 。

据智谱AI CEO张鹏介绍，GLM-4的整体性能相比上一代大幅提升，逼近GPT-4。 它可以支持更长的上下文，具备更强的多模态能力。同时，它的推理速度更快，支持更高的并发，大大降低推理成本。

此次发布的 GLM-4，在多个评测集上性能已接近或超过GPT-3.5，个别项目上几乎持平GPT-4。其中以下四个能力更新，是 GLM-4 最大的亮点：

多模态能力：推出了CogView3代，效果超过开源SD模型，逼近 DALLE-3。
All Tools能力：GLM-4能自主理解复杂指令，自由调用WebGLM搜索增强、Code Interpreter代码解释器和多模态生成能力，完成复杂任务。
GLMs个性化智能体定制：用户可以通过智谱清言官方网站创建属于自己的GLM智能体，无需编程基础。
MaaS平台和API：GLM-4登陆了Maas平台，提供API访问，支持开发者内测Assistant API。

数据指标

数据集表现

MMLU(Massive Multitask Language Understanding)：评估大模型的对于知识的理解，目前GLM-4是81.5分，GPT-4得分86.4分，目前能达到GPT4的94% ；

GSM8K(Grade School Math 8K)：测试数学能力，小学数学和初中数学水平。GLM-4得分87.6，达到GPT-4的95%；

MATH：数学测试，涉及到一些较难的逻辑推理，GLM-4得分47.9，达到GPT-4的91% ；

BBH(Big Bench Hackathon)：偏综合测试，比如翻译、语言理解、逻辑推理等内容。GLM-4得分82.3，达到GPT-4的99%水平；

HellaSwag：偏常识测试，GLM-4得分85.4，达到GPT-4的90%水平；

HumanEval：纯粹的编程任务。评测大模型在算法、代码、编程层面的效果。GLM-4得分72，达到GPT-4的100%水平。

指令跟随能力方面，和GPT-4相比，IFEval在Prompt提示词跟随（中文）方面达到88%，指令跟随（中文）方面达到 90%水平，超过GPT-3.5。

对齐能力上，基于AlignBench数据集，GLM-4超过了GPT-4的6月13日版本，逼近GPT-4最新（11月6日版本）效果。

大海捞针测试， GLM-4模型能够在128K文本长度内实现几乎100%的精度召回，并未出现长上下文全局信息因为失焦而导致的精度下降问题。

展望

在 2023 年，智谱 AI 基于 GLM-130B 研发了 ChatGLM，并经过三个版本的迭代，逐渐增加了多模态理解、代码解释、网络搜索增强等新功能。

去年年初，智谱 AI 承诺要在 2023 年底实现逼近最先进的 GPT-4 性能的全栈自主创新的 GLM-4。作为一年前设定的目标，GLM-4 的性能已经有了显著提升。从标准的大模型评估角度来看，整体上已经逼近了 GPT-4。

希望国产大模型能够更进一步，我很担心未来在AI领域，又出现被掐脖子的事情～

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.hqwc.cn/news/413224.html

如若内容造成侵权/违法违规/事实不符，请联系编程知识网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

Docker 安装 PHP

Docker 安装 PHP

Docker 安装 PHP 安装 PHP 镜像方法一、docker pull php 查找 Docker Hub 上的 php 镜像: 可以通过 Sort by 查看其他版本的 php，默认是最新版本 php:latest。此外，我们还可以用 docker search php 命令来查看可用版本： runoobrunoob:…

阅读更多...

力扣精选算法100题——找到字符串中所有字母异位词(滑动窗口专题）

力扣精选算法100题——找到字符串中所有字母异位词(滑动窗口专题）

本题链接👉找到字符串中所有字母异位词第一步：了解题意给定2个字符串s和p，找到s中所有p的变位词的字串，就是p是"abc",在s串中找到与p串相等的字串，可以位置不同，但是字母必须相同，比…

阅读更多...

区域入侵/区域人数统计AI边缘计算智能分析网关V4如何修改IP地址？

区域入侵/区域人数统计AI边缘计算智能分析网关V4如何修改IP地址？

智能分析网关V4是TSINGSEE青犀推出的一款AI边缘计算智能硬件，硬件采用BM1684芯片，集成高性能8核ARM A53，主频高达2.3GHz，INT8峰值算力高达17.6Tops，FB32高精度算力达到2.2T，硬件内置了近40种AI算法模型&…

阅读更多...

初识C++模板

初识C++模板

1 引入模板实现一个算法：返回两个变量中的较大的一个，并支持不同的数据类型。如果不使用C模板，会有哪些选择呢？ 根据数据类型一遍一遍实现算法 int max_int(int x, int y) {return x > y ? x : y; }int max_double(double x…

阅读更多...

【Linux系统编程】环境变量的组织方式

【Linux系统编程】环境变量的组织方式

environ和getenv函数在Linux中，environ是一个全局的外部变量，其类型为char**，存储着系统的环境变量。除了使用主函数中的第三个参数外，我们也可使用environ函数直接访问系统的环境变量。注意：这里在代码内部使用envi…

阅读更多...

[labelme]labelme如何将标注的json格式转成png的mask文件掩码文件

labelme工具不仅仅具有标注功能，而且可以将json文件转化为png的分割训练文件，如果您是一个类别则可以直接用labelme_json_to_dataset进行转换最后提取对应的掩码文件即可进行语义分割训练。如果您是>2个类别则不推荐使用labelme工具进行转换&#xff…

阅读更多...

Liunx:线程控制

Liunx:线程控制

目录创建线程：pthread_create(); 线程等待：pthread_join(); 线程退出：pthread_exit(); 线程取消：pthread_cancel() 说线程的时候说过，liunx没有选择单独定义线程的数据结构和适配算法，而是用轻量级进程…

阅读更多...

软件测试|深入了解Python中的super()函数用法

软件测试|深入了解Python中的super()函数用法

简介 Python中的super()函数是一种强大的工具，用于在子类中调用父类的方法。它在面向对象编程中非常有用，可以让你轻松地扩展和重用现有的类。本文将详细介绍super()函数的用法，并提供一些示例来帮助你更好地理解它的功能。什么是super()函…

阅读更多...

el-date-picker如果超过限制跨度则提示

el-date-picker如果超过限制跨度则提示

需求：实现日期时间选择组件跨度如果超过限制天数，点击查询则提示超过限制时间封装一个方法，传入开始和结束时间以及限制天数，如果超过则返回false //计算时间跨度是否超过限制天数isTimeSpanWithinLimit(startTime, endTime, li…

阅读更多...

Firefox 100 正式发布

Firefox 100 正式发布

五月三日，Firefox发布了它的第100个版本，来回顾一下Firefox是如何走到今天这一步的，以及在第100个版本中发布了哪些功能。回顾 2004年，《纽约时报》上宣布了Firefox 1.0的发布，这个广告列出了为第一版做出贡献的每一…

阅读更多...

Seaborn可视化的各种图及代码演示

Seaborn可视化的各种图及代码演示

一.简介 Seaborn是基于matplotlib的图形可视化python包。它提供了一种高度交互式界面，便于用户能够做出各种有吸引力的统计图表。 Seaborn是在matplotlib的基础上进行了更高级的API封装，从而使得作图更加容易，在大多数情况下使用seaborn能做…

阅读更多...

Modbus协议学习第三篇之协议通信规则

Modbus协议学习第三篇之协议通信规则

导语本篇博客将深入介绍Modbus协议的一些内容，主要包括通讯方式和通讯模型的介绍 Modbus通讯方式 Modbus协议是单主机、多从机的通信协议，即同一时间，总线上只能有一个主设备，但可以有一个或者多个从设备（最多好像是2…

阅读更多...

推荐文章

最新文章