CogVLM与CogAgent:开源视觉语言模型的新里程碑

引言

随着机器学习的快速发展,视觉语言模型(VLM)的研究取得了显著的进步。今天,我们很高兴介绍两款强大的开源视觉语言模型:CogVLM和CogAgent。这两款模型在图像理解和多轮对话等领域表现出色,为人工智能的发展开辟了新的道路。

CogVLM:强大的开源视觉语言模型

CogVLM是一个强大的开源视觉语言模型。CogVLM-17B拥有100亿的视觉参数和70亿的语言参数,支持490*490分辨率的图像理解和多轮对话。CogVLM-17B在10个经典的跨模态基准测试中取得了最佳性能,包括NoCaps, Flicker30k captioning, RefCOCO, RefCOCO+, RefCOCOg, Visual7W, GQA, ScienceQA, VizWiz VQA和TDIUC,并在VQAv2, OKVQA, TextVQA, COCO字幕等方面排名第二,超越或匹敌PaLI-X 55B。CogVLM还可以和您聊关于图片的话题。

CogVLM的论文:https://arxiv.org/abs/2311.03079

CogAgent:基于CogVLM的视觉语言模型

CogAgent是基于CogVLM改进的开源视觉语言模型。CogAgent-18B拥有110亿的视觉参数和70亿的语言参数,支持1120*1120分辨率的图像理解。在CogVLM的能力之上,CogAgent进一步拥有了图形用户界面(GUI)Agent的能力。

CogAgent在9个经典的跨模态基准测试中实现了最先进的通用性能,包括VQAv2, OK-VQ, TextVQA, ST-VQA, ChartQA, infoVQA, DocVQA, MM-Vet, 和 POPE测试基准。它在如AITW和Mind2Web等GUI操作数据集上显著超越了现有的模型。除了CogVLM已有的所有功能(视觉多轮对话,视觉定位)之外,CogAgent支持更高分辨率的视觉输入和对话式问答,拥有视觉Agent的能力,并通过改进预训练和微调,提高了OCR相关任务的能力。

CogAgent的论文:https://arxiv.org/abs/2312.08914

如何开始使用CogVLM和CogAgent

1. 使用网页演示进行推理:您可以直接访问我们的CogVLM & CogAgent Web Demo进行体验。

2. 自行部署CogVLM / CogAgent:我们提供了详细的部署指南,包括命令行界面和网络演示的部署方式。您可以根据需要选择合适的方式。

3. 微调CogAgent / CogVLM:如果您想在自己的任务中使用CogVLM,我们提供了详细的微调指南,帮助您实现不同的输出风格或领域知识。

4. OpenAI格式:我们提供了与GPT-4V相同的API示例,您可以在openai_demo文件夹中查看。

详细用法请见GitHub页面。

硬件需求

模型推理需要至少1个RTX 3090(24G)显卡,CogAgent需要约12.6GB的显存,CogVLM需要约11GB的显存。如果使用FP16,则需要1个A100(80G)或2个RTX 3090(24G)显卡。微调则需要至少4个A100(80G)显卡,或者8个RTX 3090(24G)显卡。

结语

CogVLM和CogAgent的发布,为视觉语言模型的研究和应用开启了新的篇章。我们期待看到更多的研究者和开发者利用这两款模型,推动人工智能的发展。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/286773.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

你知道在MyBatis中传参的#{}和${}的区别吗???

首先我们先将其区别列举出来: 首先演示sql注入: 基于上两篇博客的准备工作,继续开发:MyBatis的删除、修改、插入操作!!!-CSDN博客 #{}的使用 UserMapper.java: User testLogin(User user); U…

gets函数的简单介绍

gets函数原型: 函数返回类型为字符串的地址char* gets函数特点: 1: 接收换行符之前的所有字符,直到遇到\n或\0为止 所以有时运用scanf不能输入(原因:scanf遇到空格停止,而gets函数遇到空格不停止&#x…

金三银四精选面试题系列

Java中有哪几种方式来创建线程执行任务? 1. 继承Thread类 public class ZhouyuThread extends Thread{public static void main(String[] args) {ZhouyuThread thread new ZhouyuThread();thread.start();}Overridepublic void run() {System.out.println("h…

如何选择数字化转型顾问

在进行数字化转型时,第一步也是最重要的一步是深刻了解你的业务需求,这一基本流程涉及对企业的目标、挑战和抱负进行全面分析。必须提出关键问题:你通过数字化转型寻求哪些具体结果?主要目标是优化运营效率、提升客户体验,还是使…

连接SSH报错 / 连接容器SSH

连接SSH报错 / 连接容器SSH 前言被控端主控端连接失败 前言 本文介绍如何通过SSH方式远程连接Linux被控端,并介绍如何解决连接失败问题。 此方法同样适用于SSH连接Docker容器。 被控端 被控端一般为Linux,默认已安装ssh,但需要手动安装ope…

嵌入式中串口输入

学习目标 掌握串口初始化流程掌握串口接收逻辑了解中断接收逻辑熟练掌握串口开发流程学习内容 需求 串口接收PC机发送的数据。 串口数据接收 串口初始化 static void USART_config() {uint32_t usartx_tx_rcu = RCU_GPIOA;uint32_t usartx_tx_port = GPIOA;uint32_t usartx…

使用终端启动若依ruoyi

使用终端启动若依ruoyi 01 找到ruoyi-ui文件夹 02 cmd界面两个指令 npm i 下载完成后出现这个界面即为成功 npm run dev 加载结束后出现端口号即可 03 默认账号密码 访问localhost8080可得以上界面默认账号是admin默认密码是damin123

【YOLOv8量化】普通CPU上加速推理可达100+FPS

NNCF介绍 OpenVINO2023版本衍生出了一个新支持工具包NNCF(Neural Network Compression Framework – 神经网络压缩框架),通过对OpenVINO IR格式模型的压缩与量化更好的提升模型在OpenVINO框架上部署的推理性能,github。 https://github.com/openvinoto…

C语言-> 文件操作(函数满屏)

系列文章目录 前言 ✅作者简介:大家好,我是橘橙黄又青,一个想要与大家共同进步的男人😉😉 🍎个人主页:橘橙黄又青_C语言,数据结构,函数-CSDN博客 目的:学习文件操作,即…

Python 爬虫之简单的爬虫(四)

爬取动态网页(下) 文章目录 爬取动态网页(下)前言一、大致内容二、基本思路三、代码编写1.引入库2.加载网页数据3.获取并保存4.保存文档 总结 前言 上篇主要讲了如何去爬取数据,这篇来讲一下如何在获取的同时将数据整…

原子学习笔记2——输入设备应用编程

一、输入类设备介绍 1、输入设备 常见的输入设备有鼠标、键盘、触摸屏、遥控器、电脑画图板等,用户通过输入设备与系统进行交互。 2、input子系统 常见的输入设备有鼠标、键盘、触摸屏、遥控器、电脑画图板等,用户通过输入设备与系统进行交互。 基于…