【Yi-VL-34B】(5):使用3个3090显卡24G版本,运行Yi-VL-34B模型,支持命令行和web界面方式,理解图片的内容转换成文字

1,视频地址

https://www.bilibili.com/video/BV1BB421z7oA/

2,关于Yi-VL-34B

https://www.modelscope.cn/models/01ai/Yi-VL-34B/summary

易视觉语言(Yi-VL)模型是易大型语言模型(LLM)系列的开源多模态版本,能够理解和识别图像内容,并围绕图像进行多轮对话。
Yi-VL表现出色,在包括英语的MMMU和中文的CMMMU最新基准测试中排名第一(基于2024年1月前的数据)。
Yi-VL-34B是全球首个开源的34B视觉语言模型。

github地址:
https://github.com/01-ai/Yi/tree/main/VL

3,启动服务并下载模型

https://github.com/01-ai/Yi
克隆项目

2024-02-06 21:46:27,918 xinference.core.supervisor 3109 INFO     Xinference supervisor 0.0.0.0:26770 started
2024-02-06 21:46:28,017 xinference.core.worker 3109 INFO     Starting metrics export server at 0.0.0.0:None
2024-02-06 21:46:28,021 xinference.core.worker 3109 INFO     Checking metrics export server...
2024-02-06 21:46:31,034 xinference.core.worker 3109 INFO     Metrics server is started at: http://0.0.0.0:39893
2024-02-06 21:46:31,036 xinference.core.worker 3109 INFO     Xinference worker 0.0.0.0:26770 started
2024-02-06 21:46:31,038 xinference.core.worker 3109 INFO     Purge cache directory: /root/autodl-tmp/cache
2024-02-06 21:46:36,394 xinference.api.restful_api 3044 INFO     Starting Xinference at endpoint: http://0.0.0.0:9997
2024-02-06 21:47:27,396 xinference.model.llm.llm_family 3109 INFO     Caching from Modelscope: 01ai/Yi-VL-34B
2024-02-06 21:47:27,511 - modelscope - INFO - PyTorch version 2.1.2+cu121 Found.
2024-02-06 21:47:27,514 - modelscope - INFO - Loading ast index from /root/autodl-tmp/modelscope/ast_indexer
2024-02-06 21:47:27,514 - modelscope - INFO - No valid ast index found from /root/autodl-tmp/modelscope/ast_indexer, generating ast index from prebuilt!
2024-02-06 21:47:27,587 - modelscope - INFO - Loading done! Current index file version is 1.12.0, with md5 f1ea4cb1dc3276d0fbfad220fd4b82dc and a total number of 964 components indexed
Downloading: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████| 122/122 [00:00<00:00, 60.6kB/s]
Downloading: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████| 1.13k/1.13k [00:00<00:00, 518kB/s]
Downloading: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████| 571/571 [00:00<00:00, 258kB/s]
Downloading: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████| 58.0/58.0 [00:00<00:00, 30.7kB/s]
Downloading: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████| 183/183 [00:00<00:00, 93.7kB/s]
Downloading: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████| 17.0k/17.0k [00:00<00:00, 741kB/s]
Downloading: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████| 512k/512k [00:00<00:00, 4.13MB/s]
Downloading: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████| 637/637 [00:00<00:00, 358kB/s]
Downloading: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████▉| 3.67G/3.67G [02:48<00:00, 23.4MB/s]
Downloading: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████| 316/316 [00:00<00:00, 172kB/s]
Downloading:  64%|███████████████████████████████████████████████████████████████▎                                   | 5.94G/9.29G [04:39<02:01, 29.7MB/s]
git clone https://github.com/01-ai/Yi.git
cd Yi/VL
pip install -r requirements.txt

4,启动成功使用命令测试

CUDA_VISIBLE_DEVICES=0,1,2 python3 single_inference.py --model-path /root/autodl-tmp/modelscope/01ai/Yi-VL-34B --image-file images/cats.jpg --question "描述图片的详细内容"You shouldn't move a model when it is dispatched on multiple devices.
----------
question: 描述图片的详细内容
outputs: 图中,三只猫在室外的石地板上一起吃东西,它们都聚集在一个碗里,享受他们的饭菜。两只猫在碗的左边,另一只猫在右边。除了猫和碗之外,还有两个额外的碗在场景中可见。一个碗在图像的左边,另一个在右边。这些碗可能包含食物或水,为猫提供充足的供应。

占用内存情况:

5,启动web界面测试

CUDA_VISIBLE_DEVICES=0,1,2 python3 web_demo.py --model-path /root/autodl-tmp/modelscope/01ai/Yi-VL-34B --server-port 6006

然后通过web界面测试图片

在这里插入图片描述

6,总结

使用 Yi-VL-34B模型也是不错的,参数更多。理解能力更强了。
可以用来做一些图片处理的审核工作了。
可以做出更多的智能工具来了。大模型真的特别方便了。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/457500.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【C++】构造函数、初始化列表,析构函数,拷贝构造函数,运算符重载

注&#xff1a;本博客图片来源于学习笔记: 学习笔记https://gitee.com/box-he-he/learning-notes 完整思维导图请前往该博主码云下载。 目录 注&#xff1a;本博客图片来源于学习笔记: 学习笔记https://gitee.com/box-he-he/learning-notes 完整思维导图请前往该博主码云下载…

Maven - 编译报错:程序包 XXX 不存在(多模块项目)

问题描述 编译报错&#xff1a;程序包 XXX 不存在&#xff08;多模块项目&#xff09; 原因分析 检查依赖模块 pom 文件&#xff0c;看是不是引入了如下插件 <plugin><groupId>org.springframework.boot</groupId><artifactId>spring-boot-maven-pl…

[NOIP2017 提高组] 宝藏

[NOIP2017 提高组] 宝藏 题目背景 NOIP2017 D2T2 题目描述 参与考古挖掘的小明得到了一份藏宝图&#xff0c;藏宝图上标出了 n n n 个深埋在地下的宝藏屋&#xff0c; 也给出了这 n n n 个宝藏屋之间可供开发的 m m m 条道路和它们的长度。 小明决心亲自前往挖掘所有宝…

dolphinscheduler海豚调度(一)简介快速体验

1、简介 Apache DolphinScheduler 是一个分布式易扩展的可视化DAG工作流任务调度开源系统。适用于企业级场景&#xff0c;提供了一个可视化操作任务、工作流和全生命周期数据处理过程的解决方案。 Apache DolphinScheduler 旨在解决复杂的大数据任务依赖关系&#xff0c;并为应…

“小手艺”有“大情怀”, 《青春手艺人》赋能乡村振兴,传承新时代文化

文化传承发展要坚持“守正创新”&#xff0c;以守正创新的正气和锐气&#xff0c;赓续历史文脉、谱写当代华章。中央广播电视总台农业农村节目中心推出的聚焦年轻手艺人故事的微纪录片《青春手艺人》&#xff0c;为守正创新的文化传承增添了新的鲜活的青春故事。节目积极响应二…

shell脚本基础语法(.sh ./ sh bash source shell)

Linux 之 Shell 脚本基础语法 0. 学习一门语言的顺序 1. Shell 编程概述 1.1 Shell 名词解释 在 Linux 操作系统中&#xff0c;Shell 是一个命令行解释器&#xff0c;它为用户提供了一个与操作系统内核交互的界面。用户可以通过 Shell 输入命令&#xff0c;然后 Shell 将这些…

vue项目开发vscode配置

配置代码片段 步骤如下&#xff1a; 文件->首选项->配置用户代码片段新增全局代码片段起全局代码片段文件名“xxx.code-snippets” 这里以配置vue2初始代码片段为例&#xff0c;配置具体代码片段 {"name": "vue-sph","version": "…

零基础学编程从哪里入手,在学习中可以线上会议答疑解惑

一、前言 零基础学编程可以先从容易学的语言入手&#xff0c;比如中文编程&#xff0c;然后再学其他编程语言则会比较轻松&#xff0c;初步掌握编程思路。很多IT人士一般学2到3种编程语言。 今天给大家分享的中文编程开发语言工具资料如下&#xff1a; 编程入门视频教程链接…

DAY39: 动态规划不同路径问题62

Leetcode: 62 不同路径 机器人从(0 , 0) 位置出发&#xff0c;到(m - 1, n - 1)终点。 基本思路 1、确定dp数组&#xff08;dp table&#xff09;以及下标的含义 dp[i][j] &#xff1a;表示从&#xff08;0 &#xff0c;0&#xff09;出发&#xff0c;到(i, j) 有dp[i][j]条…

人工智能|深度学习——使用多层级注意力机制和keras实现问题分类

代码下载 使用多层级注意力机制和keras实现问题分类资源-CSDN文库 1 准备工作 1.1 什么是词向量? ”词向量”&#xff08;词嵌入&#xff09;是将一类将词的语义映射到向量空间中去的自然语言处理技术。即将一个词用特定的向量来表示&#xff0c;向量之间的距离&#xff08;例…

【极数系列】Flink集成KafkaSink 实时输出数据(11)

文章目录 01 引言02 连接器依赖2.1 kafka连接器依赖2.2 base基础依赖 03 使用方法04 序列化器05 指标监控06 项目源码实战6.1 包结构6.2 pom.xml依赖6.3 配置文件6.4 创建sink作业 01 引言 KafkaSink 可将数据流写入一个或多个 Kafka topic 实战源码地址,一键下载可用&#xf…

【语音合成】中文-多情感领域-16k-多发音人

模型介绍 语音合成-中文-多情感领域-16k-多发音人 框架描述 拼接法和参数法是两种Text-To-Speech(TTS)技术路线。近年来参数TTS系统获得了广泛的应用&#xff0c;故此处仅涉及参数法。 参数TTS系统可分为两大模块&#xff1a;前端和后端。 前端包含文本正则、分词、多音字预…