VLM-R1环境搭建推理测试-编程知识

VLM-R1环境搭建推理测试

news/2025/3/28 17:58:47/文章来源:https://www.cnblogs.com/nick-algorithmer/p/18791594

引子

前文也写了DeepSeek R1模型的安装测试，感兴趣的童鞋移步（https://blog.csdn.net/zzq1989_/article/details/145400876?spm=1001.2014.3001.5502）。那么在多模态方面R1方法（GRPO，Group Relative Policy Optimization）能不能用呢？毫无疑问，已经有不少人在尝试了。今天就看到一个VLM-R1的开源项目。OK，我们开始吧。

一、模型介绍

这个项目的团队在 Qwen2.5-VL 的基础上，同时对比了 R1 和传统的 SFT 方法。结果相当惊艳：

（1）稳定性强，R1 方法在复杂场景下也能保持高性能，对实际应用意义重大。

（2）泛化能力卓越，在领域外测试数据上，传统 SFT 模型性能随训练步数增加而下滑，R1 模型却能持续提升，表明 R1 方法让模型真正理解视觉内容而非简单记忆。

（3）上手简单，VLM-R1 项目团队提供完整训练和评估流程，四步即可开始训练，对开发者友好

作为一个 AI 领域的从业者，VLM-R1 的出现也为开发者和行业提供了许多新的思路：

（1）证明了 R1 方法的通用性，不止文本领域玩得转；

（2）为多模态模型的训练提供了新思路；

（3）或许能够引领一种全新的视觉语言模型训练潮流；

二、环境搭建

模型下载

https://huggingface.co/omlab/Qwen2.5VL-3B-VLM-R1-REC-500steps/tree/main

生成镜像

cd /datas/work/zzq/VLM-R1/VLM-R1-main

docker build . -f Dockerfile -t vlm_r1:v1.0

三、推理测试

docker run -it --rm --gpus=all -v /datas/work/zzq:/workspace vlm_r1:v1.0 bash

下载验证图片集

https://huggingface.co/datasets/omlab/VLM-R1/resolve/main/refgta.zip

下载验证数据集

https://huggingface.co/datasets/omlab/VLM-R1/resolve/main/rec_jsons_processed.zip

修改代码路径

cd /workspace/VLM-R1/VLM-R1-main/src/eval

python test_rec_r1.py

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.hqwc.cn/news/905489.html

如若内容造成侵权/违法违规/事实不符，请联系编程知识网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

振弦采集读数仪智能型支持振弦、温度、电压、电流测量，无线传输自动化操作适用地质灾害与土木工程监测

振弦采集读数仪智能型支持振弦、温度、电压、电流测量，无线传输自动化操作适用地质灾害与土木工程监测

振弦采集读数仪智能型支持振弦、温度、电压、电流测量，无线传输自动化操作适用地质灾害与土木工程监测VH03 型多功能读数仪是一款专为多类型传感器设计的手持式读数设备，主要用于单弦式振弦传感器的测量，同时支持电压、电流传感器的辅助测量。设备采用高性能 32 位 ARM …

阅读更多...

GoWebDAV,随时随地访问windows电脑上的文件

GoWebDAV,随时随地访问windows电脑上的文件

GoWebDAV使用 WebDAV 分享本地文件，轻量、易于使用English | 简体中文特性基于 Golang 实现，性能高。最终编译为单二进制文件，不需要 Apache 等环境，依赖少。支持浏览器访问。可以在同个端口下启用多个 WebDAV 服务，各自有不同的挂载目录、用户名密码。良好的 Docker 支持…

阅读更多...

WPF MVVM入门系列教程（命令）

WPF MVVM入门系列教程（命令）

WPF中的命令模型在WPF中，我们可以使用事件来响应鼠标和键盘动作。但使用事件会具备一定的局限性，例如：我想通过键盘快捷键触发事件、或者在某个时刻禁用事件。如果使用代码去编写这些控制逻辑，会变得非常枯燥。因此WPF提供了命令模型。命令具有多个用途。第一个用途是分…

阅读更多...

【读文总结】transformers circuits 随笔

【读文总结】transformers circuits 随笔

【读文总结】transformers circuits 随笔内容有点太多，先截图一份 contents对 transformers 结构的重刻划一种常见的 decoder only 的 transformer 结构如下。但是我们可以把这个 residual stream 的线抻直，将这个过程视为 transformer layer 对 residual stream 中所包含的…

阅读更多...

vue+leaflet示例:结合geoserver实现地图空间查询(附源码下载)

vue+leaflet示例:结合geoserver实现地图空间查询(附源码下载)

demo源码运行环境以及配置运行环境：依赖Node安装环境，demo本地Node版本:14.19.1。运行工具：vscode或者其他工具。配置方式：下载demo源码，vscode打开，然后顺序执行以下命令：（1）下载demo环境依赖包命令：npm i （2）启动demo命令：npm run dev （3）打包demo命令： n…

阅读更多...

tinygo window安装和使用

tinygo window安装和使用

支持的型号https://tinygo.org/docs/reference/microcontrollers/ 下载win版本https://github.com/tinygo-org/tinygo/releases 新建环境变量D:\Program_Files\tinygo\bin 验证tinygo version 在 VSCode 中创建一个新的文件，命名为 hello.gopackage main import "fmt&q…

阅读更多...

基于ARM微处理器的无线串口集线器的总体设计

基于ARM微处理器的无线串口集线器的总体设计

1 引言随着21世纪科学技术的不断进步，无线与移动通信相应得到了迅猛的发展。方便快捷的无线接入和无线互连等新概念和新产品，已逐渐融入人们的工作领域和日常生活中。由于如今对无线频率的大量使用，使无线频率资源日渐匮乏，短距离宽带无线通信技术受到世界许多国家工业界…

阅读更多...

Pycharm中配置基于深度学习模型Yolov5的入门车辆识别Python项目

Pycharm中配置基于深度学习模型Yolov5的入门车辆识别Python项目

基于Yolov5的入门车辆识别环境部署 ANACONDA环境 Anaconda官网下载：https://www.anaconda.com/download/ 进入会显示需要注册，直接跳过即可选择对应的系统版本下载安装注意选择安装位置（建议不要安装在C盘）没什么其他特别选项，直接安装即可安装完成后使用win+r输入cmd打…

阅读更多...

在PyCharm中提升编程效率：通义灵码（DeepSeek）助手全攻略（新版）

在PyCharm中提升编程效率：通义灵码（DeepSeek）助手全攻略（新版）

最近小栈在PyCharm中使用了阿里的通义灵码插件还不错，本次就再分享一个好用的AI代码助手，让编码过程更加方便！作者：ISEE小栈转载来源：「ISEE小栈」微信公众号最近小栈在PyCharm中使用了阿里的通义灵码插件还不错，本次就再分享一个好用的AI代码助手，让编码过程更加…

阅读更多...

vue+leaflet示例:矢量瓦片展示(附源码下载)

vue+leaflet示例:矢量瓦片展示(附源码下载)

demo源码运行环境以及配置运行环境：依赖Node安装环境，demo本地Node版本:14.19.1。运行工具：vscode或者其他工具。配置方式：下载demo源码，vscode打开，然后顺序执行以下命令：（1）下载demo环境依赖包命令：npm i （2）启动demo命令：npm run dev （3）打包demo命令： n…

阅读更多...

vue+leaflet示例:图层管理控件样式优化(附源码下载)

vue+leaflet示例:图层管理控件样式优化(附源码下载)

demo源码运行环境以及配置运行环境：依赖Node安装环境，demo本地Node版本:14.19.1。运行工具：vscode或者其他工具。配置方式：下载demo源码，vscode打开，然后顺序执行以下命令：（1）下载demo环境依赖包命令：npm i （2）启动demo命令：npm run dev （3）打包demo命令： n…

阅读更多...

dockers

dockers

阅读更多...

推荐文章

最新文章