Ultralytics(YoloV8)开发环境配置,训练,模型转换,部署全流程测试记录

关键词:windows docker tensorRT Ultralytics YoloV8

配置开发环境的方法:

1.Windows的虚拟机上配置:

Python3.10
使用Ultralytics 可以得到pt onnx,但无法转为engine,找不到GPU,手动转也不行,找不到GPU。这个应该是需要可以支持硬件虚拟化的GPU,才能在虚拟机中使用GPU。

2.Windows 上配置:

Python3.10
Cuda 12.1
Cudnn 8.9.4
TensorRT-8.6.1.6
使用Ultralytics 可以得到pt onnx,但无法转为engine,需要手动转换。这个实际上是跑通了的。

3.Docker中的配置(推荐)

Windows上的docker
使用的是Nvidia配置好环境的docker,包括tensorflow,nvcc,等。

启动镜像:

docker run --shm-size 8G --gpus all -it --rm tensorflow/tensorflow:latest-gpu

在docker上安装libgl,Ultralytics等。

apt-get update && apt-get install libgl1
pip install ultralytics
pip install nvidia-tensorrt

然后进行提交,重新生成一个新的镜像文件:

在这里插入图片描述
如果不进行提交,则刚才安装的所有软件包,在重启以后就会丢失,需要重新再装一遍。

在docker desktop中可以看到所有的镜像

在这里插入图片描述
后续启动镜像可以使用

docker run --shm-size 8G --gpus all -it --rm yolov8:2.0

–shm-size 8G 一定要有,否则在dataloader阶段会报错,如下所示:
在这里插入图片描述
为了搜索引擎可以识别到这篇文章,将内容打出来:
RuntimeError: DataLoader worker (pid 181032) is killed by signal: Bus error. It is possible that dataloader’s workers are out of shared memory. Please try to raise your shared memory limit

更加详细的介绍,可以参考:https://blog.csdn.net/zywvvd/article/details/110647825

新生成的镜像,可以进行打包,在离线环境中使用。

docker save yolov8:2.0 |gzip > yolov8.tar.gz

将生成的镜像拷贝到离线环境,

docker  load  < yolov8.tar.gz

ultralytics 快速上手

参考:https://docs.ultralytics.com/modes/
官网的介绍很详细,按照指引,基本上可以配置成功。

模型训练:

def train():#model = YOLO("yolov8n.yaml")  # build a new model from scratchmodel = YOLO("yolov8n.pt")  # load a pretrained model (recommended for training)model.train(data="coco128.yaml", epochs=3,batch=8)  # train the modelmetrics = model.val()  # evaluate model performance on the validation set#results = model("https://ultralytics.com/images/bus.jpg")  # predict on an imagepath = model.export(format="onnx")  # export the model to ONNX format

模型转换:

def eval():model = YOLO("best.pt")  # load a pretrained model (recommended for training)model.export(format="engine",device=0,simplify=True)model.export(format="onnx", simplify=True)  # export the model to onnx format

此时在目录下的文件如下:
在这里插入图片描述

当使用Ultralytics无法导出engine格式的文件时,需要使用tensorRT提供的trtexec进行转换。
事实上,在笔者的测试过程中,即使Ultralytics可以导出engine格式的模型,c++API的tensorrt也无法加载使用。即使python中和c++中使用的tensorRT的版本一致。
在windows平台下,我们可以使用如下的方法进行转换,可以写一个.bat脚本

@echo off
trtexec.exe --onnx=best.onnx --saveEngine=best.engine  --fp16 --workspace=2048
:end
PAUSE

对于可变尺寸,需要

@echo offtrtexec.exe --onnx=best.onnx --saveEngine=best.engine --minShapes=images:1x3x640x640 --optShapes=images:8x3x640x640 --maxShapes=images:8x3x640x640 --fp16 --workspace=2048
:end
PAUSE

使用tensorrt加载engine文件进行推理

方法1:python

Python,需要安装pycuda
直接使用

pip install pycuda

进行安装。

def engineeval():# 创建logger:日志记录器logger = trt.Logger(trt.Logger.WARNING)# 创建runtime并反序列化生成enginewith open("best.engine", "rb") as f, trt.Runtime(logger) as runtime:engine = runtime.deserialize_cuda_engine(f.read())# 创建cuda流stream = cuda.Stream()# 创建context并进行推理with engine.create_execution_context() as context:# 分配CPU锁页内存和GPU显存h_input = cuda.pagelocked_empty(trt.volume(context.get_binding_shape(0)), dtype=np.float32)h_output = cuda.pagelocked_empty(trt.volume(context.get_binding_shape(1)), dtype=np.float32)d_input = cuda.mem_alloc(h_input.nbytes)d_output = cuda.mem_alloc(h_output.nbytes)# Transfer input data to the GPU.cuda.memcpy_htod_async(d_input, h_input, stream)# Run inference.context.execute_async_v2(bindings=[int(d_input), int(d_output)], stream_handle=stream.handle)# Transfer predictions back from the GPU.cuda.memcpy_dtoh_async(h_output, d_output, stream)# Synchronize the streamstream.synchronize()# Return the host output. 该数据等同于原始模型的输出数据

在调试界面,可以看到输入矩阵维度是1228800=13640*640
在这里插入图片描述
至于推理的精度,还需要传入实际的图像进行测试。这里就不在python环境下测试了。

方法2:c++

生产环境一般是c++,使用tensorrt c++ API进行engine文件的加载与推理,
参考:https://docs.nvidia.com/deeplearning/tensorrt/developer-guide/index.html#perform_inference_c

代码实现:

#include <iostream>
#include <fstream>#include "NvInfer.h"#include "cuda_runtime.h"using namespace nvinfer1;class Logger : public ILogger
{void log(Severity severity, const char* msg) noexcept override{// suppress info-level messagesif (severity <= Severity::kWARNING)std::cout << msg << std::endl;}
};int main()
{Logger gLogger;IRuntime* runtime = createInferRuntime(gLogger);std::ifstream model("best.engine", std::ios::binary);std::string modelString((std::istreambuf_iterator<char>(model)), std::istreambuf_iterator<char>());ICudaEngine* engine =runtime->deserializeCudaEngine(modelString.c_str(), modelString.length());int nNum = engine->getNbBindings();  //获取绑定的数量auto nDim0 = engine->getBindingDimensions(std::min(0, nNum - 1));auto nDim1 = engine->getBindingDimensions(std::min(1, nNum - 1));int nSize0 = nDim0.d[0] * nDim0.d[1] * nDim0.d[2] * nDim0.d[3];int nSize1 = nDim1.d[0] * nDim1.d[1] * nDim1.d[2];//都是浮点类型auto dt0 = engine->getBindingDataType(0);auto dt1 = engine->getBindingDataType(1);auto name = engine->getName();auto input = engine->getBindingName(0);auto output = engine->getBindingName(1);//准备输入输出空间auto inputBuffer = new float[nSize0];auto outputBuffer = new float[nSize1];memset(inputBuffer, 0, nSize0 * sizeof(float));memset(outputBuffer, 0, nSize1 * sizeof(float));bool ret = false;//创建执行上下文IExecutionContext* context = engine->createExecutionContext();//执行推理:拷贝到GPU->enqueueV3->拷贝回CPUif(1){void* buffers[2];//Allocate GPU memory for Input / Output datacudaMalloc(&buffers[0], nSize0 * sizeof(float));cudaMalloc(&buffers[1], nSize1 * sizeof(float));cudaStream_t stream;cudaStreamCreate(&stream);cudaMemcpyAsync(buffers[0], inputBuffer, nSize0 * sizeof(float), cudaMemcpyHostToDevice, stream);context->setTensorAddress(input, buffers[0]);context->setTensorAddress(output, buffers[1]);ret = context->enqueueV3(stream);if (!ret)std::cout << "error" << std::endl;cudaMemcpyAsync(outputBuffer, buffers[1], nSize1 * sizeof(float), cudaMemcpyDeviceToHost, stream);cudaStreamSynchronize(stream);cudaStreamDestroy(stream);cudaFree(buffers[0]);cudaFree(buffers[1]);}delete[]inputBuffer;delete[] outputBuffer;std::cout << "Done!" << std::endl;context->destroy();engine->destroy();runtime->destroy();return 0;
}

执行结果:
在这里插入图片描述
可以看到和python端是相同的。

然后可以做一些工程化的工作,比如对c++代码封装成为一个dll。后面还需要加一些前处理和后处理的步骤,将模型的结果进行解析。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/124599.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

5.Vectors Transformation Rules

在上节&#xff0c;有个问题&#xff1a;向量分量的转换方式 与 新旧基底的转换方式相反 用例子来感受一下&#xff0c; 空间中一向量V&#xff0c;即该空间的一个基底&#xff1a;e1、e2 v e1 e2 现把基底 e1 、 e2 放大两倍。变成 基向量放大了两倍&#xff0c; 但对于…

微信小程序template界面模板导入

我们有些时候 会有一些比较大但并不复杂的界面结构 这个时候 你可以试试这种导入模板的形式 我们在根目录创建一个 template 目录 然后下面创建一个 text文件夹下面创建一个 test.wxml 参考代码如下 <template name"textIndex"><text class "testw&…

深度学习笔记之微积分及绘图

深度学习笔记之微积分及绘图 学习资料来源&#xff1a;微积分 %matplotlib inline from matplotlib_inline import backend_inline from mxnet import np, npx from d2l import mxnet as d2lnpx.set_np()def f(x):return 3 * x ** 2 - 4 * xdef numerical_lim(f, x, h):retur…

React18入门(第一篇)——JSX、TSX语法详解

文章目录 一、JSX 语法简介二、和 HTML 标签的几点不同三、JSX 属性四、JSX 事件4.1 简单点击事件4.2 类型限制4.3 带参数&#xff0c;箭头函数 五、插入 JS 变量六、JSX 中使用条件判断七、循环 一、JSX 语法简介 JSX - 是 JS 的扩展&#xff0c;写在 JS 代码里面&#xff0c…

云安全之HTTP协议介绍

HTTP的基本概念 什么是网络协议 网络协议是计算机之间为了实现网络通信而达成的一种“约定”或者”规则“&#xff0c;有了这种”约定不同厂商生产的设备&#xff0c;以及不同操作系统组成的计算机之间&#xff0c;就可以实现通信。 网络协议由三个要素构成&#xff1a;1、语…

【Unity2022】Unity实现在两个物体之间连出一条线

文章目录 Line Renderer组件添加Line Renderer组件重要属性Positions&#xff08;位置&#xff09;Width &#xff08;宽度&#xff09;Material&#xff08;材质&#xff09;其他属性 使用脚本绘制直线绳子运行结果其他文章 Line Renderer组件 我们可以使用LineRenderer组件来…

百度交易中台之内容分润结算系统架构浅析

作者 | 交易中台团队 导读 随着公司内容生态的蓬勃发展&#xff0c;内容产出方和流量提供方最关注的“收益结算”的工作&#xff0c;也就成为重中之重。本文基于内容分润结算业务为入口&#xff0c;介绍了实现过程中的重难点&#xff0c;比如千万级和百万级数据量下的技术选型和…

基于SSM的健身房管理系统

基于SSM的健身房管理系统的设计与实现 开发语言&#xff1a;Java数据库&#xff1a;MySQL技术&#xff1a;SpringSpringMVCMyBatis工具&#xff1a;IDEA/Ecilpse、Navicat、Maven 【主要功能】 角色&#xff1a;管理员、用户 查看健身课程列表、新闻公告查看、推荐课程、购买…

LIMS实验室信息管理系统源码 基于计算机的数据处理技术、数据存储技术、网络传输技术、自动化仪器分析技术于一体

LIMS 是一个集现代化管理思想与基于计算机的数据处理技术、数据存储技术、网络传输技术、自动化仪器分析技术于一体&#xff0c;以实验室业务和管理工作为核心&#xff0c;遵循实验室管理国际规范&#xff0c;实现对实验室全方位管理的信息管理系统。 LIMS将样品管理、数据管理…

[CSCCTF 2019 Qual]FlaskLight 过滤 url_for globals 绕过globals过滤

目录 subprocess.Popen FILE warnings.catch_warnings site._Printer 这题很明显就是 SSTI了 源代码 我们试试看 {{7*7}} 然后我们就开始吧 原本我的想法是直接{{url_for.__globals__}} 但是回显是直接500 猜测过滤 我们正常来吧 {{"".__class__}} 查看当前…

MQ面试题

一、部署架构了解么? 1.1、生产者 1.2、消费者 1.3、brocker 负责接收生产者的消息并且储存起来,同时转发给消费者; 1.4、nameServer 类似注册中心,所有的brocker通过长链接和nameserver链接;通过心跳的方式定期的发送消息给nameserver;每个nameserver节点是对等的; 二…

SketchUp Pro 2023 for Mac——打造你的创意之城

SketchUp Pro 2023 for Mac是一款专业级的3D建模软件&#xff0c;为你提供最佳的设计和创意工具。不论你是建筑师、室内设计师&#xff0c;还是爱好者&#xff0c;SketchUp Pro都能满足你对于创意表达的需求。 SketchUp Pro 2023拥有强大而直观的界面&#xff0c;让你轻松绘制…