视频拼接融合产品的产品与架构设计(二)

视频拼接融合产品的产品与架构设计一
以上是第一期,以前思考的时候还是比较着急,现在思考的更多了,现实世界的拼接更加需要我们沉下心来做,尤其是对于更多画面,画面更加清晰怎么做

本篇章不在于其他功能,在于说明选型和效率问题

重中之重-选型

使用什么硬件
我来清除地阐述现在所有的硬件平台,绝无虚言,
1 nvidia 英伟达的cuda
     英伟达的产品好用,主要在于cuda生态,同时细节处理丰满,运用简单,他的gpu解码器和编码器和tensor core 分别为不同的芯片,可以流水线处理,windows下可以使用dlss 进行超分处理,可以同时使用cuda技术解码和directx 11 技术解码,vulcan技术解码,可以在gpu中直接处理所有算法,而不用下放到cpu,拼接完成,编码完成后发出rtsp流,后面我会证明为什么要使用cuda。
2 amd
     amd的显卡解码在windows下可以直接使用directx11,至于其他可以使用opencl 去做,这一部分需要熟悉opencl的kernel,也是可以的,效率会稍稍差一些,如果是没有什么选择,尽量使用nvidia的夏卡
3 intel 显卡
     intel的核显很强大,编解码非常厉害,同时intel出的独立显卡也是很好用的,同样可以使用他的独立显卡,如出的arc A750 ,arcA770,都是可用的,图像处理也没有问题,可以选,但是慎重
4 瑞芯微3588
瑞芯微3588 可以用,解码芯片和编码芯片也很突出,有硬件的rga处理
不过技术文档不友好,但是还是可以用,记住流程,使用rga硬件,使用opencl都可以的
5 树莓派
可以硬件解码,图像处理可以使用opencl
6 华为昇腾(Ascend)
暂时对图像处理不友好,可以使用opencv高版本进行处理,npu可以使用
7 其他国产显卡
暂时不要进行研究处理,通用性还没有那么好,等待各个图像处理和AI处理都可以了,再进行下一步

至于国内的显卡,我为什么现在不推荐做,因为现在还不成熟,而对于amd 和 intel 显卡我们要排在英伟达的后面,因为英伟达确实通用性非常强。
以上希望其他研究者,学者与我联系,如果可能,我会尽我所能进行测试分析,或者纠正我说的错误

分布式架构

在这里插入图片描述
下面我就nvidia显卡进行分析,说明cuda的效率

cuda nv12 和 bgr 互相转化

为什么要使用bgr 和 nv12 的转化?因为我们都知道大名鼎鼎的opencv,处理图像和滤波算法以及AI算法推理,可以使用bgr方式,这样,使用cuda转化,使用bgr 和 rgb方式进行AI算法推理和普通算法处理图像,结束后立即编码,

__global__ void BGR2NV12Kernel(const uchar3* srcBGR, unsigned char* dstY, unsigned char* dstUV, int width, int height, int srcStep, int dstYStep, int dstUVStep) {int x = blockIdx.x * blockDim.x + threadIdx.x;int y = blockIdx.y * blockDim.y + threadIdx.y;if (x < width && y < height) {int srcIndex = y * srcStep + x ;int dstYIndex = y * dstYStep + x;int dstUVIndex = y / 2 * dstUVStep + x;// BGR to NV12 conversionuchar3 pixel = srcBGR[srcIndex];dstY[dstYIndex] = 0.299f * pixel.x + 0.587f * pixel.y + 0.114f * pixel.z; // Y component//以下为uv分量转化}
}

结果出来的图像是这样的
在这里插入图片描述
考虑x周横向是3个像素,修改一下
int srcIndex = y * srcStep + x *3;
在这里插入图片描述
离目标有点远,仔细分析cuda代码,应该是这样

uchar3* ppixel = (uchar3*)((unsigned char*)srcBGR + y * srcStep) + x;

这下正确了,cuda的好用就在于像素并行操作!在这里插入图片描述
右边是原图,左边是cuda转硬件的bgr 到 nv12,再次使用 nv12 转成bgr ,进行显示,耗费时间,我们加几行代码进行计算

    double startTime = cv::getTickCount();// 在这里执行你需要测量耗时的操作// 例如,这里模拟一个延时操作// 记录结束时间double endTime = cv::getTickCount();//bgr 转nv12bgr_to_nv12_cuda(reinterpret_cast<uchar3*>(gpu_input_image.data), frame->data[0],frame->data[1], w, h, gpu_input_image.step, frame->linesize[0], frame->linesize[1]);//nv12 转 bgrnv12_to_rgb24_cuda(frame->data[0], frame->data[1], memory, m1.step, frame->linesize[0], frame->linesize[1], frame->width, frame->height, 3);// 计算时间差,单位为毫秒double elapsedTimeMs = (endTime - startTime) / cv::getTickFrequency() * 1000.0;std::cout << "Elapsed time in milliseconds: " << elapsedTimeMs << std::endl;

在这里插入图片描述
nvidia 1650 显卡,使用cuda ,花费0.946 毫秒,1毫秒不到完成2次转化,图片太小,我们加一个2k的图像进行转化:如下所示
在这里插入图片描述
花费1.27 毫秒,性能开始下降,比较危险,看看是否能够提高
线程块修改
dim3 block(16, 16);
dim3 block(32, 32);
在这里插入图片描述
基本上提高了一点,不大,4k画面估计要到2-3毫秒,我们再次测试一下
在这里插入图片描述
果然到了2.478 毫秒,这个时间有些超量,希望可以优化到1毫秒多。
对于一秒钟视频25帧画面来说,4k画面需要2.5 * 25 = 62.5 毫秒,说实话有点多了。
如果我们使用ffmpeg cpu swscale, 后果不堪设想。

总结

总之效率是最重要的,还有一点一直是我所思考的,如果死磕gpu,那么cpu 会浪费,所以对gpu 和 cpu 除了要分布式处理,还要进行分担,所以我决定从多点出发,需要进行cpu 前处理插件点,gpu处理插件点,gpu下拉后插件点 ,利用cpu 多核处理能力,同时分担gpu的任务。

未完,待续。。。。。。。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/687852.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

TL(TypeLetters)的另类用法:自动去空行

你可能还不知道吧&#xff1a;可以使用TL&#xff08;TypeLetters&#xff09;自动去掉文件的空行。 先看文件&#xff1a;文件中有很多空白行&#xff0c;我们可以手动去把它们一行一行的删除掉。 有了TL&#xff08;TypeLetters&#xff09;&#xff0c;一切都简单了&#x…

mongoDB分组查询

完整代码 //根据医院编号 和 科室编号 &#xff0c;查询排班规则数据Overridepublic Map<String, Object> getRuleSchedule(long page, long limit, String hoscode, String depcode) {//1 根据医院编号 和 科室编号 查询Criteria criteria Criteria.where("hosco…

SQL的命令

目录 创建用户 ​编辑 DDL数据库操作 查询 创建 使用 删除 创建数据库表 在表中修改字段 查询表 DML 添加数据 修改 删除 DQL 查询 创建用户 DDL数据库操作 查询 show databases; 创建 权限问题导致无法创建&#xff0c;连接root修改用户权限 CREATE DATABAS…

后端的一些科普文章

后端开发一般有4个方面 后端开发流程 1阶段 域名认证 是每一个计算机在网络上有一个ip地址&#xff0c;可以通过这个地址来访问102.305.122.5&#xff08;举例&#xff09;&#xff0c; 但是这个公网ip地址&#xff0c;比较难记忆&#xff0c;所以大家使用域名来更好的记忆…

你可能喜欢但也许还不知道的好用网站-搜嗖工具箱

在线工具 https://www.zxgj.cn/ 作为一个工作生活好帮手&#xff0c;在线咨询网站提供了丰富的实用功能&#xff0c;从工作中的图表制作、图片修改到生活中的各种测试、健康、娱乐、学习、理财等等涵盖面很广。 在线工具网站从界面和操作上来看对用户也很友好&#xff0c;页面…

bash: docker-compose: 未找到命令

bash: docker-compose: 未找到命令 在一台新的服务器上使用 docker-compose 命令时&#xff0c;报错说 docker-compose 命令找不到&#xff0c;在网上试了一些安装方法&#xff0c;良莠不齐&#xff0c;所以在这块整理一下&#xff0c;如何正确快速的安装 docker-compose cd…

Blender细节补充

1.饼状菜单&#xff0c;用于快速切换/选择 例如&#xff1a; ~&#xff1a;切换视图 Z&#xff1a;切换着色方式 &#xff0c;&#xff1a;切换坐标系 .&#xff1a;切换基准点 Shift S&#xff1a;吸附 有两种使用方式&#xff1a; -点选 -滑选&#xff0c;按快捷键…

文旅行业| 某景区导游培养和管理项目成功案例纪实

——整合导游资源并进行统一管理&#xff0c;构建完善的培养与管理机制&#xff0c;发挥景区导游价值 【客户行业】文旅行业&#xff1b;景区&#xff1b;文旅企业 【问题类型】人才培养&#xff1b;人员管理 【客户背景】 南方某5A级景区&#xff0c;作为国内极具代表性和特…

【JVM基础篇】JVM入门介绍

JVM入门介绍 为什么学习JVM 岗位要求 解决工作中遇到的问题 性能调优 真实案例 导出超大文件&#xff0c;系统崩溃从数据库中查询超大量数据出错消费者消费来不及导致系统崩溃Mq消息队列接受消息导致的内存泄漏业务高峰期系统失去响应 初识JVM 什么是JVM&#xff1f; JV…

钒回收树脂五氧化二钒净化回收工艺

钒是一种重要的工业金属&#xff0c;广泛应用于钢铁合金、化工、航空和电池材料等领域。随着资源的日益紧张和环保要求的提高&#xff0c;回收利用钒成为了一个重要的研究方向。树脂吸附技术是一种常用的从废水或废料中回收钒的方法&#xff0c;具有操作简便、效率高、成本相对…

反了!美国假冒邮政服务钓鱼网站访问量竟然超过正规官网

美国邮政是美国主要的包裹信件投递机构之一&#xff0c;长期以来该单位都是网络钓鱼和诈骗的针对目标。对美国公民来说&#xff0c;在假期通常都会收到声称来自美国邮政的诈骗。美国邮政甚至单独建设的网页提醒消费者警惕诈骗信息&#xff1a; 专用提醒网页 Akamai 的研究人员…

maven-test不通过导致无法打包

背景 别人写的一个test包&#xff0c;没有测试通过&#xff0c;导致最后没有打包成功 解决方案 package生命周中不要勾选test