基于matlab使用视频和深度学习进行手势识别(附源码)

一、前言

此示例首先演示如何使用预训练的SlowFast视频分类器执行手势识别,然后演示如何使用迁移学习在自定义手势识别数据集上训练分类器。

基于视觉的人类手势识别涉及使用一组视频帧预测手势,例如挥手打招呼、手语手势或鼓掌。手势识别的一个吸引人的特点是,它们使人类能够与计算机和设备进行通信,而无需外部输入设备,如鼠标或遥控器。来自视频的手势识别有许多应用,例如消费电子和机械系统的控制、机器人学习和计算机游戏。例如,在线预测来自多个摄像头的传入视频的多个动作对于机器人学习非常重要。与图像分类相比,使用视频进行人类手势识别的建模具有挑战性,因为视频数据集的地面实况数据不准确,视频中的演员可以执行的手势种类繁多,数据集严重类不平衡,以及从头开始训练强大的分类器所需的大量数据。深度学习技术,如SlowFast双通路卷积网络,已经显示出使用迁移学习和在大型视频活动识别数据集上预先训练的网络在较小数据集上的性能有所提高。

注意:此示例需要用于慢速视频分类的计算机视觉工具箱模型。可以从加载项资源管理器安装用于慢速视频分类的计算机视觉工具箱模型。

二、使用预训练的视频分类器执行手势识别

下载预训练的 SlowFast 视频分类器以及要在其上执行手势识别的视频文件。下载的zip文件的大小约为245 MB。

加载预训练的慢速视频分类器。显示预训练视频分类器的类标签名称。

选择10个随机选择的视频序列对视频进行分类,以统一覆盖整个文件以找到视频中占主导地位的动作类。使用该函数对视频文件进行分类。该分类也可以应用于流视频。

三、训练用于手势识别的视频分类器

示例的这一部分显示了如何使用迁移学习训练上面显示的视频分类器。将变量设置为 使用预训练的视频分类器,而无需等待训练完成。

下载地面实况训练数据

此示例使用包含四个手势的可下载手势数据集训练 SlowFast 视频分类网络:。数据集包含使用视频标记器标记的视频和相应的真实数。下载数据集。

提取培训视频序列

若要训练视频分类器,需要视频集合及其相应的场景标签集合。

从下载的地面实况数据中提取了总共40个视频场景。

加载数据集

此示例使用数据存储读取从真实数据中提取的视频场景和标注。

指定每次从数据存储读取数据时应将数据存储配置为输出的视频帧数。

此处使用值 16 来平衡内存使用情况和分类时间。要考虑的常见值是 8、16、32、64 或 128。使用更多帧有助于捕获其他时态信息,但需要更多的内存。需要进行实证分析以确定最佳帧数。接下来,指定应将数据存储配置为输出的帧的高度和宽度。数据存储会自动将原始视频帧的大小调整为指定大小,以启用多个视频序列的批处理。

值 [112 112] 用于捕获视频场景中较长的时间关系,这有助于对持续时间较长的手势进行分类。大小的常见值是 [112 112]、[224 224] 或 [256 256]。较小的尺寸允许使用更多的视频帧,但代价是内存使用量、处理时间和空间分辨率。与帧数一样,需要进行实证分析以确定最佳值。将通道数指定为 3,因为视频是 RGB。

使用该函数创建用于迁移学习的慢速视频分类器。该函数创建一个 SlowFast 视频分类器对象,该对象在 Kinetics-400 数据集  上进行了预训练。指定 ResNet-50 作为 SlowFast 分类器的基本网络卷积神经网络 3D 体系结构。

指定慢速视频分类器的输入大小。通过指定手势数据集的类和网络输入大小来创建慢速视频分类器。指定视频分类器的模型名称。

扩充和预处理训练数据

数据增强提供了一种使用有限数据集进行训练的方法。对于基于网络输入大小的帧集合,视频数据的增强必须相同。细微的更改(例如翻译、裁剪或转换图像)可提供新的、独特的和独特的图像,您可以使用这些图像来训练强大的视频分类器。数据存储是读取和扩充数据集合的便捷方式。使用此示例末尾定义的支持函数扩充训练视频数据。

通过使用此示例末尾定义的 ,预处理训练视频数据以调整为 SlowFast 视频分类器输入大小。将视频分类器的属性和预处理函数的输入大小指定为结构中的字段值。该属性用于在 0 和 1 之间重新缩放视频帧,然后使用平均值和标准偏差规范化重新缩放的数据。输入大小用于根据结构中的值调整视频帧的大小。或者,您可以使用 或 作为随机裁剪或将输入数据中心裁剪为视频分类器的输入大小的值。

定义模型梯度函数

本示例末尾列出的函数将 SlowFast 视频分类器、一小批输入数据和一小批真实标签数据作为输入。该函数返回训练损失值、相对于分类器可学习参数的损失梯度以及分类器的小批量精度。损失是通过计算视频分类器预测的交叉熵损失来计算的。网络的输出预测是每个类的 0 到 1 之间的概率。

分类器的精度是通过将分类器与输入的地面实况标签进行比较来计算的。

指定训练选项

使用 5 的小批量大小进行训练,进行 600 次迭代。使用该参数指定要保存具有最佳小批量损失的模型的迭代。

指定余弦退火学习速率计划参数:

  • 最低学习率为 1e-4。

  • 最大学习率为 1e-3。

  • 余弦迭代次数为 200、300 和 400,之后学习率计划周期将重新启动。该选项定义每个余弦周期的宽度。

指定 SGDM 优化的参数。在训练开始时初始化 SGDM 优化参数:

  • 动量为0.9。

  • 初始化为 的初始速度参数。

  • L2 正则化因子为 0.0005。

指定使用并行池在后台调度数据。如果设置为 true,则打开具有指定数量的并行工作线程的并行池,并创建一个作为此示例的一部分提供的 ,该 在后台调度数据以使用异步数据加载和预处理加快训练速度。

训练视频分类器

使用视频数据训练慢速视频分类器。

对于每个纪元:

  • 在循环访问小批量数据之前随机排列数据。

  • 用于循环访问小批量。本示例末尾列出的支持函数使用给定的训练数据存储来创建 

  • 使用本示例末尾列出的支持函数显示每个时期的损失和精度结果。

对于每个小批量:

  • 将视频数据和标签转换为基础类型为single的对象。

  • 若要使用慢速视频分类器处理视频数据的时间维度,请指定时态序列维度。为视频数据和标签数据指定维度标签(空间、空间、通道、时间、批次)。

该对象使用此示例末尾列出的支持函数来批处理 RGB 视频数据。

四、评估经过训练的视频分类器

要评估经过训练的慢速视频分类器的准确性,请将变量设置为 false 并创建一个 .请注意,数据增强不适用于评估数据。理想情况下,测试和评估数据应代表原始数据,并且不加修改以进行无偏评估。

加载训练期间保存的最佳模型或使用预训练模型。创建一个对象以加载测试数据的批次。对于每批评估数据,使用 SlowFast 视频分类器进行预测,并使用混淆矩阵计算预测准确性。计算经过训练的慢速视频分类器的平均剪辑分类精度。显示混淆矩阵。

在 Kinetics-400 数据集上预训练的 SlowFast 视频分类器为迁移学习中的人类手势识别提供了强大的性能。上述训练在 24GB Titan-X GPU 上运行了大约 60 分钟。在小手势识别视频数据集上从头开始训练时,训练时间和收敛时间比预训练视频分类器要长得多。使用 Kinetics-400 预训练 SlowFast 视频分类器的跨频器学习还可以避免在如此小的手势识别视频数据集上运行大量纪元时过度拟合分类器。

五、程序

使用Matlab R2022b版本,点击打开。(版本过低,运行该程序可能会报错)

程序下载:基于matlab使用视频和深度学习进行手势识别资源-CSDN文库

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/9381.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【VSCODE】4、vscode git pull/push 报错 remote: HTTP Basic: Access denied

一、报错示例 在执行 git pull/push 的时候报错如下 二、解决方式 该问题来自 vscode 的身份验证 打开 vscode →code → 首选项 → 设置搜索 git.terminalAuthentication取消选中该选项重启终端即可

5.8.5 TCP可靠传输(一)序号确认机制

5.8.5 TCP可靠传输(一)序号确认机制 TCP是可靠的传输层协议,主要通过序号确认机制、超时重传机制、定时器三个方面实现可靠传输。 一、序号确认机制 TCP将所要传送的整个的应用层报文看成是一个一个字节组成的数据流,并对每一个…

sql统计某一字段不同状态的数量,时间戳转日期格式、按月统计使用

背景 1、在sql语句中统计一个字段的不同状态时,需要将每个状态的数量查出来,在进行统一输出,涉及表多次查询,下面用一个聚合函数的方式进行查询,比较方便,容易理解。 2、有时候数据表中的时间字段存储的是…

Jmeter使用之:怎么编写扩展函数(二)

目录 前言: 1、实现function的类的package声明必须包含".functions" 2、需要继承org.apache.jmeter.functions.AbstractFunction,并且实现相应的方法。 第一步:eclipse 导入jmeter目录:apache-jmeter-2.13libext下的…

卡尔曼滤波简单实例分析

1 现实问题 假设一个物体位于1000米处以自由落体运动,底面有一台具有特殊功能的雷达,对其进行观察,现需要对其下落的高度进行测量; (1)建模 速度:V gt 位置:Y -Vt Y0 &#xff0…

ES6: 模版字符串

前言: ES5 中我们表示字符串的时候使用 或者 "" 作用: 在 ES6 中,我们还有一个东西可以表示字符串,就是 (反引号) let str hello worldconsole.log(typeof str) // string和单引号还有双引号的区别: 反引号可以换行…

Android 应用层 到 HAL 层

Android 应用层 到 HAL 层 1、相关知识点1.1 概要1.2 参考 2、拿SensorService举例2.1 Android Apps > Android Framework阶段2.2 Android Framework内部阶段2.2.1 frameworks/base2.2.2 frameworks/native 2.3 Android Framework > HAL 阶段2.3.1 旧版 HAL 1、相关知识点…

Python爬虫——怎么搭建和维护一个本地IP池

目录 背景 一、什么是本地代理IP池 二、代理IP池功能架构图 三、各个组件功能说明及示例代码 1. IP池管理器 2. 代理IP获取器 3. IP质量检测器 4、数据存储器 5、API接口层 6、应用程序 总结 背景 在我们进行爬虫工作时,经常需要使用代理IP。大多数代理…

计网笔记--网络层

1--网络层概述 网络层主要问题: ① 网络层向运输层提供怎样的服务? (可靠或不可靠) ② 网络层寻址问题(IP 地址) ③ 路由选择问题 (路径) 重点在于:TCP/IP协议栈 2--网络…

Pygame Zero(pgzrun)游戏库介绍

Pygame Zero(pgzrun)游戏库介绍 pgzero是python的一个第三方库。pgzrun 是 python game zero run 的缩写, 它对 Pygame 进行了封装, 屏蔽了繁琐枯燥的框架代码, 让学习者可以更专注于游戏的实现逻辑, 并且更快看到成果。 官网https://pygame-zero.read…

ASP.Net Core Web API快速搭建后台服务搭载SQLServer+FreeSQL(一)

目录 一.建立WebAPI所需要的环境 1. IDE编辑器:VisualStudio2019 2.数据库安装:SqlServer 3.下载SQL Server Management Studio (SSMS) 二.创建ASP.Net Core Web API工程 1.创建模板工程 2. 试运行案例接口 3.安装FreeSQL工具包 三.设计数据库 启…

【MySQL】不允许你不了解联结表

🎬 博客主页:博主链接 🎥 本文由 M malloc 原创,首发于 CSDN🙉 🎄 学习专栏推荐:LeetCode刷题集! 🏅 欢迎点赞 👍 收藏 ⭐留言 📝 如有错误敬请指…