机器学习笔记 - 基于OpenCV+稀疏光流的无监督运动检测

一、简述

        在各种高级开源库的帮助下,检测固定摄像机拍摄的运动行为是轻而易举可以实现的,但检测移动的摄像机拍摄的移动物体的运动检测依然是一个复杂的问题。在这里,我们将继续基于稀疏光流,并检测移动的无人机相机的运动。

        这里使用的数据集来自VisDrone数据集,见下面github的链接。这个数据集其中包含各种环境下的无人机视频剪辑。运动检测在该领域的应用包括:监视、自主、搜索和救援,甚至环境应用。该检测方法旨在将稀疏光流向量中的真实移动物体与背景区分开来,因为我们不依赖于任何前置条件,所以这是一种无监督方法。

https://github.com/VisDrone/VisDrone-Dataseticon-default.png?t=N7T8https://github.com/VisDrone/VisDrone-Dataset        本文介绍的检测方法流程概述如下:

        对于一对连续帧,帧 1 和帧 2

        1、计算第 1 帧上的关键点

        2、计算从帧 1 到帧 2 的稀疏光流

        3、进行运动补偿以获得补偿后的关键点

        4、补偿流矢量的计算范数

        5、对 Norm 进行异常值检测以获得运动点

        6、聚类运动点以获得检测

        7、过滤检测到的簇

        示例图像如下

二、光流和运动补偿

        光流描述了图像序列中像素从一帧到下一帧的运动。稀疏光流计算角点等显着特征的运动,而密集光流计算所有像素的运动。

        相机运动补偿允许在检测移动物体时考虑相机运动,它是从前一帧到当前帧的变换。稀疏光流将帮助我们找到这种转变。

        下面更详细地概述了前三个步骤:

        1、通过检测强特征来计算第 1 帧上的关键点

        2、使用稀疏光流将关键点与第 2 帧匹配

        3、对第 1 帧的关键点进行运动补偿

        4、使用先前和当前关键点的数组来计算从帧 1 到帧 2 的变换

        4、对第 1 帧的关键点进行变换

        我们可以使用角点检测或任何特征检测算法完成步骤 1,并使用稀疏光流执行步骤 2 。步骤2的匹配结果提供了由于相机运动而导致的关键点的新位置。(即新图像坐标处的相同像素)。第 1 帧和第 2 帧关键点之间的增量构成了流向量。

        实际上,流矢量是由相机和物体在任何 3D 方向上的运动产生的,但它们只捕获 2D 图像空间中的运动。这就是第 3 步的用武之地,我们估计一个变换矩阵来将帧 1 与帧 2 对齐。 2D仿射变换效果很好,但我们也可以估计单应性矩阵,主要区别在于 2D 仿射变换(2x3 矩阵)仅考虑 2D 空间,而 Homography(3x3 矩阵)考虑 3D 空间。我们在所有这些步骤中大量利用 OpenCV,估计变换矩阵的代码如下所示:

def motion_comp(prev_frame, curr_frame, num_points=500, points_to_use=500, transform_type='affine'):""" Obtains new warped frame1 to account for camera (ego) motionInputs:prev_frame - first image framecurr_frame - second sequential image framenum_points - number of feature points to obtain from the imagespoints_to_use - number of point to use for motion translation estimation transform_type - type of transform to use: either 'affine' or 'homography'Outputs:A - estimated motion translation matrix or homography matrixprev_points - feature points obtained on previous imagecurr_points - feature points obtaine on current image"""transform_type = transform_type.lower()assert(transform_type in ['affine', 'homography'])prev_gray = cv2.cvtColor(prev_frame, cv2.COLOR_RGB2GRAY)curr_gray = cv2.cvtColor(curr_frame, cv2.COLOR_RGB2GRAY)# get features for first framecorners = cv2.goodFeaturesToTrack(prev_gray, num_points, qualityLevel=0.01, minDistance=10)# get matching features in next frame with Sparse Optical Flow Estimationmatched_corners, status, _ = cv2.calcOpticalFlowPyrLK(prev_gray, curr_gray, corners, None)# reformat previous and current corner pointsprev_points = corners[status==1]curr_points = matched_corners[status==1]# sub sample number of points so we don't overfitif points_to_use > prev_points.shape[0]:points_to_use = prev_points.shape[0]index = np.random.choice(prev_points.shape[0], size=points_to_use, replace=False)prev_points_used = prev_points[index]curr_points_used = curr_points[index]# find transformation matrix from frame 1 to frame 2if transform_type == 'affine':A, _ = cv2.estimateAffine2D(prev_points_used, curr_points_used, method=cv2.RANSAC)elif transform_type == 'homography':A, _ = cv2.findHomography(prev_points_used, curr_points_used)return A, prev_points, curr_points

        我们提供了一个选项,可以使用较少数量的点来估计变换矩阵,以避免过度拟合。我们还返回帧 1 和 2 中的关键点,因为它们包含估计的流向量。现在我们可以完成步骤 3 并转换第 1 帧中的关键点以考虑相机运动。

A, prev_points, curr_points = motion_comp(frame1, frame2, num_points=10000, points_to_use=10000, transform_type='affine')# Camera Motion Compensation on frame 1 (for reference)
# transformed1 = cv2.warpAffine(frame1, A, dsize=(frame1.shape[:2][::-1])) # affine transform# Camera Motion Compensation on Key Points
A = np.vstack((A, np.zeros((3,)))) # convert 2x3 affine to 3x3 matrix 
compensated_points = np.hstack((prev_points, np.ones((len(prev_points), 1)))) @ A.T compensated_points = compensated_points[:, :2]

        由于变换矩阵将第 1 帧与第 2 帧对齐,因此第 1 帧的关键点应与第 2 帧的关键点对齐,让我们检查一个随机点:

print(f" Prev Key Points: {np.round(prev_points[100], 2)} \n",f"Compensated Key Points: {np.round(compensated_points[100], 2)} \n",f"Current Key Points: {np.round(curr_points[100], 2)}")

Prev Key Points: [528. 837.]
Compensated Key Points: [524.61 845.22]
Current Key Points: [524.33 845.14]

        我们可以看到运动补偿对于大多数背景点都做得很好。

三、 获取流向量的范数

        现在我们已经补偿了相机运动,我们可以通过从帧 2 关键点中减去变换后的帧 1 关键点来获得补偿后的流向量矩阵。

compensated_flow = curr_points - compensated_points

        现在我们可以比较原始的 VS 补偿流向量:

水平和垂直流向量的直方图。左:原始流向量直方图

        请注意左侧的直方图具有多种模式。对于较小的相机运动,我们期望背景几乎保持不变,因此我们应该期望补偿后的流向量以零为中心。它们不全为零的原因是帧与帧之间的图像噪声以及运动补偿的缺陷。在右侧,我们看到实际情况就是如此,除了异常值之外,水平和垂直方向的补偿流量直方图非常接近于零。

        选择距离度量(标准)

        在我们开始异常值检测之前,我们找到一种方法将数据组合成单个指标,然后对该指标执行异常值检测。我们可以使用许多指标,但我们会考虑一个能够放大异常值的指标,使它们更容易检测。这是L2范数(距离)的一个很好的方式,其中平方距离确实放大了大于我们正在寻找的距离(流量)。此外,平方会减少小于一的值。

        在Python中,我们可以使用numpy获得l2范数。

x = np.linalg.norm(compensated_flow, ord=2, axis=1) 

四、通过异常值检测运动

        对于异常值检测,我们使用一种简单的方法,通过取平均值加上缩放标准差来创建单侧异常值边界,其中缩放因子是超参数。事实证明,这比IQR和MAD等其他方法更有效,我们还应该注意,这种分布不是正态分布,它更接近拉普拉斯分布。

        在上图中,对数据拟合了拉普拉斯分布,这应该会产生稳健的异常值检测方法。我们可以看到它的右侧有一条长的尾巴。计算异常值的代码如下所示。

from scipy.stats import kurtosisc = 2 # tunable scale factor# We expect a Leptokurtic distribution with extrememly long tails
if kurtosis(x, bias=False) < 1:c /= 2 # reduce outlier hyparameter# get outlier bound (only care about upper bound since lower values are not likely movers)
upper_bound = np.mean(x) + c*np.std(x, ddof=1)

        我们还需要检查分布的峰度,以衡量其尾部。峰度越大,分布越拖尾;请记住,大的拖尾意味着移动的物体。从技术上讲,高峰度值表示 Leptokutic 分布,基本上是长尾的高峰分布,示例如下所示。

        如果分布没有峰度所示的大尾部,则我们要么没有物体,要么没有物体移动缓慢。我们凭经验观察到,将阈值降低 2 倍可以获得更好的结果。下面的代码片段展示了我们如何过滤异常值并获取与运动相对应的关键点。

motion_idx = (x >= upper_bound)
motion_points = curr_points[motion_idx]

        目前已经检测到运动点,但仍然有许多误检。在接下来需要删除不正确的点并保留真实的运动点。

五、集群运动点

        下一组是对检测到的运动点进行聚类,但首先我们将向数据添加更多信息。运动点包含图像上的水平和垂直位置,但我们还添加运动的幅度和角度。移动物体通常具有相似大小和角度的流向量。

# add additional motion data for clustering
motion = compensated_points[motion_idx] - curr_points[motion_idx] 
magnitude = np.linalg.norm(motion, ord=2, axis=1)
angle = np.arctan2(motion[:, 0], motion[:, 1]) # horizontal/vertialmotion_data = np.hstack((motion_points, np.c_[magnitude], np.c_[angle]))

        我们将使用DBSCAN或基于噪声的应用程序的密度空间聚类对点进行聚类。DBSCAN 允许我们找到点的簇,而无需预先定义簇的数量。我们需要设置要考虑在同一簇中的两个样本的最小半径(以像素为单位)以及每个簇的最小样本数;不满足这些标准的点被视为背景噪声并从结果中删除。

        最小半径(eps)非常重要,如果我们将其设置得太大,那么我们将错过较小的移动物体,太小,我们将得到错误的检测。在这种情况下,我们采取中间立场,并注意到单个移动对象可能有多个集群。最小样本数取决于异常值界限的严格性(即,如果我们有更高的界限(较少数量的异常值),那么我们应该使用较小的 min_samples)。

from sklearn.cluster import DBSCANcluster_model = DBSCAN(eps=50.0, min_samples=3)
cluster_model.fit(motion_data)

        结果如下 

六、过滤簇

        我们将根据三个标准过滤集群:

        运动角度 → 运动角度方差要小

        边缘位置→边缘簇往往是错误检测

        最大簇大小 → 有时背景噪声会产生大量错误检测

        我们首先设置一些以弧度为单位的角度阈值,这可能是主观的,但 0.1 左右的值往往效果很好。我们还设置了一个边缘阈值,这是从簇质心(平均值)到要删除的边缘的阈值像素距离,值 50 效果很好。最大簇大小是单个簇的最大点数,这是为了消除主要由未根据边缘标准过滤的边缘点组成的大型错误检测。

angle_thresh = 0.1 #  radians
edge_thresh = 50   # pixels
max_cluster_size = 80 # number of cluster pointsclusters = []
far_edge_array = np.array([w - edge_thresh, h - edge_thresh])
for lbl in np.unique(cluster_model.labels_):cluster_idx = cluster_model.labels_ == lbl# get standard deviation of the angle of apparent motion angle_std = angle[cluster_idx].std(ddof=1)if angle_std <= angle_thresh:cluster = motion_points[cluster_idx]# remove clusters that are too close to the edges and ones that are too largecentroid = cluster.mean(axis=0)if (len(cluster) < max_cluster_size) \and not (np.any(centroid < edge_thresh) or np.any(centroid > far_edge_array)):clusters.append(cluster)

        下面代码把上面检测过程整合到一起,

cluster_model = DBSCAN(eps=30.0, min_samples=3) # DBSCAN is seems to work the bestframes = []
for i in range(len(image_paths) - 1):frame1 = cv2.imread(image_paths[i])frame2 = cv2.imread(image_paths[i + 1])# get detected clusterclusters = get_motion_detections(frame1, frame2, cluster_model, c=1.0,angle_thresh=0.1, max_cluster_size=50,distance_metric='l2', transform_type='affine')# draw detected clustersfor j, cluster in enumerate(clusters):color = get_color((j+1)*5)frame2 = plot_points(frame2, cluster, radius=10, color=color)# save image for GIFfig = plt.figure(figsize=(15, 7))plt.imshow(frame2)plt.axis('off')fig.savefig(f"temp/frame_{i}.png")plt.close();frames.append(frame2)

        完整代码,见链接内unsupervised_motion_detection.py

https://github.com/bashendixie/ml_toolset/tree/main/%E6%A1%88%E4%BE%8B121%20%E8%BF%90%E5%8A%A8%E6%A3%80%E6%B5%8B%20%E5%B8%A7%E9%97%B4%E5%B7%AE%E5%88%86%20%E5%85%89%E6%B5%81%20%E8%83%8C%E6%99%AF%E5%8E%BB%E9%99%A4icon-default.png?t=N7T8https://github.com/bashendixie/ml_toolset/tree/main/%E6%A1%88%E4%BE%8B121%20%E8%BF%90%E5%8A%A8%E6%A3%80%E6%B5%8B%20%E5%B8%A7%E9%97%B4%E5%B7%AE%E5%88%86%20%E5%85%89%E6%B5%81%20%E8%83%8C%E6%99%AF%E5%8E%BB%E9%99%A4

 七、小结

        该方法能够检测来自移动平台(即无人机)的运动,但严重依赖于超参数,并且单个分布上的异常值检测意味着可能无法检测到缓慢移动的物体。该方法的主要限制是物体必须移动得足够快才能被检测到。

        此外,以像素为单位的对象运动与对象大小相关,这是该算法未解决的问题。尽管有这些限制,我们仍然能够检测大多数移动物体的运动。

        该方法必然不是运动检测最好的方法(甚至称不上好方法),重要的是,我们了解到了一种方法,获得了一些经验。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/328249.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

html5中各标签的语法格式总结以及属性值说明

有关闭标签的元素 a元素 <a href"" target"" title""></a>表格相关元素 table元素&#xff1a;表格标签caption元素&#xff1a;表头thead元素tbody元素&#xff1a;表格主体元素tfoot元素th元素tr元素&#xff1a;行标签td元素&…

基于FFmpeg的短视频编辑工具Cut

前言 最近在学习FFmpeg和音视频的相关知识&#xff0c;为了加强对FFmpeg的认识和了解&#xff0c;于是撸了一个短视频编辑软件Cut。 效果图先行&#xff1a; 技术点 启动页优化 但启动app的时候会有一个短暂的黑屏或者白屏。为什么呢&#xff1f; 是因为在App启动时&#x…

试除法求约数算法总结

知识概览 试除法求一个数的约数的时间复杂度是。 例题展示 题目链接 活动 - AcWing 系统讲解常用算法与数据结构&#xff0c;给出相应代码模板&#xff0c;并会布置、讲解相应的基础算法题目。https://www.acwing.com/problem/content/871/ 题解 用试除法求约数&#xff0c;…

Git - 强制替换覆盖 master 分支解决方案

问题描述 在版本迭代中&#xff0c;通常会保持一个主分支 master&#xff0c;及多个 dev 分支&#xff0c;但是因为 dev 分支的开发周期过长&#xff0c;迭代太多而没有及时维护 master &#xff0c;导致后来发版上线的大部分代码都在 dev 分支上&#xff0c;如果将代码在 mas…

报错处理:java.io.IOException: Could not find resource mybatis-config.xml

运行mybatis文件时出现了以下的情况 java.io.IOException: Could not find resource mybatis-config.xmlat org.apache.ibatis.io.Resources.getResourceAsStream(Resources.java:114)at org.apache.ibatis.io.Resources.getResourceAsStream(Resources.java:100)at org.apach…

Flume基础知识(十):Flume 聚合实战

1&#xff09;案例需求&#xff1a; hadoop100上的 Flume-1 监控文件/opt/module/group.log&#xff0c; hadoop101上的 Flume-2 监控某一个端口的数据流&#xff0c; Flume-1 与 Flume-2 将数据发送给 hadoop102 上的 Flume-3&#xff0c;Flume-3 将最终数据打印 到控制台。…

企业数据库安全管理规范

1.目的 为规范数据库系统安全使用活动&#xff0c;降低因使用不当而带来的安全风险&#xff0c;保障数据库系统及相关应用系统的安全&#xff0c;特制定本数据库安全管理规范。 2.适用范围 本规范中所定义的数据管理内容&#xff0c;特指存放在信息系统数据库中的数据。 本…

web——德州扑克

1.此案例只用于学习 2.未接入游戏规则 HTML代码部分 <!DOCTYPE html> <html><head><meta charset"utf-8"><meta name"viewport" content"widthdevice-width"><meta name"Poker Skin" content&quo…

扩散模型: Diffusion Model概念讲解

Diffusion Model 课件视频前向扩散过程 在原始图像中逐步添加高斯分布随机噪声,直到最后得到完全噪声的图像。 反向降噪过程 逐步去除噪声图中的噪声,得到最后原图。 根据噪声图和时间步得到预测的噪声,然后噪声图减去噪声得到原始图 噪声预测的标签来自于前向扩散过程中添加…

Rustdesk打开Win10 下客户端下面服务不会自启,显示服务未运行

环境: Rustdesk1.19 问题描述: Rustdesk打开Win10 下客户端下面服务不会自启,显示服务未运行 解决方案: 1.查看源代码 pub async fn start_all() {crate::hbbs_http::sync::start();let mut nat_tested = false;check_zombie()

【ArcGIS Pro微课1000例】0056:度分秒与十进制度互相转换(度分秒→度、度→度分秒)

ArcGIS软件可以很方便的直接实现度分秒转度、度转度分秒(度分秒→度、度→度分秒)。 文章目录 一、转换预览二、工具介绍三、案例解析一、转换预览 借助ArcGIS快速实现度分秒与度及其他格式的坐标转换,例如:度分秒→度、度→度分秒。 1. 度→度分秒 2. 度分秒→度 转换后…

Ubuntu中连接不上网络的问题解决方法

最近在terminal中调试联通时&#xff0c;一直都是网络未连接没有反应的状态&#xff0c;几经波折后得到了问题的解决方法&#xff0c;这里罗列两种方法。 法1&#xff1a; 在桥接模式下打开虚拟机的编辑—>虚拟网络编辑器后点击更改设置 点击自动桥接&#xff0c;相当于虚…