目标检测算法训练数据准备——Penn-Fudan数据集预处理实例说明(附代码)

目录

0. 前言

1. Penn-Fudan数据集介绍

2. Penn-Fudan数据集预处理过程

3. 结果展示

4. 完整代码


0. 前言

按照国际惯例,首先声明:本文只是我自己学习的理解,虽然参考了他人的宝贵见解及成果,但是内容可能存在不准确的地方。如果发现文中错误,希望批评指正,共同进步。

本文以Penn-Fudan数据集预处理为例,说明用于目标检测算法训练的数据集的预处理方法及过程。

因为要给目标检测算法进行训练,需要预先提取出图像中定位及分类相关信息,过程稍微有点复杂,所以单独写作这篇博客专门介绍整个过程。

1. Penn-Fudan数据集介绍

1.1 基础概述

Penn-Fudan行人数据集(Penn-Fudan Pedestrian Detection Dataset)是一个专门用于行人检测任务的小规模图像数据集。这个数据集由宾夕法尼亚大学和复旦大学的研究者共同创建,主要用于学术研究和算法验证。

该数据集包含170张高分辨率的RGB图像,这些图片都是从视频序列中截取的,并且在每幅图像中有0到6个不等的行人目标。每个行人的位置都通过矩形框(mask)进行了精确标注,提供了边界框坐标信息,便于进行目标检测训练和测试。

Penn-Fudan数据集的文件结构如下:

PennFudanPed/
├── Annotation/       #包含每个图像的注释,包含有多少行人及行人位置等信息
│   ├── FudanPed00001.txt
│   ├── FudanPed00002.txt
│   └── ... 
├── PedMasks/       #包含每个行人的掩码图像
│   ├── FudanPed00001_mask.png
│   ├── FudanPed00002_mask.png
│   └── ...       
├── PNGImages/      # 图像文件夹
│   ├── FudanPed00001.png
│   ├── FudanPed00002.png
│   └── ...        
└── readme.txt
1.2 图像内容
  • 场景:图像采集自多种环境,如校园、街道、人行横道等,涵盖了不同光照条件、行人姿态和遮挡情况。
  • 行人数量:总计标注了345个行人的实例,每张图片中至少有一个行人,部分图片中有多个行人。
1.3 标注信息

Penn-Fudan数据集所有图像都按照PASCAL VOC格式进行标注,包括每个行人的精确边界框和像素级分割掩模。

  • 边界框(Bounding Boxes):每个行人实例都有一个矩形边界框,用于表示行人在图像中的位置。
  • 分割掩模(Segmentation Masks):除了边界框之外,还提供了每个行人实例的精细像素级分割标签,这对于训练和评估基于深度学习的语义分割模型非常有用。
1.4 应用示例
  • 模型训练与验证:该数据集常被用于微调预训练的物体检测和实例分割模型,例如Mask R-CNN,以检验其对行人检测及分割任务的适应性。
  • 算法比较:研究者使用Penn-Fudan数据集来对比不同行人检测和分割方法的效果,并以此来改进算法性能。
1.5 获取与使用
  • 资源获取:用户通常需要从官方或相关学术项目网站下载该数据集,数据集中包含了图像文件夹(如“PNGImages”)和相应的XML标注文件。
  • 数据加载:利用工具如`TorchVision`或其他计算机视觉库可以方便地加载和解析这些标注数据,进而进行模型训练和实验。

需要数据集的小伙伴可以留下邮箱。

2. Penn-Fudan数据集预处理过程

首先需要解释下PedMasks中的mask,mask是一个二维矩阵,用于标注图像中的行人:用“0”标注图像背景,用“1”标注“行人1”,“2”标注“行人2”,以此类推……

下面示意图可以更加形象地说明mask:

当然真实mask要达到像素级精度,比上面示意图密集得多。

Penn-Fudan数据集预处理过程可以分为以下几个步骤:

  1. 提取mask中的值mask_id,确认图像中有几个行人,例如上图mask_id = [1, 2];
  2. 按照mask_id把单个mask拆分成多个masks,拆分过程如下图;
  3. 确认masks中的每个行人的位置,即每个ground truth框的[x_min, y_min, x_max, y_max];

3. 结果展示

按上述过程对Penn-Fudan数据集进行预处理,结果如下:

其中绿色框代表行人的ground truth框,红色数字代表行人编号。

4. 完整代码

import os
import numpy as np
from PIL import Image
import cv2class PFdataset():def __init__(self, path):self.path = pathself.imgs = list(sorted(os.listdir(os.path.join(path, 'PNGImages'))))  #图像列表:['FudanPed00001.png', 'FudanPed00002.png'...]self.masks = list(sorted(os.listdir(os.path.join(path, 'PedMasks'))))  #Mask列表:['FudanPed00001_mask.png', 'FudanPed00002_mask.png'...]def __getitem__(self, item):img_path = os.path.join(self.path, 'PNGImages', self.imgs[item])  #输出单个图像的地址:Penn-Fudan\PNGImages\FudanPed00xxx.pngmask_path = os.path.join(self.path, 'PedMasks', self.masks[item])  #输出单个mask的地址:Penn-Fudan\PedMasks\PennPed00xxx_mask.pngimg = Image.open(img_path).convert('RGB')   #例 <PIL.Image.Image image mode=RGB size=559x536 at 0x2103A5ED790> , 可以用.show()看到图像, 可以用 numpy.array()看到图像数据mask = np.array(Image.open(mask_path))  #例  <PIL.PngImagePlugin.PngImageFile image mode=L size=530x410 at 0x214FACC83D0>mask_id = np.unique(mask) #提取mask的编码,例:编码有[0,1,2]。0代表背景,1代表人物1,2代表人物2mask_id = mask_id[1:]  #0是背景,进行切片,编码仅剩[1,2]masks = mask == mask_id[:,None,None]  #把不同对象的mask提取出来,mask_id[:,None,None]相当于array的升维gt_boxs = []  #groundtruth框的坐标值listfor i in range(len(mask_id)):box = np.where(masks[i])xmin = np.min(box[1])xmax = np.max(box[1])ymin = np.min(box[0])ymax = np.max(box[0])gt_boxs.append([xmin, ymin, xmax, ymax, mask_id[i]])#使用cv2画框并且标注序号img_cv2 = cv2.imread(img_path)for [xmin, ymin, xmax, ymax, mask_id] in gt_boxs:cv2.rectangle(img_cv2,(xmin,ymin),(xmax,ymax),(0, 255, 0), 2)text = '%s'%mask_idfont = cv2.FONT_HERSHEY_SIMPLEXfont_scale = 1color = (0, 0, 255)  # 蓝色文本thickness = 2text_size, baseline = cv2.getTextSize(text, font, font_scale, thickness)text_origin = (xmin,ymin + baseline*3)# 在矩形框上方写入文本cv2.putText(img_cv2, text, text_origin, font, font_scale, color, thickness, cv2.LINE_AA)cv2.imshow('gt_box',img_cv2)cv2.imwrite('Penn-Fudan/output/%s.jpg'%item, img_cv2)dataset = PFdataset('Penn-Fudan')
dataset[1]

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/442317.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【MBtiles数据索引和服务发布】GeoServer改造Springboot番外系列二

xyz地图服务访问示例&#xff1a;http://192.168.1.240:8081/gmserver/raster/xyz/firstWP:Imagery-raster/{z}/{x}/{y}.jpg 访问示例如下&#xff1a; mbtiles目录结构 根据z&#xff0c;x&#xff0c;y获取对应mbtiles文件路径的工具方法 说明&#xff1a;重点是使用getMb…

RabbitMQ入门概念

目录 一、RabbitMQ入门 1.1 rabbitmq是啥&#xff1f; 1.2 应用场景 1.3 AMQP协议与RabbitMQ工作流程 1.4 Docker安装部署RabbitMQ 二、SpringBoot连接MQ配置 2.1 示例1 2.1 示例2 —— 发送实体 一、RabbitMQ入门 1.1 rabbitmq是啥&#xff1f; MQ&#xff08;Message…

02-opencv简单实例效果和基本介绍-上

机器视觉概述 机器视觉是人工智能正在快速发展的一个分支。简单说来,机器视觉就是用机器代替人眼来做测量和判断。机器视觉系统是通过机器视觉产品(即图像摄取装置,分CMOS和CCD两种)将被摄取目标转换成图像信号,传送给专用的图像处理系统,得到被摄目标的形态信息,根据像素…

Win10+wsl2+mmdetection3d(GPU)

2024部署mmdetection3d在win10wsl2 实现过程安装wsl2安装docker与VSCode插件连接其他问题 实现过程 安装WSL2 踩坑点&#xff1a; 基于发行版安装&#xff0c;无法更新wsl1&#xff0c;查证了当前的wi10的驱动是满足要求的&#xff0c;但是无法更新。所以一定要先去更新驱动&…

iZotope RX 10.4.2 mac激活版 音频修复和增强工具

iZotope RX 10 for Mac是一款专业的音频修复软件&#xff0c;旨在提供强大、精确的工具&#xff0c;让用户能够清晰、纯净地处理音频。以下是其主要功能和特点&#xff1a; 软件下载&#xff1a;iZotope RX 10.4.2 mac激活版下载 强大的降噪功能&#xff1a;iZotope RX 10采用了…

SRC实战 | 信息泄露挖掘

本文由掌控安全学院 - 叴龙 投稿 1. 信息搜集 首先老语法先搜集一波&#xff0c;毕竟没有钓鱼和sg的能力&#xff0c;只能找注册站去挖挖了。 web.title”XX大学”&&web.body”忘记密码”&&web.body”注册” 2. 漏洞挖掘 这里找到一个可以注册网站接口&…

Python之PyMySQL模块

Python之PyMySQL模块 目录 Python之PyMySQL模块安装连接数据库connect拓展 获取游标操作数据查找添加更新 安装 pip install pymysql连接数据库 使用connect函数创建连接对象 此对象提供数据库的关闭、事务提交、事务回滚等操作 示例&#xff1a; import pymysql# 以下为必…

java大文件分片上传

1.效果图 2.前端html <!DOCTYPE html> <html> <head></head> <body> <form><input type"file" id"fileInput" multiple><button type"button" onclick"upload()" >大文件分片上传&l…

【JAVA】Long类型返回到前端,精度丢失

一. 问题阐述 20位long类型的数字&#xff0c;从后端接口返回到前端后【四舍五入】 MYSQL端 &#xff08;1&#xff09;bigint (20) &#xff08;2&#xff09;具体某一条数据 JAVA端 &#xff08;1&#xff09;实体类 &#xff08;2&#xff09;服务类 &#xff08;3&…

【Vue.js设计与实现】第一篇:框架设计概览-阅读笔记(完结)

从高层设计的角度去探讨框架需要关注的问题。 参考&#xff1a;速读《Vue.js 设计与实现》 - 掘金 (juejin.cn) 系列目录&#xff1a; 标题博客第一篇&#xff1a;框架设计概览【Vue.js设计与实现】第一篇&#xff1a;框架设计概览-阅读笔记第二篇&#xff1a;响应系统【Vue.…

注册亚马逊店铺用动态IP可以吗?

注册亚马逊店铺可以用动态IP&#xff0c;只要是独立且干净的网线就没问题&#xff0c;亚马逊规则要求一个IP地址只能出现一个亚马逊店铺&#xff0c;若使用不当会导致关联账户。 固定ip可以给我们的账户带来更多的安全&#xff0c;要知道关联问题是亚马逊上的一个大问题&#…

Leetcode—1265. 逆序打印不可变链表【中等】Plus

2024每日刷题&#xff08;一零三&#xff09; Leetcode—1265. 逆序打印不可变链表 实现代码 /*** // This is the ImmutableListNodes API interface.* // You should not implement it, or speculate about its implementation.* class ImmutableListNode {* public:* v…