基于YOLOv8算法的照片角度分类项目实践

目录

  • 一、任务概述
  • 二、YOLOv8算法简介
    • 2.1 算法改进
    • 2.2 算法特点
    • 2.3 网络结构
    • 2.4 性能比较
  • 三、工程实践
    • 3.1 安装算法框架库ultralytics
    • 3.2 库存照片预处理
      • 3.2.1 提取所有图片
      • 3.2.2 去除冗余的相同照片
      • 3.2.3 去除无车辆照片
      • 3.2.4 随机提取指定数量的图片
    • 3.3 照片朝向分类
      • 3.3.1 数据准备
      • 3.3.2 训练和评估
      • 3.3.3 预测

一、任务概述

最近一个项目,需要针对库存的车辆照片运用人工智能算法进行照片朝向分类和矫正,算法在设计时需要满足轻量化需求,适合在CPU环境中进行快速推理。在具体实现时,可以将照片分为4个类别:ni_0、ni_90、ni_180、ni_270,分别表示照片经过0度、90度、180度、270度逆向旋转。综和考虑算法精度和速度要求,本文拟采用YOLOv8算法来实现该任务。

YOLOv8 是当前业界领先的感知模型,它建立在以前 YOLO 版本的基础上,引入了新的功能并做了相关改进,提升了性能和灵活性。具体创新包括一个新的骨干网络、一个新的 Ancher-Free 检测头和一个新的损失函数,可以在从 CPU 到 GPU 的各种硬件平台上运行。

二、YOLOv8算法简介

  • YOLOv8作者:glenn-jocher
  • 项目链接:https://github.com/ultralytics/ultralytics

YOLO 是一种基于图像全局信息进行预测的目标检测系统。自 2015 年 Joseph Redmon、Ali Farhadi 等人提出初代模型以来,领域内的研究者们已经对 YOLO 进行了多次更新迭代,模型性能越来越强大。当前最新版本为YOLOv8。

具体的,YOLOv8 是由小型初创公司 Ultralytics 创建并维护的,值得注意的是 YOLOv5 也是由该公司创建的。

2.1 算法改进

YOLOv8 算法的核心特性和改动可以归纳如下:

  • 基本特性:提供了一个全新的 SOTA 模型,包括P5 640P6 1280 分辨率的目标检测网络和基于 YOLACT 的实例分割模型。和 YOLOv5 一样,基于缩放系数也提供了 N/S/M/L/X 尺度的不同大小模型,用于满足不同场景需求。
  • 骨干网络和 Neck 网络:参考了 YOLOv7 ELAN 设计思想,将 YOLOv5 的 C3 结构换成了梯度流更丰富的 C2f 结构,并对不同尺度模型调整了不同的通道数,这种精心微调方式大幅提升了模型性能。不过这个C2f 模块中存在 Split 等操作,对特定硬件部署没有之前那么友好了。
  • Head网络:相比 YOLOv5 改动较大,换成了目前主流的解耦头结构,将分类和检测头分离,同时也从 Anchor-Based 换成了 Anchor-Free。
  • Loss损失函数:采用了 TaskAlignedAssigner 正样本分配策略,并引入了 Distribution Focal Loss。

从上面可以看出,YOLOv8 主要参考了最近提出的诸如 YOLOX、YOLOv6、YOLOv7 和 PPYOLOE 等算法的相关设计,本身的创新点不多,偏向工程实践。

2.2 算法特点

  • 对用户友好的 API(命令行 + Python);
  • 模型更快更准确;
  • 模型能完成常见的图像感知任务,包括图像分类、目标检测、实例分割、关键点检测和视频跟踪;
  • 与先前所有版本的 YOLO 兼容可扩展;

2.3 网络结构

在这里插入图片描述
上图所示即为YOLOv8的完整模型结构图。

查看 N/S/M/L/X 等不同大小模型,可以发现 N/S 和 L/X 两组模型只是改了缩放系数,但是 S/M/L 等骨干网络的通道数设置不一样,没有遵循同一套缩放系数。如此设计的原因应该是同一套缩放系数下的通道设置不是最优设计,YOLOv7 网络设计时也没有遵循一套缩放系数作用于所有模型。

Head 部分变化最大,从原先的耦合头变成了解耦头,其结构如下所示:
在这里插入图片描述
可以看出,不再有之前的 objectness 分支,只有解耦的分类和回归分支,并且其回归分支使用了 Distribution Focal Loss 中提出的积分形式表示法。

2.4 性能比较

在这里插入图片描述
YOLOv8是由小型初创公司 Ultralytics 创建并维护的,不过 Ultralytics 并没有直接将开源库命名为 YOLOv8,而是直接使用 Ultralytics 这个词,原因是 Ultralytics 将这个库定位为算法框架,而非某一个特定算法。

Ultralytics 开源库的两个主要优点是:

  • 融合众多当前 SOTA 技术于一体;
  • 未来将支持其他 YOLO 系列以及 YOLO 之外的更多算法;

三、工程实践

下面开始针对实际工程任务进行操作。

3.1 安装算法框架库ultralytics

YOLOv8算法位于开源框架库ultralytics中,因此先要安装ultralytics。
安装方式如下:

 pip install ultralytics

为了方便后续配置和使用,可以将github上的ultralytics源码拉取到本地:

git clone https://github.com/ultralytics/ultralytics.git@main

3.2 库存照片预处理

3.2.1 提取所有图片

假设库存照片位于名为“第一批原始照片”的文件夹中,由于库存照片目录结构混乱,图像格式不统一,因此需要将所有图片提取到一个统一的文件夹中,并且所有图片以jpg格式保存,这样方便后续使用。

在同目录下创建文件夹car_data/1,然后使用下面的脚本完成图片提取和转换。

import os
import cv2
import numpy as npdef getFileList(dir, Filelist, ext=None):"""获取文件夹及其子文件夹中文件列表输入 dir:文件夹根目录输入 ext:扩展名返回: 文件路径列表"""newDir = dirif os.path.isfile(dir):if ext is None:Filelist.append(dir)else:if ext in dir[-3:]:Filelist.append(dir)elif os.path.isdir(dir):for s in os.listdir(dir):newDir = os.path.join(dir, s)getFileList(newDir, Filelist, ext)return Filelistorg_img_folder = "./第一批原始照片"# 检索文件
imglist = getFileList(org_img_folder, [], "jpg")
print("本次执行检索到 " + str(len(imglist)) + " 张图像\n")imgIndex = 1
for imgpath in imglist:print(imgpath)try:img = cv2.imdecode(np.fromfile(imgpath, dtype=np.uint8), -1)if img is None:print('读取失败')continueif len(img.shape) == 2:img = cv2.cvtColor(img, cv2.COLOR_GRAY2BGR)elif img.shape[2] == 1:img = cv2.cvtColor(img, cv2.COLOR_GRAY2BGR)elif img.shape[2] == 4:img = cv2.cvtColor(img, cv2.COLOR_BGRA2BGR)savepath = os.path.join("car_data/1", 'jianyan_' + str(imgIndex) + ".jpg")cv2.imwrite(savepath, img)imgIndex += 1except:print("异常")else:passprint("完成")

上述脚本用来提取库存中的jpg照片,如果库存中还存在png或bmp图片,那么就修改代码:

imglist = getFileList(org_img_folder, [], "jpg")

将其中的jpg修改为png或bmp,同时修改对应的imgIndex起始标签值。

所有图片提取完以后都存放在car_data/1文件夹中,以jpg格式存储。库存总图片数达到89786张。

3.2.2 去除冗余的相同照片

库存照片中可能存在相同照片多次存放的问题,因此需要将完全相同的图像剔除掉,减少冗余。本文使用哈希比对算法来实现,具体脚本代码如下:

import os
import cv2
import shutil
from PIL import Image
import imagehashsrcFolder = 'car_data/1'
dstFolder = 'delimgs'
imgnames = os.listdir(srcFolder) # 计算所有图像哈希值
hashlst = []
for imgname in imgnames:print('计算哈希值中  '+imgname)hash_size = 16imgpath = os.path.join(srcFolder,imgname)hash = imagehash.dhash(Image.open(imgpath),hash_size=hash_size)hashlst.append(hash)# 检索相似图片
for curIndex in range(len(imgnames)-1):hash1 = hashlst[curIndex]print('比对中  '+imgnames[curIndex])for compIndex in range(curIndex+1,len(imgnames)):hash2 =  hashlst[compIndex]if hash1==hash2:imgname = imgnames[curIndex]dstpath = os.path.join(dstFolder, imgname)shutil.move(os.path.join(srcFolder,imgnames[curIndex]), dstpath)imgname = imgname.split('.')[0]dstpath = os.path.join(dstFolder, imgname+'_compare.jpg')shutil.copyfile(os.path.join(srcFolder,imgnames[compIndex]), dstpath)print('找到相同文件')break
print('完成')

去除冗余后的库存总图片数达到74125张。

3.2.3 去除无车辆照片

库存照片中存在大量无车辆的错误照片,因此需要写一个脚本将无车辆照片剔除掉。这里使用预先在coco数据集上训练好的yolov8算法来实现。具体脚本代码如下:

import cv2, os, shutil
from ultralytics import YOLO# 检索文件夹
folderpath = "./car_data/1"
dstFolder = './delimgs'
imgnames = os.listdir(folderpath)# 加载模型
model = YOLO("models/yolov8m-seg.pt")# 循环处理
for imgname in imgnames:# 读取图像imgpath = os.path.join(folderpath, imgname)print(imgpath)img = cv2.imread(imgpath)if img is None:os.remove(imgpath)continue# 车辆检索result = model(img, imgsz=640, conf=0.5)[0]boxes = result.boxesisfind = Falsefor box in boxes:classlabel = box.cls.cpu().numpy()[0]if classlabel == 1 or classlabel == 2 or classlabel == 3 or classlabel == 5 or classlabel == 7:isfind = Truebreak# 没找到车辆,删除图像if not isfind:dstpath = os.path.join(dstFolder, imgname)shutil.move(imgpath, dstpath)print('完成')

在delimgs文件夹中存放着剔除掉的图像,由于算法存在一定的漏检率,因此有些存在车辆的照片被错误的移动到这个delimgs文件夹中,需要人工复核,将这些照片“捞回去”。

去除无车辆照片后,库存总图片数达到51180张。

3.2.4 随机提取指定数量的图片

库存照片数据量庞大,本文只需要提取2万多张图片用来训练算法即可。

import os
import shutil,randomsrcFolder =  'car_data/1'
dstFolder = 'car_data/2'if not os.path.exists(dstFolder):os.makedirs(dstFolder)picIndex = 1
imgnames = os.listdir(srcFolder)
random.shuffle(imgnames)
for imgname in imgnames:if picIndex > 25000:continueimgpath = os.path.join(srcFolder, imgname)dstpath = os.path.join(dstFolder, imgname)shutil.move(imgpath, dstpath)picIndex += 1print('完成')  

提取好的图片位于car_data/2文件夹中,总数25000张。

3.3 照片朝向分类

3.3.1 数据准备

首先从预处理后的库存照片中精心挑选照片朝向正确的图像共计2万张整,然后分别对这2万张图像进行旋转,得到对应的逆90、逆180、逆270度角的三个类别图像,这样就组成了可以用来分类的图像库photo_direction,共计8万张图像,分4个类别。

完整生成脚本如下:

import os
from PIL import Imageni0_folder = "./dataset/car_data/ni0"
ni90_folder = "./dataset/car_data/ni90"
ni180_folder = "./dataset/car_data/ni180"
ni270_folder = "./dataset/car_data/ni270"# 创建文件夹
if not os.path.exists(ni90_folder):os.makedirs(ni90_folder)
if not os.path.exists(ni180_folder):os.makedirs(ni180_folder)
if not os.path.exists(ni270_folder):os.makedirs(ni270_folder)# 检索图像
img_names = os.listdir(ni0_folder)
for img_name in img_names:img_path = os.path.join(ni0_folder, img_name)print(img_path)# 读取图像img = Image.open(img_path)# 逆时针旋转90img90 = img.transpose(Image.ROTATE_90)save_path = os.path.join(ni90_folder, img_name)img90.save(save_path)# 逆时针旋转180img180 = img.transpose(Image.ROTATE_180)save_path = os.path.join(ni180_folder, img_name)img180.save(save_path)# 逆时针旋转270img270 = img.transpose(Image.ROTATE_270)save_path = os.path.join(ni270_folder, img_name)img270.save(save_path)print("完成")

其中ni0、ni90、ni180、ni270分别存储了逆时针0°、90°、180°、270°对应的图像。最后从每个文件夹中随机抽取2000张图片作为测试集用来评估算法。

最终数据集目录结构整理如下:

dataset/car_data/
|
|-- train/
|   |-- ni0/
|   |   |-- 10008.jpg
|   |   |-- 10009.jpg
|   |   |-- ...
|   |
|   |-- ni90/
|   |   |-- 1000.jpg
|   |   |-- 1001.jpg
|   |   |-- ...
|   |
|   |-- ni180/
|   |   |-- 10014.jpg
|   |   |-- 10015.jpg
|   |   |-- ...
|   |
|   |-- ni270/
|   |   |-- 10014.jpg
|   |   |-- 10015.jpg
|   |   |-- ...
|   |
|
|-- test/
|   |-- ni0/
|   |   |-- 10.jpg
|   |   |-- 11.jpg
|   |   |-- ...
|   |
|   |-- ni90/
|   |   |-- 12.jpg
|   |   |-- 13.jpg
|   |   |-- ...
|   |
|   |-- ni180/
|   |   |-- 14.jpg
|   |   |-- 15.jpg
|   |   |-- ...
|   |
|   |-- ni270/
|   |   |-- 16.jpg
|   |   |-- 17.jpg
|   |   |-- ...

上述结构就是ultralytics的图像分类所需要的目录结构,整个数据集分为train和test两个文件夹,其中每个种类的图片都放在一起,每个种类的文件夹名称即为对应的类别名称。

3.3.2 训练和评估

找到ultralytics/cfg/models/v8中找到yolov8-cls.yaml文件,拷贝一份到ultralytics/configs目录下面,并重命名为yolov8-cls-photodirection.yaml,修改该文件中的nc参数为4,表示共有4个类别。

训练代码如下:

from ultralytics import YOLO# 加载预训练模型和配置文件
model = YOLO('./configs/yolov8m-cls-photodirection.yaml').load('yolov8m-cls.pt')# 训练模型
results = model.train(data='./dataset/car_data', epochs=100, imgsz=64, batch=32, device='0,1')

启动训练后如果本地没有预训练模型yolov8-cls.pt,则ultralytics框架会自动从github上进行下载。需要注意的是创建的yaml名称为yolov8-cls-photodirection.yaml,而在代码中调用的是yolov8s-cls-photodirection.yaml,这是ultralytics框架提供的一个功能,我们只需要配置一份yaml文件,即可适配不同规模任务的分类模型,包括:

  • YOLOv8n-cls
  • YOLOv8s-cls
  • YOLOv8m-cls
  • YOLOv8l-cls
  • YOLOv8x-cls

本文共使用7万多张照片在2个GPU上进行训练,测试集为2000张图片,总耗时约17个小时。在测试集上的最佳top1准确率为0.985。

3.3.3 预测

训练好模型以后,使用下面的代码可以对单张图片进行预测和矫正:

from ultralytics import YOLO
import cv2
from PIL import Image
import numpy as np# 加载模型
model = YOLO('./runs/classify/train/weights/best.pt')# 预测模型
img = cv2.imread('./imgs/7.jpg')
results = model(img)
label = int(results[0].probs.top1) # 标签类别
labelconf = results[0].probs.top1conf.cpu().numpy() # 置信度
print(label)
print(labelconf)# 矫正
Thr = 0.8
if labelconf > Thr:if label == 1: # 逆时针180度img = Image.fromarray(cv2.cvtColor(img,cv2.COLOR_BGR2RGB))img = img.transpose(Image.ROTATE_180)img = cv2.cvtColor(np.asarray(img),cv2.COLOR_RGB2BGR)save_path = './imgs/result.jpg'cv2.imwrite(save_path,img)elif label == 2: # 逆时针270度img = Image.fromarray(cv2.cvtColor(img,cv2.COLOR_BGR2RGB))img = img.transpose(Image.ROTATE_90)img = cv2.cvtColor(np.asarray(img),cv2.COLOR_RGB2BGR)save_path = './imgs/result.jpg'cv2.imwrite(save_path,img)elif label == 3: # 逆时针90度img = Image.fromarray(cv2.cvtColor(img,cv2.COLOR_BGR2RGB))img = img.transpose(Image.ROTATE_270)img = cv2.cvtColor(np.asarray(img),cv2.COLOR_RGB2BGR)save_path = './imgs/result.jpg'cv2.imwrite(save_path,img)

最终输出的是分类标签、置信度以及矫正过后的车辆照片。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/451338.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

PyQT——蓝牙收发数据(上位机案例-小车控制器)

实现功能 由于本人水平有限,仅用了最简单的进行实现,主要功能: 蓝牙设备扫描以及刷新蓝牙连接蓝牙数据发送蓝牙数据接收 页面实现效果 代码目录结构 代码案例 代码已经全部添加注释,故不再做单独解释。 Main.py ble_contr…

Open CASCADE学习|拓扑变换

目录 平移变换 旋转变换 组合变换 通用变换 平移变换 TopoDS_Shape out;gp_Trsf theTransformation;gp_Vec theVectorOfTranslation(0., 0.125 / 2, 0.);theTransformation.SetTranslation(theVectorOfTranslation);BRepBuilderAPI_Transform myBRepTransformation(out, th…

C++继承_C++回顾

什么是继承 继承是面向对象中使代码可以复用的最重要的手段,它允许在保持原有类特性的基础上进行扩展,增加功能,这样就会产生新的类,即派生类。继承呈现了面向对象的层次结构,体现了由简单到复杂的认知过程。与函数复…

MySQL运维实战(5.3) MySQL数据乱码的一些情况

作者:俊达 表数据乱码 表数据出现乱码的情况通常是由于数据的真实编码与相关参数不一致引起的,其中包括常见的参数如character_set_client、character_set_results、字段编码以及终端编码等。确保这些参数保持一致,可以有效预防和解决乱码问…

vit细粒度图像分类(十)TransFG学习笔记

1.摘要 细粒度视觉分类(FGVC)是一项非常具有挑战性的任务,它旨在从子类别中识别对象,这是由于类间固有的微妙差异。现有的大部分工作主要是通过重用骨干网络提取检测到的判别区域的特征来解决这一问题。然而,这种策略不可避免地使管道变得复…

git 如何修改仓库地址

问题背景:组内更换大部门之后,代码仓的地址也迁移了,所以原来的git仓库地址失效了。 虽然重新建一个新的文件夹,再把每个项目都git clone一遍也可以。但是有点繁琐,而且有的项目本地还有已经开发一半的代码&#xff0c…

网络原理-TCP/IP(5)

TCP协议 延迟应答 它也是基于滑动窗口,提高效率的一种机制,结合滑动窗口以及流量控制,能够以延迟应答ACK的方式,把反馈的窗口,搞大.核心在于允许范围内,让窗口尽可能大. 如果接收数据的主机立刻返回ACK应答,这时候返回的窗口可能比较小. 1.假设接收端缓冲区为1M.一次收到了5…

centos 7.6 安装cas 对接ldap 单点登录实战

centos 7.6 安装cas 对ldap 单点登录实战 1、安装前准备工作1.1、centos 7.6 安装JDK 1.81.2、centos 7 安装tomcat 9.0.841.3、windows10 安装JDK 1.81.4、windows10 安装打包工具 maven 3.9.6 2、下载cas 5.3 并打包成war包3、部署cas到tomcat4、centos 7.6 安装ldap5、cas对…

天津政采入围流程?

天津政采入围流程如下: 企业资料提交:申请企业需要提交相关的企业资料,包括企业营业执照、税务登记证、组织机构代码证等。这些资料需要提交给天津政采中心进行审核。 自营商城资料提交:申请企业需要提交自营商城的资料&#xff0…

RocketMQ问题篇01 | NameServer告警异常分析

RocketMQ问题篇01 | NameServer告警异常分析 1、问题描述2、初步分析2.1 mqcloud源代码分析2.2 NameServer源码分析2.3 NameServer源码分析2(源码出错概率太低)2.4 大流量分析 3、堆栈分析3.1 wait response on the channel3.2 connect to failed3.3 sen…

Avalonia学习(二十二)-数据库操作端

开始项目式的例子,但是不方便给大家贴代码了。 内容很多,只能演示一个界面,例子上传。 我不擅长界面美化和配色,有兴趣的可以继续完善,当前实现mysql。 最近所有样例的地址: GitHub - jinyuttt/Avalonia…

Kubernetes 1.24 serviceaccount Token问题

一. secret 官网说明 从 Kubernetes 版本 1.24 开始,不再自动创建服务帐户的机密,对于需要使用服务帐户访问 Kubernetes API 服务器的开发人员(例如,在使用管道时)来说,这可能是一个问题,连接…