学习笔记19：图像定位-编程知识

学习笔记19：图像定位

news/2025/3/26 2:33:27/文章来源:https://www.cnblogs.com/gongzb/p/18230188

转自：https://www.cnblogs.com/miraclepbc/p/14385623.html

图像定位的直观理解

不仅需要我们知道图片中的对象是什么，还要在对象的附近画一个边框，确定该对象所处的位置。

也就是最终输出的是一个四元组，表示边框的位置

图像定位网络架构

可以将图像定位任务看作是一个回归问题！

数据集介绍

采用Oxford-IIIT数据集

The Oxford-IIIT Pet Dataset是一个宠物图像数据集，包含37种宠物，每种宠物200张左右宠物图片，该数据集同时包含宠物分类、头部轮廓标注和语义分割信息。

头文件

import torch
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import torch.nn as nn
import torch.nn.functional as F
import torchvision
from torchvision import datasets, transforms, models
from torch.utils import data
import os
import shutil
from lxml import etree
from matplotlib.patches import Rectangle
import glob
from PIL import Image
%matplotlib inline

这里介绍几个之前没用过的包：

lxml的etree是一个解析HTML文本的工具
Rectangle可以在图中画出矩形

数据预处理

获取图片及标签地址

images = glob.glob(r'E:\Oxford-IIIT Pets Dataset\dataset\images\*.jpg')
anno = glob.glob(r'E:\Oxford-IIIT Pets Dataset\dataset\annotations\xmls\*.xml')

这里发现len(images)大于len(anno)，因此需要获得有对应xml文件的图像地址

筛选图像地址

这里的思路是：先搞出有xml文件的文件名列表xml_name，然后遍历images，找到文件名在xml_name中的地址

xml_name = [x.split('\\')[-1].split('.')[0] for x in anno]
imgs = [x for x in images if x.split('\\')[-1].split('.')[0] in xml_name]

获取每张图像的边框值

边框值记录在这里：

因此，我们就可以通过解析xml文件，按照路径找到对应的四个值+长和宽

def to_labels(path):xml = open(r'{}'.format(path)).read() # 打开xml文件，注意地址转义的写法selection = etree.HTML(xml) # 用etree解析xml文件width = int(selection.xpath('//size/width/text()')[0]) # 获取数据的方式也值得学习height = int(selection.xpath('//size/height/text()')[0])xmin = int(selection.xpath('//bndbox/xmin/text()')[0])xmax = int(selection.xpath('//bndbox/xmax/text()')[0])ymin = int(selection.xpath('//bndbox/ymin/text()')[0])ymax = int(selection.xpath('//bndbox/ymax/text()')[0])return [xmin / width, ymin / height, xmax / width, ymax / height] # 因为要进行过会儿要进行裁剪，因此我希望获得的是一个比例labels = [to_labels(path) for path in anno]

划分训练集和测试集

数据集定义

class OxfordDataset(data.Dataset):def __init__(self, img_paths, labels, transform):self.imgs = img_pathsself.labels = labelsself.transforms = transformdef __getitem__(self, index):img = self.imgs[index]l1, l2, l3, l4 = self.labels[index]pil_img = Image.open(img)pil_img = pil_img.convert('RGB')data = self.transforms(pil_img)return data, l1, l2, l3, l4def __len__(self):return len(self.imgs)transform = transforms.Compose([transforms.Resize((224, 224)),transforms.ToTensor()
])

数据集切分

index = np.random.permutation(len(imgs))
all_imgs_path = np.array(imgs)[index]
all_labels = np.array(labels)[index].astype(np.float32)
s = int(len(all_imgs_path) * 0.8)train_ds = OxfordDataset(all_imgs_path[:s], all_labels[:s], transform)
test_ds = OxfordDataset(all_imgs_path[s:], all_labels[s:], transform)
train_dl = data.DataLoader(train_ds, batch_size = 8, shuffle = True)
test_dl = data.DataLoader(test_ds, batch_size = 8)

将一个批次的数据绘图

img_batch, out1_b, out2_b, out3_b, out4_b = next(iter(train_dl))plt.figure(figsize = (12, 8))
for i, (img, l1, l2, l3, l4) in enumerate(zip(img_batch[:3], out1_b[:3], out2_b[:3], out3_b[:3], out4_b[:3])):img = img.permute(1, 2, 0).numpy() # 将channel放在最后一维plt.subplot(1, 3, i + 1)plt.imshow(img)xmin, ymin, xmax, ymax = l1 * 224, l2 * 224, l3 * 224, l4 * 224 # 裁剪后的位置，即之前得到的比例乘以图像的长度/宽度rect = Rectangle((xmin, ymin), xmax - xmin, ymax - ymin, fill = False, color = 'red') # fill指的是矩形内部需不需要填充ax = plt.gca()ax.axes.add_patch(rect) # 将元素添加到图像中

定义模型

根据文章一开始给出的网络架构，可以看出组成部分为：卷积基+全连接层

获取卷积基

resnet = models.resnet101(pretrained = True)
conv_base = nn.Sequential(*list(resnet.children())[: -1]) # list(resnet.children())获取网络的各层信息，*表示将列表中的元素解耦

模型定义

模型的组成有1个卷积基+4个全连接层组成，每个全连接层输出一个值

class Net(nn.Module):def __init__(self):super().__init__()self.conv_base = nn.Sequential(*list(resnet.children())[: -1])self.fc1 = nn.Linear(in_size, 1)self.fc2 = nn.Linear(in_size, 1)self.fc3 = nn.Linear(in_size, 1)self.fc4 = nn.Linear(in_size, 1)def forward(self, x):x = self.conv_base(x)x = x.view(x.size(0), -1) # 注意，进入全连接层之前要进行扁平化x1 = self.fc1(x)x2 = self.fc2(x)x3 = self.fc3(x)x4 = self.fc4(x)return x1, x2, x3, x4

训练模型

model = Net()
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
model.to(device)loss_func = torch.nn.MSELoss()
optimizer = torch.optim.Adam(model.parameters(), lr = 0.0001)
epochs = 10
exp_lr_scheduler = torch.optim.lr_scheduler.StepLR(optimizer, step_size = 7, gamma = 0.1)def fit(epoch, model, trainloader, testloader):running_loss = 0model.train()for x, y1, y2, y3, y4 in trainloader:x, y1, y2, y3, y4 = x.to(device), y1.to(device), y2.to(device), y3.to(device), y4.to(device)y_pred1, y_pred2, y_pred3, y_pred4 = model(x)loss1 = loss_func(y_pred1, y1)loss2 = loss_func(y_pred2, y2)loss3 = loss_func(y_pred3, y3)loss4 = loss_func(y_pred4, y4)loss = loss1 + loss2 + loss3 + loss4optimizer.zero_grad()loss.backward()optimizer.step()with torch.no_grad():running_loss += loss.item()exp_lr_scheduler.step()epoch_loss = running_loss / len(trainloader.dataset)test_running_loss = 0model.eval()with torch.no_grad():for x, y1, y2, y3, y4 in testloader:x, y1, y2, y3, y4 = x.to(device), y1.to(device), y2.to(device), y3.to(device), y4.to(device)y_pred1, y_pred2, y_pred3, y_pred4 = model(x)loss1 = loss_func(y_pred1, y1)loss2 = loss_func(y_pred2, y2)loss3 = loss_func(y_pred3, y3)loss4 = loss_func(y_pred4, y4)loss = loss1 + loss2 + loss3 + loss4test_running_loss += loss.item()epoch_test_loss = test_running_loss / len(testloader.dataset)print('epoch: ', epoch, 'loss: ', round(epoch_loss, 3),'test_loss: ', round(epoch_test_loss, 3))return epoch_loss, epoch_test_losstrain_loss = []
test_loss = []
for epoch in range(epochs):epoch_loss, epoch_test_loss = fit(epoch, model, train_dl, test_dl)train_loss.append(epoch_loss)test_loss.append(epoch_test_loss)

注意，回归问题不用计算准确率

结果

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.hqwc.cn/news/719710.html

如若内容造成侵权/违法违规/事实不符，请联系编程知识网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

学习笔记13：微调模型

转自：https://www.cnblogs.com/miraclepbc/p/14360807.html resnet预训练模型 resnet模型与之前笔记中的vgg模型不同，需要我们直接覆盖掉最后的全连接层先看一下resnet模型的结构：我们需要先将所有的参数都设置成requires_grad = False然后再重新定义fc层，并覆盖掉原来的。…

成熟的双向同步方案，能够解决哪些同步问题？

在企业的数据流转管控过程中，经常会遇到频繁的数据备份、同步，人工重复这样的工作程序，既繁琐又容易出错。因此对于企业而言，选择一款高效且安全的同步软件成为了企业运营中的关键一环，不仅能够提高工作效率，还能确保数据的安全性。在选择双向同步方案时，首先要明确自己…

从数据库设计到性能调优，全面掌握openGemini应用开发最佳实践

据库设计和性能调优最重要的干货都在这里了！本文分享自华为云社区《DTSE Tech Talk openGemini ：从数据库设计到性能调优，全面掌握openGemini应用开发最佳实践》，作者：华为云开源。在本期《从数据库设计到性能调优，全面掌握openGemini应用开发最佳实践》的主题直播中，…

MBD闲谈第03期：MBD的“禁区”——底层驱动

转载自：autoMBD, 版权归autoMBD所有，转载请注明作者和来源原文链接：http://www.360doc.com/content/22/0820/17/15913066_1044626106.shtml全文约3562字，你将看到以下内容：底层驱动的那些事底层驱动为啥是MBD“禁区” 底层驱动与模型集成下期预告1 底层驱动的那些事先…

allure的suites（测试套）中未显示返回值参数，显示No information about test execution is available.（转自大佬，亲测有用）

转自大佬：https://blog.csdn.net/sbdxmnz/article/details/137016423ExecutionNo information about test execution is available.解决方法：添加代码，因为pytest输出文本形式测试报告时未存储响应内容 # 将接口响应的文本内容附加到Allure报告中 allure.attach(接口响应.…

学习笔记9：卷积神经网络实现MNIST分类（GPU加速）

转自：https://www.cnblogs.com/miraclepbc/p/14345342.html 相关包导入 import torch import pandas as pd import numpy as np import matplotlib.pyplot as plt from torch import nn import torch.nn.functional as F from torch.utils.data import TensorDataset from tor…

笔记2：张量简介

张量生成方法转自：https://www.cnblogs.com/miraclepbc/p/14329476.html张量的形状及类型张量的计算张量的梯度手写线性回归张量生成方法张量的形状及类型张量的计算张量的梯度手写线性回归

笔记3：逻辑回归（分批次训练）

转自：https://www.cnblogs.com/miraclepbc/p/14332084.html 相关库导入 import torch import pandas as pd import numpy as np import matplotlib.pyplot as plt from torch import nn %matplotlib inline数据读入及预处理 data = pd.read_csv(E:/datasets/dataset/credit-a.…

【深度好文】到底什么是质量意识？如何衡量，如何提升？

大家好，我是狂师！在软件测试中，质量意识是一个核心且至关重要的概念。相信大家，经常会听到："这个家伙质量意识很强，某某某要提升质量意识“之类的话语。在企业中，“质量意识”不仅关乎产品和服务的优劣，更是企业竞争力和可持续发展的关键因素。那么，到底什么是…

域名

顶级域名、二级域名与三级域名互联网名称与数字地址分配机构（ICANN）负责管理和协调国际互联网络域名系统。根据ICANN的定义，一个完整的域名至少有两个部分，各部分之间用“.”来分隔，最后一个“.”的右边部分称为顶级域名，也称为一级域名；最后一个“.”的左边部分称为二级…

异构数据源同步之数据同步 → DataX 使用细节

开心一刻中午我妈微信给我消息妈：儿子啊，妈电话欠费了，能帮妈充个话费吗我：妈，我知道了，我帮你充当我帮我妈把话费充好，正准备回微信的时候，我妈微信给我发消息了妈：等会儿子，不用充了，刚刚有个二臂帮妈充上了我输入框中的（妈，充好了）是发还是不发？简单使…

js日期格式化代码

js 日期格式化代码分享一个前端实用的 js 日期格式化代码，相当给力。1 export function getFillDate(key) {2 if(key < 10) {3 return `0${key}`;4 }else{5 return `${key}`;6 }7 }8 /**9 * 时间戳转化为年月日 10 * @param times 时间戳 11 * @param ym…