图像读取裁剪与人脸识别

图像读取

Image read ⇒ \Rightarrow torchvision.datasets

from torchvision import datasets
dataset = datasets.ImageFolder(data_dir, transform=transforms.Resize((512, 512)))

在这里插入图片描述

Return value illustration

  1. dataset[0][0]是PIL.Image objects,这利用IPython.display输出image,
from IPython import display
dataset = datasets.ImageFolder(data_dir, transform=transforms.Resize((512, 512)))
print(dataset)
print(len(dataset))
print(dataset.samples)
print(dataset[0][0])
print(dataset[0][1])
display.display(dataset[0][0])
print(dataset.samples[0][0])
print(dataset.samples[0][1])
dataset.samples = [(p, p.replace(data_dir, data_dir + '_cropped'))for p, _ in dataset.samples
]
print(dataset.samples[0][0])
print(dataset.samples[0][1])loader = DataLoader(dataset,num_workers=workers,batch_size=batch_size,collate_fn=training.collate_pil
)for i, (x, y) in enumerate(loader):mtcnn(x, save_path=y)print('\r第 {} 批,共 {} 批'.format(i + 1, len(loader)), end='')# Remove mtcnn to reduce GPU memory usage
del mtcnnhelp(datasets.ImageFolder)

在这里插入图片描述
返回的dataset类有如下函数:

  1. dataset[0][0]=PIL.Image,[1]=tag
  2. dataset.sample[0][0]
  3. len(dataset)

之后DataLoader加载数据集

loader = DataLoader(…)返回的DataLoader是什么,如何使用

`DataLoader`返回的是一个迭代器,用于从给定的`dataset`中按照指定的`batch_size`以及其他参数,生成批次的数据。
每个批次数据是一个元组,其中包含了输入样本和对应的标签。在给定的代码中,`DataLoader`会使用`dataset`作为数据源,设置`num_workers`参数表示同时使用多少个子进程来加载数据,设置`batch_size`参数
表示每个批次的样本数量。`collate_fn`参数是一个用来自定义如何将样本列表组合成一个批次的函数。通过使用`DataLoader`,可以方便地对大规模数据集进行批次加载,以进行训练或推理操作。
使用`DataLoader`的好处是可以自动进行数据并行处理,提高数据加载的效率。
for i, (x, y) in enumerate(loader):

是常用的 图像/样本 使用方式,x是图像batch列表,
在这里插入图片描述
x是图像,y是路径,好繁琐

图像裁剪

MTCNN 说明

facenet_pytorch.MTCNN是一个用于人脸检测和对齐的Python库。它使用了三个级联的神经网络来完成这个任务,分别是P-Net、R-Net和O-Net。在MTCNN中,有三个阈值需要设置,分别是人脸检测的阈值、人脸对齐的阈值和人脸裁剪的阈值。人脸检测的阈值(detection_threshold):用于确定是否存在人脸的阈值,默认值为0.6。当检测到的人脸置信度大于该阈值时,认为存在人脸。人脸对齐的阈值(landmarks_threshold):用于确定是否成功对齐人脸的阈值,默认值为0.7。当对齐后的人脸关键点置信度大于该阈值时,认为对齐成功。人脸裁剪的阈值(min_face_size):用于确定最小人脸尺寸的阈值,默认值为20。当检测到的人脸尺寸小于该阈值时,将被忽略。这些阈值可以根据具体应用场景进行调整,以达到更好的检测和对齐效果。
from facenet_pytorch import MTCNN
mtcnn = MTCNN(image_size=160, margin=0, min_face_size=20,thresholds=[0.6, 0.7, 0.7], factor=0.709, post_process=True,device=device
)
facenet_pytorch.MTCNN是一个用于人脸检测和对齐的模型,它有以下几个参数:min_face_size:最小人脸尺寸。默认值为20,表示检测到的人脸的最小边长为20个像素。thresholds:阈值列表。默认值为[0.6, 0.7, 0.7],表示在三个不同的阈值下进行人脸检测和对齐。factor:图像金字塔的缩放因子。默认值为0.709,用于生成不同尺度的图像。post_process:是否进行后处理。默认值为True,表示进行后处理以去除重叠的人脸框。device:设备类型。默认值为"cuda:0",表示使用GPU进行计算。如果没有可用的GPU,则可以设置为"cpu"。keep_all:是否保留所有检测到的人脸框。默认值为False,表示只保留最大的人脸框。select_largest:是否选择最大的人脸框。默认值为False,表示选择所有检测到的人脸框。prewhiten:是否对图像进行预白化处理。默认值为True,表示对图像进行预处理以提高模型性能。

Cropping out 人脸框

用mtcnn对x裁剪,放入地址=y,

for i, (x, y) in enumerate(loader):mtcnn(x, save_path=y)display.display(display.Image(y[0]))print('\r第 {} 批,共 {} 批'.format(i + 1, len(loader)), end='')

IPython中输出如下:
在这里插入图片描述

Resnet 人脸识别

形成(嵌入式表示,索引)对

from facenet_pytorch import MTCNN,InceptionResnetV1
import torch
from torchvision import datasets
from torch.utils.data import DataLoadermtcnn=MTCNN(image_size=240,margin=0,min_face_size=20)
resnet=InceptionResnetV1(pretrained='vggface2').eval()dataset=datasets.ImageFolder('./data/test_images')
idx_to_class={i:c for c,i in dataset.class_to_idx.items()}def collate_fn(x):return x[0]loader=DataLoader(dataset,collate_fn=collate_fn)face_list=[]
name_list=[]
embedding_list=[]
for img,idx in loader:face,prob =mtcnn(img,return_prob=True)if face is not None and prob>0.90:emb=resnet(face.unsqueeze(0))embedding_list.append(emb.detach())name_list.append(idx_to_class[idx])
  • 存入’data.pt’
data=[embedding_list,name_list]
torch.save(data,'data.pt')

找出龙队

  • 将’ml3.jpg’与已有数据库的嵌入式比较,选择欧式距离最小的索引
from PIL import Imagedef face_match(img_path,data_path):img=Image.open(img_path)face,prob = mtcnn(img,return_prob=True)emb=resnet(face.unsqueeze(0)).detach()saved_data = torch.load('data.pt')embedding_list = saved_data[0]name_list = saved_data[1]dist_list = []for idx,emb_db in enumerate(embedding_list):dist = torch.dist(emb,emb_db).item()dist_list.append(dist)idx_min = dist_list.index(min(dist_list))return name_list[idx_min]person=face_match('ml3.jpg','data.pt')
print(person)

在这里插入图片描述
./data/test_images为开头的资源
用于测试的龙队的图片’ml3.jpg’如下:
在这里插入图片描述
用来生成(embed,index)对的图片如下:
在这里插入图片描述
可见,用resnet形成的同一个人的图片的嵌入式表示的欧式距离很接近,算法有效
但这个嵌入式表示是如何形成的呢,有其他方式形成吗?

facenet_pytorch.InceptionResnetV1

facenet_pytorch是一个用于人脸识别的PyTorch库,而InceptionResnetV1是其中的一个模型。
InceptionResnetV1是由Google团队提出的一种深度卷积神经网络架构,它结合了Inception模块和残差连接的思想。Inception模块是一种多分支的卷积结构,通过不同大小的卷积核并行处理输入特征图,然后将它们在通道维度上进行拼接,
从而捕捉不同尺度的特征。这种结构可以有效地提取丰富的特征信息。残差连接是为了解决深度神经网络训练过程中的梯度消失和梯度爆炸问题。通过在网络中引入跳跃连接,将输入直接与输出相加,
可以使得网络更容易学习到残差部分,从而提高网络的性能。InceptionResnetV1结合了Inception模块和残差连接的优点,可以在保持较低计算复杂度的同时提高网络的准确性。
它在人脸识别任务中表现出色,被广泛应用于人脸验证、人脸检测等领域。
from facenet_pytorch import MTCNN,InceptionResnetV1
import torch
from torchvision import datasets
from torch.utils.data import DataLoadermtcnn=MTCNN(image_size=240,margin=0,min_face_size=20)
resnet=InceptionResnetV1(pretrained='vggface2').eval()dataset=datasets.ImageFolder('./data/test_images')
idx_to_class={i:c for c,i in dataset.class_to_idx.items()}def collate_fn(x):return x[0]loader=DataLoader(dataset,collate_fn=collate_fn)face_list=[]
name_list=[]
embedding_list=[]
for img,idx in loader:face,prob =mtcnn(img,return_prob=True)print(face.shape)if face is not None and prob>0.90:emb=resnet(face.unsqueeze(0))print(emb.shape)embedding_list.append(emb.detach())name_list.append(idx_to_class[idx])

在这里插入图片描述
resnet的输入维度为(1,3,240,240),Output.shape=[1,512]

衡量嵌入表示相似性的其他方式

  • 上面,我们采用torch.dist(emb,emb_db)比较test_sample和dict的相似性,还有其他聚类,idea=减小类内损失,扩大类间损失
torch.dist函数的语法如下:
torch.dist(input, other, p=2)其中,input和other是两个张量,表示要计算距离的两个向量或矩阵。p是一个可选参数,表示要计算的距离类型,默认为2,即欧氏距离。具体来说,torch.dist函数根据p的取值,计算不同类型的距离:当p=0时,计算非零元素的数量(L0范数)。
当p=1时,计算曼哈顿距离(L1范数)。
当p=2时,计算欧氏距离(L2范数)。
当p=float(‘inf’)时,计算切比雪夫距离(L∞范数
  • Next,we mainly talk about ArcFace

Resnet+ArcFace

where to find lfw dataset for evaluating?

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/493134.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

这几个Python内置函数你都知道吗

divmod() divmod() 是一个 Python 内置函数,用于同时返回商和余数。它接受两个参数,第一个参数是被除数,第二个参数是除数,返回一个包含两个值的元组,第一个值是商,第二个值是余数。 示例用法如下&#…

支持向量机|机器学习方法(李航)

支持向量机,可以看着是升级版的感知机,与感知机相比。他们都是找到一个超平面对数据集进行分割,区别在于,感知机模型得到的超平面空间中可以有无穷个超平面,但支持向量机仅含有一个,这一个超平面与样本点的…

堆/堆排序(C/C++)

本篇文章将会较为全面的介绍堆的概念以及实现堆两个重要算法:向上调整算法和向下调整算法。接着实现了堆排序。 若想查看对应位置,可直接按照以下目录进行查看: 目录 1.堆的概念及结构 2.堆的实现 2.1 堆的向上调整算法 2.2 堆的向下调整算法…

【代码随想录python笔记整理】第十三课 · 链表的基础操作 1

前言:本笔记仅仅只是对内容的整理和自行消化,并不是完整内容,如有侵权,联系立删。 一、链表 在之前的学习中,我们接触到了字符串和数组(列表)这两种结构,它们具有着以下的共同点:1、元素按照一定的顺序来排列。2、可以通过索引来访问数组中的元素和字符串中的字符。由此,…

力扣模板题:回文链表

请牢记检测回文串的模板 /*** Definition for singly-linked list.* struct ListNode {* int val;* struct ListNode *next;* };*/ bool isPalindrome(struct ListNode* head) {int size0;struct ListNode* pointhead;while(point){size;pointpoint->next;}int arr…

微信小程序本地开发

微信小程序本地开发时不需要在小程序后台配置服务器域名直接在小程序项目中填写后端在本机的IP地址和端口号 如图(第一步) 填写地址后发现报错,url不是合法域名,则在详情设置不校验合法域名 如图(第二歩)…

学习vue3第二节(使用vite 创建vue3项目)

使用vite 创建vue3项目 node 安装请移步 node官网: https://nodejs.p2hp.com/ node 版本控制 请移步 nvm官网:https://nvm.uihtm.com/ vite 生成vue项目完整版 请移步 vite官网:https://cn.vitejs.dev/ 1、使用 npm 或者 yarn 创建vue3 项目…

9.网络游戏逆向分析与漏洞攻防-游戏网络架构逆向分析-接管游戏连接服务器的操作

内容参考于:易道云信息技术研究院VIP课 上一个内容:游戏底层功能对接类GameProc的实现 码云地址(master 分支):https://gitee.com/dye_your_fingers/titan 码云版本号:44c54d30370d3621c1e9ec3d7fa1e2a0…

数学建模【相关性模型】

一、相关性模型简介 相关性模型并不是指一个具体的模型,而是一类模型,这一类模型用来判断变量之间是否具有相关性。一般来说,分析两个变量之间是否具有相关性,我们根据数据服从的分布和数据所具有的特点选择使用pearson&#xff…

https://htmlunit.sourceforge.io/

https://htmlunit.sourceforge.io/ 爬虫 HtmlUnit – Welcome to HtmlUnit HtmlUnit 3.11.0 API https://mvnrepository.com/artifact/net.sourceforge.htmlunit/htmlunit/2.70.0 https://s01.oss.sonatype.org/service/local/repositories/releases/content/org/htmlunit…

启动spark-shell时报错java.lang.NumberFormatException: For input string: “0x100“

一、问题描述 安装完Spark后,启动spark shell时报错 java.lang.NumberFormatException: For input string: "0x100" 如下图: 二、解决办法 1.更换scala的版本 2.更改环境变量 使用vim编辑器打开用户的环境变量配置文件 vim ~/.bashrc s…

单片机51 定时器

一、基本概念 1.1简介 单片机的定时器是一种内部功能模块,用于产生计时、计数、延时等功能。定时器通常由一个或多个计数器和相关的控制逻辑组成。单片机的定时器可以运行在不同的工作模式下,以适应不同的计时和计数需求。 C51中的定时器和计数器是同…