【Pytorch笔记】6.Transforms

pytorch官方文档 - transforms

transforms需要使用计算机视觉工具包:torchvision。
torchvision.transforms:常用的图像预处理方法;
torchvision.datasets:常用数据集的dataset实现,如MNIST、CIFAR-10、ImageNet等;
torchvision.model:常用的模型预训练,如AlexNet、VGG、ResNet、GoogleNet等。

torchvision.transforms

常用的图像预处理方法,包括数据中心化、数据标准化、缩放、裁剪、旋转、翻转、填充、噪声添加、灰度变换、线性变换、仿射变换、亮度变换、饱和度变换、对比度变换等。

Geometry - 几何变换

torchvision.transforms.Resize()

功能:将给定图像缩放成指定的尺寸。

trans = transforms.Resize((32, 32))

意思就是把样本图像缩放成32x32的。如果里面的参数给的不是上面这样的(H, W)的格式,而是一个数的话,那么令原图像的较短边与该数匹配,按比例缩放。

torchvision.transforms.RandomCrop()

功能:将给定图像按照指定的尺寸随机裁剪。

trans = transforms.RandomCrop(size=10, padding=4)

size指裁剪大小。如果size=10,就是裁出10x10的图片;如果size=(15, 10),就是裁出15x10的图片。
padding指填充大小。如果padding=4,就是上下左右填充都是4;如果padding=(4,2),就是左右填充为4,上下填充为2;如果padding=(4,3,2,1),那么左填充为4,上填充为3,右填充为2,下填充为1。

torchvision.transforms.CenterCrop()

功能:将给定图像按照指定的尺寸在中心裁剪。

trans = transforms.CenterCrop(size=4)

size指裁剪大小。如果size=4,就是裁出4x4的图片;如果size=(4, 3),就是裁出4x3的图片。

torchvision.transforms.FiveCrop()

功能:将给定图像按照指定的尺寸在中心、四个角裁剪,返回五个裁剪出来的图。

trans = transforms.FiveCrop(size=4)

size指裁剪大小。如果size=4,就是裁出4x4的图片;如果size=(4, 3),就是裁出4x3的图片。

torchvision.transforms.TenCrop()

功能:将给定图像按照指定的尺寸在中心、四个角裁剪,并分别进行翻转,返回十个裁剪/翻转出来的图。

trans = transforms.TenCrop(size=4, vertical_flip=False)

size指裁剪大小。如果size=4,就是裁出4x4的图片;如果size=(4, 3),就是裁出4x3的图片。
vertical_flip为True,则翻转采用垂直翻转;False,则翻转采用水平翻转。

torchvision.transforms.Pad()

功能:将给定图像按照给定值进行边界填充。

trans = transforms.Pad(padding=4, fill=0, padding_mode='constant')

padding指填充大小。如果padding=4,就是上下左右填充都是4;如果padding=(4,2),就是左右填充为4,上下填充为2;如果padding=(4,3,2,1),那么左填充为4,上填充为3,右填充为2,下填充为1。
fill指填充内容,该参数当且仅当后面的padding_mode'constant'时有效,默认值为0。如果是一个长度为3的tuple,则分别用于填充图像的R,G,B层。用于tensor时仅支持一个数,用于PIL图像时仅支持一个数或一个长度为3的tuple。
padding_mode指填充方式,有以下取值:
'constant':用一个常值填充,填充的内容用fill参数传入。
'edge':边缘填充,使用图像最靠边界的元素的数值进行填充。
'reflect':镜像填充,以最外侧的元素为对称轴,将图像的内容对称填充进去。如原图像为[1,2,3,4]、padding=2时,填充后变成[3,2,1,2,3,4,3,2]。
'symmetric':对称填充,以边界为对称轴,将图像的内容对称填充进去。如原图像为[1,2,3,4]、padding=2时,填充后变成[2,1,1,2,3,4,4,3]。

torchvision.transforms.RandomRotation()

功能:将给定图像按照指定角度范围进行随机旋转。

trans = transforms.RandomRotation(degrees=(40, 90), interpolation=InterpolationMode.NEAREST,expand=False,center=None,fill=0)

degrees指角度范围,如果degree=40,那么旋转角度的范围为(-40,40)
interpolation指插值方式,有两种取值:
InterpolationMode.NEAREST:就近插值、
InterpolationMode.BILINEAR:双线性插值;
expand指是否扩充输出图像的尺寸,如果为True,则输出图像会根据旋转后的结果使尺寸变大,如果为False,则输出图像的形状不变。
center指旋转中心,默认为None,以图片左上角为旋转中心。
fill指旋转后空白的地方的填充内容。

torchvision.transforms.RandomPerspective()

功能:将给定的图像按照给定参数进行透视变换(透视变换效果见下图)
在这里插入图片描述

trans = transforms.RandomPerspective(distortion_scale=0.5, p=0.5, interpolation=InterpolationMode.BILINEAR, fill=0)

distoration_scale指扭曲程度,范围是[0,1],默认为0.5;
p指被变换概率,默认为0.5;
interpolation指插值方式,有两种取值:
InterpolationMode.NEAREST:就近插值、
InterpolationMode.BILINEAR:双线性插值;
fill指旋转后空白的地方的填充内容。

torchvision.transforms.RandomHorizontalFlip()

功能:以指定概率水平翻转图像。

trans = transforms.RandomHorizontalFlip(p=0.5)

p指被变换概率,默认为0.5;

torchvision.transforms.RandomVerticalFlip()

功能:以指定概率垂直翻转图像。

trans = transforms.RandomVerticalFlip(p=0.5)

p指被变换概率,默认为0.5;

Color - 色彩变换

torchvision.transforms.ColorJitter()

功能:随机改变图像的亮度、对比度、饱和度和色调。

trans = transforms.ColorJitter(brightness=0.5, contrast=0.5, saturation=0.5, hue=0.5)

brightness指亮度:
如果是一个float,则亮度从[max(0, 1-brightness), 1+brightness]中均匀抽取,
如果是一个长度为2的tuple:float(min, max),则亮度从[min, max]中均匀抽取;
contrast指对比度:
如果是一个float,则对比度从[max(0, 1-contrast), 1+contrast]中均匀抽取,
如果是一个长度为2的tuple:float(min, max),则对比度从[min, max]中均匀抽取;
saturation指饱和度:
如果是一个float,则饱和度从[max(0, 1-saturation), 1+saturation]中均匀抽取,
如果是一个长度为2的tuple:float(min, max),则饱和度从[min, max]中均匀抽取;
hue指色调:
如果是一个float,则色调从[-hue, hue]中均匀抽取,其中 0 ≤ h u e ≤ 0.5 0\leq hue \leq 0.5 0hue0.5
如果是一个长度为2的tuple:float(min, max),则色调从[min, max]中均匀抽取,其中 − 0.5 ≤ m i n ≤ m a x ≤ 0.5 -0.5\leq min\leq max\leq 0.5 0.5minmax0.5

torchvision.transforms.Grayscale()

功能:将图像转为灰度图像。

trans = transforms.Grayscale(num_output_channels=1)

num_output_channels指输出图像的通道数,取值只能是1或3。
如果为1:返回的图像只有一个通道;
如果为3:返回的图像有3个通道,且r=g=b

torchvision.transforms.RandomGrayscale()

功能:以指定概率将图像转为灰度图像。

trans = transforms.RandomGrayscale(p=0.5)

p为转变图像的概率。

torchvision.transforms.GaussianBlur()

功能:使用随机的高斯模糊对图像进行模糊处理。

trans = transforms.GaussianBlur(kernel_size=2, sigma=(0.1, 2.0))

kernel_size指高斯核的大小;
sigma指用于创建内核进行模糊处理的标准偏差,如果是一个float则sigma固定;如果是长度为2的float元组,令其为float(min, max),并在[min, max]范围内均匀随机选取sigma。

torchvision.transforms.RandomInvert()

功能:以指定概率替换图片的颜色。

trans = transforms.RandomInvert(p=0.5)

p为改变颜色的概率。

transforms.RandomPosterize()

功能:以指定概率将图片海报化(减少通道中的比特数)。

trans = transforms.RandomPosterize(bits=4, p=0.5)

bits指每个通道保持的比特数,取值为0-8;
p为转化图像的概率。

transforms.RandomSolarize()

功能:以指定概率将图片高曝(Solarize该怎么翻译呢?)。

trans = transforms.RandomSolarize(threshold=128, p=0.5)

threshold指高曝的阈值。所谓高曝,就是将像素值在[0, threshold]映射到[threshold, 255]上。
p为转化图像的概率。

Composition - 变换组合

torchvision.transforms.Compose()

功能:将多个transforms变换封装成一个组合。

transforms.Compose([transforms.CenterCrop(10),transforms.PILToTensor(),transforms.ConvertImageDtype(torch.float),
])

参数就是包含很多transforms变换的list。

torchvision.transforms.RandomApply()

功能:以给定概率将transforms列表中的变换打乱。

transforms.RandonApply([transforms.CenterCrop(10),transforms.PILToTensor(),transforms.ConvertImageDtype(torch.float),
], p=3)

第一项可以是transforms的sequence,也可以是torch.nn.ModuleList;
第二项p是打乱的概率。

Miscellaneous - 杂项

torchvision.transforms.Normalize()

功能:对得到的tensor进行减均值除标准差处理。

trans = transforms.Normalize(mean=0, std=1, inplace=True)

mean指均值;
std指标准差;
inplace指是否替换原tensor,True为替换,False为不替换。

torchvision.transforms.RandomErasing()

功能:对得到的图像,以一定概率随机一个矩形区域进行擦除。

trans = transforms.RandomErasing(p=0.5, scale=(0.02, 0.33), ratio=(0.3, 3.3), value=0, inplace=False)

p指给定的概率;
scale指擦除区域面积占原图面积的比例范围;
ratio指擦除区域长宽比的范围;
value指擦除后填充的值,如果是一个int,那么全部用这个int来填充;如果是长度为3的int,则分别用于填充R、G、B三个通道;如果value='random',则随机填充。
inplace指是否替换原tensor,True为替换,False为不替换。

Conversion - 格式转换

torchvision.transforms.ToTensor()

功能:将PIL图像或ndarray转换成tensor并将值映射到[0,1]之间。
更具体地,将一个PIL图像或ndarray(形状是 H × W × C H\times W\times C H×W×C,元素范围在[0,255])转化成tensor(形状是 C × H × W C\times H\times W C×H×W,元素范围在[0,1])。前提是PIL图像属于L, LA, P, I, F, RGB, YCbCr, RGBA, CMYK, 1中的一种模式、ndarray的dtype=uint8。
其他情况下返回的tensor不会被映射到[0,1]之间。

trans = transforms.ToTensor()

torchvision.transforms.PILToTensor()

功能:将 H × W × C H\times W\times C H×W×C的PIL图像转换为 C × H × W C\times H\times W C×H×W的tensor。

trans = transforms.PILToTensor()

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/126182.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于腾讯云的OTA远程升级

一、OTA OTA即over the air,是一种远程固件升级技术,它允许在设备已经部署在现场运行时通过网络远程更新其固件或软件。OTA技术有许多优点,比如我们手机系统有个地方做了优化,使用OTA技术我们就不用召回每部手机,直接通过云端就可…

华为云云耀云服务器L实例评测|云耀云服务器L实例部署DjangoBlog个人博客系统

华为云云耀云服务器L实例评测|云耀云服务器L实例部署DjangoBlog个人博客系统 一、云耀云服务器L实例介绍1.1 云耀云服务器L实例简介1.2 云耀云服务器L实例特点 二、DjangoBlog介绍2.1 DjangoBlog介绍2.2 DjangoBlog特点 三、本次实践介绍3.1 本次实践简介3.2 本次环…

Stable diffusion的架构解读(本博客还是以unet架构为主)

博客只是简单的记录一下自己学的,基于自己的一些情况,所以简单了一些只是将来忘记,用来回顾用。 论文的大体框架 unet结构位于 unet会接受prompt特征、latent特征、和t时间步特征,最后生成新一轮的特征 可以参考知乎大佬htt…

【AI视野·今日CV 计算机视觉论文速览 第262期】Fri, 6 Oct 2023

AI视野今日CS.CV 计算机视觉论文速览 Fri, 6 Oct 2023 Totally 73 papers 👉上期速览✈更多精彩请移步主页 Daily Computer Vision Papers Improved Baselines with Visual Instruction Tuning Authors Haotian Liu, Chunyuan Li, Yuheng Li, Yong Jae Lee大型多模…

暴力破解及验证码安全

1.暴力破解注意事项 1、破解前一定要有一个有郊的字典(Top100 TOP2000 csdn QQ 163等密码) https://www.bugku.com/mima/ 密码生成器 2、判断用户是否设置了复杂的密码 在注册页面注册一个,用简单密码看是否可以注册成功 3、网站是…

【网络安全-信息收集】网络安全之信息收集和信息收集工具讲解(提供工具)

工具下载百度网盘链接(包含所有用到的工具): 百度网盘 请输入提取码百度网盘为您提供文件的网络备份、同步和分享服务。空间大、速度快、安全稳固,支持教育网加速,支持手机端。注册使用百度网盘即可享受免费存储空间https://pan.…

【C语言|关键字】C语言32个关键字详解

😁博客主页😁:🚀https://blog.csdn.net/wkd_007🚀 🤑博客内容🤑:🍭嵌入式开发、Linux、C语言、C、数据结构、音视频🍭 🤣本文内容🤣&a…

Iphone文件传到电脑用什么软件,看这里

在数字化时代,文件传输已经成为我们日常生活中不可或缺的一部分。然而,苹果用户在将手机文件传输到电脑时,往往会面临一些困扰。曾经的“文件传输助手”并不能完全满足用户的需求。于是,很多人开始寻找更便捷的解决方案。在本文中…

Zabbix自定义脚本监控MySQL数据库

一、MySQL数据库配置 1.1 创建Mysql数据库用户 [rootmysql ~]# mysql -uroot -p create user zabbix127.0.0.1 identified by 123456; flush privileges; 1.2 添加用户密码到mysql client的配置文件中 [rootmysql ~]# vim /etc/my.cnf.d/client.cnf [client] host127.0.0.1 u…

蓝桥杯每日一题2023.10.2

时间显示 - 蓝桥云课 (lanqiao.cn) 题目描述 题目分析 输入为毫秒&#xff0c;故我们可以先将毫秒转化为秒&#xff0c;由于只需要输出时分&#xff0c;我们只需要将天数去除即可&#xff0c;可以在这里多训练一次天数判断 #include<bits/stdc.h> using namespace std…

总结二:linux面经

文章目录 1、 Linux中查看进程运行状态的指令、查看内存使用情况的指令、tar解压文件的参数。2、文件权限怎么修改&#xff1f;3、说说常用的Linux命令&#xff1f;4、说说如何以root权限运行某个程序&#xff1f;5、 说说软链接和硬链接的区别&#xff1f;6、说说静态库和动态…

C/C++学习 -- SHA-256算法

SHA-256算法概述 SHA-256代表"Secure Hash Algorithm 256-bit"&#xff0c;是一种安全的哈希算法&#xff0c;输出固定长度的256位&#xff08;32字节&#xff09;哈希值。SHA-256被广泛用于加密、数字签名、密码学以及区块链等领域&#xff0c;因为它提供了高度的安…