文章目录
- 一、前置知识
- 1.torchvision简要介绍
- 2.transforms简要介绍
- 二、代码
一、前置知识
1.torchvision简要介绍
torchvision 是 PyTorch 提供的一个专门针对计算机视觉任务的软件包,它为用户提供了一系列用于处理图像和视频数据的工具和实用函数。
torchvision 包含了许多常用的数据集、模型架构、图像转换类以及实用函数,方便用户进行图像处理和计算机视觉任务的开发和研究。
torchvision 主要功能:
数据集:提供了常用的图像数据集,如MNIST、CIFAR-10、ImageNet 等,方便用户下载和加载这些数据集进行训练和测试。
模型:包含了预训练的深度学习模型,如 ResNet、VGG、AlexNet 等,用户可以直接使用这些模型进行迁移学习或微调。
图像转换:提供了一系列用于数据增强和预处理的函数和类,如对图像进行裁剪、缩放、旋转、归一化等操作。
工具函数:提供了一些实用的函数,如计算图像均值和标准差、可视化图像、计算特征图大小等。
2.transforms简要介绍
在PyTorch中,transforms是一个用于 数据预处理和数据增强 的重要模块,主要包含了各种对图像、文本、音频等数据进行处理的函数和类。transforms模块可以帮助用户方便地对数据进行各种转换操作,以满足神经网络训练的需求。
transforms模块中常用的函数和类:
ToTensor: 将PIL图像或numpy数组转换为PyTorch张量。
Normalize: 标准化图像数据。
Resize: 调整图像大小。
RandomCrop: 随机裁剪图像。
RandomHorizontalFlip: 随机水平翻转图像。
Compose: 将多个转换组合在一起。
二、代码
from PIL import Image
from torchvision import transforms
from torch.utils.tensorboard import SummaryWriterimg_path = "data/train/ants_image/0013035.jpg"
# 使用PIL的Image模块中的open函数打开指定路径的图像文件,将其加载为一个PIL图像对象
img = Image.open(img_path)writer = SummaryWriter("logs")# 创建一个transforms对象
tensor_trans = transforms.ToTensor()
# 调用ToTensor()函数,将PIL图像对象img转换为PyTorch的tensor格式,并将结果保存在tensor_img变量中
tensor_img = tensor_trans(img)writer.add_image("Tensor_img", tensor_img)print(tensor_img)
运行结果:
tensor([[[0.3137, 0.3137, 0.3137, ..., 0.3176, 0.3098, 0.2980],[0.3176, 0.3176, 0.3176, ..., 0.3176, 0.3098, 0.2980],[0.3216, 0.3216, 0.3216, ..., 0.3137, 0.3098, 0.3020],...,[0.3412, 0.3412, 0.3373, ..., 0.1725, 0.3725, 0.3529],[0.3412, 0.3412, 0.3373, ..., 0.3294, 0.3529, 0.3294],[0.3412, 0.3412, 0.3373, ..., 0.3098, 0.3059, 0.3294]],[[0.5922, 0.5922, 0.5922, ..., 0.5961, 0.5882, 0.5765],[0.5961, 0.5961, 0.5961, ..., 0.5961, 0.5882, 0.5765],[0.6000, 0.6000, 0.6000, ..., 0.5922, 0.5882, 0.5804],...,[0.6275, 0.6275, 0.6235, ..., 0.3608, 0.6196, 0.6157],[0.6275, 0.6275, 0.6235, ..., 0.5765, 0.6275, 0.5961],[0.6275, 0.6275, 0.6235, ..., 0.6275, 0.6235, 0.6314]],[[0.9137, 0.9137, 0.9137, ..., 0.9176, 0.9098, 0.8980],[0.9176, 0.9176, 0.9176, ..., 0.9176, 0.9098, 0.8980],[0.9216, 0.9216, 0.9216, ..., 0.9137, 0.9098, 0.9020],...,[0.9294, 0.9294, 0.9255, ..., 0.5529, 0.9216, 0.8941],[0.9294, 0.9294, 0.9255, ..., 0.8863, 1.0000, 0.9137],[0.9294, 0.9294, 0.9255, ..., 0.9490, 0.9804, 0.9137]]])
在终端运行 tensorboard --logdir=logs后,打开tensorboard,显示的结果如下:
tensor到底是什么?
借用小土堆的一个很形象的图: