图像处理算法实战【1】超详细整理 | 新手入门实用指南

1. 什么是图像 & 图像在计算机中如何存储？
2. 图像可分为哪些类型？
- 2.1. 二值(黑白)图像
- 2.2. 灰度图像
- 2.3. RGB彩色图像
- 2.4. RGBA图像
3. 什么是图像通道？
4. 图像处理
- 4.1. 什么是图像处理？
- 4.2. 图像处理流程
- 4.3. 图像处理技术案例
  - 4.3.1. 图像增强
  - 4.3.2. 图像修复
  - 4.3.3. 图像分割
  - 4.3.4. 物体检测
  - 4.3.5. 图像压缩
  - 4.3.6. 图像处理
  - 4.3.7. 图像生成

1. 什么是图像 & 图像在计算机中如何存储？

一幅图像可以定义为一个二维函数 $f (x, y)$ ，其中x和y是空间(平面)坐标，f是图像在点(x,y)处具有的某种性质F的值，而任何一对空间坐标点 $(x, y)$ 处的幅值f，即为图像在该点处的强度或灰度。

为表达更清楚，我们对坐标点 $(x, y)$ 使用整数值表示： $x = 0, 1, 2, ... M - 1$ 和 $y = 0, 1, 2, ... N - 1$ ，图像可表示为如下所示 $R x C$ 矩阵形式，其中，R是图像的行数，C为图像的列数，而矩阵中的每个元素即为像素。

在这里插入图片描述

习惯上，图像的原点位于左上角，正x轴向下延伸，正y轴向右延伸。许多图像显示扫描都是从左上角开始的，然后一次向下移动一行。

在这里插入图片描述
根据每个像素所代表信息的不同，可将图像分为二值图像、灰度图像、RGB图像等。

其中，二值图像或灰度图像是单通道，RGB图像是三通道(红-绿-蓝)。彩色RGB图像的像素点(x,y)可以表示为三元组 $r_{x,y}, g_{x,y}, b_{x,y})$ 。

图像在计算机中如何存储?

计算机中，通常将像素通道所对应的值表示为整数（0～255）或浮点数（0～1），并将图像存储为不同类型（格式）的文件。每个文件通常包括元数据和多维数组的数据（例如，二值或灰度图像的二维数组，RGB和YUV彩色图像的三维数组）。

在这里插入图片描述

如下图所示即是将图像数据存储为不同类型图像的数组。其中，灰度图像用"宽度×高度"（二维数组）的模式存储；RGB图像，则用"宽度×高度×3"（三维数组）的模式存储。

在这里插入图片描述

2. 图像可分为哪些类型？

2.1. 二值(黑白)图像

仅具有两个唯一像素强度值 - 0（代表黑色）和 1（代表白色）的图像称为二值图像。此类图像通常用于突出显示彩色图像的区别部分。例如，常用于图像分割，如下图所示。

在这里插入图片描述

2.2. 灰度图像

灰度或8位图像由256种独特的颜色组成，其中像素强度0表示黑色，像素强度255表示白色。其间的所有其他254个值都是不同的灰度值。如下图是将RGB图像转换为其灰度图像的示例。

在这里插入图片描述

2.3. RGB彩色图像

我们在现代世界中常见的图像是RGB或彩色图像，对于计算机来说是16位矩阵。也就是说，每个像素可能有65536种不同的颜色。“RGB”代表图像的红色、绿色和蓝色“通道”。

到目前为止，我们的图像只有一个通道。也就是说，两个坐标可以定义矩阵的任何值的位置。现在，三个大小相等的矩阵（称为通道）彼此堆叠在一起，每个矩阵的值范围为0到255，因此我们需要三个唯一的坐标来指定矩阵元素的值。

因此，当RGB图像中的像素值为 (0, 0, 0) 时，像素的颜色为黑色；当像素值为 (255, 255, 255) 时，像素的颜色为白色。两者之间的任何数字组合都会产生自然界中存在的所有不同颜色。例如，(255, 0, 0) 是红色（因为该像素仅激活红色通道）。同样，(0, 255, 0) 是绿色，(0, 0, 255) 是蓝色。

下图所示是将RGB图像分割为其通道分量的示例。请注意，每个通道的直方图形状不同。
在这里插入图片描述

2.4. RGBA图像

RGBA 图像是彩色 RGB 图像，带有一个称为“alpha”的额外通道，用于描述 RGB 图像的不透明度。不透明度的值范围为 0% 到 100%，本质上是一种“透明”属性。

物理学中的不透明度描述了穿过物体的光量。例如，玻璃纸是透明的（100%不透明度），磨砂玻璃是半透明的，木材是不透明的。RGBA图像中的Alpha通道试图模仿此属性。

在这里插入图片描述

3. 什么是图像通道？

图像通道是指把数字图像按照颜色成分划分成不同的图像，主要有单通道图像、三通道图像、四通道图像，各通道图像之间可以进行转换。

单通道图像指每个像素点只用一个数值来表示，即只可以表示灰度，0表示黑色，1或255表示白色。

三通道图像是指图像的RGB（红绿蓝）模式，即每个像素点用 红绿蓝 三个数值来表示的彩色图像，全0表示黑色，全255表示白色，三个值都一样则表示灰色。

四通道图像是在RGB模式的基础上加入了Alpha（透明度），若Alpha=0则表示全透明。

4. 图像处理

4.1. 什么是图像处理？

图像处理是指在计算机上使用算法和代码自动处理、操控、分析和解释图像，广泛应用于诸多学科和领域，如电视、摄影、机器人、遥感、医学诊断和工业检验。

以医学图像分割问题为例，可利用图像预处理操作（图像修复）去除皮肤镜图像中的伪影，如下图所示。

在这里插入图片描述

4.2. 图像处理流程

典型数字图像处理流程的基本步骤如下：

图像采集。图像由相机捕获并使用模数转换器进行数字化（如果相机输出没有自动数字化），以便在计算机中进一步处理。
图像增强。在此步骤中，对获取的图像进行处理以满足将使用该图像的特定任务的要求。此类技术主要旨在突出图像中隐藏或重要的细节，例如对比度和亮度调整等。图像增强本质上是高度主观的。
图像修复。此步骤涉及改善图像的外观，并且是客观操作，因为图像的退化可以归因于数学或概率模型。例如，去除图像中的噪声或模糊。
彩色图像处理。此步骤旨在处理彩色图像（16位RGB或RGBA图像），例如，在图像中执行颜色校正或颜色建模。
小波和多分辨率处理。小波是表示不同分辨率图像的构建块。图像连续细分为更小的区域以进行数据压缩和金字塔表示。
图像压缩。为了将图像传输到其他设备或由于计算存储限制，图像需要被压缩并且不能保持其原始大小。这对于通过互联网显示图像也很重要；例如，在 Google 上，图像的小缩略图是原始图像的高度压缩版本。只有当您单击图像时，它才会以原始分辨率显示。该处理可以节省服务器上的带宽。
形态处理。需要提取在形状表示和描述中有用的图像组件以进行进一步处理或下游任务。形态处理提供了完成此任务的工具（本质上是数学运算）。例如，腐蚀和膨胀操作分别用于锐化和模糊图像中对象的边缘。
图像分割。此步骤涉及将图像划分为不同的关键部分，以简化和/或将图像的表示更改为更有意义且更易于分析的内容。图像分割允许计算机将注意力集中在图像中更重要的部分，而丢弃其余部分，从而使自动化系统能够提高性能。
表示和描述。图像分割过程通常遵循此步骤，其中表示的任务是决定分割区域是否应该被描绘为边界或完整区域。描述涉及提取属性，这些属性会产生一些感兴趣的定量信息，或者是区分一类对象与另一类对象的基础。
物体检测与识别。从图像中分割出对象并完成表示和描述阶段后，自动化系统需要为对象分配标签，让用户知道检测到了什么对象，例如“car”或“people”等。