使用 Python 和 Keras 进行验证码识别：深度学习方法

news/2025/2/2 13:25:08/文章来源:https://www.cnblogs.com/ocr12/p/18696796

验证码（CAPTCHA）作为一种常见的安全机制，已经被广泛应用于防止自动化攻击。在本教程中，我们将使用 Python 和 Keras 深度学习框架来训练一个简单的卷积神经网络（CNN），用于验证码的自动识别。

环境准备
安装依赖
首先，你需要确保已安装以下软件和库：

Python 3.x
Keras
TensorFlow
OpenCV
Pillow（用于处理图像）
可以使用 pip 安装所需库：

bash
更多内容访问ttocr.com或联系1436423940
pip install tensorflow keras opencv-python pillow numpy
数据集准备
我们需要一个包含验证码的图像数据集。可以通过以下方式获取数据集：

自己生成数据集：使用脚本生成带有随机数字和字母的验证码图片。
从网上下载数据集：例如，使用 CAPTCHA 数据集或其他公开数据集。
假设我们已经准备好了一个包含验证码图像和标签的数据集。每张图像的标签是对应的文本（如 "A12B"）。

代码实现
(1) 构建卷积神经网络（CNN）
python

import tensorflow as tf
from tensorflow.keras import layers, models
import numpy as np
import cv2
import os
from tensorflow.keras.utils import to_categorical
from sklearn.model_selection import train_test_split

定义卷积神经网络模型

def create_model(input_shape, num_classes):
model = models.Sequential([
layers.Conv2D(32, (3, 3), activation='relu', input_shape=input_shape),
layers.MaxPooling2D((2, 2)),
layers.Conv2D(64, (3, 3), activation='relu'),
layers.MaxPooling2D((2, 2)),
layers.Conv2D(128, (3, 3), activation='relu'),
layers.MaxPooling2D((2, 2)),
layers.Flatten(),
layers.Dense(128, activation='relu'),
layers.Dropout(0.5),
layers.Dense(num_classes, activation='softmax')
])
model.compile(optimizer='adam', loss='categorical_crossentropy', metrics=['accuracy'])
return model
(2) 处理验证码图像数据
验证码图像通常包含字母和数字，因此我们需要将图像转换为适合神经网络输入的格式。

python

def preprocess_image(image_path):
# 读取图像并转换为灰度
img = cv2.imread(image_path, cv2.IMREAD_GRAYSCALE)
img = cv2.resize(img, (128, 64)) # 将图像大小调整为一致的尺寸
img = img / 255.0 # 归一化到 [0, 1] 范围
return img

def load_data(data_dir):
images = []
labels = []
for filename in os.listdir(data_dir):
if filename.endswith(".png"):
img_path = os.path.join(data_dir, filename)
img = preprocess_image(img_path)
images.append(img)

        # 提取标签：假设标签嵌入在文件名中，如 "A12B.png"label = filename.split(".")[0]labels.append(label)images = np.array(images)
images = np.expand_dims(images, axis=-1)  # 添加通道维度
return images, labels

(3) 标签处理
验证码通常包含多个字符，因此需要对标签进行适当的处理。

python

def encode_labels(labels, char_set):
label_encoded = []
for label in labels:
encoded = [char_set.index(c) for c in label]
label_encoded.append(encoded)
return np.array(label_encoded)

def create_char_set():
# 定义字符集：可以根据需要自定义字母、数字或其他符号
char_set = 'ABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789'
return char_set
(4) 训练和评估模型
python

加载数据

data_dir = 'captcha_images'
images, labels = load_data(data_dir)

创建字符集

char_set = create_char_set()
num_classes = len(char_set)

对标签进行编码

labels_encoded = encode_labels(labels, char_set)
labels_encoded = to_categorical(labels_encoded, num_classes=num_classes)

将数据集分为训练集和测试集

X_train, X_test, y_train, y_test = train_test_split(images, labels_encoded, test_size=0.2, random_state=42)

创建和训练模型

input_shape = X_train.shape[1:] # 输入图像的形状
model = create_model(input_shape, num_classes)

训练模型

model.fit(X_train, y_train, batch_size=32, epochs=10, validation_data=(X_test, y_test))

评估模型

loss, accuracy = model.evaluate(X_test, y_test)
print(f'Test accuracy: {accuracy * 100:.2f}%')
3. 代码解析

模型架构
卷积层（Conv2D）：用于提取图像的特征，如字符的形状。
池化层（MaxPooling2D）：用于减小图像的尺寸，减少计算量。
全连接层（Dense）：通过全连接层将卷积层提取的特征映射到分类空间。
Dropout：防止过拟合。
数据预处理
图像灰度化和归一化：我们将图像转换为灰度，并将像素值归一化到 [0, 1] 范围，以便输入神经网络。
标签编码：验证码标签通常包含字母和数字。我们将标签中的每个字符映射为数字（如字母 'A' 映射为 0，'B' 映射为 1，依此类推）。
模型训练与评估
我们将数据集分为训练集和测试集，并使用 Adam 优化器和交叉熵损失来训练模型。
训练后，我们在测试集上评估模型的准确性，并打印结果。
进一步优化
增加数据量
为了提高模型的泛化能力，您可以通过数据增强（如旋转、平移、缩放等）来增加训练数据的多样性。

python

from tensorflow.keras.preprocessing.image import ImageDataGenerator

datagen = ImageDataGenerator(
rotation_range=10,
width_shift_range=0.1,
height_shift_range=0.1,
shear_range=0.1,
zoom_range=0.1,
horizontal_flip=True
)

datagen.fit(X_train)
2. 使用更复杂的网络架构
尝试使用更深的网络架构或预训练模型（如 VGG16 或 ResNet），可以提高模型的表现。
3. 使用 LSTM 或 CTC（Connectionist Temporal Classification）
验证码识别的标签通常是字符序列，因此可以使用 LSTM 网络（长短期记忆网络）或 CTC 损失来优化序列预测。