Swahili-text：华中大推出非洲语言场景文本检测和识别数据集 | ICDAR 2024

news/2025/4/2 15:30:21/文章来源:https://www.cnblogs.com/VincentLee/p/18380824

论文提出了一个专门针对斯瓦希里语自然场景文本检测和识别的数据集，这在当前研究中是一个未充分开发的语言领域。数据集包括976张带标注的场景图像，可用于文本检测，以及8284张裁剪后的图像用于识别。

来源：晓飞的算法工程笔记公众号

论文: The First Swahili Language Scene Text Detection and Recognition Dataset

论文地址：https://arxiv.org/abs/2405.11437
论文代码：https://github.com/FadilaW/Swahili-STR-Dataset

Introduction

如今，沟通很大程度上依赖于文本内容。文本是一种极为优秀的沟通方式，其影响力也能持续非常长的时间。场景文本广泛存在且包含着相当丰富的语义和信息，有助于理解现实世界。各种服务如报纸、医院、金融服务、保险和法律机构日益将大多数文档数字化以便实际应用。应用场景如汽车辅助、工业自动化、机器人导航、实时场景翻译、欺诈检测、图像检索、产品搜索等，这些都依赖于场景文本识别，并且这些应用每天都在不断进化和发展。现在，理解和解释图像中包含的文本内容变得至关重要。此外，文本无处不在，出现在许多关键的自然场景中：道路标志、广告、海报、街道、餐馆、商店等。

近年来，研究人员在挑战性场景中检测和识别文本的模型方面取得了显著进展，这些场景包括模糊图像、非传统背景、变化的光照条件、曲线文字或在恶劣环境中捕获的图像等。然而，大多数研究集中在英语和汉语等广泛使用的语言上，对资源有限地区如印度乡村和非洲的其他语言的关注和资源较少。因此，许多世界语言缺乏适当的数据集和量身定制的模型，这使得在这些语言中有效解决场景图像中文本检测和识别的挑战变得困难。

斯瓦希里语，又称基斯瓦希里语，是非洲大陆上使用最广泛的语言之一。超过1亿人口在包括坦桑尼亚、乌干达、刚果民主共和国、布隆迪和肯尼亚在内的多个非洲国家使用斯瓦希里语。该语言是坦桑尼亚和肯尼亚的官方语言，并广泛用于公共管理、教育和媒体领域。斯瓦希里语从阿拉伯语（约占40%）、波斯语、葡萄牙语、英语和德语等外语中借用了许多词汇。尽管如此，斯瓦希里语仍被归类为资源匮乏的语言之一，自然语言处理任务受到了注释数据稀缺的限制。

虽然斯瓦希里语使用拉丁字母表，但大多数涉及拉丁字母表的大型数据集主要集中在拥有不同语言特征的语言，比如英语。缺乏关注导致了斯瓦希里语，这种被数百万人使用的语言，没有专门的资源来优化和微调文本检测和识别模型以适应其独特的特征。表1列出了该语言与英语相比的一些特征。

本文的主要目标是为斯瓦希里语开发一个全面的场景文本数据集：Swahili-text。这个图像集合旨在满足专门数据集的需求，为评估现有模型提供基准，并帮助研究社区开发斯瓦希里语场景文本检测和识别的新的最先进方法。Swahili-text包含976张图片，大部分来自坦桑尼亚的城市，其他来自社交媒体。这些图片包括商店标签、广告横幅、海报和街道名称。每张图片在单词级别上都进行了手动注释。据作者所知，Swahili-Text是第一个专为斯瓦希里语场景文本检测和识别开发的全面数据集。

Swahili Language Datasets for Natural Language Processing

斯瓦希里语仍然被归类为资源匮乏的语言。由于注释数据稀缺，自然语言处理任务受到了限制。然而，随着深度学习和语言模型的发展，许多数据集开始对语言建模任务提供越来越多的支持。其中，Helsinki数据集是最常用的数据集之一，专门用于斯瓦希里语的语言研究。该数据集提供了未注释和已注释版本的斯瓦希里语文本集合。该数据集旨在支持语言分析、语料库语言学以及与斯瓦希里语自然语言处理任务相关的各种研究工作。

Gelas等人开发了一个用于语言建模任务的注释数据集。该数据集包含来自不同斯瓦希里语在线媒体平台的句子，涵盖了体育、一般新闻、家庭、政治和宗教等多个领域的句子。总共有512,000个独特单词。Shikali等人将该数据集与斯瓦希里语音节字母表结合，并改编了Mikolov等人提出的英语词类比数据集。Barack W等人开发了Kencorpus斯瓦希里语问答数据集（KenSwQuAD），旨在应对低资源语言，特别是斯瓦希里语中问答数据集的稀缺性，增强机器对自然语言的理解能力，应用于斯瓦希里语言者的互联网搜索和对话系统等任务。Alexander R等人则关注低资源语言（如斯瓦希里语）中语音数据集的缺乏，特别是口语数字识别领域。该研究开发了一个斯瓦希里语口语数字数据集，并研究了跨语言和多语言预训练方法对口头数字识别的影响。

这些数据集旨在促进斯瓦希里语言建模和自然语言处理任务的研究，然而在场景文本检测和识别任务中，目前还不存在一个全面的用于斯瓦希里语注释场景文本图像的数据集。

Latin Script Scene Text Datasets

场景文本识别领域受到标准数据集的影响，这些数据集使研究人员能够节省大量时间和精力来收集和注释数据。与拉丁字母场景文本识别相关的流行数据集有以下：

ICDAR数据集在文档分析和识别领域非常流行。ICDAR 2013数据集包含462张高分辨率的自然场景图像，如户外场景、标志和海报。该数据集引入了多方向文本、不同光照条件以及混合字体和文字大小的挑战，以促进强大的文本识别算法的发展。ICDAR 2015偶发场景文本数据集包含通过Google Glass捕捉的1,670张图像。该数据集包括具有非传统文本形状、曲线文本和不同语言文本的偶发场景文本。
Total-text数据集针对多方向和曲线文本问题提出。它包含具有不同方向文本的图像，主要是曲线文本。
MSRA-TD500数据集结合了英文和中文词汇，也非常受欢迎。它包含来自实际场景的500张任意方向的图像，并以句子级别进行了注释。除了拉丁字母脚本的数据集外，还提出了多语言场景文本识别的几个多语言数据集。

然而，大多数这些数据集并不包括斯瓦希里语。据知，目前尚未创建用于斯瓦希里语场景文本检测和识别的公共数据集。虽然一些用于英语的数据集可以用来，因为它们使用相同的字母表，但它们并不像一个专门针对斯瓦希里语的数据集那样有效。

Scene Text Detection and Recognition Methods

深度学习技术的爆炸性发展显著影响了场景文本检测和识别领域，为场景文本检测和识别打开了全新的可能性，能够从文本图像中提取更强大和具有区分性的特征。

文本检测和文本识别可以看作是两个独立的任务。在文本检测阶段，其目标是识别并标记输入图像中存在文本的区域。存在三种主要的方法：基于回归、基于部分和基于分割的方法。基于回归的方法直接回归边界框。通过将文本检测转化为回归问题，模型学习估计文本实例的空间分布，这使其非常适合需要精确定位文本区域的场景。基于部分的方法识别并将文本部分与单词边界框关联起来。基于分割的方法结合像素级预测和后处理技术，利用语义分割和基于MSER的算法等技术检测文本实例。

文本识别涉及将检测到的文本区域转换为字符实例，主要有两种方法：connectionist temporal classification（CTC）模型和注意力机制模型。CTC模型使用递归神经网络计算基于单帧预测的标签序列的条件概率，该过程包括三个重要步骤：使用卷积网络从文本区域提取特征、使用递归神经网络在每帧预测标签分布以及后处理步骤将每帧的预测转换为最终的标签序列。

注意力机制在计算机视觉领域，包括场景文本识别中，取得了显著的成果。注意力机制专注于输入的相关部分，从而在复杂或变化的环境中实现更精确的字符识别。这种方法利用编码结构从文本区域提取特征向量，并利用解码结构生成字符实例。肖等人解决了注意力机制产生无关信息的问题，并提出了一种评估注意力结果与查询之间相关性的方法。通过将Attention on Attention（AoA）机制整合到文本识别框架中，可以消除无关的注意力，从而提高文本识别的准确性。

尽管在场景文本检测和识别方面取得了显著进展，但标注训练数据的不足仍然是一个障碍。深度学习算法在泛化到现实世界场景时受到大规模数据集稀缺的限制，尤其是对于低资源语言或尚未研究的语言，包括带有标注的场景文本图像的数据集。