这里只收集公开/易申请的数据集
数据集 | 发表年份 | 语言 | 最小单元 | Writers/人 | 规模 | 颜色 | 最小单元文件格式 | 示例图片 | 备注 |
---|---|---|---|---|---|---|---|---|---|
CSAFE Handwriting Database | 2019 | 英语 | 页 | 90 | 90 人*(3 次*9 个样本) = 2430 页 | 300 dpi 扫描 | png | - | |
HWDB2.0-2.2 | 2011 | 汉字 | 页 | 1,019 | 每人 5 页,共 5091 页 | 灰度图 | dgrl | - | |
CEDAR | 2006 | 英语 | 签名 | 55 | 每个名字 24 张真实签名和24 张伪造签名,真 1320 张,伪 1320 张,共 2,640 张 | 300 dpi 扫描 | png | - | |
GNHK | 2021 | 英语 | 页 | - | 689 页 | RGB | png | 没有 writer 标签,只是一些笔迹 | |
ChiSig | 2022 | 汉字 | 签名 | - | 总 500 个名字,总 10242 张 | 灰度图 | png | - | |
ICDAR2011(SigComp2011) | 2011 | 荷兰语、汉字 | 签名 | 汉字 10 荷兰语 10 | 汉字 总 575 + 602 = 1,177 张 荷兰语 总 326 +1932 = 2,258 张 | RGB | png | 签名图带有矩形边界 | |
HanSig | 2023 | 汉字 | 签名 | 238 | 每个名字 20 张真/20 张伪造,总共 35,400 张签名样本 | 灰度图 | png | 须填写在线申请表 | |
SignverOD | 2022 | 英语 | 页 | - | 2576 张 | 灰度图 | png | 用于检测签名对象位置 | |
OHSDA | 2023 | 卡纳达语、印地语、马拉地语和英语 | 签名 | 601 (330 名男性;271 名女性) | 年龄范围(18,30),(30,40),(40,50),每人 10 个签名,总 6010 个签名 | RGB | jpg | 注重于年龄标注 | |
Offline Handwriting Signature | 2023 | 未知 | 签名 | 420 | 420 人 * 30 次 = 12,600 张 | RGB | png | - | |
Offline Handwritten Signature Database based on Gender Annotation | 2022 | 卡纳达语、印地语、马拉地语和英语 | 签名 | 479(250 名男性,229 名女性) | 479 人 * 10 次 = 4,790 张 | RGB | jpg | 注重于性别标注 | |
BanglaWriting | 2020 | 孟加拉语 | 页 | 260 | 每人一页,总 260 页 | RGB/灰度图 | jpg | 有分词标签 | |
BHSig260 | 2016 | 孟加拉语、印地语 | 签名 | - | 孟加拉语 100 个名字,印地语 160 个名字;6240 个(260 个 ×24 张)个真实签名,7800 个(260 个 ×30 张)个伪造签名 | 二值图 | tif | 出处可能是https://ieeexplore.ieee.org/document/7490096 | |
BN-HTRd | 2021 | 孟加拉语 | 页/行/词 | 150 | 每个人页数不固定,总 788 页 | RGB | jpg | 有全文和单词的真实注释,以及分割图像及其位置 | |
Forged Handwritten Document Database | 2023 | 英语 | 页 | - | 50 页 | RGB | jpg | - | |
Dataset of handwritten school essays in Russian | 2023 | 俄语 | 页 | - | 87 页 | 灰度图 | png | - | |
SMHD | 2023 | 英语 | 页/行 | - | 439 页 | 灰度图 | jpg | 有文本内容 |
下面是废话,凑字数的
引言
随着技术的快速发展,笔迹和签名识别已经成为了机器学习和人工智能领域的一个重要分支。此类技术被广泛应用于法律、安全和个人验证等多个方面。在这其中,数据集作为算法训练的基石,对于提高识别准确性和可靠性起到了至关重要的作用。
数据集在笔迹/签名识别技术中的应用
笔迹和签名识别技术主要依赖于数据驱动的方法,其中,高质量的数据集可以显著提高识别算法的性能。这些技术通常包含了复杂的图像处理和模式识别步骤,以确保正确识别书写中的每一个笔画和特征。只有拥有了充足、多样和精确的数据集,模型才能有效地学习和应对现实世界中的各种挑战。
数据集的质量对识别结果的影响
数据集的质量直接关系到模型的可靠性和应用实践的成功率。具体而言,数据集需要具备足够的数据量、多样性以及真实性。此外,良好的标注质量也是不可或缺的,它确保了训练过程中数据的有效性和准确率。而面对数据倾斜和不平衡的问题,研究者们需要设计复杂的算法来充分利用现有数据资源。
常见的笔迹/签名数据集
目前,市面上有多个公开的笔迹和签名数据集可用于研究和开发,例如IAM Handwriting Database和GPDS签名数据集。这些数据集因其数据的丰富性和多样性而被广泛使用。它们不仅提供了训练模型的资源,也为算法的测试和评估提供了标准。
数据集建设的难点与挑战
在构建数据集时,研究者面临众多挑战,包括但不限于数据采集的法律和伦理问题、数据预处理和清洗的复杂性,以及更新维护数据集以适应不断变化的技术要求。
未来趋势和展望
随着人工智能领域的不断进步,笔迹和签名数据集建设也日益注重智能化和自动化。未来的数据集可能会趋向于多元化、能够动态更新,同时,数据共享和隐私保护之间的平衡也将成为数据集开发的重要考量。
结论
综上所述,高质量的笔迹和签名数据集对于提升识别技术的准确度和可靠性极为重要。数据集不仅支撑了算法的训练和发展,也对实际应用中的效果有着直接影响。因此,投资于数据集的建设对于任何致力于提升识别技术的项目来说都是至关重要的。
在笔迹和签名数据集的汇总中,有几个常见的挑战和问题,这些可以从以下几篇文献中得到概述:
数据集的编译和分割以及字符识别 - 文献提到了如何使用笔迹数据集进行签名验证等应用,并讨论了在创建大型挑战性数据集时遇到的问题。例如,在文献 Meitei Mayek handwritten dataset: compilation, segmentation, and character recognition 中,作者讨论了他们开发的大型数据集的挑战。
手写签名验证的竞赛 - 在 SVC2004: First international signature verification competition 中,作者描述了自动手写签名验证领域的挑战,并提出了一个签名数据库,涉及在签名收集前的充分练习、更大的样本收集等问题。
在线手写识别的进展 - 文献 Advances in online handwritten recognition in the last decades 中讨论了在在线手写识别领域所面临的优势和挑战,指出手写和手写签名是生物特征识别的一部分,因此,标准数据库编译是一个挑战。
手写文档分析和识别的系统性回顾 - 在 A systematic review on handwritten document analysis and recognition 中,作者提到了创建足够大和具有挑战性的数据库系统的重要性,并讨论了基于数据收集的不同区域或采样质量较低等问题。