深度学习数据集—文本、数字、文字识别大合集

最近收集了一大波关于文本、数字识别相关的数据集,有数字识别、也有语言文字识别,废话不多说现在分享给大家!!

1、500张手写拼音数据集

500张手写拼音数据集,包含对应txt格式标注及图片,,并提供lmdb数据格式转换脚本。

数据获取地址:https://www.dilitanxianjia.com/2540/

2、大规模金融领域中文语义解析数据集

数据集采用金融领域的表格作为数据源,涵盖了基金的产品和属性,选手需要构建模型将用户的自然语言问句转换成结构化查询语句(Structured Query Language, SQL)。AntSQL数据集由蚂蚁财富提供,由阿里云天池平台承办,旨在推动金融领域中文NLP技术和社区的健康发展,促进数字金融领域的交叉学科研究,服务数字经济健康发展的国家战略需求。

数据获取地址:https://www.dilitanxianjia.com/2492/

3、中文对联数据集

中文对联数据集,该对联数据集共包含 70 余万条对联数据,按字切分,并分为训练数据集、测试数据集以及一份词汇表。其中,训练数据集、测试数据集分别分为上联和下联两部分。

数据获取地址:https://www.dilitanxianjia.com/2462/

4、符号图像数据集

符号图像数据集,该数据集共包含1363个图像文件,其中JPEG文件1361个,PNG文件2个。这些图像代表了英语和斯堪的纳维亚字母表中的29个字母,包括字母A-Z以及字母æ, ø和å。该数据集可用于各种机器学习任务,如图像分类和字符识别。

数据获取地址:https://www.dilitanxianjia.com/2435/5

5、12万个俄罗斯笑话数据集

12万个俄罗斯笑话数据集

数据获取地址:https://www.dilitanxianjia.com/2085/

6、几何形状分类数据集

几何形状分类数据集,数据集由3个数据类组成,每个类代表一种几何形状(三角形、正方形和圆形)。每个类由10000张生成的图像组成。

数据获取地址:https://www.dilitanxianjia.com/2066/

7、带有数字的页面图片数据集

带有数字的页面图片数据集,共10张手写阿拉伯数字图片

数据获取地址:https://www.dilitanxianjia.com/1992/

8、10000张字符文件识别数据集

10000张字符文件识别数据集,这些图像还包含字母(A-Z)、数字(0-9)和特殊字符(例如#)

数据获取地址:https://www.dilitanxianjia.com/1989/

9、各种字体的数字数据集

各种字体的数字数据集,不考虑字体规则的情况下识别数字。

数据获取地址:https://www.dilitanxianjia.com/1716/

10、手写数字和英文字符,数据集

手写数字和英文字符,数据集包含5个CSV文件datasetphanum、datasetchars、datasettemnist和datasetmnist,分别包括字母数字、字母、emnist手写字母和数字。datasetfinal是包含上述所有数据集的合并文件。图像的灰度为(28,28),存储在数据集的784列中。最后一列包含标签。

数据获取地址:https://www.dilitanxianjia.com/1713/

11、20个不同类别的中文新闻数据集

复旦大学新闻分类数据集,20个不同类别的中文新闻数据集,train文件夹下的文件是培训文件(共9804段)。答案文件夹下的文件是用于测试的(共9833段)。有20个不同的类别。

数据获取地址:https://www.dilitanxianjia.com/1710/

12、甲骨文图片数据集

甲骨文图片数据集

数据获取地址:https://www.dilitanxianjia.com/1199/

13、古波斯语楔形文字字体数据集

古波斯语楔形文字字体数据集,选择了开源的Tesseract引擎进行字符的分割、学习和分类。由于铭文中存在噪声(石缝),本文采用了一些图像处理技术来消除噪声。该系统的最终输出包括楔形字体的提取,句子的波斯语和英语的抄写,句子的发音和翻译大量提取的波斯语和英语单词,使我们更好地了解他们在那个时代的说话方式。通过验证和结果切片获得的结果表明,该系统能够较好地处理楔形文字的识别,对测试数据的所有字符进行了较好的分类,准确率约为92%。

数据获取地址:https://www.dilitanxianjia.com/1196/

14、手写体数字从0到9图像数据集

手写体数字从0到9图像数据集,此数据集包含200张手写体数字图像。所有的数字都是作者在白纸上手写的,然后用智能手机相机拍摄。拍完照片后,额外的白色区域被裁剪。

数据获取地址:https://www.dilitanxianjia.com/1192/

15、俄语手写信件数据集

俄语手写信件数据集,该数据集包括一个文件夹,共有14190张PNG格式的俄文手写信件图片,便于使用CNN对手写信件进行分类。

数据获取地址:https://www.dilitanxianjia.com/1188/

16、发票信息识别数据集

发票信息识别数据集,数据集由XML文件和图像组成。XML文件包含从发票图像中提取的数据,为了清晰起见,文本和XML文件的名称保持相同。数据集的用户应该提取发票号、发票数据、公司名称(从公司1到公司2的发票)、公司电话号码、地址等实体。

数据获取地址:https://www.dilitanxianjia.com/1182/

17、梵文字符数据集

梵文字符数据集,CSV文件的尺寸为92000 1025。有1024个输入特征的像素值在灰度(0到255)。“字符”列表示与每个图像对应的梵文字符名。

数据获取地址:https://www.dilitanxianjia.com/1179/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/190207.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Vatee万腾科技引领创新潮流:Vatee数字化探索的前沿之光

在Vatee万腾科技引领创新潮流的浪潮中,我们见证了一场数字化探索的前沿之光。Vatee万腾以其卓越的科技实力和创新精神,成为数字化时代的领军者,为创新潮流注入了强大动力。 Vatee万腾积极探索数字化的前沿,不断挑战科技的极限。他…

MatLab的下载、安装与使用(亲测有效)

1、概述 MatLab是由MathWorks公司开发并发布的,支持线性代数、矩阵运算、绘制函数和数据、信号处理、图像处理以及视频处理等功能。广泛用于算法开发、数据可视化、数据分析以及数值计算等。 Matlab 的主要特性包括: 简单易用的语法,使得程…

第四篇 《随机点名答题系统》——基础设置详解(类抽奖系统、在线答题系统、线上答题系统、在线点名系统、线上点名系统、在线考试系统、线上考试系统)

目录 1.功能需求 2.数据库设计 3.流程设计 4.关键代码 4.1.设置题库 4.1.1数据请求示意图 4.1.2选择题库(index.php)数据请求代码 4.1.3取消题库(index.php)数据请求代码 4.1.4业务处理Service(xztk.p…

JUC并发工具-CAS机制

面试的时候经常被问到锁、JUC工具包等相关内容,其中CAS机制是必问题目,以下简单总结CAS的机制、CAS产生的ABA现象、CAS产生的ABA现象解决思路 1.什么是CAS? CAS(Compare and Swap)是一种多线程同步的原子操作&#xf…

【Nacos】配置管理、微服务配置拉取、实现配置热更新、多环境配置

🐌个人主页: 🐌 叶落闲庭 💨我的专栏:💨 c语言 数据结构 javaEE 操作系统 Redis 石可破也,而不可夺坚;丹可磨也,而不可夺赤。 Nacos 一、nacos实现配置管理1.1 统一配置管…

生成式AI模型量化简明教程

在不断发展的人工智能领域,生成式AI无疑已成为创新的基石。 这些先进的模型,无论是用于创作艺术、生成文本还是增强医学成像,都以产生非常逼真和创造性的输出而闻名。 然而,生成式AI的力量是有代价的—模型大小和计算要求。 随着生…

基础模型的自然语言处理能力综述

NLP作为一个领域为基础模型开辟了道路。虽然这些模型在标准基准测试中占据主导地位,但这些模型目前获得的能力与那些将语言描述为人类交流和思维的复杂系统的能力之间存在明显的差距。针对这一点,我们强调语言变异的全部范围(例如&#xff0c…

H5ke11--1登录界面一直保存--用本地localStorage存储

目录 代码详解 localStage优点 :一直保存着 注意事项: storage属性们 代码详解 ke8学校陈老师H5-CSDN博客文章浏览阅读76次。实现H5中新增的三个元素:forEach的使用方法。https://blog.csdn.net/m0_72735063/article/details/134019012即此之后 当然可以分为按…

记一次用jlink调试正常,不进入调试就不能运行的情况

一、概述 我开机会闪烁所有指示灯,但是重新上电时,指示灯并没有闪烁,就像"卡死"了一样。 使用jlink的swd接口进行调试,需要多点几次运行才能跳转到main函数里面。 调试模式第一次点击运行,暂停查看函数堆栈…

Flask学习一:概述

搭建项目 安装框架 pip install Flask第一个程序 from flask import Flaskapp Flask(__name__)app.route(/) def hello_world():return "Hello World"if __name__ __main__:app.run()怎么说呢,感觉还不错的样子。 调试模式 if __name__ __main__:a…

Vue.js2+Cesium1.103.0 十四、绘制视锥,并可实时调整视锥姿态

Vue.js2Cesium1.103.0 十四、绘制视锥&#xff0c;并可实时调整视锥姿态 Demo <template><divid"cesium-container"style"width: 100%; height: 100%;"><divclass"control"style"position: absolute;right: 50px;top: 50px…

第十九章 绘图

目录 Java绘图类 Graphics 类 Graphics2D类 绘制图形 绘图颜色与画笔属性 设置颜色 设置画笔 绘制文本 设置字体 显示文字 显示图片 图像处理 放大与缩小 图像翻转 图像旋转 图像倾斜 Java绘图类 Graphics 类 Grapics 类是所有图形上…