关于图像分类任务中划分数据集,并且生成分类类别的josn字典文件

1. 前言

在做图像分类任务的时候,数据格式是文件夹格式,相同文件夹下存放同一类型的类别

不少网上的数据,没有划分数据集,虽然代码简单,每次重新编写还是颇为麻烦,这里记录一下

如下,有的数据集这样摆放:

可以看出这是个三分类任务,不过没有划分测试集、验证集

代码存放位置:和数据集dataset 同一路径

2. 完整代码

如下:

import random
import os
import shutil
from tqdm import tqdm
import jsondef split_data(root, test_rate, flag=True):# 待分类数据的当前目录classes_directory = [i for i in os.listdir(root) if os.path.isdir(os.path.join(root, i))]# 建立生成后的目录,方便拷贝for i in classes_directory:os.makedirs(os.path.join('./data/train', i))  # 训练集os.makedirs(os.path.join('./data/test', i))  # 测试集# 是否生成类别的 json 字典文件,默认生成if flag:class_indices = dict((k, v) for v, k in enumerate(classes_directory))json_str = json.dumps(dict((val, key) for key, val in class_indices.items()), indent=4)with open('class_indices.json', 'w') as json_file:json_file.write(json_str)# 遍历每个文件夹下的文件for cla in classes_directory:cla_path = os.path.join(root, cla)  # 每个文件夹的路径images_path = [os.path.join(root, cla, i) for i in os.listdir(cla_path)]# 按比例随机采样测试集样本test_split_path = random.sample(images_path, k=int(len(images_path) * test_rate))# 划分数据for i in tqdm(images_path, desc=cla):if i in test_split_path:shutil.copy(i, os.path.join('./data/test', cla))else:shutil.copy(i, os.path.join('./data/train', cla))if __name__ == '__main__':rawDataSet = './dataset'  # 原始数据的路径if os.path.exists('./data'):  # 如果之前有,那么删除shutil.rmtree('./data')os.makedirs('./data/train')os.makedirs('./data/test')# 划分数据split_data(root=rawDataSet, test_rate=0.2)

运行代码过程:

运行结果:

生成的json文件:

3. 代码介绍

首先,rawDataSet 传入的是待划分的数据集根目录,这里会将之前划分的删掉,这样每次生成的结果不一样。训练集和测试集的比例为0.2

这里按照本人平时的习惯,划分好的目录结构如下

--data-train- 不同类别的文件夹

--data-test- 不同类别的文件夹

接下来这部分是读取每个子文件夹,或者说分类的classes(因为分类任务的文件夹就是class)

这里根据子文件夹名生成对应的json字典文件

划分数据,测试集会根据总数据的个数 * 划分比例 (test_rate)

遍历全部的数据,如果目标在测试集,那么就是测试集数据;否则为训练数据

如果是目标检测或者分割,数据和标签是分开的单独文件,划分的过程类似,后续会看着写写看

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/328101.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Ant Design 使用出现 Error_ Can‘t resolve ‘_antd_dist_antd.css‘

推荐阅读 智能化校园:深入探讨云端管理系统设计与实现(一) 智能化校园:深入探讨云端管理系统设计与实现(二) 文章目录 推荐阅读问题描述问题解决方法一:进行版本回退,安装指定版本方…

Keil使用手册

文章目录 1 设置1.1 背景1.2 Project窗口显示.h文件1.3 注释1.4 Project窗口消失TAB转空格的设置keilsourceInsight 显示cannot evaluate普通局部变量静态全局变量静态局部变量 2 报错与解决2.1 warning:#1-D last line of file ends without anewline2.2 中文乱码 …

数据结构与算法教程,数据结构C语言版教程!(第二部分、线性表详解:数据结构线性表10分钟入门)九

第二部分、线性表详解:数据结构线性表10分钟入门 线性表,数据结构中最简单的一种存储结构,专门用于存储逻辑关系为"一对一"的数据。 线性表,基于数据在实际物理空间中的存储状态,又可细分为顺序表&#xff…

Window端口占用处理

您好,我是码农飞哥(wei158556),感谢您阅读本文,欢迎一键三连哦。 💪🏻 1. Python基础专栏,基础知识一网打尽,9.9元买不了吃亏,买不了上当。 Python从入门到精…

墨墨智库正式上线:开启您的AI智慧之旅

在这个由数据驱动的时代,AI技术正迅速改变我们的工作和生活方式。有没有想过一个平台可以为您提供所有AI相关资源的便捷访问?这就是「墨墨智库」的使命。我们非常高兴地宣布,经过精心准备和期待,「墨墨智库」现已正式上线&#xf…

Unity中Shader的_Time精度问题

文章目录 前言一、U方向上优化二、V方向上优化在这里插入图片描述 三、最终代码1、效果2、Shader 前言 在Unity的Shader中,使用了_Time来达到UV的流动效果,普遍会出现一个问题。我们的UV值会随着时间一直增加(uv值增加了,但是因为…

1982-2022年GIMMS 标准化差异植被指数

GIMMS 标准化差异植被指数 1982-2022 PKU GIMMS 归一化植被指数数据集(PKU GIMMS NDVI,版本 1.2)提供了从 1982 年到 2022 年以半个月为间隔、分辨率为 1/12 的一致的全球 NDVI 数据。其主要目标是解决现有领域中普遍存在的关键不确定性。全…

AI教我学编程之C#关键字

AI教我学编程系列学习第三课 — C#关键字 前言重点先知关键字分类保留字上下文关键字 对话AI首遇波澜调整指令第一次第二次第三次直到我提出如下指令 人工智能?阶段总结 知识拓展1、Ecma和ISO是什么?2、System,dllhost.exe,taskmg…

基于神经网络的手写汉字提取与书写评分系统研究

相关源码和文档获取请私聊QQ:3106089953 论文目录结构 目 录 摘 要 I Abstract II 目 录 IV 第1章 绪论 1 1.1. 研究背景与意义 1 1.2. 国内外研究现状 2 1.2.1. 文本定位技术研究现状 2 1.2.2. 手写汉字识别研究现状 3 1.2.3. 汉字书写质量评价方法研究现状 4 1.3. 本文所做工…

SpringBoot配置Swagger2与Swagger3

swagger是什么? 在平时开发中,一个好的API文档可以减少大量的沟通成本,还可以帮助新加入项目的同事快速上手业务。大家都知道平时开发时,接口变化总是很多,有了变化就要去维护,也是一件比较头大的事情。尤…

IDEA TODO

今天记录一个 IDEA 工具的小技巧, TODO。比如下班前有一个小功能没完善好,此时可以在响应代码上加上 TODO 注解, //密码比对 // TODO 后期需要进行md5加密,然后再进行比对 password DigestUtils.md5DigestAsHex(password.getByt…

LeetCode 42:接雨水

一、题目描述 给定 n 个非负整数表示每个宽度为 1 的柱子的高度图,计算按此排列的柱子,下雨之后能接多少雨水。 示例 1: 输入:height [0,1,0,2,1,0,1,3,2,1,2,1] 输出:6 解释:上面是由数组 [0,1,0,2,1,0,…