Watchdog caught collective operation timeout: WorkNCCL...

最近在使用pytorch框架的分布式多卡跑深度学习模型时,遇到了该问题,并且出错位置随机,无任何明确错误提示:

此前,也遇到过类似的问题,排查原因在于使用coco数据集做检测时,coco的训练集和验证集均存在有些数据没有label(即没有检测框的数据),损失计算有问题,从而导致了多卡训练在进行信息通信时卡死现象。本次初步排查出错位置在于:loss.backward(), 即梯度回传出错。

为了解决该问题,仍然排查数据问题,将coco没有标签的数据剔除,然而问题并没有解决。进一步排查发现,读取数据时是有标签的,经过了transform之后,边界框消失了!

所以问题在于transform中的随机裁剪操作,有可能将当前图片的所有label均裁剪在之外。进一步解决:重新多次transform,直到该数据的transform之后保持有label,问题解决。

总结:核心原因是数据corrupted/incomplete,解决数据问题,即可解决该问题。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/610424.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Python测试框架之pytest详解

前言 Python测试框架之前一直用的是unittestHTMLTestRunner,听到有人说pytest很好用,所以这段时间就看了看pytest文档,在这里做个记录。 官方文档介绍: Pytest is a framework that makes building simple and scalable tests e…

【网安小白成长之路】6.pkachu、sql-lbas、upload-lbas靶场搭建

🐮博主syst1m 带你 acquire knowledge! ✨博客首页——syst1m的博客💘 🔞 《网安小白成长之路(我要变成大佬😎!!)》真实小白学习历程,手把手带你一起从入门到入狱🚭 &…

SAP ABAP 连接外部数据库

前言 SAP 连接外部数据库有多种方法,这里我们介绍DBCO 连接 DBCO 代码 DATA: OREF TYPE REF TO CX_ROOT,TXT TYPE STRING,M_WERKS TYPE WERKS_D,STRCDATE TYPE C LENGTH 10. DATA:BEGIN OF T_ITEM OCCURS 0, CDATE TYPE C LENGTH 10, END OF T_ITEM. M…

基于SpringBoot+Vue的古风生活体验交流网站(源码+文档+部署+讲解)

一.系统概述 二十一世纪我们的社会进入了信息时代,信息管理系统的建立,大大提高了人们信息化水平。传统的管理方式对时间、地点的限制太多,而在线管理系统刚好能满足这些需求,在线管理系统突破了传统管理方式的局限性。于是本文针…

Macbook M1 Pro使用brew安装Docker并安装Nacos【超详细图解】

目录 一、安装 Docker 二、修改 Docker 镜像地址 三、拉取镜像-举例 Nacos 1.拉取镜像 2.查看本地镜像 3.删除镜像 四、启动容器 1.启动 Nacos 容器: I.方式一【推荐】 II.方式二【懒人推荐】 2.访问 Nacos Web 控制台 3.进入容器和退出容器 五、配置…

QT系列教程(4) Qt 信号和槽

信号和槽 当我们需要一个界面通知另一个界面时,可以采用信号和槽机制。通过链接信号和槽,当一个界面发送信号时,链接该信号的槽会被响应,从而达到消息传递的目的。 所以我们先创建一个Qapplication Widgets 应用。Creator会为我们…

基于springboot+vue实现的艺术水平考级报名管理系统

作者主页:Java码库 主营内容:SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app等设计与开发。 收藏点赞不迷路 关注作者有好处 文末获取源码 技术选型 【后端】:Java 【框架】:spring…

前端开发攻略---Vue通过自定义指令实现元素平滑上升的动画效果(可以自定义动画时间、动画效果、动画速度等等)。

1、演示 2、介绍 这个指令不是原生自带的,需要手动去书写,但是这辈子只需要编写这一次就好了,后边可以反复利用。 3、关键API IntersectionObserver IntersectionObserver 是一个用于监测元素是否进入或离开视口(viewport&#x…

系统开发实训小组作业week7 —— 优化系统开发计划

目录 1. 建立规则,仪式,流程,模式 2. 给好行为正面的反馈 3. 明确指出不合适的行为,必要时调整人员 在 “系统开发实训课程” 中,我们小组的项目是 “电影院会员管理系统” 。在项目的开发过程中,我们遇…

AIGC革新浪潮:大语言模型如何优化企业运营

在当今快速发展的商业环境中,企业对于有效管理知识资产的需求日益增长。知识管理作为企业核心竞争力的关键组成部分,对于提高决策质量、增强创新能力和优化运营流程起着至关重要的作用。随着数字化转型的推进,企业对知识管理系统提出了新的要…

2024.4.11

1.思维导图 2.指针形式验证大小端存储 #include<myhead.h>int main(int argc, const char *argv[]) {int num 0x12345678;char* ptr (char *)&num;if(*ptr 0x12){printf("big endian\n");}else if(*ptr 0x78){printf("little endian\n");}r…

汉字人民币转阿拉伯数字

先看结果&#xff1a; 废话不多说 直接上代码&#xff1a; package com.ht.commons;import java.math.BigDecimal; import java.util.HashMap; import java.util.Map;public class ChineseRMBConverter {private static final Map<Character, BigDecimal> numMap new H…