sam模型迁移昇腾训练loss不收敛问题的解决办法

news/2025/1/17 16:01:05/文章来源:https://www.cnblogs.com/mymzww/p/18677205
一、问题描述:
  1. 在进行sam模型迁移到昇腾的时候存在精度问题,模型链接:
    https://github.com/facebookresearch/segment-anything
  2. 两台机器上训练loss图对比,发现从一开始训练的时候就出现了差别,从图中对比看出来npu第一步
    就开始没有向下收敛,而gpu是向下收敛。

image

二、问题分析过程
  1. 准备dump精度对比看看区别,使用Ascend开源仓的msprobe工具进行精度对比
    https://gitee.com/ascend/mstt/blob/master/debug/accuracy_tools/msprobe/docs/01.installation.md
    工具安装命令:

    点击查看代码
    `pip install mindstudio-probe`
    
  2. 然后在训练脚本部分加代码,按照示例添加代码
    使用示例可参见Ascend开源仓的PyTorch 场景的精度数据采集示例代码 2.1 快速上手和2.2 采集完整的前反向数据。

  3. 添加start函数
    功能说明:启动精度数据采集,在模型初始化之后的位置添加,需要与 stop 函数一起添加在 for 循环内。

    点击查看代码
    debugger.start(model=None)
    
    model:指定具体的 torch.nn.Module,默认未配置,level 配置为"L0"或"mix"时,必须在该接口或 PrecisionDebugger 接口中配置该参数。 本接口中的 model 比 PrecisionDebugger 中 model 参数优先级更高,会覆盖 PrecisionDebugger 中的 model 参数。
  4. 添加stop函数
    功能说明:停止精度数据采集,在 start 函数之后的任意位置添加,若需要 dump 反向数据,则需要添加在反向计算代码(如,loss.backward)之后。

    点击查看代码
    debugger.stop()
    
    点击查看代码
    from msprobe.pytorch import PrecisionDebugge
    debugger = PrecisionDebugger(config_path='./config.json')
    ...
    debugger.start() # 一般在训练循环开头启动工具
    ... # 循环体
    debugger.stop() # 一般在训练循环末尾结束工具
    debugger.step() # 在训练循环的最后需要重置工具,非循环场景不需要
    

    这里的config.json也可以设置很多种类型,这里选用tensor模式和mix级。

    点击查看代码
    {"task": "tensor","dump_path": "/home/data_dump","rank": [],"step": [],"level": "mix","tensor": {"scope": [],"list":[],"data_mode": ["all"]}
    }
    
  5. 直接运行训练脚本,在数据dump下来之后 跟gpu的精度进行对比。
    image
    npu在这里丢了image_embedding的梯度,因为该模型用到了Reg_op(RepeatInterleaveGrad)这个算子,接下来分析cann包是否有这个算子 发现是有的 但是通过进入python后调用torch_npu.repeat_interleave_backward_tensor这个函数,发现调用失败。
    image

    image

    调用失败显示 :AttributeError: module 'torch_npu' has no attribute 'repeat_interleave_backward_tensor'

  6. 查看torch_npu版本,发现是2.1post3和pytorch2.1版本不配套。

三、解决方法:

通过查看昇腾torch_npu的版本与pytorch的配套表,选择对应的torch_npu版本:https://gitee.com/ascend/pytorch
选用配套版本后,函数调用成功,loss图也正常。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/870817.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Ansible - 自动化利器

Ansible 概念介绍 Ansible是自由开源的配置和自动化工具。官方网站 https://www.ansible.com/ 官方文档 https://docs.ansible.com/ansible/latest/ 安装包 https://releases.ansible.com/主要特点 - 无客户端模式(agentless),无侵入性,只需在主控端部署Ansible环境,被控端…

多光谱火焰识别摄像机

多光谱火焰识别摄像机是一种别摄像机具有以下几个显著优势:具有高度智能化技术的设备,能够. 更高的准确性:多光谱技术可以同时观测不同的火焰特征,从而准确、快速地检测火灾并定位火焰提高了火焰检测的准确性。不同物质燃烧时产生的光谱特征是不同的的位置和辐射强度。这种…

阿里二面和面试官争论Spring程序配置优先级

0 前言 一般用application.yml实现Spring Boot应用参数配置。但Spring配置有优先级,避免重复配置项的覆盖,须清晰优先级。 Spring通过Environment抽象出:Profile:规定场景。定义诸如dev、test、prod等环境 Property:PropertySources,各种配置源。一个环境中可能有多个配置…

yappi,Python性能分析库

yappi是为Python设计的线程感知型性能分析器,不仅支持CPU时间分析,还能够准确追踪线程级别的性能问题。 安装pip install yappi -i http://mirrors.aliyun.com/pypi/simple/ --trusted-host mirrors.aliyun.com基本用法import yappi import time import threadingdef func1()…

HTML4、HTML5 和 HTML6 之间的主要区别对比,以表格形式展示:

HTML4、HTML5 和 HTML6 之间的主要区别对比,以表格形式展示:特性 / 版本 HTML4 HTML5 HTML6 (预期)发布年份 1999 2014 尚未发布(预计未来发布)文档类型声明 <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01//EN" "http://www.w3.org/TR/html4/strict.dtd…

Jenkins - 分布式构建

1 - 简介 Jenkins支持分布式多节点(Master-Slave)运行模式。将安装Jenkins的主机作为Master节点,然后通过界面配置(或远端启动服务)来添加Slave节点。在这种部署结构下,Master通常只充当管理者的角色,负责任务的调度,slave节点的管理,任务状态的收集等工作,具体的构建任…

Jenkins - 安装并启动Jenkins

1 - 关于Jenkins 构建流水线(build pipeline)工具Jenkins可以轻松地定义和管理各种各样的操作(构建、测试等),并将这些操作像管道pipe一样自由地进行组合,从而自动、流畅地执行一系列处理。将操作以项目project为单位整合并运行,操作简洁 消除手工操作,安全可靠 保留执…

Jenkins - 初识

----------------------------------------------------------------------------------------------------------------------------------------------------------------------------- 通常企业都会将持续集成和持续交付的过程标准化一个单独的生态系统,将涉及的特定工具标…

10分钟搞懂大模型备案

大模型备案作为合规化运营的重要资质,办理难度大,申报周期长。为了方便大家快速弄懂大模型备案,我将大量涉及文件和繁杂的流程进行了精简和总结,力求让大家能快速理解重点。一、申报材料 大模型备案主要涉及语料安全评估、模型安全评估、安全措施评估三部分,主要申报材料如…

视频为什么会糊(二)?B站的码率变化

原文链接:https://tingxuanr.github.io/note/视频为什么会糊二b站的码率变化/ 摘要:流媒体平台(不只B站,所有流媒体都在干,画质最差的还得是优爱腾三家)为了节约成本,不断的降低自家视频的码率。很多所谓的4k、蓝光清晰度还不如六七年前的,纯粹是自欺欺人。上一篇对比 …

爬取二手房案例--parsel教学篇(CSS选择器)

本文通过一个爬取二手房的案例,来分享另外一种解析数据的方式:解析神器python第三方库parsel库。之所以叫他解析神奇,是因为它支持三种解析方式。 可以通过Xpath,CSS选择器和正则表达式来提取HTML或XML文档中的数据。@目录前言导航parsel的使用安装parsel创建Selector对象解…

duckX 读写word,替换word中内容的整理

一、库编译 1.下载地址:https://github.com/amiremohamadi/DuckX 2. 使用git 下载: git clone https://github.com/amiremohamadi/DuckX 3.编译 1.打开代码所在目录 2.创建生成目录build 3.依次点击 config generate 4. 打开项目,选择编译库的种类 生成库位置二、使用 C++读…