昇腾910b部署Chatglm3-6b进行流式输出【pytorch框架】NPU推理-编程知识

昇腾910b部署Chatglm3-6b进行流式输出【pytorch框架】NPU推理

文章目录

- 准备阶段
- 避坑阶段
- 添加代码
- 结果展示

准备阶段

配套软件包Ascend-cann-toolkit和Ascend-cann-nnae
适配昇腾的Pytorch
适配昇腾的Torchvision Adapter
下载ChatGLM3代码
下载chatglm3-6b模型，或在modelscope里下载

避坑阶段

每个人的服务器都不一样，在ChatGLM3/issues中别人只需要修改指定驱动，但是我的不行
删除模型文件包中的model.safetensors.index.json，否则加载模型时会自动加载safetensors文件，而不加载bin文件

/home/anaconda3/envs/sakura/lib/python3.9/site-packages/torch_npu/contrib/transfer_to_npu.py:124: RuntimeWarning: torch.jit.script will be disabled by transfer_to_npu, which currently does not support it, if you need to enable torch.jit.script, please do not use transfer_to_npu.warnings.warn(msg, RuntimeWarning)
Loading checkpoint shards:   0%|                                                                                                                                     | 0/7 [00:00<?, ?it/s]
Traceback (most recent call last):File "/home/HwHiAiUser/work/ChatGLM3/basic_demo/cli_demo.py", line 22, in <module>model = AutoModel.from_pretrained(MODEL_PATH, trust_remote_code=True).npu().eval()File "/home/anaconda3/envs/sakura/lib/python3.9/site-packages/transformers/models/auto/auto_factory.py", line 558, in from_pretrainedreturn model_class.from_pretrained(File "/home/anaconda3/envs/sakura/lib/python3.9/site-packages/transformers/modeling_utils.py", line 3187, in from_pretrained) = cls._load_pretrained_model(File "/home/anaconda3/envs/sakura/lib/python3.9/site-packages/transformers/modeling_utils.py", line 3560, in _load_pretrained_modelstate_dict = load_state_dict(shard_file)File "/home/anaconda3/envs/sakura/lib/python3.9/site-packages/transformers/modeling_utils.py", line 467, in load_state_dictwith safe_open(checkpoint_file, framework="pt") as f:
FileNotFoundError: No such file or directory: "/home/HwHiAiUser/models/chatglm3-6b/model-00001-of-00007.safetensors"
/home/anaconda3/envs/sakura/lib/python3.9/tempfile.py:817: ResourceWarning: Implicitly cleaning up <TemporaryDirectory '/tmp/tmp1ygjyx3i'>_warnings.warn(warn_message, ResourceWarning)

在这里插入图片描述

添加代码

找到ChatGLM3/basic_demo/cli_demo.py
添加以下代码：

import torch
import torch_npu
import torchvision 
import torchvision_npu
from torch_npu.contrib import transfer_to_npu
import os
import platform
import time
torch_device = "npu:3" # 0~7
torch.npu.set_device(torch.device(torch_device))
torch.npu.set_compile_mode(jit_compile=False)
option = {}
option["NPU_FUZZY_COMPILE_BLACKLIST"] = "Tril"
torch.npu.set_option(option)
print("torch && torch_npu import successfully")

模型加载部分修改为：

model = AutoModel.from_pretrained(MODEL_PATH, trust_remote_code=True).npu().eval()

结果展示

在这里插入图片描述

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.hqwc.cn/news/343522.html

如若内容造成侵权/违法违规/事实不符，请联系编程知识网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

昇腾910b部署Chatglm3-6b进行流式输出【pytorch框架】NPU推理

文章目录

准备阶段

避坑阶段

添加代码

结果展示

相关文章

C++(9)——内存管理

解决uni-app小程序获取路由及路由参数

OpenGl 19高级GLSL

第一次在RUST官方论坛上留言发布我的Rust板箱

C++——STL标准模板库——容器详解——list

Python学习从0到1 day2 python注释

日常工作中，软件测试人员如何避免“背锅”

c++类程序设计题1

Pycharm close project 速度缓慢解决办法

spring Security源码讲解-Sevlet过滤器调用springSecurty过滤器的流程

便捷特惠的快递寄件快递物流折扣平台，通常都有什么常见问题？

深入理解 Flink（八）Flink Task 部署初始化和启动详解