AMD核显运行DeepseekR1-7b：使用mlc-llm框架，利用vulkan推理-编程知识

AMD核显运行DeepseekR1-7b：使用mlc-llm框架，利用vulkan推理

news/2025/3/11 4:09:31/文章来源:https://www.cnblogs.com/int16/p/18694416

任何支持vulkan的显卡都能跑！

本文使用的是Radeon890M核显，内存有多大就等于显存有多大。劲啊

1. 安装mlc-llm

官方文档

windows+vulkan:

conda activate your-environment
pip install --pre -U -f https://mlc.ai/wheels mlc-llm-nightly-cpu mlc-ai-nightly-cpu

linux+vulkan:

conda activate your-environment
conda install -c conda-forge gcc libvulkan-loader
pip install --pre -U -f https://mlc.ai/wheels mlc-llm-nightly-cpu mlc-ai-nightly-cpu

2. 下载模型

git lfs install
git clone https://huggingface.co/mlc-ai/DeepSeek-R1-Distill-Qwen-7B-q4f16_1-MLC

3. 运行

mlc本身可以用cli进行交互式问答，但是启动的时候识别核显内存大小会出错。我直接用server模式强行绕过该问题

mlc_llm serve ./DeepSeek-R1-Distill-Qwen-7B-q4f16_1-MLC/ --overrides "gpu_memory_utilization=3"

然后随便写个python脚本就能发送请求

import requests
import json# Get a response using a prompt with streaming
payload = {"messages": [{"role": "user", "content": "请简单介绍下deepseek。"}],"stream": True,
}
with requests.post("http://127.0.0.1:8000/v1/chat/completions", json=payload, stream=True) as r:for chunk in r.iter_content(chunk_size=None):chunk = chunk.decode("utf-8")if "[DONE]" in chunk[6:]:breakresponse = json.loads(chunk[6:])content = response["choices"][0]["delta"].get("content", "")print(content, end="", flush=True)
print("\n")

速度快的一笔

核显吃满了

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.hqwc.cn/news/876571.html

如若内容造成侵权/违法违规/事实不符，请联系编程知识网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

【题解】2024 北京高考数学 21 题

2024 北京高考数学 21 题

超链接和列表

定义超链接 href 指定访问资源的URL target 指定打开资源的方式 -self 默认值，在当前页面打开 -blank 空白页面打开type 更改属性

python--应用程序领域

https://www.python.org/about/apps/

25寒假研修快速学习方法

（1.28更新）寒假研修快速学习方法：https://www.kdocs.cn/l/chrAqrfy2Muh

Java内存区域（运行时数据区域）和内存模型（JMM）

目录Java运行时数据区域程序计数器Java虚拟机栈局部变量表操作栈动态链接方法返回地址本地方法栈Java堆方法区运行时常量池直接内存Java内存模型计算机高速缓存和缓存一致性JVM主内存与工作内存重排序和happens-before规则happens-beforevolatile关键字 Java 内存区域和内存模型…

Java 对象进行深拷贝

目录拷贝对象方法一构造函数测试用例方法二重载clone()方法重写代码测试用例方法三 Apache Commons Lang序列化重写代码测试用例方法四 Gson序列化测试用例方法五 Jackson序列化重写代码测试用例总结在 Java 语言里，当我们需要拷贝一个对象时，有两种类型的拷贝：浅拷贝与深…

Java 流程控制

目录概述顺序结构判断语句判断语句1--if判断语句2--if...else判断语句3--if..else if...else选择语句选择语句--switchcase 的穿透性循环语句循环概述循环语句1--for循环语句2--while循环语句3--do...while循环语句的区别跳出语句breakcontinue扩展死循环嵌套循环概述在一个程…

Java 面向对象思想

目录面向对象思想概述举例特点类和对象什么是类什么是对象类与对象的关系类的定义事物与类的对比类的定义格式对象的使用对象的使用格式成员变量的默认值对象内存图一个对象，调用一个方法内存图两个对象，调用同一方法内存图一个引用，作为参数传递到方法中内存图成员变量和局…

[USACO 2025 January Contest, Bronze] T3题解

Cow Checkups 题解题目大意：对于每一个 \(c=0…n\)，求出区间 \([l, r]\) 能使得翻转此区间后满足 \(\sum_{i=1}^n (a_i = b_i)\) 的值恰好为 \(c\) 的数量。解法：首先，我们定义两个二维数组：\(s_{l, r}\) : 以 \(l\) 为中点左右长度为 \(r\)，即区间 \([l - r, l + r…

02. Linux的基本操作

一、开启、关闭、重启和查看某个服务我们可以通过如下命令开启、关闭、重启、查看某个服务。 sudo systemctl start | stop | restart | status 服务名如果我们可以通过查看 /usr/lib/systemd/system 目录下的文件列表来查看有哪些服务，该目录下每个文件都对应一个服务。 ls…

恭祝大家新春快乐！巳巳如意！

欢声笑语除夕夜，万家灯火庆新年，巳蛇迎春辞旧岁，合家幸福永团圆。

寒假修行2

学了标题最多6个依次变小以及标题的位置添加属性 align="left | center |right" 是段落在中间加或是换行创建一条水平线颜色为红色 300宽度 20高度 align默认居中也可左右图片将图片保存后 src为路径 alt规定图像的替代文本 width为宽度 height为高度…