大模型笔记【3】 gem5 运行模型框架LLama-编程知识

大模型笔记【3】 gem5 运行模型框架LLama

news/2025/3/22 19:58:03/文章来源:https://blog.csdn.net/hit_shaoqi/article/details/135736726

一 LLama.cpp

LLama.cpp 支持x86，arm，gpu的编译。

1. github 下载llama.cpp

https://github.com/ggerganov/llama.cpp.git

2. gem5支持arm架构比较好，所以我们使用编译LLama.cpp。

以下是我对Makefile的修改

开始编译：

make UNAME_M=aarch64

编译会使用到aarch64-linux-gnu-gcc-10，编译成功可以生成一个main 文件，这里我把main重命名成main_arm_backup了。

可以使用file main查看一下文件：

3. 下载一个大模型的model到llama.cpp/models的目录下，这里我下载了llama-2-7b-chat.Q2_K.gguf。

这个模型2bit量化，跑起来不到3G的内存。

GGML_TYPE_Q2_K - "type-1" 2-bit quantization in super-blocks containing 16 blocks, each block having 16 weight. Block scales and mins are quantized with 4 bits. This ends up effectively using 2.5625 bits per weight (bpw)

4. 此时我们可以本地运行以下main和模型，我的prompt是How are you

./main -m ./models/llama-2-7b-chat.Q2_K.gguf -p "How are you" -n 16

下图最下面一行就是模型自动生成的

二 gem5

gem5下载编译好后，我们可以使用gem5.fast运行模型了。

build/ARM/gem5.fast

--outdir=./m5out/llm_9

./configs/example/se.py -c

$LLAMA_path/llama.cpp/main-arm

'--options=-m $LLAMA_path/llama-2-7b-chat.Q2_K.gguf -p Hi -n 16'

--cpu-type=ArmAtomicSimpleCPU --mem-size=8GB -n 8

此时我的prompt是Hi，预期是n=8，跑8核。

上图是gem5运行大模型时生成的simout，我增加了AtomicCPU 运行指令数量的打印，这是在gem5的改动。

如果你下载的是gem5的源码，那么现在运行起来应该只是最前面大模型的输出。

模型的回答是Hi，I'm a 30-year-old male, and

但是我预期的是8核，实际上运行起来：

可以看出来，实际上只跑起来4核，定位后发现，模型默认是4核，需要增加-t 8选项，即threadnumber设置成8，下面的红色标注的command.

build/ARM/gem5.fast

--outdir=./m5out/llm_9

./configs/example/se.py -c

$LLAMA_path/llama.cpp/main-arm

'--options=-m $LLAMA_path/llama-2-7b-chat.Q2_K.gguf -p Hi -n 16 -t 8'

--cpu-type=ArmAtomicSimpleCPU --mem-size=8GB -n 8

如上图所示，8核都跑起来了，处理到Hi这个token的时候，CPU0执行了2.9 Billion指令，相对于4核时的5.4 Billion约减少了一半。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.hqwc.cn/news/424595.html

如若内容造成侵权/违法违规/事实不符，请联系编程知识网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

AI搜索引擎Perplexity来了，谷歌等老牌搜索引擎或许会有新的威胁？

AI搜索引擎Perplexity来了，谷歌等老牌搜索引擎或许会有新的威胁？

Perplexity AI 是一家 AI 搜索初创公司，它通过结合内容索引技术和大型语言模型的推理能力，提供更便捷和高效的搜索体验。另外，最近很火的小兔子Rabbit R1硬件AI设备中的搜索功能正是这家公司的杰作。在短短一年半的时间里，一个企业…

阅读更多...

【第十五课】数据结构：堆 (“堆”的介绍+主要操作 / acwing-838堆排序 / c++代码 )

【第十五课】数据结构：堆 (“堆”的介绍+主要操作 / acwing-838堆排序 / c++代码 )

目录关于堆的一些知识的回顾数据结构：堆的特点 "down" 和 "up"：维护堆的性质 down up 数据结构：堆的主要操作 acwing-838堆排序代码如下时间复杂度分析确实是在写的过程中频繁回顾了很多关于树的知识&…

阅读更多...

性能优化-OpenCL 介绍

性能优化-OpenCL 介绍

「发表于知乎专栏《移动端算法优化》」本文首先对 GPU 进行了概述，然后着重地对移动端的 GPU 进行了分析，随后我们又详细地介绍了 OpenCL 的背景知识和 OpenCL 的四大编程模型。希望能帮助大家更好地进行移动端高性能代码的开发。 🎬个人简介…

阅读更多...

【Android】细数Linux和Android系统中的伪文件系统

【Android】细数Linux和Android系统中的伪文件系统

文章目录前言Linux伪文件系统cgroupfsLinux的cgroupsAndroid的cgroups debugfsfunctionfs(/dev/usb-ffs/adb)functionfs 的引入sysfs是什么 procfs(/proc)pstore(/sys/fs/pstore)selinuxfs(/sys/fs/selinux)sysfs(/sys)参考前言做了好些年Android开发，你了解过L…

阅读更多...

RFID标签是什么？该技术有哪些应用领域？

RFID标签是什么？该技术有哪些应用领域？

射频识别（RFID）技术利用电磁场，自动识别和跟踪附在物体上的标签，其中，近场通信（NFC）是一种基于短距离RFID高频技术的标准，支持13.56 MHz的频率。 NFC技术在现今的产品中应用广泛&am…

阅读更多...

【心得】java从CC1链入门CC链个人笔记

【心得】java从CC1链入门CC链个人笔记

来劲了，感觉离真正的CTF又近了一步。本文仅从一个萌新的角度去谈，如有纰漏，纯属蒟蒻。目录 CC链概念 CC链学习前置知识 CC1链 Version1 Version2 Version3 CC链概念 CC链 Commons Collections apache组织发布的开源库里面主要对…

阅读更多...

一文教你写出高效的软件测试用例！微信朋友圈动态发送为例

一文教你写出高效的软件测试用例！微信朋友圈动态发送为例

🔥 交流讨论：欢迎加入我们一起学习！ 🔥 资源分享：耗时200小时精选的「软件测试」资料包 🔥 教程推荐：火遍全网的《软件测试》教程 📢欢迎点赞 👍 收藏 ⭐留言 &#x1…

阅读更多...

如何制作自己的实景中国视频地图？

如何制作自己的实景中国视频地图？

让每一个人都有自己的地图！ 我们在《水经微图Web版1.5.0发布》一文中，提到了水经微图（简称“微图”）Web版新增了视频气泡的功能。现在，我们为你分享一下如何基于此功能，制作一个属于自己的实景中国视频地…

阅读更多...

浏览器无网

浏览器无网

目录 1.运行网络诊断，确认原因原因A.远程计算机或设备将不接受连接(该设备或资源(Web 代理)未设置为接受端口“7890”上的连接原因B.DNS服务器未响应场景A.其他的浏览器可以打开网页，自带的Edge却不行方法A：关闭代理 Google自带翻译…

阅读更多...

第10章-以太网交换机工作原理

第10章-以太网交换机工作原理

1. 交换网络（概念一） 2. 以太网（概念二） 3. MAC地址（概念三） 4. 交换机 4.1. 定义： 4.2. 工作流程： 4.3. 交换机的MAC地址表生成 4.4. 数据帧的转发 1. 交换网络（…

阅读更多...

动态权限有哪些

动态权限有哪些

定位权限： ACCESS_FINE_LOCATION：精确位置ACCESS_COARSE_LOCATION：大致位置相机权限： CAMERA：访问摄像头存储权限： READ_EXTERNAL_STORAGE：读取外部存储WRITE_EXTERNAL_STORAGE：…

阅读更多...

14、Kafka ------ kafka 核心API 之流API（就是把一个主题的消息导流到另一个主题里面去）

14、Kafka ------ kafka 核心API 之流API（就是把一个主题的消息导流到另一个主题里面去）

目录 kafka 核心API 之流APIKafka流API的作用：流API的核心API：使用流API编程的大致步骤如下：代码演示流API 用法MessageStream 流API 代码演示消息从 test1主题导流到 test2主题演示使用匿名内部类对消息进行处理Topology 拓扑结构讲解代…

阅读更多...

推荐文章

最新文章