【个人开发】llama2部署实践(三)——python部署llama服务(基于GPU加速)

1.python环境准备

注:llama-cpp-python安装一定要带上前面的参数安装,如果仅用pip install装,启动服务时并没将模型加载到GPU里面。

# CMAKE_ARGS="-DLLAMA_METAL=on" FORCE_CMAKE=1 pip install llama-cpp-python
CMAKE_ARGS="-DLLAMA_CUBLAS=on" FORCE_CMAKE=1 pip install llama-cpp-pythonpip install uvicorn
pip install starlette
pip install fastapi
pip install sse_starlette
pip install starlette_context
pip install pydantic_settings

2.llama-cpp-python安装报错

报错踩坑1:
安装llama-cpp-python过程出现报错

CMake Error at vendor/llama.Cpp/CMakeLists.txt:186 (find library):
Could not find FOUNDATION LIBRARY using the followingnames: Foundation

解决方法1:
网上找到采用离线安装到方式,可以成功安装,但是高兴得太早了。

wget https://github.com/abetlen/llama-cpp-python/releases/download/v0.2.56/llama_cpp_python-0.2.56-cp311-cp311-manylinux_2_17_x86_64.whl
pip install llama_cpp_python-0.2.56-cp311-cp311-manylinux_2_17_x86_64.whl
# 参考链接:https://blog.csdn.net/qq_38463737/article/details/136477026

坑1:
虽然可以成功安装,但是启动llama服务的时候,没法用到GPU加速。

报错踩坑2:
倒腾了很久,看报错一直是cmake对问题,寻思着可能是gcc版本的问题,将gcc升级到13.1。但还是出现报错:

CMake Error at vendor/llama.Cpp/CMakeLists.txt:186 (find library):
Could not find FOUNDATION LIBRARY using the followingnames: Foundation

在这里插入图片描述
或者其他诸如的报错【报错太多,没法全记录下来】

CMake configuration failed

看上面的报错Compiling the CUDA compiler identification source file “CMakeCUDACompilerId.cu” failed。感觉像是cuda跟gcc版本的不兼容问题。

解决方法2:
捣鼓了很久,后来参考了一些成功安装的经验,最后选择gcc-9.4.0版本
附带一下gcc版本安装步骤:

## 安装
tar xf gcc-9.4.0.tar.xz
cd gcc-9.4.0/
./contrib/download_prerequisites
mkdir build && cd build
../configure --prefix=/usr/local/gcc-9.4.0 --enable-bootstrap --enable-checking=release --enable-languages=c,c++ --disable-multilib
make -j16 # 我这里服务器是16核,这里根据服务器核数修改并行度。
make install ## 配置环境变量
export GCC_ME_HOME=/usr/local/gcc-9.4.0/
PATH=$GCC_ME_HOME/bin:/usr/local/bin:$PATH
export PATH
LD_LIBRARY_PATH=$GCC_ME_HOME/lib:$GCC_ME_HOME/lib64:/usr/local/lib:/usr/local/lib64:/usr/lib64:/lib64:$LD_LIBRARY_PATH
export LD_LIBRARY_PATH
export CC=$GCC_ME_HOME/bin/gcc
export CXX=$GCC_ME_HOME/bin/g++

报错踩坑2:
后来还遇到这个问题

Could not find compiler set in environment variable CXX:

在这里插入图片描述

估摸着应该是CXX变量没加载的原因,重新加载环境变量,安装。

3.服务启动

python3 -m llama_cpp.server --model /data/opt/llama2_model/llama-2-7b-bin/ggml-model-f16.bin --n_threads 30 --n_gpu_layers 200

在这里插入图片描述
在这里插入图片描述
终于加载到GPU里面!
在这里插入图片描述

4.总结

当前环境各组件版本:

  • gcc:9.4.0
  • cuda:11.8
  • python:3.11.4
  • llama_cpp_python:0.2.56

以上,End

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/526710.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

PyTorch搭建LeNet训练集详细实现

一、下载训练集 导包 import torch import torchvision import torch.nn as nn from model import LeNet import torch.optim as optim import torchvision.transforms as transforms import matplotlib.pyplot as plt import numpy as npToTensor()函数: 把图像…

【脚本玩漆黑的魅影】全自动刷努力值

文章目录 原理全部代码 原理 全自动练级,只不过把回城治疗改成吃红苹果。 吃一个可以打十下,背包留10个基本就练满了。 吃完会自动停止。 if img.getpixel(data_attack[0]) data_attack[1] or img.getpixel(data_attack_2[0]) data_attack_2[1]: # …

RESTful API关键部分组成和构建web应用程序步骤

RESTful API是一种基于HTTP协议的、符合REST原则的应用程序接口。REST(Representational State Transfer)是一种软件架构风格,用于设计网络应用程序的通信模式。 一个RESTful API由以下几个关键部分组成: 资源(Resour…

关于天线综合4(伍德沃德——罗森取样法)

伍德沃德——罗森取样法 就是在各个点指定方向图的值,对其方向图取样 主要就是将线源电流分布分解成一组等幅度、线性相位的源的和 求出对应电流分量方向图 中心位于wwn 最大值为an, 其中wn控制该分量方向图最大值的位置,an控制分量方向图的幅…

腾讯云8核16G服务器性能怎么样?能支持多少人访问?

腾讯云8核16G轻量服务器CPU性能如何?18M带宽支持多少人在线?轻量应用服务器具有100%CPU性能,18M带宽下载速度2304KB/秒,折合2.25M/s,系统盘为270GB SSD盘,月流量3500GB,折合每天116.6GB流量&…

从 iPhone 设备恢复误删微信消息的 4 种方法

您的微信消息可能会因无意删除、系统崩溃、卸载微信应用或升级过程失败而被删除。如果您遇到这种情况,您不必担心,因为您可以采取某些步骤来恢复丢失的微信历史记录。这里有 4 种方法可以帮助您从 iPhone恢复丢失的微信消息、群聊历史记录或微信联系人。…

直击现场 | 人大金仓携手中国大地保险上线核心超A系统

2023年底 中国大地保险 卡园三路59号办公室里 一群技术精英们正忙碌着 他们的眼中 闪烁着对即将到来的胜利的期待 这是大地保险超A系统 项目上线的关键时刻 也是通过科技创新 引领行业服务新趋势的一场征程 项目现场 #1 一次颠覆 改变传统保险服务模式 超A平台,是由…

kibana配置 dashbord,做可视化展示

一、环境介绍 这里我使用的kibana版本为7.17版本。 语言选择为中文。 需要已经有es,已经有kibana,并且都能正常访问。 二、背景介绍 kibana的可视化界面,可以配置很多监控统计界面。非常方便,做数据的可视化展示。 这篇文章&…

Java核心技术第十二章 并发

多进程和多线程的区别:每个进程拥有组件的一整套变量,线程则共享数据,一个程序可以同时运行多个线程,则为多线程程序。 什么是线程 线程状态 1. 新建线程 2.可运行线程 调用start方法,线程处于可运行状态&#xff0c…

汽车协议学习

ⅠOBD 1.OBD接口 OBD有16个引脚,每个引脚的电压不同(可以对应不同的协议) 车端: 16- 9 (短一点点的) 8-1 (长一点的) 2.基于OBDⅡ的通信协议 CAN (ISO-15765&am…

NPP VIIRS卫星数据介绍及获取

VIIRS(Visible infrared Imaging Radiometer)可见光红外成像辐射仪。扫描式成像辐射仪,可收集陆地、大气、冰层和海洋在可见光和红外波段的辐射图像。它是高分辨率辐射仪AVHRR和地球观测系列中分辨率成像光谱仪MODIS系列的拓展和改进。VIIRS数…

代码随想录刷题笔记-Day33

1. 跳跃游戏 55. 跳跃游戏https://leetcode.cn/problems/jump-game/ 给你一个非负整数数组 nums ,你最初位于数组的 第一个下标 。数组中的每个元素代表你在该位置可以跳跃的最大长度。 判断你是否能够到达最后一个下标,如果可以,返回 tru…