【Hugging Face】编写 shell 脚本在 huggingface 镜像站快速下载模型文件

前言

我们使用 Git LFS 和 wget 结合的方法,小文件使用 Git 下载,大文件使用 wget 下载

Git 下载的优缺点:

优点:相当简单

缺点:不支持断点续传

直接 wegt 下载比较稳定,但是欠缺优雅

我们可以将这两种方法进行结合

下载教程

模型选择上,我这里选择的模型为镜像站上的 gradientai/Llama-3-8B-Instruct-262k · HF Mirror

大家也可以自行选择想要的模型

首先下载模型文件中较小的那些部分(跳过使用 GIT LFS 的大文件)

GIT_LFS_SKIP_SMUDGE=1 git clone https://hf-mirror.com/gradientai/Llama-3-8B-Instruct-262k

输出如下,成功下载了这些部分,速度很快

点击任意一个模型文件,里面的内容是类似这样的东西:

version https://git-lfs.github.com/spec/v1
oid sha256:7432c5d8273697c39adbb717988938009d9391e1224403495afbbaaa5cea401c
size 4999802720

这不是模型文件,而是一个类似于指针的东西,用于后续使用 GIT LFS 拉取下载,我们将这几个统统删除。

编写 shell 脚本文件来下载模型部分

大家可以直接用我这个脚本,两个命令行参数代表模型名称和总文件个数

#!/bin/bash# 检查是否提供了正确数量的参数
if [ "$#" -ne 2 ]; thenecho "Usage: $0 <model_name> <total_models>"exit 1
fi# 解析命令行参数
model_name="$1"
total_models="$2"# 循环下载每个模型文件
for ((i=1; i<=$total_models; i++)); do# 构建文件名model_file="$(printf "%s/resolve/main/model-%05d-of-%05d.safetensors" "$model_name" "$i" "$total_models")"# 构建下载链接download_link="<https://hf-mirror.com/$model_file>"# 启动下载任务wget -b "$download_link" -O "$(basename "$model_file")"
doneecho "Downloads started in background."

将文件放在和模型同级的目录下(重要),然后启动该脚本

cd Llama-3-8B-Instruct-262k/
bash download_model.sh gradientai/Llama-3-8B-Instruct-262k 4

输出如下:

可以看到目录里面多了这些文件,此时模型已经在下载了,而且是同时下载

速度还是很快的,而且几乎是同时下载:

这是其中一个日志文件的结尾,由于这四个文件是同时下载的,所以五六分钟,模型就下载好了。

4859800K .......... .......... .......... .......... .......... 99% 19.3M 0s
4859850K .......... .......... .......... .......... .......... 99% 18.1M 0s
4859900K .......... .......... .......... .......... .......... 99% 23.1M 0s
4859950K .......... .......... .......... .......... .......... 99% 30.9M 0s
4860000K .......... .......... .......... .......... .......... 99% 19.6M 0s
4860050K .......                                               100% 22.7M=4m58s2024-05-07 17:15:26 (15.9 MB/s) - ‘model-00001-of-00004.safetensors’ saved [4976698672/4976698672]

我们编写代码,用下这个模型试试:

import transformers
import torchmodel_id = "/root/autodl-tmp/models/Llama-3-8B-Instruct-262k"pipeline = transformers.pipeline("text-generation",model=model_id,model_kwargs={"torch_dtype": torch.bfloat16},device_map="auto",
)messages = [{"role": "system", "content": "You are a pirate chatbot who always responds in pirate speak!"},{"role": "user", "content": "Who are you?"},
]prompt = pipeline.tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True
)terminators = [pipeline.tokenizer.eos_token_id,pipeline.tokenizer.convert_tokens_to_ids("<|eot_id|>")
]outputs = pipeline(prompt,max_new_tokens=256,eos_token_id=terminators,do_sample=True,temperature=0.6,top_p=0.9,
)
print(outputs[0]["generated_text"][len(prompt):])

模型输出如下,没啥子问题:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/675094.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

数据库系统原理实验报告5 | 数据查询

整理自博主本科《数据库系统原理》专业课自己完成的实验报告&#xff0c;以便各位学习数据库系统概论的小伙伴们参考、学习。 专业课本&#xff1a; ———— 本次实验使用到的图形化工具&#xff1a;Heidisql 目录 一、实验目的 二、实验内容 1.找出读者所在城市是“shangh…

【C/C++】设计模式——单例模式

创作不易&#xff0c;本篇文章如果帮助到了你&#xff0c;还请点赞 关注支持一下♡>&#x16966;<)!! 主页专栏有更多知识&#xff0c;如有疑问欢迎大家指正讨论&#xff0c;共同进步&#xff01; &#x1f525;c系列专栏&#xff1a;C/C零基础到精通 &#x1f525; 给大…

创意无限,批量剪辑技巧:视频剪辑中的画中画技巧大揭秘

在视频剪辑的世界里&#xff0c;创意是无限的&#xff0c;而技巧则是实现这些创意的关键。画中画技巧作为视频剪辑中的一种高级技术&#xff0c;可以带给观众新颖的视觉体验&#xff0c;提升视频的质量和观赏性。本文将深入探讨批量剪辑中的画中画技巧&#xff0c;揭示其背后的…

分布式与一致性协议之ZAB协议(五)

ZAB协议 ZAB集群如何从故障中恢复 如果我们想把ZAB集群恢复到正常状态&#xff0c;那么新领导者就必须确立自己的领导关系&#xff0c;成为唯一有效的领导者&#xff0c;然后作为主节点"领导"各备份节点一起处理读写请求 如何确立领导关系 前面提到&#xff0c;选…

Python-VBA函数之旅-property函数

目录 一、property函数的常见应用场景 二、property函数使用注意事项 三、如何用好property函数&#xff1f; 1、property函数&#xff1a; 1-1、Python&#xff1a; 1-2、VBA&#xff1a; 2、推荐阅读&#xff1a; 个人主页&#xff1a;神奇夜光杯-CSDN博客 一、prop…

Backblaze发布2024 Q1硬盘故障质量报告-1

作为一家在2021年在美国纳斯达克上市的云端备份公司&#xff0c;Backblaze一直保持着对外定期发布HDD和SSD的故障率稳定性质量报告&#xff0c;给大家提供了一份真实应用场景下的稳定性分析参考数据。 截至2024年第一季度末&#xff0c;Backblaze在其全球数据中心的云存储服务器…

嵌入式开发常见概念简介

目录 0. 《STM32单片机自学教程》专栏总纲 API Handle(句柄) 0. 《STM32单片机自学教程》专栏总纲 本文作为专栏《STM32单片机自学教程》专栏其中的一部分&#xff0c;返回专栏总纲&#xff0c;阅读所有文章,点击Link: STM32单片机自学教程-[目录总纲]_stm32 学习-CSD…

HCIP的学习(OSPF总篇)

HCIA的复习 这边可以与我之前写的HCIA博客结合起来一起看&#xff0c;效果更好 HCIA的学习&#xff08;6&#xff09; OSPF状态机 down—关闭-----一旦启动OSPF进程&#xff0c;并发出hello报文&#xff0c;则进入下一个状态init----初始化状态------当收到的hello报文中存在…

太阳能光伏在生活中的三大作用

随着现在太阳能光伏的逐步发展&#xff0c;太阳能光伏已经越来越走近人们的生活&#xff0c;小编带大家盘点一下光伏在生活中的应用 一、发电 光伏的最初应用就是用来发电&#xff0c;以替代传统的化石燃料发电方式。光伏发电可以从根本上解决当今社会面临的能源短缺问题&…

GhostNetV2 Enhance Cheap Operation with Long-Range Attention 论文学习

论文地址&#xff1a;https://arxiv.org/abs/2211.12905 代码地址&#xff1a;https://github.com/huawei-noah/Efficient-AI-Backbones/tree/master/ghostnetv2_pytorch 解决了什么问题&#xff1f; 在计算机视觉领域&#xff0c;深度神经网络在诸多任务上扮演着重要角色。为…

数据结构(c):队列

目录 &#x1f37a;0.前言 1.什么是队列 2. 队列的实现 2.1定义队列节点 2.2定义队列 2.3队尾入队列 2.4判断队列是否为空 2.5队头出队列 2.6 队列首元素 2.7队尾元素 2.8队列内的元素个数 2.9销毁队列 3.试运行 &#x1f48e;4.结束语 &#x1f37a;0.前言 言C之…

揿针有危险吗?

点击文末领取揿针的视频教程跟直播讲解 揿针是一种特殊的针具&#xff0c;具有一定的危险性&#xff0c;可能会导致局部感染、疼痛、出血、神经损伤、气胸等危害。 具体体现在什么地方呢&#xff1f; 1、局部感染如果在进行揿针治疗时&#xff0c;没有严格进行无菌操作&#…