AI模型训练——入门篇(一)

前言

一文了解NLP,并搭建一个简单的Transformers模型(含环境配置)

一、HuggingFace 与NLP

自从ChatGPT3 问世以来的普及性使用,大家或许才真正觉察AI离我们已经越来越近了,自那之后大家也渐渐的开始接触stable diffusion、midjourney和vits …等等各类AI大模型,它覆盖了图、音、文、像各个网络领域。曾经出现在科幻片里的镜头,正在逐步成为现实。公司的前线开发人员、学校上学的学生、各行各业的人们都在这个时代尝试着学习AI,各类网站关于AI的知识也比比皆是,毋庸置疑,大家都在积极的拥抱其带给我们的变化。那身为一线开发人员的我们,更要去了解它,使用它,才能紧跟时代步伐。但要学好一门新事物,我们就要知其然,然后才能知其所以然。

不同类型的人工智能采用了各种不同的技术和方法,目前比较火的GPT则涉及了自然语言处理(NLP),顾名思义,是用来处理自然语言的模型(自然语言:人类日常所说的话),它可以用来摘要、翻译、情感分析…但我们也要明确,NLP它是一种”能力“而不是一种”方案“。这两者听起来相似,但其实是完全不同的。“能力”注重的是过程,“方案”注重的是结果。既然它是一种能力,也就是说我们要训练它,以达到能够进行类比分析的境界,而不是只为了解决当下的某一问题。举个例子或许你就会明白了,就像我们上学时学数学,我们学习了一个公式,通过发散思维,我们就可以利用它解决N+问题;但如果只是单纯背会了一道题的解题步骤,下次题稍微一变形就不会做了。这就是“能力——过程”与“方案——结果”的差别,读到这里,我相信你对于抽象的NLP已经有了一个初步的认知。

继续拿人类举例,就像是学生时代的我们,可能会背公式的人有 10 个,但是真正能发散思维解决各类问题的人也就 5 个。NLP也一样,有能力强差之分的。那在NLP的世界里,什么决定了它的能力水平呢?想一想我们会通过背大量的公式去提分吗?不会,大家一般都会在学习一个公式之后,通过做大量能用此公式解题的类型题,培养出相应的思维。诶!想到这那就简单了,NLP也是同样的道理,决定NLP能力的关键点其实就是数据量和参数量。所以对于开发人员来说,独自训练一个优秀的模型,简直是难于上青天,因为我们根本没有那么大量的数据集去供我们使用,那么我们自己能玩点什么呢?我们可以去用其他人训练好的模型,在应用层下手,这就好比我们可以不用将一个婴儿培养到高中,然后去让他做高中的题,而是我们直接去找一个高中生去做高中题,一切都显得简单起来了,不是吗?

那我们应该怎么开始入手 NLP呢?有了上文的铺垫,其实可以推理出对于开发者个体来说,想要快速取得一定成就,可以不去学习海量的传统算法(当然万事无绝对,功底深厚大佬除外), 业界已经有很多开箱即用的模型,像我这种小白…只要在这个基础上,继续发挥,站在巨人的肩膀上,才是理智的。

铺垫到此结束,有了上文,相信你一定已经很清楚的知道NLP是什么,并且也知道如何去学它了,接下来就请出我们的主角——HuggingFace。它就是我刚才所说的“巨人”——一个开箱即用的,包含了NLP所有核心模型的仓库,我们甚至只要使用一行代码,就可以调用一个很强的模型,喂一点我们的数据,就可以达到我们的想要的效果!怎么样,听到这我相信你一定很动心了,即便你的数学知识不好(传统算法里有很多数学概念),即使你的代码水平也一般般,甚至说是非 T族,对于代码只是略知一二,也是可以上手训练出一个属于你的模型~

二、来聊聊HuggingFace的诞生历程

大家绝对不会想到成立于 2016 年的HuggingFace,最初的开发者仅仅只有 30 位左右,而且还是兼职。那他们是怎么做到短短几年就创建了一个市值几十亿的公司呢?早几年的时候,对于NLP领域的研究还没有什么统一的标准或者规范。拿两个大厂举例,比如说Chrome,在当时使用的是TensorFlow,而 Facebook 使用的是PyTorch,还有一些中小厂也在使用各式各样的框架,大家若想要使用TensorFlow就必须去应用Chrome的源码,使用PyTorch就必须去应用Facebook的源码,复杂得很。也正是这种各自为政的现象,导致了整体行业发展受阻。于是,HuggingFace就提出来统一的思想,将个大中小厂的框架封装起来,无论你想用哪一个,直接调用HuggingFace提供的接口,就可以获取到想要的资源了。后来随着AI发展的火热,HuggingFace作为其元老级别的开源社区,也就理所当然的成为了业界唯一。

三、HuggingFace初体验

3.1环境安装

在这里插入图片描述
从上图中可以看到几大仓库的语言都是 Python,所以我们要配置Python 环境,这里直接用了 Miniconda,它比起Anaconda更轻便。以 mac 为例:

Miniconda安装

安装地址: https://mirrors.tuna.tsinghua.edu.cn/anaconda/miniconda/

大家可以根据自己的芯片以及习惯的安装方式下载对应包(X86_64:Inter芯片;arm64:Apple 芯片 ;.pkg:可视化安装;.sh:命令行安装)

本文用命令行继续进行安装,安装的版本是 py39。
在这里插入图片描述
安装好后,打开终端,进入.sh文件所在的路径下 ,输入一下命令:

代码如下(示例):

// 其中sh后填sh文件名,-b表示将环境变量自动写入到~/.bash文件,-p后面填安装路径
sh Miniconda3-py39_22.11.1-1-MacOSX-x86_64.sh -b -p ~/WorkSpace/SoftWare/miniconda

将miniconda路径写入shell配置。

source ~/WorkSpace/SoftWare/miniconda/bin/activate

此时若配置成功,则在命令行中看到有一个(base)前缀,如下图
在这里插入图片描述
初始化(shell类型可以在终端键入echo $SHELL 进行查看)

conda init zsh
//这里根据 shell 类型自行选择
conda init bash

最后重新打开终端就安装完毕了。(这里一定要重新启动一下,否则可能不好使,然后输入 conda ,若出现一下界面则安装成功)

在这里插入图片描述
conda环境创建
命令行输入(指定版本为py 3.9,版本过高可能会出错)

conda create -n transformers python=3.9

执行命令后,会询问是否安装一些包,键入y 即可。
在这里插入图片描述

// 查看有哪些虚拟环境

conda env list

在这里插入图片描述
可以看到,刚才创建的 transforms 已经存在于环境列表中了。至此,虚拟环境就已经创建成功了。然后进入该环境下:

conda activate transformers

可以看到此时已经成功进入新建的transformers 环境。

为了提速日后安装包的速度,可以将 pypi 配置清华的国内源,网址如下 https://mirrors.tuna.tsinghua.edu.cn/help/pypi/

这里,我直接设置为默认了。

pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple

pytorch环境安装

PyTorch是一个基于Torch的Python开源机器学习库,用于自然语言处理等应用程序。官网为: https://pytorch.org/ 这里我们最好选择 pip 安装,30xx 40xx显卡注意要安装cu11的版本

按照机器配置选择自己需要安装,

pip install torch==1.13.1 torchvision==0.14.1 torchaudio==0.13.1

依赖包安装
直接在终端中 pip install(这里安装了一些NLP训练中常用的,可以自己取舍,下文的 demo 只用到了transformers)

 pip install transformers evaluate peft datasets accelerate gradio optimum sentencepiece

看到 sucessfully就证明安装成功了
在这里插入图片描述
(ps:一点插曲)这里或许是因为我的电脑问题,在输入安装transformers命令后一直报错,如下图:
在这里插入图片描述

我尝试着按照提示 update 了 pip,仍是没有什么用…后来通过安装rus t解决了此问题

curl --proto '=https' --tlsv1.2 -sSf https://sh.rustup.rs | sh

其他要用到的包安装:

pip install jupyterlab scikit-learn pandas matplotlib tensorboard nltk rouge

安装成功也是会提示 successfuly。
配置 hosts文件
为了后期下载模型方便,在这里做一下 host 映射:

终端输入:

sudo vi /etc/hosts

添加一下代码:

185.199.108.133 raw.githubusercontent.com
185.199.109.133 raw.githubusercontent.com
185.199.110.133 raw.githubusercontent.com
185.199.111.133 raw.githubusercontent.com
2606:50c0:8000::154 raw.githubusercontent.com
2606:50c0:8001::154 raw.githubusercontent.com
2606:50c0:8002::154 raw.githubusercontent.com
2606:50c0:8003::154 raw.githubusercontent.com

然后 wq 保存一下即可。

3.2Transformers初体验(图生文)

经过上述的一系列操作我们已经可以成功在自己的电脑上简单的训练模型了,这里的编译器使用的是 Vscode,在应用商店下载Python 、Remote-SSH和Jupyter 三个插件即可:
在这里插入图片描述

登录HuggingFace官方网址 https://huggingface.co/models 下可以查看到目前所有的 transformers 的模型~如下图所示,选择一个图像转文本的功能,可以看到共有 223 个模型供我们使用。

在这里插入图片描述

假设我们选择Salesforce/blip-image-captioning-base 然后打开 Vscode ,传入一张图片,输入以下代码,

from transformers import pipelinedef imgToText(url):image_to_text = pipeline("image-to-text", model="Salesforce/blip-image-captioning-base")text = image_to_text(url)[0]["generated_text"]print(text)return textimgToText("./test.jpeg")

test.jpeg:
在这里插入图片描述

运行代码在终端输出的结果:
在这里插入图片描述

(ps:调试过程中产生的坑点)运行 py 文件的时候,一定要选择安装了对应 pip 包的环境,因为我电脑上有好几种 py 版本,而我的 pip 包安装在了 conda transformers 虚拟环境中,vscode 默认运行的时候加载了我的全局 py,就会导致找不到想要 import 的包,这里推荐一个vscode插件。
在这里插入图片描述

在这里插入图片描述

可以清楚的看到,自己的 py 版本,输入 pip list 就可以查看当前 py 环境下的 pip 有哪些,然后 ctrl+p 打开设置搜索,设置python 解释器为有所需要的 pip 包的 py 环境即可解决安装成功但是找不到包的情况啦~

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/231344.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【开源】基于Vue.js的大病保险管理系统的设计和实现

项目编号: S 031 ,文末获取源码。 \color{red}{项目编号:S031,文末获取源码。} 项目编号:S031,文末获取源码。 目录 一、摘要1.1 项目介绍1.2 项目录屏 二、功能模块2.1 系统配置维护2.2 系统参保管理2.3 大…

python安装PyHook3

pyhook 报错 “TypeError: KeyboardSwitch() missing 8 required positional arguments: ‘msg’, ‘vk_code’, ‘scan_code’, ‘ascii’, ‘flags’, ‘time’, ‘hwnd’, and ‘win_name’” 一、PyHook3简介 pyHook包为Windows中的全局鼠标和键盘事件提供回调。Python应…

测绘地理信息安全保密管理制度文件

测绘地理信息安全保密管理制度文件 建立健全测绘地理信息安全保密管理制度。明确涉密人员管理、保密要害部门部位管理、涉密设备与存储介质管理、涉密测绘成果全流程保密、保密自查等要求。

【知识】简单理解为何GCN层数越多越能覆盖多跳邻居聚合信息范围更广

转载请注明出处:小锋学长生活大爆炸[xfxuezhang.cn] 背景说明 大多数博客在介绍GCN层数时候,都会提到如下几点(经总结): 在第一层,节点聚合来自其直接邻居的信息。在第二层,由于每个节点现在包含了其直接邻居的信息&a…

C++ day44完全背包问题 零钱兑换Ⅱ 组合总和Ⅳ

完全背包:一个物品可以使用无数次,将01背包中倒序遍历背包变成正序遍历背包 遍历顺序:在完全背包中,对于一维dp数组来说,其实两个for循环嵌套顺序是无所谓的! 先遍历物品,后遍历背包可以&#…

LeetCode [简单](非递归)二叉树的中序遍历

遍历左孩子,将他们放进栈中,左边走到尽头,出栈,root变为栈顶元素,存值,向右边走一个 再次遍历左孩子,将他们放入栈中,如果没有左孩子了,就出栈,root变为栈顶…

网页能做二维码吗?1分钟学会链接转码的方法

想要将链接做成二维码图片,让他人通过扫码跳转链接以提高网页的传播性,是现在很常用的一种手段。主要在于二维码是现在最常用的一种展现方式,更加符合现在人的行为习惯,那么网址二维码该如何操作呢?今天小编给大家讲解…

网络层协议-IP协议

目录 基本概念IP协议格式分片与组装分片组装 网段划分特殊的IP地址IP地址的数量限制私有IP地址和公网IP地址路由 基本概念 TCP作为传输层控制协议,其保证的是数据传输的可靠性和传输效率,但TCP提供的仅仅是数据传输的策略,而真正负责数据在网…

DCGAN 使用指南:将卷积神经网络和对抗网络结合,适用于生成小尺寸的图像

DCGAN 使用指南:将卷积神经网络和对抗网络结合 网络结构细节设计 论文地址:https://arxiv.org/abs/1511.06434 项目代码:https://github.com/tensorlayer/DCGAN.git DCGAN 适用于生成小尺寸的图像,并且具有简单易用的优势 Styl…

了解HashMap底层数据结构吗

程序员的公众号:源1024,获取更多资料,无加密无套路! 最近整理了一份大厂面试资料《史上最全大厂面试题》,Springboot、微服务、算法、数据结构、Zookeeper、Mybatis、Dubbo、linux、Kafka、Elasticsearch、数据库等等 …

Spark将execl表格文件导入到mysql中

实现代码 excel所需的pom依赖 案例实现 实现代码 package excel_mysqlimport org.apache.spark.sql.SparkSession import java.util.Propertiesobject t1 {def main(args: Array[String]): Unit {val spark SparkSession.builder().appName("ExcelToMySQL") /…

视频剪辑技巧:批量剪辑新思路,AI智剪来助阵

在视频制作过程中,剪辑是一项至关重要的任务。然而,对于许多创作者来说,批量剪辑视频是一项耗时且繁琐的工作。传统的批量剪辑方法通常要创作者逐个打开视频文件,进行剪辑、调整色彩等操作。这种方法不仅效率低下,而且…