【huggingface】数据集及模型下载并保存至本地

目录

    • 数据集
      • ChnSentiCorp
      • peoples_daily_ner
    • 模型
      • bert-base-chinese
      • hfl/rbt3
      • t5-base
      • opus-mt-zh-en
      • Chinese_Chat_T5_Base

环境:没有代理,无法访问部分国外网络

数据集

正常情况下通过load_dataset加载数据集;save_to_disk保存至本地;load_from_disk读取本地数据集。
但由于网络原因,load_dataset加载数据集大多数时候会失败,因此针对不同数据集需要研究如何加载。
思路主要分为
1、 git lfs clone下载huggingface数据集
2、研究.py代码,获取原始数据
3、load_dataset加载,save_to_disk保存

ChnSentiCorp

用于中文情感分析,标记了每条评论的情感极性(0或1)

  1. 数据集地址:seamew/ChnSentiCorp,可见三个.arrow文件即为原始数据。
    在这里插入图片描述

  2. git下载数据集:git lfs clone https://huggingface.co/datasets/seamew/ChnSentiCorp

  3. git下载的文件无法直接使用:

    • load_dataset会执行.python文件,通过https://drive.google.com下载数据导致下载失败报错
    • load_from_disk会执行失败,因为该文件夹非dist数据集格式在这里插入图片描述
  4. 加载.arrow原始数据并保存

    # 设置data_files 
    data_files = {'train': './data/ChnSentiCorp/chn_senti_corp-train.arrow','test': './data/ChnSentiCorp/chn_senti_corp-test.arrow','validation': './data/ChnSentiCorp/chn_senti_corp-validation.arrow'}
    # 加载arrow数据集
    dataset = load_dataset('arrow', data_files=data_files)
    # 保存至本地
    dataset.save_to_disk('./huggingface/hub/datasets/chn_senti_corp')
    

    保存在本地的数据集:
    在这里插入图片描述

  5. 加载保存至本地的数据集

    dataset = load_from_disk('./huggingface/hub/datasets/chn_senti_corp')
    

peoples_daily_ner

用于中文命名实体识别(NER),来自人民日报的文本数据,标记了人名、地名 、组织机构等

  1. 数据集地址:peoples_daily_ner,并无原始数据文件。
    在这里插入图片描述

    研究.py:虽然raw.githubusercontent.com无法发访问,但可通过https://github.com/OYE93/Chinese-NLP-Corpus/tree/master/NER/People's%20Daily去下载原始数据

    在这里插入图片描述在这里插入图片描述

  2. git下载数据集:git lfs clone https://huggingface.co/datasets/peoples_daily_ner

  3. git下载原始数据:example.trainexample.devexample.test
    在这里插入图片描述

  4. 将原始数据放在huggingface数据集文件夹内,并修改.py内_URL为本地路径
    在这里插入图片描述

    # _URL = "https://raw.githubusercontent.com/OYE93/Chinese-NLP-Corpus/master/NER/People's%20Daily/"
    _URL = ""
    _TRAINING_FILE = "example.train"
    _DEV_FILE = "example.dev"
    _TEST_FILE = "example.test"
    
  5. 即可通过load_dataset加载

    dataset = load_dataset('./data/peoples_daily_ner')
    dataset.save_to_disk('./huggingface/hub/datasets/peoples_daily_ner')
    

模型

模型则要简单许多,直接通过git lfs clone下载至本地保存即可

bert-base-chinese

基于BERT架构的中文预训练模型,使用了中文维基百科进行预训练,能对中文文本进行深度的理解和分析。

git lfs clone https://huggingface.co/bert-base-chinese

from transformers import BertTokenizer,BertModel
tokenizer = BertTokenizer.from_pretrained('./huggingface/hub/models/bert-base-chinese')
pretrained= BertModel.from_pretrained('./huggingface/hub/models/bert-base-chinese')

hfl/rbt3

哈工大未来语言智能实验室(HFL)开发的中文预训练模型RBT3的版本,使用了中文维基百科和百度文库(Baidu Wenku)进行预训练。

git lfs clone https://huggingface.co/hfl/rbt3

from transformers import AutoTokenizer
from transformers import AutoModel
tokenizer = AutoTokenizer.from_pretrained('./huggingface/hub/models/hfl___rbt3')
pretrained= AutoModel.from_pretrained('./huggingface/hub/models/hfl___rbt3')

t5-base

基于T5(Text-to-Text Transfer Transformer)架构的预训练模型,使用海量的文本数据进行训练,可以用于多种自然语言处理任务。虽然这个模型并不是专门针对中文的,但也可以在中文处理任务中应用。

opus-mt-zh-en

基于神经机器翻译的中文到英语的预训练模型,由牛津大学和阿里巴巴达摩院联合开发,可以用于中文到英语的翻译任务。

Chinese_Chat_T5_Base

中文版对话机器人,在1300w+问答和对话数据上做有监督预训练。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/102212.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Docker构建Springboot项目,并发布测试

把SpringBoot项目打包成Docker镜像有两种方案: 全自动化:先打好docker镜像仓库,然后在项目的maven配置中配置好仓库的地址,在项目里配置好Dockerfile文件,这样可以直接在idea中打包好后自动上传到镜像仓库&#xff0c…

别来!这所院校性价比太低了!

一、学校及专业介绍 浙江工商大学(Zhejiang Gongshang University),简称“浙商大”(ZJSU),坐落于浙江省杭州市,是中华人民共和国教育部、中华人民共和国商务部和浙江省人民政府共建的浙江省重点…

【数学建模竞赛】Matlab逻辑规则,结构基础及函数

逻辑基础 逻辑变量 在Matlab中,逻辑变量是一种特殊类型的变量,用于表示逻辑值。逻辑变量只有两个可能的值:true(真)和false(假)。在Matlab中,我们可以使用0和1来表示逻辑变量的值。…

Windows模拟器推荐

物是人非事事休,欲语泪先流 Windows模拟器推荐 如果你需要在 Windows 操作系统之外运行 Windows 应用程序或测试不同版本的 Windows,有几个 Windows 模拟器和虚拟机软件可供选择。以下是一些常用的 Windows 模拟器和虚拟机软件: VirtualBox&…

3dMax全球学习资源、资源文件和教程 !

此样例教育教程和学习资源旨在提供使用Autodesk 3ds Max时的计划知识和培训、正确的工作流、流程管理和最佳实践。 您在Autodesk三维设计领域的职业生涯 有关使用3ds Max和Maya在计算机图形领域开始职业生涯的提示(包括新的3ds Max和Maya介绍教程,以复…

每日刷题|回溯法解决全排列问题

​ 食用指南:本文为作者刷题中认为有必要记录的题目 前置知识:回溯法经典问题之组合 ♈️今日夜电波:爱人错过—告五人 1:11 ━━━━━━️💟──────── 4:52 …

OpenCV之形态学操作

形态学操作包含以下操作: 腐蚀 (Erosion)膨胀 (Dilation)开运算 (Opening)闭运算 (Closing)形态梯度 (Morphological Gradient)顶帽 (Top Hat)黑帽(Black Hat) 其中腐蚀和膨胀操作是最基本的操作,其他操作由这两个操作变换而来。 腐蚀 用一个结构元素…

前端的规范

假如团队中的小伙伴在提交代码时没有遵循规范要求,只写了一个"fix"或"update,这会给其他小伙伴造成困扰,不得不花时间查看代码和推测逻辑。 不仅会浪费了时间和精力,可能会导致项目以下问题: 可读性差…

新能源商用车软件开发设计规范

目 录 前 言.............................................................................................................. 1 1 范围............................................................................................................... 2 2 规范性…

腾讯云-对象存储服务(COS)的使用总结-JavaScript篇

简介 对象存储(Cloud Object Storage,COS)是腾讯云提供的一种存储海量文件的分布式存储服务,具有高扩展性、低成本、可靠安全等优点。通过控制台、API、SDK 和工具等多样化方式,用户可简单、快速地接入 COS&#xff0…

单片机有哪些分类?

单片机有哪些分类? 1.AVR单片机-----速度快,一个时钟周期执行一条指令,而普通的51单片机需要12个时钟周期执行一条指令。当然,Atmel公司出品的AT89LP系列单片机也是一个时钟执行一条指令,但目前还未普及。AVR单片机比51单片机多…

Linux修复损坏的文件系统

如何判断文件系统是否损坏 当文件系统受损时,将会出现一些明显的迹象。例如,文件或文件夹无法访问、文件大小异常、系统启动慢或无法启动等。此外,系统也可能发出一些错误信息,如"Input/output error"、"Filesyst…