LLM时代,数据为王,19个开源数据集下载网站汇总

大模型时代,数据为王,在哪里寻找开源数据集,是一个比较头疼的问题。经过调研整理,下面列出了目前可以寻找开源大模型数据集的网站清单。

1、HuggingFace开源数据集

链接:https://huggingface.co/datasets

镜像:https://hf-mirror.com/datasets

图片

2、OpenDataLab开源数据集

链接:https://opendatalab.com/

图片

3、AWS亚马逊开源数据集

链接:https://registry.opendata.aws/

图片

4、微软开源数据集

链接:https://www.microsoft.com/en-us/research/tools/

图片

5、谷歌开源数据集

链接:https://datasetsearch.research.google.com/

图片

6、GitHub开源数据集

链接:https://github.com/awesomedata/awesome-public-datasets

图片

7、ModelScope开源数据集

链接:https://modelscope.cn/datasets

图片

8、LUGE千言开源数据集

链接:https://www.luge.ai/

图片

9、TIANCHI天池开源数据集

链接:https://tianchi.aliyun.com/dataset/

图片

10、kaggle开源数据集

链接:https://www.kaggle.com/datasets

图片

11、UCI开源数据集

链接:https://archive.ics.uci.edu/datasets

图片

12、计算机视觉开源数据集

链接:https://visualdata.io/discovery

图片

13、Dataju聚数力开源数据集

链接:http://dataju.cn/Dataju/web/home

图片

14、Hyper超神经开源数据集

链接:https://hyper.ai/datasets

图片

15、BAAI开源数据集

链接:https://data.baai.ac.cn/data

图片

16、百度飞桨开源数据集

链接:https://aistudio.baidu.com/datasetoverview

图片

17、payititi帕衣提提开源数据集

链接:https://www.payititi.com/opendatasets/

图片

18、启智开源数据集

链接:https://openi.pcl.ac.cn/explore/datasets

图片

19、和鲸开源数据集

链接:https://www.heywhale.com/home/dataset

图片

希望以上开源数据集网站清单,能对您训练大模型有所帮助,持续关注开源数据集,为持续大模型输送语料。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/258656.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

手持风速风向仪一款便携的气象仪

你曾经有过这样的经历吗?在野外露营,却无法知道风的方向和速度,或者在海洋上航行,却无法预测天气的变化。现在,我们有了手持风速风向仪,一切困扰都将烟消云散。 WX-QX20手持风速风向仪是一种科技感十足的设…

ABP vNext 扩展 CurrentUser

ABP内置Users表,我们可以对其字段进行扩展,辅助进行更详细的数据记录 ICurrentUser 是主要的服务,用于获取有关当前活动的用户信息. 以下是 ICurrentUser 接口的基本属性:1. IsAuthenticated 如果当前用户已登录(已认证),则返回 true. 如果用户尚未登录…

采用轨到轨输出设计 LTC6363HMS8-2、LTC6363HMS8-1、LTC6363HRD、LTC6363IDCB差分放大器I

产品详情 LTC6363 系列包括四个全差分、低功耗、低噪声放大器,具有经优化的轨到轨输出以驱动 SAR ADC。LTC6363 是一款独立的差分放大器,通常使用四个外部电阻设置其增益。LTC6363-0.5、LTC6363-1 和 LTC6363-2 都有内部匹配电阻,可分别创建…

为什么感染HPV的人越来越多?劲松中西医结合医院专家发表看法

近年来,HPV感染率在我国呈现上升趋势,引起了社会的广泛关注。HPV是一种人乳头瘤病毒,主要通过性接触传播,也是引起宫颈癌的主要原因之一。那么,为什么我国的HPV感染率如此高呢? 首先,我们需要了…

机器学习基础知识分享:深度学习

深度学习(Deep Learning)是近年来发展十分迅速的研究领域,并且在人工智能的很多子领域都取得了巨大的成功.从根源来讲,深度学习是机器学习的一个分支,是指一类问题以及解决这类问题的方法。 深度学习 为了…

2023年12月8日:UI登陆界面

作业 头文件 #ifndef WIDGET_H #define WIDGET_H#include <QWidget> #include <QMovie> #include <QPushButton> #include <QDebug>QT_BEGIN_NAMESPACE namespace Ui { class Widget; } QT_END_NAMESPACEclass Widget : public QWidget {Q_OBJECTpub…

P3 Qt 控件 —— pushButton

前言 &#x1f3ac; 个人主页&#xff1a;ChenPi &#x1f43b;推荐专栏1: 《C_ChenPi的博客-CSDN博客》✨✨✨ &#x1f525; 推荐专栏2: 《Linux C应用编程&#xff08;概念类&#xff09;_ChenPi的博客-CSDN博客》✨✨✨ &#x1f33a;本篇简介 &#xff1a;这一章我们学一…

【Go】protobuf介绍及安装

目录 一、Protobuf介绍 1.Protobuf用来做什么 2. Protobuf的序列化与反序列化 3. Protobuf的优点和缺点 4. RPC介绍 <1>文档规范 <2>消息编码 <3>传输协议 <4>传输性能 <5>传输形式 <6>浏览器的支持度 <7>消息的可读性和…

luceda ipkiss教程 42:获取版图所有的电端口

通过判断版图端口的domain.name&#xff0c;可以知道端口是电端口还是光端口&#xff1a; 如&#xff1a; 可以通过如下代码获取两个电端口&#xff08;anode和cathode&#xff09;的信息&#xff1a; from si_fab import all as pdkdef get_electrical_ports(layout):ports …

广州华锐互动:VR汽车构造虚拟仿真平台开启全新汽车购买体验

随着科技的不断发展&#xff0c;虚拟现实&#xff08;VR&#xff09;技术已经逐渐渗透到我们生活的各个领域&#xff0c;为我们带来了前所未有的沉浸式体验。在汽车行业&#xff0c;VR技术的应用也日益广泛&#xff0c;尤其是在汽车展示和销售环节。今天&#xff0c;我们就来聊…

iOS Swift 代码格式化工具

如果你的代码写得很乱&#xff0c;想一键盘整理代码&#xff0c;像大家推荐一款工具 &#xff08;PS&#xff1a;Xcode本身并没有代码格式化工具&#xff0c;这款工具为第三方开发的&#xff09; 这款工具名为&#xff1a;SwiftFormat 1&#xff1a;在GitHub上搜索“SwiftFo…

机器学习第15天:GBDT模型

☁️主页 Nowl &#x1f525;专栏《机器学习实战》 《机器学习》 &#x1f4d1;君子坐而论道&#xff0c;少年起而行之 ​​ 文章目录 GBDT模型介绍 Boosting 残差 GBDT的缺点 python代码实现 代码 模型参数解释 结语 GBDT模型介绍 GBDT&#xff08;Gradient Boos…