引言
在深度学习的应用中,数据被认为是最重要的因素之一。因此,选择一个好的数据集对于深度学习的成功至关重要。在选择数据集时,不仅需要关注数据量的大小、多样性以及质量,还要考虑数据集是否代表了所研究问题的真实情况。本文整理了当前深度学习领域公开的数据集,供大家训练模型时选择和使用。
1 综合数据集
1.1 kaggle数据集
kaggle是规模最大的在线数据集存储库之一,涵盖体育、医学和政府等一系列主题。它的平台由社区主导,这意味着用户可以上传自己的数据集。鉴于 Kaggle 的数据来源多种多样,彻底检查您取自其中的数据集的质量非常重要。此外,Kaggle 还提供关于机器学习主题的讨论以及关于关键流程的教程。
地址:kaggle datasets
1.2 AI Studio数据集
百度推出的AI Studio是一个一站式开发平台:囊括了 AI 教程、代码环境、算法算力、数据集,并提供免费的在线云计算,是一个一体化编程环境。
地址:AI Studio数据集
1.3 天池数据集
天池数据集是阿里集团对外开放的科研数据平台,由阿里巴巴集团业务团队和外部研究机构联合提供,覆盖了电商、娱乐、物流、医疗健康、交通、工业、自然科学、能源等十多个行业,涵盖了数据挖掘、机器学习、计算机视觉、自然语言处理、决策智能等经典的人工智能技术领域。
地址:tianchi datasets
1.4 Graviti 数据集
Graviti 是一个提供公开数据集的平台,你可以很方便的搜索你想要的数据,可在线预览样例数据、标注、标签。Graviti 收录了 400 多个高质量 CV 类数据集,覆盖无人驾驶、智慧零售、机器人等多种 AI 应用领域。
地址:graviti datasets
1.7 papers with code
有超过四千个数据集(还在不断增加)。这些数据集由社区上传。您可以按模态、任务和语言轻松地筛选这些数据集。数据库中还包含指向其他数据库的链接,后者也提供多种数据集。
地址:papers with code datasets
1.8 DataFlair
DataFlair链接到 70 多个机器学习数据集,还包括源代码和项目思路等有用信息。例如,在包含手写数字的数据集列表中,DataFlair 建议创建图像分类算法来识别纸张中的手写数字。利用该网站可以启发新思路。
地址:data flair
1.9 EliteDataScience
EliteDataScience包括免费数据集和最热门的聚合器的精选列表。这些数据集按用例组织,其中包括可用于深度学习、自然语言处理、网络抓取等的数据集。
地址:elitedatascience
1.10 UCI数据集
UCI 拥有 500 多个机器学习数据集,可按文件类型、任务、应用领域和主题进行排序。其中许多数据集都包含可用于基准测试的学术论文链接。最古老的数据集源之一,是寻找有趣数据集的第一站。虽然数据集是用户贡献的,因此具有不同的清洁度,但绝大多数都是干净的,可以直接从UCI机器学习库下载,无需注册。
地址:uci dataset
1.11 github公开数据集
github公开数据集提供公共数据集的开源集合。您可以在其中查看目录,选择一个主题,主题涵盖农业、交通等领域。Github 还包括一般机器学习模型的集合。大多数链接的数据集都是免费的。
地址:github datasets
1.12 Azure数据集
Microsoft Azure 拥有一个公共数据集数据库,开发人员可将其用于原型设计和测试。数据库类别包括美国政府和机构数据、其他统计和科学数据以及在线服务数据。此外,您还可以在其中阅读有关 SQL 以及如何构建移动和 Web 应用程序的文档。
地址:azure datasets
2 计算机视觉数据集
2.1 ImageNet数据集
ImageNet数据集是当今深度学习应用领域中最为流行的数据集之一,其包含了大量的图像数据及标注。ImageNet数据集的标注涵盖了所有的大类别、中类别和小类别,其中大类别越通用,小类别越具体,这一特征使得该数据集适合进行图像分类问题的研究。
地址:ImageNet数据集
2.2 COCO数据集
全称为“Microsoft Common Objects in Context Dataset”,COCO数据集是一个可用于图像检测(image detection),语义分割(semantic segmentation)和图像标题生成(image captioning)的大规模数据集。它有超过330K张图像(其中220K张是有标注的图像),包含150万个目标,80个目标类别(object categories:行人、汽车、大象等),91种材料类别(stuff categoris:草、墙、天空等),每张图像包含五句图像的语句描述,且有250,000个带关键点标注的行人。
地址:coco dataset
2.3 IMDB-Wiki数据集
IMDB-Wiki数据集提供最大的人脸图像集合,拥有超过 500,000 张图像。许多图像来自名人和维基百科。每张图像都附有性别和年龄标签。
地址:imdb datasets
2.4 LabelMe数据集
使用LabelMe标注工具构建。该工具使用户能够勾勒出对象的轮廓,并为对象添加标签。这个数据集可用于图像识别项目。
地址:labelme datasets
2.5 chars74k数据集
chars74k包括 74,000 张图像。数据包括自然图像中的字符识别(例如,餐厅标志的图像)
地址:chars74k datasets
2.6 Kinetics-700数据集
Kinetics-700包含一系列主要标注为人类行为的 YouTube 视频链接。其中有超过 65 万个视频片段,涵盖 700 种人类行为。
地址:kinetics-700 datasets
2.7 Places2 Database
Places2 Database是麻省理工学院发布的数据集,包含超过 1,000 万张图像,涵盖 400 多个场景。它对场景分类和场景解析等项目很有帮助。
地址:places2 datasets
2.8 MPII人体姿态数据集
MPII人体姿态数据集包括约 25,000 张涉及 410 个人体姿态的图像。图像中包含大约 40,000 个不同的人,每张图像都标注了人体关节。这些图像收集自 YouTube 视频。
地址:human-pose datasets
2.9 Open Images数据集
Open Images是由谷歌发布的一个开源图片数据集,在2022年10月份发布了最新的V7版本。这个版本的数据集包含了900多万张图片,都有类别标记。其中190多万张图片有非常精细的标注。Open Images可以用于许多不同的应用程序,包括图像分类、目标检测、图像分割和图像生成等。
地址:open images dataset
2.10 Cityscapes数据集
Cityscapes是一个城市街景语义分割数据集,包含来自德国50个城市的3257幅高分辨率图像。数据集中涵盖了早晨、白天和夜晚等不同照明情况下的街景图像。每个图像的分辨率为2048x1024,并针对多种标签包括建筑物、道路和行人等进行了专业的标注。数据集还提供了用于训练、验证和测试的列表,以及基准性能指标。Cityscapes数据集的引入将有助于推动城市场景分析的发展,为深度学习算法的研究和应用提供了更多的可能性。
地址:cityscapes dataset
2.11 搜狗数据集
互联网图片库来自sogou图片搜索所索引的部分数据。其中收集了包括人物、动物、建筑、机械、风景、运动等类别,总数高达2,836,535张图片。对于每张图片,数据集中给出了图片的原图、缩略图、所在网页以及所在网页中的相关文本。200多G
地址:http://www.sogou.com/labs/dl/p.html
2.12 IMAGECLEF数据集
IMAGECLEF致力于位图片相关领域提供一个基准(检索、分类、标注等等) Cross Language Evaluation Forum (CLEF) 。从2003年开始每年举行一次比赛.
地址:http://www.imageclef.org/
3 自然语言处理数据集
3.1 Google Blogger Corpus
Google Blogger Corpus包括来自 blogger.com 的近 700,000 篇博客文章。每一篇文章至少有 200 个英语单词。总体而言,这些博客文章包含许多常见的英语单词。
地址:BlogCorpus datasets
3.2 Yelp Reviews
Yelp Reviews数据集涵盖餐厅的排名和评论,包含与此主题相关的丰富信息。该数据集中的评论可用于情感分析项目。
地址:yelp dasets
3.3 WikiQA语料库
WikiQA语料库是一个问答数据集,由 Bing 搜索数据编译而成。它包括 3,000 多个问题,提供 29,000 个回答句,其中 1,500 个标注为回答句。
地址:WikiQA Corpus
3.4 WordNet
WordNet是一个按词义分组的英语单词数据库。共有 117,000 个同义词集(根据同义词配对的单词),然后链接到相关的同义词集。可以在文本分类项目中使用。
地址:wordnet datasets
3.5 OpinRank数据集
OpinRank数据集包含来自 Edmunds 和 TripAdvisor 的 300,000 条评论。它们根据旅游目的地、酒店和其他相关因素分类。
地址:OpinRank datasets
3.6 多域情感数据集
多域情感数据集包括Amazon.com四个领域的产品评论:DVD、书籍、厨房和电子产品。每个领域都有几千条评论,附有 1-5 星评级。顾名思义,这个数据集对情感分析项目很有用。
地址:mdredze datasets
3.7 Twitter情感分析数据集
Twitter情感分析数据集包括超过 150 万条分类推文。数据集的每一行都有一个排名:1 表示正面情绪,0 表示负面情绪。
地址:twitter-sentiment datasets
3.8 Newsgroups数据集
Newsgroups包含 20,000 个文档,顾名思义,它来自 20 多个不同的新闻组。它包含的主题很多,其中一些主题相对相似。该数据集包括三个版本:一个是初始版本,一个是删除日期的版本,还有一个是删除重复的版本。
地址:20Newsgroups datasets
3.9 HuggingFace 数据集
HuggingFace数据集包括611 个文本数据集,可以下载以准备在一行 python 中使用;涵盖 467 种语言,其中 99 种包含至少 10 个数据集;
地址:huggingface datasets
4 音视频数据集
4.1 M-AI Labs语音数据集
M-AI Labs语音数据集包括近 1,000 小时的音频与转录。包括使用多种语言的男性和女性语音。
地址:MAI labs datasets
4.2 LibriSpeech
LibriSpeech包括大约 1000 小时的语音数据,这些数据已经被分段和对齐。这些数据编译自 LibriVox 项目的有声读物。
地址:Librispeech datasets
5 数据集搜索
5.1 谷歌数据集搜索
Google 提供一个数据集搜索引擎,您可以在其中按名称搜索数据集。该引擎允许您按多种功能对数据集进行排序,例如文件类型、主题、最新更新和相关性。它还可以从互联网上的数千个数据库中获取数据集,因此您可以真正地通过广泛的选项进行搜索。数据集的上传者包括众多国际组织,如哈佛大学和世界卫生组织。
地址:google dataset search
5.2 clue数据集检索
中文语言理解测评基准,包括代表性的数据集、基准(预训练)模型、语料库、排行榜。我们会选择一系列有一定代表性的任务对应的数据集,做为我们测试基准的数据集。这些数据集会覆盖不同的任务、数据量、任务难度。
地址:cluebenchmarks
5.3 visualdata数据集
visualdata包含了一些用于构建计算机视觉模型的优秀数据集,用户可通过某个CV主题查询,例如语义分割、图像标题、图像生成、自动驾驶汽车等内容。
地址:visualdata
6 具体数据集
6.1 医疗图像数据集
肺结节数据库LIDC-IDRI:cancer image
乳腺图像数据库DDSM MIAS:乳腺图像数据库
医学图像问答:medical-image-faq
右心室分割挑战赛(2012):mr-images
肺癌分类比赛:http://data-science-bowl-2017
分割肺癌(Kaggle):finding-lungs-in-ct
肺癌数据库:cancer image
医学影像数据集:medical-data
医疗影像分析:grand-challenge
6.2 Kaggle竞赛数据集
- 书籍推荐数据集(goodreads/上万图书/百万评价)【Kaggle】https://www.kaggle.com/zygmunt/goodbooks-10k
- 带有预期点数和获胜概率的NFL比赛详情数据集(2009-2016)【Kaggle】https://www.kaggle.com/maxhorowitz/nflplaybyplay2009to2016
- HackerNews数据集(2006年以来约1/4文章) 【Kaggle】https://www.kaggle.com/hacker-news/hacker-news-corpus
- 酒店评价数据集【Kaggle】https://www.kaggle.com/datafiniti/hotel-reviews
- 1950年以来NBA球员状态&表现数据集【Kaggle】https://www.kaggle.com/drgilermo/nba-players-stats
- 【Kaggle竞赛】人脸关键点标定竞赛数据:https://www.kaggle.com/c/facial-keypoints-detection
- 【Kaggle竞赛】根据手机应用软件使用行为预测用户性别年龄竞赛数据:http://dataju.cn/Dataju/web/datasetInstanceDetail/332
- 【Kaggle竞赛】DSTL 卫星图像识别竞赛数据:https://www.kaggle.com/c/dstl-satellite-imagery-feature-detection
- 【Kaggle竞赛】猫和狗图像分类数据:https://www.kaggle.com/c/dogs-vs-cats-redux-kernels-edition
- 【Kaggle竞赛】根据安检人体扫描成像预测威胁竞赛:https://www.kaggle.com/c/passenger-screening-algorithm-challenge
- 【Kaggle竞赛】泰坦尼克灾难数据:https://www.kaggle.com/c/titanic
- 【Kaggle竞赛】费城犯罪记录数据:https://www.kaggle.com/mchirico/philadelphiacrimedata
- 【Kaggle竞赛】广告实时竞价数据:https://www.kaggle.com/zurfer/rtb
- 【Kaggle竞赛】新闻和网页内容推荐及点击竞赛:https://www.kaggle.com/c/outbrain-click-prediction
- 【Kaggle数据】IMDB五千部电影数据:https://www.kaggle.com/deepmatrix/imdb-5000-movie-dataset
- 【Kaagle数据】欧洲足球运动员赛事表现数据:https://www.kaggle.com/hugomathien/soccer
- 【Kaagle数据】世界各国经济发展数据:https://www.kaggle.com/worldbank/world-development-indicators
- 开普勒太空望远镜深空星球光强时序数据集【Kaggle】https://www.kaggle.com/keplersmachines/kepler-labelled-time-series-data
- 巴基斯坦无人机袭击数据集(2004-2016)【Kaggle】https://www.kaggle.com/zusmani/pakistandroneattacks
- 墨尔本房屋市场数据集【Kaggle】https://www.kaggle.com/anthonypino/melbourne-housing-market
- 1789-2016历任美国总统签署行政命令数据集【Kaggle】https://www.kaggle.com/nationalarchives/executive-orders
- 来自Stack Overflow平台的Python语言问答数据集【Kaggle】https://www.kaggle.com/stackoverflow/pythonquestions
- 来自Stack Overflow品台的R语言问答数据集【Kaggle】https://www.kaggle.com/stackoverflow/rquestions
- 每日海冰范围数据集【Kaggle】https://www.kaggle.com/nsidcorg/daily-sea-ice-extent-data
- NIPS(1987-2016)论文数据集【Kaggle】 https://www.kaggle.com/benhamner/nips-papers
- 美国股票新闻数据【Kaggle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/220
- 美国医疗保险市场数据【Kaggle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/225
- 美国金融客户投诉数据【Kaggle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/229
- Lending Club 网贷违约数据【Kaggle数据】 http://dataju.cn/Dataju/web/datasetInstanceDetail/206
- 信用卡欺诈数据【Kaggle 数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/206
- 美国股票数据XBRL【Kaggle数据】 http://dataju.cn/Dataju/web/datasetInstanceDetail/214
- 纽约股票交易所数据【Kaggle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/214
- 贷款违约预测竞赛数据【Kaggle竞赛】http://dataju.cn/Dataju/web/datasetInstanceDetail/249
- Zillow 网站房地产价值预测竞赛数据【Kaggle竞赛】 http://dataju.cn/Dataju/web/datasetInstanceDetail/249
- Sberbank 俄罗斯房地产价值预测竞赛数据【Kaggle竞赛】 http://dataju.cn/Dataju/web/datasetInstanceDetail/266
- Homesite 保险定价竞赛数据【Kaggle竞赛】 http://dataju.cn/Dataju/web/datasetInstanceDetail/336
- Winton 股票回报率预测竞赛数据【Kaggle竞赛】 http://dataju.cn/Dataju/web/datasetInstanceDetail/347?match
- 【Kaggle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/324
- Amazon 无锁手机评论数据http://dataju.cn/Dataju/web/datasetInstanceDetail/349
- 【Kaggle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/364
- 【Kaggle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/207
- Kaggle 各项竞赛情况数据【Kaggle数据】 http://dataju.cn/Dataju/web/datasetInstanceDetail/207
- Bosch 生产流水线降低次品率竞赛数据【Kaggle竞赛】http://dataju.cn/Dataju/web/datasetInstanceDetail/208
- 在线广告实时竞价数据【Kaggle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/337
- 购物车商品关联竞赛数据【Kaggle竞赛】 http://dataju.cn/Dataju/web/datasetInstanceDetail/335
- Airbnb 新用户的民宿预定预测竞赛数据【Kaggle竞赛】 http://dataju.cn/Dataju/web/datasetInstanceDetail/333
- 食物营养成分数据 【Kaggle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/80
- EGG 大脑电波形状数据【Kaggle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/79
- 某人基因序列数据【Kaggle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/121
- 癌症CT影像数据【Kaggle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/242
- 软组织肉瘤CT图像数据【Kaggle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/124
- 猫和狗分类识别竞赛数据【Kaggle竞赛】http://dataju.cn/Dataju/web/datasetInstanceDetail/318
- DSTL 卫星图像识别竞赛数据【Kaggle竞赛】http://dataju.cn/Dataju/web/datasetInstanceDetail/328
- 根据手机应用软件使用行为预测用户性别年龄竞赛数据【Kaggle竞赛】 http://dataju.cn/Dataju/web/datasetInstanceDetail/332
- 人脸关键点标定竞赛数据【Kaggle竞赛】http://dataju.cn/Dataju/web/datasetInstanceDetail/331
- Kaggle竞赛数据合辑(部分竞赛数据)http://dataju.cn/Dataju/web/datasetInstanceDetail/368
- 波士顿Airbnb 公开数据【Kaggle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/209
- 世界各国经济发展数据【Kaagle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/202
- 世界大学排名芝加哥犯罪数据(2001-2017)【Kaagle数据】 http://dataju.cn/Dataju/web/datasetInstanceDetail/233
- 世界范围显著地震数据(1965-2016)【Kaagle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/231
- 美国婴儿姓名数据【Kaagle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/222
- 全世界鲨鱼袭击人类数据【Kaagle数据】 http://dataju.cn/Dataju/web/datasetInstanceDetail/219
- 1908年以来空难数据【Kaagle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/218
- 2016年美国总统大选数据【Kaagle数据】 http://dataju.cn/Dataju/web/datasetInstanceDetail/217
- 2013年美国社区统计数据【Kaagle数据】 http://dataju.cn/Dataju/web/datasetInstanceDetail/273
- 2014年美国社区统计数据【Kaagle数据】 http://dataju.cn/Dataju/web/datasetInstanceDetail/274
- 2015年美国社区统计数据【Kaagle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/215
- 欧洲足球运动员赛事表现数据【Kaagle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/211
- 美国环境污染数据【Kaagle数据】 http://dataju.cn/Dataju/web/datasetInstanceDetail/224
- 美国H1-B签证申请数据Kaggle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/224
- IMDB五千部电影数据【Kaggle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/224
- 2015年航班延误和取消数据【Kaggle数据】 http://dataju.cn/Dataju/web/datasetInstanceDetail/226
- 凶杀案报告数据【Kaggle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/216
- 人力资源分析数据【Kaggle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/259
- 美国费城犯罪数据【Kaggle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/260
- 安然公司邮件数据【Kaggle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/262
- 历史棒球数据【Kaggle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/263
- 美联航 Twitter 用户评论数据【Kaggle数据】 http://dataju.cn/Dataju/web/datasetInstanceDetail/264
- 波士顿 Airbnb 公开数据【Kaggle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/265
6.3 自然语言处理数据集
- RCV1:http://dataju.cn/Dataju/web/datasetInstanceDetail/93
- 英语: http://dataju.cn/Dataju/web/datasetInstanceDetail/90
- 新闻数据:http://dataju.cn/Dataju/web/datasetInstanceDetail/78
- 自然语言推理(文本蕴含标记)数据集【NYU】https://www.nyu.edu/projects/bowman/multinli/
- 20news 英语新闻数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/78
- First Quora Release Question Pairs 问答数据http://dataju.cn/Dataju/web/datasetInstanceDetail/94
- JRC Names:http://dataju.cn/Dataju/web/datasetInstanceDetail/92
- 各国语言专有实体名称:http://dataju.cn/Dataju/web/datasetInstanceDetail/89
- Multi-Domain Sentiment V2.0: http://dataju.cn/Dataju/web/datasetInstanceDetail/205
- LETOR 信息检索数据:http://dataju.cn/Dataju/web/datasetInstanceDetail/205
- Yale Youtube Vedio Text: http://dataju.cn/Dataju/web/datasetInstanceDetail/221
- 斯坦福问答数据【Kaggle数据】:http://dataju.cn/Dataju/web/datasetInstanceDetail/221
- 美国假新闻数据【Kaggle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/212
- NIPS会议文章信息数据(1987-2016)【Kaggle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/268
- 2016年美国总统选举辩论数据【Kaggle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/269
- WikiLinks 跨文档指代语料:http://dataju.cn/Dataju/web/datasetInstanceDetail/277
- European Parliament Proceedings Parallel Corpus 机器翻译数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/285
- WikiText 英语语义词库数据:http://dataju.cn/Dataju/web/datasetInstanceDetail/272
- WMT 2011 News Crawl 机器翻译数据:http://dataju.cn/Dataju/web/datasetInstanceDetail/288
- Stanford Sentiment Treebank 词汇数据:http://dataju.cn/Dataju/web/datasetInstanceDetail/334
- 英语语言模型单词预测竞赛数据:http://dataju.cn/Dataju/web/datasetInstanceDetail/201
- Apache 软件基金会公开邮件档案:截止到 2011 年 7 月 11 日全部公开可用的 Apache 软件基金会邮件档案。(200 GB) http://aws.amazon.com/de/datasets/apache-software-foundation-public-mail-archives/
- 博主原创语料库:包含 2004 年 8 月从 http://blogger.com 网站收集的 19,320 位博主的帖子。681,288 个帖子以及 140 多万字。(298 MB) http://u.cs.biu.ac.il/~koppel/BlogCorpus.htm
- 亚马逊美食评论[Kaggle]:包含亚马逊用户在 2012 年 10 月前留下的 568,454 条食评。(240MB) https://www.kaggle.com/snap/amazon-fine-food-reviews
- 亚马逊评论:斯坦福收集了 3500 万条亚马逊评论。(11GB) https://snap.stanford.edu/data/web-Amazon.html
- ArXiv 上:所有收录论文全文(270GB)+源文件。(190GB) http://arxiv.org/help/bulk_data_s3
- ASAP 自动作文评分[Kaggle]:在本次比赛中,有 8 个作文集。每个作文都由一个单独提示所得回答所生成。所选作文长度为 150 到 550 个字不等。部分作文依赖于源信息,而另其他则不是。所有论文都是由 7 年级到 10 年级的学生所写。所有的作文都由人工打分,并采用双评分制。(100MB) https://www.kaggle.com/c/asap-aes/data
- ASAP 简答题评分[Kaggle]:每个数据集都是由单个提示所得回答生成的。所选回答的平均长度为 50 个字。某些回答依赖于源信息,而其他则不是。所有回答由 10 年级学生所写。所有回答均为人工打分,并采用双评分制。(35MB) https://www.kaggle.com/c/asap-sas/data
- 政治社交媒体分类:按内容分类来自政客的社交媒体消息。(4MB) https://www.crowdflower.com/data-for-everyone/
- CLiPS 文体学研究(CSI)语料库:每年扩展两种类型的学生写作:文章和综述。这个语料库的目的主要在于文体学研究,当然也可用于其他研究。(数据集需要申请获得) http://www.clips.uantwerpen.be/datasets/csi-corpus
- ClueWeb09 FACC:带有 Freebase 注释的 ClueWeb09。(72GB) http://lemurproject.org/clueweb09/FACC1/
- ClueWeb11 FACC:带有 Freebase 注释的 ClueWeb11。(92GB) http://lemurproject.org/clueweb12/FACC1/
- 常见爬虫语料库:由超过 50 亿个网页(541TB)爬虫数据构成。 http://aws.amazon.com/de/datasets/common-crawl-corpus/
- 康奈尔电影对话语料库(Cornell Movie Dialog Corpus):包含大量丰富的元数据,从原始电影剧本中提取的对话集合:617 部电影,10,292 对电影人物之间的 220,579 次会话交流。(9.5MB) http://www.cs.cornell.edu/~cristian/Cornell_Movie-Dialogs_Corpus.html
- 企业信息:分类企业在社交媒体上到底谈论了什么的工作。要求志愿者将企业陈述分类为信息(关于公司或其活动的客观陈述),对话(回复用户等)或行动(要求投票或要求用户点击链接等的信息)。(600KB)http://aws.amazon.com/de/datasets/common-crawl-corpus/
- Crosswikis:关联英语短语与维基百科文章的数据库。(11GB) http://nlp.stanford.edu/data/crosswikis-data.tar.bz2/
- 一个网络社区关于从维基百科中提取结构化信息并使得此信息在网络上可用的共同成果。(17GB) http://aws.amazon.com/de/datasets/dbpedia-3-5-1/?tag=datasets%23keywords% 23encyclopedic
- Death Row:自 1984 年以来处决的每个犯人的遗言。(HTML 表格) http://www.tdcj.state.tx.us/death_row/dr_executed_offenders.html
- http://Del.icio.us:http://delicious.com 上的 125 万个书签。 http://arvindn.livejournal.com/116137.html
- 社交媒体上的灾难推文:1 万条推文,注释了是否涉及灾难事件。(2MB) https://www.crowdflower.com/data-for-everyone/
- 经济新闻相关文章:确定新闻文章与美国经济是否相关,如果相关,文章的基调是什么。时间范围从 1951 年到 2014 年。(12MB) https://www.crowdflower.com/data-for-everyone/
- 安然公司电子邮件数据:包含 1,227,255 封电子邮件,其中 493,384 个附件覆盖 151 位管理者。(210GB)http://aws.amazon.com/de/datasets/enron-email-data/
- 事件注册:免费工具,可以实时访问全球 100,000 个媒体的新闻文章。有 API 接口。(查询工具) http://eventregistry.org/
- http://Examiner.com—用新闻头条钓鱼的垃圾邮件[Kaggle]:现已停用的钓鱼网站The Examiner从2010年到2015年发布的3百万众包新闻头条。(200MB) https://www.kaggle.com/therohk/examine-the-examiner
- 联邦采购数据中心的联邦合同(http://USASpending.gov):来自 http://USASpending.gov 的联邦采购数据中心所有联邦合同的数据库。(180GB) http://aws.amazon.com/de/datasets/federal-contracts-from-the-federal-procurement-data-center-usaspending-gov/
- Flickr 个人分类法:个人标签的树结构数据集。(40MB) http://www.isi.edu/~lerman/downloads/flickr/flickr_taxonomies.html
- Freebase 数据库:Freebase 中所有当前事实和推断的数据库。(26GB) http://aws.amazon.com/de/datasets/freebase-data-dump/
- Freebase 简单主题库:Freebase 中每个主题中基本的可识别事实的数据库。(5GB) http://aws.amazon.com/de/datasets/freebase-simple-topic-dump/
- Freebase 四元库:Freebase 中所有当前事实和推断的数据库[LZ1]。(35GB) http://aws.amazon.com/de/datasets/freebase-quad-dump/
- GigaOM Wordpress 挑战赛[Kaggle]:博客文章,元数据,用户喜好。(1.5GB) https://www.kaggle.com/c/predict-wordpress-likes/data
- 谷歌图书 n 元语法:也可通过亚马逊 S3 上 hadoop 格式文件获取。(2.2TB) http://storage.googleapis.com/books/ngrams/books/datasetsv2.html
- 谷歌网页 5 元语法:含有英文单词的 n 元序列,及其观测频率计数。(24GB) https://catalog.ldc.upenn.edu/LDC2006T13
- Gutenberg 电子书清单:带注释电子书清单。(2MB) http://www.gutenberg.org/wiki/Gutenberg:Offline_Catalogs
- 加拿大议会文本块:来自加拿大第 36 届议会正式记录(Hansards)的 130 万标准文本块(句子或更小的片段)。(82MB)http://www.isi.edu/natural-language/download/hansard/
- 哈佛图书馆:超过 1,200 万册哈佛图书馆所藏资料的书目记录,包括书籍,期刊,电子资源,手稿,档案资料,乐谱,音频,视频和其他资料。(4GB) http://library.harvard.edu/open-metadata#Harvard-Library-Bibliographic-Dataset
- 仇恨言论识别:志愿人查看短文,并确定它是否 a)包含仇恨言论,b)冒犯性的,但没有仇恨言论,或 c)一点也没有冒犯性。包含近 15 千行,每个文本字符串有三个志愿者判断。(3MB)https://github.com/t-davidson/hate-speech-and-offensive-language
- 希拉里克林顿的电子邮件[Kaggle]:整理了近 7,000 页克林顿的电子邮件。(12MB) https://www.kaggle.com/kaggle/hillary-clinton-emails
- 家得宝公司产品搜索关联[Kaggle]:包含家得宝公司网站的许多产品和客户搜索条款。挑战是预测搜索条目组合和产品的相关性分数。为了创建真实标签,家得宝公司将搜索/产品配对众包给多个评分者打分。(65MB) https://www.kaggle.com/c/home-depot-product-search-relevance/data
- 确定文本中的关键短语:问题/答案对和文本组成;判断上下文文本是否与问题/答案相关。(8MB)https://www.crowdflower.com/data-for-everyone/
- 美国电视节目‘危险’:216930 个过去出现在‘危险’节目的问题合集。(53MB) http://www.reddit.com/r/datasets/comments
- 200k 英语明文笑话:208000 种不同来源的明文笑话存档。https://github.com/taivop/joke-dataset
- 欧洲语言机器翻译。(612MB)http://statmt.org/wmt11/translation-task.html#download
- 材料安全数据表:230000 材料安全数据表。(3GB)http://aws.amazon.com/de/datasets/material-safety-data-sheets/
- 百万新闻头条-澳大利亚 ABC[Kaggle]:由澳大利亚 ABC 新闻发布的从 2003 到 2017 年的 130 万新闻。(56MB)https://www.kaggle.com/therohk/million-headlines
- MCTest:可免费使用的 660 个故事集和相关问题,可用于研究文本机器理解、问答。(1MB) http://research.microsoft.com/en-us/um/redmond/projects/mctest/index.html
- Negra:德国报纸文本的语法标注语料库。可供所有大学及非营利机构免费使用。需要签署协议并发送申请才能获得。 http://www.coli.uni-saarland.de/projects/sfb378/negra-corpus/negra-corpus.html
- 新闻头条-印度时报[Kaggle]:印度时报发表的从 2001 到 2017 年的 270 万类新闻头条。(185MB) https://www.crowdflower.com/data-for-everyone/
- 新闻文章/维基百科页面配对:志愿者阅读一篇短文,被问及最匹配的两篇维基百科文章是哪一篇。(6MB) https://www.kaggle.com/benhamner/nips-2015-papers/version/2
- 2015 NIPS 论文(版本 2)[Kaggle]:所有 2015 年 nips 论文全文。(335MB) https://www.kaggle.com/benhamner/nips-2015-papers/version/2
- 纽约时报脸谱网数据:所有纽约时报在脸谱网的帖子。(5MB)http://minimaxir.com/2015/07/facebook-scraper/
- 全球新闻一周供稿[Kaggle]:在 2017 年 8 月的一周,用 20 多种语言全球发表的 140 万篇新闻事件数据集。(115MB)https://www.kaggle.com/therohk/global-news-week
- 句子/概念对的正确性:志愿者读关于两个概念的句子。例如,“狗是一种动物”,或者“船长可以和主人有同样的意思”,然后他们被问到这个句子是否正确,并将其 1-5 评级。(700KB) https://www.crowdflower.com/data-for-everyone/
- 公开图书馆数据库:公开图书馆中所有记录的修改合集。(16GB) https://openlibrary.org/developers/dumps
- 人物语料库:收集了作者文章风格和个性预测的实验。由 145 名学生的 145 篇荷兰语文章组成。(获得需要申请) http://www.clips.uantwerpen.be/datasets/personae-corpus
- Reddit 评论:截至 2015 年 7 月,reddit 论坛所有公开的评论。共计 17 亿条评论。(250GB) https://www.reddit.com/r/datasets/comments/3bxlg7
- Reddit 评论(2015 年 5 月):Kaggle 子数据集。(8GB) https://www.kaggle.com/reddit/reddit-comments-may-2015
- Reddit 提交语料库:2006 年 1 月-2015 年 8 月 31 日所有公开可得的 Reddit 提交内容。(42GB) https://www.reddit.com/r/datasets/comments/3mg812
- 路透社语料库:一个包含路透社新闻报道的数据集,用于自然语言处理的研究开发、信息检索和机器学习系统。该语料库又被称为“路透社语录 1”或 RCV1,它远远大于原来在文本分类中被广泛使用的著名的路透社 21578 数据集。该语料库数据需要通过签署协议和发送邮件获取。(2.5GB)https://trec.nist.gov/data/reuters/reuters.html
- SaudiNewsNet:31030 条从不同沙特阿拉伯的网络报纸上摘取的标题和元数据。(2MB)https://github.com/ParallelMazen/SaudiNewsNet
- 垃圾短信数据集:5574 条被标记为合法/不合法的、未经编码的真实英文短信消息。(200KB) http://www.dt.fee.unicamp.br/~tiago/smsspamcollection/
- 《南方公园》数据集:csv 格式文件,包含季、集、角色和台词的剧本信息。(3.6MB) https://github.com/BobAdamsEE/SouthParkData
- Stackoverflow:730 万条 stackoverflow 问题和其他 stackexchange(问答工具)上的问答。 http://data.stackexchange.com/
- Twitter 的 Cheng-Caverlee-lee 用户定位数据集:2009 年 9 月-2010 年 1 月的推文定位。(400MB) https://archive.org/details/twitter_cikm_2010
- Twitter 上关于新英格兰爱国者队“放气门”事件的舆情:在 2015 年超级碗比赛前,人们对被放了气的橄榄球以及爱国者队是否存在欺骗行为议论纷纷。该数据集提供了丑闻发生的这段时间里 Twitter 上的舆情,以便评估公众对整个事件的感受。(2MB) https://www.figure-eight.com/data-for-everyone/
- Twitter 上对于左倾相关事件的舆情分析:关于堕胎合法化、女权主义、希拉里·克林顿等各种左倾相关事件的推文,推文将根据内容推断被分类为 For(支持)、Against(反对)、Neutral(中立)或 None of the above(以上都不是)。(600KB) https://www.figure-eight.com/data-for-everyone/
- Twitter 的 Sentiment140(情感分析数据集):关于品牌/关键词的推文,网站包括论文和研究想法。(77MB) http://help.sentiment140.com/for-students/
- Twitter 上关于自动驾驶汽车的舆情分析:贡献者们阅读推文后,将推文里对于自动驾驶的态度分为非常积极、较积极、中立、较消极和非常消极。如果推文与自动驾驶汽车无关,他们也要标记出来。(1MB) https://www.figure-eight.com/data-for-everyone/
- Twitter 上定位于东京的推文:20 万条来自东京的推文。(47MB) http://followthehashtag.com/datasets/200000-tokyo
- Twitter 上定位于英国的推文:17 万条来自英国的推文。(47MB) http://followthehashtag.com/datasets/170000-uk
- Twitter 上定位于美国的推文:20 万条来自美国的推文。(45MB) http://followthehashtag.com/datasets/free-twitter-dataset
- Twitter 上对于美国各大航空公司的态度(Kaggle 数据集):这是一个对于美国各大航空公司存在问题的情感分析任务。该数据集爬取了 2015 年 2 月的推文,贡献者们将其分类为积极、消极和中立,对于那些分类为消极态度的推文,还会给出原因(例如“飞机晚点”或“服务态度差”等)。(2.5MB) https://www.kaggle.com/crowdflower/twitter-airline-sentiment
- 基于新闻标题的美国经济表现:根据新闻标题头条和摘要,对新闻和美国经济的相关性进行排序。(5MB) https://www.figure-eight.com/data-for-everyone/
- 城市词典(美国在线俚语词典)里的单词和定义:一个经过清洗的 CSV 语料库,包含截至 2016 年 5 月的城市词典内所有 260 万个词汇、定义、作者和投票情况。(238MB) https://www.kaggle.com/therohk/urban-dictionary-words-dataset
- 亚马逊的 Wesbury Lab Usenet 语料库:2005-2010 的 47,860 个英文新闻组的邮件匿名汇编。(40GB) http://aws.amazon.com/de/datasets/the-westburylab-usenet-corpus/
- 维基百科的 Wesbury Lab 语料库:2010 年 4 月维基百科英文部分中所有文章的快照。网站详细描述了数据是如何被处理的——即去除所有链接和不相关的材料(如导航文本等)。语料库是未经标记的原始文本,它被用于Stanford NLP。 http://www.psych.ualberta.ca
- Stanford NLP 跳转的链接: https://scholar.google.com/scholar
- 维基百科提取(WEX):经处理后的英文版维基百科。(66GB) http://aws.amazon.com/de/datasets/wikipedia-extraction-wex/
- 维基百科的 XML 格式数据:所有维基媒体(Wikimedia)的完整复制,以维基文本元(wikitext source)和元数据的形式嵌入到 XML 中。(500GB) http://aws.amazon.com/de/datasets/wikipedia-xml-data/
- 雅虎问答中的综合问题与答案:截至 2007 年 10 月 25 日的雅虎问答语料库,包含 4,483,032 条问答。(3.6GB) http://webscope.sandbox.yahoo.com/catalog.php?datatype=l
- 雅虎问答中用法语提问的问题:2006-2015 年雅虎问答语料库的子数据集,包含 170 万条法语问答。(3.8GB) https://webscope.sandbox.yahoo.com/catalog.php?datatype=l
- 雅虎问答中的关于“如何做”的问题[LZ2]:根据语言属性从 2007 年 10 月 25 日雅虎问答语料库选出的子集,包含 142,627 条问答。(104MB) https://webscope.sandbox.yahoo.com/catalog.php?datatype=l
- 雅虎从公开网页中提取的 HTML 格式页面:包含少量复杂 HTML 格式的页面和 267 万个复杂格式的页面。(50+ GB) https://webscope.sandbox.yahoo.com/catalog.php?datatype=l
- 雅虎从公开网页页面中提取的元数据:1 亿个 RDF 格式数据的三元组。(2GB) https://webscope.sandbox.yahoo.com/catalog.php?datatype=l
- 雅虎的 N 元语法模型表示(N-Gram Representations)数据:该数据集包含 N 元语法表示数据,这些数据可以用于 IR 研究中常见的查询重写(query rewriting)任务,也可以用于 NLP 研究中常见的词语和句子相似性分析任务。(2.6GB) https://webscope.sandbox.yahoo.com/catalog.php?datatype=l
- 雅虎的 N 元语法模型数据(版本 2.0):n 元语法模型数据(n=1-5),从一个包含 1460 万个文档(1.26 亿条不重复的语句,34 亿个运行词)的语料库中提取,这些文档是从 12000 个面向新闻的站点里爬取的。(12 GB) https://webscope.sandbox.yahoo.com/catalog.php?datatype=l
- 雅虎搜索日志的相关性判断:匿名雅虎搜索日志的相关性判断。(1.3GB) https://webscope.sandbox.yahoo.com/catalog.php?datatype=l
- 雅虎的英语维基百科语义注释快照:包含从 2006 年 11 月 4 日开始的经一些公开的 NLP 工具处理后的英文维基百科,共有 1,490,688 个条目。(6GB) https://webscope.sandbox.yahoo.com/catalog.php?datatype=l
- Yelp:包含餐厅排名和 220 万条评论。 https://www.yelp.com/dataset
- Youtube:170 万条 YouTube 视频描述。(torrent 格式) https://www.reddit.com/r/datasets/comments/
- 优秀的公开 NLP 数据集(包含更多清单) https://github.com/awesomedata/awesome-public-datasets
- 亚马逊公开数据集 https://aws.amazon.com/de/datasets/
- CrowdFlower 数据集(包含大量小调查和对特定任务以众包方式获得的数据) https://www.crowdflower.com/data-for-everyone/
- Kaggle 数据集 https://www.kaggle.com/datasets
- Kaggle 比赛(请确保这些 kaggle 比赛数据可以在比赛之外使用) https://www.kaggle.com/competitions
- 开放图书馆https://openlibrary.org/developers/dumps
- Quora(大部分为已标注好的语料库) https://www.quora.com/Datasets
- reddit 数据集(无数个数据集,大部分由业余爱好者爬取,但数据的整理和许可可能不够规范) https://www.reddit.com/r/datasets
- http://Rs.io:也是一个很长的数据集清单 http://rs.io/100-interesting-data-sets-for-statistics/
- Stackexchange:公开数据 http://opendata.stackexchange.com/
- 斯坦福 NLP 组(大部分为已标注的语料库和 TreeBanks,以及实用的 NLP 工具) https://nlp.stanford.edu/links/statnlp.html
- 雅虎研究院的数据集汇总 Webscope(还包含了使用了这些数据的论文列表) http://webscope.sandbox.yahoo.com/
- 自然语言处理(NLP)数据集列表【Nicolas Iderhoff】 https://github.com/niderhoff/nlp-datasets
- NLVR:自然语言基础数据集(对象分组、数量、比较及空间关系推理) http://lic.nlp.cornell.edu/nlvr/
- Stanford NLP发布新的多轮、跨域、任务导向对话数据集【Mihail Eric】 https://github.com/keunwoochoi/YouTube-music-video-5M
- 《数据之美》自然语言数据集/代码 http://t.cn/hBOTM4
- 大型众包关系数据库自然语言查询语义解析数据集(8万+查询样本) http://t.cn/RNMr09n
6.4 各类/各场景图像数据/综合图像
- Visual Genome 图像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/311
- Visual7w 图像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/315
- COCO 图像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/316
- SUFR 图像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/317
- ILSVRC 2014 训练数据(ImageNet的一部分) http://dataju.cn/Dataju/web/datasetInstanceDetail/369
- PASCAL Visual Object Classes 2012 图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/85
- PASCAL Visual Object Classes 2011 图像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/107
- PASCAL Visual Object Classes 2010 图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/51
- 80 Million Tiny Image 图像数据【数据太大仅有介绍】 http://dataju.cn/Dataju/web/datasetInstanceDetail/240
- ImageNet【数据太大仅有介绍】http://dataju.cn/Dataju/web/datasetInstanceDetail/55
- Google Open Images【数据太大仅有介绍】 http://dataju.cn/Dataju/web/datasetInstanceDetail/40
6.5 场景图像
- Street Scences 图像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/45
- Places2 场景图像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/48
- (Stanford)69G大规模无人机(校园)图像数据集【Stanford】http://cvgl.stanford.edu/projects/uav_data/
- 发布ADE20K场景感知/解析/分割/多目标识别数据集【MIT】https://groups.csail.mit.edu/vision/datasets/ADE20K/
- 多模态二元行为数据集【GaTech】 http://www.cbi.gatech.edu/mmdb/
- Berkeley图像分割数据集BSDS500【Berkeley】https://www2.eecs.berkeley.edu
- UCF Google Street View 图像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/138
- SUN 场景图像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/138
- The Celebrity in Places 图像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/83
6.6 Web图像标签
- HARRISON 社交标签图像http://dataju.cn/Dataju/web/datasetInstanceDetail/183
- NUS-WIDE 标签图像http://dataju.cn/Dataju/web/datasetInstanceDetail/74
- Visual Synset 标签图像http://dataju.cn/Dataju/web/datasetInstanceDetail/112
- Animals With Attributes 标签图像http://dataju.cn/Dataju/web/datasetInstanceDetail/160
6.7 人形轮廓图像
- 人脸素描数据集【CUHK】http://mmlab.ie.cuhk.edu.hk/archive/facesketch.html
- MPII Human Shapehttp://dataju.cn/Dataju/web/datasetInstanceDetail/234
- 人体轮廓数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/173
- Biwi Kinect Head Pose 头部姿势数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/52
- 上半身人像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/52
- INRIA Person 数据集 http://dataju.cn/Dataju/web/datasetInstanceDetail/235
6.8 视觉文字识别图像
- Street View House Number 门牌号图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/236
- MNIST 手写数字识别图像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/253
- 3D MNIST 数字识别图像数据【Kaggle数据】 http://dataju.cn/Dataju/web/datasetInstanceDetail/129
- MediaTeam Document 文档影印和内容数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/129
- Text Recognition 文字图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/110
- NIST Handprinted Forms and Characters 手写英文字符数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/49
- NIST Structured Forms Reference Set of Binary Images http://dataju.cn/Dataju/web/datasetInstanceDetail/73
- (SFRS) 图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/47
- NIST Structured Forms Reference Set of Binary Images http://dataju.cn/Dataju/web/datasetInstanceDetail/23
- (SFRS) II 图像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/203
6.9 特定一类事物图像
- 著名的猫图像标注数据http://dataju.cn/Dataju/web/datasetInstanceDetail/128
- Caltech-UCSDhttp://dataju.cn/Dataju/web/datasetInstanceDetail/176
- Birds200 鸟类图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/278
- Stanford Car 汽车图像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/294
- Cars 汽车图像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/295
- MIT Cars 汽车图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/41
- Stanford Cars 汽车图像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/105
- Food-101 美食图像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/106
- 17_Category_Flowerhttp://dataju.cn/Dataju/web/datasetInstanceDetail/106
- 图像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/254
- 102_Category_Flowerhttp://dataju.cn/Dataju/web/datasetInstanceDetail/255
- 图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/109
- UCI Folio Leaf 图像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/114
- Labeled Fisheshttp://dataju.cn/Dataju/web/datasetInstanceDetail/115
- in the Wild 鱼类图像http://dataju.cn/Dataju/web/datasetInstanceDetail/60
- 美国 Yelp 点评网站酒店照片http://dataju.cn/Dataju/web/datasetInstanceDetail/61
- CMU-Oxfordhttp://dataju.cn/Dataju/web/datasetInstanceDetail/63
- Sculpture 塑像雕像图像http://dataju.cn/Dataju/web/datasetInstanceDetail/174
- Oxford-IIIT Pet 宠物图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/256
- Naturehttp://dataju.cn/Dataju/web/datasetInstanceDetail/301
- Conservancy Fisheries Monitoring 过度捕捞监控图像数据【Kaggle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/118
- 宠物图片(分割)数据集【Oxford】http://www.robots.ox.ac.uk/~vgg/data/pets/
6.10 材质纹理图像
- CURET 纹理材质图像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/111
- ETHZ Synthesizability 纹理图像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/127
- KTH-TIPS 纹理材质图像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/172
- Describable Textures 纹理图像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/71
6.11 物体分类图像
- COIL-20 图像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/62
- COIL-100 图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/70
- Caltech-101 图像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/54
- Caltech-256 图像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/46
- CIFAR-10 图像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/42
- CIFAR-100 图像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/53
- STL-10 图像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/72
- LabelMe_12_50k http://dataju.cn/Dataju/web/datasetInstanceDetail/72
- 图像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/69
- NORB v1.0 图像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/117
- NEC Toy Animal 图像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/237
- iCubWorld 图像分类数据http://dataju.cn/Dataju/web/datasetInstanceDetail/238
- Multi-class 图像分类数据http://dataju.cn/Dataju/web/datasetInstanceDetail/239
- GRAZ 图像分类数据http://dataju.cn/Dataju/web/datasetInstanceDetail/108
6.12 人脸图像
IMDB-WIKI 500k+ 人脸图像、年龄性别数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/68
- Labeled Faces in the Wild 人脸数据http://dataju.cn/Dataju/web/datasetInstanceDetail/50
- Extended Yale Face Database B 人脸数据http://dataju.cn/Dataju/web/datasetInstanceDetail/131
- Bao Face 人脸数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/87
- DC-IGN 论文人脸数据http://dataju.cn/Dataju/web/datasetInstanceDetail/119
- 300 Face in Wild 图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/120
- BioID Face 人脸数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/122
- CMU Frontal Face Imageshttp://dataju.cn/Dataju/web/datasetInstanceDetail/123
- FDDB_Face Detection Data Set and Benchmark http://dataju.cn/Dataju/web/datasetInstanceDetail/130
- NIST Mugshot Identification Database http://dataju.cn/Dataju/web/datasetInstanceDetail/140
- Faces in the Wild 人脸数据http://dataju.cn/Dataju/web/datasetInstanceDetail/170
- CelebA 名人人脸图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/175
- VGG Face 人脸图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/189
- Caltech 10k Web Faces 人脸图像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/125
6.13 姿势动作图像
- HMDB_a large human motion database http://dataju.cn/Dataju/web/datasetInstanceDetail/126
- Human Actions and Scenes Dataset http://dataju.cn/Dataju/web/datasetInstanceDetail/177
- Buffy Stickmen V3 人体轮廓识别图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/178
- Human Pose Evaluator 人体轮廓识别图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/179
- Buffy pose 人类姿势图像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/181
- VGG Human Pose Estimation 姿势图像标注数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/197
6.14 指纹识别图像
NIST FIGS 指纹识别数据http://dataju.cn/Dataju/web/datasetInstanceDetail/281
- NIST Supplemental Fingerprint Card Data (SFCD) 指纹识别数据http://dataju.cn/Dataju/web/datasetInstanceDetail/280
- NIST Plain and Rolled Images from Paired Fingerprint Cards http://dataju.cn/Dataju/web/datasetInstanceDetail/279
- in 500 pixels per inch 指纹识别数据http://dataju.cn/Dataju/web/datasetInstanceDetail/77
- NIST Plain and Rolled Images from Paired Fingerprint Cards http://dataju.cn/Dataju/web/datasetInstanceDetail/289
- 1000 pixels per inch 指纹识别数据http://dataju.cn/Dataju/web/datasetInstanceDetail/132
6.15 其他图像数据
Visual Question Answering V1.0 图像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/84
- Visual Question Answering V2.0 图像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/241
- Fashion-MNIST风格服饰图像数据集【肖涵】https://github.com/zalandoresearch/fashion-mnist
- 日本漫画数据集Manga109: http://dl.acm.org/citation.cfm?doid=3011549.3011551
- Pixiv(着色)图片数据集【Jerry Li】https://github.com/jerryli27/pixiv_dataset
- Quick, Draw!简笔画涂鸦数据集 https://github.com/googlecreativelab/quickdraw-dataset
- 简笔画涂鸦数据集【hardmaru】https://github.com/hardmaru/sketch-rnn-datasets
- 大规模街道级图片(分割)数据集【Peter Kontschieder】http://blog.mapillary.com/product/2017
- 大规模日语图片描述数据集https://github.com/STAIR-Lab-CIT/STAIR-captions
- Cityscapes街景语义分割数据集(50城30类5k细标20k粗标图片及标记视频)https://github.com/mcordts/cityscapess
- (街头)时尚服饰数据集(2000+标注图片) https://github.com/bearpaw/clothing-co-parsing
6.16 推荐系统数据集
- Netflix 电影评价数据http://dataju.cn/Dataju/web/datasetInstanceDetail/330
- MovieLens 20m 电影推荐数据集 http://dataju.cn/Dataju/web/datasetInstanceDetail/329
- WikiLens http://dataju.cn/Dataju/web/datasetInstanceDetail/227
- Jester http://dataju.cn/Dataju/web/datasetInstanceDetail/350
- HetRec2011 http://dataju.cn/Dataju/web/datasetInstanceDetail/354
- Book Crossing http://dataju.cn/Dataju/web/datasetInstanceDetail/32
- Large Movie Review http://dataju.cn/Dataju/web/datasetInstanceDetail/116
- Retailrocket 商品评论和推荐数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/97
- MovieLens https://grouplens.org/datasets/movielens/
- Jester http://www2.informatik.uni-freiburg.de/~cziegler/BX/
- Book-Crossings http://www2.informatik.uni-freiburg.de/~cziegler/BX/
- Last.fm https://grouplens.org/datasets/hetrec-2011/
- OpenStreetMap http://planet.openstreetmap.org/planet/full-history/
- Python Git Repositories https://github.com/lab41/hermes
6.17 金融数据集
- 美国劳工部统计局官方发布数据:http://dataju.cn/Dataju/web/datasetInstanceDetail/139
- 沪深股票除权除息、配股增发全量数据,截止 2016.12.31 http://dataju.cn/Dataju/web/datasetInstanceDetail/344
- 上证主板日线数据,截止 2017.05.05,原始价、前复权价、后复权价,1260支股票 http://dataju.cn/Dataju/web/datasetInstanceDetail/340
- 深证主板日线数据,截止 2017.05.05,原始价、前复权价、后复权价,466支股票 http://dataju.cn/Dataju/web/datasetInstanceDetail/341
- 深证中小板日线数据,截止 2017.05.05,原始价、前复权价、后复权价,852支股票http://dataju.cn/Dataju/web/datasetInstanceDetail/342
- 深证创业板日线数据,截止 2017.05.05,原始价、前复权价、后复权价,636支股票 http://dataju.cn/Dataju/web/datasetInstanceDetail/343
- 上证A股日线数据,1999.12.09 至 2016.06.08,前复权,1095支股票 http://dataju.cn/Dataju/web/datasetInstanceDetail/37
- 深证A股日线数据,1999.12.09 至 2016.06.08,前复权,1766支股票 http://dataju.cn/Dataju/web/datasetInstanceDetail/38
- 深证创业板日线数据,1999.12.09 至 2016.06.08,前复权,510支股票 http://dataju.cn/Dataju/web/datasetInstanceDetail/39
- MT4平台外汇交易历史数据http://dataju.cn/Dataju/web/datasetInstanceDetail/43
- Forex平台外汇交易历史数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/67
- 几组外汇交易逐笔(Ticks)数据http://dataju.cn/Dataju/web/datasetInstanceDetail/44
6.18 交通数据集
- 2013年纽约出租车行驶数据http://dataju.cn/Dataju/web/datasetInstanceDetail/348
- 2013年芝加哥出租车行驶数据http://dataju.cn/Dataju/web/datasetInstanceDetail/355
- Udacity自动驾驶数据http://dataju.cn/Dataju/web/datasetInstanceDetail/356
- 纽约 Uber 接客数据 【Kaggle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/76
- 英国车祸数据(2005-2015)【Kaagle数据】 http://dataju.cn/Dataju/web/datasetInstanceDetail/323
- 芝加哥汽车超速数据【Kaggle数据】http://dataju.cn/Dataju/web/datasetInstanceDetail/86
- KITTI 自动驾驶任务数据【数据太大仅有部分】http://dataju.cn/Dataju/web/datasetInstanceDetail/210
- Cityscapes 场景标注数据【数据太大仅有部分】 http://dataju.cn/Dataju/web/datasetInstanceDetail/210
- 德国交通标志识别数据http://dataju.cn/Dataju/web/datasetInstanceDetail/232
- 交通信号识别数据http://dataju.cn/Dataju/web/datasetInstanceDetail/228
- 芝加哥Divvy共享自行车骑行数据(2013年至今) http://dataju.cn/Dataju/web/datasetInstanceDetail/228
- 美国查塔努加市共享单车骑行数据http://dataju.cn/Dataju/web/datasetInstanceDetail/270
- Bay Area 共享单车骑行数据http://dataju.cn/Dataju/web/datasetInstanceDetail/338
- Nice Ride 共享单车骑行数据http://dataju.cn/Dataju/web/datasetInstanceDetail/339
- 花旗银行共享单车骑行数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/325
- 运用卫星数据跟踪亚马逊热带雨林中的人类轨迹竞赛【Kaggle竞赛】 http://dataju.cn/Dataju/web/datasetInstanceDetail/358
- 纽约出租车管理委员会官方的乘车数据(2009年-2016年) http://dataju.cn/Dataju/web/datasetInstanceDetail/359
6.19 商业数据
- Airbnb 开放的民宿信息和住客评论数据http://dataju.cn/Dataju/web/datasetInstanceDetail/360
- Amazon 食品评论数据http://dataju.cn/Dataju/web/datasetInstanceDetail/361
- 美国视频游戏销售和评价数据http://dataju.cn/Dataju/web/datasetInstanceDetail/309
- 预测公寓租金竞赛数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/208
- 银行产品推荐竞赛数据http://dataju.cn/Dataju/web/datasetInstanceDetail/213
- 网站用户推荐点击预测竞赛数据http://dataju.cn/Dataju/web/datasetInstanceDetail/319
6.20 医疗数据
- 人识别物体时大脑核磁共振影像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/99
- 人理解单词时大脑核磁共振影像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/101
- 心脏病心房图像及标注数据http://dataju.cn/Dataju/web/datasetInstanceDetail/100
- 细胞病理识别http://dataju.cn/Dataju/web/datasetInstanceDetail/98
- FIRE 视网膜眼底病变图像数据http://dataju.cn/Dataju/web/datasetInstanceDetail/290
- 美国国家健康与服务部-国家癌症研究所发起的癌症数据仓库介绍【仅有介绍】 http://dataju.cn/Dataju/web/datasetInstanceDetail/250
- Data Science Bowl 2017 肺癌识别竞赛数据【数据太大仅有介绍】 http://dataju.cn/Dataju/web/datasetInstanceDetail/258
- TCGA-LUAD 肺癌CT图像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/261
- RIDER Lung CT 肺癌CT影像 http://dataju.cn/Dataju/web/datasetInstanceDetail/275
- TCGA-COAD癌症CT影像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/284
- TCIA-TCGA-OV 癌症CT影像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/283
- TCIA RIDER NEURO 癌症MRI影像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/287
- QIN Beast 乳腺癌MRI影像数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/291
6.21 视频数据(人类动作、目标检测、密集人群等)
- DAVIS_Densely Annotated Video Segmentation 数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/147
- YouTube-8M 视频数据集【数据太大仅有介绍】http://dataju.cn/Dataju/web/datasetInstanceDetail/133
- YouTube 网站视频备份【数据太大仅有介绍】http://dataju.cn/Dataju/web/datasetInstanceDetail/134
6.22 人类动作视频
- Microsoft Research Action 人类动作视频数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/144
- UCF50 Action Recognition 动作识别数据http://dataju.cn/Dataju/web/datasetInstanceDetail/135
- UCF101 Action Recognition 动作识别数据http://dataju.cn/Dataju/web/datasetInstanceDetail/136
- UT-Interaction 人类动作视频数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/137
- UCF iPhone 运动中传感器数据http://dataju.cn/Dataju/web/datasetInstanceDetail/148
- UCF YouTube 人类动作视频数据http://dataju.cn/Dataju/web/datasetInstanceDetail/125
- UCF Sport 人类动作视频数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/126
- UCF-ARG 人类动作视频数据http://dataju.cn/Dataju/web/datasetInstanceDetail/141
- HMDB 人类动作视频http://dataju.cn/Dataju/web/datasetInstanceDetail/157
- HOLLYWOOD2 人类行为动作视频数据http://dataju.cn/Dataju/web/datasetInstanceDetail/146
- Recognition of human actions 动作视频数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/244
- Motion Capture 动作捕捉视频数据http://dataju.cn/Dataju/web/datasetInstanceDetail/245
- SBU Kinect Interaction 肢体动作视频数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/246
6.23 目标检测视频
- UCSD Pedestrian 行人视频数据http://dataju.cn/Dataju/web/datasetInstanceDetail/247
- Caltech Pedestrian 行人视频数据http://dataju.cn/Dataju/web/datasetInstanceDetail/248
- ETH 行人视频数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/223
- INRIA 行人视频数据http://dataju.cn/Dataju/web/datasetInstanceDetail/159
- TudBrussels 行人视频数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/151
- Daimler 行人视频数据http://dataju.cn/Dataju/web/datasetInstanceDetail/150
- ALOV++ 物体追踪视频数据http://dataju.cn/Dataju/web/datasetInstanceDetail/152
6.24 密集人群视频
- Crowd Counting 高密度人群图像 http://dataju.cn/Dataju/web/datasetInstanceDetail/156
- Crowd Segmentation 高密度人群视频数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/243
- Tracking in High Density Crowds 高密度人群视频 http://dataju.cn/Dataju/web/datasetInstanceDetail/200
6.25 其他视频
- Fire Detection 视频数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/186
- 大型(50万)LOGO标志数据集 https://data.vision.ee.ethz.ch/cvl/lld/
- 4D扫描(60fps移动非刚性物体3D扫描)数据集【D-FAUST】 http://dfaust.is.tue.mpg.de
- 基于MNIST的视觉计数合成数据集Counting MNIST http://fomoro.com/tools/counting-mnist/
- YouTube MV视频数据集【Keunwoo Choi】https://github.com/keunwoochoi/YouTube-music-video-5M
- 动物属性标记数据集【ChristophH. Lampert/Daniel Pucher/JohannesDostal】http://cvml.ist.ac.at/AwA2/
- 俯拍舞蹈视频数据集http://homepages.inf.ed.ac.uk/rbf/CEILIDHDATA/
- e-VDS视频数据集 https://engineering.purdue.edu/elab/eVDS/#download
- 服饰人像生成模型(&Chictopia10K[HumanParsing]时尚人像解析数据集)【Christoph Lassner/Gerard Pons-Moll/Peter V. Gehler】 http://files.is.tue.mpg.de/classner/gp/
- PyTorch实现的VOC2012数据集Pixel-wise目标分割【BodoKaiser】 https://github.com/bodokaiser/piwise
- Twenty Billion Neurons对象复杂运动与交互视频数据集【Nikita Johnson】
6.26 音频数据
- Google Audioset 音频数据【数据太大仅有介绍】 http://dataju.cn/Dataju/web/datasetInstanceDetail/164
- Sinhala TTS 英语语音识别http://dataju.cn/Dataju/web/datasetInstanceDetail/251
- TIMIT 美式英语语音识别数据http://dataju.cn/Dataju/web/datasetInstanceDetail/252
- LibriSpeech ASR corpus 语音数据http://dataju.cn/Dataju/web/datasetInstanceDetail/194
- Room Impulse Response and Noise 语音数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/191
- ALFFA 非洲语音数据http://dataju.cn/Dataju/web/datasetInstanceDetail/96
- THUYG-20 维吾尔语语音数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/96
- AMI Corpus 语音识别http://dataju.cn/Dataju/web/datasetInstanceDetail/96
- NSynth:大规模高质量音符标记音频数据集 https://magenta.tensorflow.org/datasets/nsynth
- 鸟叫声数据集【xeno-canto】http://www.xeno-canto.org
- (TensorFlow)AudioSet音频事件数据集分类模型GitHub: tensorflow/models/tree/master/audioset
6.27 文本、评价、回答数据集合
- (20万)英文笑话数据集【TaivoPungas】https://github.com/taivop/joke-dataset
- 机器学习保险行业问答开放数据集【HainWang】https://github.com/shuzi/insuranceQA
- 保险行业问答(QA)数据集【Minwei Feng】https://github.com/shuzi/insuranceQA
- 实体/名词语义关系标记数据集【David S. Batista】https://github.com/davidsbatista/Annotated-Semantic-Relationships-Datasets
- 2.8万文章/10万问题大规模(英语考试)阅读理解数据集https://github.com/qizhex/RACE_AR_baselines
- 错误拼写数据集http://www.dcs.bbk.ac.uk/~ROGER/corpora.html
- 文本简化数据集http://www.cs.pomona.edu/~dkauchak/simplification/
- 英语词/句/语义框架框架标注数据集FrameNethttps://framenet.icsi.berkeley.edu/fndrupal/
- 跨语种/多样式/多粒度文本相似性检测数据集https://github.com/FerreroJeremy/Cross-Language-Dataset
- Quora数据集:400000行潜在重复问题http://qim.ec.quoracdn.net/quora_duplicate_questions.tsv
- 文本分类数据集http://disi.unitn.it/moschitti/corpora.htm
- Frames:Maluuba对话数据集https://datasets.maluuba.com/Frames/dl
- 跨域(Amazon商品评论)情感数据集http://www.cs.jhu.edu/~mdredze/datasets/sentiment/
- 语义网机器学习系统评价/基准数据集集合 http://dws.informatik.uni-mannheim.de
- 日文木版印刷文字识别数据集http://t.cn/RCZPfYB
- 用于评价监督机器学习算法的基准数据集https:// http://github.com/EpistasisLab/penn-ml-benchmarks
- 新的YELP数据集:包含470万评论和15.6万商家http://t.cn/RNG6JYi
- StackExchange近似/重复问题数据集 http://nlp.cis.unimelb.edu.au/resources/cqadupstack/
- AI2科学问答数据集(多选) http://t.cn/RI5liwJ
6.28 科研数据集
- NIPS 2003 属性选择竞赛数据http://dataju.cn/Dataju/web/datasetInstanceDetail/370
- 台湾大学林智仁教授处理为 LibSVM 格式的分类建模数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/296
- Large-scale 分类建模数据http://dataju.cn/Dataju/web/datasetInstanceDetail/297
- 几个UCI 中 large-scale 分类建模数据http://dataju.cn/Dataju/web/datasetInstanceDetail/298
- Social Computing http://dataju.cn/Dataju/web/datasetInstanceDetail/299
- Data Repository 社交网络数据http://dataju.cn/Dataju/web/datasetInstanceDetail/300
6.29 社会数据集
- 希拉里邮件门泄露邮件http://dataju.cn/Dataju/web/datasetInstanceDetail/267
- 芝加哥市2001年以来犯罪记录数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/267
- 美国查塔努加市犯罪记录数据(2003年至今)http://dataju.cn/Dataju/web/datasetInstanceDetail/353
- 芝加哥街边咖啡厅季节中的人行道咖啡厅许可数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/358
- 芝加哥餐馆卫生检查结果数据http://dataju.cn/Dataju/web/datasetInstanceDetail/351
- 几个人类运动位置路线GPS数据集(骑行、跑步等)http://dataju.cn/Dataju/web/datasetInstanceDetail/352
6.30 其他数据集综合
- 数据科学/机器学习数据集汇总https://elitedatascience.com/datasets
- CORe50:连续目标识别数据集【VincenzoLomonaco&DavideMaltoni】https://vlomonaco.github.io/core50/
- (Matlab)数据集统计分布自动发现【Isabel Valera】http://proceedings.mlr.press/v70/valera17a.html
- (建筑物)损害评估数据集【tsunami】https://github.com/faiton713/ABCDdataset
- IndieWeb社交图谱数据集【IndieWeb】http://www.indiemap.org
- DeepMind开源环境/数据集/代码集合【DeepMind】https://deepmind.com/research/open-source/
- Wolfram数据集仓库 https://datarepository.wolframcloud.com
- 大型音乐分析数据集FMA https://github.com/mdeff/fma
- (300万)Instacart在线杂货购物数据集【Jeremy Stanley】 https://tech.instacart.com/3-million-instacart-orders-open-sourced-d40d29ead6f2
- 用于欺诈检测的合成财务数据集【TESTIMON】https://www.kaggle.com/ntnu-testimon/paysim1
- LIBSVM格式分类/回归/多标签/字符串数据集https://www.csie.ntu.edu.tw/~cjlin/libsvmtools/datasets/binary.html
- 笔记本电脑用logistic回归拟合100G数据集【DmitriySelivanov】http://dsnotes.com/post/2017-02-07-large-data
- 2010-2017最全KDD CUP赛题回顾及数据集 http://suo.im/2kRoQ1
- 食谱数据集:带有评级、营养及类别信息的超过2万种食谱【HugoDarwood】 https://www.kaggle.com/hugodarwood/epirecipes
- 奥斯卡数据集【Academy of Motion Picture Arts and Sciences】 https://www.kaggle.com/theacademy/academy-awards
- 聚类数据集 https://cs.joensuu.fi/sipu/datasets/
- 官方开放气候数据集 https://pan.baidu.com/s/1i52Xarb
- 全球恐怖袭击事件数据集【START Consortium】https://www.kaggle.com/START-UMD/gtd
- 七个机器学习时序数据集https://machinelearningmastery.com/time-series-datasets-for-machine-learning/
- 赛马赔率数据集 http://t.cn/RNf0tXN
- JMIR数据集专刊《JMIR Data》http://t.cn/RCIhmvS
- 人口普查收入数据集分类https://github.com/dformoso/sklearn-classification
- 多模态二元行为数据集http://t.cn/RCzFn1g
- Facebook星际争霸游戏数据集(TorchCraft可读/365GB/6万多场次/15亿帧画面/近5亿用户操作)http://t.cn/R9j8AUM
- 机器学习论文/数据集/工具集锦(日文) http://t.cn/RKV7x2A
- 机器学习公司的十大数据搜集策略 http://t.cn/R54rtvd
- 日语相似词数据集 http://t.cn/RaVFV35
- 大规模人本完形填空(多选阅读理解)数据集 http://t.cn/Rac2Pey
- 高质量免费数据集列表http://t.cn/R6B1aqa
- 微软数据集MS MARCO,阅读理解领域的「ImageNet」http://t.cn/RIMqGBK
7 政府公开数据集
欧洲政府数据集 https://data.europa.eu/euodp/data/dataset
美国政府数据集 https://www.data.gov/
新西兰政府数据集https://catalogue.data.govt.nz/dataset
印度政府数据集 https://data.gov.in/
北爱尔兰公共数据集 https://www.opendatani.gov.uk/