情感分析(文本分类)数据集汇总

想在推荐前对评论做一些情感分析方面的工作,参考网上其它博主的博客大概整理了一下情感分析方面的数据集的内容,大致分为两类——多分类和二分类(俺比较关注的),中英文的数据集都汇总整理了一下,后面会关注一下相关的比较新的论文(工作),欢迎同仁们补充和推荐,现在还在探索搜集资料阶段。

情感分析(文本分类)流程

中文的数据集

多分类(文本所属的种类)

THUCNews数据集

THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。我们在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。使用THUCTC工具包在此数据集上进行评测,准确率可以达到88.6%。

数据集地址: http://thuctc.thunlp.org/

今日头条新闻文本分类数据集

数据来源:今日头条客户端 数据规模:共382688条,分布于15个分类中。 数据格式:6552431613437805063_!_102_!_news_entertainment_!_谢娜为李浩菲澄清网络谣言,之后她的两个行为给自己加分_!_佟丽娅,网络谣言,快乐大本营,李浩菲,谢娜,观众们

每行为一条数据,以_!_分割的个字段,从前往后分别是 新闻ID,分类code(见下文),分类名称(见下文),新闻字符串(仅含标题),新闻关键词

数据集地址:https://github.com/fate233/toutiao-text-classfication-dataset

全网新闻数据(SogouCA)

来自若干新闻站点2012年6月—7月期间国内,国际,体育,社会,娱乐等18个频道的新闻数据,提供URL和正文信息

数据格式为

<doc>
<url>页面URL</url>
<docno>页面ID</docno>
<contenttitle>页面标题</contenttitle>
<content>页面内容</content>
</doc>
注意:content字段去除了HTML标签,保存的是新闻正文文本

数据集地址: https://www.sogou.com/labs/resource/ca.php

搜狐新闻数据(SogouCS)

来自搜狐新闻2012年6月—7月期间国内,国际,体育,社会,娱乐等18个频道的新闻数据,提供URL和正文信息

数据格式为
<doc>
<url>页面URL</url>
<docno>页面ID</docno>
<contenttitle>页面标题</contenttitle>
<content>页面内容</content>
</doc>
注意:content字段去除了HTML标签,保存的是新闻正文文本

数据集地址: https://www.sogou.com/labs/resource/cs.php

 dmsc_v2数据集

28部电影,超70万用户,超200万条评分/评论数据

数据集地址:https://pan.baidu.com/s/1c0yn3TlkzHYTdEBz3T5arA

原始数据集地址:https://www.kaggle.com/utmhikari/doubanmovieshortcomments

yf_dianping数据集

24 万家餐馆,54 万用户,440 万条评论/评分数据

数据集地址:https://pan.baidu.com/s/1yMNvHLl6QYsGbjT7u51Nfg 原始数据集地址:http://yongfeng.me/dataset/

yf_amazon数据集

52 万件商品,1100 多个类目,142 万用户,720 万条评论/评分数据

原始数据集地址:http://yongfeng.me/dataset/ 数据集地址

二分类(文本情感的正负)

包含领域:酒店、外卖平台、在线商城、新浪微博

ChnSentiCorp_htl_all数据集

7000 多条酒店评论数据,5000 多条正向评论,2000 多条负向评论

数据字段:
Label:1表示正向评论,0表示负向评论
Review:评论内容

数据集地址: https://raw.githubusercontent.com/SophonPlus/ChineseNlpCorpus/master/datasets/ChnSentiCorp_htl_all/ChnSentiCorp_htl_all.csv

waimai_10k数据集

外卖平台收集的用户评价,正向4000 条,负向约 8000 条

数据字段:Label:1表示正向评论,0表示负向评论
Review:评论内容

数据集地址: https://raw.githubusercontent.com/SophonPlus/ChineseNlpCorpus/master/datasets/waimai_10k/waimai_10k.csv

online_shopping_10_cats数据集

10 个类别(书籍、平板、手机、水果、洗发水、热水器、蒙牛、衣服、计算机、酒店),共 6 万多条评论数据,正、负向评论各约 3 万条

数据集下载地址: https://github.com/SophonPlus/ChineseNlpCorpus/raw/master/datasets/online_shopping_10_cats/online_shopping_10_cats.zip

weibo_senti_100k数据集

10 万多条,带情感标注新浪微博,正负向评论约各 5 万条。

数据集下载地址: https://github.com/SophonPlus/ChineseNlpCorpus/blob/master/datasets/weibo_senti_100k/intro.ipynb

simplifyweibo_4_moods数据集

36 万多条,带情感标注 新浪微博,包含 4 种情感,其中喜悦约 20 万条,愤怒、厌恶、低落各约 5 万条

数据集下载地址: https://pan.baidu.com/s/16c93E5x373nsGozyWevITg

https://pan.baidu.com/s/1SbfpZb5cm-g2LmnYV_af8Qq

其它

Datahub数据中心

包含文本分类、情感分析以及知识图谱的数据集

相关地址:http://www.datahub.ileadall42.com/data/list?category=2&parent_category=1

知乎看山杯数据集

数据集下载地址:https://pan.baidu.com/s/1qUr6IQQn6DzrMlbaAUZslQ 提取码: qbiw

AI_challenger情感分析数据集

数据集分为训练、验证、测试A与测试B四部分。数据集中的评价对象按照粒度不同划分为两个层次,层次一为粗粒度的评价对象,例如评论文本中涉及的服务、位置等要素;层次二为细粒度的情感对象,例如“服务”属性中的“服务人员态度”、“排队等候时间”等细粒度要素。

数据集下载地址:https://github.com/nju161250102/AI_challenger/tree/master/data

复旦中文文本分类语料库

数据链接:https://pan.baidu.com/s/1833mT2rhL6gBMlM0KnmyKg 密码:zyxa

英文的数据集

Yelp

https://www.kaggle.com/yelp-dataset/yelp-dataset

这个数据集有两个,一个是有5个评级标签的(Yelp-5),一个是正负情感标签的(Yelp-2)

  • Yelp-5 每一类有 650000 条训练样本和 50000 条测试样本。
  • Yelp-2 每一类有 560000 条训练样本和 38000 条测试样本。

IMDb

https://www.kaggle.com/lakshmi25npathi/imdb-dataset-of-50k-movie-reviews

电影评论情感二分类。包含同等数量的正负情感样本,各自有 25000 条样本。

这个数据集下载了,黎明只有两个属性:review、sentiment(positive or negative)

Movie Review(MR)

Thumbs up?: sentiment classification using machine learning techniques

电影文本正负情感二分类,总共包含 10662 条样本。经常使用 随机切割的10折交叉验证 来测试这个数据集。

The Stanford Sentiment Treebank(SST)

介绍链接:SST-2 Dataset | Papers With Code

【看了一下最优模型的代码,有点多】

电影评论提取,人工标注

Recursive deep models for semantic compositionality over a sentiment treebank

上一个数据集 MR 的扩展版本。有两个版本可以用。一个是包含五个标签的 SST-1,一个是二分类的 SST-2.

  • SST-1 一共有 11855 条样本,其中 8544 条训练样本,1101 条验证样本,2210 条测试样本。
  • SST-2 6920 条训练样本,872 条验证样本,1821 条测试样本。

MPQA

Annotating expressions of opinions and emotions in language

多视角问答数据集,是一个意见语料库,有两个标签。一共有 10606 条样本。这是一个 不均衡数据集,3311 条正样本和 7293 条负样本。

Amazon

https://www.kaggle.com/datafiniti/consumer-reviews-of-amazon-products

来自亚马逊购物网站的商品评论,也有两个版本:二分类和多分类。

  • 二分类版本 有 3600000 条训练样本和 400000 条测试数据。
  • 五分类版本 有 3000000 条训练样本和 650000 条测试样本。

通过评分来对评论完成二分类:yelp['label'] = ['1' if star > 3 else '0' for star in yelp['stars']];

上图链接:Sentiment Analysis on Amazon Product (RNN-97% Acc) | Kaggle

其他的

  • SemEval-2014 Task 4
Semeval-2016 task 5: Aspect based sentiment analysis
  • Twitter
Adaptive recursive neural network for target-dependent twitter sentiment classification
  • SentiHood
Sentihood: Targeted aspect based sentiment analysis dataset for urban neighbourhoods

参考博客

文本分类(情感分析)中文数据集汇总 - 知乎

【数据】情感分析数据集 - 知乎

文本分类综述 | 迈向NLP大师的第一步(下)

A Survey on Text Classification:From Shallow to Deep Learning,2020

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/509800.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何在飞书接入ChatGPT并结合内网穿透实现公网远程访问智能AI助手

文章目录 前言环境列表1.飞书设置2.克隆feishu-chatgpt项目3.配置config.yaml文件4.运行feishu-chatgpt项目5.安装cpolar内网穿透6.固定公网地址7.机器人权限配置8.创建版本9.创建测试企业10. 机器人测试 前言 在飞书中创建chatGPT机器人并且对话&#xff0c;在下面操作步骤中…

ViTMatte:Boosting image matting with pretrained plain vision transformers

自sora之后&#xff0c;我也要多思考&#xff0c;transformer的scaling law在各个子领域中是不是真的会产生智能&#xff0c;conv的叠加从resnet之后就讨论过&#xff0c;宽或者深都没有办法做到极限&#xff0c;大概sam这种思路是最好的实证。 1.introduction 引入了ViT adap…

C语言:指针(二)

目录 1.数组名的理解2.使用指针访问数组3.一维数组传参的本质4.二级指针5.指针数组6.字符指针变量7.数组指针变量8.二维数组传参的本质9.函数指针变量10.函数指针数组11.回调函数12.qsort函数13.使用回调函数模拟实现qsort函数 1.数组名的理解 int main() {int arr[] { 1,2,3…

ASCII码

ASCII码 概念 ASCII(American Standard Code for Information Interchange)的缩写&#xff08;美国标准信息交换代码&#xff09;&#xff0c;已被国际标准化组织ISO采纳&#xff0c;作为国际通用的信息交换标准代码。 诞生背景 计算机对数据的识别、运算和存储都建立在二进…

SpringBoot+Vue实现el-table表头筛选排序(附源码)

&#x1f468;‍&#x1f4bb;作者简介&#xff1a;在笑大学牲 &#x1f39f;️个人主页&#xff1a;无所谓^_^ ps&#xff1a;点赞是免费的&#xff0c;却可以让写博客的作者开心好几天&#x1f60e; 前言 后台系统对table组件的需求是最常见的&#xff0c;不过element-ui的el…

FPGA之加法逻辑运算

由于FPGA需要被反复烧写&#xff0c;它实现组合逻辑的基本结构不可能像ASIC 那样通过固定的与非门来完成&#xff0c;而只能采用一种易于反复配置的结构。查找表可以很好地满足这一要求&#xff0c;目前主流FPGA都采用了基于SRAM 工艺的查找表结构。LUT本质上就是一个RAM。它把…

sparse transformer 常见稀疏注意力

参考&#xff1a; https://zhuanlan.zhihu.com/p/259591644 主要就是降低transformer自注意力模块的复杂度 复杂度主要就是 Q K^T影响的&#xff0c;稀疏注意力就是在Q点乘K的转置这模块做文章 下列式一些sparse transformer稀疏注意力方法 a、transformer原始的 &#xff0…

【Python实战】——Python+Opencv是实现车牌自动识别

&#x1f349;CSDN小墨&晓末:https://blog.csdn.net/jd1813346972 个人介绍: 研一&#xff5c;统计学&#xff5c;干货分享          擅长Python、Matlab、R等主流编程软件          累计十余项国家级比赛奖项&#xff0c;参与研究经费10w、40w级横向 文…

MYSQL---日志

1.日志的概述 日志是MySQL数据库的重要组成部分。日志文件中记录着MySQL数据库运行期间发生的变化&#xff1b;也就是说用来记录MySQL数据库的客户端连接状况、SQL语句的执行情况和错误信息等。当数据库遭到意外的损坏时&#xff0c;可以通过日志查看文件出错的原因&#xff0…

Ambari动态给YARN分配计算节点

1.前言 YARN可用的计算节点数量并不总是等于 Hadoop集群节点数量&#xff0c;可以根据业务需求分配 YARN计算节点数量。 这里首先介绍一些前置知识&#xff1a; YARN中 ResourceManager 和 NodeManager是两个核心组件&#xff0c;其中 ResourceManager负责集群资源的统一管理…

2023下半年主品牌锋芒依旧,江南布衣打破既定天花板?

在过去的2023年里&#xff0c;服装板块令人意外的领涨消费大盘&#xff0c;国家统计局数据显示&#xff0c;上半年服装零售额同比增长12.8%&#xff0c;远超商品零售大盘的增速6.8%。 整体表现强劲的同时&#xff0c;“局部”表现是否也尽如人意。近日&#xff0c;作为时尚服装…

Arduino与processing之间的通信——进阶版

本次需要实现Arduino获取板子的偏转角度并通过串口发送给processing&#xff0c;processing部分根据传输过来的各个轴的偏转角度建立对应偏转角度的3D模型。 这就涉及了两个轴正负方向的偏转&#xff0c;我的实现思路是使用串口传输 字母数字 格式的信息&#xff0c;字母用来判…