想在推荐前对评论做一些情感分析方面的工作,参考网上其它博主的博客大概整理了一下情感分析方面的数据集的内容,大致分为两类——多分类和二分类(俺比较关注的),中英文的数据集都汇总整理了一下,后面会关注一下相关的比较新的论文(工作),欢迎同仁们补充和推荐,现在还在探索搜集资料阶段。
情感分析(文本分类)流程
中文的数据集
多分类(文本所属的种类)
THUCNews数据集
THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。我们在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。使用THUCTC工具包在此数据集上进行评测,准确率可以达到88.6%。
数据集地址: http://thuctc.thunlp.org/
今日头条新闻文本分类数据集
数据来源:今日头条客户端 数据规模:共382688条,分布于15个分类中。 数据格式:6552431613437805063_!_102_!_news_entertainment_!_谢娜为李浩菲澄清网络谣言,之后她的两个行为给自己加分_!_佟丽娅,网络谣言,快乐大本营,李浩菲,谢娜,观众们
每行为一条数据,以_!_分割的个字段,从前往后分别是 新闻ID,分类code(见下文),分类名称(见下文),新闻字符串(仅含标题),新闻关键词
数据集地址:https://github.com/fate233/toutiao-text-classfication-dataset
全网新闻数据(SogouCA)
来自若干新闻站点2012年6月—7月期间国内,国际,体育,社会,娱乐等18个频道的新闻数据,提供URL和正文信息
数据格式为
<doc>
<url>页面URL</url>
<docno>页面ID</docno>
<contenttitle>页面标题</contenttitle>
<content>页面内容</content>
</doc>
注意:content字段去除了HTML标签,保存的是新闻正文文本
数据集地址: https://www.sogou.com/labs/resource/ca.php
搜狐新闻数据(SogouCS)
来自搜狐新闻2012年6月—7月期间国内,国际,体育,社会,娱乐等18个频道的新闻数据,提供URL和正文信息
数据格式为
<doc>
<url>页面URL</url>
<docno>页面ID</docno>
<contenttitle>页面标题</contenttitle>
<content>页面内容</content>
</doc>
注意:content字段去除了HTML标签,保存的是新闻正文文本
数据集地址: https://www.sogou.com/labs/resource/cs.php
dmsc_v2数据集
28部电影,超70万用户,超200万条评分/评论数据
数据集地址:https://pan.baidu.com/s/1c0yn3TlkzHYTdEBz3T5arA
原始数据集地址:https://www.kaggle.com/utmhikari/doubanmovieshortcomments
yf_dianping数据集
24 万家餐馆,54 万用户,440 万条评论/评分数据
数据集地址:https://pan.baidu.com/s/1yMNvHLl6QYsGbjT7u51Nfg 原始数据集地址:http://yongfeng.me/dataset/
yf_amazon数据集
52 万件商品,1100 多个类目,142 万用户,720 万条评论/评分数据
原始数据集地址:http://yongfeng.me/dataset/ 数据集地址:
二分类(文本情感的正负)
包含领域:酒店、外卖平台、在线商城、新浪微博
ChnSentiCorp_htl_all数据集
7000 多条酒店评论数据,5000 多条正向评论,2000 多条负向评论
数据字段:
Label:1表示正向评论,0表示负向评论
Review:评论内容
数据集地址: https://raw.githubusercontent.com/SophonPlus/ChineseNlpCorpus/master/datasets/ChnSentiCorp_htl_all/ChnSentiCorp_htl_all.csv
waimai_10k数据集
某外卖平台收集的用户评价,正向4000 条,负向约 8000 条
数据字段:Label:1表示正向评论,0表示负向评论
Review:评论内容
数据集地址: https://raw.githubusercontent.com/SophonPlus/ChineseNlpCorpus/master/datasets/waimai_10k/waimai_10k.csv
online_shopping_10_cats数据集
10 个类别(书籍、平板、手机、水果、洗发水、热水器、蒙牛、衣服、计算机、酒店),共 6 万多条评论数据,正、负向评论各约 3 万条
数据集下载地址: https://github.com/SophonPlus/ChineseNlpCorpus/raw/master/datasets/online_shopping_10_cats/online_shopping_10_cats.zip
weibo_senti_100k数据集
10 万多条,带情感标注新浪微博,正负向评论约各 5 万条。
数据集下载地址: https://github.com/SophonPlus/ChineseNlpCorpus/blob/master/datasets/weibo_senti_100k/intro.ipynb
simplifyweibo_4_moods数据集
36 万多条,带情感标注 新浪微博,包含 4 种情感,其中喜悦约 20 万条,愤怒、厌恶、低落各约 5 万条
数据集下载地址: https://pan.baidu.com/s/16c93E5x373nsGozyWevITg
https://pan.baidu.com/s/1SbfpZb5cm-g2LmnYV_af8Qq
其它
Datahub数据中心
包含文本分类、情感分析以及知识图谱的数据集
相关地址:http://www.datahub.ileadall42.com/data/list?category=2&parent_category=1
知乎看山杯数据集
数据集下载地址:https://pan.baidu.com/s/1qUr6IQQn6DzrMlbaAUZslQ 提取码: qbiw
AI_challenger情感分析数据集
数据集分为训练、验证、测试A与测试B四部分。数据集中的评价对象按照粒度不同划分为两个层次,层次一为粗粒度的评价对象,例如评论文本中涉及的服务、位置等要素;层次二为细粒度的情感对象,例如“服务”属性中的“服务人员态度”、“排队等候时间”等细粒度要素。
数据集下载地址:https://github.com/nju161250102/AI_challenger/tree/master/data
复旦中文文本分类语料库
数据链接:https://pan.baidu.com/s/1833mT2rhL6gBMlM0KnmyKg 密码:zyxa
英文的数据集
Yelp
https://www.kaggle.com/yelp-dataset/yelp-dataset
这个数据集有两个,一个是有5个评级标签的(Yelp-5),一个是正负情感标签的(Yelp-2)。
- Yelp-5 每一类有 650000 条训练样本和 50000 条测试样本。
- Yelp-2 每一类有 560000 条训练样本和 38000 条测试样本。
IMDb
https://www.kaggle.com/lakshmi25npathi/imdb-dataset-of-50k-movie-reviews
电影评论情感二分类。包含同等数量的正负情感样本,各自有 25000 条样本。
这个数据集下载了,黎明只有两个属性:review、sentiment(positive or negative)
Movie Review(MR)
Thumbs up?: sentiment classification using machine learning techniques
电影文本正负情感二分类,总共包含 10662 条样本。经常使用 随机切割的10折交叉验证 来测试这个数据集。
The Stanford Sentiment Treebank(SST)
介绍链接:SST-2 Dataset | Papers With Code
【看了一下最优模型的代码,有点多】
电影评论提取,人工标注
Recursive deep models for semantic compositionality over a sentiment treebank
上一个数据集 MR 的扩展版本。有两个版本可以用。一个是包含五个标签的 SST-1,一个是二分类的 SST-2.
- SST-1 一共有 11855 条样本,其中 8544 条训练样本,1101 条验证样本,2210 条测试样本。
- SST-2 6920 条训练样本,872 条验证样本,1821 条测试样本。
MPQA
Annotating expressions of opinions and emotions in language
多视角问答数据集,是一个意见语料库,有两个标签。一共有 10606 条样本。这是一个 不均衡数据集,3311 条正样本和 7293 条负样本。
Amazon
https://www.kaggle.com/datafiniti/consumer-reviews-of-amazon-products
来自亚马逊购物网站的商品评论,也有两个版本:二分类和多分类。
- 二分类版本 有 3600000 条训练样本和 400000 条测试数据。
- 五分类版本 有 3000000 条训练样本和 650000 条测试样本。
通过评分来对评论完成二分类:yelp['label'] = ['1' if star > 3 else '0' for star in yelp['stars']];
上图链接:Sentiment Analysis on Amazon Product (RNN-97% Acc) | Kaggle
其他的
- SemEval-2014 Task 4
Semeval-2016 task 5: Aspect based sentiment analysis
Adaptive recursive neural network for target-dependent twitter sentiment classification
- SentiHood
Sentihood: Targeted aspect based sentiment analysis dataset for urban neighbourhoods
参考博客
文本分类(情感分析)中文数据集汇总 - 知乎
【数据】情感分析数据集 - 知乎
文本分类综述 | 迈向NLP大师的第一步(下)
A Survey on Text Classification:From Shallow to Deep Learning,2020