其实通过BERT模型对外卖数据集进行分类,从而得到其归类是好评还是差评。其中数据集使用的是waimai_10k。
该数据集中有1.1万条记录,其中差评占绝大多数。需要根据情况拆分为训练集和测试集。
主要考验对Transformers库的使用,就当是训练和学习。
如果不想训练,可以使用已经训练好的模型waimai。其模型基于TinyBERT,调用也比较简单。
但是测试发现如果有些词不存在会准确率直接急剧反转。如这家店明码标价、分量足!童叟无欺这话,结果是差评。如果去掉后面童叟无欺,则99.99%的可信度为好评。