除了书上的方法,还有如下方法
- 人工分析训练集和验证/测试集的差异。以车载语音识别为例,假设发现验证/测试集有很多杂声(如汽车的引擎声等等),或者说包含很多街道的名字(说明模型不擅长识别街道名字)。
- 收集训练集中不包含的,但是验证集中有的新数据进行训练;或者对已有数据进行修改,使其包含验证集中数据的特征。举例,我们的训练数据是没有背景噪声的干净音频,验证数据却含有背景噪声,于是我们可以收集一段噪声,然后将这段噪声合成进我们的训练数据中。但是这样子可能会出现一个问题,比如我们的训练数据一共有一万个样本,每个样本一个小时,但是我们收集的数据却只有一个小时,简单的做法是直接将这一个小时的背景声复制成一万个然后加到这一万个训练样本里面,对于人来说可能问题不大(因为人不太能够区分不同的背景声),但是对于神经网络就不一样了,其很可能直接过拟合了