本质和主要改进见下
因为模型更大了,所以要用丢弃法做正则;\(\text{ReLu}\)则比\(\text{Sigmoid}\)更能支撑更深的网络(解决了梯度消失);最大汇聚层则让输出更大,梯度更大,训练更容易
还有一些主要区别如下
步长也很大的原因也是当时的算力其实不是很够
池化层更大了就允许像素平移更多的长度
这样子可以学习更多的特征
全连接层增加了隐藏单元数是因为最后要预测的类别就是\(1000\),所以肯定要比\(1000\)大
卷积对像素的变化非常敏感,为了降低其敏感度,就要使用数据增强,相当于就是不要让神经网络记住所有的图片
\(\text{AlexNet}\)最大的贡献就是引起了人们观念的改变。以前人们还是认为\(\text{LeNet}\)就是一个机器学习的模型,中心还是放在了特征提取上,在\(\text{AlexNet}\)之后就不一样了