文章目录
- 1. sigmoid function的替代方案
- 2. 如何选择activation function
- 3. 为什么模型需要activation function
【吴恩达p62-64】
1. sigmoid function的替代方案
- 来看上周的例子,预测一个商品是否能成为消冠。
- 这里的awareness可能是binary的。人们要么知道/不知道。但事实上,可能是知道一点,完全知道…
- 因此,与其用0/1来预测(太简单了)或者0-1之间的数字,不如直接尝试预测awareness的概率。让awareness可以取到负值。
- 使用该方程,来预测awareness,会得到左侧的图像。如果想让a1_2取到大雨1的数字,在neural network里更常见的是使用右侧图像的这种activation【ReLU】,这样g(z)就可以取到所有非负数。
5. 一些常见的activation function:
(1) Linear activation function【也可以说没有使用任何activation function, 因为会直接让a = wx+b】
(2)sigmoid
(3)RuLU
2. 如何选择activation function
- 如何选择output layer的activation function,这取决于target label / 真实值y是什么。
(1)处理classification的问题,sigmoid function通常是最自然的选择。因为让neural network去预测y=1的概率,跟我们做logistic regression一样。
(2)处理regression问题时,如果y值可正可负(预测股价变化)建议用linear activation function。因为y值可+可-。
(3)处理regression问题时,如果y值只能是非负数,那么就用ReLU。
- 如何选择hidden layer的activation function:
- ReLU是neural network里最常见的一种选择。
原因一:ReLU只有一个部分是平坦的,sigmoid有2部分,flat会导致gradient descent很慢。因为flat会导致cost function的偏导约等于0.
原因二:它计算更快。
- ReLU是neural network里最常见的一种选择。
3. 为什么模型需要activation function
- 如果model全用linear activation function在所有的neuron会怎么样?
这个模型会完全等于linear regression。
- 这个模型会完全等于linear regression。(过程)
- 如果所有的hidden layer都用linear activation function,只有output layer用logistic activation function的话,这个模型会完全等于logistic regression。