4.2 学习率
使用验证集是获得合适LR(Learning Rate)的有效手段 。开始训练时,LR通常设为0.1 。在实践中,当你观察到在验证集上的loss或者准确率不在变化时,将LR除以2或5后继续跑 。
4.3 在预训练的模型上微调
很多state-of-the-arts deep networks的模型被开源出来,这些预训练的模型泛化能力(generalization abilities)很强,因此可以在这些模型的基础上根据自己的任务微调 。微调涉及两个重要的因素:新数据集的大小和两个数据集的相似度 。网络顶层特征包含更多dataset-specific特征 。
5. 激活函数
激活函数用于在网络中引入非线性 。sigmoid 与 tanh 曾经很流行,但现在很少用于视觉模型了,主要原因在于当输入的绝对值较大时,其梯度(导数)接近于零,这时参数几乎不再更新,梯度的反向传播过程将被中断,出现梯度消散的现象 。
激活函数示意图,图片来自斯坦福 Stanford CS231n
Sigmoid 激活函数
tanh 激活函数
ReLU 激活函数
ReLU 优点:
实现起来非常简单,加速了计算过程 。
加速收敛,没有饱和问题,大大缓解了梯度消散的现象 。
ReLU 缺点:
就是它可能会永远“死”掉,假如有一组二维数据 X(x1, x2)分布在 x1:[0,1], x2:[0,1] 的区域内,有一组参数 W(w1, w2)对 X 做线性变换,并将结果输入到ReLU 。
F = w1*x1 + w2*x2
F = w1*x1 + w2*x2
如果 w1 = w2 = -1,那么无论 X 如何取值,F 必然小于等于零 。那么 ReLU 函数对 F 的导数将永远为零 。这个 ReLU 节点将永远不参与整个模型的学习过程 。
为了解决ReLU 在负区间的导数为零的问题,人们发明了 Leaky ReLU, Parametric ReLU, Randomized ReLU 等变体,他们的中心思想都是为ReLU 函数在负区间赋予一定的斜率,从而让其导数不为零(这里设斜率为 alpha) 。
Leaky ReLU 就是直接给 alpha 指定一个固定的值,整个模型都用这个斜率:
Parametric ReLU 将 alpha 作为一个参数,通过从数据中学习获取它的较优值 。
Randomized ReLU 的alpha 是在规定的区间内随机选取的,在测试阶段是定值 。
有学者将当前较优的两类CNN网络结合不同的激活函数在CIFAR-10,CIFAR-100和NDSB数据集上做实验,评价四种激活函数的优劣 。实验结果表明Leaky ReLU取较大的alpha准确率更好 。Parametric ReLU很容易在小数据集上过拟合(训练集上错误率较低,测试集上不理想),但依然比ReLU好 。RReLU效果较好,实验表明它可以克服模型过拟合,这可能由于alpha选择的随机性 。在实践中, Parametric ReLU 和 Randomized ReLU 都是可取的 。

文章插图
6. 正则化(Regularizations)
以下是几种常用的方通过控制模型的容量来阻止 神经网络 的过拟合(Overfitting) 。
6.1 L2正则化
L2正则化也许是较常用的正则化的形式 。它可以通过将模型中所有的参数的平方级作为惩罚项加入到目标函数(objective)中来实现 。也就是说,对网络中的每一个权重w ,我们将其项 12λw2 加入到目标函数中,其中λ 是正则化的强度参数 。在惩罚项公式的前面加上12是很常见的,这样做的原因是因为优化函数12λw2 求导的时候不至于前面产生一个常数项因子2,而只是λw 这样简单的形式 。对L2正则化的直观的解释是,L2正则化对尖峰向量的惩罚很强,并且倾向于分散权重的向量 。
6.2 L1正则化
L1正则化是另一个相关的常见的正则化方式 。这里,对于网络中的每一个权重w ,我们都会加上一个项λ|w| 到目标函数中 。L1正则化有一个非常有趣的属性,那就是它会使得权重向量w在优化期间变得稀疏(例如非常接近零向量) 。带有L1正则化项结尾的神经网络仅仅使用它的较重要的并且接近常量的噪声的输入的一个稀疏的子集 。相比之下,较终的权重向量从L2正则化通常是分散的、小数字 。在实践中,如果你不关心明确的特征选择,可以预计L2正则化在L1的性能优越 。
- 如何使用mac 如何使用mac地址连接wifi
- 如何插入多行 如何插入多行单元格
- 如何感冒 如何感冒较快的速度在夏天
- 如何职业规划 大学生如何职业规划
- 如何瘦下来 脸部如何瘦下来
- ipad如何 ipad如何投屏到电视上去
- 淮阴侯韩信被杀死后,刘邦是如何对待他的后人的?
- 如何与父母相处 高中生如何与父母相处
- qq如何恢复好友 如何恢复好友教程
- 微商如何引流 微商如何引流呢
