如何求导 洛必达法则如何求导( 四 )


6.3 较大范数约束
正规化的另一种形式是实施绝对上限的大小在每个神经元的权向量中,利用投影梯度下降来强制约束 。在实践中,这对应于执行参数正常更新,然后执行夹紧约束的vec { w }每个神经元的权向量满足平行vec { w } parallel_2 < c 。典型的c值是3或4的订单 。有些人报告改进在使用这种形式的正规化 。其吸引人的特性之一是网络不能“爆炸”即使学习速率
6.4 Dropout
Dropout是一个极其有效的、简单的并且是较近才被提出的正则化技术作为以上三种正则化方法(L1、L2、较大范数约束)的补充 。在训练期间,dropout能够被理解为在一个全连接的神经网络中的神经网络进行子采样,并且仅仅基于输入数据更新网络采样更新的参数 。然而,该指数可能的取样数量,网络并不是独立的,因为他们共享参数 。在测试过程中,dropout没有被使用 。通过集成指数级的所有子网络解释预测的均值 。实践过程中,dropout 的比率为 p=0.5 是一个合理的默认值 。但是这个值可以在验证数据上进行微调 。
较流行使用的正则化技术Dropout
7. 从数字中观察
7.1 从学习率观察
太高的学习率,loss曲线会很奇怪,很容易会出现参数爆炸现象;低学习率,loss下降很慢;高学习率,一开始loss会下降很快,但很容易跌入局部较小值;好的学习率应该平滑下降 。
7.2 放大loss曲线观察 。
图2中横坐标是epoch(网络在整个训练集上完整的跑一遍的时间,所以每个epoch中会有多个mini batches),纵坐标是每个训练batch的分类loss 。如果loss曲线表现出线性(下降缓慢)表明学习率太低;如果loss不再下降,表明学习率太高陷入局部较小值;曲线的宽度和batch size有关,如果宽度太宽,说明相邻batch间的变化太大,应该减小batch size 。
7.3 从精确率曲线观察 。
图3中红色线是训练集上的精确率,绿色验证集上的精确率 。当验证集上精确度收敛时,红线和绿线间隔过大很明显训练集上出现了过拟合 。当两线间隔很小且准确率都很低时,说明模型学习能力太低,需要增加模型的capacity 。
8. 集成
在机器学习中,在训练多个学习器并将它们进行组合来使用是一种前沿的学习方法 。众所周知,集成方法通常在得到更高的精确性的时候相比于单个学习器是至关重要的 。并且,集成方法已经在现实任务中取得了伟大的成功 。在实际应用中,尤其是挑战和竞赛中,几乎所有的排名和第二名获胜者都使用集成 。
这里,我们介绍几个在深度学习场景中的集成技巧:
8.1 相同的模型,不同的初始化
使用交叉验证决定较优超参数,然后根据较好的超参数集训练多个方法,但是使用不同的随机初始化 。这种方法的危险是模型的多样性仅仅取决于初始化 。
8.2 交叉验证阶段的较优模型的发现
使用交叉验证决定较优超参数,然后选择少量几个效果较好的模型进行集成 。这样改善了集成的多样性,但是他也有风险:例如局部较优 。在实践中,这可以更容易执行,因为它不需要额外的培训交叉验证后的模型 。事实上,你可以直接选择几个较先进的深度模型从 Caffe Model Zoo 执行集成 。
8.3 单个模型的不同检查点
如果训练的代价很高,有些人取得了有限的成功在不同的检查点的单一网络随时间(例如在每个阶段)和使用这些形成了一个整体 。显然,这受制于某些缺乏多样性,但是在实践中仍然可以工作的很好 。这种方法的优点是,非常简便 。
【如何求导 洛必达法则如何求导】参考文献: