深度学习500问-Tan-15第十五章 正则化.pdf
《深度学习500问-Tan-15第十五章 正则化.pdf》由会员分享,可在线阅读,更多相关《深度学习500问-Tan-15第十五章 正则化.pdf(5页珍藏版)》请在文库网上搜索。
1、361第十五章正则化15.1什么是正则化?15.2正则化原理?15.3为什么要正则化?除了正则化和随机失活(dropout)正则化,还有几种方法可以减少神经网络中的过拟合:深度学习可能存在过拟合问题高方差,有两个解决方法,一个是正则化,另一个是准备更多的数据,这是非常可靠的方法,但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高,但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据,即存在高方差问题,那么最先想到的方法可能是正则化,另一个解决高方差的方法就是准备更多数据,这也是非常可靠的办法,但你可能无法时时准备足够多的训练数据,或者,获取更多数据的
2、成本很高,但正则化有助于避免过度拟合,或者减少网络误差,下面我们就来讲讲正则化的作用原理。15.4为什么正则化有利于预防过拟合?362左图是高偏差,右图是高方差,中间是Just Right,这几张图我们在前面课程中看到过。15.5为什么正则化可以减少方差?15.6 L2正则化的理解?15.7理解dropout正则化Dropout可以随机删除网络中的神经单元,他为什么可以通过正则化发挥如此大的作用呢?直观上理解:不要依赖于任何一个特征,因为该单元的输入可能随时被清除,因此该单元通过这种方式传播下去,并为单元的四个输入增加一点权重,通过传播所有权重,dropout将产生收缩权重的平方范数的效果,和
3、之前讲的L2正则化类似;实施dropout的结果实它会压缩权重,并完成一些预防过拟合的外层正则化;L2对不同权重的衰减是不同的,它取决于激活函数倍增的大小。15.8有哪些dropout正则化方法?36315.8如何实施dropout正则化如何实施dropout呢?方法有几种,接下来我要讲的是最常用的方法,即inverted dropout(反向随机失活),出于完整性考虑,我们用一个三层()网络来举例说明。编码中会有很多涉及到3的地方。我只举例说明如何在某一层中实施dropout。15.9 Python实现dropout正则化15.10 L2正则化和dropout有什么不同?dropout的功能
4、类似于正则化,与正则化不同的是应用方式不同会带来一点点小变化,甚至更适用于不同的输入范围。第二个直观认识是,我们从单个神经元入手,如图,这个单元的工作就是输入并生成一些有意义的输出。通过dropout,该单元的输入几乎被消除,有时这两个单元会被删除,有时会删除其它单元,就是说,我用紫色圈起来的这个单元,它不能依靠任何特征,因为特征都有可能被随机清除,或者说该单元的输入也都可能被随机清除。我不愿意把所有赌注都放在一个节点上,不愿意给任何一个输入加上太多权重,因为它可能会被删除,因此该单元将通过这种方式积极地传播开,并为单元的四个输入增加一点权重,通过传播所有权重,dropout将产生收缩权重的平
5、方范数的效果,和我们之前讲过的正则化类似,实施dropout的结果是它会压缩权重,并完成一些预防过拟合的外层正则化。事实证明,dropout被正式地作为一种正则化的替代形式,对不同权重的衰减是不同的,它取决于倍增的激活函数的大小。总结一下,dropout的功能类似于正则化,与正则化不同的是,被应用的方式不同,dropout也会有所不同,甚至更适用于不同的输入范围。15.11 dropout有什么缺点?dropout一大缺点就是代价函数J不再被明确定义,每次迭代,都会随机移除一些节点,如果再三检查梯度下降的性能,实际上是很难进行复查的。定义明确的代价函数J每次迭代后都会下降,因为我们所优化的代价
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 深度 学习 500 Tan 15 第十五 正则