换一换

文库网 > 资源分类 > PDF文档下载

预览

深度学习500问-Tan-13第十三章优化算法.pdf

资源ID：200147 资源大小：1.03MB 全文页数：45页
资源格式： PDF 下载积分：2文币

微信登录下载

快捷下载

账号登录下载

三方登录下载：

扫码关注公众号登录

下载资源需要2文币

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
支付方式：
验证码：	换一换

加入VIP,免费下载

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

深度学习500问-Tan-13第十三章优化算法.pdf

1、T2.Tg，那么连接便是从右到左。例如：隐藏层共有 256个节点，分为四组，周期分别是 1,2,4,8，那么每个隐藏层组 256/4=64个节点，第一组隐藏层与隐藏层的连接矩阵为 64*64的矩阵，第二层的矩阵则为 64*128矩阵，第三组为 64*(3*64)=64*192矩阵，第四组为 64*(4*64)=64*256 矩阵。这就解释了上一段的后面部分，速度慢的组连到速度快的组，

2、反之则不成立。 CW-RNNs的网络结构如下图所示：参考文献1 Hinton G E. Learning Distributed Representations of ConceptsC. Proceedings of the 8thAnnual Conference of theCognitiveScienceSociety.1986,1:12.2Elman,J.L.Findingstructureintime.CRLTechnicalReport8801,CenterforResearchinLanguage,UniversityofCaliforn

3、ia,SanDiego,1988.2273 Schuster M, Paliwal K K. Bidirectional recurrent neural networksJ. Signal Processing, IEEETransactions on, 1997,45(11):2673-2681.4GravesA,MohamedAR,Hinton G.SpeechRecognition with Deep Recurrent NeuralNetworksJ.Acoustics Speech&SignalProcessing.icassp.internationalConferenceon,

4、2013:6645-6649.5 Jaeger H, Haas H. Harnessing nonlinearity: Predicting chaotic systems and saving energy in wirelesscommunicationJ.Science,2004,304(5667):78-80.6 Cho K, Van Merrienboer B, Gulcehre C, et al. Learning Phrase Representations using RNN Encoder-Decoder forStatisticalMachineTranslationJ.E

5、printArxiv,2014.7HochreiterS,SchmidhuberJ.Longshort-termmemory.J.NeuralComputation,1997,9(8):1735-1780.8 Chung J, Gulcehre C, Cho K H, et al. Empirical evaluation of gated recurrent neural networks on sequencemodelingJ.arXivpreprintarXiv:1412.3555,2014.9 Jan Koutnik, Klaus Greff, Faustino Gomez, Jue

6、rgen Schmidhuber. A Clockwork RNNJ. Proceedings of The 31stInternationalConferenceonMachineLearning,pp.18631871,2014.10 Sutskever, Ilya, Martens, James, Dahl, George E., and Hinton, Geoffrey E. On the importance of initialization andmomentum in deep learning. In Dasgupta, Sanjoy and Mcallester, Davi

7、d (eds.), Proceedings of the 30th InternationalConferenceonMachineLearning(ICML-13),volume28,pp.11391147. 果做处理，得到了 denseprediction，而作者在试验中发现，得到的分割结果比较粗糙，所以考虑加入更多前层的细节信息，也就是把倒数第几层的输出和最后的输出做一个 fusion，实际上也就是加和：277实验表明，这样的分

8、割结果更细致更准确。在逐层 fusion的过程中，做到第三行再往下，结果又会变差，所以作者做到这里就停了。8.1.10模型训练（ 1）用 AlexNet， VGG16 或者 GoogleNet 训练好的模型做初始化，在这个基础上做fine-tuning，全部都 fine-tuning，只需在末尾加上 upsampling，参数的学习还是利用 CNN本身的反向传播原理。（ 2）采用 wholeimage 做

9、训练，不进行 patchwisesampling。实验证明直接用全图已经很effectiveandefficient。（ 3）对 classscore的卷积层做全零初始化。随机初始化在性能和收敛上没有优势。举例：FCN例子 :输入可为任意尺寸图像彩色图像；输出与输入尺寸相同，深度为： 20类目标 +背景 =21，模型基于 AlexNet。蓝色：卷积层。绿色： MaxPooling层。黄色 : 求和运算 ,

10、使用逐数据相加，把三个不同深度的预测结果进行融合：较浅的结果更为精细，较深的结果更为鲁棒。灰色 : 裁剪 , 在融合之前，使用裁剪层统一两者大小 , 最后裁剪成和输入相同尺寸输出。对于不同尺寸的输入图像，各层数据的尺寸（ height， width）相应变化，深度（ channel）不变。278（ 1）全卷积层部分进行特征提取 , 提取卷积层（ 3个蓝

11、色层）的输出来作为预测 21个类别的特征（ 2）图中虚线内是反卷积层的运算 , 反卷积层（ 3 个橙色层）可以把输入数据尺寸放大。和卷积层一样，升采样的具体参数经过训练确定。以经典的 AlexNet分类网络为初始化。最后两级是全连接（红色），参数弃去不用。从特征小图（）预测分割小图（），之后直接升采样为大图。反卷积（橙色）的步

12、长为 32，这个网络称为 FCN-32s 升采样分为两次完成（橙色 2） , 在第二次升采样前，把第 4 个 pooling层（绿色）的预测结果（蓝色）融合进来。使用跳级结构提升精确性。228第七章目标检测https:/ 滑动窗口检测器自从 AlexNet 获得 ILSVRC2012 挑战赛冠军后，用 CNN 进行分类成为主流。一种用于目标检测的暴力方法是从左到右、从上到下滑

13、动窗口，利用分类识别目标。为了在不同观察距离处检测不同的目标类型，我们使用不同大小和宽高比的窗口。滑动窗口（从右到左，从上到下）我们根据滑动窗口从图像中剪切图像块。由于很多分类器只取固定大小的图像，因此这些图像块是经过变形转换的。但是，这不影响分类准确率，因为分类器可以处理变形后的图像。将图像变形转换成固

14、定大小的图像变形图像块被输入 CNN 分类器中，提取出 4096 个特征。之后，我们使用 SVM 分类器识别类别和该边界框的另一个线性回归器。229滑动窗口检测器的系统工作流程图。7.1.2 选择性搜索我们不使用暴力方法，而是用候选区域方法（ regionproposalmethod）创建目标检测的感兴趣区域（ ROI）。在选择性搜索（ selectivesearch， SS）中

15、，我们首先将每个像素作为一组。然后，计算每一组的纹理，并将两个最接近的组结合起来。但是为了避免单个区域吞噬其他区域，我们首先对较小的组进行分组。我们继续合并区域，直到所有区域都结合在一起。下图第一行展示了如何使区域增长，第二行中的蓝色矩形代表合并过程中所有可能的 ROI。2307.1.3 R-CNNR-CNN 利用候选区域方法

16、创建了约 2000 个 ROI。这些区域被转换为固定大小的图像，并分别馈送到卷积神经网络中。该网络架构后面会跟几个全连接层，以实现目标分类并提炼边界框。使用候选区域、 CNN、仿射层来定位目标。以下是 R-CNN 整个系统的流程图：通过使用更少且更高质量的 ROI， R-CNN 要比滑动窗口方法更快速、更准确。7.1.4 边界框回归器候选区域方法有非

17、常高的计算复杂度。为了加速这个过程，我们通常会使用计算量较少的候选区域选择方法构建 ROI，并在后面使用线性回归器（使用全连接层）进一步提炼边界框。231使用回归方法将蓝色的原始边界框提炼为红色的。7.1.5 Fast R-CNNR-CNN 需要非常多的候选区域以提升准确度，但其实有很多区域是彼此重叠的，因此R-CNN 的训练和推断速度非

18、常慢。如果我们有 2000 个候选区域，且每一个都需要独立地馈送到 CNN 中，那么对于不同的 ROI，我们需要重复提取 2000 次特征。此外， CNN 中的特征图以一种密集的方式表征空间特征，那么我们能直接使用特征图代替原图来检测目标吗？232直接利用特征图计算 ROI。FastR-CNN 使用特征提取器（ CNN）先提取整个图像的特征，而不是从头开始

19、对每个图像块提取多次。然后，我们可以将创建候选区域的方法直接应用到提取到的特征图上。例如，FastR-CNN 选择了 VGG16 中的卷积层 conv5 来生成 ROI，这些关注区域随后会结合对应的特征图以裁剪为特征图块，并用于目标检测任务中。我们使用 ROI 池化将特征图块转换为固定的大小，并馈送到全连接层进行分类和定位。因为 Fast-RCNN 不

20、会重复提取特征，因此它能显著地减少处理时间。将候选区域直接应用于特征图，并使用 ROI池化将其转化为固定大小的特征图块。以下是 Fast R-CNN 的流程图：Fast R-CNN 最重要的一点就是包含特征提取器、分类器和边界框回归器在内的整个网络能通过多任务损失函数进行端到端的训练，这种多任务损失即结合了分类损失和定位损失的方法，

21、大大提升了模型准确度。2337.1.6 ROI 池化因为 Fast R-CNN 使用全连接层，所以我们应用 ROI 池化将不同大小的 ROI 转换为固定大小。为简洁起见，我们先将 8 8 特征图转换为预定义的 2 2 大小。下图左上角：特征图。右上角：将 ROI（蓝色区域）与特征图重叠。左下角：将 ROI 拆分为目标维度。例如，对于 2 2 目标，我们将 ROI 分割为 4 个大小相

22、似或相等的部分。右下角：找到每个部分的最大值，得到变换后的特征图。输入特征图（左上），输出特征图（右下）， ROI (右上，蓝色框 )。按上述步骤得到一个2 2 的特征图块，可以馈送至分类器和边界框回归器中。7.1.7 Faster R-CNNFast R-CNN 依赖于外部候选区域方法，如选择性搜索。但这些算法在 CPU 上运行且速度很慢。在测试中， Fast R-CNN 需要 2.3 秒来进行预测，其中 2 秒用于生成 2000 个 ROI。Faster R-CNN 采用与 Fast R-CNN 相同的设计，只是它用内部深层网络代替了候选区域方法。新的候选区域网络（ RPN）在生成 ROI 时效率更高，并且以每幅图像 10 毫秒的速度运行。234Faster R-CNN 的流程图与 Fast R-CNN 相同外部候选区域方法代替了内部深层网络。

注意事项: 本文（深度学习500问-Tan-13第十三章优化算法.pdf）为本站会员（黄嘉文）主动上传，文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知文库网（点击联系客服），我们立即给予删除！

深度学习500问-Tan-13第十三章 优化算法.pdf

深度学习500问-Tan-13第十三章 优化算法.pdf

深度学习500问-Tan-13第十三章优化算法.pdf

深度学习500问-Tan-13第十三章优化算法.pdf