文库网
ImageVerifierCode 换一换
首页 文库网 > 资源分类 > PDF文档下载
分享到微信 分享到微博 分享到QQ空间

深度学习500问-Tan-13第十三章 优化算法.pdf

  • 资源ID:200147       资源大小:1.03MB        全文页数:45页
  • 资源格式: PDF        下载积分:2文币
微信登录下载
快捷下载 游客一键下载
账号登录下载
三方登录下载: QQ登录 微博登录
二维码
扫码关注公众号登录
下载资源需要2文币
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
如填写123,账号就是123,密码也是123。
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 
账号:
密码:
验证码:   换一换
  忘记密码?
    
友情提示
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

深度学习500问-Tan-13第十三章 优化算法.pdf

1、T2.Tg, 那 么 连 接 便 是 从 右 到 左 。 例 如 : 隐 藏 层 共 有 256个 节 点 , 分为 四 组 , 周 期 分 别 是 1,2,4,8, 那 么 每 个 隐 藏 层 组 256/4=64个 节 点 , 第 一 组 隐 藏 层 与 隐 藏 层 的连 接 矩 阵 为 64*64的 矩 阵 , 第 二 层 的 矩 阵 则 为 64*128矩 阵 , 第 三 组 为 64*(3*64)=64*192矩 阵 ,第 四 组 为 64*(4*64)=64*256 矩 阵 。 这 就 解 释 了 上 一 段 的 后 面 部 分 , 速 度 慢 的 组 连 到 速 度 快 的组 ,

2、 反 之 则 不 成 立 。 CW-RNNs的 网 络 结 构 如 下 图 所 示 :参 考 文 献1 Hinton G E. Learning Distributed Representations of ConceptsC. Proceedings of the 8thAnnual Conference of theCognitiveScienceSociety.1986,1:12.2Elman,J.L.Findingstructureintime.CRLTechnicalReport8801,CenterforResearchinLanguage,UniversityofCaliforn

3、ia,SanDiego,1988.2273 Schuster M, Paliwal K K. Bidirectional recurrent neural networksJ. Signal Processing, IEEETransactions on, 1997,45(11):2673-2681.4GravesA,MohamedAR,Hinton G.SpeechRecognition with Deep Recurrent NeuralNetworksJ.Acoustics Speech&SignalProcessing.icassp.internationalConferenceon,

4、2013:6645-6649.5 Jaeger H, Haas H. Harnessing nonlinearity: Predicting chaotic systems and saving energy in wirelesscommunicationJ.Science,2004,304(5667):78-80.6 Cho K, Van Merrienboer B, Gulcehre C, et al. Learning Phrase Representations using RNN Encoder-Decoder forStatisticalMachineTranslationJ.E

5、printArxiv,2014.7HochreiterS,SchmidhuberJ.Longshort-termmemory.J.NeuralComputation,1997,9(8):1735-1780.8 Chung J, Gulcehre C, Cho K H, et al. Empirical evaluation of gated recurrent neural networks on sequencemodelingJ.arXivpreprintarXiv:1412.3555,2014.9 Jan Koutnik, Klaus Greff, Faustino Gomez, Jue

6、rgen Schmidhuber. A Clockwork RNNJ. Proceedings of The 31stInternationalConferenceonMachineLearning,pp.18631871,2014.10 Sutskever, Ilya, Martens, James, Dahl, George E., and Hinton, Geoffrey E. On the importance of initialization andmomentum in deep learning. In Dasgupta, Sanjoy and Mcallester, Davi

7、d (eds.), Proceedings of the 30th InternationalConferenceonMachineLearning(ICML-13),volume28,pp.11391147. 果 做 处 理 , 得 到 了 denseprediction, 而 作 者 在 试 验 中 发 现 , 得 到 的 分 割 结 果比 较 粗 糙 , 所 以 考 虑 加 入 更 多 前 层 的 细 节 信 息 , 也 就 是 把 倒 数 第 几 层 的 输 出 和 最 后 的 输 出 做 一个 fusion, 实 际 上 也 就 是 加 和 :277实 验 表 明 , 这 样 的 分

8、 割 结 果 更 细 致 更 准 确 。 在 逐 层 fusion的 过 程 中 , 做 到 第 三 行 再 往 下 ,结 果 又 会 变 差 , 所 以 作 者 做 到 这 里 就 停 了 。8.1.10模 型 训 练( 1) 用 AlexNet, VGG16 或 者 GoogleNet 训 练 好 的 模 型 做 初 始 化 , 在 这 个 基 础 上 做fine-tuning, 全 部 都 fine-tuning, 只 需 在 末 尾 加 上 upsampling, 参 数 的 学 习 还 是 利 用 CNN本 身的 反 向 传 播 原 理 。( 2) 采 用 wholeimage 做

9、训 练 , 不 进 行 patchwisesampling。 实 验 证 明 直 接 用 全 图 已 经 很effectiveandefficient。( 3) 对 classscore的 卷 积 层 做 全 零 初 始 化 。 随 机 初 始 化 在 性 能 和 收 敛 上 没 有 优 势 。举 例 :FCN例 子 :输 入 可 为 任 意 尺 寸 图 像 彩 色 图 像 ; 输 出 与 输 入 尺 寸 相 同 , 深 度 为 : 20类 目 标 +背 景 =21, 模 型 基 于 AlexNet。蓝 色 : 卷 积 层 。绿 色 : MaxPooling层 。黄 色 : 求 和 运 算 ,

10、 使 用 逐 数 据 相 加 , 把 三 个 不 同 深 度 的 预 测 结 果 进 行 融 合 : 较 浅 的 结 果 更为 精 细 , 较 深 的 结 果 更 为 鲁 棒 。灰 色 : 裁 剪 , 在 融 合 之 前 , 使 用 裁 剪 层 统 一 两 者 大 小 , 最 后 裁 剪 成 和 输 入 相 同 尺 寸 输 出 。对 于 不 同 尺 寸 的 输 入 图 像 , 各 层 数 据 的 尺 寸 ( height, width) 相 应 变 化 , 深 度 ( channel)不 变 。278( 1) 全 卷 积 层 部 分 进 行 特 征 提 取 , 提 取 卷 积 层 ( 3个 蓝

11、 色 层 ) 的 输 出 来 作 为 预 测 21个 类 别 的特 征( 2) 图 中 虚 线 内 是 反 卷 积 层 的 运 算 , 反 卷 积 层 ( 3 个 橙 色 层 ) 可 以 把 输 入 数 据 尺 寸 放 大 。 和卷 积 层 一 样 , 升 采 样 的 具 体 参 数 经 过 训 练 确 定 。 以 经 典 的 AlexNet分 类 网 络 为 初 始 化 。 最 后 两 级 是 全 连 接 ( 红 色 ) , 参 数 弃 去 不 用 。 从 特 征 小 图 ( ) 预 测 分 割 小 图 ( ) , 之 后 直 接 升 采 样 为 大 图 。反 卷 积 ( 橙 色 ) 的 步

12、 长 为 32, 这 个 网 络 称 为 FCN-32s 升 采 样 分 为 两 次 完 成 ( 橙 色 2) , 在 第 二 次 升 采 样 前 , 把 第 4 个 pooling层 ( 绿 色 ) 的预 测 结 果 ( 蓝 色 ) 融 合 进 来 。 使 用 跳 级 结 构 提 升 精 确 性 。228第 七 章 目 标 检 测https:/ 滑 动 窗 口 检 测 器自 从 AlexNet 获 得 ILSVRC2012 挑 战 赛 冠 军 后 , 用 CNN 进 行 分 类 成 为 主 流 。 一 种 用于 目 标 检 测 的 暴 力 方 法 是 从 左 到 右 、 从 上 到 下 滑

13、动 窗 口 , 利 用 分 类 识 别 目 标 。 为 了 在 不 同 观 察距 离 处 检 测 不 同 的 目 标 类 型 , 我 们 使 用 不 同 大 小 和 宽 高 比 的 窗 口 。滑 动 窗 口 ( 从 右 到 左 , 从 上 到 下 )我 们 根 据 滑 动 窗 口 从 图 像 中 剪 切 图 像 块 。 由 于 很 多 分 类 器 只 取 固 定 大 小 的 图 像 , 因 此 这 些图 像 块 是 经 过 变 形 转 换 的 。 但 是 , 这 不 影 响 分 类 准 确 率 , 因 为 分 类 器 可 以 处 理 变 形 后 的 图 像 。将 图 像 变 形 转 换 成 固

14、 定 大 小 的 图 像变 形 图 像 块 被 输 入 CNN 分 类 器 中 , 提 取 出 4096 个 特 征 。 之 后 , 我 们 使 用 SVM 分 类器 识 别 类 别 和 该 边 界 框 的 另 一 个 线 性 回 归 器 。229滑 动 窗 口 检 测 器 的 系 统 工 作 流 程 图 。7.1.2 选 择 性 搜 索我 们 不 使 用 暴 力 方 法 , 而 是 用 候 选 区 域 方 法 ( regionproposalmethod) 创 建 目 标 检 测 的 感兴 趣 区 域 ( ROI) 。 在 选 择 性 搜 索 ( selectivesearch, SS) 中

15、 , 我 们 首 先 将 每 个 像 素 作 为 一 组 。然 后 , 计 算 每 一 组 的 纹 理 , 并 将 两 个 最 接 近 的 组 结 合 起 来 。 但 是 为 了 避 免 单 个 区 域 吞 噬 其 他 区域 , 我 们 首 先 对 较 小 的 组 进 行 分 组 。 我 们 继 续 合 并 区 域 , 直 到 所 有 区 域 都 结 合 在 一 起 。 下 图 第一 行 展 示 了 如 何 使 区 域 增 长 , 第 二 行 中 的 蓝 色 矩 形 代 表 合 并 过 程 中 所 有 可 能 的 ROI。2307.1.3 R-CNNR-CNN 利 用 候 选 区 域 方 法

16、创 建 了 约 2000 个 ROI。 这 些 区 域 被 转 换 为 固 定 大 小 的 图 像 , 并分 别 馈 送 到 卷 积 神 经 网 络 中 。 该 网 络 架 构 后 面 会 跟 几 个 全 连 接 层 , 以 实 现 目 标 分 类 并 提 炼 边 界框 。使 用 候 选 区 域 、 CNN、 仿 射 层 来 定 位 目 标 。以 下 是 R-CNN 整 个 系 统 的 流 程 图 :通 过 使 用 更 少 且 更 高 质 量 的 ROI, R-CNN 要 比 滑 动 窗 口 方 法 更 快 速 、 更 准 确 。7.1.4 边 界 框 回 归 器候 选 区 域 方 法 有 非

17、 常 高 的 计 算 复 杂 度 。 为 了 加 速 这 个 过 程 , 我 们 通 常 会 使 用 计 算 量 较 少 的候 选 区 域 选 择 方 法 构 建 ROI, 并 在 后 面 使 用 线 性 回 归 器 ( 使 用 全 连 接 层 ) 进 一 步 提 炼 边 界 框 。231使 用 回 归 方 法 将 蓝 色 的 原 始 边 界 框 提 炼 为 红 色 的 。7.1.5 Fast R-CNNR-CNN 需 要 非 常 多 的 候 选 区 域 以 提 升 准 确 度 , 但 其 实 有 很 多 区 域 是 彼 此 重 叠 的 , 因 此R-CNN 的 训 练 和 推 断 速 度 非

18、 常 慢 。 如 果 我 们 有 2000 个 候 选 区 域 , 且 每 一 个 都 需 要 独 立 地 馈 送到 CNN 中 , 那 么 对 于 不 同 的 ROI, 我 们 需 要 重 复 提 取 2000 次 特 征 。此 外 , CNN 中 的 特 征 图 以 一 种 密 集 的 方 式 表 征 空 间 特 征 , 那 么 我 们 能 直 接 使 用 特 征 图 代 替原 图 来 检 测 目 标 吗 ?232直 接 利 用 特 征 图 计 算 ROI。FastR-CNN 使 用 特 征 提 取 器 ( CNN) 先 提 取 整 个 图 像 的 特 征 , 而 不 是 从 头 开 始

19、对 每 个 图像 块 提 取 多 次 。 然 后 , 我 们 可 以 将 创 建 候 选 区 域 的 方 法 直 接 应 用 到 提 取 到 的 特 征 图 上 。 例 如 ,FastR-CNN 选 择 了 VGG16 中 的 卷 积 层 conv5 来 生 成 ROI, 这 些 关 注 区 域 随 后 会 结 合 对 应的 特 征 图 以 裁 剪 为 特 征 图 块 , 并 用 于 目 标 检 测 任 务 中 。 我 们 使 用 ROI 池 化 将 特 征 图 块 转 换 为固 定 的 大 小 , 并 馈 送 到 全 连 接 层 进 行 分 类 和 定 位 。 因 为 Fast-RCNN 不

20、 会 重 复 提 取 特 征 , 因 此它 能 显 著 地 减 少 处 理 时 间 。将 候 选 区 域 直 接 应 用 于 特 征 图 , 并 使 用 ROI池 化 将 其 转 化 为 固 定 大 小 的 特 征 图 块 。以 下 是 Fast R-CNN 的 流 程 图 :Fast R-CNN 最 重 要 的 一 点 就 是 包 含 特 征 提 取 器 、 分 类 器 和 边 界 框 回 归 器 在 内 的 整 个 网 络能 通 过 多 任 务 损 失 函 数 进 行 端 到 端 的 训 练 , 这 种 多 任 务 损 失 即 结 合 了 分 类 损 失 和 定 位 损 失 的 方法 ,

21、大 大 提 升 了 模 型 准 确 度 。2337.1.6 ROI 池 化因 为 Fast R-CNN 使 用 全 连 接 层 , 所 以 我 们 应 用 ROI 池 化 将 不 同 大 小 的 ROI 转 换 为 固 定大 小 。为 简 洁 起 见 , 我 们 先 将 8 8 特 征 图 转 换 为 预 定 义 的 2 2 大 小 。下 图 左 上 角 : 特 征 图 。右 上 角 : 将 ROI( 蓝 色 区 域 ) 与 特 征 图 重 叠 。左 下 角 : 将 ROI 拆 分 为 目 标 维 度 。 例 如 , 对 于 2 2 目 标 , 我 们 将 ROI 分 割 为 4 个 大小 相

22、 似 或 相 等 的 部 分 。右 下 角 : 找 到 每 个 部 分 的 最 大 值 , 得 到 变 换 后 的 特 征 图 。输 入 特 征 图 ( 左 上 ) , 输 出 特 征 图 ( 右 下 ) , ROI (右 上 , 蓝 色 框 )。 按 上 述 步 骤 得 到 一 个2 2 的 特 征 图 块 , 可 以 馈 送 至 分 类 器 和 边 界 框 回 归 器 中 。7.1.7 Faster R-CNNFast R-CNN 依 赖 于 外 部 候 选 区 域 方 法 , 如 选 择 性 搜 索 。 但 这 些 算 法 在 CPU 上 运 行 且 速 度很 慢 。 在 测 试 中 , Fast R-CNN 需 要 2.3 秒 来 进 行 预 测 , 其 中 2 秒 用 于 生 成 2000 个 ROI。Faster R-CNN 采 用 与 Fast R-CNN 相 同 的 设 计 , 只 是 它 用 内 部 深 层 网 络 代 替 了 候 选 区 域方 法 。 新 的 候 选 区 域 网 络 ( RPN) 在 生 成 ROI 时 效 率 更 高 , 并 且 以 每 幅 图 像 10 毫 秒 的 速 度 运行 。234Faster R-CNN 的 流 程 图 与 Fast R-CNN 相 同外 部 候 选 区 域 方 法 代 替 了 内 部 深 层 网 络 。


注意事项

本文(深度学习500问-Tan-13第十三章 优化算法.pdf)为本站会员(黄嘉文)主动上传,文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知文库网(点击联系客服),我们立即给予删除!




关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

文库网用户QQ群:731843829  微博官方号:文库网官方   知乎号:文库网

Copyright© 2025 文库网 wenkunet.com 网站版权所有世界地图

经营许可证编号:粤ICP备2021046453号   营业执照商标

1.png 2.png 3.png 4.png 5.png 6.png 7.png 8.png 9.png 10.png