深度学习500问-Tan-13第十三章 优化算法.pdf
《深度学习500问-Tan-13第十三章 优化算法.pdf》由会员分享,可在线阅读,更多相关《深度学习500问-Tan-13第十三章 优化算法.pdf(45页珍藏版)》请在文库网上搜索。
1、T2.Tg, 那 么 连 接 便 是 从 右 到 左 。 例 如 : 隐 藏 层 共 有 256个 节 点 , 分为 四 组 , 周 期 分 别 是 1,2,4,8, 那 么 每 个 隐 藏 层 组 256/4=64个 节 点 , 第 一 组 隐 藏 层 与 隐 藏 层 的连 接 矩 阵 为 64*64的 矩 阵 , 第 二 层 的 矩 阵 则 为 64*128矩 阵 , 第 三 组 为 64*(3*64)=64*192矩 阵 ,第 四 组 为 64*(4*64)=64*256 矩 阵 。 这 就 解 释 了 上 一 段 的 后 面 部 分 , 速 度 慢 的 组 连 到 速 度 快 的组 ,
2、 反 之 则 不 成 立 。 CW-RNNs的 网 络 结 构 如 下 图 所 示 :参 考 文 献1 Hinton G E. Learning Distributed Representations of ConceptsC. Proceedings of the 8thAnnual Conference of theCognitiveScienceSociety.1986,1:12.2Elman,J.L.Findingstructureintime.CRLTechnicalReport8801,CenterforResearchinLanguage,UniversityofCaliforn
3、ia,SanDiego,1988.2273 Schuster M, Paliwal K K. Bidirectional recurrent neural networksJ. Signal Processing, IEEETransactions on, 1997,45(11):2673-2681.4GravesA,MohamedAR,Hinton G.SpeechRecognition with Deep Recurrent NeuralNetworksJ.Acoustics Speech&SignalProcessing.icassp.internationalConferenceon,
4、2013:6645-6649.5 Jaeger H, Haas H. Harnessing nonlinearity: Predicting chaotic systems and saving energy in wirelesscommunicationJ.Science,2004,304(5667):78-80.6 Cho K, Van Merrienboer B, Gulcehre C, et al. Learning Phrase Representations using RNN Encoder-Decoder forStatisticalMachineTranslationJ.E
5、printArxiv,2014.7HochreiterS,SchmidhuberJ.Longshort-termmemory.J.NeuralComputation,1997,9(8):1735-1780.8 Chung J, Gulcehre C, Cho K H, et al. Empirical evaluation of gated recurrent neural networks on sequencemodelingJ.arXivpreprintarXiv:1412.3555,2014.9 Jan Koutnik, Klaus Greff, Faustino Gomez, Jue
6、rgen Schmidhuber. A Clockwork RNNJ. Proceedings of The 31stInternationalConferenceonMachineLearning,pp.18631871,2014.10 Sutskever, Ilya, Martens, James, Dahl, George E., and Hinton, Geoffrey E. On the importance of initialization andmomentum in deep learning. In Dasgupta, Sanjoy and Mcallester, Davi
7、d (eds.), Proceedings of the 30th InternationalConferenceonMachineLearning(ICML-13),volume28,pp.11391147. 果 做 处 理 , 得 到 了 denseprediction, 而 作 者 在 试 验 中 发 现 , 得 到 的 分 割 结 果比 较 粗 糙 , 所 以 考 虑 加 入 更 多 前 层 的 细 节 信 息 , 也 就 是 把 倒 数 第 几 层 的 输 出 和 最 后 的 输 出 做 一个 fusion, 实 际 上 也 就 是 加 和 :277实 验 表 明 , 这 样 的 分
8、 割 结 果 更 细 致 更 准 确 。 在 逐 层 fusion的 过 程 中 , 做 到 第 三 行 再 往 下 ,结 果 又 会 变 差 , 所 以 作 者 做 到 这 里 就 停 了 。8.1.10模 型 训 练( 1) 用 AlexNet, VGG16 或 者 GoogleNet 训 练 好 的 模 型 做 初 始 化 , 在 这 个 基 础 上 做fine-tuning, 全 部 都 fine-tuning, 只 需 在 末 尾 加 上 upsampling, 参 数 的 学 习 还 是 利 用 CNN本 身的 反 向 传 播 原 理 。( 2) 采 用 wholeimage 做
9、训 练 , 不 进 行 patchwisesampling。 实 验 证 明 直 接 用 全 图 已 经 很effectiveandefficient。( 3) 对 classscore的 卷 积 层 做 全 零 初 始 化 。 随 机 初 始 化 在 性 能 和 收 敛 上 没 有 优 势 。举 例 :FCN例 子 :输 入 可 为 任 意 尺 寸 图 像 彩 色 图 像 ; 输 出 与 输 入 尺 寸 相 同 , 深 度 为 : 20类 目 标 +背 景 =21, 模 型 基 于 AlexNet。蓝 色 : 卷 积 层 。绿 色 : MaxPooling层 。黄 色 : 求 和 运 算 ,
10、 使 用 逐 数 据 相 加 , 把 三 个 不 同 深 度 的 预 测 结 果 进 行 融 合 : 较 浅 的 结 果 更为 精 细 , 较 深 的 结 果 更 为 鲁 棒 。灰 色 : 裁 剪 , 在 融 合 之 前 , 使 用 裁 剪 层 统 一 两 者 大 小 , 最 后 裁 剪 成 和 输 入 相 同 尺 寸 输 出 。对 于 不 同 尺 寸 的 输 入 图 像 , 各 层 数 据 的 尺 寸 ( height, width) 相 应 变 化 , 深 度 ( channel)不 变 。278( 1) 全 卷 积 层 部 分 进 行 特 征 提 取 , 提 取 卷 积 层 ( 3个 蓝
11、 色 层 ) 的 输 出 来 作 为 预 测 21个 类 别 的特 征( 2) 图 中 虚 线 内 是 反 卷 积 层 的 运 算 , 反 卷 积 层 ( 3 个 橙 色 层 ) 可 以 把 输 入 数 据 尺 寸 放 大 。 和卷 积 层 一 样 , 升 采 样 的 具 体 参 数 经 过 训 练 确 定 。 以 经 典 的 AlexNet分 类 网 络 为 初 始 化 。 最 后 两 级 是 全 连 接 ( 红 色 ) , 参 数 弃 去 不 用 。 从 特 征 小 图 ( ) 预 测 分 割 小 图 ( ) , 之 后 直 接 升 采 样 为 大 图 。反 卷 积 ( 橙 色 ) 的 步
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 深度 学习 500 Tan 13 第十三 优化 算法