深度学习:方法及应用.pdf
《深度学习:方法及应用.pdf》由会员分享,可在线阅读,更多相关《深度学习:方法及应用.pdf(173页珍藏版)》请在文库网上搜索。
1、大数据丛书深度学习:方法及应用Deep Learning:Methods and Applications美 邓力(Li Deng)俞栋(Dong Yu)著 谢 磊译机 械 工 业 出 版 社本书对深度学习方法以及它在各种信号与信息处理任务中的应用进行了阐述。书中所列举的应用是根据以下三个标准来选取的:本书作者所具备的专业技能和知识;由于深度学习技术的成功应用而取得了重大突破的领域,比如语音识别和计算机视觉等;由于深度学习的应用而有可能发生巨变的应用领域,以及从深度学习的最新研究中获益的应用领域,其中包括自然语言和文本处理、信息检索和多任务深度学习驱动下的多模态信息处理等。本书适用于对深度学习
2、方法以及它在各种信号信息处理应用方面具有浓厚兴趣的学生与研究人员。Deep Learning:Methods and Applications/now Publishers Inc./1-1/by Li Deng,Dong Yu/ISBN:9781601988140Original English Language Edition published by now Publishers Inc.China Machine Press 2014.Authorized translation of the English edition Li Deng and Dong Yu.This editi
3、on is published and sold by permission ofNow Publishers,Inc.,the owner of all rights to publish and sell the same.This title is published in China by China Machine Press with license fromnow Publishers Inc.This edition is authorized for sale in China only,excludingHong Kong SAR,Macao SAR and Taiwan.
4、Unauthorized export of this edition isa violation of the Copyright Act.Violation of this Law is subject to Civil andCriminal Penalties.本书由 now Publishers Inc.授权机械工业出版社在中国大陆地区(不包括香港、澳门特别行政区以及台湾地区)出版与发行。未经许可之出口,视为违反著作权法,将受法律之制裁。北京市版权局著作权合同登记 图字:01-2015-5213 号图书在版编目(CIP)数据深度学习:方法及应用/(美)邓力,(美)俞栋著;谢磊译.北京
5、:机械工业出版社,2015.12书名原文:Deep Learning:Methods and ApplicationsISBN 978-7-111-52906-4.深.邓 俞 谢.人工智能.TP18中国版本图书馆 CIP 数据核字(2016)第 027177 号机械工业出版社(北京市百万庄大街 22 号 邮政编码 100037)策划编辑:王 康 责任编辑:王 康 汤 嘉版式设计:霍永明 责任校对:闫红封面设计:路恩中责任印制:常天培北京京丰印刷厂印刷2017 年 10 月第 1 版第 6 次印刷169mm 239mm10.75 印张201 千字标准书号:ISBN 978-7-111-52906
6、-4定价:39.80 元凡购本书,如有缺页、倒页、脱页,由本社发行部调换电话服务网络服务服务咨询热线:010-88361066机 工 官 网:读者购书热线:010-68326294机 工 官 博: 010-88379203金书网:www.golden-封面无防伪标均为盗版教育服务网: 译者序 深度学习是目前人工智能、机器学习领域异常火热的研究方向,受到了学术界和工业界的高度关注,被 麻省理工学院技术评论(MIT Technology Re-view)评为 2013 年十大突破性技术之首。深度学习已经在语音识别、图像识别、自然语言处理等诸多领域取得了突破性进展,对学术界和工业界产生了深远的影响。
7、本书原著的作者 微软研究院的邓力博士和俞栋博士是最早将深度学习技术付诸于语音识别工业级实践的专家,他们和深度学习专家多伦多大学 Geoffrey Hinton 教授合作,最早将深度神经网络应用于大词汇量连续语音识别领域中,使相对识别错误率降低了 20%以上。作为多年的导师和好朋友,两位专家将这本书的中文翻译任务交付给我,我倍感荣幸。此次中译本是在忠于原著的基础上进行翻译的,既涉及深度学习的背景和基本概念,又涉及常用的模型与方法,同时包含深度学习在不同领域中的应用。本书共有 12 章,具体内容包括:引言、深度学习的历史、三类深度学习网络、深度自编码器、预训练的深度神经网络、深度堆叠网络及其变种、
8、语音和音频处理中的应用、在语言模型和自然语言处理中的相关应用、信息检索领域中的应用、在目标识别和计算机视觉中的应用、多模态和多任务学习中的典型应用、结论。本书的翻译除了受到原著作者的指导,也受到了张蓬副教授、陈小敏、吕航、丁闯、孙思宁、何长青、樊博、张弼弘、张彬彬、周祥增的帮助,在此表示感谢。同时感谢机械工业出版社的大力支持与推动。没有他们的帮助,本书的翻译是无法促成的。由于深度学习技术是一个快速发展的方向,新的模型和应用层出不穷,加之本人学识有限以及中英文语言表达、术语翻译上的差异,书中难免存在错误,还请广大读者指正与原谅。建议读者在学习过程中和英文原著一起阅读,并参考本书引用的参考文献,以
9、便提高学习和理解效果。谢磊 原书序 “这本书对最前沿的深度学习方法及应用进行了全面的阐述,不仅包括自动语音识别(ASR),还包括计算机视觉、语言建模、文本处理、多模态学习以及信息检索。在深度学习这一领域,这是第一本,也是最有价值的一本书,能使读者对这一领域进行广泛而深入的学习。深度学习对信息处理的很多方面(尤其对语音识别)都具有重大的影响,甚至对整个科技领域的影响也不容忽视。因此,对于有意了解这一领域的学者,这本书是绝对不容错过的。”Sadaoki Furui,芝加哥丰田技术研究院院长,日本东京工业大学教授 目 录 译者序原书序1 引言11.1 深度学习的定义与背景21.2 本书的结构安排52
10、 深度学习的历史73 三类深度学习网络173.1 三元分类方式183.2 无监督和生成式学习深度网络193.3 监督学习深度网络233.4 混合深度网络254 深度自编码器 一种无监督学习方法294.1 引言304.2 利用深度自编码器来提取语音特征304.3 堆叠式去噪自编码器374.4 转换自编码器375 预训练的深度神经网络 一种混合方法395.1 受限玻尔兹曼机405.2 无监督逐层预训练435.3 DNN 和 HMM 结合456 深度堆叠网络及其变形 有监督学习476.1 简介486.2 深度堆叠网络的基本结构496.3 一种学习 DSN 权值的方法506.4 张量深度堆叠网络51
11、深度学习:方法及应用6.5 核化深度堆叠网络547 语音和音频处理中的应用597.1 语音识别中声学模型的建立607.2 语音合成767.3 音频和音乐处理778 在语言模型和自然语言处理中的相关应用798.1 语言模型808.2 自然语言处理849 信息检索领域中的应用939.1 信息检索简介949.2 用基于深度自编码器的语义哈希方法对文档进行索引和检索959.3 文档检索中的深度结构语义模型959.4 信息检索中深度堆叠网络的应用10110 在目标识别和计算机视觉中的应用103 10.1 无监督或生成特征学习104 10.2 有监督特征学习和分类10611 多模态和多任务学习中的典型应用
12、113 11.1 多模态:文本和图像114 11.2 多模态:语音和图像118 11.3 在语音、自然语言处理或者图像领域的多任务学习12012 结论125附录129参考文献1312 深度学习:方法及应用1.1 深度学习的定义与背景2006 年,深度结构学习(经常被称作深度学习或分层学习)作为机器学习研究的一个新的领域出现了20,163。在过去的几年里,由深度学习发展而来的一些科学技术对信号和信息处理的各个方面都产生了深远的影响,这种影响不仅存在于传统领域,也存在于诸如机器学习和人工智能等一些重要的新兴领域中;对于此类研究,文献 7,20,24,77,94,161,412 进行了概述,媒体报道
13、 6,237 也有所涉及。近年来,很多研讨会、教程、期刊专刊或专题会议都对深度学习及其在信号和信息处理中的各种应用进行了专门的研讨活动,其中包括:2008 年 NIPS(Neural Information Processing Systems,神经信息处理系统)深度学习研讨会(2008 NIPS Deep Learning Workshop);2009 年 NIPS 关于深度学习的语音识别及相关应用的研讨会(2009NIPS Workshop on Deep Learning for Speech Recognition and Related Applica-tions);2009 年 国
14、际机器学习大会(International Conference on Machine Learn-ing,ICML)关于学习特征的研讨会(2009 ICML Workshop on Learning FeatureHierarchies);2011 年国际机器学习大会关于语音和视觉信息处理中学习架构、表示和最优化的研讨会(2011 ICML Workshop on Learning Architectures,Representa-tions,and Optimization for Speech and Visual Information Processing);2012 年 ICASS
15、P(International Conference on Acoustics,Speech and SignalProcessing,国际声学,语音与信号处理会议)关于在信号和信息处理中深度学习应用的研讨会(2012 ICASSP Tutorial on Deep Learning for Signal and Infor-mation Processing);2012 年国际机器学习大会关于学习表示的研讨会(2012 ICML Work-shop on Representation Learning);2012 年 IEEE 音频、语音和语言处理(T-ASLP,1 月)会刊中有关语音和语言
16、处理中深度学习专栏(2012 Special Section on Deep Learning forSpeech and Language Processing in IEEE Transactions on Audio,Speech,and Lan-guage Processing(T-ASLP,January);2010,2011 和 2012 年 NIPS 关于深度学习和无监督特征学习的研讨会(2010,2011,and 2012 NIPS Workshops on Deep Learning and Unsupervised Fea-ture Learning);1 引 言3 201
17、3 年 NIPS 关于深度学习和输出表示学习的研讨会(2013 NIPSWorkshops on Deep Learning and on Output Representation Learning);2013 年 IEEE 模式分析和机器智能(T-PAMI,9 月)的杂志中有关学习深度架构的特刊(2013 Special Issue on Learning Deep Architectures inIEEE Transactions on Pattern Analysis and Machine Intelligence(T-PAMI,September);2013 年关于学习表示的国际会
18、议(2013 International Conference onLearning Representations);2013 年国际机器学习大会关于表示学习面临的挑战研讨会(2013 ICMLWorkshop on Representation Learning Challenges);2013 年国际机器学习大会关于音频、语音和语言处理中深度学习的研讨会(2013 ICML Workshop on Deep Learning for Audio,Speech,and LanguageProcessing);2013 年 ICASSP 关于语音识别中的新型神经网络以及相关应用专栏(2013
19、 ICASSP Special Session on New Types of Deep Neural Network Learning forSpeech Recognition and Related Applications)本书的作者一直从事深度学习的研究,也组织或参与过上述中的一些重要会议以及特刊的编写工作。要特别提出的是,本书作者频频受邀在众多重要会议上对深度学习进行专题报告,而本书的部分内容也是基于这些报告内容整理而成的。在开始详细介绍深度学习的内容之前,我们有必要先了解一些基本概念,下面是一些与深度学习密切相关的概念和描述:定义 1:“机器学习是一类利用多个非线性信息处理层来完
20、成监督或者无监督的特征提取和转化,以及模式分析和分类等任务的技术。”定义 2:“深度学习是机器学习的子领域,它是一种通过多层表示来对数据之间的复杂关系进行建模的算法。高层的特征和概念取决于低层的特征和概念,这样的分层特征叫做深层,其中大多数模型都基于无监督的学习表示。”(2012 年 3 月维基百科对深度学习的定义。)定义 3:“深度学习是机器学习的子领域,它是基于多层表示的学习,每层对应一个特定的特征、因素或概念。高层概念取决于低层概念,而且同一低层的概念有助于确定多个高层概念。深度学习是基于表示学习的众多机器学习算法中的一员。一个观测对象(比如一张图片)可以用很多种方式表示(如像素的一个向
21、量),但是有的表示则可以使基于训练样本的学习任务变得更容易(如判定某张图像是否为人脸图像)。这一研究领域试图解决一个问题:哪些因素可以产生更好的表示,以及对于这些表示应该如何学习。”4 深度学习:方法及应用(2013 年 2 月维基百科对深度学习的定义。)定义 4:“深度学习是机器学习的一系列算法,它试图在多个层次中进行学习,每层对应于不同级别的抽象。它一般使用人工神经网络,学习到的统计模型中的不同层对应于不同级别的概念。高层概念取决于低层概念,而且同一低层的概念有助于确定多个高层概念。”(2013 年 10 月维基百科对深度学习的最新定义。)定义 5:“深度学习是机器学习研究的一个新领域,它
22、的出现将机器学习向人工智能这一目标进一步拉近。深度学习是对多层表示和抽象的学习,它使一些包括如图像、声音和文本的数据变得有意义。”(参看网址:https:/ _chunk_g97814051612516_ss1-1)我们应该注意将深度学习与教育心理学中的这些被滥用的术语区别开来。在上述多个不同的高层描述中有两个重要的共同点:(1)都包含多层或多阶非线性信息处理的模型;(2)都使用了连续的更高、更抽象层中的监督或无监督学习特征表示的方法。深度学习是包括神经网络、人工智能、图模型、最优化、模式识别和信息处理的交叉领域,它今天之所以如此受欢迎,有三个重要原因:其一,芯片处理性能的巨大提升(比如,通用
23、图形处理器);其二,用于训练的数据爆炸性增长;其三,近来,机器学习和信号/信息处理研究有了很大进展,这些都使深度学习方法可以有效利用复杂的非线性函数和非线性的复合函数来学习分布和分层的特征表示,并且可以充分有效地利用标注和非标注的数据。近年来活跃在机器学习领域的研究机构包括众多高校,比如多伦多大学、纽约大学、加拿大蒙特利尔大学、斯坦福大学、加州大学伯克利分校、加州大学、伦敦大学学院、密歇根大学、麻省理工学院、华盛顿大学,还有一些企业,如微软研究院(从 2009 年开始)、谷歌(大概从 2011 年开始)、IBM 研究院(大概从2011 年开始)、百度(从 2012 开始)、Facebook(从
24、 2013 年开始)、IDIAP 研 究 所、瑞 士 人 工 智 能 研 究 所 等。参 看 网 址:http:/ 引 言5 编码、语义话语分类、自然语言理解、手写识别、音频处理、信息检索、机器人学,甚至有一个关于分子生物学的研究指出在深度学习方法的引领下发现了新的药物237。本书在最后一部分列出了一些参考文献,如果需要了解这个领域的最新进展,推荐到以下网址获取:http:/ http:/www.cs.toronto.edu/hinton/http:/ 本书的结构安排本书后续章节按照以下结构进行编排:在第 2 章中,我们将简要对深度学习的历史加以回顾,主要从以下三个问题入手:第一,深度学习对语
25、音识别技术有哪些影响。第二,这一重大科技革命是如何开始的。第三,它是如何获得并保持如此强大动力的。第 3 章讲述了深度学习中绝大多数研究所使用的三元分类法。其中包括:有监督、无监督和混合深度学习网络。在分类任务中,混合深度学习网络利用无监督学习(或称为预训练)来辅助下一个阶段的监督学习。有监督和混合深度神经网络通常都具有同一类型的深度网络体系或结构,但是无监督深度网络的结构却往往不同。第 4 6 章分别集中介绍了深度结构的三种主流类型,这三种类型都来源于第 3 章中所提到的三元分类法。在第 4 章中,深度自编码器作为无监督深度学习网络的经典方法,我们将详细对其进行介绍并加以讨论。虽然其中巧妙地
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 深度 学习 方法 应用