人工智能导论PPT第五章.pptx
《人工智能导论PPT第五章.pptx》由会员分享,可在线阅读,更多相关《人工智能导论PPT第五章.pptx(24页珍藏版)》请在文库网上搜索。
1、处理语音信号 语音识别是一门交叉学科。与机器进行语音交流,让机器明白你说什么,语音识别是一门交叉学科。与机器进行语音交流,让机器明白你说什么,这是人们长期以来梦寐以求的事情。这是人们长期以来梦寐以求的事情。中国物联网校企联盟中国物联网校企联盟形象得把语音识形象得把语音识别比做为别比做为“机器的听觉系统机器的听觉系统”。语音识别技术语音识别技术让机器通过识别和理解过程让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。把语音信号转变为相应的文本或命令的高技术。语音识别通过对声波的一系列处理最终转化为便于计算机存储和处理的音频文件(MP3格式等等)这一系列的处理主要包括了采样,量化和
2、编码等步骤。l采样:采样就是在某些特定的时刻对模拟信号进行测量,对模拟信号在时间上进行量化。具体方法是:每隔相等或不相等的一小段时间采样一次。l量化:分层就是对信号的强度加以划分,对模拟信号在幅度上进行量化。具体方法是:将整个强度分成许多小段。l编码:编码就是将量化后的整数值用二进制数来表示。研究人员致力于语言的各个方面和应用,如理解口语单词、识别说话者是谁、识别情绪、识别口音等等。语音识别是人机交互领域的一个重要环节。可视化音频信号波形图频谱图频谱的横坐标代表频率,纵坐标代表幅度相应频率的声音对应的振幅。频谱图反映了不同频率的声音占的能量多少,在频谱图上反映的就是频谱幅度的相对大小。比如一段
3、乐曲中的高音强低音弱,那么在一定范围内的频率高的区域频谱的振幅就大,反之在频率低的区域对应的频谱幅度大。音色图中第一个最高峰所处的频率就是音调,而在这个频率的整数倍的位置都有不同大小的峰值,它们之间的比例反映了声音音色的不同。通过这些特性,我们就能大概分出这是什么发出的声音了。例题分析思考题n解释音色、音调。n开放性问题:如何判断一个耳麦的好坏呢?谢谢大家谢谢大家将音频信号从时域转换为频域n时域时域(time domain)(time domain)是真实世界,是惟一实际存在的域。可以这样理解,从我们出生开始,所接触的这个世界就是随着时间在变化的,是在运动的。n频域频域(frequency d
4、omain)(frequency domain)它不是真实的,而是一个数学构造。如果说时域是惟一客观存在的域,那么频域是一个遵循特定规则的数学范畴,频域也被一些学者称为上帝视角。正弦波是频域中唯一存在的波形,这是频域中最重要的规则,即正弦波是对频域的描述,因为频域中的任何波形都可用正弦波合成。时域在分析研究问题时,以时间作基本变量的范围。时域是描述数学函数或物理信号对时间的关系。例如一个信号的时域波形可以表达信号随着时间的变化。频域在分析问题时,以频率作为基本变量。频域是描述信号在频率方面特性时用到的一种坐标系。自变量是频率,即横轴是频率,纵轴是该频率信号的幅度,也就是通常说的频谱图。频谱图描
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 人工智能 导论 PPT 第五