服务机器人的语音情感识别与交互技术研究.pdf
《服务机器人的语音情感识别与交互技术研究.pdf》由会员分享,可在线阅读,更多相关《服务机器人的语音情感识别与交互技术研究.pdf(4页珍藏版)》请在文库网上搜索。
1、小 型 微型 计算 机系 统 J o u r n a l o f Ch i n e s e Co mp u t e r S y s t e ms 2 0 1 0年 7月 第 7期 V0 1 3 1 No 7 2 0 1 0 服务机器人的语音情感识别与交互技术研究 袁 健 , 贺 祥 , 许华虎。 , 冯肖维 , 刘 玲 ( 上海大学 计 算机工程 与科学学院 , 上海 2 0 0 4 4 4 ) ( 上海大学 机电工程与自动化学院, 上海 2 0 0 4 4 4 ) ( 上海大学 计算中心, 上海 2 0 0 4 4 4 ) E ma i l : j i a n y u a n c h n g
2、 ma i l c o m 摘要: 分析语音情感识别技术的发展现状和关键技术, 将基于隐马尔可夫模型的语音情感识别方法应用在机器人中, 目的在 于使机器人能够识别人的语音信号中的情感信息, 并做 出相应的情感表达 这在我们研制出的服务机器人 中得到 了较好的应 用, 该机器人能够识别人的语音情感并能与人进行一定的交互 关 键 词: 语音情感识别; 服务机器人 ; 情感机器人 中图分类号: I I 9 1 2 文献标识码 : A 文 章 编 号: 1 0 0 0 - 1 2 2 0 ( 2 0 1 0 ) 0 7 - 1 4 6 6 - 0 4 St u dy o n t he Sp e e c
3、 h Emo t i o n Re c o g ni t i o n a n d I nt e r a c t i v e Te c h no l o g y o f S e r v i c e Ro b o t YUAN J i a n 。眦Xi a n g , ) ( U Hu a - - - - -h u ,F ENG Xi a o - we i 2,删Li ng ( C o l l e g e o fC o m p u t e r E n g i n e e r i n g a n dS c i e n c e ,S h a n g h a i U n i v e r s i ty,
4、S han g hai 2 0 0 4 4 4,C h i n a ) ( C o l l e g e of Me c hat r o n i c s E n g i n e e ri n g a n dA u t o m a t i o n , S h a n g hai U n i v e r s i ty ,S han g hai 2 0 0 4 4 4, Ch in a ) ( C o m p u t e rC e n t e r , S han g hai U n i v e r s it y ,S han g hai 2 0 0 4 4 4 ,C h i na) Abs t r a
5、c t : Tl l i s pa p e r a na l yz e s t h e d e v e l o p me nt a n d k e y t e c h no l og i e s o f s pe e c h e mo tio n r e c og ni tio n tec h no l og ythe n a p pl i e s the s pe ech e mo ti o n r ec o g n i ti o n tec hn o l o gy b a s e d o n H删t o r o b o t 1 h e p u r p o s e i s t o e n a
6、 b l e the r o b o t t o r e c o g niz e a n d t O u n d e r s t a n d t h e e mo ti o n a l i n f o r ma t i o n t h a t l i e s i n s p e e c h s i gn a l an d the n t o g i v e the c o r r e s p o n d ing e mo ti o n e x p res s i o n t h r o u g h s p e e c h,f a c i a l e x p r e s - s i o n,b
7、od y a c ti on a n d S O o n e p a pe r g i v e s the印 p fic a ti on o f a p p l y i n g t he s p e e c h e mo tio n r ecog n i tio n a n d i n ter a c t i v e t e c hn o l og y t O s e r v i c e r o b o t T h u s i t f o rm s n a t u r a l a n d u s e r - f r i e n d l y i n temc ti o n an d e s ta
8、 b l i s h e s f r i e n d l y h u man ma c h i n e i n ter a c ti o n e n v i r o n me n t Ke y wo r d s :s pee c h e mo tio n r e c o g n i t i o n :s e rvi c e r o b o t ;e mo t i o n r o b o t 1 引 言 服务机器人是一种半 自主或全 自主工作的机器人, 它能 完成有益于人类的服务工作, 但不包括从事生产的设备 与工业机器人注重精密、 快速和高效相比, 服务机器人则更重 视安全可靠和使用方便, 这
9、是因为服务机器人更贴近人类的 日常生活 语音情感识别就是从语音信号中识别出说话人的情感信 息, 它是情感机器人 中情感识别系统的一个重要组成部分 情 感机器人是指具有人类智能的机器人 它从人类中成长, 学习 人类的技能, 与人类拥有共同的价值标准, 可以看成是人类思 维的后代 这里所说的人类智能, 是一种广义上的智能, 它不 但包括一定的智商, 同时还具有一定的” 情商” l 2 J 语音情感 识别在 自然人机交互、 多媒体分段与检索、 安全系统自动监管 等方面有着广泛的应用前景 比如, 用于 自动远程电话服务中 心, 及时发现客户的不满情绪 ; 用于远程教学和婴儿教育 , 及时识别学生的情绪
10、并做出适当的处理, 从而提高教学质量; 也可以用于刑事侦察中自动检测犯罪嫌疑人的心理状态以及 辅助测谎等 本文介绍了 V C+开发环境下服务机器人的语音情感 识别和语音交互系统的实现, 通过实验表明, 机器人能够识别 人的情感并能与人进行友好的交互 2 语音情感识别的研究现状 在 1 9 7 2年, Wi l l i a ms 发现人的情感变化对语音的基音轮 廓有很大的影响, 这是国外最早的语音情感方面的研究之一 近年来研究最活跃的是美国麻省理工学院媒体实验室 1 9 9 0 年, 麻省理工学院媒体实验室构造了一个” 情感编辑器” 对外 界各种情感信号进行采样 , 如人的语音信号、 脸部表情信
11、号等 来识别各种情感 j 1 9 9 6年 日本东京 S e i k e i 大学提出情感空 间的概念并建立 了语音情感模型 2 0 0 0年 , Ma r i b o r大学的 V l a d i m i r H o z j an 研究了基于多种语言的语音情感识别 J 国 际语音通信协会( I S C A) 为此也做了很大的贡献, 现在该协会 每两年举办一次的E u r o s pee c h 或I n te rs p e e c h 国际会议 , 是语 收稿日 期 : 2 0 0 9 - 0 3 1 6 基金项 目: 国家” 八六三” 高技术研究发展计划项 目( 2 0 0 7 A A 0
12、 4 1 6 0 4 ) 资助 作者简介: 袁健, 男, 1 9 8 5 年生, 硕士 研究生 , 研究方 向为语音情感识别、 多媒体技术 ; 贺祥 , 男 , 1 9 8 4年生 , 硕士研究生 , 研究方 向为机器视 觉; 许华虎 , 男 , 1 9 6 6年 生 , 教授 , 博 士, C C F高级会员, 研究方向为多媒体技术、 C I MS 、 网络等; 冯肖维。 男, 1 9 8 2年生, 博士研究生 , 研究方向为智能机器人控制等; 刘玲, 女, 1 9 7 7年 生 , 研究方向为网络管理 7期 袁健 等 : 服务机器人的语音情感识别与交互技术研究 1 4 6 7 音研究领域非
13、常出名的大会 在国内, 语音情感识别的研究起步较晚, 但是国家以及大 学和科研院所都加大了在这个领域的研究力度, 比如中科院 自动化所、 清华大学、 北京科技大学、 东南大学、 浙江大学等 2 0 0 1年, 东南大学赵力等人提出语音信号中的情感识别研 究 j 2 0 0 3年, 北京科技大学谷学静等人将 B D I A g e n t 技术 应用与情感机器人的语音识别技术研究中 另外, 2 0 0 3年 1 2 月中科院自动化所等单位在北京主办了第一届中国情感计算 及智能交互学术会议, 2 0 0 5年 1 0月又在北京主办了首届国 际情感计算及智能交互学术会议 J 对于语音情感识别技术的研
14、究, 情感语音库是个基础工 程; 另外还需要提取有效 的情感特征, 改进语音情感识别算 法 , 提高情感的识别率 3 语音情 感识别的关键技术 3 1 语音信号 的情 感特征提取 基于心理学和韵律学研究的结果, 说话者的情感在语音 中最直观的表现就是韵律特征和语音质量的变化 因此对语 音情感识别的研究普遍从韵律特征和音质特征开始, 尤其是 韵律特征 , 被认 为是 最 主要 的语 音情 感 特征 J 本 文采 用 窗 长 2 3 2 2 ms ( 2 5 6点 ) , 窗移 1 0 ms 的汉 明窗 , 选取语 音持 续 时 间、 平均基音频率、 最大基音频率、 基音频率的平均变化率、 语 音
15、短时能量变化率和有声部分平均短时能量、 短时平均振幅、 最大振幅、 振幅平均变化率、 共振峰频率的平均值 、 共振峰频 率的平均变化率、 共振峰峰值点回归直线的平均斜率以及共 振峰峰值的平均值等情感特征作为情感识别用参数 3 1 1 语音持续时 间 计算每一情感语音从开始到结束的持续时间 提取持续 时间时应包括无声部分, 因为无声部分对情感是有贡献的 3 1 2基音 频率 基音是指物体振动时所发出频率最低的音, 利用倒谱法 逐帧计算出基音频率, 考虑到可能产生检测错误, 因此对结果 进行中值滤波和线性平滑处理” 选取平均基音频率 , 最大 基音频率 、 基音频率的平均变化率等参数用于情感识别
16、3 1 3 语音信号 的能 量 由于语音信号的能量随时间变化 , 清音和浊音问的能量 差别相当显著 , 因此对短时能量进行分析, 可以描述语音的清 浊音变化情况 短时能量定义为 = x ( m) o J ( n 一 , , 1 ) = ( ) m( m) ( 1 ) 一 一 + 1 式 1中, 汉明窗函数 I) ( n ) 平方的物理含义是一个冲激响 应为 c 0 ( n ) 的滤波器 首先求出语音信号各样本点值 的平 方, 然后样点通过滤波器输 出由短时能量构成的时问序列 采 用窗长 N= 2 3 2 2 ms ( 2 5 6点) , 在满足对语音振幅瞬间变化的 细节进行了有效平滑的前提下,
17、 保证了短时能量的明显变化 识别时将情感语音短时能量变化率和有声部分平均短时能量 作为特征参数 3 I 4 语音信 号的振 幅 信号的振幅特征与各种情感信息具有较强的相关性 短 时能量函数存在对信号电平值过于敏感的问题, 可通过平均 振幅函数来衡量语音幅度的变化, 其定义为 = l ( n ) l ( nw)= I ( n ) I ( m) ( 2 ) m = 一 州 0 一 + I 式 2可以理解为窗函数 o ( n ) 对信号进行了线性滤波运 算 与短时能量比较, 短时平均振幅用绝对值之和代替了平方 和, 简化了运算 由于振幅的瞬间最大值很难屏蔽掉一些干扰 导致的突变, 那么取得的值将是不
18、准确的 因此, 选取从发音 开始到结束之间的平均振幅的最大值作为最大振幅, 同时提 取振幅平均变化率作为参数用于语音情感识别 3 1 5共振峰 共振峰是反映声道特性的一个重要参数, 因为不同情感 的发音可能使声道有不 同的变化, 所 以能够预料到不同情感 发音的共振峰的位置不同 本文首先用线性预测法求出预测 系数, 然后用预测系数估计出声道的频响曲线, 再用峰值检出 法计算出各共振峰的频率 选取共振峰频率的平均值、 共 振峰频率的平均变化率、 共振峰峰值点回归直线的平均斜率 以及共振峰峰值的平均值等作为识别用特征参数 3 2 语音情感识别方法 语音情感识别是一个模式识别问题, 大部分模式识别和
19、 分类方法都被尝试用于语音 中情感的自动识别, 这些方法包 括人工神经网络, 隐马尔可夫模型, 混合高斯模型, 支持向量 机和最 大似然贝 叶斯分 类等 本文利用 隐马尔 可夫模型 ( H MM) 的方法实现对语音信号中的情感的识别 隐马尔可夫模型作为语音信号的一种较为理想的统计模 型, 今天已经在语音处理领域获得了广泛的应用, HMM 已成 为语 音识别领域 很成 熟 的方法 , 形成 了用 于语 音识别 的基 本 结构框架: 如 B a u m We l c h训练算法、 Vi t e r b i 识别算法等 假 定有一个含有 V种情 感状 态语音 的待识别语 音库 , 每 个情感状态都有
20、 K个语音样本 对于情感语音的识别, 要完 成以下工作” : 1 ) 语音库中的每个情感状态 V建立其对应的隐马尔可 夫模型 , 即得到和每种情感状态用于训练的所有观察序列 最为匹配的参数模型( 耵, A, B) ( O ) 图 1 隐马尔可夫模型状态转换图 Fi g1 The s t at e t r a ns i t i on di a g r a m f or HM M 2 ) 对于任何一个待识别的语音样本 , 执行图 1中所示的 步骤, 在图 1 中 a ; 是状态转移矩阵 A中的元素, b j ( 0 ) 是分布 矩阵 B的列向量 首先通过特征提取得到待识别单词的观测 矢量序列 O;
21、 随后依次对每个模型计算其匹配得分, 匹配得分 可以通过 V i t e r b i 算法得到; 最后选择匹配得分最高的模型作 为识别结果, 即: Va r g。ma x P ( O A v ) ( 3 ) 1 4 6 8 小型微型计算机系统 2 0 1 0薤 4技术应用 4 1 机器人平台介绍 本文将语音情感识别技术应用在国家” 八六三” 高技术 研究发展计划项 目” 家庭生活支援多机器人系统” 的语音子 系统中, 验证了语音情感特征提取和情感识别方法的有效性 该机器人的头部能够实现眼球的转动、 眼睑的闭合、 嘴的闭 合、 头部的转动等并能做出基本的表情 机器人的结构设计和 系统设计完全根据
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 服务 机器人 语音 情感 识别 交互 技术研究