复杂声音条件下言语理解的脑机制研究.pdf
《复杂声音条件下言语理解的脑机制研究.pdf》由会员分享,可在线阅读,更多相关《复杂声音条件下言语理解的脑机制研究.pdf(12页珍藏版)》请在文库网上搜索。
1、May,2023JOURNAL OF CHINESE INFORMATION PROCESSING2023年5月第3 7 卷Vol.37,No.5第5期中文信息学报文章编号:10 0 3-0 0 7 7(2 0 2 3)0 5-0 0 32-12复杂声音条件下言语理解的脑机制研究耿立波1,薛紫炫,蔡文鹏4,赵欣雨1.2,马勇1.,杨亦鸣1,2(1.江苏师范大学语言科学与艺术学院,江苏徐州2 2 10 0 9;2.江苏师范大学语言能力省部共建协同创新中心,江苏徐州2 2 10 0 9;3.陕西师范大学文学院,陕西西安7 10 119;4.海军军医大学心理系,上海2 0 0 433)摘要:文章使用
2、ERPs技术,对比分析了汉语母语者在安静、白噪声、汉语噪声、英语噪声四种听觉条件下加工汉语句子的情况,以探究信息掩蔽条件下语义加工的神经机制。研究发现不同噪声条件下诱发的N400、LPC等ERPs成分具有不同的波形表现,据此该文得出以下结论:言语噪声的语言特征占用了目标声音加工所需的认知和心理资源,资源竞争导致听者对目标信号的识别能力降低,由此产生了“语言干扰”形式的信息掩蔽。对于难度较大的语义加工,言语噪声的可懂度发挥着更关键的作用,当言语噪声为听者极其熟悉或完全陌生的语言,对语义加工的掩蔽干扰较小,当言语噪声为听者接触过的语言但不是母语或主要语言时,掩蔽效应更强。可懂度或不确定性存在交互作
3、用。言语噪声中出现频率较小但能够被听者理解的语义信息即为一种不确定因素,其出现与听者的预期相冲突,更容易引发听者的注意转移,加大了注意及认知资源的消耗。关键词:信息掩蔽;语义加工;噪声类型;言语可懂度;事件相关电位中图分类号:TP391文献标识码:ABrain Mechanism of Speech Comprehension in Complex Sound EnvironmentsGENG Libol2,XUE Zixuan,CAI Wenpeng,ZHAO Xinyu,MA Yong2,YANG Yimingl?(1.School of Linguistic Sciences and A
4、rts,Jiangsu Normal University,Xuzhou,Jiangsu 221009,China;2.Collaborative Innovation Center for Language Ability,Xuzhou,Jiangsu 221009,China;3.School of Chinese Language and Literature,Shaanxi Normal University,Xian,Shaanxi 710l19,China;4.Faculty of Psychology,Naval Medical University,Shanghai 20043
5、3,China)Abstract:By means of ERPs,this paper explore the neural mechanism of semantic processing under informationmasking condition by comparing the processing of Chinese sentences in quiet condition,white noise condition,Chi-nese noise condition and English noise condition.It is found that the wave
6、forms of N4oO,LPC and other ERPs in-duced by different noise conditions are different,which provide evidences for several conclusions.Firstly,the lan-guage information in speech masking occupies the cognitive and psychological resources required by the target soundprocessing,and the resource competi
7、tion reduces the listeners ability to identify the target signals,resulting in theinformation masking in the form of language interference.Secondly,the speech intelligibility of the masker plays amore critical role for difficult semantic processing in the speech masking.The masking effect on semanti
8、c processingis smaller when the language is a very familiar or completely unfamiliar language,while the masking effect may bestronger when the masking noise is the non-native language to which the listener has been exposed.Finally,the lis-tener comprehensible semantic content contained in unfamiliar
9、 speech noise that appears less frequently is morelikely to trigger listener attention transfer if it conflicts with the listener expectations,which,in turn,increases in-formationmasking intensity.Keywords:information masking;semantic processing;noise type;speech intelligibility;event-related potent
10、ial收稿日期:2 0 2 1-10-2 2定稿日期:2 0 2 2-0 9-0 5基金项目:江苏高校青蓝工程基金(2 0 2 2 0 52 3);国家社会科学基金(2 1&ZD288)33耿立波等:复杂声音条件下言语理解的脑机制研究5期0引言噪声已经成为当今世界必不可少的组成部分,人类的日常言语交际活动常常会受到所处交际环境中其他声音的干扰,这一现象被称为噪声掩蔽(No i s e M a s k i n g)。早期噪声掩蔽研究主要围绕能量掩蔽(EnergeticMasking)展开。研究认为,在内耳或耳蜗等听觉外围 2 ,当目标声音与噪声在时间和频率上发生重叠时,目标声音在频率通道内的能量
11、会被噪声模糊或遮盖,导致进入语音编码阶段的目标声音全部或部分缺失,由此产生能量掩蔽。后续研究发现有些掩蔽现象无法用能量掩蔽的理论和模型去解释,如在时间与频率不重叠的条件下仍会产生掩蔽效应,这类掩蔽效应与能量覆盖无关,涉及更高级的感知觉和认知加工,被学界称为信息掩蔽(InformationalMasking)。显然,能量掩蔽研究中的纯音刺激已经不能满足信息掩蔽研究的需要,以言语刺激为对象成为信息掩蔽研究的重要模式。研究指出,信息掩蔽产生于听觉中枢神经,不仅涉及听觉问题,还与学习、记忆、联想、思维、经验等高级认知加工密切相关 3,其机制可能是目标声音与噪声在高级认知加工层面对心理认知资源的竞争。信
12、息掩蔽机制的理论研究不仅有助于构建听觉中枢系统的神经功能网络,而且对推动自然语言处理技术的实践发展有重要意义。随着深度神经网络的推广,语音识别技术得到了快速发展,经典任务下的机器语音识别率已经超越了大多数人类水平 幻,如微软于2 0 17 年在Switchboard上词错误率降至5.1%,机器语音识别的精确性首次超越了人类。很显然,这一突破仅是理想条件下的结果,若在噪声等复杂声音条件下,即使是目前最先进的计算机模型,其语音识别性能也将显著下降。而人脑具有主动性与选择性,即使在噪声条件下进行语音识别,听觉神经系统也能表现出良好的鲁棒性 4。当前尚属于浅层次的人工感知智能,暂未突破对目标语音进行深
13、度加工及补偿加工的技术壁垒,因而无法在噪声环境中“自救”。未来人工智能语音识别性能的发展不能仅靠算法,必得先调节人脑在复杂声音条件下的言语加工机制,在此基础上赋予机器以人脑的功能,其重点在于理解语义,难点则在于复杂声音条件下的语义理解。1信息掩蔽效应1.1信息掩蔽的诱因早期研究发现刺激的不确定性、目标声音与噪声的相似性能够诱发信息掩蔽,并提出基于刺激不确定性的信息掩蔽(Informational MaskingUncer-tainty)和基于目标-掩蔽相似性的信息掩蔽(Infor-mational Masking Similarity)6。部分学者从加工负荷的成因角度,将信息掩蔽分为四种,即目
14、标声音的成分的错误分配导致的信息掩蔽、噪声引起的注意资源竞争导致的信息掩蔽、噪声的语义内容引起的认知负荷导致的信息掩蔽、以及可识别语音的干扰导致的信息掩蔽 7。这一分类强调言语可懂度的影响,并关注信息掩蔽过程中的认知资源竞争。国内学者基于知觉和认知两个水平对信息掩蔽进行分类,知觉水平的信息掩蔽同噪声与目标声音的相似度相关,而认知水平的信息掩蔽与噪声的可懂度相关 5。所谓不确定性是指在同一个实验的不同试次间的刺激模式的随机性,包括随机改变噪声的频率、时长或起始时间以及空间位置等。Neff等 8 的实验发现,当缩小噪声与目标声音起始时间的差异,听者感知目标声音的表现会随之提高。Kidd等 9 指出
15、通过随机改变噪声的频谱,可提高特定目标纯音的阈限。Allen等 10 1以简单的单音节信号为刺激,发现噪声位置的随机化会使听者对目标音节的识别阈限增加。前人研究多以非语言的纯音模式为研究对象,这种条件下的定义并不适用于言语刺激。Brun-gartl11考察了语义内容的不确定性对语音掩蔽的影响,结果表明,使目标耳中呈现的噪声短语的语义内容保持固定,能够显著提高听者的任务表现。目前以言语刺激为材料,考察掩蔽不确定性对语音掩蔽中信息成分的影响的研究仍然较少。目标声音与噪声的相似性也是影响信息掩蔽的重要因素。一般认为,持续时间、强度、频率、呈现方式(单耳或双耳)等方面相似均会增强信息掩蔽 12)如Br
16、ungart等 13 发现目标声音与噪声的发音者为同性的条件下产生的信息掩蔽强于发音者为异性的条件。在以言语为刺激的研究中,Freyman等 14 发现以英语母语者所产出的英语语句为目标句时,荷兰3420233年中文信息学报人产出的带有口音的英语语句的掩蔽强度小于英语母语者产出的标准英语语句。Calandruccio15考察目标语音与言语噪声(SpeechNoise)的相似度不同的条件下听者的句子识别能力,包括英语、带普通话口音的英语、汉语普通话,结果显示当言语噪声为来自不同于目标语音的语言时,相似性的降低导致目标语音与言语噪声在知觉性空间上发生分离,听者会从这种掩蔽释放中受益。纯音刺激的相似
17、性多限于声学特征,其判定依赖于频谱分析,结果相对客观。相较之下,语言作为一个音义结合的符号系统,其下包含语义、语法、语音等子系统,很难确定言语噪声对目标语音的掩蔽是源于言语噪声和目标语音在声学特征上的相似,还是言语噪声在语言特征上的干扰。目前有关言语刺激相似性的界定仍然缺少客观的判定标准,更多基于主观经验。就言语刺激而言,“可懂”是其语言特征尤其是语义信息被识别并被理解的前提。研究表明不可懂的言语具有言语声学特征但无语义信息,可懂的言语包含更多可理解的信息内容,能够干扰更高级的语义层面的信息处理。VanEngen等 16 】要求英语母语者在包含多个听话人的噪声条件下理解带有母语口音的英语句子,
18、以探究语音掩蔽的不利影响来自声学特征还是噪声的语义信息。噪声条件分别为包含两个说话人的英语噪声、包含六个说话人的英语噪声、包含两个说话人的普通话噪声、包含六个说话人的普通话噪声。结果显示,具有语言特征的噪声对听者的影响不同于无语言特征的噪声,且在包含两个说话人的噪声条件下,英语母语者受到英语噪声的负面影响要大于汉语母语者。这些研究证明,在言语噪声下的句子识别中存在“语言干扰”形式的信息掩蔽,且在言语噪声条件下,与语义加工相关的可懂度、熟悉度等因素似乎更为关键。研究普遍认为在目标语音为听者母语的前提下,以听者的母语或熟悉的语言作噪声所产生的信息掩蔽更强。如Calandruccio17的实验设置了
19、英语、荷兰语和普通话三种可懂度不同的噪声,以英语单语者在句子识别任务中的成绩为依据,结果显示英语噪声、荷兰语噪声、普通话噪声条件下目标句子的识别表现呈梯度提升。上述研究对掩蔽刺激可懂度的设定缺少过渡性的中间参数,这一设置可能会干扰我们对可懂度与信息掩蔽关系的真实了解。最新研究则认为,以听者熟悉的语言和不熟悉的语言作为掩蔽,掩蔽效果相对较小,当掩蔽语音为听者接触过的语言但不是母语或主要语言,掩蔽的情况将变得更加复杂 18 。后续研究应关注语料的多样性,重视语言可懂度的层级变化。1.2信息掩蔽的神经机制当前有关信息掩蔽机制的主要观点认为言语噪声在感知觉和高级认知加工层面占用了目标语音的心理资源。具
20、体而言,用于听觉加工的认知资源的数量相对固定,如果进人听觉系统的有效语音流越多,目标语音流能获得的认知资源越少。NakaiC19要求被试听一名女性朗读故事,在不同的block中使用不同的听觉条件,包括没有噪声、一名男性说话者产出的语音(DV)作噪声、与目标刺激同一名女性说话者产出的语音(SV)作噪声。与没有噪声的基线条件对比,DV条件下双侧上回(Superior Temporal Gyrus,STG)激活,这在一定程度上说明中枢皮层听觉区域既处理了目标语音又处理了背景噪声。在SV条件下,双侧叶、前额叶和顶叶区域的激活明显增强,且与DV条件相比,SV条件在补充前语言区(pre一SMA)、右顶叶和
21、双侧前额叶区域的激活更强烈,研究认为这些区域的激活是为弥补SV条件下背景噪声与目标语音对中枢资源的竞争。Gutschalk等 2 0 要求被试者在时间和频率都随机的音调噪声中检测规律性重复的目标音调,脑磁图结果显示在早期时间窗内,无论被试是否感知到了音调信号,反应都存在且波形强烈,但到后期时间窗(50 一2 50 msec),被试的反应则与目标检测之间存在显著相关,这表明听觉皮层在后期处理阶段参与了需要更多认知处理的任务。ScottL21指出噪声条件下的听觉言语加工之所以会产生额外的前额叶、顶叶和扣带皮层的活动,主要在于被试者对噪声的感知占用了额外的认知控制网络。言语噪声对目标声音的资源的占用
22、,实际上反映了注意机制的调控作用。听觉客体的形成与选择都依赖于选择性注意,在一个具有多个声源的复杂听觉环境中,听觉神经系统大致经历了从分离(Segregating)到整合(Grouping)的加工过程,听者利用不同的线索从混合的声音流中区分出来自不同声源的信息 2 2 。解剖学研究表明,人类的听觉注意机制具有“自上而下”(top-down)与“自下而上”(bottom-up)两条通路 2 3。自上而下的注意通路也叫内源性注意,取决于听者的意识与大脑内部信息,能够根据大脑命令和先验知识对听觉加工进行调控,将关注强制转移到特定声源。自下而上的注意355期耿立波等:复杂声音条件言语理解的脑机制研究也
23、被称为外源性注意,受外界刺激的显著影响,会因一些意外性、独特性因素的影响而增强。正电子发射断层成像(PositionEmissionTomo-graphs)及功能性磁共振成像(Functional MagneticResancanceImaging)研究发现,当听者对目标声音进行选择性反应,随着语流数量增加,左前叶激活最显著,主要位于STG/题上沟(SuperiorTemporalSulcus,ST S),这一区域的激活表明注意选择加工参与了这一过程。Scott等 2 11发现与复杂的非语音基线(如旋转语音)相比,听者在言语噪声条件下的选择性反应沿着STS向前延伸,就偏侧性而言,这些反应的振幅
24、在左半球更高、更稳固,这表明左侧叶具有一种与选择注意相关的特殊的功能,而先前研究已经证明,注意力控制主要激活左半球的相关脑区,包括额下回(InferiorFrontalGyrus,I FG)、上顶叶Superior Parietallobe,SP)和顶内沟(Intraparietal Sulcus,IPS)2 2 。神经科学研究证实了注意机制在听觉掩蔽中的作用,但在信息掩蔽加工过程中,注意机制的激活受哪些因素与活动的驱动,仍需要深入讨论。2研究方法实验在前人研究的基础上,通过事件相关电位技术(Event-relaedPotential,ERP),采用听觉语义判断任务,句子类型(语义合理句/语义
25、违反句)听觉条件(安静/白噪声/汉语噪声/英语噪声)被试内两因素混合设计,考察不同噪声条件下听觉句子语义加工的神经机制,具体实验目的及内容如下:(1)考察信息掩蔽效应的性质关于信息掩蔽效应的性质一直存在争议,实验以听觉汉语句子为目标刺激,设置了安静、白噪声、汉语噪声与英语噪声四种听辨条件,综合考察信息掩蔽条件下听觉句子加工的机制,及信息掩蔽的认知加工深度,为此提供电生理学方面的证据。(2)考察言语噪声可懂度对信息掩蔽的影响本实验通过对比两种不同可懂度的言语噪声(来自母语的汉语噪声、来自二语的英语噪声)下的语义加工情况,考察言语噪声的可懂度对信息掩蔽效应的影响,及注意机制、预测机制等高级认知加工
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 复杂 声音 条件下 言语 理解 机制 研究