丢弃冗余块的语音识别Transformer解码加速方法.pdf
《丢弃冗余块的语音识别Transformer解码加速方法.pdf》由会员分享,可在线阅读,更多相关《丢弃冗余块的语音识别Transformer解码加速方法.pdf(8页珍藏版)》请在文库网上搜索。
1、第 49卷 第 10期2023年 10月Computer Engineering 计算机工程丢弃冗余块的语音识别 Transformer解码加速方法赵德春1,舒洋2,李玲1,陈欢1,张子豪2(1.重庆邮电大学 生物信息学院,重庆 400065;2.重庆邮电大学 自动化学院,重庆 400065)摘要:Transformer及其变体因具有强大的上下文建模能力而成为语音识别领域的主流模型,它们能够取得良好的识别结果,但是其中的解码器使用带有冗余信息的全部编码器特征,导致模型的解码速度受到限制。为提高解码器效率,提出一种丢弃冗余空白块的 Transformer 解码加速方法 DRB。以 CTC/AED
2、 结构作为语音识别基本框架,利用 CTC 产生的尖峰序列去除编码特征中连续冗余的空白帧,减小编码输出特征的长度,降低解码器的计算量,从而提高模型的解码速度。采用预训练加微调的方式对使用 DRB方法的语音识别模型进行训练,以减小因盲目对齐而产生的额外训练开销。引入 Intermediate CTC 结构提高模型训练时对编码器的约束能力,减小 DRB 判断冗余帧的误差,降低 DRB方法对模型识别精度造成的损失。在开源数据集 AISHELL-1与 LibriSpeech上进行实验,结果表明,使用 DRB 的两阶段重打分非自回归解码方法在 2 个数据集上均能对解码速度取得 58%左右的加速效果,且识别
3、精度几乎没有损失,实现了解码效率的显著提升。关键词:语音识别;Transformer解码器;CTC模型;特征压缩;解码加速开放科学(资源服务)标志码(OSID):源代码链接:https:/ Transformer解码加速方法 J.计算机工程,2023,49(10):105-111,119.英文引用格式:ZHAO D C,SHU Y,LI L,et al.Speech recognition Transformer decoding acceleration method with discarding redundant blocks J.Computer Engineering,2023,4
4、9(10):105-111,119.Speech Recognition Transformer Decoding Acceleration Method with Discarding Redundant BlocksZHAO Dechun1,SHU Yang2,LI Ling1,CHEN Huan1,ZHANG Zihao2(1.School of Bioinformatics,Chongqing University of Posts and Telecommunications,Chongqing 400065,China;2.School of Automation,Chongqin
5、g University of Posts and Telecommunications,Chongqing 400065,China)【Abstract】Transformer and its variants have become mainstream models in the field of speech recognition owing to their excellent contextual modeling capabilities.Although they can achieve good recognition results,the decoding speed
6、is limited because the decoder uses all encoder features including redundant information.To improve the efficiency of the decoder,a Transformer decoding acceleration method DRB that entails the discarding of redundant blank blocks is proposed.Using the Connectionist Temporal Classification/Attention
7、-based Encoder-Decoder(CTC/AED)structure as the basic framework for speech recognition,the method uses the peak sequence generated by CTC to remove continuous redundant blank frames from the encoded features,reduce the length of the encoded output features,lower the computational complexity of the d
8、ecoder,and thus improve the decoding speed of the model.The speech recognition model using DRB method is pre-trained and fine-tuned to reduce the additional training cost caused by blind alignment.Introducing the Intermediate CTC structure improves the constraint ability of the encoder during model
9、training,reduces the error of DRB in judging redundant frames,and reduces the loss of model recognition accuracy.The results of the experiments performed on the open-source datasets AISHELL-1 and LibriSpeech show that,the two-stage rescoring non-autoregressive decoding method using DRB can achieve a
10、n acceleration effect of approximately 58%in decoding speed on both datasets,with almost no loss in recognition accuracy.Thus,a significant improvement in decoding efficiency is achieved.【Key words】speech recognition;Transformer decoder;CTC model;feature compression;decoding accelerationDOI:10.19678
11、/j.issn.1000-3428.0065685基金项目:重庆市自然科学基金(cstc2019jcyj-msxmX0275);重庆市研究生科研创新项目(CYS22460)。作者简介:赵德春(1975),男,教授、博士,主研方向为自然语言处理;舒 洋、李 玲、陈 欢、张子豪,硕士研究生。收稿日期:2022-09-05 修回日期:2022-11-28 Email:人工智能与模式识别文章编号:1000-3428(2023)10-0105-07 文献标志码:A 中图分类号:TP812023年 10月 15日Computer Engineering 计算机工程0概述 自动语音识别是最便捷的人机交互技术
12、之一,目的是让机器自动将人类语音信号转变为对应的文本信息。当前,主流的语音识别方法是单一神经网络结构组成的端到端模型,主要有 3类,分别为连接时 序 分 类 器(Connectionist Temporal Classification,CTC)1-2、循环神经网络换能器(RNN-Transducer,RNN-T)3-4以 及 基 于 注 意 力 机 制 的 编 解 码 模 型(Attention-based Encoder-Decoder,AED)5-7。端 到端模型将传统语音识别系统中的声学、发音和语言模型整合到一个网络结构中,使得它们可以只针对一个目标函数进行优化,识别准确率更高8。CT
13、C通过引入空白符来实现语音序列与文本序列的对齐表达,使用动态规划策略高效地寻找所有潜在的对齐路径,结合前馈网络层使得模型能快速得到帧级别的分类输出。然而,模型因未考虑字与字、语句关系的独立性假设,严重限制了模型的性能。RNN-T在解码时以语音编码结果和之前的输出序列共同作为输入,同时结合额外的预测网络实现了对声学模型与语言模型的共同优化。RNN-T在流式识别任务中相比其他结构更有优势,但是模型不容易训练,即使使用预训练的方法,其训练过程也很繁琐9。AED 模型通过注意力机制实现声学特征帧与文本信息的软对齐,这种方式使得输入序列与输出序列可以不严格对齐,因此,模型具有更强的上下文建模能力。但是,
14、对于强对齐特性的语音识别任务,容易导致模型的训练因盲目对齐而耗费大量时间。为此,CTC/Attention 混合模型6,10将 CTC 引入AED 模型的编码器网络中,利用 CTC 损失函数计算时的严格单调性加强模型对编码器的对齐约束。这种多任务学习方式既能加快模型的收敛速度,又能提高模型的鲁棒性。另 一 种 基 于 自 注 意 力 机 制 的 编 解 码 器 模 型Transformer11因具有强大的上下文建模能力和高效的训练方式,在语音识别任务中也取得了巨大成功。语音 Transformer 模型9,12-13由编码器与解码器 2 个部分构成,它们均由自注意力层与前馈网络层组成的网络块加
15、残差的连接方式堆叠而成。Transformer解码器的工作方式与其他 AED 模型一样,解码当前时刻时需要之前解码结果与全部编码器的声学特征,这导致解码时间较长,限制了模型的应用13。为此,文献 14 通过池化 CTC 尖峰序列生成具有分段表示能力的编码器输出掩码序列,使用更多置零的掩码在 Transformer交叉注意力层实现编码特征的压缩表达,加快该层的计算过程,提高解码速度。虽然置零掩码加速了部分解码计算过程,但是并没有真正减少解码器的计算量。针对编码声学特征的紧凑型表达,文献 15 使用自动编码器来产生分段的紧凑型语音表示,但是这显著增加了语音识别任务的建模难度与训练成本。为了进一步加
16、快语音识别 Transformer 解码过程,本文提出一种丢弃冗余块(Discarding Redundant Blocks,DRB)的 Transformer解码加速方法。该方法利用 CTC分类器产生的尖峰序列去除编码器输出特征中连续冗余的空白帧,减小解码器所需的特征序列长度。在 CTC/AED 模型结构中为避免盲目对齐所产生的额外训练开销,DRB 使用微调的方式单独训练 Transformer解码器,以解决训练与识别不匹配的问题。同时,为了减小 CTC 对编码特征冗余帧判断的误差,引入 Intermediate CTC 结构提高模型训练时对编码器的约束能力。1相关理论基础 1.1语音 Tr
17、ansformer解码器语音 Transformer模型12是基于自注意力机制的编解码网络,模型结构由多头自注意力层、前馈网络层、提供序列位置信息的位置编码模块组成,每层之间使用层归一化与残差连接的方式来增强训练时的稳定性。Transformer解码器与编码器在网络结构上相似,不同之处在于解码器中有一个自注意力层查询矩阵是文本序列,而对应的键与值都是编码器输出的声学特征序列,这也被称为交叉注意力层,它使得解码器中的语言信息可以与声学信息相互融合,模型在解码时不仅能够看到之前解码的上文语言信息,还能参考声学上下文信息,从而更准确地预测下一个词。解码器中主要的网络堆叠块计算如下:Zj=Zj+MHS
18、Ajself(ZjZjZj)Zj=Zj+MHSAjcross(ZjXeXe)Zj+1=Zj+FFNj(Zj)(1)其中:Zj、Zj+1分别为第j层的输入与输出;Xe是编码器输出的声学特征;FFN表示前馈网络层;MHSAself与MHSAcross都是多头注意力层,输入参数依次为自注意力查询、键、值矩阵。解码器以编码器输出的编码特征与之前解码结果作为输入,进行反复迭代计算,直到识别出特殊的停止字符。解码计算过程如下:Yt=Decoder(Y1:t-1Xe)(2)其中:Yt是长度为T的目标文本序列YT在t时刻的解码输出;Decoder()表示解码器;Xe表示编码器输出的语音特征序列。1.2两阶段重
19、打分的非自回归解码方式Transformer模型在解码时通过引入之前时刻的解码结果 见式(2),为解码过程引入了充足的语言信息,从而有效提高了识别准确率。但是,这种迭代计算的解码方式无法并行化,给模型解码带来了较106第 49卷 第 10期赵德春,舒洋,李玲,等:丢弃冗余块的语音识别 Transformer解码加速方法高延时。为实现快速解码同时避免 Transformer解码器的自回归解码过程,文献 9 提出两阶段重打分的非自回归解码方式。该方式在 CTC/Attention 混合模型中使用 Transformer 解码器为 CTC 解码的 N 个概率中最高的结果重新评分,根据 2 次评分权重
20、取最 终 结 果。对 于 每 个 需 要 重 打 分 的 结 果,Transformer解码器只需进行一次前向计算而无须迭代计算,因此,这种非自回归解码方式的解码速度更快。在 WeNet16中,第一阶段解码使用 CTC 前缀波束搜索方式来获得 N 个结果,在 AISHELL-1 数据集17中取得了较先进的识别结果。1.3Intermediate CTCCTC利用高效的动态规划算法,通过计算所有可能存在的对齐序列概率来求取给定目标序列的最大后验概率。将CTC作为神经网络的损失函数,可以使模型无须帧级别的标注即可得到帧级别的分类预测输出,这将大幅简化语音识别任务中的声学建模过程。给定帧数为 T的语
21、音输入特征XT,模型输出正确标签序列YL的后验概率为P(YL|XT),计算如下:P(YL|XT)=QT B-1(YL)P(QT|XT)P(QT|XT)=t=1TP(Qt|Xt)(3)其中:QT表示YL的某一个有效对齐序列(指通过合并重复字与删除空白符能得到的目标序列);B-1(YL)是YL有效序列的集合。在模型训练时,最小化给定标签序列的后验概率负对数值即可,损失函数如下:LCTC=-ln P(YL|XT)(4)CTC 简单有效,成为最早也是最广泛应用的端到端语音识别技术。最近有研究表明,CTC 损失函数不仅能作为 ASR 端到端模型的优化目标,还能将其扩展到编码器网络的底层,用来加强对编码器
22、前端网络的约束,提高模型的收敛速度与鲁棒性,达到正 则 化 的 目 的18-19,这 种 方 法 被 称 为 Intermediate CTC。在模型训练时取编码器的中间层输出作为额外的 CTC 损失值,与编码器最后层的损失共同优化模型,计算方式如下:LCTC_loss=(1-)LCTC(YL|Xl)+LCTC(Y|Xl/2)(5)其中:为超参数;Xl、Xl/2分别表示堆叠块数为l的编码器中第l层与第l/2层的输出序列。2DRB方法 2.1DRB方法流程CTC模型的尖峰现象如图 1所示,横轴表示语音特征序列,纵轴表示每帧对应每个字符(建模单元为字)的概率,不同曲线表示不同的字符(类别),其中,
23、空白帧 表示 CTC 引入的空白字符。图 1中语音特征共61帧,对应的文本信息为“加速识别解码”。CTC尖峰现象是指模型输出的后验概率序列中某一帧的后验概率集中在某一个词(类)上,而不是分散在几个词中。根据 CTC模型最大化给定序列对应后验概率的优化准则,可以将其理解为模型对尖峰帧比其他帧有更确定的判断。如果空白帧的概率越大,就表明这一帧的声学特征包含的文本信息越不丰富,仅为空白信息,即编码器输出特征中的连续空白帧是不重要的声学特征,而非空白帧中会包含相邻区域中更显著、有用的文本信息。因此,通过去除这些连续空白冗余帧,可以实现对编码器输出声学特征序列的有效压缩,即编码特征的紧凑型表达。然而,并
24、不是所有空白帧都是毫无意义的,根据 CTC的建模假设,它可以作为词音频信息片段解码时的重要分界标志。因此,在去除冗余帧时应适当保留部分空白帧。本文提出编码特征的紧凑型表达处理方式DRB。DRB 作用于模型的编码器输出端,依靠 CTC尖峰序列去除编码输出特征中的冗余部分,实现对解码声学特征的紧凑型表达,进而减小解码器的计算量,提高解码效率。DRB方法流程如图 2所示。图 1CTC尖峰现象示意图Fig.1Schematic diagram of the CTC spike phenomenon图 2DRB方法流程Fig.2Procedure of the DRB method1072023年 10
25、月 15日Computer Engineering 计算机工程2.2模型结构为了确保模型拥有较好的识别性能以及较快的收敛速度,本文网络模型主体使用 CTC/AED 多任务学习结构的 Conformer16。使用 DRB 方法的模型结构如图 3 所示,由 Conformer 编码器20、CTC 模块、DRB处理层和 Transformer解码器等 4个部分组成。Conformer 编 码 器 通 过 添 加 卷 积 层 增 强Transformer 编码器捕获语音序列局部信息的能力,使它能更适合语音与音频建模21。CTC模块主要由全连接层和 Softmax 函数组成的分类器构成,它与CTC Lo
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 丢弃 冗余 语音 识别 Transformer 解码 加速 方法