语音识别错误对翻译性能的影响分析

田新宇，李军辉

(苏州大学计算机科学与技术学院，江苏苏州 215006)

随着科技的发展，语音识别技术也在逐渐趋于成熟[1]，不少学者都基于语音识别技术来拓展或延伸相关的研究方向，重点集中在自然语言处理、实时语音识别以及语音识别鲁棒性等方面[2].在自然语言处理领域中，语音识别结果可作为机器翻译源语言的一种形式[3]，用于让计算机能够听懂人类说的话[4]，即让机器接收人的语音输入，理解其语言类型和目的，并作出相应的反应，如按需做出记录、查询或相应的其他操作[5].

在汉语的语音识别过程中，由于机器识别本身的局限性，不可避免地会出现一些语音识别错误[6].其与环境噪声、说话人的人为因素(如发音、用词、造句等的规范性)共同作用，影响同声传译的翻译结果.以往不少学者对语音识别错误的来源、种类及其对某类词性词语的翻译所产生的影响进行了研究.赵晓瑞[7]提出的不规范语言翻译策略分析了各种不规范语言的来源，指出在发音、拼写、句法、修辞等方面，英语和汉语都具有一套完整的语言规范体系.在发音上，不规范语言的形成来自于很多现象，例如省略读音、遗漏音调、吞音等现象；
在句法上，不规范语言一般不符合语法规定，例如句子成分缺失等；
在词语方面，不规范语言会夹杂着地域色彩，即方言土语等.这也解释了语音识别结果中错误词汇产生的原因.李萌[8]以信息论为依托，以《哈利·波特》中专有名词翻译为例，对错误词汇在翻译过程中信息传递的影响进行了分析.周美玲[9]通过对机器音译，即人名、地名、机构名和组织名等专有名词的错误分析，总结了基于语音的机器音译的不足，提出了两种机器音译的方法：基于字形的音译方法和机器翻译的方法.然而，以上研究均未系统地分析语音识别结果中易出现的错误词性和错误类型，以及语音识别错误对翻译产生的影响.

针对以上问题，本文基于NIST汉英实验，以Vaswani等[10]提出的Transformer模型为基础架构，利用NIST汉英实验中的训练集进行模型训练，采用讯飞语音识别系统获取NIST汉英实验测试集的语音识别结果作为测试集进行测试.实验通过对比标准测试集和语音识别结果构成测试集的翻译结果，对常见语音识别错误的类型，以及错误词汇对其他词语翻译的影响进行了分析讨论，希望以此为提高面向语音识别错误的机器翻译鲁棒性研究提供参考.

1.1 数据来源

本文使用汉英翻译经常使用的NIST02和NIST03两个测试集.通过两位朗读者朗读这两个测试集得到语音音频，音频文件格式为M4A，再调用“讯飞听见”在线语音转文字软件获得语音识别的结果，并以此作为含语音识别错误的中文数据集.表1给出了两个测试集的数据统计，分词均采用结巴分词(https:∥github.com/fxsjy/jieba)，并通过计算基于字的字词错误率(word error rate，WER)来衡量有错误和无错误数据的差异.

1.2 分析内容和方法

本文以Transformer[10]为基础架构进行汉英翻译模型的训练.通过对训练过程中保留的所有模型进行翻译测试，评估比较不同模型应用在开发集(即源端无错误的NIST06数据集)上的双语互译评估(BLEU)[11]值，挑选出性能最佳的模型用于本文实验.分析内容和分析方法如下.

给定一个无错误的句子S={s1,s2,…,sn}，共包含n个单词，以及其语音识别版本T={t1,t2,…,tm}，共包含m个单词，为确定S中哪些词出现语音识别错误，本文通过以下步骤来进行原词-错误词对的提取.

1) 同时遍历S和T中的每一个单词(标点及特殊符号除外)，若当前单词si和tj相同，则继续向后遍历，否则转到2).

2) 记录S和T当前错误起始词汇的下标p和q，并找到S和T中距离错误起始词汇最近的相同单词，记录其下标分别为x和y，即为当前错误结束词汇的下标.转到3).

3) 在S中提取出O={sp,…,sx-1}的单词组成当前错误的原词组，在T中提取出N={sq,…,sy-1}的单词组成当前错误词组，将二者结合为原词-错误词对(O,N).转到1).

例如原句为：“以公务员所共同遵循的行为规范、至理名言为书法作品创作内容,倡导公务员廉洁奉公之风.”错误句为：“以公务员所共同遵循的行为规范、治理名言为书法作品创作内容,倡导公务员廉洁奉公指望.”该句所提取出的原词-错误词对为：(“至理名言”“治理名言”)和(“之风”“指望”).

本文首先分析哪些词容易引起语音识别错误，然后再从多个角度分析语音识别错误对机器翻译性能的影响.分析的内容包括错误词性分析、错误类型分析、语音识别错误对翻译性能的影响分析，以及错误词对其他词翻译的影响分析等.

错误词性分析.分析语音识别错误中各词性的占比.

错误类型分析.常见的语音识别错误包括替换、缺词或多词等.有别于英语等西方语言，汉语语音识别存在着大量同音异形字或者近音异形字.为此，人工对比原句和语音识别结果，将错误类型分为同音异形字、人名、近音异形字和多字少字等类别，并统计它们的比例.

语音识别错误对翻译性能的影响.对比和分析标准测试集和含语音识别错误的测试集经Transformer翻译后的BLEU值的翻译性能.

错误词对其他词翻译的影响.当一个句子存在语音识别错误时，分析错误词容易引起其他哪些词的翻译错误.为了分析每处错误词对翻译的影响，实验时确保每个句子只有一处错误，比如，如果某个句子出现多处错误，针对每一处错误生成一个句子，以保证该句中只保留一处错误.记S和T分别表示无错误句子和只有一处错误的句子，记S中发生语音识别错误的单词为si.为了判断S中其他某个单词(如sj(i≠j))的翻译是否受错误词影响，分别获取S和T的译文，然后通过双语词对齐工具fast_align(https:∥github.com/chagge/fast_align)，获取sj在两个句子译文中的翻译结果，如果两个译文相同，即认为sj的翻译不受si发生语音识别错误的影响，反之受其影响.具体地，根据与发生语音识别错误词si的平面或结构距离，分析哪些词更容易受语音识别错误的影响.以下以si为例，解释平面距离和结构距离.

1) 平面距离：即与si的表面距离，如果当前词为sj,其与si的距离为 |i-j|.

2) 结构距离：即与si在句法依存上的距离，从si出发，沿父节点或子节点方向能到达sj过程中经历的边数.为了得到句子S的句法树，本文使用依存句法分析工具DDParser(https:∥github.com/baidu/DDParser).

本研究对NIST汉英实验的NIST02和NIST03数据集中汉语语料的语音识别结果进行语音识别错误分析，结合含语音识别错误的汉语语料的翻译结果来统计错误词汇的词性、类型及其他翻译受影响词的占比.本文采用训练集语料共包括2×106句对，来源于LDC2002E18、LDC2003E07、LDC2003E14、LDC2004T08、LDC2002T01、LDC2004T07、LDC2005T06、LDC2005T10、LDC2009T02、LDC2009T15和LDC2010T03等多个数据集.开发集使用NIST06.汉语端使用结巴分词，英语端使用Moses脚本对句子进行词切分，以及小写化.汉英两端分别做子词化处理，不共享两端词表，字节对编码(BPE)[12]操作数均设置为32 000.

2.1 实验设置

本文基准模型为开源OpenNMT[13]实现的Transformer[10].训练时，汉英模型设置相同的参数有：编码器与解码器的层数均为6层，多头注意力机制设置8个头，批处理大小设置为4 096，词向量、编码器和解码器的隐藏层维度均为512维，前馈神经网络的维度设置为2 048维，dropout[14]设置为0.1.使用Glorot方法初始化模型参数，其他参数均使用默认配置.翻译模型在一块GTX 1080Ti显卡上训练.在网络训练过程中，采用Adam算法进行参数更新，其参数β1为0.9，β2为0.998，训练过程中每隔5 000步保存一次模型.在翻译测试集句子时，beam size设置为5.

2.2 结果与分析

2.2.1 错误词性分析

图1统计了不同词性在语音识别错误词汇和总词汇中的占比，总错误词数为4 810，总词数为38 771.实验按错误占比大小的顺序统计了15种词性，剩下更多错误占比较小的词性合计占比为11.39%.从图1可以看出，在所有词中，名词和动词的错误占比和总占比都较高，这也比较符合人们日常生活中的用词习惯，实词占据了日常交流词汇中的大部分.此外，人名、数词和代词等更容易出现语音识别错误，其错误占比明显大于总占比的.其中，人名的错误占比远大于总占比，这说明人名词性在语音识别的过程中最容易出现语音识别错误.因此，在处理语音识别结果的过程中，可重点关注名词和动词等出现次数较多的实词，结合语境进行文本纠错.对于最容易出现语音识别错误人名，在语音识别的过程中，可预先导入常见人名表，从而提升语音识别系统对人名识别的准确性.由于在统计过程中，与原文不一致的表述均作为识别错误，所以对于较易出现识别错误的数词，错误原因往往来自于不同类型的表述，对翻译的影响较小.

图1 不同词性在错误词汇和总词汇中的占比Fig.1 Percentage of different parts of speech in error words and total words

2.2.2 错误类型分析

语音识别错误可分为多种类型.表2给出了一个原句及其语音识别结果举例.在该例中“阿姆丹说”属于人名类型的错误，“红星月会”属于专有名词类型的错误，“进东”属于同音异形字类型的错误，“建林”属于专有名词类型的错误，“制定”属于同音异形字类型的错误.

表2 原句与语音识别结果举例

图2统计了不同类型的错误在所有语音识别错误中的占比，总错误为2 806处.从图2可以看出，主要的错误类型包括同音异形字、人名、近音异形字和多字少字等，其中同音异形字的错误占比最高，且远高于占比第二的人名类型的错误.同音异形字和近音异形字的错误类型反映了语音识别软件不完全准确的现象，如果词汇不是很常见或者朗读音调有所偏差，那么语音识别系统较容易识别为同音异形字或近音异形字；
而对于人名或专有名词，由于这些词中的汉字组合无规律，所以也较易出现识别错误.因此，在处理语音识别结果的过程中，针对同音异形字和近音异形字的识别错误，可根据常见词生成同音/近音字对照表，结合语义计算概率，从而预测出当前错误词对应的正确词.

图2 不同类型的错误占比Fig.2 Proportion of different types of errors

2.2.3 语音识别错误对翻译性能的影响

表3给出了语音识别与标准的NIST汉英测试集的翻译性能.从表3可以看出，有语音识别错误的测试集翻译结果的BLEU值比标准语料低了10个百分点左右.

表3 语音识别错误对机器翻译结果的影响

图3展示了不同长度有错误和无错误句子的翻译性能，句子长度划分区间为(0,10]、(10,20]、(20,30]、(30,40]、(40,+∞).从图3可以看出，长度在20以下的句子在翻译时受到语音识别错误影响的程度更加明显，BLEU值比无语音识别错误句子的BLEU值低7～9个百分点；
而长度大于20的句子在翻译时受到语音识别错误影响的程度略有降低，BLEU值比无错误句子的翻译低4～7个百分点.因此，在对语音识别结果进行翻译的过程中，对于长度较小(≤20)的句子，其提供的语义信息较少，所以需要重点关注句中错误词的纠错结果，通过对不同错误词纠错结果的比较和筛选(短句中错误词较少)，尽可能达到或接近原句所表示的含义，从而降低语音识别错误对长度较小句子的翻译产生的较严重影响.而对于长度较大(>20)的句子，可以结合语境，利用句子的语义信息来对错误词进行纠错.

图3 不同长度有错误和无错误句子的翻译性能Fig.3 Translation performance of different length sentences with and without errors

2.2.4 错误词对其他词翻译的影响

统计翻译受错误词汇影响的正常词汇与错误词汇的平面与结构距离区间均为1～5.表4给出了一个原句及其语音识别结果的翻译举例.在该例中，由于“伤愈”一词的识别错误，对与其平面距离为1的词“复出”，平面距离为2的词“最早”、平面距离为3的词“乔丹”的翻译均产生了影响；
对与其结构距离为1的词“复出”的翻译产生了影响.

图4统计了出现语音识别错误的情况下，句中其他正常词汇翻译受影响的占比，计算方法如下：

图4 翻译结果受语音识别错误影响的正常词汇占比与词距的关系Fig.4 The relasionship of proportion of the translation of normal words affected by the speech recognition errors and word distance

距离d且翻译受影响的词占比=

从图4可以看出，当按照平面距离划分时，距离错误词5以内的词翻译较容易受影响，且随着平面距离的增加，受影响词的占比逐渐降低.此外，平面距离5以上的词受影响占比平均为7.90%，明显低于平面距离5以内的词.当按照结构距离划分时，与错误词结构距离为1的词受影响最多，占比达到了23.60%，与错误词结构距离2以上的词受影响次数较少，只有极少部分受影响的其他词与错误词的结构距离会达到5.此外，对比两折线趋势可以得出结论：1) 平面距离、结构距离与翻译受错误词汇影响的正常词占比均为负相关；
2) 随着距离的增大，结构距离对翻译产生影响的降低程度比平面距离更加明显；
3) 错误词汇从结构距离角度对其他词的影响总体低于平面距离.因此，在翻译过程中，可以重点检查与错误词平面距离5以内和结构距离3以内的词的翻译结果.具体地，可通过词对齐工具fast_align和依存句法分析工具DDParser找到与错误词在两种距离上较近的词的翻译，然后对比原词的翻译结果，进行翻译纠错.

2.2.5 降低语音识别错误对翻译性能的影响

为降低语音识别错误对翻译性能的影响，本研究利用数据增强工具nlpcda(https:∥github.com/425776024/nlpcda)对训练集进行了错误添加，并尽量不改变原文语义.其中同音异形字的错误类型占比为50%，近音异形字的错误类型占比为25%，多字少字的错误类型占比为15%，数词的错误类型占比为10%.为了模拟真实情况，以上错误添加的比例基本符合2.2.2节错误类型分析中统计的比例，由于人名和专有名词类型的错误具有高度不确定性，因此并未添加这两种类型的错误.表5给出了4种错误添加的例子.

表5 错误添加举例

我们利用添加过错误的训练集重新训练模型，并在测试集NIST02和NIST03上测试翻译性能，如表6所示.

表6 使用添加错误的训练集训练的模型在测试集上的BLEU值

从表6可以看出，使用添加错误的训练集训练出的模型，在含语音识别错误的测试集上的翻译性能均比无错误训练集训练出的模型更好.其中对有错误的NIST02测试集，BLEU值约提升4个百分点；
对有错误的NIST03测试集，BLEU值约提升2个百分点.因此在模型训练过程中，可以对训练集添加错误来模拟语音识别错误，使用含语音识别错误训练集训练出的模型能显著降低语音识别错误对翻译性能的影响.

3.1 总结

本文综合利用NIST汉英实验语料库的汉英数据集，利用讯飞语音识别系统进行语音识别，并统计了常见语音识别错误的词性和类型；
通过对比含语音识别错误数据集与标准数据集的机器翻译结果，分析语音识别错误对翻译性能的影响，以及哪些范围的词汇翻译易受错误词的影响等.研究表明：

1) 名词和动词等实词出现语音识别错误的次数较多，人名最易出现语音识别错误；

2) 同音异形字的语音识别错误出现次数最多，该类错误反映了语音识别系统对同音异形字的识别结果不够准确.此外也存在较多人工朗读的问题造成的近音异形字和多字少字的语音识别错误；

3) 长度较小的句子在翻译时受到错误词的影响程度更加明显；

4) 无论从正常词汇与错误词汇在已分词的句子中的平面距离的角度，还是与错误词汇依存关系相关的结构距离角度来看，其他词翻译受影响的占比基本都和距离成负相关.

5) 在翻译模型训练过程中，使用添加错误的训练集训练所得模型在含语音识别错误的测试集上翻译性能更好.

综上所述，不同词性、类型的语音识别错误对其他词汇翻译的影响多出现在与其距离较近或依存关系较近的位置.基于此，在对汉语语音识别结果进行翻译的过程中，可重点关注那些易被错误词汇影响的词的翻译，从而进行翻译纠错，提高机器翻译的鲁棒性.

3.2 未来工作

本文的未来工作可以从以下多方面展开.

1) 收集更多的数据.本文的语音识别结果是经人工朗读的NIST汉英实验中的汉语数据集，收集了不同朗读者所提供的不同音频，体裁以新闻为主.在后续工作中，可大量收集类似日常交流的对话音频进行语音识别，从而针对口语数据的语音识别结果的翻译性能加以分析.

2) 降低语音识别错误对翻译产生的影响.从本文可以看出，语音识别错误会大幅度影响翻译的性能.在后续工作中，可利用本文分析得到的结论，探索如何降低语音识别错误对翻译产生的影响.(a) 融合汉字发音的机器翻译研究[15-17]：同音异形字和近音异形字是语音识别的两大常见错误.针对语音识别的文本，利用其发音能够在一定程度上缓解由于字形错误带来的翻译影响.(b) 融合错误词识别的机器翻译研究[18-20]：很多错误词会影响句子的通顺度，在机器翻译建模过程中，同时使用语言模型[21]识别出错误词，并根据错误词作为提示，预测出正确的词.(c)融合复杂噪声环境下的语音识别对翻译性能的影响.本文的分析对象为语音识别错误对翻译性能的影响，因此在收集人工朗读音频时，尽量去除其他背景噪声.在后续工作中，可以进一步探索基于在实际复杂噪声环境下，语音识别产生的错误及其影响.

猜你喜欢语音距离词汇微信语音恐惧症意林·作文素材(2021年9期)2021-07-06魔力语音阅读（快乐英语高年级）(2019年5期)2019-09-10Magic Phonetics魔力语音阅读（快乐英语高年级）(2019年2期)2019-09-10距离美思维与智慧·上半月(2018年11期)2018-11-30对方正在输入……小说界(2018年5期)2018-11-26词汇小达人文理导航·趣味课堂(2016年5期)2016-07-21词汇小达人文理导航·趣味课堂(2016年4期)2016-06-01词汇小达人文理导航·趣味课堂(2016年3期)2016-04-26词汇小达人文理导航·趣味课堂(2015年10期)2015-12-01爱的距离母子健康(2015年1期)2015-02-28

推荐访问:语音识别性能错误