数据速率高达2Mb/s的3G手机将可以支持包括数据业务和互联网连接在内的多媒体应用。由此,人们希望大多数3G手机的屏幕更大,键盘更小。为避免小键盘带来的不便,借助自动语音识别技术(ASR)实现语音拨号成为3G手机普遍看好的特性。如果ASR能够担当起这一重任并使消费者满意,那么它将最终完全取代小键盘而用在3G手机上。
从设计的角度来看,ASR在实时操作以及语音格式的清晰程度与快速识别等功能性的实现方面,需要依靠高性能数字信号处理器技术来完成所需的复杂算法。幸运的是,现代DSP技术已取得了很大进展,它已经实现了比以往更强大的计算能力、更低的功耗和更小的体积,可以将更复杂和更精确的ASR功能加到3G手机上。将高效、功能强大的DSP核与其它元件及技术组合在一起,可望实现3G手机所要求的通道处理方案。
目前来看,ASR的基本应用按功能可分为三类:语音转文本(语音‘键入’)、讲话人识别和语音命令控制。
这三种类型的功能涵盖了3G设备要用到的多种ASR特性。语音转文本的应用包括语音拨号和电子邮件口述。讲话人识别功能可实现对个人存储数据及讲话人身份资料的安全语音访问,能够用于诸如信用卡购物及银行业务等安全用途的访问。语音命令控制功能涉及对语音扩展标记语言(VXML)网站内容如理财服务、目录帮助等的语音接口应用等。(VXML目前正在成为网站内容的标准化语音标签)。
从实施方案看,3G手机ASR应用可分为以终端为中心和采用客户机/服务器结构两种类型。如图1所示,以终端为中心的应用方案中,由3G手机完成整个语音识别过程并送出识别结果。在客户机/服务器方案中,终端设备完成预处理和特征提取,然后通过防差错数据通道将所得参数发给中心服务器完成识别过程。采用客户机/服务器结构www.cechina.cn,3G手机须通过数据通道而非移动通道把语音传给服务器进行识别,这是因为移动通道的语音编码速率较低,会严重影响识别性能。
ASR系统按语汇量的不同有很大差异。简单的网络应用具有最基本的16个字语汇功能就够用了,但对于3G手机应用,则需要更大量的专用语汇。这种语汇可以是与讲话人有关的(按用户的声音进行语训)或无关的(任何人的声音都可以)。语汇量以及语训数据的增加,对DSP计算载荷量的要求就变大。
例如,我们来考察一种典型的基于隐式马可夫模型(HMM)的与讲话人无关、100条指令识别量的应用。假定HMM模型从左到右无遗漏;有6种状态,5种混合高斯型分布,具有对角线协方差;并有39种特性(频率倒频谱系数或MFCC为13mel,及其第一级、第二级差值),16位精度,那么声学HMM模型的大小将为100x6x5x(39+2)x2= 240kB。
进行包括输入语音采样的细分、开窗、MFCC提取、概率计算和Viterbi搜寻等实时操作,对DSP的运算量要求一般为1000万次乘法累加循环(MAC)。对于连续语音的识别,数千个三话音模型(triphone model)和各种语法模型,要求更大的存储空间,以及更高的DSP处理速度。
由此,ASR系统在手机上应用的成败在很大程度上将取决于DSP的功能和设计。第三代移动通信系统要求使用比以往更高性能的DSP,而ASR功能的加入对DSP就提出了更高的要求。从构建系统架构的角度看,实现好的DSP性能需要具有高处理速度CONTROL ENGINEERING China版权所有,低功耗和高编码密度。
高速DSP是关键
由于语音识别系统要对声音进行“实时”处理和采样,因此它要进行大量的运算。下面的数字和运算量是以终端中心方案为前提的。如果DSP20%的计算资源分配用于1000万次MAC语音识别应用控制工程网版权所有,那么要同时具有这种功能控制工程网版权所有,并仍有余力完成3G手机所要求的诸如‘软猫’(Soft modem)处理能力等其它DSP任务,则要求DSP提供5000万次MAC。采用速度较慢的DSP,如运算速度为2500万次MACwww.cechina.cn,会使语汇量中指令数目减半或使HMM参数变得很少,导致系统总体性能下降。