嵌入式TTS汉语语音系统的设计与实现

摘要：通过使用改进的游程编码算法、多重查找表设计及预存储命令字等技术，实现了一种适用于广泛硬件平台的嵌入式TTS汉字语音系统，其可发音字符涵盖了GB2312汉字编码字符集。
关键词：TTS改进游程编码多重查找表

语言是人与人交流信息的一种手段。使计算机、带有人机交互的电器、仪表等能像人一样开口“说话”是科技工作者多年的研究目标。文语转换TTS（Text To Speech）是自动将输入文字转换成语音输出，并尽量使输出的语音效率流畅、自然的一类技术。TTS系统主要需解决两个问题：①文本分析，即语言学分析。该任务是将以文本广度输入的字符串转换成语言学的表述；②语音合成。即根据语言学的内在表述信息合成语音。TTS系统中的语音合成方法分为时域和频域两大类：频域方法主要有LPC参数合成及其振峰合成两种，其实质是在工程上实现语音生成模型，进而在终端特性上模拟发音

器官。在目前阶段，频域方法形成的发音尚不自然，且需要的计算量很大，不适宜在低端的嵌入式芯片上使用。波形编辑法是将较短的数字音频段（即合成基元）拼接并进行段音平滑后生成连续语流的方法。这种方法占用的存储空间大，但计算量小、计算速度快，而且合成语音自然度较高，显然比较适合于芯片性能较弱的嵌入式系统方面的应用。

嵌入式TTS汉语语音系统的设计与实现如图

采用波形编辑法的嵌入式TTS系统由于成本低、性能完善、自然度高，随着波形修改算法的不断提出以及微处理器和非易失性存储介质功能的不断增强，正日益受到人们的关注。本系统即采用时域波形编辑技术，采集GB2312汉字编码字符集中所有字符发音作为原始材料，通过使用改进的游程编码算法压缩生成可适用于当前Flash存储器的语音库，并采用多重查找表设计及预存储命令字技术有效地加快语音库的寻址速度，在基于Atmel公司的AT89S52单片机上成功实现了一个TTS语音系统，经测试取得了令人满意的效果。该系统应用简便CONTROL ENGINEERING China版权所有，具有很小的尺寸和很低的功耗及通用的串行接口，可以广泛用于有关的汉语语音应用系统中。

1 系统原理
图1为系统原理图框图以及主要操作流程。系统采用串行口与外界交互，任何具有标准串口的设备均可与本系统相连。欲发音汉字的国标码（GB码）由串口送入MCU，MCU将其映射为Flash存储器地址表中对应项的地址，然后根据此地址取得对应项中的命令字，由MCU根据该命令字读取该汉字发音对应的语音数据，连续读出语音数据并以游程码解码算法解码后，按照语音采样时的固定速率通过D/A转换和功率放大播放。本文中语音采样速率为11025B/s。为满足应用需求，本文首先构建易于快速解码的语音库，根据特定Flash存储器的存储格式，以快速多查找表寻址及命令字预先存储的方式组织并存储在Flash存储器中，以满足语音播放的实时要求。同样www.cechina.cn，MCU的代码也要优先考虑速度而牺牲诸如模块化、可读性方面的要求。最后，出于实用性考虑，系统中需加入足够的输入缓冲区支持，以满足一次输入多个流字或整句的要求。

点击看原图

图2是“哎”音样本的时域波形。所有的采集样本除具有不同的波形包络外，均具有大体相同的结构，即一个完整的汉字发音均由前后两个静音部分和中间的发音部分组成。静音的采集值绝大多数为80H（一些轻微扰动可视为录音过程中的噪声，但尾音部分要另外处理），因而可将其统一为80H，以提高压缩比。另由图2可见，00H、01H、FFH、FEH这些边缘值的出现概率是很小的控制工程网版权所有，这个特性亦可用于语音的压缩算法中。
本文根据上述静默值及边缘值的分布特点，提出了一种改进的游程编码用于语音数据的压缩www.cechina.cn，具体做法是：用00H代表游程压缩起始码，其后是被编码字符，再

【免费试用】可开发PLC、可组态、可仿真——国产一体化编程软件S…

突破“心脏搭桥”局限，研祥智能助力医疗康复新发展

您的模型诊断专家MI：助力把好模型质量第一关

研祥专栏

凌华专栏

研华HMI专栏

控创专栏

图说工控

频道推荐

在线研讨会

关于我们

CE全球

网站地图

新闻中心

子站

技术频道

社区

社区

联系我们

友情链接