让机器听懂我的话—语音识别技术-语音学-语言学-学海泛舟

首页 >> 语言学 >> 语音学

让机器听懂我的话—语音识别技术

语音识别技术是2000年至2010年间信息技术领域十大重要的科技发展技术之一

让机器听懂我的话
解读国家863计划项目———语音识别技术

北京清华大学电子工程系副教授刘加教授刘润生

语音识别是一门交叉学科，语音识别正逐步成为信息技术中人机接口的关键技术，语音识别技术与语音合成技术结合使人们能够甩掉键盘，通过语音命令进行操作。语音技术的应用已经成为一个具有竞争性的新兴高技术产业。

语音识别技术

与机器进行语音交流，让机器明白你说什么，这是人们长期以来梦寐以求的事情。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别是一门交叉学科。近二十年来，语音识别技术取得显著进步，开始从实验室走向市场。人们预计，未来10年内，语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。

语音识别听写机在一些领域的应用被美国新闻界评为1997年计算机发展十件大事之一。很多专家都认为语音识别技术是2000年至2010年间信息技术领域十大重要的科技发展技术之一。

语音识别技术的基础

语音识别技术关系到多学科的研究领域，不同领域上的研究成果都对语音识别的发展作了贡献。

让机器识别语音的困难在某种程度上就像一个外语不好的人听外国人讲话一样，它和不同的说话人、不同的说话速度、不同的说话内容、以及不同的环境条件有关。语音信号本身的特点造成了语音识别的困难。这些特点包括多变性，动态性，瞬时性和连续性等。

计算机语音识别过程与人对语音识别处理过程基本上是一致的。目前主流的语音识别技术是基于统计模式识别的基本理论。一个完整的语音识别系统可大致分为三部分：

（1）语音特征提取：其目的是从语音波形中提取出随时间变化的语音特征序列。

（2）声学模型与模式匹配（识别算法）：声学模型通常将获取的语音特征通过学习算法产生。在识别时将输入的语音特征同声学模型（模式）进行匹配与比较，得到最佳的识别结果。

（3）语言模型与语言处理：语言模型包括由识别语音命令构成的语法网络或由统计方法构成的语言模型，语言处理可以进行语法、语义分析。对小词表语音识别系统，往往不需要语言处理部分。

声学模型是识别系统的底层模型，并且是语音识别系统中最关键的一部分。声学模型的目的是提供一种有效的方法计算语音的特征矢量序列和每个发音模板之间的距离。声学模型的设计和语言发音特点密切相关。声学模型单元大小（字发音模型、半音节模型或音素模型）对语音训练数据量大小、系统识别率，以及灵活性有较大的影响。必须根据不同语言的特点、识别系统词汇量的大小决定识别单元的大小。

语言模型对中、大词汇量的语音识别系统特别重要。当分类发生错误时可以根据语言学模型、语法结构、语义学进行判断纠正，特别是一些同音字则必须通过上下文结构才能确定词义。语言学理论包括语义结构、语法规则、语言的数学描述模型等有关方面。目前比较成功的语言模型通常是采用统计语法的语言模型与基于规则语法结构命令语言模型。语法结构可以限定不同词之间的相互连接关系，减少了识别系统的搜索空间，这有利于提高系统的识别。

语音识别过程实际上是一种认识过程。就像人们听语音时，并不把语音和语言的语法结构、语义结构分开来，因为当语音发音模糊时人们可以用这些知识来指导对语言的理解过程，但是对机器来说，识别系统也要利用这些方面的知识，只是如何有效地描述这些语法和语义还有困难：

（1）小词汇量语音识别系统。通常包括几十个词的语音识别系统。

（2）中等词汇量的语音识别系统。通常包括几百个词至上千个词的识别系统。

（3）大词汇量语音识别系统。通常包括几千至几万个词的语音识别系统。这些不同的限制也确定了语音识别系统的困难度。

语音识别技术的发展情况

我国语音识别研究工作起步于五十年代，但近年来发展很快。研究水平也从实验室逐步走向实用。从1987年开始执行国家863计划后，国家863智能计算机专家组为语音识别技术研究专门立项，每两年滚动一次。我国语音识别技术的研究水平已经基本上与国外同步，在汉语语音识别技术上还有自己的特点与优势，并达到国际先进水平。其中具有代表性的研究单位为清华大学电子工程系与中科院自动化研究所模式识别国家重点实验室。

清华大学电子工程系语音技术与专用芯片设计课题组，研发的非特定人汉语数码串连续语音识别系统的识别精度，达到94．8％（不定长数字串）和96．8％（定长数字串）。在有5％的拒识率情况下，系统识别率可以达到96．9％（不定长数字串）和98．7％（定长数字串），这是目前国际最好的识别结果之一，其性能已经接近实用水平。研发的5000词邮包校核非特定人连续语音识别系统的识别率达到98．73％，前三选识别率达99．96％；并且可以识别普通话与四川话两种语言，达到实用要求。

2000年7月在北京自然博物馆新开设的动物展馆中展出的具有语音识别口语对话功能“熊猫”，采用了我们研发非特定人连续语音识别系统，在展览馆这样高噪声的环境下，该识别系统的识别率也超过了98％，达到实用要求。通过该系统观众与“熊猫”自然对话可以了解熊猫的生活习惯、生理结构等信息，其形式生动、活泼，吸引了大量的学生与参观者。

采用嵌入式芯片设计技术研发了语音识别专用芯片系统，该芯片以8位微控制器（MCU）核心，加上低通滤波器，模／数（A／D），数／模（D／A），预放，功率放大器，RAM，ROM，脉宽调幅（PWM）等模块，构成了一个完整的系统芯片，这是国内研发的第一块语音识别专用芯片。芯片中包括了语音识别、语音编码、语音合成功能，可以识别30条特定人语音命令，识别率超过95％，其中的语音编码速率为16kbits／s。该芯片可以用于智能语音玩具；也可以与普通电话机相结合构成语音拨号电话机。这些系统的识别性能完全达到国际先进水平。研发的成果已经进入实用领域，一些应用型产品正在研发中，其商品化的过程也越来越快。

语音识别技术的前景和应用

在电话与通信系统中，智能语音接口正在把电话机从一个单纯的服务工具变成为一个服务的“提供者”和生活“伙伴”；使用电话与通信网络，人们可以通过语音命令方便地从远端的数据库系统中查询与提取有关的信息；随着计算机的小型化，键盘已经成为移动平台的一个很大障碍，想象一下如果手机仅仅只有一个手表那么大，再用键盘进行拨号操作已经是不可能的。语音识别正逐步成为信息技术中人机接口的关键技术，语音识别技术与语音合成技术结合使人们能够甩掉键盘，通过语音命令进行操作。语音技术的应用已经成为一个具有竞争性的新兴高技术产业。

语音识别技术发展到今天，特别是中小词汇量非特定人语音识别系统识别精度已经大于98％，对特定人语音识别系统的识别精度就更高。这些技术已经能够满足通常应用的要求。由于大规模集成电路技术的发展，这些复杂的语音识别系统也已经完全可以制成专用芯片，大量生产。在西方经济发达国家，大量的语音识别产品已经进入市场和服务领域。一些用户交机、电话机、手机已经包含了语音识别拨号功能，还有语音记事本、语音智能玩具等产品也包括语音识别与语音合成功能。人们可以通过电话网络用语音识别口语对话系统查询有关的机票、旅游、银行信息，并且取得很好的结果。调查统计表明多达85％以上的人对语音识别的信息查询服务系统的性能表示满意。

可以预测在近五到十年内，语音识别系统的应用将更加广泛。各种各样的语音识别系统产品将出现在市场上。人们也将调整自己的说话方式以适应各种各样的识别系统。在短期内还不可能造出具有和人相比拟的语音识别系统，要建成这样一个系统仍然是人类面临的一个大的挑战，我们只能一步步朝着改进语音识别系统的方向一步步地前进。至于什么时候可以建立一个像人一样完善的语音识别系统则是很难预测的。就像在60年代，谁又能预测今天超大规模集成电路技术会对我们的社会产生这么大的影响。

知识链接

语音识别技术：是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别是一门交叉学科，是2000年至2010年间信息技术领域十大重要的科技发展技术之一。

语音识别技术研究具有代表性的研究单位：清华大学电子工程系与中科院自动化研究所模式识别国家重点实验室。

我国语音识别技术的研究水平已经基本上与国外同步，在汉语语音识别技术上还有自己的特点与优势，并达到国际先进水平。

语音识别技术的关键技术是语音识别专用芯片，国内研发的第一块语音识别专用芯片，包括了语音识别、语音编码、语音合成功能，可以识别30条特定人语音命令，识别率超过95％，其中的语音编码速率为16kbits／s。该芯片可以用于智能语音玩具；也可以与普通电话机相结合构成语音拨号电话机。

《科技日报》 2001年8月14日

法律语言学研究网之“学海泛舟”
2009-12-20