HI,欢迎来到好期刊网,发表咨询:400-888-9411 订阅咨询:400-888-1571证券代码(211862)

语音识别系统集锦9篇

时间:2022-11-25 09:32:25

语音识别系统

语音识别系统范文1

关键词:车载系统 语音识别 端点检测 特征参数提取 识别模式

中图分类号:TN912 文献标识码:A 文章编号:1007-9416(2012)02-0082-01

由于生活节奏的加快,汽车已经成为了人们生活中重要的工具,人们在车内的时间也更多。同时也希望能够在车内接收到外界的信息继续进行工作,还要求汽车有娱乐功能,因此促进了车载多媒体的发展。而车载多媒体传统的人机交互方式会增加潜在的驾驶危险,为此将语音识别应用于车载多媒体系统中,将会是车载多媒体发展的重要方向。端点检测、特征参数提取以及识别是语音识别的主要内容,本文也将从这三个方向对车在多媒体系统的语音识别进行研究。

1、端点检测

在进行语音识别时,首先需要通过端点检测来对语音信号中的无声片段和有声片段进行分割。目前,语音端点识别已经从开始的单一门限发展到了基于模糊理论的判决。但是对于车载多媒体而言,计算量较大、识别响应时间较长端点检测的方法显然不使用,所以主要采用基于短平均过零率和短时间平均幅度的方法来进行语音端点检测,这种方法利用短时间内幅度的检测和过零率来作为语音端点的检测。

首先,利用短时幅度可以有效判断语音端点,同时语音的浊音部分平均幅度会明显大于噪声的平均幅度,然后同时再辅以短时过零率的方法来判断语音开始的浊音,从而进一步对端点检测进行校准,两者的结合能够更加精确的判断语音端点,并且两种算法都较为简单,能够满足车在多媒体的需求。

2、特征参数提取

在完成语音的端点检测之后,需要提取语音的特征参数,然后进行语音识别。目前用于语音特征参数提取的算法主要有LPCC(线性预测倒谱系数)和MFCC(Mel频率倒谱),由于MFCC具有更强的抗干扰能力等特点,更适合与噪声较多、司机不能离输入设备很近的车载环境。

分析MFCC的语音特征参数提取可以分成预加重、加窗、FFT(快速傅里叶变换)、滤波、自然对数提取、自然对数DCT计算这六个步骤。由于MFCC其计算精度以及计算量都较大,因此,使用MFCC作为车载系统的语音特征参数提取时,需要进行相应的改进:

(1)在MFCC实现的六个步骤中,例如加窗等步骤就可以实现进行计算,然后存储在数组中,在使用时进行查表提取,从而避免每一次语音识别时重复计算,从而加快了计算速度。

(2)FFT需要花费大量的时间(据统计,FFT需要花费MFCC56.32%的时间[2]),由于FFT算法是对复数进行处理,而语音信号的处理只涉及到实数部分,其虚数部分为零,因此增加了运算时间,因此可以利用文献3所提出的FFT运算方法,将长度为N的FFT预算降低到长度为N/2的FFT运算,从而提高了语音特征参数提取效率。

3、识别模式

语音识别的原理是模式匹配,通过计算现有语音模式与语音模板库中的模板的距离,来获得最佳的匹配模式。匹配的方法主要有DTW(动态时间规整)、HMM(隐马尔科夫模型)和ANN(人工神经元网络)。由于ANN计算量较大,因此不适合用于车载多媒体系统中,HMM需要繁杂的程序结构,包含众多功能模块,需要大量的计算。因此, DTW模式更适合用于车载多媒体系统中。能够满足车载系统孤立词、小词汇量的语音识别。

为了更好的在车在多媒体系统中的嵌入式平台上实现DTW,对DTW进行进一步的改进:

(1)由于在语音识别汇总,对音头和音尾的判断存在一定的误差,因此,使用传统DTW方法在进行固定端点匹配时会存在一定的误差,从而降低了语音匹配成功率。为此,可以采用放宽端点限制的方法来使用DTW进行语音识别。其主要的思路是取消传统DTW中对音头和音尾严格对其的限制。从而,只要两次语音在开始的W帧内能够匹配成功,同时在结束的W帧内匹配成功,即认为两次语音匹配成功。在降低了对端点检测的精度要求,符合车载系统小词汇量的特点,不会降低车载系统语音识别效率。

(2)在使用DTW进行语音模板匹配时,需要计算两个模板各帧的距离来计算模板之间的距离。加入模板库中的某个模板T有N帧,待识别的语音R有M帧,那么通常需要申请M×N长度的空间,再根据两个模板所有帧间距离计算整体长度。但是在实际的应用中,只需要M长度的空间来存放模板T第n-1帧与模板R中M帧之间的距离,在计算完第n帧与模板R中M帧之间的距离对M长度空间的数据进行替换,从而进行模板T第n+1帧与模板R中M帧之间的距离,从而节省了(N-1)×M的存储空间,这对车载系统有限存储空间的系统中有着非常重要的意义。

4、结语

相比于传统的按钮式、触摸屏式人机交互系统,语音识别对于车载多媒体系统有着非常重要的意义,将是车载多媒体系统重要的发展方向,本文针对车载多媒体系统对低CPU运算时间和地存储空间的特点,对语音识别中的端点检测、语音特征参数提取以及识别模式的实现和优化进行了研究。

参考文献

[1]方敏,浦剑涛,李成荣.嵌入式语音识别系统的研究和实现[J].中国信息学报,2004,(6):73~78.

[2]万春,黄杰圣,曹煦晖.基于DTW的孤立词语音识别研究和算法改进[J].计算机与现代化,2005,(13):4~6.

[3]谢凌云,杜利民,刘斌.嵌入式语音识别系统的快速高斯计算实现[J].计算机工程与应用,2004,(23):30~31.

语音识别系统范文2

【关键词】语音识别;中文识别;人工分词;控制系统

【中图分类号】TP311 【文献标识码】A

【论文编号】1671-7384(2014)02-0069-03

引 言

计算机如今如此普及,计算机发展速度完全超乎想象。但目前为止,真正具备与人交流功能的电脑还不存在。有这样一个图灵测试——让测试员与被测试者和一台机器在隔开的情况下,通过一些装置向被测试者随意提问。问过一些问题后,如果测试人不能确认被测试者30%的答复哪个是人、哪个是机器的回答,那么这台机器就通过了测试。可惜的是,如今情况下最好的成绩是由俄罗斯专家设计的“叶甫根尼”电脑程序,也只是达到了29.2%。

语音,是人与人交流的一种手段,也是人类交流和交换信息中最便捷的工具。退而求其次,要做到通过图灵测试,不如先让电脑通过语音作为引信来帮人类做事情。为了充分阐述语音识别这套系统的原理,本文将小范围重现语音识别原理。

对于语音识别之后,让计算机去理解人的意思,不可缺少的就是将文字信息转化为计算机能理解的内容。把计算机比作一个人手中拿着一本象形文字对照手册,身处上文说的图灵测试的房子中。而另一人则在房间外向此房间发送象形文字问题。房间内的人只需按照对照手册,返回手册上的象形文字答案即可。毕竟只需要让计算机懂得我们的意思,并非让计算机来帮我们去思考。因此,只要给予足够多的“稿纸、笔”以及足够大的“词典”即可。

这次我们对系统的研究使用的是C语言,由于并没有采用面向对象化的语言来编程,大部分程序使用的编程并没有向“类”里面填充“方法”的概念。这套系统硬件开发、硬件编程采用的是51单片机来实现,后期的处理则是在上位机通过钩挂系统钩子读取内存来实现。下面,我们将一步一步讲述构建这个系统的过程。

平台构建

如今,国外已经有很多成品语音识别系统,中文的语音识别控制系统也有很多的企业、教育科研机构在做相关的项目。不过这些研究却依然停留在初级阶段。因为中文是世界上最难学的语言,人来学习尚且如此,更何况人来教给机器去识别。

虽然如此,做语音识别首先要有一个平台来去搭建中文语音识别系统。第一步要做的便是将声音讯号转化为电讯号。这里采用一个高阻抗麦克风,作为音源进行声电转化。通常的麦克风是三个端子输出,分别是两个信号源和一个接地端。大部分的麦克风两个端读入的是相同信号,少部分高品质的则读入的是差分信号。

麦克风的输入是毫伏级别,类似空气声、干扰波都会使得输入的信号有噪波。因此,输入的两个端分别进行旁路电容滤波等操作,去除杂波。无源麦克风的输入电压过低,之后要将信号接入放大器,放大后的信号才能使得后续的操作中,模拟—数字信号转换器获得足够被感应的信号强度。

理论上讲,音频信号可以看作周期信号,按照傅立叶级数定理可知,任何周期函数都可以用正弦函数和余弦函数构成的无穷级数来表示。因此,通过将音频信号进行傅立叶级数展开,去除杂波频段的波形即可得到优质波形。

而实践中,通过硬件操作步骤较为烦琐,软件分析需要时间较长,出于经济等方面因素考虑,本系统不采用傅立叶变换来实现识别音频特性,而采用比较法取波形相似度等方式进行识别。

语音识别

上文中的信号经过模拟—数字转换器转换成为了数字信号,接入处理器的IO接口线程中,此时,读入的信号会通过地址总线和IO端口读入。因此在硬件上,我们使用中断程序来进行信号预处理。

软件方面中断程序部分,仅需要将读入的IO数据以数组形式存放入内存即可。

声音有三要素:音高、响度、音色。读入的信号即每个时间点的声音感受器震动位置,我们可以通过电流接入到压片陶瓷上来还原声音,而如果我们要去分析音频则需要对照三要素下手。

响度即声波数组中的数值高低,为了让声波数组中的响度和预存的响度相同,我们通过统计整段中有效波形能量数值和与预存数组的能量数值做比例处理,使得响度和预存数组相近。

音高即声音的频率,频率的定义是:单位时间内完成振动的次数,是描述振动物体往复运动频繁程度的量。通过声波数组寻找相邻两点是否为相反数,即可寻找到过0点次数得到频率。这时,时间段的频率即可求出,间接可得到整段声音的频率。

我们发现,对音高进行频率化处理,同样也需要对预存数组进行频率化处理。因此,尽管我们可以去频率化处理提高识别精度,但相比对音频直接做响度匹配,所谓黑盒操作更易于分析和匹配。

汉语是由声母和韵母组成的,通过五声韵母和声母匹配,即可收集有限个声源。用这些声源和预处理的声音进行匹配,即可得出每个字的读音。

上述的程序段只是匹配所需要的函数,在外部需要循环来赋给数组对应指针位置才能实现,在对比中,如何确定开头是一个难点。因此需要对音频数据的开头做识别。在本系统中,采用读取5个相邻数据,如果连续的峰值高于30且持续了超过25毫秒以上,则判定这个时间点为数据的开始。

在系统中,虽然我们采用了去除抖动的算法,但声音音响处理过后,也会丢失一些精度,此处的算法若提高精度,则需要在前期处理做根据香农采样定理计算低通信道的最高大码元传输速率,进而做精确的采样以及还原,同时滤波采用更先进的算法来实现,这里只实现采样而不做精细讨论。

人工分词

中文,全世界有近20亿的人在使用。然而,中文的语法是世界上无章可循的语法之一。古人云:“句读之不知,惑之不解”,想要用中文交流,就必须知道如何断句。这样,才能正常地和人交流,才能清晰地理解对方的意思。

欲断句,先断词。让计算机来执行控制,而计算机处理的却是整个词组。前面步骤已经讲述了如何将语音识别成一个个的单字,识别成一个个句子。但是中文并不像英文,说“我是一个学生”这句话的时候不会像“I am a student”这样中间有空格从而判断词组。这就需要我们对句子做一个特殊的处理——人工分词。

以“我是一个学生”为例,人类来理解这句话,他的意思就是“‘我’的职业属性是学生”。从这个例子可以看出,提取“是”这个动词为关键字,便可以将前后转变为赋值表达式的形式“我->职业=学生”。

优先提取出一句话的动词,是分词处理的关键。但并非每个动词都可以这样来操作,例如,“他鞠躬下台”,很明显“鞠躬”是个动词,“下台”也是一个动词;如果按照上文中所述,“他->鞠躬=下台”就会出问题。为了处理这个问题,我们引入现代汉语中及物动词和不及物动词的概念。将“鞠躬”、“下台”这种不及物动词和“打”、“吃”这样的及物动词分开。

当然,这需要字典来处理,借助现代科技的发展,一本电子版的现代汉语词典就可以解决这个问题,通过词库来查询每个词语的意思,从而抽离出动词。我们只需要设计不及物动词代表动作即可,这样就可以将信息存储成“他->动作=鞠躬&下台”。

若是英文,如此做便可以了。但上文说过,中文语法是世界上无章可循的语法之一。英文中设置了动词字典基本上就处理了大部分问题。可中文中会出现如下句子:“今天的比赛在大学生活动中心召开。”

人工模拟电脑来理解,副词可以修饰形容词、修饰动词,用副词来修饰试探:比赛可以“不比赛”不能“很比赛”,因此它不是形容词,而是动词,“我比赛你”这句话不通,因此是不及物动词;“活动”和“召开”也是同理,是不及物动词。因此这句话要理解成“今天->动作=比赛&活动&召开”。

但不能说“今天->动作=比赛&活动&召开”,很显然这句话真正的意思是“比赛->地点=大学生活动中心”。出现这个问题,核心原因就是计算机没有把“大学生活动中心”当作一个词,任何一本字典都不会去收录“大学生活动中心”这个词。

在中文分词中,中科天玑出品了一套中文分词系统架构,加载头文件"ICTCLAS50.h"可以用头文件定义的命令#pragma comment读取它所提供的数据库(lib,"ICTCLAS50.lib")

执行过该程序段后,会将分词结果以test.txt的形式保存在硬盘中。

结 语

做完人工分词,基本上也就实现了读取用户所要达到的目的。这套系统贯穿底层到软件层,如果有可能甚至需要设计到云端。虽然局部的测试没有出现严重的错误,但由于时间原因,并没有做综合测试。

其中的一些理论和实践衔接的地方还存在着不足,一些算法也存在着改进的空间,但这些问题终将在以后得到解决。也希望这套系统能在最后的实践和发展中真正用于生活,从而提供更好的生活体验,为人们体验生活、享受人生做出贡献。

基金项目:本文系北京市自然科学基金项目(4132009);北京市属高等学校高层次人才引进与培养计划项目(CIT&TCD201304120);北京市教委科技计划项目(KM201211232008)的研究成果。

(作者单位:北京信息科技大学自动化学院)

参考文献

何嘉. 基于遗传算法优化的中文分词研究[D].电子科技大学,2012.

赵培. 中文语音识别结果文本分类的研究与实现[D].大连理工大学,2008.

曹卫峰. 中文分词关键技术研究[D].南京理工大学,2009.

龙树全,赵正文,唐华. 中文分词算法概述[J]. 电脑知识与技术,2009,10:2605-2607.

刚. 图灵测试:哲学争论及历史地位[J]. 科学文化评论,2011,06:42-57.

谭超. 学习型中文语音识别系统研究及实现[J]. 电脑开发与应用,2012,04:35-37.

胡宝洁,赵忠文,曾峦,张永继. 图灵机和图灵测试[J]. 电脑知识与技术,2006,23:132-133.

陈淑芳. 基于51单片机的教学实验系统的设计与开发[D].中国海洋大学,2011.

张文国. 中文语音识别技术的发展现状与展望[J]. 上海微型计算机,1998,35:46.

语音识别系统范文3

语音识别ASR(Automatic Speech Recognition)系统的实用化研究是近十年语音识别研究的一个主要方向。近年来,消费类电子产品对低成本、高稳健性的语音识别片上系统的需求快速增加,语音识别系统大量地从实验室的PC平台转移到嵌入式设备中。

语音识别技术目前在嵌入式系统中的应用主要为语音命令控制,它使得原本需要手工操作的工作用语音就可以方便地完成。语音命令控制可广泛用于家电语音遥控、玩具、智能仪器及移动电话等便携设备中。使用语音作为人机交互的途径对于使用者来说是最自然的一种方式,同时设备的小型化也要求省略键盘以节省体积。

嵌入式设备通常针对特定应用而设计,只需要对几十个词的命令进行识别,属于小词汇量语音识别系统。因此在语音识别技术的要求不在于大词汇量和连续语音识别,而在于识别的准确性与稳健性。

对于嵌入式系统而言,还有许多其它因素需要考虑。首先是成本,由于成本的限制,一般使用定点DSP,有时甚至只能考虑使用MPU,这意味着算法的复杂度受到限制;其次,嵌入式系统对体积有严格的限制,这就需要一个高度集成的硬件平台,因此,SoC(System on Chip)开始在语音识别领域崭露头角。SoC结构的嵌入式系统大大减少了芯片数量,能够提供高集成度和相对低成本的解决方案,同时也使得系统的可靠性大为提高。

语音识别片上系统是系统级的集成芯片。它不只是把功能复杂的若干个数字逻辑电路放入同一个芯片,做成一个完整的单片数字系统,而且在芯片中还应包括其它类型的电子功能器件,如模拟器件(如ADC/DAC)和存储器。

笔者使用SoC芯片实现了一个稳定、可靠、高性能的嵌入式语音识别系统。包括一套全定点的DHMM和CHMM嵌入式语音识别算法和硬件系统。

1 硬件平台

本识别系统是在与Infineon公司合作开发的芯片UniSpeech上实现的。UniSpeech芯片是为语音信号处理开发的专用芯片,采用0.18μm工艺生产。它将双核(DSP+MCU)、存储器、模拟处理单元(ADC与DAC)集成在一个芯片中,构成了一种语音处理SoC芯片。这种芯片的设计思想主要是为语音识别和语音压缩编码领域提供一个低成本、高可靠性的硬件平台。

该芯片为语音识别算法提供了相应的存储量和运算能力。包括一个内存控制单元MMU(Memory Management Unit)和104KB的片上RAM。其DSP核为16位定点DSP,运算速度可达到约100MIPS.MCU核是8位增强型8051,每两个时钟周期为一个指令周期,其时钟频率可达到50MHz。

UniSpeech芯片集成了2路8kHz采样12bit精度的ADC和2路8kHz采样11bit的DAC,采样后的数据在芯片内部均按16bit格式保存和处理。对于语音识别领域,这样精度的ADC/DAC已经可以满足应用。ADC/DAC既可以由MCU核控制,也可以由DSP核控制。

2 嵌入式语音识别系统比较

以下就目前基于整词模型的语音识别的主要技术作一比较。

(1)基于DTW(Dynamic Time Warping)和模拟匹配技术的语音识别系统。目前,许多移动电话可以提供简单的语音识别功能,几乎都是甚至DTM和模板匹配技术。

DTW和模板匹配技术直接利用提取的语音特征作为模板,能较好地实现孤立词识别。由于DTW模版匹配的运算量不大,并且限于小词表,一般的应用领域孤立数码、简单命令集、地名或人名集的语音识别。为减少运算量大多数使用的特征是LPCC(Linear Predictive Cepstrum Coefficient)运算。

DTW和模板匹配技术的缺点是只对特定人语音识别有较好的识别性能,并且在使用前需要对所有词条进行训练。这一应用从20世纪90年代就进入成熟期。目前的努力方向是进一步降低成本、提高稳健性(采用双模板)和抗噪性能。

(2)基于隐含马尔科夫模型HMM(Hidden Markov Model)的识别算法。这是Rabiner等人在20世纪80年代引入语音识别领域的一种语音识别算法。该算法通过对大量语音数据进行数据统计,建立识别条的统计模型,然后从待识别语音中提取特征,与这些模型匹配,通过比较匹配分数以获得识别结果。通过大量的语音,就能够获得一个稳健的统计模型,能够适应实际语音中的各种突况。因此,HMM算法具有良好的识别性能和抗噪性能。

基于HMM技术的识别系统可用于非特定人,不需要用户事先训练。它的缺点在于统计模型的建立需要依赖一个较大的语音库。这在实际工作中占有很大的工作量。且模型所需要的存储量和匹配计算(包括特征矢量的输出概率计算)的运算量相对较大,通常需要具有一定容量SRAM的DSP才能完成。

在嵌入式语音识别系统中,由于成本和算法复杂度的限制,HMM算法特别CHMM(Continuous density HMM)算法尚未得到广泛的应用。

(3)人工神经网络ANN(Artificial Neural Network)。ANN在语音识别领域的应用是在20世纪80年代中后期发展起来的。其思想是用大量简单的处理单元并行连接构成一种信息处理系统。这种系统可以进行自我更新,且有高度的并行处理及容错能力,因而在认知任务中非常吸引人。但是ANN相对于模式匹配而言,在反映语音的动态特性上存在重大缺陷。单独使用ANN的系统识别性能不高,所以目前ANN通常在多阶段识别中与HMM算法配合使用。

3 基于HMM的语音识别系统

下面详细介绍基于HMM的语音识别系统。首先在UniSpeech芯片上实现了基于DHMM的识别系统,然后又在同一平台上实现了基于CHMM的识别系统。

3.1 前端处理

语音的前端处理主要包括对语音的采样、A/D变换、分帧、特片提取和端点检测。

模拟语音信号的数字化由A/D变换器实现。ADC集成在片内,它的采样频率固定为8kHz。

特征提取基于语音帧,即将语音信号分为有重叠的若干帧,对每一帧提取一次语音特片。由于语音特征的短时平稳性,帧长一般选取20ms左右。在分帧时,前一帧和后一帧的一部分是重叠的,用来体现相邻两帧数据之间的相关性,通常帧

移为帧长的1/2。对于本片上系统,为了方便做FFT,采用的帧长为256点(32ms),帧移为128点(16ms)。特征的选择需要综合考虑存储量的限制和识别性能的要求。在DHMM系统中,使用24维特征矢量,包括12维MFCC(Mel Frequency Cepstrum Coefficient)和12维一阶差分MFCC;在CHMM系统中,在DHMM系统的基础上增加了归一化能量、一阶差分能量和二阶差分能量3维特征,构成27维特征矢量。对MFCC和能量分别使用了倒谱均值减CMS(Cepstrum Mean Subtraction)和能量归一化ENM(Energy Normalization)的处理方法提高特征的稳健性。

3.2 声学模型

在HMM模型中,首先定义了一系列有限的状态S1…SN,系统在每一个离散时刻n只能处在这些状态当中的某一个Xn。在时间起点n=0时刻,系统依初始概率矢量π处在某一个状态中,即:

πi=P{X0=Si},i=1..N

以后的每一个时刻n,系统所处的状态Xn仅与前一时刻系统的状态有关,并且依转移概率矩阵A跳转,即:

系统在任何时刻n所处的状态Xn隐藏在系统内部,并不为外界所见,外界只能得到系统在该状态下提供的一个Rq空间随机观察矢量On。On的分布B称为输出概率矩阵,只取决于Xn所处状态:

Pxn=Si{On}=P{On|Si}

因为该系统的状态不为外界所见,因此称之为“稳含马尔科夫模型”,简称HMM。

在识别中使用的随机观察矢量就是从信号中提取的特征矢量。按照随机矢量Qn的概率分布形时,其概率密度函数一般使用混合高斯分布拟合。

其中,M为使用的混合高斯分布的阶数,Cm为各阶高期分布的加权系数。此时的HMM模型为连续HMM模型(Continuous density HMM),简称CHMM模型。在本识别系统中,采用整词模型,每个词条7个状态同,包括首尾各一个静音状态;每个状态使用7阶混合高斯分布拟合。CHMM识别流程如图1所示。

由于CHMM模型的复杂性,也可以假定On的分布是离散的。通常采用分裂式K-Mean算法得到码本,然后对提取的特征矢量根据码本做一次矢量量化VQ(Vector Quantization)。这样特征矢量的概率分布上就简化为一个离散的概率分布矩阵,此时的HMM模型称为离散HMM模型(Discrete density HMM),简称DHMM模型。本DHMM识别系统使用的码本大小为128。DHMM识别流程如图2所示。

DHMM虽然增加了矢量量化这一步骤,但是由于简化了模型的复杂度,从而减少了占用计算量最大的匹配计算。当然,这是以牺牲一定的识别性能为代价。

笔者先后自己的硬件平台上完成了基于DHMM和CHMM的识别系统。通过比较发现,对于嵌入式平台而言,实现CHMM识别系统的关键在于芯片有足够运算太多的增加。因为词条模型存储在ROM中,在匹配计算时是按条读取的。

3.3 识别性能

笔者使用自己的识别算法分别对11词的汉语数码和一个59词的命令词集作了实际识别测试,识别率非常令人满意,如表1所示。

表1 汉语数码识别率

DHMMCHMM特征矢量维数2427识别率93.40%98.28%识别速度(11词)10ms50ms模型大小(1个词条)1.5KB<5.5KB码本6KB无对于59词命令词集的识别,还增加了静音模型。由于基线的识别率已经很高,所以静音模型的加入对于识别率的进一步提高作用不大,如表2所示。但静音模型的加入可以降低对端点判断的依赖。这在实际使用中对系统的稳健性有很大的提高。

表2 59词命令词集识别率

浮 点定 点无静音模型98.59%98.28%有静音模型98.83%98.55%可以看到,在硬件能够支持的情况下,CHMM的识别率比DHMM有很大的提高,同时识别速度也完全可以满足使用要求。

语音识别系统范文4

关键词:语音识别系统 动态时间规整 嵌入式

中图分类号:TP3 文献标识码:A 文章编号:1674-098X(2014)03(b)-0071-01

随着有关于嵌入式系统的软件和硬件技术的进步,语音识别系统得到了全面的应用[1]。由于嵌入式系统受到各种软硬件的约束,该系统通常运行的是特定的任务[2,3]。所以开发者可以优化软硬件资源、减小规模、降低成本。但这对于语音识别系统的效率和准确度有了更高的要求[4]。DTW算法与HMM等算法相比较而言,针对小词汇量语音识别系统,其准确率与HMM等复杂算法几乎相同。

1 DTW算法

动态时间弯曲(Dynamic Time Warping,简称DTW)是把时间规整和距离测度结合起来的一种非线性规整技术。设:

(1)参考模板特征矢量序列为:c0,c1,…,cp;

(2)输入语音特征矢量序列为:d0,d1,...,,dq p≠q。

那么,DTW就是要计算函数D,从而使c和d之间的差别最小。

2 DTW在线并行算法

2.1 算法描述

DTW在线并行算法对于并行性的小词汇语音识别系统特别适用。此方法第一步对问题分解,然后在多个运算单元中单独的计算已知模式和未知模式之间的距离,并且对每个运算单元进行的计算分解。在DTW运算时要预先分配大小一定的内存。最后一步是将每一个单元的运算结果输入到决策模块,得到最终结论。

算法框图如图1所示,按照时间顺序将计算出的未知语音特征矢量输入到各个DTW流水线。然后由决策模块依据各个流水线的计算结果以及其他信息得出结论。但由于每个参考模式的长度不同,各条流水线的计算时间是不同的,因此每条DTW流水线会设置一个完成标志位Pi(1≤i≤N),依据这些完成标志,决策模块对已经完成计算的流水线结果进行处理。同时该算法还可以通过识别历史来提前终止没有完成的计算步骤。

2.2 算法分析

令特征矢量的维度为l,未知模式的长度为k,参考模式的个数为n,参考模式的总长度为p,局部判决函数的水平跨度为w,流水线条数为b。流水线的距离矩阵A的窗口平均大小为wn/p,令t为特征向量的数据类型所占的字节数,则OP-DTW算法所需的内存为wnt/p Byte。当b≥n时,算法所需时间为经典DTW的1/n;当b

3 结语

该文对一种DTW在线并行算法进行了分析,该算法相对减少了由于数据引起的等待时间;提高了DTW的并行度,并充分挖掘出硬件的计算功能,减少处理的时间。由于DTW的适用性,该算法适合一维非线性数据的匹配问题。

参考文献

[1] 林常志.基于统计的语音识别方法分析报告[R/OL].(2003-12-26)[2009-06-13].http:///data/林常志语音识技术报告.net.

[2] 李昱,林志谋,黄云鹰,等.基于短时能量和短时过零率的VAD算法及其FPGA实现[J].电子技术应用,2006,32(9):110-113.

语音识别系统范文5

关键词:玩具机器人 语音识别 语音定位

中图分类号:TP273 文献标识码:B 文章编号:1674-098X(2016)09(b)-0082-02

随着人们物质文化生活水平的提高,人们的消费水平越来越高。目前儿童玩具特别是智能玩具拥有一个很大的市场。智能玩具不仅能够满足儿童的好奇心、加强孩子和玩具的互动,而且可以激发儿童的求知欲[1]。智能玩具将计算机、电子、通讯等领域内的先进技术融合为一体,突破了传统玩具的局限性,赋予玩具“听”“说”功能,与人进行互动,寓知于乐,可使儿童在愉悦中学习、体会生活,真正达到寓教于乐的目的[2,3]。

1 总体设计方案

采用凌阳十六位单片机SPCE061A作为主控芯片,外接麦克到SPCE061A的声音输入模数转换通道,由单片机实现语音识别和声音定位,再利用SPCE061A的IO端口控制三级管的导通和关断,进而控制机器人的腿部、头部和飞碟电机,实现对机器人的动作控制,系统整体设计方案如图1所示。

语音识别语音信号输入:语音信号由该模块进入单片机后进行语音识别处理。声音定位信号输入:声音定位的语音信号经过转化,将模拟的声音信号转换为数字的高低电平,由I/O端口输入到SPCE061A。键盘输入控制:用于选择语音识别和声音定位模块,在语音识别模块下用于重新训练语音控制命令的按键。设有3个按键:KEY1-上电复位后用于选择语音识别模块;KEY2-上电复位后用于选择声音定位模块;KEY3-运行语音识别模块中用于选择重新训练语音控制命令。机器人控制:SPCE061A通过基本I/O口控制机器人的前进、后退、左转、右转和发射等。语音播放:在语音识别和声音定位中加入了语音播放,用来提示说话者训练语音控制命令、辨识后的应答和定位后的播放音源方位等。

2 系统模块设计

2.1 语音识别

该设计采用特定人识别方式,即语音样板由单个人训练,对训练人的语音命令识别准确率较高,而其他人的语音命令识别准确率较低或不识别[4]。识别电路如图2所示,麦克选用驻极体电容话筒,话筒的偏压由SPCE061A的VMIC管脚提供。

2.2 声音定位

由3个麦克M成声音定位的前端信号接收电路,3个麦克摆放成7 cm的等边三角形接收声音信号,每路麦克都经过相同的放大和整形将模拟的声音信号转化为数字高低电平输入到SPCE061A,在SPCE061A内识别三路麦克输入信号的相位差值,通过计算获取音源所在的方位。图3为单个声音信号接收及调理电路,图中R1、Q1形成一个恒流源,为麦克供应电流,U1A、C1、R2、R3形成一个放大电路,其中C1滤掉信号中的低频部分,R2/R3/U1A构成一个负反馈放大回路;C2、R4、R5、U1B形成一个过零比较电路。

2.3 机器人的电机驱动及控制电路

当单片机成功识别语音指令后,将对机器人的腿部、头部和飞碟发射装置进行运动控制,主要是通过IO口的输出实现对相应电机的控制。

2.3.1 腿部电机控制

图4为机器人的左腿电机M1的驱动电路,该驱动电路采用4个三极管Q1-Q4作为驱动,提升流过电机的电流,2个三极管Q5-Q6控制电机正反转。电机控制的端口接到了SPCE061A的IOB13和IOB14,只需要给IOB13高电平就可以控制其正转,左腿前进;给IOB14高电平就可以控制电机反转,左腿后退。

右腿的电机驱动和控制电路与左腿的完全相同,其电机控制的端口接到了SPCE061A的IOB11和IOB12,只需要给IOB12高电平就可以控制其正转,右腿前进;给IOB11高电平就可以控制电机反转,右腿后退。

2.3.2 头部电机控制

用于头部转动的电机驱动控制电路和左右腿的相同,其电机控制的端口接到了SPCE061A的IOB9和IOB10,只需要给IOB9高电平就可以控制电机正转,头部转向左方;给IOB10高电平就可以控制电机反转,头部转向右方。

2.3.3 发射飞碟电机控制

为增加玩具机器人的趣味性和互动性,设计中增加了机器人发射飞碟的功能。采用两个直流电机进行控制,由SPCE061A的IOB8和IOB15控制电机M4和M5,分别控制带动装置和加速装置,其中带动弹簧装置弹出飞碟,加速装置带动飞碟发射出来,驱动控制电路如图5所示。

3 结语

基于SPCE061A单片机开发的玩具机器人控制系统,由3个麦克摆放成边长为7 cm的等边三角形,采集声音信号并进行语音识别,根据识别的语音实现对机器人的动作控制。系统采用模块化设计方案,既能实现智能控制,又增加了互动性,达到了玩具机器人寓教于乐的效果。

参考文献

[1] 渠川钰,刘修泉.基于STC89C52单片机的斗牛玩具机器人研制[J].机电工程技术,2011,40(7):36-38.

[2] 杨宜民,李莹.智能玩具研发动态及思考[J].广东工业大学学报,2004,21(3):34-39.

语音识别系统范文6

在很多人看来,让计算机识别人类的语音并不是很困难,其实不然,因为每个人的发音都有自己的特点,即使是同一个人,在不同的环境,不同的心境下发音也是不同的。近些年来,随着科学技术的快速发展,电子信息产业发展更为全面,其中计算机系统的各方面功能不断强大,“语音识别”技术也取得了突破性进展,其应用范围也融入到各个领域。语音识别技术是以语音为研究对象,通过语音信号处理让机器自动识别和理解人类的语言,语音识别技术是一门涉及面很广的学科,与声学、语音学、语言学等都有着密切的联系。本文通过对我国语音识别技术的发展阶段及分类的介绍,并对电子信息产业中语音识别的应用进行了详细阐述,对于现代电子信息产业中语音识别应用存在的问题予以分析,力图为该领域研究人员抛砖引玉,推动行业发展。

关键词:语音识别;计算机应用;科技创新;信息产业

1. 我国语音识别技术的发展

语音识别最早是在1952年由贝尔研究所工作人员提出,他们研究了世界上第一个能够识别10个英文数字发音的试验系统,正式大规模的研究语音识别是在进入70年代后,在一些词汇上取得了实质性的进展,到了九十年代以后,语音识别技术在应用及产品化方面有的很大的进展。

如今在国际上语音识别已经从研究室走向生活应用,注重在实际环境下的语音识别建模,如语音增强和去噪等,现在语音识别更注重对语音信号中所蕴含信息的理解,语音识别从一个语言到多种语言甚至是混合语言的方向发展,语音识别应用产品方面也注意多种技术的组合,更贴近生活。

我国语音识别的研究较晚,起步于20世纪50年代,但是由于科技的不断创新以及国家对科学技术的重视,近些年来我国语音识别技术发展的相对较快,研究水平也从实验走向人们的生活。我国在1973年开始进行计算机语音识别,但由于环境所限制,当时的发展仍然很缓慢,进入80年代后,随着计算机等技术的普及,我国一些单位具备了研究语音技术的基本条件,恰好此时国际上对语音识别技术的研究重视并迅速发展,使得我国很多企业纷纷投入到语音识别的这项工作中去。1987年我国启动863计划,暨高科技发展计划,语音识别也因此作为智能计算机研究的重要组成部分。随着863计划的进行,我国开始有规划的对语音识别技术进行研究,并每两年召开一次语音识别的专题会议,从此我国语音识别技术进入一个新的发展阶段。中科院、清华大学、北京大学、上海交通大学等都对语音识别进行研究,其中最具代表性的为清华大学电子工程系与中科院自动化研究所模式识别国家重点实验室。

2. 语音识别技术的分类

语音识别系统通常根据说话者与识别系统的关联性、人的说话方式以及系统词汇量的大小进行区分。

从说话者与系统相关性考虑可以把系统分为三类:对专人语音进行识别也就是特定语音识别系统;识别与人无关的语音,但在这样通常需要有强大的数据库的支撑;语音识别系统可以识别一组人的声音,但是这种识别方式需要对所识别对象进行专业的训练。

根据识别对象不同或人的说话方式不同也可以把语音识别系统分成3类:孤立词语音识别,就是对识别已经知道的词语,每个词后都需要停顿,如“上车”等;连接词语音系统识别就是接连词输入,这样要求每个词语发音要清楚;连续语音识别,就是对连续语音进行输入,这样就是要识别一句话或者是一段话。

词汇量越大,识别难度越高,因此,如果需要进行识别的系统词汇量较为庞大,那么就需要尽可能提升计算机识别系统的精度,保证语音识别技术的准确率。

3. 电子信息产业中语音识别的应用

语音识别在信息领域的应用主要表现为人机交换形式,主要有以下几个方面:

(1)语音识别技术在计算机系统指令发送方面的应用。

Windows系统界面是大家再也熟悉不过的,虽然现在对电脑的操作并不陌生,但是一些隐藏的命令仍然有人不清楚,语音识别技术的应用使电脑逐渐的成为与人交流的伙伴,只要简单的几句话或者几个字就可以对Windows系统进行操作。。目前在国际上IBM公司对此已经有很成熟的产品,语音识别将慢慢的取代键盘和鼠标成为人与计算机交流的新的一种形式。

(2)语音识别技术与数据检索查询技术的科学融合。

语音识别技术与大量数据库检索和查询技术的结合让信息查询更为简单。例如图书馆的资料信息对来自用户的语音进行识别然后转化为响应的指令并得出结果。公司领导人也可以通过语音识别来表达自己的意思得到所需材料,这样更加便利。

(3)语音识别技术打破空间、地点限制,形成网上语音聊天。

网上交谈对于上网的人们应该已经不陌生了,刚开始的技术不是很成熟的时候,人们通过在语音聊天室进行聊天,但是对方看到的仅仅是文字,用户用话筒对计算机说话,然后计算机把你的语言转化为文字让对方看见,现在语音识别技术在网上聊天中已经算是成熟,大家可以登录一些聊天软件跟对方聊天,不仅仅限于文字的形式。

相对来说语音识别技术在商务和教育领域中用的比较广泛也较有前景。

3.1电子商务广泛应用语音识别技术。

随着计算机的普及以及科技的发展,电子商务已经融入人们的生活中,人们可以在家中就可以买到自己想要买的东西,电子商务与语音识别技术结合更是一种全新的交易方式。电话语音识别技术也是语音识别技术的一个创新,人们可以根据电话语音识别实现电话查询,自动接线以及一些日常业务等。

在商业领域中,语音识别技术可以改变整个商业的运作模式,使之创造出更大的利益和便利。

3.2幼儿教育、语言教育等领域广泛应用语音识别技术。

语音识别技术在教育领域中主要是帮助用户更好更方便的练习语言。以前人们只是通过简单的系统进行学习,无法正确的对比自己的发音,随着人们对语音识别技术的不断深入,现在学习语言的人可以通过跟计算机对话来比较自己的发音是否正确,当用户跟计算机对话后, 计算机会显示标准发音和用户发音之间的差异,使用户及时改正,使其更好的学习。现在语音识别技术也应用到幼儿教育产品中,帮助孩子学习语言并且激发孩子的学习兴趣。

一般的家电产品也被植入语音识别系统,用户只要发出一个命令,机器就能够理解,然后按照这个命令去执行,例如,当你在家想做饭的时候,也许仅仅几句话就可以让厨房里的烹饪工具自动的开始烹调美食;当你感到困乏的时候,房间里会想起音乐让你感到轻松,简单的说语音识别系统渐渐融入你的生活,让你的生活更加轻松,舒适。

4. 电子信息产业中语音识别所面临的问题

如今虽然对语音识别系统的研究走向成熟,但是语音识别系统还是存在一些问题。如对环境的挑剔,语音识别对环境的依赖性很强,现在的大多语音识别系统只能在安静的情况下进行,一旦环境不能满足语音识别系统则会导致发音失音等状况出现;还有由于汉语本身的特点,使得语音系统对识别汉语比西方语言更为困难和复杂,主要表现在汉语的同音字等。

在今后的科研中,语音识别系统将被更加广泛的应用,各种具有语音识别的产品也将渐渐在市场上出现,要出现与人想比拟的语音识别系统对现在来说是一个巨大的挑战,但是人们对语音识别系统的研究正在一步一步的前进。如今语音识别技术渐渐深入人们的生活,给人们带来更多的便利,语音识别技术也被很多专家认为是二十一世纪初信息技术领域重要科技发展技术之一。

参考文献:

[1] 刘幺和,宋庭新.语音识别与控制应用技术[M].科学出版社,2008.

[2] 张雪英.数字语音处理及MATLAB仿真[M].电子工业出版社,2010.

[3] 张雄伟.现代语音处理技术及应用[M].机械工业出版社,2003.

语音识别系统范文7

计算机语言伴随硬件,操作系统 及互联网的飞速发展也取得了很大进展。近十年以来,计算机语言已经由低级发展成高级,目前的高级语言已达几百种,并且还在持续变化和更新之中。因为每种语言都各具特色,人们可以有更多选择的机会选择适合自己任务类型的语言。本篇论文简要说明了语音技术的发展态势。

【关键词】计算机 应用 语音识别技术

识别技术是一种后续处理技术,主要利用某N识别装置,从识别装置与被识别物品间的活动对被识别物品信息进行自动获取,计算机处理系统接收到这些信息并且进行处理。比如在商场就有一种非常典型的自动识别技术,叫做条形码扫描系统。商场售货员利用扫描仪对商品的条码进行扫描,得到商品相关信息,如输入数量,名称和价格等,通过计算机后台POS系统能够得到这批商品的价格,进而与顾客完成结算工作。

1 计算机语音技术的发展进程

自五十年代起,研究人员大多对语音学和声学的基础理念比较关注。AT& T Bell 实验室在一九五二年设计了一个语音识别系统 ,这套系统实现了单一 发音人孤立发音的10个英文数字,主要方法是对每一个数字的元音音段的共振峰进行度量。RCA Lab在一九五六年进行了另外一个研究,希望对单一发音的十个不同音节进行识别,主要方法依然是度量共振峰法英国University College于一九五九年提出了另外一种设计思想,利用模板匹配与谱分析法对音素识别器进行构建,能够对九个辅音和四个元音进行识别。到了六十年代,又陆续出现了几种重要的设计理念语音识别。东京大学于一九六二年尝试应用了另外一种音素识别器,主要采取过零率方法把语音信号的各个部分分离开再识别。日本NEC Lab 在一九六三年最有进展的工作就是进行数字的语音识别,这项技术也是NEC语音识别技术的起源,并且制定了长期的研究计划,取得了不错的成果。三大研究项目在六十年代的推进,深刻影响了随后二十多年语音识别技术的开发和研究。首个研究项目起始于六十年代后期,是由RCA Lab展开的,重点针对语音事件在时间刻度上不均匀性进行研究。进而设计出时间归正的基本方法,这个方法的前提是可以准确对语音事件的始末点进行检测。

2 语音识别技术的发展态势

在全世界科学家的共同努力下,经过半个世纪以上的研究,现在语音识别技术已经越来越接近可应用阶段。能够识别大词汇量的朗读式连续说话的宽带语音信号,实际平均识别率已经超过了百分之九十,在识别率达到了实用要求后,语音识别技术已经逐渐从实验室演示系统阶段向着实用型商品转化。比如现在出现两的个听写系统,即IBM Via Voice 和Dragon Dictation 就应用了语音识别技术,大众逐步接受了语音识别技术,现在全社会都在关注这项技术。语音识别技术也有它的弱势,比如需要花费大量时间更正识别错误,校正语音等。与此同时,受到讲话习惯及应用环境等相关因素的影响,有些语音内容不太容易识别,识别内容的正确率达不到百分之百,所以,不少人觉得现有的语音识别系统与实用要求还有一定的差距。现在,两位专家AT&T 和MIT也在某些有限词汇的特殊任务中应用语音识别技术。比如识别数字串,电话查询及自动转接等任务,如果系统中已经存储了讲话的内容,并且训练数据声学特性与实际环境中的声学特性没有太大的差别时,语音识别几乎可以达到百分之百的正确率。不过,一旦这些条件在实际应用中被破坏了,将会影响到识别系统。

3 语音识别技术的发展进程

尽管在以往二十几年的时间里,语音识别技术的发展迅速,不过这项技术依然存在很多问题,需要深入探讨并加以解决,具体内容如下所示:

3.1 使可靠性提升

利用语音识别技术可以将不同声学环境因素造成的影响排除掉。有些公共环境非常嘈杂,人们会在潜意识里把不需要的声学环境因素排除掉,而对于语音识别系统来说几乎不可能做得到。再者,人类在日常 生活中的不确定性比较大,言语习惯和随意性很明显。这些问题都会严重影响语音识别系统的正确性。现在,为达到最理想的识别效果,增强语音系统 在不同环境中的可靠性,要设计智能化更高的语音识别系统 ,积极了解人类语言随意性的基本规律。

3.2 使词汇量加大

度量一个系统可以做什么事情,主要看它能够识别词汇的数量。当语音识别系统应用的语音和声学模型受到较大的约束时,如果用户讲述内容不在系统已知的范围之内时,语音识别系统对相关内容就无法准确的识别,例如,如果讲述的过程中突然转换成其他国家的语言,计算机就很难识别,会输出混乱的错误结果。不过,伴随持续改进的系统 建模方法,不断提高的搜索算法效率,不断发展的硬件资源,将来设计的语音识别系统有可能混合多种语言,并且具备无限的词汇量。

3.3 语音识别技术应用的拓展

语音识别技术能够将机器的机械化操作转变成趣味性十足的事情,并且还会带动功能更加便捷的设备的发展,人们的生活和工作变得更加方便。语音识别技术具有极为广泛的应用前景和范围。不但可以在日常生活中应用,还会产生生产方式的革命性改变,是未来实现智能化控制的前提。

3.4 使体积缩小,成本下降

语音识别技术应用的另外一个主要渠道是微型化。微型化推广的程度受语音识别技术自身进程的影响,与此同时又与微电子芯片技术的发展密切相关。在微小的模块或者芯片上固化功能先进的语音识别系统,能够大幅度降低产品的体积和成本,消费者将会更加青睐这样的产品,微电子芯片技术与语音识别系统的飞速发展将会为我们的信息技术带来创世纪的革命。

4 结语

总而言之,二十一世纪是互联网时代,在网络上能够实现一系列的人类活动,人类的各项活动在互联网上变得越来越便捷。随着语音识别系统 的发展,人们利用这项技术将实现更加自由的交流,使人们可以利用语音交互方式在任何地方和时间享受到大量的社会信息资源,享受到人性化体贴的服务。语音识别技术的研究和应用必将得到飞速的发展。

参考文献

[1]禹琳琳.语音识别技术及应用综述[J].现代电子技术,2013(13).

[2]王敏妲.语音识别技术的研究与发展[J].微型机与应用,2009(23).

[3]侯亚君.计算机语言识别技术应用的探究[J].电脑开发与应用,2014(03).

语音识别系统范文8

语音技术涉及到语音编码、语音合成、语音识别、语音技术应用等多个技术领域。目前,关于语音编码,国际标准化组织ISO和国际电信联盟ITU上已经制订了一系列的技术标准,分别应用在有线通信、移动通信、数字音响等领域。但是,关于语音合成与识别技术的标准还没有一个统一的规范,ISO和ITU在这些领域也没有颁布技术标准和规范。虽然有些标准化组织、研究机构和大公司提出了各自的技术规范草案,但是没有得到广泛的承认和支持。国际上,许多跨国公司,如IBM、Microsoft、AT&T、Naunce、Sun System等对语音技术的研究已经持续了多年,对制定语音技术领域的标准非常关心并积极参与,希望能把各自公司的研究成果纳入到技术规范和标准中去,以期在激烈的竞争中处于技术的制高点。现在,与互联网有关的语音技术应用领域,相关的国际语音标准发展迅速,形成了VoiceXML和SALT两大语音标准阵营,并各自都获得了广泛的支持。但是,对语音合成与识别的核心技术,如系统框架、接口规范等还没有统一的标准。本文不讨论语音编码的标准问题,而是对语音合成与识别领域的技术标准做一个初步的探讨。

语音技术标准的三个层面

虽然目前国际上还没有统一的、得到广泛承认和支持的语音合成与识别领域的技术标准,但是,这方面的研究工作发展迅速,近几年推出了许多研究成果,特别是W3C组织积极推动并了多个语音技术应用方面的规范或标准。例如, W3C了Voice Browser(语音浏览器)标准的草案。在这个标准中,Voice Browser标准(草案)定义了几种支持语音输入和输出的链接语言。这些链接语言使语音设备可以跨越各种硬件和软件平台,特别是设计了关于对话、语音识别语法、语音合成、自然语言语义和搜集可重复使用的对话组件的链接语言。这些链接语言和组件就构成了未来语音界面框架。现在,这个标准组中的参加成员有AT&T、Cisco、Hitachi、HP、IBM、Intel、 Lucent、Microsoft、Motorola、Nokia、Nortel、Sun和Unisys等公司。由于语音识别与合成技术还处在迅速发展阶段,制订出一套合适的技术标准很不容易。关于语音技术(除了语音编码)有关标准的制定工作主要集中在三个层面。

语音技术应用: 在这个层面上,主要规定在应用开发中如何使用语音合成与识别技术,即应用程序与语音合成/识别引擎之间的通信协议/语言,许多跨国公司积极参加了这个层面的规范与标准的起草、制订工作,例如,如IBM、AT&T、Naunce、Microsoft、Sun System等,推动并且形成了VoiceXML和SALT两大语音标准阵营。从开发者的角度看,这些标准都是面向应用系统开发用的。万维网联盟W3C主持了VoiceXML的起草和制定工作,并从2000年开始陆续了VoiceXML的多个版本,其中包括了语音识别语法规范和语音合成标记语言等。这些标准不仅使应用程序可以移植,而且还能够使语法相关联。VoiceXML 2.0是一种标记语言,用于建立话音界面,相当于带语音功能的HTML。现在已经有数百个大的厂商开发了基于VoiceXML的应用程序。SALT表示语音应用标记语言,它是在现有的标记语言,如在HTML、XHTML的基础上,增加了对语音和多媒体功能的支持而形成的。对语音应用,它主要关注的是如何通过电话得到语音服务。2002年,SALT联盟论坛了SALT技术规范的草案,并且把它提交给了W3C,希望能成为技术标准。参加和支持SALT技术规范的大公司包括: Cisco Systems Inc., Comverse Inc., Intel Corp., Microsoft Corp., Philips Speech Processing 以及 SpeechWorks International Inc.等。

语音识别/合成系统性能评测标准: 美国国家技术与标准研究所(NIST)主持了这个方面的工作。从20世纪90年代中期开始,NIST就开始组织语音识别/合成系统的性能评测工作。由于语音识别/合成系统的实现技术各种各样,对它们的评测实际上是相当困难的。20世纪90年代初期的时候,语音识别/合成系统大量推出,但往往出现下面的情况: 某个系统在推出时,声称该系统有很高的性能,但实际应用的时候其性能与宣传的差别很大。因此,NIST认为应制定出一套评价语音识别/合成系统的技术标准,让所有的语音识别/合成系统在这套评测标准下进行评估,以得到客观的性能评价指标。在该领域,NIST陆续制定了评价语音识别/合成系统的词错误率WER的计算规范,语言模型的复杂度的计算规范,训练和测试语料的选取,系统响应时间标准,合成语音自然度的评价规范,测试程序的规范等。近年来,NIST又制定了针对其它语种(如,汉语,日语等)的评价标准。NIST的评价标准迅速得到了语音识别/合成领域开发者的支持,越来越多的大公司积极参加NIST组织的评测活动,同时也推动了语音识别/合成技术的发展。国内的“863”智能人机接口专家组也开展了类似的工作,陆续制定了针对汉语语音识别与合成系统性能的评价规范。

语音识别/合成引擎及其开发接口: 在这个层面上还没有一个技术标准或规范被广泛承认和采纳。ISO、ITU、NIST、W3C等标准化组织都没有在该方面推出技术标准或规范。实际上,这方面的工作涉及到许多语音识别/合成系统的具体实现问题,而系统的实现方法千变万化,难以用一个统一的规范和标准来规范。虽然没有语音识别/合成引擎及其开发接口的统一的标准和规范,但一些开发厂商和研究机构还是制定了各自的规范,在各自的语音系统中得到了实现,并随着语音识别/合成系统的推出而。

IBM在其推出的语音识别与合成引擎ViaVoice中规定了开发接口,提供了几百个开发接口函数。Microsoft推出了基于它的语音识别与合成引擎开发语音应用的接口Speech SDK, 在其中也提供了类似的开发接口函数。但是,IBM和Microsoft的语音识别与合成引擎的实现细节没有公开,也没有提供这方面的技术规范。另外,美国的CMU大学、英国剑桥大学电子工程系的HTK开发组都了开放式的语音识别与合成引擎的源码以及相应的开发工具,它们的语音识别与合成引擎的实现方法纷纷被众多的开发者所借鉴,从而形成了业界很有影响的开发规范,但是,这些规范也不是标准。目前,有许多语音识别与合成引擎,但是没有提供实现的技术规范,因此,这些系统的实现和提供的接口只是遵守各自特殊的规定,没有规范化并得到广泛的应用。

中文语音技术标准现状

制订中文语音技术的有关标准,对促进中文语音技术应用、推动中文语音产业发展、增强民族软件核心竞争力均具有非常重要的意义。国家信息产业部、“863”专家组、国家技术监督局和国家信息标准化委员会分别于2001年、2002年、2003年召开了三届语音标准研讨会,并于2003年11月由信息产业部科技司正式下文成立了“中文语音交互技术标准工作组”。

“中文语音交互技术标准工作组”是由国内产、学、研、用等企事业单位以及大专院校等自愿联合组织、经信息产业部科技司批准成立的、组织开展中文语音交互领域技术标准制定和研究活动的非营利性技术工作组织。该工作组的主要工作任务是研究并制定与中文语音交互技术有关的数据交换格式、系统架构与接口、系统分类与评测及数据库格式与标注等方面的标准。目前,语音合成和语音识别通用标准已正式立项为国家标准,报批稿已经完成,多个产业相关的应用技术标准也正在制定之中。

国家“863”智能人机接口专家组在20世纪90年代中后期邀请国内的一些研究机构和大学制订了针对汉语语音识别与合成系统的评价规范,该评价规范应用到了历届对“863”支持的汉语语音识别与合成系统的评价过程中。如果从语音识别与合成技术标准的三个层面考察,国内在该领域的研究工作主要集中在系统性能的评价规范的制订上,至今还没有正式实施的国家标准。但是,随着国内的语音应用开发地迅速发展,没有一个统一的技术规范或标准会造成许多开发重复,资源浪费。

例如,如果语音识别与合成引擎支持媒体资源控制协议(MRCP), 语音应用开发者采用MRCP,IVR和语音识别与合成引擎开发厂商之间的专有用的连接器就不需要了。再如,随着语音技术和应用市场需求增大的同时,面临着复杂系统互联的问题。在系统的互联接口、内容交换数据格式等方面没有一个大家共同遵循的标准,其开发难度、维护难度和运营难度是非常巨大的; 没有一个大家共同遵循的标准,语音合成/识别引擎与电话设备、后台数据库、地理信息、无线定位等其他组成部分完成通信也是非常困难的,这些都成了阻碍语音应用大规模发展的绊脚石。因此,制订和研究汉语语音技术领域的标准已迫在眉睫。

技术标准的主要内容

为了适应网上语音浏览、语音信息检索、交互式语音应用的发展需求,语音识别与合成技术的标准制订工作的重点目前应该集中语音技术应用层面和语音识别/合成引擎及其开发接口上。这样的一个标准或规范必须是有代表性的,通用的,被广泛接受和采用的; 显然,制定一个这样的标准不能闭门造车,要有标准的使用机构或潜在的使用机构参与,还必须与国际上已有的类似的标准接轨,与国际上的标准化机构,如ISO、W3C、ITU等密切合作。值得注意的是,语音识别/合成的实现算法千差万别,该领域的标准或规范只能提供一个实现框架,没有必要对具体的实现算法和技术细节进行约束。另外,语音技术标准还应该与具体应用无关,与语音识别/合成引擎无关等。

如上所述,语音技术标准(除了语音编码)的制订工作主要集中在三个不同的层面上。这三个层面标准的内容分别是:

语音技术应用: 一般基于语音的应用都有如下图所示的架构(已简化)。

在这个层面上,语音技术标准的主要内容是: 规定语音输入、语音输出、识别结果、返回结果的格式和属性。语音输入和语音输出属于用户与语音信号处理引擎之间的交互过程,所以,这部分也包括语音用户界面的内容; 识别结果是语音信号处理引擎输出的结果,也是识别结果执行引擎的输入,识别的结果一般是文本或命令,如何将识别结果格式化是该层面的主要任务; 返回结果是识别结果执行引擎的输出,也是语音信号处理引擎的输入,经语音信号处理引擎处理后,以语音的方式返回给用户。为此,需要规定语音输出的参数格式,如韵律特征、重音特征和停顿等。制订这方面的标准内容还应该考虑汉语语言和语音结构的特殊性。现在已经的技术标准或规范主要是VoiceXML和SALT,它们都属于描述和规定语音技术应用的层面,都是基于标记语言的格式。

语音识别/合成系统性能评测标准: 在这个层面上,语音技术标准的主要内容是: 评价语音识别引擎的性能指标,主要包括: 词汇量大小、识别方式、词错误率WER、语言模型复杂度、响应时间、训练和测试语料等; 评价语音合成引擎的性能指标,主要包括: 词汇量、自然度、清晰度、测试语料等。虽然我们可以借鉴NIST在这方面的经验和标准,但是针对汉语语音识别/合成系统性能评测标准,我们不能照搬,必须考虑汉语的特点。

语音识别/合成引擎及其开发接口: 在这个层面上,语音技术标准的主要内容是: 规定语音识别引擎的输入/输出的格式,如输入语音的方式(已有的语音数据的输入/Mic语音输入)、语音数据的格式、语音特征向量的格式、控制参数的语义格式、输出是文本串的格式、拼音串的格式、音素串的格式等,提供给用户开发接口的函数名、入口/出口参数、功能描述等; 但是,语音识别引擎的实现细节不应该包含在此部分的标准内,如引擎应该包含哪些模块,使用什么样的语音特征向量,如何计算语音特征向量,如何建立模板,如何匹配计算等,都不应该加以约束,而允许开发者采用适当的算法实现。关于规定语音合成引擎,需要规定的是: 输入的格式,如纯文本/拼音、带有控制串的文本/拼音、控制串的语义格式描述、输出的格式、提供给用户开发接口的函数名、入口/出口参数、功能描述等; 但是,语音合成引擎的实现细节不应该包含在此部分的标准内,如引擎应该包含哪些模块,如何进行输入文本的分析,如何分词,采用什么样的合成基元和算法等,都不应该加以约束。关于这部分标准的内容,IBM和Microsoft语音识别/合成引擎开发文档提供了详细的开发接口函数的信息,而且功能基本相同,可以为制订语音识别/合成引擎开发接口提供参考。语音识别引擎开发工具包HTK详细描述了如何开发一个新的语音识别引擎,对制订该部分标准的内容也具有参考意义。

链接:推动技术标准制订

语音识别系统范文9

关键词:语音识别技术;计算机辅助语言;应用;综述

中图分类号:TP391.6 文献标识码:A 文章编号:1674-7712 (2014) 12-0000-02

随着全球化的发展,越来越多的人想掌握一门外语,而传统的语言教学已不能满足人们的这一需求。计算机辅助语言学习(Computer Assisted Language Learning,缩写CALL)伴随着这一时代背景应运而生。CALL是在一定的语言学和心理学的理论基础之上,利用计算机技术和信息技术辅助、推进语言学习。目前,许多CALL学习软件大多是把各类资料集成在一起,基本上不能对学习者给出有效的反馈信息。语音识别技术的应用使得CALL系统可以具有发音评测的功能,能够帮助学习者及时发现和纠正错误发音,避免重复错误发音形成习惯,从而极大提高了学习者的学习效率。

一、计算机辅助语言学习(CALL)及其特点

(一)计算机辅助语言学习(CALL)简介

语言作为我们的日常交流工具,在经济全球化发展的今天,它的社会功能也越来越凸显。随着国际交流的日益频繁,越来越多的人想掌握一门第二语言,语言学习也成为了教育领域的一大热点。

语言学习的直接目的就是提高学生的交际能力,而这一能力最直接的体现就是口语表达。传统的师生教学是语言学习的主要方式,在这种教学方式下口语的教学主要是采用教师讲解发音方式和发音演示,学生跟读训练的方法。可以说这样的学习方式在口语学习中是至关重要且卓有成效的,但却是不够的。随着计算机技术和信息技术的迅猛发展,CALL已成为当今外语教学发展的一个新趋势。作为一种新的学习方式,它主要是在一定的语言学和心理学的理论基础之上,利用计算机和信息技术辅助和推进外语的教学。

CALL是外语学习的新趋势,它在中国的应用已经有近20年的历史,但直到多媒体技术的出现,它才真正进入外语教学的课堂。可以预见CALL作为一种教育技术在教学中的运用是外语学习发展的必然趋势。

(二)计算机辅助语言学习(CALL)的应用及其特点

CALL始于二十世纪五十年代的美国,在语言教学中的应用始于二十世纪六十年代。其发展大致经历了行为主义阶段、交际法阶段、综合法阶段[1]。

1.行为主义阶段(Behavioristic CALL)

60年代,当时的应用主要为CAI(Computer-Aided Instruction)课件(courseware)的开发与利用,课件以行为主义(behaviorism)为理论基础。按照该理论,斯金纳设计了便于及时强化的程序教学机器和便于进行程序教学的程序[2]。程序教学主张把教学目标和内容分解成很小的单元,按照严格的逻辑顺序编制程序,将教学信息转换成一系列问题与答案,电脑呈现一个问题(S),学生提供一个答案(R),答对给予奖励,答错给予惩罚,奖励或惩罚紧随反应之后,这样通过一步步地强化使学生掌握教学内容,最终达到预期的目标。

这时CALL软件的特点是:计算机仅作为提供素材和指令的工具,将各知识点以固定方式组织起来;允许学生根据自己的步调自定学习进度和速度,但学习过程完全由计算机程序控制;计算机向学生提供大量的练习,练习的答案往往是唯一的,学生的回答没有自主性和灵活性。

2.交际法阶段(Communicative CALL)

20世纪80年代,计算机的功能大大加强,微机(microcomputer,或称个人电脑 personal computer)开始应用于教育。CAI课件的设计原则转向以认知心理学为主导,强调学习者的心理特征和认知规律,遵循认知的信息加工理论,把学习看作是学习者根据自己的态度、兴趣、爱好和需要,利用原有的认知结构,对当前外部刺激所提供的信息做出主动、有选择的信息加工。这一时期CALL软件的代表是著名学者安德逊(Aderson)根据认知学习理论,研制出的”高中几何智能辅助教学系统”,它实现了对学生求解几何问题思维过程的自动跟踪和控制。

这一时期CALL软件的特点是:计算机能够根据学习者的需求和特点进行个别教学,但由于心理学对人类学习规律认识不全面和人工智能技术的发展不成熟,CALL软件离个别化教学还有一段距离。

3.综合法阶段(Integrative CALL)

80年代后期并持续至今,多媒体技术与网络技术取得突破性发展,尤其是因特网的出现及其迅猛发展不仅改变了传统的生产方式、生活方式和思维方式,也改变了人们的教育观念和学习方式,引起了一场教育革命。

同时期崛起的建构主义(constructivism)学习理论成为这场教育革命中革新传统教学的理论基础。建构主义学习理论与认知语言学、社会语言学、第二语言习得的理论等构成综合法的理论基础。其中社会语言学的影响尤为明显,它强调在语言学习中要为学生提供真实的社会交际,使他们能够掌握社会所需要的语言技能(Warshauer&Meskill,1998)。而实现这一目的的最好方法是使学生参与有意义的任务型学习(task-based learning)。通过专题学习(thematic learning)、项目型学习(project-based learning)、协作式学习(collaborative learning)、跨文化学习(cross-cultural learning)等多种方法,在兼学知识、文化的同时学习语言。

这一时期CALL软件的特点是:(1)计算机作为认知工具、情感交流及协作学习工具,起到导师、伙伴的作用;(2)提倡为外语学习创造真实的情境,开展有意义的、有创造性的语言交际活动;(3)提倡将语言的学习与计算机技能的学习及使用结合起来,培养学生具有21世纪网络时代所需要的外语交际能力(Warshauer,1996;Warshauer,Shetzer,&Meloni,2000)。

由此可以看出,CALL经历的三个阶段伴随着教育学、心理学、计算机技术和信息技术的发展而发展,CALL系统的设计也向着交互性、个性化、针对性和创造性的方向发展。

二、语音识别技术在CALL系统的应用

(一)语音识别技术简介

语音识别技术,也被称为自动语音识别技术(Automatic Speech Recognition,ASR),其目标是让机器也能够像人一样具有听觉功能,直接接受人的语言,能理解人的意图,并做出相应的反应。

最早的基于电子计算机的语音识别系统是50年代由AT&T贝尔实验室开发的Audrey语音识别系统,它能够识别10个英文数字[3];60和70年代,线性预测编码(Linear Predictive Coding LPC)及动态时间规整(Dynamic Time Warp DTW)技术的提出有效的解决了语音信号的特征提取和不等长的匹配问题[4],实现了特定人孤立词语音识别系统;80年代和90年代,隐马尔科夫(HMM)模型和人工神经元网络(ANN)的成功应用,使得语音识别系统的性能比以往更优异,实现了大词汇量、连续语音和非特定人的语音识别。随着多媒体时代的到来,语音识别技术逐渐从实验室走向应用,其代表有:Via Voice、Whisper、Voice Tone、Voice Action、Siri等。

21世纪,互联网和移动通信技术的发展给语音识别带来了新的契机,语音识别应用已经延伸到各个方面,如通讯领域、计算机语音检索系统、自动化控制等。语音识别技术已经成为一个具有竞争性的新兴高技术产业,是一门既有理论价值又有实际意义的重要学科。

(二)语音识别技术的基本原理

从技术上看,语音识别属于模式识别的范畴,其系统结构与模式识别具有相似之处。不同的语音识别系统在具体实现细节上有所不同,但所采用的原理基本是相似的。首先要对输入的语音信号进行预处理,并抽取所需的语音特征,在此基础上建立语音识别所需的语音模板。在识别过程中,将输入的语音信号的特征与己存在的语音模板进行比较,并根据一定的搜索,找出最优的与输入的语音相匹配的模板。最后,给出计算机的识别结果。其识别过程如图1:

图1

(三)语音识别技术在CALL中的应用

随着计算机技术和信息技术的发展,CALL已成为现代教育技术在教育领域一个重要应用。但最初的CALL主要应用在文字阅读和语言理解能力的训练,现存的CALL系统也大多侧重单词、语法的学习[5],很少关注语言发音训练。语音技术的不断发展和成熟为学习者发音练习提供了可能,它在CALL中最直接的应用就是帮助用户更好地练习语言发音。

CALL中引入语音识别技术,改变了传统的语言学习方式,使得学习者能够对自己的发音做出客观的评价。基于语音识别技术的CALL已成为计算机辅助语言学习系统研究的热点,不少公司和科研机构也投入了大量的人力、物力、财力在研究开发相关的发音学习系统,并且出现了一些较为成熟的产品。如“Pronunciation”、“Tell Me More”等,这些系统采用提供语音信号波形图的方式让学习者进行模仿,这种方式只是给学习者技术上的冲击感,对改善他们的发音并没有实际的帮助。国内许多英语学习软件都是把各类英语资料(文本、图片、音频、视频)累积在一起,基本上不能对学习者给出有效的反馈信息,即便加入了语音识别功能,其功能类似于复读机,即只能给学习者提供发音演示、录音跟读的功能,如“说宝堂”、“e百分”等产品。由于很少有软件会对学习者的发音做出一个整体的评分,也不能准确定位和检测学习者的发音错误,更没有对学习者的错误发音做出一个反馈和矫正,加之学习者因为自身水平限制,很难完全发现错误、纠正不正确的发音。故此,软件发音错误矫正的功能显得尤为重要。基于语音识别技术的CALL系统对于语言学习者来说是一个有效的辅助语言学习的平台,为了有效的促进语言学习,它应该具备如图2所示的功能。

图2

通过分析我们可以发现,目前语音识别技术在CALL中的应用取得了一些进展,但是仍然有一些问题等待解决和克服。目前的一些困难和问题主要集中在产品设计理念和技术实现上两个方面。

在产品设计理念上我们需要考虑以下几个问题:(1)教育软件的设计和开发应该应考虑学习者的需求,以学习者为中心;(2)教育软件的设计应该考虑教育学和教育心理学的相关理论,避免书本知识的搬家;(3)考虑学习者认知的个体差异性,为学生提供多元化学习的认知工具。

在技术实现上我们需要考虑以下几个问题:(1)选择合适的识别基元以提高识别率;(2)对语音信号的端点更加精确的检测,即判断语音信号的开始和结尾以提高识别的准确率;(3)对给定的发音进行错误检测和纠正,寻找合理的评分机制,并对学习者的发音进行及时、客观的反馈;(4)提高预处理阶段语音信号的信噪比;(5)选择高效的识别算法以减少识别时的搜索范围,提高识别速度。

四、结束语

本文分别介绍了语音识别技术和CALL,然后对语音识别技术在CALL中的应用进行了综述,并探讨了设计基于语音识别技术的CALL系统时需要考虑的问题。语音识别技术作为一种逐渐成熟的技术,它是基于语音识别技术的CALL系统的基础与核心。基于语音识别技术的CALL是一种新的、有效的学习方式,它能够有效的促进学习者口语水平的提高,也是CALL系统的一个重要发展方向。

参考文献:

[1]杨芳,曹扬波.计算机辅助语言学习的发展与前景[J].中国科技信息,2011(02).

[2]何克抗,李文光.教育技术学[M].北京:北京师范大学出版社,2009.

[3]詹新明,黄南山,杨灿.语音识别技术研究进展[J].现代计算机,2008(09).

[4]马莉,党幼云.特定人孤立词语音识别系统的仿真与分析[J].西安工程科技学院学报,2007(06).