HI,欢迎来到好期刊网,发表咨询:400-888-9411 订阅咨询:400-888-1571证券代码(211862)

语音识别技术集锦9篇

时间:2023-03-24 15:09:17

语音识别技术

语音识别技术范文1

关键词:语音识别;信息技术;发展趋势

中图分类号:TP391.42 文献标识码:A 文章编号:1007-9599 (2012) 19-0000-02

近年来,随着科学技术的进步,语音识别技术的发展,通过语言操纵机器的梦想正在逐步变为现实。语音识别是语音信号处理的一个重要的研究方向,经过50多年的积累研究,尤其是近20年来,语音识别技术取得了显著进步,并且广泛应用于商业,比如苹果的siri系统。本文从语音识别的发展历史、发展方向来着重分析未来语音识别技术的发展趋势。

1 语音识别技术的发展历史

1.1 语音识别技术在国际的发展

早在三四十年前,美国的一些大学和实验室就开始了语音识别技术的研究,50年代的AT& T Bell实验室研发的Audry系统第一个实现了可识别十个英文数字。60和70年代,提出了线性预测分析技术(LP)等相关理论并深入研究,创造出可以实现特定人孤立语音识别系统;80年代和90年代是语音识别技术应用研究方向的高潮,HMM模型和人工神经元网络(ANN)的成功应用,使得语音识别系统的性能比以往更优异;伴随着多媒体时代的来临,微软,Apple等著名公司都研发出相当成功的商业应用语音识别系统,比如,Apple的Siri系统,微软的Phone Query (电话语音识别)引擎等。

1.2 语音识别技术在国内的发展

我国的语音识别研究工作虽然起步较晚,但由于国家的重视,研究工作进展顺利,相关研究紧跟国际水平。由于中国有不可忽视的庞大市场,国外对中国的语音识别技术也非常重视,汉语语音语义的特殊性也使得中文语音识别技术的研究更具有挑战。但是,国内研究机构在进行理论研究的同时,应注重语音识别系统在商业中的应用,加快从实验室演示系统到商品的转化。

现如今,许多用户已经能享受到语音识别技术带来的方便,比如智能手机的语音操作等。但是,这与实现真正的人机交流还有相当遥远的距离。目前,计算机对用户语音的识别程度不高,人机交互上还存在一定的问题,语音识别技术还有很长的一段路要走,必须取得突破性的进展,才能做到更好的商业应用,这也是未来语音识别技术的发展方向。

2 语音识别技术的技术实现及困难

语音识别技术的实现方式是声音通过转换装置进入机器,而机器配有“语音辨识”程序,程序将得到的声音样本与数据库存储的样本进行比对,输出最匹配的结果,转化为机器语言,进而执行命令。真正建立辨识率高的语音辨识程序组,是非常困难而专业的,专家学者们研究出许多破解这个问题的方法,如傅立叶转换、倒频谱参数等,使目前的语音辨识系统已达到一个可接受的程度,并具有较高辨识度。

2.1 语音识别的技术实现方式

语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面,其中,最基础的就是语音识别单元的选取。

(1)语音识别单元的选取。语音识别研究的基础是选择语音识别单元。语音识别单元有单词(句)、音节和音素三种,具体选择哪一种语音识别单元由具体研究任务的类型决定:

单词(句)单元在中小词汇语音识别系统中应用广泛,但由于模型库过于庞大,模型匹配算法复杂,实时性不强,所以不适合大词汇系统;

音节单元主要应用于汉语语音识别,因为汉语是单音节结构的语言,虽然有大约1300个音节,但无调音节共408个,相对较少,所以音节单元在中、大词汇量的汉语语音识别系统上是可行的。

音素单元之前曾广泛应用于英语语音识别,也越来越多的应用于中、大词汇量汉语语音识别系统中。原因在于汉语音节仅由22个声母和28个韵母构成,把声母细化,虽然增加了模型数量,但是提高了易混淆音节的区分能力

(2)特征参数提取技术。特征提取就是对语音信号进行分析处理,把丰富的语音信息中的冗余信息去除,获得对语音识别有用的信息。这是一个对语音信号进行信息压缩的过程,目前经常采用的特征参数提取技术是线性预测(LP)分析技术。基于LP技术提取的倒谱参数再加上Mel参数和基于感知线性预测(PLP)分析提取的感知线性预测倒谱对人耳处理声音的模拟,进一步提高了语音识别系统的性能。

(3)模式匹配及模型训练技术。早期的语音识别应用的模式匹配和模型训练技术是动态时间归正技术(DTW),它在孤立词语音识别中获得了良好性能,但是由于对大词汇量以及连续语音识别的不准确,目前已经被隐马尔可夫模型(HMM)和人工神经元网络(ANN)所取代。

2.2 语音识别遇到的困难

目前,语音识别研究工作进展缓慢,困难具体表现在:

(一)语音识别系统对环境敏感,采集到的语音训练系统只能应用于与之对应的环境,而且当用户输入错误时不能正确响应,应用起来相对困难;(二)必须采取新的新号处理方法来处理人在高噪声环境下的发音变化的问题;(三)语言模型、语法及词法模型在中、大词汇量连续语音识别中无法正确、合理的运用,需要有效地利用语言学、心理学及生理学等方面的研究成果;现阶段的科学技术对人类生理学诸如听觉系统分析理解功能、大脑神经系统的控制功能等还不够,更无法应用于语音识别;语音识别系统从实验室演示系统向商品的转化过程中还有许多具体细节技术问题需要解决。

3 语音识别技术的发展趋势

3.1 进一步提高可靠性

目前语音识别系统很难做到排除各种声学环境因素的影响,而人类语言在日常生活中的随意性和不确定性给语音识别系统造成极大的识别困难。所以,要应用现代技术智能化语音识别系统,以达到更好的识别效果;

3.2 增加词汇量

目前语音识别系统使用的声学模型和语音模型过于局限,需要通过改进系统建模方法、提高搜索算法的效率来做到词汇量无限制和多重语言混合,减少词汇量对语音识别系统的限制;

3.3 微型化并降低成本

语音识别系统在商业上的用途相当广泛,利用先进的微电子技术,将具有先进功能和性能的语音识别应用系统固化到更加微小的芯片或模块上,可以缩减成本,更方便的推广和使用。语音识别系统和微电子芯片技术的发展将引领信息技术革命到一个新的台阶。语音识别系统使人沟通更加自由,使人可以方便地享受到更多的社会信息资源和现代化服务。这必然会成为语音识别技术研究和应用的重要发展趋势。

4 结束语

21世纪,信息和网络飞速发展,信息和网络的时代已经来临,人与人之间的距离随着Internet和移动电话网的连接和普及变得越来越近,信息资源扩散的越来越迅速,人与机器的交互显得尤为重要。语音识别技术的研究和应用可以让人无论何时何地都可以通过语音交互的方式实现任何事,可以使人更方便的享受更多的社会信息资源和现代化服务,所以,如何将这一技术可靠的、低成本的应用于商业和日常生活,是语音识别技术的发展方向和趋势。

参考文献:

[1]刘钰.语音识别技术概述[J].计算机光盘软件与应用,2010:14-17.

[2]盛青.语音自动识别技术及其软件实时实现[J].西北工业大学,2001:45-47.

[3]廖锎.浅析语音识别技术的发展及趋势[J].科技传播,2010:34-36.

[4]陈方,高升.语音识别技术及发展.CIO时代论坛,2009:67.

语音识别技术范文2

关键词:语音识别过程;动态时间规整;隐马尔科夫模型;人工神经网络;语音识别的应用

中图分类号:TN912.34

1 语音识别技术基本原理及过程介绍

语音识别系统由语音信号预处理、特征提取、模式匹配三部分构成。第一步预处理,主要有A/D变换、预加重和端点检测部分。经过预处理之后的语音信号,要进行第二步特征提取,该过程就是在原始语音信号中提取出所需要的特征参数,从而得到特征矢量序列,特征提取完成后,接下来就是语音识别的核心,也就是第三步模式匹配,也就是模式识别。系统框图如下[1]。

图1 一般语音识别系统框图

2 语音识别方法

目前,主要的语音识别方法主要有特征参数匹配法、隐马尔可夫法和人工神经网络法。

2.1 动态时间规整

动态时间规整(DTW)是早期的模式匹配方法。由于语音信号是一种随机性非常大的信号,例如相同的字,不同人说时的发音会不同,时间长短也会不同,即便是同一个人说相同的语句,发音结果也会不同,于是,在模式匹配时,要识别字词的时间轴将不断扭曲,以测试模板与参考模板对齐。DTW是一个比较典型的优化问题,它用满足一定条件的时间规整函数W(n)描述测试模板和参考模板的时间对应关系,求解两模板匹配时累计距离最小所对应的规整函数。动态时间规整也存在一些问题,它的计算量大,比较适合同一个人说话语音的识别,而且不能对样本做动态训练,语音信号的时序动态特性并没有很好地利用,所以DTW多用于孤立字词的识别。

2.2 隐马尔可夫模型

隐马尔可夫模型(HMM)是一种统计模型,用来描述随机过程的统计特性。它是由马尔可夫链演变来的。[2]

HMM可用三元组表示:λ=(π,A,B)

A:状态转移概率的集合。

B:观察概率的集合,表示每个状态输出相应观察值的概率。

π:系统初始状态的集合。

这三个元素π,A,B可以分为由π、A描述的Markov链和由B描述的随机过程。

HMM是一种理想的语音信号模型,如今,连续语音识别,非特定人识别系统大多是基于HMM模型的。HMM是对语音序列的时间序列结构建立统计模型的,HMM是数学上的双重随机过程:一个是具有有限状态数的Markov链来模拟语音信号统计特性变化的隐含的随机过程,另一个是与Markov链的每一个状态相关联的观测序列的随机过程[3]。

尽管马尔可夫模型是一种理想的语音信号模型,但是它还有很多不足。HMM有三个不现实的重要假设,假设一“状态转移的Markov假设”:系统在当前时刻的状态向下一时刻所处的状态转移的状态转移概率仅仅与当前时刻的状态有关,而与以前的状态无关。假设二“不动性假设”:状态与具体时间无关。假设三“输出值的Markov假设”:输出仅与当前状态有关。这三个假设之所以不合理,是因为任一时刻出现的观测值的概率不仅是依赖于系统当前所处的状态,也可能依赖于系统之前时刻所处的状态[4]。

2.3 人工神经网络

人工神经网络(ANN)是在模拟人脑神经组织的基础上发展起来的全新计算机系统。ANN是模拟人类思维中“信息的处理是通过神经元之间同时相互作用的动态过程来完成思维”。ANN是一种非线性动力学系统,它的特点在于信息的分布式储存和并行协同处理。单个神经元的结构简单,但是大量的神经元所构成的神经网络却是一种复杂的网络。ANN更接近于人的认知过程。人工神经网络也存在一些不足,它的训练、识别时间较长、动态时间规整能力较弱并且不容易实现。

3 语音识别的应用和前景

如今的科技领域,几乎每天都有新的技术,新的研究成果出现,而语音识别也是这科技研究的一热门领域,也应用到了人类生活的方方面面。

语音识别的应用非常广泛,语音输入技术的出现,可以使人们通过说话,而非手动输入来作出正确的响应,这样使输入变的更加简单,提高了工作学习的效率。语音识别技术可以应用于汽车,可以使驾驶员用语音指令操纵车载设备,提高汽车驾驶的安全性和舒适性。将语音识别、语言理解与大量的数据库检索和查询技术相结合,就能够实现更轻松的信息查询方式。比如,图书馆的资料信息将能够对来自用户的语音输入进行理解,并将它转化为相应的指令,从数据库中获取结果并返回给用户。这种技术同样可以运用于银行服务、医疗服务等方面。语音识别技术还可以应用于口语翻译,例如,可以让与聋哑人对话的对方带上一个智能语音识别的微型摄像装置,或者给聋哑人带上一种特制的手套,然后,就可以通过语音合成技术和语音识别技术将手语翻译成声音语言,同时,系统还能够完成将正常人的语言翻译成聋哑人的手语,这种口语翻译一种语音输入翻译为另一种语言的语音输出。除此之外,语音识别在军事,航空等领域也有广阔的应用空间。语音识别将不断发展,不断丰富人类的生活。

参考文献:

[1]赵力.语音信号处理第2版[M].北京.机械工程出版社,2009(05).

[2]何彦斌,杨志义,马荟.一种基于HMM的场景识别方法[J].计算机科学,2011(04):254-256.

[3]吕云芳,基于模板匹配法的语音识别系统研究与基本实现[D].天津:河北工业大学,2005.

[4]刘云中,林亚平,陈治平.基于隐马尔可夫模型的文本信息抽取[J].系统仿真学报,2004(03):507-510.

语音识别技术范文3

【关键词】语音识别技术;语言实验室

语音识别技术是使用计算机能识别和理解的语言,把语音信号转变为相应的文本或命令的过程。语音识别是一门涉及到语音语言学、信号处理、模式识别、人工智能的多学科交叉技术,也是2000年至2010年间信息技术领域十大重要的科技发展技术之一。随着语音识别技术的发展,在传统的数字化语言实验室中其可以作为一种新的外语辅助教学的手段,完善现有的数字化语音室的功能。

一、语音识别技术

语音识别技术是一种让计算机能够听懂人的语音命令的技术。对使用者来说,这种人机交互的途径是最自然的一种方式。早在三四十年前,美国的一些大学和实验室就开始了语音识别技术的研究,50年代的AT&T Bell实验室研发的Audry系统第一个实现了可识别十个英文数字。60和70年代,提出了线性预测分析技术(LP)等相关理论并深入研究,创造出可以实现特定人孤立语音识别系统;80 年代和90年代是语音识别技术应用研究方向的高潮,HMM 模型和人工神经元网络(ANN)的成功应用,使得语音识别系统的性能比以往更优异;伴随着多媒体时代的来临,微软,Apple 等著名公司都研发出相当成功的商业应用语音识别系统,比如,Apple的Siri系统,微软的Phone Query(电话语音识别)引擎等。近二三十年来,语音识别在交通、军事、工业、医学等诸多方面,特别是在计算机、通信与电子系统、信息处理、自动控制等领域中有着非常广泛的应用。目前,语音识别技术产品在人机交互应用中己经占到越来越大的比例。例如,在声控应用中,计算机可识别输入的语音内容,并根据内容来执行相应的动作,这包括了声控语音拨号系统、声控智能玩具、医疗服务、宾馆服务、家庭服务、股票查询服务和工业控制等。也可用于基于微型机的办公、教学、娱乐等智能多媒体软件,如语言学习、教学软件、语音玩具、语音书籍等。语音识别技术作为语音控制的主体,在应用领域中正成为一个具有竞争力的技术。

语音识别的开发平台现已逐步成熟,在windows下有微软的SAPI语音识别开发平台,在Unix/Linux下有IBM的ViaVoice和开源的Xvoice开发平台。它们都是相当优秀音识别开发系统,提供了良好的开发接口,使语音识别应用程序开发能够不需要对现有系统做大规模的修改,以较少投入、较短周期、以组件方式加入到当前的语言实验室中。

二、语音识别技术在语言实验室中的应用

1.有声图书

可以将一些由外籍专家录制的有声图书加入到语言实验室的资料库中。标准的美式或英式发音,结合文本,逐字逐句的朗读,让学生可以在阅读英语图书的同时聆听到原汁原味的英语。所有图书都支持自动播放,可以一次听完整本书,学生也可以选择单独播放某个句子,并鼓励学生模仿标准的语音语调朗读图书。从而对学生的阅读、听力、口语进行全方位的提高。

2.口述作文

影响语音识别系统辅助学生口述作文的最为关键技术是识别率和纠错能力,从某种意义上说,只要这两个关键的技术得到了提高,则其辅助写作的有效性就会得到较大提高。近几年,随着多媒体技术和人工智能技术的进步,不仅语音识别系统的识别率得到很大提高,而且多语言的语音识别产品也大为丰富。目前国际商业机器(IBM)公司推出的语音识别软件具有非特定人,无限词汇量,连续语音识别,高识别率,专业文章智能分析、理解等强大的语音功能。该软件通过对个人话语进行测试与分析来适应说话者,适应后的语音识别正确率可以达到95%以上。与过去相比,其识别率提高了很多,已经完全可以接受。语音识别系统除了识别率目前已有很大提高,其智能纠错能力也大为提高。一是纠错的操作更加方便和容易,目前的语音识别系统,可以有三种纠错方式:①通过键盘输入方式;②系统智化地产生错误词的相近词列出,供修改者选择;③还可以通过重读来纠错。二是通过纠错,可让语音识别系统更进一步地熟悉说话者的声音,而非常有效地提高系统识别率。随着信息技术的迅速发展,今后的语音识别系统必将是功能更加强大,智能化程度更高,兼容性更强,抗噪音能力更强的系统,其辅助口述作文的有效性也会更强。

3.英语口语纠正系统

语音识别技术的应用使得软件可以具有发音评测的功能,能够帮助学习者及时发现和纠正发音的错误,避免重复错误形成习惯,从而极大提高了学习者的学习效率。英语口语学习中语音识别技术遇到的难点主要有:①语音识别选取基元的问题。一般地,欲识别的词汇量比较多时,所用基元应该越小越好;②端点检测。语音信号的端点检测是语音识别的关键。据研究表明,即便是在安静的环境下,语音识别系统也会有一半以上的识别错误源自端点检测器。提高端点检测技术的关键所在是寻找稳定的语音参数;③找出反映发音质量的性能指标。主要是对发音段(指一段发音的语速、韵律、语调以及重音等)的研究;④对给定的发音进行错误检测和纠正,寻找合理的评分机制。

由于语音识别在理论与技术方面的复杂性,现有的口语纠正软件仍有很大限制范围,但随着语音技术的发展相信其在外语语言学习中的应用会越来越广泛。

三、结束语

语音识别技术作为一种逐渐成熟的计算机技术,是计算机辅助外语教学中的一种重要虚拟现实手段。而人机交互是数字语音室的一个发展方向,也是外语网络教学的核心内容。所以,语音识别技术会是未来语言实验室的建设中的一个重要方向。

参考文献:

[1]夏晴.ARS和TTS技术在外语口语教学中的应用研究[J].外语电化教学,2006(2)

[2]周英.语音识别技术发展趋势的分析[J].计算机光盘软件与应用,2012(19)

[3]孔菊芳.基于语音识别技术的英语学习网站分析[J].哈尔滨职业技术学院学报,2012(5)

语音识别技术范文4

关键词:语音识别技术;计算机辅助语言;应用;综述

中图分类号:TP391.6 文献标识码:A 文章编号:1674-7712 (2014) 12-0000-02

随着全球化的发展,越来越多的人想掌握一门外语,而传统的语言教学已不能满足人们的这一需求。计算机辅助语言学习(Computer Assisted Language Learning,缩写CALL)伴随着这一时代背景应运而生。CALL是在一定的语言学和心理学的理论基础之上,利用计算机技术和信息技术辅助、推进语言学习。目前,许多CALL学习软件大多是把各类资料集成在一起,基本上不能对学习者给出有效的反馈信息。语音识别技术的应用使得CALL系统可以具有发音评测的功能,能够帮助学习者及时发现和纠正错误发音,避免重复错误发音形成习惯,从而极大提高了学习者的学习效率。

一、计算机辅助语言学习(CALL)及其特点

(一)计算机辅助语言学习(CALL)简介

语言作为我们的日常交流工具,在经济全球化发展的今天,它的社会功能也越来越凸显。随着国际交流的日益频繁,越来越多的人想掌握一门第二语言,语言学习也成为了教育领域的一大热点。

语言学习的直接目的就是提高学生的交际能力,而这一能力最直接的体现就是口语表达。传统的师生教学是语言学习的主要方式,在这种教学方式下口语的教学主要是采用教师讲解发音方式和发音演示,学生跟读训练的方法。可以说这样的学习方式在口语学习中是至关重要且卓有成效的,但却是不够的。随着计算机技术和信息技术的迅猛发展,CALL已成为当今外语教学发展的一个新趋势。作为一种新的学习方式,它主要是在一定的语言学和心理学的理论基础之上,利用计算机和信息技术辅助和推进外语的教学。

CALL是外语学习的新趋势,它在中国的应用已经有近20年的历史,但直到多媒体技术的出现,它才真正进入外语教学的课堂。可以预见CALL作为一种教育技术在教学中的运用是外语学习发展的必然趋势。

(二)计算机辅助语言学习(CALL)的应用及其特点

CALL始于二十世纪五十年代的美国,在语言教学中的应用始于二十世纪六十年代。其发展大致经历了行为主义阶段、交际法阶段、综合法阶段[1]。

1.行为主义阶段(Behavioristic CALL)

60年代,当时的应用主要为CAI(Computer-Aided Instruction)课件(courseware)的开发与利用,课件以行为主义(behaviorism)为理论基础。按照该理论,斯金纳设计了便于及时强化的程序教学机器和便于进行程序教学的程序[2]。程序教学主张把教学目标和内容分解成很小的单元,按照严格的逻辑顺序编制程序,将教学信息转换成一系列问题与答案,电脑呈现一个问题(S),学生提供一个答案(R),答对给予奖励,答错给予惩罚,奖励或惩罚紧随反应之后,这样通过一步步地强化使学生掌握教学内容,最终达到预期的目标。

这时CALL软件的特点是:计算机仅作为提供素材和指令的工具,将各知识点以固定方式组织起来;允许学生根据自己的步调自定学习进度和速度,但学习过程完全由计算机程序控制;计算机向学生提供大量的练习,练习的答案往往是唯一的,学生的回答没有自主性和灵活性。

2.交际法阶段(Communicative CALL)

20世纪80年代,计算机的功能大大加强,微机(microcomputer,或称个人电脑 personal computer)开始应用于教育。CAI课件的设计原则转向以认知心理学为主导,强调学习者的心理特征和认知规律,遵循认知的信息加工理论,把学习看作是学习者根据自己的态度、兴趣、爱好和需要,利用原有的认知结构,对当前外部刺激所提供的信息做出主动、有选择的信息加工。这一时期CALL软件的代表是著名学者安德逊(Aderson)根据认知学习理论,研制出的”高中几何智能辅助教学系统”,它实现了对学生求解几何问题思维过程的自动跟踪和控制。

这一时期CALL软件的特点是:计算机能够根据学习者的需求和特点进行个别教学,但由于心理学对人类学习规律认识不全面和人工智能技术的发展不成熟,CALL软件离个别化教学还有一段距离。

3.综合法阶段(Integrative CALL)

80年代后期并持续至今,多媒体技术与网络技术取得突破性发展,尤其是因特网的出现及其迅猛发展不仅改变了传统的生产方式、生活方式和思维方式,也改变了人们的教育观念和学习方式,引起了一场教育革命。

同时期崛起的建构主义(constructivism)学习理论成为这场教育革命中革新传统教学的理论基础。建构主义学习理论与认知语言学、社会语言学、第二语言习得的理论等构成综合法的理论基础。其中社会语言学的影响尤为明显,它强调在语言学习中要为学生提供真实的社会交际,使他们能够掌握社会所需要的语言技能(Warshauer&Meskill,1998)。而实现这一目的的最好方法是使学生参与有意义的任务型学习(task-based learning)。通过专题学习(thematic learning)、项目型学习(project-based learning)、协作式学习(collaborative learning)、跨文化学习(cross-cultural learning)等多种方法,在兼学知识、文化的同时学习语言。

这一时期CALL软件的特点是:(1)计算机作为认知工具、情感交流及协作学习工具,起到导师、伙伴的作用;(2)提倡为外语学习创造真实的情境,开展有意义的、有创造性的语言交际活动;(3)提倡将语言的学习与计算机技能的学习及使用结合起来,培养学生具有21世纪网络时代所需要的外语交际能力(Warshauer,1996;Warshauer,Shetzer,&Meloni,2000)。

由此可以看出,CALL经历的三个阶段伴随着教育学、心理学、计算机技术和信息技术的发展而发展,CALL系统的设计也向着交互性、个性化、针对性和创造性的方向发展。

二、语音识别技术在CALL系统的应用

(一)语音识别技术简介

语音识别技术,也被称为自动语音识别技术(Automatic Speech Recognition,ASR),其目标是让机器也能够像人一样具有听觉功能,直接接受人的语言,能理解人的意图,并做出相应的反应。

最早的基于电子计算机的语音识别系统是50年代由AT&T贝尔实验室开发的Audrey语音识别系统,它能够识别10个英文数字[3];60和70年代,线性预测编码(Linear Predictive Coding LPC)及动态时间规整(Dynamic Time Warp DTW)技术的提出有效的解决了语音信号的特征提取和不等长的匹配问题[4],实现了特定人孤立词语音识别系统;80年代和90年代,隐马尔科夫(HMM)模型和人工神经元网络(ANN)的成功应用,使得语音识别系统的性能比以往更优异,实现了大词汇量、连续语音和非特定人的语音识别。随着多媒体时代的到来,语音识别技术逐渐从实验室走向应用,其代表有:Via Voice、Whisper、Voice Tone、Voice Action、Siri等。

21世纪,互联网和移动通信技术的发展给语音识别带来了新的契机,语音识别应用已经延伸到各个方面,如通讯领域、计算机语音检索系统、自动化控制等。语音识别技术已经成为一个具有竞争性的新兴高技术产业,是一门既有理论价值又有实际意义的重要学科。

(二)语音识别技术的基本原理

从技术上看,语音识别属于模式识别的范畴,其系统结构与模式识别具有相似之处。不同的语音识别系统在具体实现细节上有所不同,但所采用的原理基本是相似的。首先要对输入的语音信号进行预处理,并抽取所需的语音特征,在此基础上建立语音识别所需的语音模板。在识别过程中,将输入的语音信号的特征与己存在的语音模板进行比较,并根据一定的搜索,找出最优的与输入的语音相匹配的模板。最后,给出计算机的识别结果。其识别过程如图1:

图1

(三)语音识别技术在CALL中的应用

随着计算机技术和信息技术的发展,CALL已成为现代教育技术在教育领域一个重要应用。但最初的CALL主要应用在文字阅读和语言理解能力的训练,现存的CALL系统也大多侧重单词、语法的学习[5],很少关注语言发音训练。语音技术的不断发展和成熟为学习者发音练习提供了可能,它在CALL中最直接的应用就是帮助用户更好地练习语言发音。

CALL中引入语音识别技术,改变了传统的语言学习方式,使得学习者能够对自己的发音做出客观的评价。基于语音识别技术的CALL已成为计算机辅助语言学习系统研究的热点,不少公司和科研机构也投入了大量的人力、物力、财力在研究开发相关的发音学习系统,并且出现了一些较为成熟的产品。如“Pronunciation”、“Tell Me More”等,这些系统采用提供语音信号波形图的方式让学习者进行模仿,这种方式只是给学习者技术上的冲击感,对改善他们的发音并没有实际的帮助。国内许多英语学习软件都是把各类英语资料(文本、图片、音频、视频)累积在一起,基本上不能对学习者给出有效的反馈信息,即便加入了语音识别功能,其功能类似于复读机,即只能给学习者提供发音演示、录音跟读的功能,如“说宝堂”、“e百分”等产品。由于很少有软件会对学习者的发音做出一个整体的评分,也不能准确定位和检测学习者的发音错误,更没有对学习者的错误发音做出一个反馈和矫正,加之学习者因为自身水平限制,很难完全发现错误、纠正不正确的发音。故此,软件发音错误矫正的功能显得尤为重要。基于语音识别技术的CALL系统对于语言学习者来说是一个有效的辅助语言学习的平台,为了有效的促进语言学习,它应该具备如图2所示的功能。

图2

通过分析我们可以发现,目前语音识别技术在CALL中的应用取得了一些进展,但是仍然有一些问题等待解决和克服。目前的一些困难和问题主要集中在产品设计理念和技术实现上两个方面。

在产品设计理念上我们需要考虑以下几个问题:(1)教育软件的设计和开发应该应考虑学习者的需求,以学习者为中心;(2)教育软件的设计应该考虑教育学和教育心理学的相关理论,避免书本知识的搬家;(3)考虑学习者认知的个体差异性,为学生提供多元化学习的认知工具。

在技术实现上我们需要考虑以下几个问题:(1)选择合适的识别基元以提高识别率;(2)对语音信号的端点更加精确的检测,即判断语音信号的开始和结尾以提高识别的准确率;(3)对给定的发音进行错误检测和纠正,寻找合理的评分机制,并对学习者的发音进行及时、客观的反馈;(4)提高预处理阶段语音信号的信噪比;(5)选择高效的识别算法以减少识别时的搜索范围,提高识别速度。

四、结束语

本文分别介绍了语音识别技术和CALL,然后对语音识别技术在CALL中的应用进行了综述,并探讨了设计基于语音识别技术的CALL系统时需要考虑的问题。语音识别技术作为一种逐渐成熟的技术,它是基于语音识别技术的CALL系统的基础与核心。基于语音识别技术的CALL是一种新的、有效的学习方式,它能够有效的促进学习者口语水平的提高,也是CALL系统的一个重要发展方向。

参考文献:

[1]杨芳,曹扬波.计算机辅助语言学习的发展与前景[J].中国科技信息,2011(02).

[2]何克抗,李文光.教育技术学[M].北京:北京师范大学出版社,2009.

[3]詹新明,黄南山,杨灿.语音识别技术研究进展[J].现代计算机,2008(09).

[4]马莉,党幼云.特定人孤立词语音识别系统的仿真与分析[J].西安工程科技学院学报,2007(06).

语音识别技术范文5

【关键词】计算机;应用;语音识别技术

识别技术是一种后续处理技术,主要利用某种识别装置,从识别装置与被识别物品间的活动对被识别物品信息进行自动获取,计算机处理系统接收到这些信息并且进行处理。比如在商场就有一种非常典型的自动识别技术,叫做条形码扫描系统。商场售货员利用扫描仪对商品的条码进行扫描,得到商品相关信息,如输入数量,名称和价格等,通过计算机后台POS系统能够得到这批商品的价格,进而与顾客完成结算工作。

1计算机语音技术的发展进程

自五十年代起,研究人员大多对语音学和声学的基础理念比较关注。AT&TBell实验室在一九五二年设计了一个语音识别系统,这套系统实现了单一发音人孤立发音的10个英文数字,主要方法是对每一个数字的元音音段的共振峰进行度量。RCALab在一九五六年进行了另外一个研究,希望对单一发音的十个不同音节进行识别,主要方法依然是度量共振峰法英国UniversityCollege于一九五九年提出了另外一种设计思想,利用模板匹配与谱分析法对音素识别器进行构建,能够对九个辅音和四个元音进行识别。到了六十年代,又陆续出现了几种重要的设计理念语音识别。东京大学于一九六二年尝试应用了另外一种音素识别器,主要采取过零率方法把语音信号的各个部分分离开再识别。日本NECLab在一九六三年最有进展的工作就是进行数字的语音识别,这项技术也是NEC语音识别技术的起源,并且制定了长期的研究计划,取得了不错的成果。三大研究项目在六十年代的推进,深刻影响了随后二十多年语音识别技术的开发和研究。首个研究项目起始于六十年代后期,是由RCALab展开的,重点针对语音事件在时间刻度上不均匀性进行研究。进而设计出时间归正的基本方法,这个方法的前提是可以准确对语音事件的始末点进行检测。

2语音识别技术的发展态势

在全世界科学家的共同努力下,经过半个世纪以上的研究,现在语音识别技术已经越来越接近可应用阶段。能够识别大词汇量的朗读式连续说话的宽带语音信号,实际平均识别率已经超过了百分之九十,在识别率达到了实用要求后,语音识别技术已经逐渐从实验室演示系统阶段向着实用型商品转化。比如现在出现两的个听写系统,即IBMViaVoice和DragonDictation就应用了语音识别技术,大众逐步接受了语音识别技术,现在全社会都在关注这项技术。语音识别技术也有它的弱势,比如需要花费大量时间更正识别错误,校正语音等。与此同时,受到讲话习惯及应用环境等相关因素的影响,有些语音内容不太容易识别,识别内容的正确率达不到百分之百,所以,不少人觉得现有的语音识别系统与实用要求还有一定的差距。现在,两位专家AT&T和MIT也在某些有限词汇的特殊任务中应用语音识别技术。比如识别数字串,电话查询及自动转接等任务,如果系统中已经存储了讲话的内容,并且训练数据声学特性与实际环境中的声学特性没有太大的差别时,语音识别几乎可以达到百分之百的正确率。不过,一旦这些条件在实际应用中被破坏了,将会影响到识别系统。

3语音识别技术的发展进程

尽管在以往二十几年的时间里,语音识别技术的发展迅速,不过这项技术依然存在很多问题,需要深入探讨并加以解决,具体内容如下所示:3.1使可靠性提升利用语音识别技术可以将不同声学环境因素造成的影响排除掉。有些公共环境非常嘈杂,人们会在潜意识里把不需要的声学环境因素排除掉,而对于语音识别系统来说几乎不可能做得到。再者,人类在日常生活中的不确定性比较大,言语习惯和随意性很明显。这些问题都会严重影响语音识别系统的正确性。现在,为达到最理想的识别效果,增强语音系统在不同环境中的可靠性,要设计智能化更高的语音识别系统,积极了解人类语言随意性的基本规律。3.2使词汇量加大度量一个系统可以做什么事情,主要看它能够识别词汇的数量。当语音识别系统应用的语音和声学模型受到较大的约束时,如果用户讲述内容不在系统已知的范围之内时,语音识别系统对相关内容就无法准确的识别,例如,如果讲述的过程中突然转换成其他国家的语言,计算机就很难识别,会输出混乱的错误结果。不过,伴随持续改进的系统建模方法,不断提高的搜索算法效率,不断发展的硬件资源,将来设计的语音识别系统有可能混合多种语言,并且具备无限的词汇量。3.3语音识别技术应用的拓展语音识别技术能够将机器的机械化操作转变成趣味性十足的事情,并且还会带动功能更加便捷的设备的发展,人们的生活和工作变得更加方便。语音识别技术具有极为广泛的应用前景和范围。不但可以在日常生活中应用,还会产生生产方式的革命性改变,是未来实现智能化控制的前提。3.4使体积缩小,成本下降语音识别技术应用的另外一个主要渠道是微型化。微型化推广的程度受语音识别技术自身进程的影响,与此同时又与微电子芯片技术的发展密切相关。在微小的模块或者芯片上固化功能先进的语音识别系统,能够大幅度降低产品的体积和成本,消费者将会更加青睐这样的产品,微电子芯片技术与语音识别系统的飞速发展将会为我们的信息技术带来创世纪的革命。

4结语

总而言之,二十一世纪是互联网时代,在网络上能够实现一系列的人类活动,人类的各项活动在互联网上变得越来越便捷。随着语音识别系统的发展,人们利用这项技术将实现更加自由的交流,使人们可以利用语音交互方式在任何地方和时间享受到大量的社会信息资源,享受到人性化体贴的服务。语音识别技术的研究和应用必将得到飞速的发展。

参考文献

[1]禹琳琳.语音识别技术及应用综述[J].现代电子技术,2013(13).

[2]王敏妲.语音识别技术的研究与发展[J].微型机与应用,2009(23).

语音识别技术范文6

智能语音技术主要包括语音评测技术、语音合成技术、语音识别技术等:

语音评测技术:通过机器自动对语音进行评价、检错,并给出纠正的技术。

语音合成技术:通过机器自动将文字信息转化为语音的技术。评判语音合成技术水平的主要指标是计算机合成语音的自然度和可懂度。可懂度是指计算机合成语音能否让用户听懂,这是该技术能否应用的必要条件。

语音识别技术范文7

14年前,志在语音识别的科大讯飞在合肥悄然成立,当时还被外界讥笑为“草台班子”的这家本土创业公司,如今已经发展成为亚太地区最大的语音上市公司。作为中国语音识别的“领头羊”,科大讯飞的这个标签还能贴多久?在科大讯飞副总裁兼创始人之一江涛看来,科大讯飞的突破点在于,提供语音识别的技术和服务,解放人们的双手。

“草台班子”的摸索

创业之初,科大讯飞希望改变人类使用电脑的方式。但事实证明,时候未到。

上世纪90年代末,语音识别技术已经在全球范围内掀起了一波热潮,科大讯飞也是顺着这股热潮成立的。“彼时,IBM、英特尔等几大主流科技公司也早已开始语音识别技术的研发和商业探索。”江涛告诉《二十一世纪商业评论》(以下简称《21CBR》)。1998年IBM了第一个基于语音识别技术的产品。第二年全球科技十件大事之一便是IBM的语音识别技术,计算机第一次能够进行语音输入。除了IBM,英特尔、摩托罗拉、松下等很多国外巨头也都开始在国内设立语音研发中心,希望在人机交互和信息录入领域抢占先机。

“但是在后来证明,这个技术和产品在当时的条件下是不成熟的。”江涛认为有两个方面原因:一个是当时的语音针对PC,而PC相对于键盘和鼠标这些交互设备比较成熟,语音的需求并不够迫切。另外,“当时整个云计算、移动互联网的环境和体系还没有形成。全是单机,在一台机器上安装一个语音识别系统需要锻炼很久,使用成本太高。”

即便如此,直到2000年前后,中国的语音技术基本都掌握在IBM等大公司手中。而像科大讯飞这样的本土创业公司,空有实验室技术,在当时的环境下不知道该如何面向市场,面向用户。“我们一直到2004年才盈亏平衡,在这个过程中我们没有钱,也不知道该怎么开拓市场,所有人都是技术出身,都没有产业经验。”江涛说。

创业之初,科大讯飞希望改变人类使用电脑的方式。“我们当时做了一个叫做‘畅言2000’的产品。口号是把键盘输入的准确性、语音输入的方便性、手写输入的随意性融合在一起,它可以打开浏览器,打开Word,然后配合手写板输入内容。”这是科大讯飞的第一个产品,一套软件当时的定价是1000多元人民币。“但是去哪里推广,怎么做推广,我们完全不知道。”

随着“畅言2000”以失败告终,苦于推广无门的科大讯飞第一次参加了当年的高交会。“当时华为等一些做电信设备的厂商公司发现了我们,在他们的呼叫中心智能网中间有需要使用语音的地方,比如说语音合成,呼叫中心的语音播报,智能网中间的信息播报等。”很快,迅飞便跟华为、中兴等一些大的厂商对接上,成为它们的语音技术提供商。

“我们后来一想也是这样,一个创业团队没有市场经验,也没有市场能力,没有资金,不可能去做‘2C’的市场,那个时候的条件也不具备。做‘2B’的市场,做自己擅长的部分,把技术提供给合作伙伴,然后合作伙伴去做对应的应用更可行。”江涛说。这是科大迅飞的第一桶金,也是第一个商业模式。“依靠这个模式,我们实现了盈亏平衡。到2004年,我们已经是中国最大的语音技术提供商。”

在尝到了做“技术提供商”的甜头后,2004年,手机彩铃被引进中国,“在没有智能手机的时代,面对几十万首歌,用户在电话里怎么选?”江涛说,为此,迅飞开发了针对音乐的语音搜索,“想下载谁的彩铃,听谁的歌,直接在电话里面语音搜索。”在这个基础上,迅飞进一步把技术应用到跟音乐、彩铃下载和搜索相关的其他领域。“现在联通、电信,还有移动,相关于音乐的语音搜索技术全部由讯飞提供。”江涛说。

基于同样的思路,迅飞开始把语音识别技术扩展到教育领域。“从技术上看,针对这两个领域,迅飞所做的事情主要是语音合成,把语音转换成文字。”江涛告诉《21CBR》,虽然在当时这个技术事实上已经没有门槛,但迅飞的优势在于做“技术提供商”的商业模式和针对细分领域提供的服务。目前,针对音乐和教育领域的收入依然是迅飞营收的主要来源之一。“现在音乐领域每年的收入大概在一个亿左右。”

从技术到服务

语音识别不是完全靠算法能解决的,时间和数据积累才是最大的壁垒。

2008年前后,中国开始发放3G牌照,以苹果、安卓为代表的智能机逐步兴起。“我们觉得这个时候语音技术真正的机会才出现,因为智能手机相对于PC来说,屏幕更小,输入更不方便,语音在人机交互过程中显得更有价值。”江涛说。目前,讯飞所开发的手机应用讯飞语音已拥有超过2亿用户。

“我们现在最大的挑战还是用户的习惯,尤其是中国人觉得对着手机说话太傻了。”江涛说。好在随着苹果、谷歌加上腾讯的微信正在不断地教育用户的使用习惯,越来越多的人开始适应这种跟机器的交流方式。

科大讯飞在移动互联网领域的另一个产品是讯飞输入法。“我们从2011年开始做这个产品,当时讯飞没有任何知名度,没有品牌,完全靠用户口碑来推广。”江涛说。目前,讯飞输入法的用户超过8000万。

尽管移动互联网来势汹汹,江涛和他的团队还是希望把自己定位为“语音服务提供商”。“我们一方面还会持续面向电视机、汽车、地图等合作伙伴提供语音技术,另外一方面也会以输入法这些产品为代表,面向用户提供直接的交互服务和终端产品。”江涛告诉《21CBR》记者。目前,康佳、海尔、创维、海信等电视厂商都采用了迅飞语音识别技术和开发平台。讯飞也与国内主要汽车电子厂商及车厂等建立了合作,包括奇瑞、江淮、上汽、奥迪、德尔福、大陆电子、哈曼等,但这一领域对公司营收的贡献微乎其微。

从技术的角度来看,语音识别在过去20年的发展和进化过程中早已不再拥有高门槛。在外界看来,科大讯飞缺乏足够宽广的护城河——掌握互联网入口的企业百度、腾讯等巨头,都在觊觎语音识别领域。而随着3G网络和智能终端的普及,这些条件又为语音识别打开了一扇新的大门。江涛也认为:“目前,就技术上的发展来讲,语音识别的门槛的确不高,大数据云计算带来了更加开阔的技术可能性和便利。”

语音识别技术范文8

语音识别技术的应用非常广泛,可应用在运营商、呼叫中心、汽车、GPS导航等凡是需要输入文字、但又不方便输入,只能用语音代替文字的地方。因此,语音识别技术被很多专家认为是下一代通信技术,具有广阔的市场前景。但由于语音识别技术难度非常大,语音识别率不高,让很多人不喜欢使用,因此,目前应用并没有想象中那么大,市场也没有预期中的爆炸式发展。那么,目前全球的语音识别技术究竟发展到什么程度了呢?

5月22日,在全球语音识别市场占据80%以上市场份额的语音识别技术和产品供应商Nuance通信公司在北京举办了一场语音企业解决方案高峰会。会上,Nuance公司展示了最新的语音识别技术以及各种成功应用案例,令人惊叹语音技术的发展速度之快。

据Nuance大中华区总经理郑裕庆介绍,目前,Nuance已经在全球部署了3000多个基于语音识别技术的解决方案,客户范围覆盖移动运营商、汽车制造商、医院、移动电话等各个行业。在金融领域,Nuance 拥有超过500家金融客户,其中包括 Wells Fargo、美国银行、花旗银行、德意志银行、汇丰银行、友邦保险、安联保险、美林证券等;而电信行业,全球前15大电信公司有超过10家为 Nuance 用户,其中包括英国电信、Verizon、Vodafone、Cingular 等,另外还包括电视购物、航空、医药、汽车、科技企业等数千家企业,在全球《财富》100强企业中有三分之二为 Nuance 的用户。

“Nuance在语音识别技术上具备1000项专利权、可识别全球50多种语言,包括方言,采用我们的语音输入技术,其速度比99%的人的打字速度都快,且准确率非常高。”郑裕庆说。“我们拥有全球最大的客户交互解决方案顾问及系统整合团队,通过领先的语音及文字技术,可为企业量身定做各种客户关怀方案。”他举例:Nuance为中国移动、中国联通、中国电信提供的个性化语音识别应用,就让这三家运营商对客户的关怀达到一个新高度。中国移动和中国联通的客户在下载彩铃时,只需拨打特服号码,并根据提示直接用语音说出想要的歌名或歌手名,系统就会听懂你的话并搜索出你想要的铃声,这极大地解决了人们搜索自己喜爱歌曲的难度。中国电信的用户则可以利用该技术,有效接通只记得人名、不记得号码的人,在中国电信的号码百事通和商务领航品牌上的个人通信助理中,人们可以将自己的个人电话簿通过多种途径上传到运营商的服务器,使用时只需要拨通缩位特服号码后直接说出要找的人名,系统就会自动帮你接通电话。使用过程中,用户还可随时用语音方式添加或修改个人电话簿。

“客户关怀”实际上是Nuance公司的一个语音识别解决方案的名称,通过为企业定制这一方案,越来越多的企业在其客服中开始采用语音识别技术。

语音识别技术范文9

提及语音识别技术,业内恐怕首先想到是苹果的Siri、谷歌的Google Now和微软的Cortana,至少在Echo热销之前,这些巨头在语音识别上的名气和曝光度要远远高于亚马逊。而实际上,Amazon的语音技术在2011年就已经起步,其先是收购语音识别公司Yap,Yap成立于2006年,主要提供语音转换文本的服务。之后的2012年,Amazon又收购了语音技术公司Evi,继续加强语音识别在商品搜索方面的应用,不得不提的是,Evi这家公司也曾经应用过Nuance的语音识别技术。2013年,Amazon继续收购语音技术公司Ivona Software,Ivona是一家波兰公司,主要做文本语音转换,其技术已被应用在Kindle Fire的文本至语音转换功能、语音命令和Explore by Touch应用之中,其Echo也是利用了这项技术。需要说明的是,虽然使用了一些来自于收购的Ivona等初创公司的技术,但Echo涉及的大多数技术均由亚马逊技术人员自主开发。这其中就包括了能够在10英尺甚至更远的地方分辩声音的麦克风阵列技术。

由此不难看出,亚马逊很早就已经通过并购与自研的方式进入到语音识别领域,只是此前相当低调而已,更为关键的是,其拥有自己语音识别的核心技术——采用了非线性排列的远程麦克风阵列(7个麦克风)。这使得相比Siri、Google Now、Cortana这些存在于手机的语音助手,Echo最大的优势还在于它超强的听力。

有了好的技术,如何通过或者说通过什么样的产品形态去体现就显得尤为重要。众所周知,苹果的Siri、谷歌的Google Now基本都是面向智能手机这类移动设备,微软的Cortana除了智能手机,还面向传统PC。而亚马逊则是通过音响这种特立独行的形态来体现,这样做,一来是避免了其在智能手机中与苹果和谷歌的正面交锋,即除了在语音识别技术上直接在智能手机等移动设备上的比较,同时又避免了在硬件本身与谷歌、苹果、微软这些注重硬件设计、材质、交互等相比的差距(从亚马逊之前推出的Kindle、Kindle Fire等硬件设备看,其并不是一家注重过度设计的公司),毕竟对于一款以语音识别为主的硬件设备,用户既不需要触控,也无需在意它的外观,只需要在一定距离内与其交互即可。

其次是更顺应了语音识别的应用场景。就像玛丽米克(Mary Meeker)2016年《互联网趋势》报告里提及的,语音识别最常用的应用场景是在家中(占据应用场景中的43%)。实际上,基于家中(主要是室内)环境的应用场景,无形中又会放大亚马逊在语音识别技术和体验上与苹果、谷歌和微软(主要是移动和嘈杂的室外环境)的优势。

当然,我们在此并非否认亚马逊在语音识别技术上与苹果、谷歌、微软等相比处于弱势,而是说在技术不相上下时,如何以合适的产品形态和使用场景切入市场对于其未来能否成功的重要性。