HI,欢迎来到好期刊网,发表咨询:400-888-9411 订阅咨询:400-888-1571证券代码(211862)

基于SDBN和BLSTM注意力融合的端到端视听双模态语音识别

摘要:提出一种端到端的视听语音识别算法。在该算法中,通过具有瓶颈结构的深度信念网络(deep belief network,DBN)中引入混合的l1/2范数和l1范数构建一种稀疏DBN(sparse DBN,SDBN)来提取稀疏瓶颈特征,从而实现对数据的特征降维,然后用双向长短期记忆网络(bidirectional long short-term memory,BLSTM)在时序上对特征进行模态处理,之后利用一种注意力机制将经过模态处理的唇部视觉信息和音频听觉信息进行自动对齐、融合,最后将融合的视听觉信息通过一个附加了Softmax层的BLSTM进行分类识别。实验表明,该算法能有效地识别视听觉信息,在同类算法中有很好的识别率和顽健性。

关键词:
  • 端到端  
  • 视听语音识别  
  • 稀疏瓶颈特征  
  • 注意力机制  
作者:
王一鸣; 陈恳; 萨阿卜杜萨拉木·艾海提拉木
单位:
宁波大学信息科学与工程学院; 浙江宁波315211
刊名:
电信科学

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

期刊名称:电信科学

电信科学杂志紧跟学术前沿,紧贴读者,国内刊号为:11-2103/TN。坚持指导性与实用性相结合的原则,创办于1956年,杂志在全国同类期刊中发行数量名列前茅。