HI,欢迎来到好期刊网,发表咨询:400-888-9411 订阅咨询:400-888-1571证券代码(211862)

一种基于双向LSTM的联合学习的中文分词方法

摘要:针对现有的基于深度学习的神经网络模型通常都是对单一的语料库进行训练学习,提出了一种大规模的多语料库联合学习的中文分词方法。语料库分别为简体中文数据集(PKU、MSRA、CTB6)和繁体中文数据集(CITYU、AS),每一个数据集输入语句的句首和句尾分别添加一对标志符。应用BLSTM(双向长短时记忆模型)和CRF(条件随机场模型)对数据集进行单独训练和多语料库共同训练的实验,结果表明大规模的多语料库共同学习训练能取得良好的分词效果。

关键词:
  • 中文分词  
  • 大规模语料库  
  • 联合学习  
  • 双向长短时记忆模型  
作者:
章登义; 胡思; 徐爱萍
单位:
武汉大学计算机学院; 武汉430072
刊名:
计算机应用研究

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

期刊名称:计算机应用研究

计算机应用研究杂志紧跟学术前沿,紧贴读者,国内刊号为:51-1196/TP。坚持指导性与实用性相结合的原则,创办于1984年,杂志在全国同类期刊中发行数量名列前茅。