摘要:中文词性标注具有重要的作用,它的准确性和标注速度直接影响到自然语言处理的后续任务.提出一种基于CNN(convolutional neural network)和LSTM(long-short term memory)混合模型进行中文词性标注.该模型采用三层结构,用词向量和CNN的滑动窗口特性产生词语表示特征,LSTM的时序性来产生词性标注的序列标签.分别在PFR《人民日报》语料库、CTB7.0和CoNLL09语料库上对该模型进行测试,在未加入任何人工特征的条件下,对词语进行词性标注,词性标注效果好于HMM(hidden Markov model)、MLP(multi-layer perceptron)、CNN和LSTM.
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社