HI,欢迎来到好期刊网,发表咨询:400-888-9411 订阅咨询:400-888-1571证券代码(211862)

基于词向量和EMD距离的短文本聚类

摘要:短文本聚类在数据挖掘中发挥着重要的作用,传统的短文本聚类模型存在维度高、数据稀疏和缺乏语义信息等问题,针对互联网短文本特征稀疏、语义存在奇异性和动态性而导致的短文本聚类性能较差的问题,提出了一种基于特征词向量的文本表示和基于特征词移动距离的短文本聚类算法。首先使用Skip—gram模型(Continuous Skipgram Model)在大规模语料中韧I练得到表示特征词语义的词向量;然后利用欧式距离计算特征词相似度,引入EMD(Earth Mover,SDistance)来计算短文本间的相似度;最后将其应用到Kmeans聚类算法中实现短文本聚类。在3个数据集上进行的评测结果表明,效果优于传统的聚类算法。

关键词:
  • 短文本  
  • emd距离  
  • 词向量  
  • 相似度计算  
  • 聚类  
作者:
黄栋; 徐博; 许侃; 林鸿飞; 杨志豪
单位:
大连理工大学信息检索研究室; 辽宁大连116023
刊名:
山东大学学报·理学版

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

山东大学学报·理学版紧跟学术前沿,紧贴读者,国内刊号为:37-1389/N。坚持指导性与实用性相结合的原则,创办于1951年,杂志在全国同类期刊中发行数量名列前茅。