HI,欢迎来到好期刊网,发表咨询:400-888-9411 订阅咨询:400-888-1571证券代码(211862)

基于多特征融合的垃圾短信识别

摘要:垃圾短信已日益成为影响人们日常生活的严重问题,由于短信属于短文本,长度较短,特征稀疏,尤其是垃圾短信为逃避过滤机制,其结构和内容常常不规范,所以传统的文本特征提取方法并不能完全适用于短信分类。从短信的结构及语义两个角度提取特征项,并建立语义特征词表,采用基于多特征融合的方法来向量化表示短信文本。针对短信数据集中存在的噪声及数据不平衡问题,分别比较了NB、SVM、DT、LR、MLP、RF分类器的性能差别。实验表明,采用RF分类算法,能有效减弱噪声干扰及数据不平衡性所带来的影响。通过在CCF2015中国好创意竞赛题目“垃圾短信基于文本内容识别”所提供的数据集上进行验证,取得了很好的效果。

关键词:
  • 垃圾短信  
  • 多特征融合  
  • 数据不平衡  
  • 随机森林  
作者:
李润川; 昝红英; 申圣亚; 毕银龙; 张中军
单位:
郑州大学信息工程学院; 河南郑州450000; 郑州大学互联网医疗与健康服务河南省协同创新中心; 河南郑州450000; 郑州大学产业技术研究院; 河南郑州450000; 郑州大学外语学院; 河南郑州450000; 周口师范学院计算机科学与技术学院; 河南周口466001
刊名:
山东大学学报·理学版

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

山东大学学报·理学版紧跟学术前沿,紧贴读者,国内刊号为:37-1389/N。坚持指导性与实用性相结合的原则,创办于1951年,杂志在全国同类期刊中发行数量名列前茅。