摘要:垃圾短信已日益成为影响人们日常生活的严重问题,由于短信属于短文本,长度较短,特征稀疏,尤其是垃圾短信为逃避过滤机制,其结构和内容常常不规范,所以传统的文本特征提取方法并不能完全适用于短信分类。从短信的结构及语义两个角度提取特征项,并建立语义特征词表,采用基于多特征融合的方法来向量化表示短信文本。针对短信数据集中存在的噪声及数据不平衡问题,分别比较了NB、SVM、DT、LR、MLP、RF分类器的性能差别。实验表明,采用RF分类算法,能有效减弱噪声干扰及数据不平衡性所带来的影响。通过在CCF2015中国好创意竞赛题目“垃圾短信基于文本内容识别”所提供的数据集上进行验证,取得了很好的效果。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社
期刊名称:山东大学学报·理学版
山东大学学报·理学版紧跟学术前沿,紧贴读者,国内刊号为:37-1389/N。坚持指导性与实用性相结合的原则,创办于1951年,杂志在全国同类期刊中发行数量名列前茅。
特别声明:本站主要从事期刊杂志零售,不是任何杂志官网,不涉及出版事务,特此申明。
工信部备案:辽ICP备19013545号-9 辽公网安备:21011302000173 © 版权所有:沈阳学刊文化有限公司