摘要:为有效地分类出多个热门主题兴趣的作者群体,提出了一种基于综合特征和最大二元组的文本分类框架,该分类框架针对DBLP数据集.分类框架的核心是构建双边图和对标题进行准确分类.第一阶段从DBLP数据集中提取标题,为保证提取的标题和主题的正确映射,采用综合特征进行分类,即辨识特征和语义特征的结合;第二阶段构建双边图,生成多个“主题—作者”的最大二元组聚类,获得作者集合.与其他类似方法相比,本文的分类框架在准确率、召回率和F1测度方面具有更好的优势,能以较高精度识别出相似热门主题的最大聚类.
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社