HI,欢迎来到好期刊网,发表咨询:400-888-9411 订阅咨询:400-888-1571证券代码(211862)

基于综合优先度和主机信息的暴雨灾害主题退火爬虫算法

摘要:如今,互联网集成的与暴雨灾害相关的信息多种多样,然而人工搜索网页信息的效率不高,因此网络主题爬虫显得十分重要。在通用网络爬虫的基础上,为提高主题相关度的计算精度并预防主题漂移,通过对链接锚文本主题相关度、链接所在网页的主题相关度、链接指向网页PR值和该网页主题相关度的综合计算,提出了基于网页内容和链接结构相结合的超链接综合优先度评估方法。同时,针对搜索过程易陷入局部最优的不足,首次设计了结合爬虫记忆历史主机信息和模拟退火的网络主题爬虫算法。以暴雨灾害为主题进行爬虫实验的结果表明,在爬取相同网页数的情况下,相比于广度优先搜索策略(Breadth First Search,BFS)和最佳优先搜索策略(Optimal Priority Search,OPS),所提出的算法能抓取到更多与主题相关的网页,爬虫算法的准确率得到明显提升。

关键词:
  • 暴雨灾害  
  • 网络主题爬虫  
  • 综合优先度  
  • 主机信息  
  • 模拟退火算法  
作者:
刘景发; 李帆; 蒋盛益
单位:
南京信息工程大学计算机与软件学院; 南京210044; 广东外语外贸大学信息科学与技术学院; 广州510006)2
刊名:
计算机科学

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

期刊名称:计算机科学

计算机科学杂志紧跟学术前沿,紧贴读者,国内刊号为:50-1075/TP。坚持指导性与实用性相结合的原则,创办于1974年,杂志在全国同类期刊中发行数量名列前茅。