HI,欢迎来到好期刊网,发表咨询:400-888-9411 订阅咨询:400-888-1571证券代码(211862)

面向学术资源的术语区分能力的测度方法研究

摘要:改进索引术语质量的衡量方法可以有效提高IR系统的检索效率,但术语的固有属性易受文档长度影响,难以全面衡量术语质量。对此,本文从术语内在的区分性出发,借鉴词袋模型的基本思想,提出了术语区分能力(term discriminative capacity,TDC)这一理论及3种不同的计算方法。本文还采集了Web of Science的3个子数据库中包含4个著录项的900条记录作为实验数据,来实现TDC的大规模计算,并观察3种算法在实践中的差异。经过实验分析得出,计算术语区分能力的最佳方法为TDC-T,该算法在多个方面表现稳定,且不受DF值的影响,可以作为衡量术语质量的全新指标,记为TDC。但是本研究所选取的A&HCI数据库的记录较少,这或许会造成另两个领域计算结果的失衡。

关键词:
  • 索引术语  
  • 词袋模型  
  • 术语区分能力  
  • 术语空间密度  
  • 术语质量评价  
作者:
王昊; 唐慧慧; 张海潮; 张进; 张紫玄
单位:
南京大学信息管理学院; 南京210023; 江苏省数据工程与知识服务重点实验室; 南京210023; 威斯康星大学密尔沃基分校信息研究学院; 密尔沃基53201
刊名:
情报学报

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

期刊名称:情报学报

情报学报紧跟学术前沿,紧贴读者,国内刊号为:11-2257/G3。坚持指导性与实用性相结合的原则,创办于1982年,杂志在全国同类期刊中发行数量名列前茅。