HI,欢迎来到好期刊网,发表咨询:400-888-9411 订阅咨询:400-888-1571证券代码(211862)

计算机科学杂志北大期刊CSCD期刊统计源期刊

  • 主管单位:国家科学技术部

  • 主办单位:国家科技部西南信息中心

  • ISSN:1002-137X

  • CN:50-1075/TP

计算机科学杂志

计算机科学 2017年第01期杂志 文档列表

计算机科学杂志2016第六届中国数据挖掘会议
25-31

一种处理部分标记数据的粗糙集属性约简算法

作者:张维; 苗夺谦; 高灿; 李峰 单位:同济大学电子与信息工程学院计算机科学与技术系; 上海201804; 上海电力学院计算机科学与技术学院; 上海200090; 同济大学嵌入式系统与服务计算教育部重点实验室; 上海201804; 深圳大学计算机与软件学院; 广东518060; 香港理工大学应用科学与纺织学院; 香港

摘要:属性约简是粗糙集理论中重要的研究内容之一,是数据挖掘中知识获取的关键步骤。Pawlak粗糙集约简的对象一般是有标记的决策表或者是无标记的信息表。而在很多现实问题中有标记数据很有限,更多的是无标记数据,即半监督数据。为此,结合半监督协同学习理论,提出了处理半监督数据的属性约简算法。该算法首先在有标记数据上构造两个差异性较大的约简来构造基分类器;然后在无标记数据上交互协同学习,扩大有标记数据集,获得质量更好的约简,构造性能更好的分类器,该过程迭代进行,从而实现利用无标记数据提高有标记数据的约简质量,最终获得质量较好的属性约简。UCI数据集上的实验分析表明,该算法是有效且可行的。

32-36

基于高斯-柯西混合模型的单幅散焦图像深度恢复方法

作者:薛松; 王文剑 单位:山西大学计算机与信息技术学院; 太原030006; 山西大学计算智能与中文信息处理教育部重点实验室; 太原030006

摘要:单幅图像场景深度的获取一直是计算机视觉领域的一个难题。使用高斯分布函数或柯西分布函数近似点扩散函数模型(PSF),再根据图像边缘处散焦模糊量的大小与场景深度之间的关系估算出深度信息,是一种常用的方法。真实世界中图像模糊的缘由千变万化,高斯分布函数以及柯西分布函数并不一定是最佳的近似模型,并且传统的方法对于图像存在阴影、边缘不明显以及深度变化比较细微的区域的深度恢复结果不够准确。为了提取更为精确的深度信息,提出一种利用高斯-柯西混合模型近似PSF的方法;然后对散焦图像进行再模糊处理,得到两幅散焦程度不同的图像;再通过计算两幅散焦图像边缘处梯度的比值估算出图像边缘处的散焦模糊量,从而得到稀疏深度图;最后使用深度扩展法得到场景的全景深度图。通过大量真实图像的测试,说明新方法能够从单幅散焦图像中恢复出完整、可靠的深度信息,并且其结果优于目前常用的两种方法。

37-41

在线序列主动学习方法

作者:翟俊海; 臧立光; 张素芳 单位:河北大学数学与信息科学学院河北省机器学习与计算智能重点实验室; 保定071002; 河北大学计算机科学与技术学院; 保定071002; 中国气象局气象干部培训学院河北分院; 保定071000

摘要:现实世界中存在着大量无类标的数据,如各种医疗图像数据、网页数据等。在大数据时代,这种情况更加突出。标注这些无类标的数据需要付出巨大的代价。主动学习是解决这一问题的有效手段,也是近几年机器学习和数据挖掘领域中的一个研究热点。提出了一种基于在线序列极限学习机的主动学习算法,该算法利用在线序列极限学习机增量学习的特点,可显著提高学习系统的效率。另外,该算法用样例熵作为启发式度量无类标样例的重要性,用K-近邻分类器作为Oracle标注选出的无类标样例的类别。实验结果显示,提出的算法具有学习速度快、标注准确的特点。

42-47

基于W0rd2Vec的情感词典自动构建与优化

作者:杨小平; 张中夏; 王良; 张永俊; 马奇凤; 吴佳楠; 张悦 单位:中国人民大学信息学院; 北京100872

摘要:情感词典的构建是文本挖掘领域中重要的基础性工作。近几年,情感词典的极性标注从二元褒贬标注向多元情绪标注发展,词典的领域特性也日趋明显。但是情感类别的手工标注不但费时费力,而且情感强度难以得到准确量化,同时对领域性的过分关注也大大限制了情感词典的适用性。通过神经网络语言模型对大规模中文语料进行统计训练,并在此基础上提出了基于转换约束集的多维情感词典自动构建方法;然后研究了基于词分布密度的感情色彩消歧方法,对兼具褒贬意味词语的感情极性进行区分和识别,并分别计算两种感情色彩下的情感类别与强度;最后提出基于多个语义资源的全局优化方案,得到包含10种情绪标注的多维汉语情感词典SentiRuc。实验证实该词典”在类别标注检验、强度标注检验、情感消歧效果及情感分类任务中均具有良好的效果,其中的情感强度检验证实该词典具有极强的情感语义描述力。

48-52

基于分层筛选和动态更新的并行选择集成算法

作者:吴梅红; 郭佳盛; 鞠颖; 林子雨; 邹权 单位:厦门大学计算机科学系; 厦门361005; 天津大学计算机科学与技术学院; 天津300072

摘要:提出一种选择性集成学习算法,该算法利用多线程并行优化基分类器的参数,通过多层筛选和动态更新筛选信息获取最优的候选基分类器集合,解决了以往在集成学习中选择分类器效率低下的问题。集成分类器采用分解合并的策略进行加权投票,通过使用二分法将大数据集的投票任务递归分解成多个子任务,并行运行子任务后合并投票结果以缩短集成分类器的投票运行时间。实验结果表明,相对于传统方法,所提出的算法在平均精度、F1-Measure以及AUC指标上都有着显著提升。

53-59

基于中介Agent的强化学习优化协商模型

作者:张京敏; 董红斌 单位:哈尔滨工程大学计算机科学与技术学院; 哈尔滨150001

摘要:提出了一种基于强化学习的双边优化协商模型。引入了一个中介Agent。在强化学习策略中使用不同的参数产生提议,进而选出最好的参数进行协商。为了进一步提高协商的性能,还提出了基于中介Agent自适应的学习能力。仿真实验结果证明了所提协商方法的有效性,且该方法提高了协商的性能。

60-64

基于卷积神经网络的自适应权重multi-gram语句建模系统

作者:张春云; 秦鹏达; 尹义龙 单位:山东财经大学计算机科学与技术学院; 济南250014; 北京邮电大学信息与通信工程学院; 北京100876; 山东大学计算机科学与技术学院; 济南250101

摘要:如今信息量呈爆炸式增长,自然语言处理得到了越来越广泛的重视。传统的自然语言处理系统过多地依赖昂贵的人工标注特征和语言分析工具的语法信息,导致预处理中语法信息的错误传递到系统训练和预测过程中。因此,深度学习的应用受到了学者们的关注。因为它能实现端对端预测并尽可能少地依赖外部信息。自然语言处理领域流行的深度学习框架为了更好地获取句子信息,采用multi-gram策略。但不同任务和不同数据集的信息分布状况不尽相同,而且这种策略并没有考虑到不同n-gram的重要性分布。针对该问题,提出了一种基于深度学习的自适应学习multi-gram权重的策略,从而根据各n-gram特征的贡献为其分配相应的权重;并且还提出了一种新的multi-gram特征向量结合方法,大大降低了系统复杂度。将该模型应用到电影评论正负倾向判断和关系分类两种分类任务中,实验结果证明采用的自适应multi-gram权重策略能够大大改善模型的分类效果。

65-70

一种改进的多视图聚类集成算法

作者:邓强; 杨燕; 王浩 单位:西南交通大学信息科学与技术学院; 成都610031

摘要:近年来,针对大数据的数据挖掘技术和机器学习算法研究变得日趋重要。在聚类领域,随着多视图数据的大量出现,多视图聚类已经成为了一类重要的聚类方法。然而,大多数现有的多视图聚类算法受算法参数设置、数据样本等影响,具有聚类结果不稳定、参数需要反复调节等缺点。基于多视图K-means算法和聚类集成技术,提出了一种改进的多视图聚类集成算法,其提高了聚类的准确性、鲁棒性和稳定性。其次,由于单机环境下的多视图聚类算法难以对海量的数据进行处理,结合分布式处理技术,实现了一种分布式的多视图并行聚类算法。实验证明,并行算法在处理大数据时的时间效率有很大提升,适合于大数据环境下的多视图聚类分析。

71-74

一种基于用户距离改进的线性影响力传播模型

作者:蔡国永; 裴广战 单位:桂林电子科技大学计算机与信息安全学院; 桂林541004

摘要:根据在线社交网络中用户的历史行为进行信息传播的预测是当前研究的热点之一,然而传统的传播模型仅解释了信息在社交网络中的传播规律,不具备信息传播预测能力。Jaewan Yang和Jwe Leskovec根据未激活的用户会受到激活用户的影响,提出了线性影响力模型LIM(Linear Influence Model),但是LIM模型在信息传播的过程中只考虑了时间因素,忽略了信息在传播过程中的空间因素,即用户间的相互关系。首先引入社交网络中用户间距离的度量,并结合距离的度量对UM模型进行了改进,提出了基于距离正则化的LIM模型,即d-LIM模型。真实数据集上的对比实验表明,d-UM模型能获得更准确的预测结果。

75-79

基于枚举策略的三倍体个体单体型重建算法

作者:张倩; 吴璟莉 单位:广西师范大学计算机科学与信息工程学院; 桂林541004; 广西师范大学广西多源信息挖掘与安全重点实验室; 桂林541004; 广西区域多源信息集成与智能处理协同创新中心; 桂林541004

摘要:求解三倍体个体单体型对于探索三倍体物种的遗传特性和表型差异等方面的研究具有重要的推动作用。针对带基因型信息的最少错误更正(MEC/GI)模型,提出了一种基于枚举策略的三倍体个体单体型重建算法EHTR。该算法依次重建3条单体型上的每一个单核苷酸多态性住点取值,对于给定位点,首先根据其基因型取值枚举该位点的3种单体型取值情况,然后选择片段支持度最高的取值作为该位点的重建值,算法的总时间复杂度为O(mn+mlogm+cnl)。采用CELSIM和MetaSim两种测序片段模拟生成器生成实验测试数据,在片段覆盖率、错误率、单片段长度、单体型长度和单体型海明距离等参数的不同设置下,对算法EHTR,GTIHR,W-GA和Q-PSO的重建率和运行时间进行对比分析。实验结果显示,算法EHTR在不同的参数设置下均能以更短的运行时间获得更高的重建率。

80-83

基于特征挖掘的基因组缺失变异集成检测方法

作者:张晓东; 凌诚; 高敬阳 单位:北京化工大学信息科学与技术学院; 北京100029

摘要:随着高通量测序技术的应用与发展,基于测序的缺失变异检测方法大量涌现。然而,单一检测方法仍存在适用的局限性以及检测精度与敏感度不足的问题。为此,提出一种基于多检测理论融合的特征挖掘与机器学习算法集成的基因组缺失变异综合检测方法。该方法将多种工具应用于个体缺失变异检测,得到变异检测初始集;再根据多种检测理论对初始集中的缺失变异进行序列特征挖掘与特征提取;最后,将检测工具与机器学习算法相融合以获得集成的检测方法,剔除初始集中的假阳性变异,获得最终的结果集。基于千人基因组计划数据的实验表明,相较于单个工具的检测结果,该方法在检测精度和敏感度上均占优势;相较于多个工具检测结果的直接组合,该方法在损失少许检测敏感度的前提下显著地提高了检测精度。

84-89

三支决策空间下的区间参数优化模型及应用

作者:李明霞; 刘保相; 张春英 单位:华北理工大学理学院; 唐山063009; 河北省数据科学与应用重点实验室; 唐山063009

摘要:区间概念格理论是在区间参数基础上提出的一种新的对象挖掘方法,它能够更精确地处理不确定信息。区间参数[α,β]7决定了区间概念和格结构,进而对提取的决策准则产生影响。为了解决区间参数优化问题,首先将区间概念格与三支决策粗糙集理论相结合,提出了三支决策空间理论;然后在此基础上将区间概念外延划分为3个域:正域、边界域和负域,并给出了基于区间概念格的三支决策规则与决策损失函数,通过调整区间参数寻找更加可靠的决策准则,从而优化区间参数;最后通过实例对模型进行验证。

90-94

基于最小/最大描述的多粒度覆盖粗糙直觉模糊集模型

作者:薛占熬; 司小朦; 王楠; 朱泰隆 单位:河南师范大学计算机与信息工程学院; 新乡453007; “智慧商务与物联网技术”河南省工程实验室; 新乡453007

摘要:覆盖粗糙集和直觉模糊集都是处理不确定性问题的基础理论,它们有着很强的互补性,且覆盖粗糙集和直觉模糊集的融合研究是一个新的热点。对多粒度覆盖粗糙集和直觉模糊集的融合进行深入研究。首先将最小描述、最大描述从单一粒度推广到多个粒度,提出了多粒度的最小描述和最大描述,讨论了多粒度的融合;其次,分别给出了基于最小描述和最大描述的模糊覆盖粗糙隶属度、非隶属度的概念,构建了两种新的模型即基于最小描述的多粒度覆盖粗糙直觉模糊集和基于最大描述的多粒度覆盖粗糙直觉模糊集,并讨论了它们的性质,同时举例说明;最后,分析和研究了两种模型的关系。该研究为多粒度覆盖粗糙集和直觉模糊集的融合提供了一种方法。

95-99

基于知识图谱的未登录词语义研究

作者:朱峰; 顾敏; 郑好; 顾彦慧; 周俊生; 曲维光 单位:南京师范大学计算机科学与技术学院; 南京210023

摘要:传统的应用于未登录词语义研究的语料库包含许多限制,例如更新慢、语言相关等。为了解决此问题,提出了基于知识图谱的中文未登录词语义研究方法。知识图谱是一种包含实体、概念及语义关系的语义网络。它具有丰富的实体,并且实体及其关系的添加极为方便,使得弥补传统语料库更新慢的缺憾成为可能。在充分熟悉知识图谱的结构、数据获取方法及相关数据处理方法后,进行基于知识图谱的未登录词语义研究的探索工作,最后以百度百科(目前最大的中文知识图谱)为语料资源,在同一语义分析模型下分别进行基于知识图谱与传统语料的实验,对实验结果进行分析并提出改进方法。

100-102

基于遗传优化谱聚类的图形分割方法

作者:覃晓; 梁伟; 元昌安; 唐涛 单位:广西师范学院计算机与信息工程学院; 南宁530023; 广西崇左市江州区科技情报所; 南宁532202

摘要:传统的谱聚类方法使用k-means达到最后的聚类目的。k-means对初始条件敏感,易陷入局部最优,从而导致传统的谱聚类方法应用到图像分割时效果不太理想。将遗传算法用于优化谱方法的聚类阶段,提出一种以遗传算法优化普聚类的图像分割方(Image Segmentation Algorithm of Spectral Clustering Optimization Basedon Genetic,ISCOG)。在合成图像与真实图像上的实验表明ISCOG算法极大地提高了谱聚类算法的稳定性和聚类质量,证明了ISCOG算法的优越性。