《计算机科学》-2019年第04期目录-好期刊

计算机科学 2019年第04期杂志文档列表

计算机科学杂志大数据与数据科学

1-7

动态数据流分析的在线超限学习算法综述

作者：郭威; 于建江; 汤克明; 徐涛单位：盐城师范学院信息工程学院; 江苏盐城224002; 南京航空航天大学计算机科学与技术学院; 南京21001

摘要：动态数据流分析是一个具有广泛应用价值的研究课题,在线学习方法是其中的一种关键技术。在众多在线学习方法中,在线贯序超限学习机(Online Sequential Extreme Learning Machine,OSELM)是一种新颖且实用的在线学习算法,目前已在动态数据流分析中得到了成功应用。首先,介绍了OSELM的理论基础和算法执行过程;然后,以动态数据流分析为应用背景,对各种改进OSELM算法进行了分类综述,包括基于滑动窗口的OSELM、基于遗忘因子的OSELM、基于样本加权的OSELM以及其他方法,重点论述了各类算法的设计思路和实现策略,并对其优缺点进行了比较和分析;最后,探讨了值得进一步研究的问题。

8-13

基于概率推断的质量控制智能体

作者：徐耀丽; 李战怀单位：西北工业大学计算机学院; 西安710072; 西北工业大学大数据存储与管理工业和信息化部重点实验室; 西安710129

摘要：实体解析(Entity Resolution,ER)是数据集成和清洗领域的基础问题,而不一致性消歧(Inconsistency Reconciliation,IR)通过对现存的不同ER算法产生的不一致记录对进行消歧,进一步提升解析效果。但是现有的IR方法有一个局限,即消歧结果没有质量保障。对此,首次提出了一个基于概率推断的质量控制智能体,记为QCAgent。该智能体不需要训练数据集,能够在满足给定查准率的约束条件下输出查全率最大的消歧结果。它的核心思想是:首先,使用异常点检测模型来估算不一致记录对匹配的概率,并依据这些概率估算查准率和查全率,再将计算出的查准率和查全率作为环境端的反馈;其次,使用二分搜索算法,选择满足查准率要求且查全率最大的翻转方案,作为QCAgent的下一次行动;然后,用更新后的一致结果训练异常点模型,并估算查准率和查全率。按此循环,当新估计的查准率满足约束条件时,该迭代过程停止。在真实的数据集上,实验结果表明:QCAgent能够有效解决消歧结果的质量控制问题。

14-21

交通事故时空模式可视分析方法

作者：饶永明; 张延孔; 谢文军; 刘璐; 刘新月; 罗月童单位：合肥工业大学计算机与信息学院; 合肥230000

摘要：随着城市化进程的推进,城市人口和车辆迅速增长,城市交通事故日益频发,成为社会关注的热点.以合肥市近十年的交通事故记录数据为研究对象,运用可视分析方法分析交通事故记录数据中事故发生的时间和地点信息,探究交通事故的时空模式,构建交通事故可视分析系统,以辅助相关部门改善交通事故频发问题.文中首次提出了道路事故危险度的概念,并以之为判定依据,结合多尺度时间统计折线图和周期性时间统计环形图等可视化方法,构建了一种新的事故多发路段的识别方法.与传统事故多发路段识别方法相比,本方法无需对道路进行分段处理,从而避免了分段优劣对识别结果的影响.在此基础上,将交通事故数据与城市路网数据相结合,运用可视分析技术构建交通事故可视分析系统.本系统可以帮助相关部门了解总体城市交通事故和单条道路的时间模式及事故多发路段,并探究连续时间限定或周期时间限定下的事故多发路段.除时间条件外,本系统还能识别不同天气等其他限定条件下的事故多发路段,从而使得交警部门能根据不同情况下的道路事故危险度来进行决策管理,并合理部署救援警力,降低事故危害.所提系统对缓解和遏制交通事故增长势头、减少和预防道路交通事故具有重要的现实意义,并且也有利于道路交通的科学有效管理.

22-27

基于层次聚类的不平衡数据加权过采样方法

作者：夏英; 李刘杰; 张旭; 裴海英单位：重庆邮电大学计算机科学与技术学院; 重庆400065

摘要：不平衡数据对传统分类算法的性能有一定影响,使得少数类的识别率降低。过采样是处理不平衡数据集的常用方法之一,其主要思想是通过增加少数类样本,使得少数类与多数类的数量能够在一定程度上达到平衡,但现有的过采样方法存在合成重叠样本以及过拟合的问题。文中提出一种基于层次聚类的不平衡数据加权过采样方法WOHC(Weighted Oversampling method based on Hierarchical Clustering)。该方法首先使用层次聚类算法对少数类进行聚类,将少数类样本划分为多个类簇,然后计算出类簇的密度因子来确定各类簇的采样倍率,最后根据每个类簇中样本与多数类边界的距离确定采样权重。利用该方法采样并结合C4.5算法在多个数据集上进行分类实验,结果表明使用该方法能够使分类算法在F-measure和G-mean指标上分别提升7.6%和5.8%,体现了该方法的有效性。

28-35

面向大规模图数据的分布式子图匹配算法

作者：许文; 宋文爱; 富丽贞; 吕伟单位：中北大学软件学院; 太原030051

摘要：图数据规模的爆发式增长使在单机上的子图匹配变得较为困难.尽管现有的分布式算法可以在一定程度上解决大规模图数据的子图匹配问题,但分布式环境中的网络通信代价仍然影响着算法的性能.为此,文中提出了DSGsearch分布式子图匹配算法,包含查询图拆分、数据图预处理、候选顶点过滤、中间结果合并4个步骤.其中,在数据图预处理步骤中使用图划分和完善邻居顶点策略来降低匹配过程中分布式计算节点之间的通信代价;在过滤候选顶点阶段设计DSgraph存储结构存储候选顶点,通过推迟笛卡尔积来减少冗余的中间结果.最后设计了对比实验并在具有7个计算节点的Spark分布式集群上使用真实数据集进行验证.实验结果表明,DSsearch算法能够在秒级时间内完成对百万规模顶点的数据图的子图匹配,尤其是在处理复杂查询图和稠密数据图方面更高效.数据图预处理策略的实验结果说明了通过顶点复制来降低分布式环境中网络通信代价这一策略的可行性.相比TwinTwigJoin、PSgL等算法,随着查询图顶点数量的增加,DSsearch算法的运行时间增长得更缓慢,当查询图顶点数量达到14时,其运行时间是TwinTwigJoin和PSgL算法的一半.实验数据充分说明,分布式环境中的网络通信代价和中间结果数量是影响分布式子图匹配算法的主要因素.实现数据图的预处理和推迟笛卡尔积解决了分布式子图匹配的性能瓶颈问题,有效地完成了大规模图数据的子图匹配.

36-43

面向隐式反馈的标签感知推荐方法

作者：李红梅; 刁兴春; 曹建军; 冯钦; 张磊单位：陆军工程大学; 南京210007; 国防科技大学第六十三研究所; 南京210007

摘要：为进一步提高面向隐式反馈的标签感知推荐性能,针对隐式反馈数据的稀疏性问题以及标签数据的冗余、语义模糊等问题,提出了一种基于用户细粒度偏好和增量加权矩阵分解的个性化推荐方法.为缓解隐式反馈数据稀疏不平衡的影响,提出使用协同近邻用户关系从大规模未观测数据中挖掘目标用户可能感兴趣的潜在项目,即近邻用户感兴趣但目标用户未选择的项目,进而提出了用户对项目的细粒度偏好假设:观测项目>潜在项目>其他未观测项目,改进传统成对偏好假设的粗糙性.为获取更为可靠的近邻用户,利用基于深度学习的方法来抽取用户G标签的低维、抽象的深层语义特征,缓解了原始标签数据的冗余、语义模糊等对用户表征的影响.最后,基于用户的细粒度偏好提出一种增量加权矩阵分解模型,并进行快速优化求解与推荐.实验结果表明:提出的算法在多个排序推荐准确性的评价指标(Pre@5,NDCG@5,MRR)上分别提升了约9%,8%,9%,验证了所提算法的有效性.

44-49

基于分布式无共享架构的海量数据并行查询平台

作者：秦东明; 喻剑; 张波; 赵勤单位：同济大学嵌入式系统与服务计算教育部重点实验室; 上海200092; 上海师范大学信息与机电工程学院; 上海200234

摘要：针对海量数据查询所面对的数据加载和并行查询控制等难题,提出了一种基于分布式无共享架构的海量数据并行查询平台.该平台利用分布式无共享架构为海量数据查询提供结构化与非结构化数据的统一处理,实现平台内数据的聚合计算.平台的核心技术如下:首先提供了多类型数据的跨平台存储与统一数据加载;然后给出了基于负载均衡的多节点数据查询任务流分配技术,生成全局查询执行策略;最后采用Hash和Range两种方式实现查询任务流的并发控制.根据测试验证,本技术在查询时间上相比于无并行方式节约了近40%.实验结果表明,该技术在海量数据查询的正确性、可靠性、并发性上具有较好的性能.

50-56

基于上下文相似度矩阵的Single-Pass短文本聚类

作者：黄建一; 李建江; 王铮; 方明哲单位：北京科技大学计算机与通信工程学院; 北京100083

摘要：在线社交网络已经成为人们信息交流的重要渠道和载体,形成了与现实世界交互影响的虚拟社会。众多的网络事件通过社交网络进行快速传播,可以在短时间内成为舆论热点,而负面事件会对国家安全和社会稳定造成冲击,从而引发一系列的社会问题。因此,挖掘社交网络中蕴含的热点信息,无论是从舆论监督方面还是舆情预警方面都具有重要的意义。文本聚类是挖掘热点信息的一种重要方法,然而,使用传统长文本聚类算法处理海量短文本时准确率将变低,复杂度急剧增长,从而导致耗时过长;现有的短文本聚类算法的准确率偏低、耗时过长。文中基于文本关键词,提出了结合上下文和相似度矩阵的关联模型,从而判断当前文本与上一文本的关联性。此外,根据该关联模型对文本关键词权重进行调整,以进一步降低噪声。最后,在Hadoop平台上实现了分布式的短文本聚类算法。与K-MEANS,SP-NN,SP-WC算法的比较实验验证了所提算法在话题挖掘速度、准确率和召回率等方面都具有更好的效果。

57-65

面向多尺度数据挖掘的数据尺度划分方法

作者：张昉; 赵书良; 武永亮单位：河北师范大学数学与信息科学学院; 石家庄050024; 河北师范大学河北省计算数学与应用重点实验室; 石家庄050024

摘要：多尺度挖掘在图形图像、地理信息、信号分析、数据挖掘等领域已有应用,多尺度数据挖掘在关联规则、聚类、分类挖掘领域也有相关研究与应用,但对如何对数据集进行普适性的多尺度划分以及如何构建多尺度数据集仍未展开研究,已有相关研究缺乏深度.文中从多尺度数据挖掘任务入手,定义了尺度概念,并给出了多尺度化数据集模型,以及基准尺度评分模型;依据概率密度估计的离散化方法提出了多尺度划分算法,扩展了可划分尺度的数据类型,划分结果更贴近数据的多尺度特性,且具有较低的时间复杂度;提出了多尺度化数据集方法、构建多尺度数据集算法和基准尺度选择算法,将多尺度熵与信息熵作为评价方法,在扩充多尺度化数据集方法的基础上,有效减弱了多尺度数据挖掘中因尺度推衍而产生的尺度效应,算法的时间复杂性也较为可控.利用H省真实人口数据集、UCI公用数据集和T10I4D100K数据集对所提算法和模型进行验证与实验分析,结果表明多尺度划分算法和多尺度化数据集方法是可行的,提出的多尺度化数据集方法和基准尺度评分模型是有效的,多尺度划分方法、构建多尺度数据集方法和基准尺度选择方法的应用平均提高了尺度推衍过程中1.6%的覆盖率、2.1%的F1Gmeasure和3.7%的正确率,且具有较低的平均支持度误差.

66-72

一种用于影像遗传学关联分析的高阶统计量结构化稀疏算法

作者：茹锋; 徐锦; 常琪; 阚丹会单位：长安大学电子与控制工程学院; 西安710064

摘要：神经影像技术和分子遗传学的发展产生了大量的影像遗传学数据,极大地促进了复杂精神疾病的研究.但因为该数据的特征维度过高且相关性的度量都是假设数据服从高斯分布,所以传统的算法往往无法很好地解释两类数据之间的依赖关系.为了解决传统算法的问题,文中提出了一种对大量SNP和fMRI数据进行关联分析的方法,该方法通过构建稀疏的特征网络结构来指导fusedlasso进行特征选择,与此同时,该方法利用高阶统计量提取出具有统计显著性的变量,从而识别出与精神疾病有关的生物标记物.实验结果表明,在模拟数据中所提算法得到的典型向量值的分布与实际数据中值的分布几乎一致且得到的相关系数与数据集中实际的相关系数最接近,所提算法的平均相关系数最高达到81%,比L1GSCCA提高了约20%,比FLGSCCA提高了约3%;在真实数据中,相比另外两种算法,所提算法可以找出更多的对精神分裂症有潜在影响的基因与脑区.实验结果证明:该算法可以在合理时间内有效识别出风险基因和异常脑区.

73-76

基于模糊神经网络的异常网络数据挖掘算法

作者：许磊; 王建新单位：北京林业大学信息学院; 北京100083

摘要：异常网络数据受到聚类中心的模糊加权扰动的影响,导致数据挖掘的聚类性不好.文中提出一种基于模糊神经网络的异常网络数据挖掘算法,该算法根据异常网络数据的混合分类属性进行相似度分析,提取异常网络数据的数值属性特征和分类属性特征,采用联合关联规则分析方法进行异常网络数据的模糊融合处理,采用基于模糊质心相异性的度量方法构建异常网络数据的分类模糊集,并在模糊数据集中进行异常网络数据混合加权和自适应分块匹配,进而提取异常网络数据的弱关联化特征量,最后将提取的特征量输入到模糊神经网络分类器中进行数据分类识别,完成异常网络数据的优化挖掘.仿真结果表明,采用所提方法进行异常网络数据挖掘的数据聚类性较好,挖掘过程的收敛性和抗干扰性较强.

77-82

基于多信息融合表示学习的关联用户挖掘算法

作者：韩忠明; 郑晨烨; 段大高; 董健单位：北京工商大学计算机与信息工程学院; 北京100048; 食品安全大数据技术北京市重点实验室; 北京100048; 信息网络安全公安部重点实验室公安部第三研究所; 上海200031

摘要：随着互联网技术的迅速发展和普及,越来越多的用户开始通过社会网络进行各种信息的分享与交流。网络中同一用户可能申请多个不同账号进行信息,这些账号构成了网络中的关联用户。准确、有效地挖掘社会网络中的关联用户能够抑制网络中的虚假信息和不法行为,从而保证网络环境的安全性和公平性。现有的关联用户挖掘方法仅考虑了用户属性或用户关系信息,未对网络中含有的多类信息进行有效融合以及综合考虑。此外,大多数方法借鉴其他领域的方法进行研究,如去匿名化问题,这些方法不能准确解决关联用户挖掘问题。为此,文中针对网络关联用户挖掘问题,提出了基于多信息融合表示学习的关联用户挖掘算法(Associated Users Mining Algorithm based on Multi-information fusion Representation Learning,AUMA-MRL)。该算法使用网络表示学习的思想对网络中多种不同维度的信息(如用户属性、网络拓扑结构等)进行学习,并将学习得到的表示进行有效融合,从而得到多信息融合的节点嵌入。这些嵌入可以准确表征网络中的多类信息,基于习得的节点嵌入构造相似性向量,从而对网络中的关联用户进行挖掘。文中基于3个真实网络数据对所提算法进行验证,实验网络数据包括蛋白质网络PPI以及社交网络Flickr和Facebook,使用关联用户挖掘结果的精度和召回率作为性能评价指标对所提算法进行有效性验证。结果表明,与现有经典算法相比,所提算法的召回率平均提高了17.5%,能够对网络中的关联用户进行有效挖掘。

计算机科学杂志网络与通信

83-88

语义驱动下的网络资源符号设计方法

作者：张龙; 周杨; 田江鹏; 赵海鹏单位：信息工程大学地理信息空间学院; 郑州450000

摘要：网络空间资源是认知网络空间的基本单元.系统化和结构化的网络资源符号体系可为正确认知和理解网络空间态势,快速共享和辨识网络态势标绘,客观把握和了解网络资源分布情况、所处状态和归属关系提供至关重要的帮助.为此,文中参考语义驱动下的地图符号设计方法,将自然语义学理论引入网络资源符号设计过程中,提出了一种语义驱动的网络资源符号设计方法.首先,分析和梳理了网络资源的构成,给出了网络资源符号结构和符号语义模型;其次,具体阐述了网络资源符号设计流程与方法;最后,进行了网络资源符号认知实验,并与美军网络态势标号进行了对比评价.实验结果表明,文中所设计的网络资源符号具有形象化和系统化的特点.

89-94

物联网服务的语义化描述:一种WSDL到OWLGS的转换方法

作者：凌静; 江凌云单位：南京邮电大学通信与信息工程学院; 南京210003

摘要：对于物联网服务的描述,现有的标准是基于XML(Extensible Markup Language)的WSDL(Web Services Description Language)语言,但WSDL语言不能对物联网服务进行语义方面的描述,从而影响了服务发现的准确率。在现有的语义服务描述语言中,OWL-S(Ontology Web Language for Services)语言的影响力最为深远。为了对物联网服务进行语义化描述,提出一种从WSDL到OWL-S的转换方法。通过操作映射和本体映射,该方法能够将已有WSDL文件转换为OWL-S文件。通过一些测试集合和实例验证了所提方法对文件转换的有效性,而且转换结果的查准率和查全率优于MWSAF方法。

95-99

复杂网络上多智能体系统的一致性研究

作者：张森; 刘文奇; 赵宁单位：昆明理工大学理学院; 昆明650500

摘要：如何有效提高多智能体系统的一致性收敛速度是一致性问题中的一个重要研究内容.一致性收敛速度可通过拉普拉斯矩阵的最小非零特征值来衡量,文中通过计算机仿真发现,对于不同的复杂网络模型,影响其一致性收敛速度的因素也不同.提高网络一致性收敛速度的具体方法是:在最近邻耦合网络中,减少节点数N或增大耦合数K;在NW小世界网络中,增加节点数N或者增大随机化加边概率p,因为收敛速度与二者具有良好的线性关系;在Waxman随机图网络中,增加节点数N或增大其模型中的参数α和β,当β增大时,收敛速度整体上呈线性增长,但会出现较小的波动.该研究结果对优化多智能体网络的一致性收敛速度有一定的指导作用.

计算机科学杂志北大期刊 CSCD期刊 统计源期刊

基本信息

BASIC INFORMATION

计算机科学 2019年第04期杂志文档列表

计算机科学杂志北大期刊CSCD期刊统计源期刊

基本信息

BASIC INFORMATION

计算机科学 2019年第04期杂志 文档列表

计算机科学杂志北大期刊 CSCD期刊统计源期刊

计算机科学 2019年第04期杂志文档列表