HI,欢迎来到好期刊网,发表咨询:400-888-9411 订阅咨询:400-888-1571证券代码(211862)

计算机科学杂志北大期刊CSCD期刊统计源期刊

  • 主管单位:国家科学技术部

  • 主办单位:国家科技部西南信息中心

  • ISSN:1002-137X

  • CN:50-1075/TP

计算机科学杂志

计算机科学 2018年第07期杂志 文档列表

计算机科学杂志第五届CCF大数据学术会议
1-6

深度强化学习研究综述

作者:赵星宇; 丁世飞 单位:中国矿业大学计算机科学与技术学院; 江苏徐州221116; 中国科学院计算技术研究所智能信息处理重点实验室; 北京100190

摘要:作为一种崭新的机器学习方法,深度强化学习将深度学习和强化学习技术结合起来,使智能体能够从高维空间感知信息,并根据得到的信息训练模型、做出决策。由于深度强化学习算法具有通用性和有效性,人们对其进行了广泛的研究,并将其运用到了日常生活的各个领域。首先,对深度强化学习研究进行概述,介绍了深度强化学习的基础理论;然后,分别介绍了基于值函数和基于策略的深度强化学习算法,讨论了其应用前景;最后,对相关研究工作做了总结和展望。

7-15

Spark性能优化技术研究综述

作者:廖湖声; 黄珊珊; 徐俊刚; 刘仁峰 单位:北京工业大学信息学部; 北京100124; 中国科学院大学计算机与控制学院; 北京101408

摘要:近年来,随着大数据时代的到来,大数据处理平台发展迅速,产生了诸如Hadoop,Spark,Storm等优秀的大数据处理平台,其中Spark最为突出。随着Spark在国内外的广泛应用,其许多性能问题尚待解决。由于Spark底层的执行机制极为复杂,用户很难找到其性能瓶颈,更不要说进一步的优化。针对以上问题,从开发原则优化、内存优化、配置参数优化、调度优化、Shuffle过程优化5个方面对目前国内外的Spark优化技术进行总结和分析。最后,总结了目前Spark优化技术新的核心问题,并提出了未来的主要研究方向。

16-21

一种基于空间变换的协同过滤推荐算法

作者:赵兴旺; 梁吉业; 郭兰杰 单位:山西大学计算机与信息技术学院; 太原030006; 计算智能与中文信息处理教育部重点实验室(山西大学); 太原030006

摘要:传统的协同过滤推荐算法在实际应用中往往面临着计算可扩展性的问题。为解决此问题,文中在基于物品的协同过滤推荐的框架下,通过融合社交关系信息,提出了一种基于空间变换的协同过滤推荐算法。首先,根据用户社交网络信息,运用社区发现算法将用户划分为不同的类;其次,基于评分信息,根据用户和物品之间的对应关系找到各个用户类所对应的物品类;最后,通过各个物品对每一物品类的隶属关系,将稀疏的高维评分信息矩阵转换为一个低维稠密的物品隶属度矩阵,进而基于该矩阵进行相似度计算并进行协同过滤推荐。在公开数据集上将所提方法与其他算法进行了对比实验分析,结果表明,所提算法能够在保证推荐准确性的同时明显提升计算效率。

22-30

噪音特征对聚类内部有效性的影响

作者:杨虎; 付宇; 范丹 单位:中央财经大学信息学院; 北京100081; 中国人民大学统计学院; 北京100872

摘要:聚类内部有效性指标是在未知样本真实分类情况下用于评价聚类结果优劣、寻找最佳聚类个数的指标,是聚类分析研究中的重要内容。虽然已有大量的研究分析了聚类内部有效性指标的性能,且有研究结论表明某些内部有效性指标的性能良好,能够辅助聚类算法找到最佳聚类个数,但这些研究未考虑真实数据中的噪音特征对内部有效性指标的影响,研究结论可能会误导内部有效性指标的选取和应用。为此,选取了10种常用的内部有效性指标来研究噪音特征对内部有效性特征选择和聚类结果的影响。结果表明,数据中的噪音特征会影响内部有效性指标的性能,除KL指标、CH指标和CCC指标对噪音特征的反应相对不敏感外,其他内部有效性指标均对噪音特征敏感,且聚类结果的准确性会随着噪音的增强而降低。

31-37

基于样本权重更新的不平衡数据集成学习方法

作者:陈圣灵; 沈思淇; 李东升 单位:国防科技大学并行与分布处理国家重点实验室; 长沙410073

摘要:不平衡数据的问题普遍存在于大数据、机器学习的各个应用领域,如医疗诊断、异常检测等。研究者提出或采用了多种方法来进行不平衡数据的学习,比如数据采样(如SMOTE)或者集成学习(如EasyEnsemble)的方法。数据采样中的过采样方法可能存在过拟合或边界样本分类准确率较低等问题,而欠采样方法则可能导致欠拟合。文中将SMOTE,Bagging,Boosting等算法的基本思想进行融合,提出了Rotation SMOTE算法。该算法通过在Boosting过程中根据基分类器的预测结果对少数类样本进行SMOTE来间接地增大少数类样本的权重,并借鉴Focal Loss的基本思想提出了根据基分类器预测结果直接优化AdaBoost权重更新策略的FocalBoost算法。对不同应用领域共11个不平衡数据集的多个评价指标进行实验测试,结果表明,相比于其他不平衡数据算法(包括SMOTEBoost算法和EasyEnsemble算法),Rotation SMOTE算法在所有数据集上具有最高的召回率,并且在大多数数据集上具有最佳或者次佳的G-mean以及F1Score;而相比于原始的AdaBoost,FocalBoost则在其中9个不平衡数据集上都获得了更优的性能指标。

38-41

一种多结构及文本融合的网络表征方法

作者:李佳艺; 赵宇; 王莉 单位:太原理工大学信息与计算机学院; 山西晋中030600; 太原理工大学大数据学院; 山西晋中030600

摘要:网络表征通过对网络结构的深度学习得到节点的矢量表征,挖掘网络中潜在的信息,是社会计算中的一种重要降维方法。针对一种融合了网络中的文本和结构的、基于矩阵分解的网络表征方法 TADW,首先分析并讨论了文本属性矩阵在矩阵分解式中的位置对网络表征效果的影响,并对此方法进行了优化;在此基础上,提出了一种融合关系结构、交互结构和文本属性的社交网络表征方法。在多个数据集上的实验结果表明,该方法在多分类任务中优于其他经典网络表征方法。

42-52

基于HBase的支持频繁更新与多用户并发的R树

作者:王波涛; 梁伟; 赵凯利; 钟汉辉; 张玉圻 单位:东北大学计算机科学与工程学院; 沈阳110169

摘要:基于位置服务的应用已经进入大数据时代,传统基于位置服务的技术面临系统扩展性、性能等方面的挑战。云计算技术是大数据处理的基础,索引是优化查询的重要手段。尽管目前已存在大量的研究成果,但尚未有HBase上的支持频繁更新与多用户并发的R树索引。针对移动对象索引的频繁更新与多用户并发的需求,文中提出了基于HBase的支持频繁更新与多用户并发的R树索引,它只索引包含移动对象的网格,避免了频繁更新问题;进一步基于HBase的数据行与数据分区的组织与读写特性,对R树的节点进行重组,并对网格Z-order编码,从而减少了对HBase的读写操作,提高了查询效率;最后提出了基于ZooKeeper分布式读写锁的优化策略,提高了索引的吞吐量。实验结果表明,与网格索引相比,在数据非均匀的情况下,所提策略的查询吞吐量提高了25%-50%,更新吞吐量约在同一数量级;与分布式共享锁索引相比,分布式读写锁索引的吞吐量提高了近40%。

计算机科学杂志第三十三届全国信息存储技术学术会议
53-60

基于NVM的存储安全综述

作者:李月; 王芳 单位:武汉光电国家研究中心信息存储系统教育部重点实验室(华中科技大学计算机科学与技术学院); 武汉430074; 深圳华中科技大学研究院; 广东深圳518000

摘要:大数据时代的来临为存储系统提供了新的机遇,同时也提出了新的挑战。传统的基于动态随机存储(DRAM)的内存架构面临着容量、能耗、可靠性等方面的问题;新型非易失存储器件(Non-Volatile Memory,NVM)具有非易失、字节寻址、空闲能耗低等优势,可以作为外存、内存或存储级内存(Storage Class Memory,SCM),为未来存储系统的变革提供了新选择,但同时也存在一些安全问题。NVM器件本身的耐久性有限,频繁对某一位置进行写操作时会造成该位置磨损,从而缩短设备的寿命;同时,由于具有非易失性,NVM被用作内存时,断电后数据不会丢失,攻击者可以通过窃取数据来提取敏感信息或对数据进行篡改;当NVM与DRAM构成混合内存时,可能会产生指针指向不明等问题;NVM作为SCM时,应用程序通过存取(load/store)接口直接对其进行访问,绕过了文件系统等权限管理和一致性管理机制。针对这些问题,文中总结了磨损均衡、减少写操作、减少写入量、内存加密、设计一致性机制、设计权限管理机制等解决办法;最后从硬件、操作系统以及编程模型层面探讨了仍须关注的NVM安全问题。

61-65

基于SSD-SMR混合存储的LSM树键值存储系统的性能优化

作者:王洋洋; 韦皓诚; 柴云鹏 单位:中国人民大学信息学院; 北京100872

摘要:大数据对存储系统的可扩展性、性能和成本等方面提出了更高的要求。瓦记录(Shingled Magnetic Recording,SMR)硬盘由于存储密度高、价格便宜,正逐步被广泛应用于大数据存储系统。但是,SMR硬盘的随机写性能较差,与快速的基于闪存的固态硬盘(Solid State Drive,SSD)一起构成混合存储时可以显著提升性能。同时,基于写优化的日志结构合并(Log-Structured Merge,LSM)树的键值存储已被广泛应用于许多NoSQL系统,如BigTable,Cassandra和HBase等。因此,如何基于新型的SSD-SMR混合存储构建出高性能的LSM树键值存储系统是一个具有很大研究价值的问题。首先建立基于SSD-SMR混合存储的LSM树键值系统的性能模型,然后针对SSD和SMR的硬件特征以及LSM树键值存储的软件特点,设计了一套面向SSD-SMR混合存储进行性能优化的LSM树键值存储系统,并基于LevelDB实现了该系统。在仅仅使用0.4%-2%空间的SSD的情况下,所提方法可以使SSD-SMR混合存储方案比普通磁盘方案的随机写性能提高20%,随机读性能提高5倍。

66-72

一种基于新能源驱动的存储系统的能耗优化方案

作者:庄晓照; 万继光; 张艺文; 瞿晓阳 单位:华中科技大学武汉光电国家实验室(筹); 武汉430074

摘要:能源成本的增长和环境问题的日益突出使得数据中心面临严峻挑战,引进经济环保的新能源已经迫在眉睫。但是,新能源的间歇性、不稳定性和突变性等特点,导致数据中心无法有效适应新能源。为此,各大数据中心提出能源管理策略和负载调度算法等解决方案,但是现有的研究成果大多是针对计算方面的能耗优化,无法适应于存储方面。鉴于此,提出一种基于新能源驱动的存储系统的能耗优化方案,利用不同存储介质的特性和在线-离线负载划分模型来实现负载能耗需求和新能源供应的匹配。为保证存储系统的性能和能耗效率,采用双驱动和虚拟化合并技术实现细粒度的能耗控制方案;此外,还设计并实现了一种离线负载优化调度算法,进一步提高了新能源的利用率。实验结果表明,优化能耗方案可以使新能源的利用率达到95%,同时保证存储系统性能的退化比例低于9.8%。

73-77

求解01背包问题的贪婪蛙跳算法

作者:高思齐; 邢玉轩; 肖侬; 刘芳 单位:国防科技大学计算机学院; 长沙410073

摘要:01背包问题是经典的组合优化问题,被广泛应用于生活中的多个领域,如货物装载、预算控制、资源分配和资产管理等。因此,长期以来许多科学家在该领域不断钻研,并取得了丰硕的成果。尽管01背包问题已被研究多年,但由于该问题已被证明为NP完全问题,因此找到最优解并不容易。近年来,大量的智能算法不断被提出并被用来求解01背包问题,如化学反应优化算法、遗传算法、粒子群算法、蛙跳算法、人工蜂群算法、爬山算法和模拟退火算法等。通过对智能算法和01背包问题的探索,文中提出了贪婪蛙跳算法(GFLA)来解决01背包问题。不同于传统的蛙跳算法,GFLA总会在每次模因搜索过程中更新全局最优解,以便在接下来的全局搜索过程使用最新的全局最优解进行搜索,从而扩大解的搜索空间。除了蛙跳算法这类传统的局部搜索和全局搜索策略之外,针对01背包问题,在计算适应度值的阶段,本工作提出了贪心策略并分别将其应用于drop和add两个步骤。在drop阶段,若背包超重,则将其中价值密度最小的物品移出并更新解决方案。在add阶段,若背包还有承载物品的能力,则将未放入背包的重量最小的物品放入背包,并对背包信息进行更新。这样,便大大提高了利用蛙跳算法来求解01背包问题的能力。将贪婪蛙跳算法与蜂群算法、化学反应优化算法、遗传算法和量子演化算法进行对比,结果显示,贪婪蛙跳算法取得了最好的结果,从而表明了该算法是求解01背包问题的有效算法。

78-83

NMST:一种基于线段树的持久性内存管理优化方法

作者:侯泽毅; 万虎; 徐远超 单位:首都师范大学信息工程学院; 北京100048; 中国科学院计算技术研究所计算机体系结构国家重点实验室; 北京100190

摘要:新型非易失存储介质(Non-Volatile Memory,NVM)的出现引发了编程模型的革新。现有的基于函数库的编程模型为存储系统提供的ACID特性解决了数据一致性问题,但是在分配持久性内存时,延迟较大,不能很好地满足应用程序对动态内存分配速度的要求。针对现有函数库编程模型中存在持久化内存管理和分配低效的问题,以目前最具代表性的函数库编程模型NVML为基础,提出了一种基于线段树的持久性内存管理分配优化方法 NMST;另外,针对线段树在持久性内存分配过程中维护连续空间时开销较大的问题,提出构造多粒度叶子结点的线段树的方法。实验结果表明,相比于NVML原始方法,NMST方法在分配持久性内存时使延迟降低了36.9%,而优化后的NMST方法在分配持久性内存时使延迟降低了43.6%。实验结果也证明,性能提升的大小与调用NVML函数库的程序中实际持久性内存分配的次数及粒度紧密相关。

计算机科学杂志网络与通信
84-89

流星余迹通信网络的路由算法

作者:高航; 慕晓冬; 易昭湘; 仝彤; 袁覃恩 单位:火箭军工程大学信息工程系; 西安710025

摘要:流星余迹通信是一种重要的应急通信方式。其通信网络具有传输延时长和链路间歇中断的特点,适用于这种特殊网络的路由算法具有明显的针对性,有待深入研究。文中在研究流星余迹网络拓扑结构的基础上,基于OPNET仿真软件构建流星余迹组网模型,结合适用于DTN(Delay Tolerant Network)网络的ED(Earliest Delivery)算法和EDLQ(Earliest Delivery with Local Queue)算法的特点,分析通信时延模型,提出一种改进的OED(Optimistic Earliest Delivery)算法。基于已建立的模型对数据传输成功率和网络吞吐量进行仿真。仿真结果表明,OED算法在组网网络的数据吞吐量和数据传输成功率方面优于ED算法和EDLQ算法,能够避免因队列溢出导致的数据包丢失;通过增大节点容量,OED算法的数据通过率相对于ED算法和EDLQ算法分别提升了20%和8%;路由算法的选择不影响流星余迹节点间链路的平均持续时间和平均中断等待时间。OED算法在流星余迹网络中具有较强的适应性,能够为流星余迹组网的建设提供参考。

90-94

基于云环境的高效任务调度算法

作者:钟志峰; 张田田; 张; 易明星; 曾张帆 单位:湖北大学计算机与信息工程学院; 武汉430062

摘要:高效的任务调度是云服务提供商高效处理业务并降低运营成本的关键。针对云环境下的任务调度问题,提出一种贪心模拟退火的新型算法。首先,利用贪心算法求出局部最优解,并用它来初始化所提新型算法的当前最优解及模拟退火算法的初始解;然后,采用模拟退火算法来不断更新当前最优解。实验结果表明,与传统调度算法相比,所提算法能够更快地达到全局收敛,并得到更加稳定的寻优结果,提高了寻优的质量和效率;同时,该算法不仅减少了总任务时间开销,而且使虚拟机的平均资源利用率稳定在99%以上,负载也更加均衡。

95-98

一种面向节点负载均衡的虚拟网络重构算法

作者:李振涛; 孟相如; 赵志远; 苏玉泽 单位:空军工程大学信息与导航学院; 西安710077

摘要:为提高虚拟网络请求接受率,针对物理节点负载不均衡的问题,提出一种面向节点负载均衡的虚拟网络重构算法。根据物理节点的平均可用计算资源和最小可用计算资源,设置一个阈值,对超过阈值的物理节点进行重配置,动态地选择需要迁移的虚拟节点,在均衡物理节点负载的情况下,尽可能地减少虚拟节点的迁移数量。仿真结果表明,所提方法均衡了物理节点负载,提高了物理网络资源利用率和虚拟网络请求接受率。