HI,欢迎来到好期刊网,发表咨询:400-888-9411 订阅咨询:400-888-1571证券代码(211862)

数据挖掘技术分析论文集锦9篇

时间:2023-03-22 17:34:36

数据挖掘技术分析论文

数据挖掘技术分析论文范文1

数据挖掘技术综述

数据挖掘(Data Mining)是一项较新的数据库技术,它基于由日常积累的大量数据所构成的数据库,从中发现潜在的、有价值的信息——称为知识,用于支持决策。数据挖掘是一项数据库应用技术,本文首先对数据挖掘进行概述,阐明什么是数据挖掘,数据挖掘的技术是什么,然后介绍数据挖掘的常用技术,数据挖掘的主要过程, 如何进行数据挖掘,主要应用领域以及国内外现状分析。

一. 研究背景及意义

近十几年来,随着数据库系统的广泛流行以及计算机技术的快速发展,人们利用信息技术生产和搜集数据的能力大幅度提高。千万个数据库被用于商业管理、政府办公、科学研究和工程开发等,特别是网络系统的流行,使得信息爆炸性增长。这一趋势将持续发展下去。大量信息在给人们带来方便的同时也带来了一大堆的问题:第一是信息过量,难以消化;第二是信息真假难以辨认;第三是信息安全难以保证;第四是信息形式不一致,难以统一处理。面对这种状况,一个新的挑战被提出来:如何才能不被信息的大海所淹没,从中及时发现有用的知识,提高信息利用率呢?这时出现了新的技术——数据挖掘(Data Mining)技术便应用而生了。

面对海量的存储数据,如何从中发现有价值的信息或知识,成为一项非常艰巨的任务。数据挖掘就是为迎合这种要求而产生并迅速发展起来的。数据挖掘研究的目的主要是发现知识、使数据可视化、纠正数据。

二. 概述

1,数据挖掘

数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。这些数据可以是结构化的,如关系数据库中的数据,也可以是半结构化的,如文本,图形,图像数据,甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的,也可以是非数学的,可以是演绎的,也可以是归纳的。发现了的知识可以被用于信息管理、查询优化、决策支持、过程控制等,还可以进行

数据自身的维护。数据挖掘借助了多年来数理统计技术和人工智能以及知识工程等领域的研究成果构建自己的理论体系,是一个交叉学科领域,可以集成数据数据库、人工智能、数理统计、可视化、并行计算等技术。 2,数据挖掘技术

数据挖掘就是对观测到的数据集进行分析,目的是发现未知的关系和以数据拥有者可以理解并对其有价值的新颖方式来总结数据。它利用各种分析方法和分析工具在大规模海量数据中建立模型和发现数据间关系的过程,这些模型和关系可以用来做出决策和预测。

数据挖掘的过程就是知识发现的过程,其所能发现的知识有如下几种:广义型知识,反映同类事物共同性质的知识;特征型知识,反映事物各方面的特征知识;差异型知识,反映不同事物之间属性差别的知识;关联型知识,反映事物之间依赖或关联的知识;预测型知识,根据历史的和当前的数据推测未来数据;偏离型知识,揭示事物偏离常规的异常现象。所有这些知识都可以在不同的概念层次上被发现,随着概念树的提升,从微观到中观再到宏观,以满足不同用户、不同层次决策的需要。

数据挖掘是涉及数据库、人工智能、数理统计、机械学、人工神经网络、可视化、并行计算等的交叉学科,是目前国际上数据库和决策支持领域的最前沿的研究方向之一。

3,数据挖掘的功能

数据挖掘通过预测未来趋势及行为,做出预测性的、基于知识的决策。数据挖掘的目标是从数据库中发现隐含的、有意义的知识,按其功能可分为以 下几类。

3.1 关联分析(Association Analysis)

关联分析能寻找到数据库中大量数据的相关联系,常用的一种技术为关联规则和序列模式。关联规则是发现一个事物与其他事物间的相互关联性或相互依赖性。

3.2 聚类

输入的数据并无任何类型标记,聚类就是按一定的规则将数据划分为合理的集合,即将对象分组为多个类或簇,使得在同一个簇中的对象之间具有较高的相似度,而在不同簇中的对象差别很大。聚类增强了人们对客观现实的认识,是概念描述和偏差分析的先决条件。聚类技术主要包括传统的模式识别方法和数学分类学。

3.3 自动预测趋势和行为

数据挖掘自动在大型数据库中进行分类和预测,寻找预测性信息,自动地提出描述重要数据类的模型或预测未来的数据趋势,这样以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。。

3.4 概念描述

对于数据库中庞杂的数据,人们期望以简洁的描述形式来描述汇集的数据集。概念描述就是对某类对象的内涵进行描述并概括出这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别。生成一个类的特征性只涉及该类对象中所有对象的共性。生成区别性描述的方法很多,如决策树方法、遗传算法等。

3.5 偏差检测

数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。偏差包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等。偏差检测的基本方法是寻找观测结果与参照值之间有意义的差别。这常用于金融银行业中检测欺诈行为,或市场分析中分析特殊消费者的消费习惯。

三.目前的研究现状及存在的主要问题

自KDD一词首次出现在1989年8月举行的第11届国际联合人工智能学术会议以来。迄今为止,由美国人工智能协会主办的KDD国际研讨会已经召开了13次,规模由原来的专题讨论会发展到国际学术大会,人数由二三十人到超过千人,论文收录数量也迅速增加,研究重点也从发现方法逐渐转向系统应用直到转向大规模综合系统的开发,并且注重多种发现策略和技术的集成,以及多种学科之间的相互渗透。其他内容的专题会议也把数据挖掘和知识发现列为议题之一,成为当前计算机科学界的一大热点。

与国外相比,国内对DMKD的研究稍晚,没有形成整体力量。1993年国家自然科学基金首次支持我们对该领域的研究项目。目前,国内的许多科研单位和高等院校竞相开展知识发现的基础理论及其应用研究,这些单位包括清华大学、中科院计算技术研究所、空军第三研究所、海军装备论证中心等。其中,北京系统工程

研究所对模糊方法在知识发现中的应用进行了较深入的研究,北京大学也在开展对数据立方体代数的研究,华中理工大学、复旦大学、浙江大学、中国科技大学、中科院数学研究所、吉林大学等单位开展了对关联规则开采算法的优化和改造;南京大学、四川联合大学和上海交通大学等单位探讨、研究了非结构化数据的知识发现以及Web数据挖掘。

四. 研究内容

1,数据挖掘的过程

数据挖掘是指一个完整的过程,该过程从大型数据库中挖掘先前未知的、有效的、可实用的信息,并使用这些信息做出决策或丰富知识。

数据挖掘的一般过程如下流程图所示:

图1,数据掘的一般过程

2.1 神经网络

神经网络方法是模拟人脑神经元结构,以MP模型和Hebb学习规则为基础。它主要有三种神经网络模型:前馈式网络、反馈式网络、自组织网络。为

2.2决策树

决策树学习着眼于从一组无次序、无规则的事中推理出决策树表示形式的分类规则。它采用自顶向下的递归方式,在决策树的内部结点进行属性值的比较并根据不同的属性值判断从该结点向下的分支,在决策树的叶结点得到结论。

2.3 遗传算法

遗传算法是一种优化技术,是模拟生物进化过程的算法。基于进化理论,并采用遗传结合、遗传变异以及自然选择等设计方法。由三个基本算子组成:繁殖、交叉、变异。

2.4 传统统计分析

这类技术建立在传统的数理统计的基础上。在数据库字段项之间存在两种关系:函数关系(能用函数公式表示的确定性关系)和相关关系(不能用函数公式表示,但仍是相关确定性关系),对它们的分析可采用判别分析、因子分析、相关分析、多元回归分析及偏最小二乘回归方法等。

2.5 关联规则

关联规则是发现一个事物与其他事物间的相互关联性或相互依赖性。关联规则是展示属性: 值频繁地在给定数据集中一起出现的条件,是数据挖掘中作用比较广泛的知识之一。

2.6 可视化技术

可视化技术是利用计算机图形学和图像技术,将数据转换成图形或图像在屏幕上显示出来,并进行交互处理的理论、方法和技术。可视化数据挖掘技术将可视化有机地融合到数据挖掘之中,使用户对于数据挖掘有一个更加直接直观清晰的了解,提供让用户有效、主动参与数据挖掘过程的方法。

3,数据挖掘的应用领域

数据挖掘技术从一开始就是面向应用的。它不仅是面向特定数据库的简单检索查询调用,而且要对这些数据进行微观、中观乃至宏观的统计,分析,综合和推理,以指导实际问题的求解,企图发现事件间的相互关联,甚至利用已有的数据对未来的活动进行预测。

一般Data Mining较长被应用的领域包括金融业、保险业、零售业、直效行销业、通讯业、制造业以及医疗服务业等。更广义的说法是:数据挖掘意味着在一些事实或观察数据的集合中寻找模式的决策支持过程。

4,数据挖掘的发展方向

目前,数据挖掘的研究方面主要有:数据库知识发现方面,将知识发现(KDD)与数据库系统、数据仓库系统和Web数据库系统紧密结合,力图充分利用Web中的丰富资源;机器学习方面,进一步研究知识发现方法,希望克服现存算法的计算性瓶颈,如注重对Bayes(贝叶斯)方法以及Boosting算法的研究和提高;统计领域,加大传统统计方法在数据挖掘中的应用。数据挖掘研究正蓬勃开展,在今后还会掀起更大的波澜,其研究焦点集中到以下几个方面:研究专门用于知识发现的数据挖掘语言,也许会像SQL语言一样走向形式化和标准化;寻求数据挖掘过程中的可视化方法,使得知识发现的过程能够被用户理解,也便于在知识发现过程中的人机交互;研究在网络环境下的数据挖掘技术,特别是在Internet上建立数据挖掘服务器,与数据库服务器配合,实现数据挖掘;加强对各种非结构化数据的挖掘,如文本数据、图形图像数据、多媒体数据。

5,数据挖掘的新技术

Web数据挖掘技术首要解决半结构化数据源模型和半结构化数据模型的查询与集成问题。这就必须要有一个模型来清晰地描述Web上的数据,而寻找一个半结构化的数据模型是解决问题的关键所在。除此之外,还需要一种半结构化模型抽取技术,即自动地从现有数据中抽取半结构化模型的技术。

XML可看作一种半结构化的数据模型,可以很容易地将XML的文档描述与关系数据库中的属性对应起来,实施精确地查询与模型抽取。利用XML.Web设计人员不仅能创建文字和图形,而且还能构建文档类型定义的多层次、相互依存的系统、数据树、元数据、超链接结构和样式表。

6,数据挖掘面临的问题和挑战

虽然数据挖掘技术已经在各方面都得到了广泛的应用,但数据挖掘技术的研究还不够成熟,在应用上有很大的局限性。正是这些局限性,促使数据挖掘技术进一步的发展:

(1)挖掘的对象 数据库更大,维数更高,属性之间更复杂,数据挖掘处理的数据通常十分巨大。

(2)数据丢失问题 因大部分数据库不是为知识发现而定做的,那么它就有可能会存在一些重要的数据和属性丢失的问题。

(3)多种形式的输入数据 目前数据挖掘工具能处理的数据形式有限,一般只能处理数值型的结构化数据。

(4)网络与分布式环境的KDD问题 随网络的发展,资源的丰富,技术人员各自独立处理分离数据库的工作方式应是可协作的。

五.研究达到的预期结果

系统的介绍数据挖掘技术,使更多的研究人员在数据库中发现有用的,有潜在价值的数据知识。

六.小结

通过各方面资料的查找,理解了基本的数据挖掘概念、数据挖掘技术、数据挖掘的实际应用及国内外现状。在论文中将对数据挖掘的概念以及发展概况进行介绍,并总结数据挖掘中使用的技术,主要结合当前的研究成果,分析了数据挖掘领域的。研究领域方面,可能主要集中在网络信息中的主要应用。

七.毕业论文进程安排

序号 论文各阶段安排内容 日期

1 资料调研及方案设计 1.4-1.10

2 数据挖掘的概论研究 1.11-1.25

4 数据挖掘常用技术研究 1.26-2.15

5 数据挖掘的应用研究 2.15-3.1(中期检查)

6 数据挖掘的新技术研究 3.1-3.10

7 数据挖掘的发展方向 3.11-3.16

8 撰写论文 3.16-4.10

数据挖掘技术分析论文范文2

Abstract: The characteristic of data mining technology course and the problems in the course teaching were analyzed. Based on them, some countermeasures were proposed to improve the effect of course teaching of data mining technology.

关键词: 数据挖掘技术;课程;教学

Key words: data mining technology;course;teaching

中图分类号:G642.0 文献标识码:A 文章编号:1006-4311(2011)25-0155-01

0 引言

数据挖掘技术是电子商务专业的一门重要专业课程,它是信息化时代对信息与数据管理的必然要求。一方面,在生产、生活和商业活动中,我们产生了海量的数据,这些数据有着不同的表现形式,如最常见的超市记录单、各种各样的公司或商业数据库,还包括音频、视频等;另一方面,我们需要从这些数据中寻求规律,对数据进行“挖掘”,使数据发挥更大的作用[1]。数据挖掘正是从大量的数据中提取出隐含的、以前不为人所知的、可信而有效的知识[2]。数据挖掘技术教学的目的就是要使学生掌握典型的数据挖掘技术,并能够运用数据挖掘技术解决实际问题,为今后运用数据挖掘技术解决实际问题打下扎实的基础。

1 数据挖掘技术课程特点

数据挖掘技术具有自己独特的课程特点:

1.1 新颖性 1995年,在加拿大召开了第一届知识发现和数据挖掘国际学术会议(International Conference on Knowledge Discovery and Data Mining),由于把数据库中的数据形象地比喻为“矿床”,“数据挖掘”一词很快流传开来[3]。数据挖掘的发展仅有10余年的时间,数据挖掘技术课程是一门新兴学科。

1.2 内容广 数据挖掘包括关联规则挖掘、分类规则挖掘、特征规则挖掘、时序规则挖掘、偏差规则挖掘、聚类规则挖掘和预测这七大任务,相应的,每种任务都有自己专门的挖掘技术[4],如关联规则挖掘的典型技术为Apriori算法及其衍生技术,分类规则挖掘的典型技术为ID3或C4.5决策树算法及其改进算法等。

1.3 有深度 数据挖掘技术作为一门计算机与数据处理相结合的新兴学科,具有一定的难度。其中的任何一个技术都可以独立成篇,如粗糙集分类算法自原理至实例推广就是一门单独的课程;作为数据处理的重要内容,聚类算法同样可以独立成籍。

1.4 交叉性 诚如前面所述,数据挖掘技术有着广泛的支撑背景,既包括信息论方法和集合论方法等归纳学习类技术,又包括神经网络方法、遗传算法方法、蚁群算法等仿生物技术,还包括成熟的统计分析技术和模糊数学技术,此外还有公式发现类技术和可视化技术等。可以这样说,数据挖掘总是在广泛吸取其他各门学科的先进技术,并加以转化、发展的。

2 数据挖掘技术教学过程存在的问题剖析

数据挖掘技术作为一门新学科、新课程,发展迅速,但是其缺点也是不言而喻的,主要包括:

2.1 课程教材不统一 目前,数据挖掘技术的教材层出不穷,这些教材尽管总体涵盖内容相近,均自成体系,但是有的细节却并不一致,如多数教材主张采用E-R图进行数据仓库(数据挖掘通常总是与数据仓库连接在一起的)设计,但也有教材持反驳态度[3];对数据仓库系统的体系结构说法也不尽一致,不同的教材给出不同的体系结构,有的甚至将数据结构等同于体系结构[5]。这主要是由于学科和课程的新颖性导致的,使得教材的编写多带有研究探索的性质,未能达成统一。

2.2 教学重点不统一 教材的不统一和学时的不统一(如有的院校是36课时,有的是48课时)导致教学重点也不统一,有的考虑到学生掌握知识的浅显性,将重点放在统计分析技术,而对神经网络技术和遗传算法技术等相对较难的技术一笔带过;有的则考虑到体系的完整性,对所有数据挖掘技术等同对待,均匀笔墨。

2.3 教学方式不统一 数据挖掘技术是一门实验技术较强的课程,但是有的教师在安排授课时,仅设置理论课时,没有实验课时;有的教师则将课程直接放在实验室来上,偏重于对学生实验技巧的掌握。当然,更多的是将实验课时与理论课时交错进行的。对实验安排的处理也不尽相同,有的分组进行,有的则由学生独立完成。

3 提高数据挖掘技术课程效果的对策建议

3.1 精心编排课程讲义 课程教材是授课的首要基础,一本好的教材不仅便于教师的备课、授课,更有利于学生的理解。当然,教材与课时、教学大纲有着密切关系,教师在选择教材时应充分考虑学生的学科基础、授课课时数、教学大纲规定的培养目标等各种因素,从大量层出不穷的教材中选择最理想的教材,适当的时候也可根据相关教材,整理一份恰当的讲义教材,组织学生使用。

3.2 合理安排教学内容 数据挖掘技术的教学内容应考到学科体系的完整性,既要为学生打牢理论基础,又要突出学生实践能力的培养。因此要以“掌握理论、强化应用、突出能力”作为数据挖掘技术课程的培养目标,通过精选具有充分代表性、源于实际问题的典型例题与案例,使它们能基本覆盖在实际中最常见的数据挖掘问题,在讲解这些从实践中抽取并经过精心改造和设计的例题和案例的过程中,逐步地建立起学生应该掌握的数据挖掘技术理论框架。

4 结束语

数据挖掘技术教学具有十分重要的现实意义,通过科学讲述数据挖掘技术,有助于培养学生对理论知识的现实应用转化能力,培养学生从现实世界出发提出问题、分析问题和解决问题的能力。数据挖掘技术的教学应以培养学生能力为主线,精心组织教学内容,有效采用多种方式,增进学生对知识的理解与掌握,显著提高教学效果与质量。

参考文献:

[1]陈文伟.数据仓库与数据挖掘教程[M].北京:清华大学出版社,2006.

[2]Jiawei Han,Micheline Kamber著.范明,孟小峰译.数据挖掘:概念与技术[M].北京:机械工业出版社,2007.

[3]周根贵.数据仓库与数据挖掘[M].杭州:浙江大学出版社,2004.

数据挖掘技术分析论文范文3

关键词:Web数据库;数据库挖掘技术

中图分类号:TP311.13

互联网是人类快捷获得信息的一种重要渠道,为社会做出了巨大贡献,随着经济技术的进步,互联网越来越复杂,在当前时代,既是机遇,也是挑战。信息资源数据库对信息的储存和查询很有帮助,使人们能够更为方便地获得所需信息,当Web技术与数据库系统相结合后,信息的开放性也引发了信息的安全质量问题,因此,需要对Web数据库进行深度挖掘,以更好地为人们服务。

1 Web数据库及数据库挖掘技术

1.1 Web数据库

近些年来,网络技术已深入到社会各个角落,数据库系统也有了极大的进步,将两者相结合来开发Web的深度资源已成为当前重点研究的问题。Web数据库技术是一种以Web查询接口方式对数据库资源进行访问而且能够实现远程操控的技术,通过数据库与Web的连接可以产生一个在任何地方皆可操作的动态页面,即对核心数据库的信息资源进行查询,系统会以Web页面作为访问接口,并将查询结果以Web页面的形式展现出来。目前的Web数据库通常有数据收集、数据供应以及元搜索三种集成方式。

1.2 数据库挖掘技术

在当前信息化时代,人们的信息需求量骤增,信息资源储存量也不断扩大,加大了查询的难度,因此,如何在最短时间内获得所需信息是当前必须考虑的问题。深度挖掘技术具有关联分析、偏差分析以及分类等功能,能够从随机的海量数据中提取潜在有用的信息资源。须注意的是,并非每一个数据库信息的发现都是数据挖掘,如查询数据库管理系统中的记录等属于信息检索的领域。数据库挖掘技术在不断地改进,为进一步实现信息的传递,该技术融合了模式识别、统计学、进化计算以及搜索建模等知识。

2 Web数据库挖掘技术分析

2.1 数据的预处理

挖掘效果取决于被挖掘数据的质量,在实际采集中,数据存在着很多问题,如不完整性;在异常数据较多的情况下,常会带有噪声;数据的不一致性也是较为常见的问题,如数据名称的差异等。因此,预处理就显得尤为重要,在数据挖掘中的作用不可小觑,尤其是挖掘一些有残缺的数据资源时,为了提升挖掘质量,务必要提前对所挖掘的数据对象进行预处理。

2.2 模式识别

挖掘技术具有相关分析及计算的功能,模式识别即是借助统计法对识别的结果进行挖掘计算。实现算法可以采取一般的统计方法,也可以利用其他形式的结果,主要包括页面的浏览时间、访问次数以及统计分析等。在此阶段,关联规则的作用是发现用户访问的各个页面之间的关系。当利用浏览器对相关Web站点进行访问时,可建立相应的模型,以方便统计用户的访问模式。

2.3 模式分析

该环节即是采取科学的技术方法以及必须的操作工具对挖掘结果中的用户模式进行分析,经过对比,选择最为合理的模式,进而更好地对数据信息进行理解,充分利用各种用户模式。同时,在此阶段,有些比较特殊的信息结构,能够滤除诸如特定数据或超链接网页等模式。从当前的统计结果看,大约有30种商业性质的Web分析工具,合理地利用这些工具,有利于获得更多的信息,包括网页点击率、用户群特点及用户爱好等信息。须注意的是,这些数据在使用时常会很多问题,如维护较难、不够灵活、结果准确度得不到保障等。

3 Web数据库挖掘方法及应用

3.1 挖掘方法

(1)粗集方法

该方法对信息的要求较为简单,而且便于运算表达,但准确度上稍有瑕疵。利用该方法处理信息对象,和二维关系有所相似。连续属性在数据库信息表中较为普遍,而集合论是该方法的数学基础,采用粗集法不能直接处理一些连续的属性,因此,尽管数据库技术有了很大进步,为挖掘技术提供了必要的前提条件,但在实际操作中还是会有很大的制约。

(2)模糊集方法

该方法主要是在解决一些实际问题时,利用模糊集合理论对其进行的模糊识别分析。通常来说,数据库系统越是复杂,模糊性越强,在描绘模糊事物的属性时,模糊集合理论多采用隶属度进行。随着研究的进一步加深,以传统的模糊理论为基础,结合概率统计,专业研究人员提出了一种新的模型,即云模型,并建立了相应的云理论。

(3)覆盖正例排斥反例的方法

该方法的理论思想即是指覆盖所有的正例,或者排斥所有的反例,以此来寻找内在的规律。具体方法如下,在正例集合中任意选择一个正例种子,与反例集合中的所有种子逐一比较,若与字段取值构成的选择相容,则将之去除;若相反,则将其保留。按照这种方式对全部正例种子进行选择,最终得到正例的规则。

(4)统计分析法

一般而言,数据库的字段之间有函数和相关两种关系,利用统计学分析法可对二者进行仔细分析,即对统计学理论加以运用,从而更好地分析数据库中的信息资源。除了统计分析法,还可利用相关分析、差异分析等方式。

3.2 应用分析

(1)电子商务应用

随着信息化技术的进步,电子商务的作用日益重要,同时也存在着些许不足,如客户量较大,不好处理;信息的安全性等。采取Web数据挖掘技术,能够深度挖掘来访客户的信息,并按照一定的标准对其进行分类,然后分析客户的具体特征,保证企业能够全面完整地了解客户,以便提供更好地服务。同时,利用挖掘技术的关联分析功能寻找相关的客户资源,或者保留客户在页面上出现的时间段,从而创造更大的利润空间。

(2)网络教育应用

如今,互联网已经很普及,许多行业都纷纷引进了网络技术,教育也朝着网络化的方向发展。通过网络,学生能够快速获得所需信息,而且知识比较全面,学校也能根据此对学生的学习需求作进一步的了解。因为学生不同,网络教学需要提供个性化的教学方式,Web数据库挖掘技术能够从海量的信息数据库中将学生感兴趣的、隐含的信息资源挖掘出来,从而为学生提供更加方便的网络教育服务。

4 结束语

随着人们信息需求量的增加,数据库技术迅速发展,而互联网是当前获得信息的重要途径,二者结合将会构成一个巨大的数据库,同时也加大了信息传递的难度。以Web数据库为基础的数据库挖掘技术能够提高信息检索的速度和准确度,在网络教育、电子商务等领域得到了广泛应用。

参考文献:

[1]曾霖.基于Web数据库的数据库挖掘技术探究[J].软件,2013,27(2):174-176.

[2]艾孜海尔江・艾合买提.基于Web数据库的数据库挖掘技术分析[J].科技致富向导,2012,24(27):217-219.

[3]李琳.基于web的数据挖掘技术[J].自动化与议仪表,2007,21(2):174-176.

数据挖掘技术分析论文范文4

关键词:网络舆情;监测引导;Web数据挖掘

中图分类号:C93 文献标志码:A 文章编号:1673—291X(2012)28—0227—03

一、时代背景

互联网时代是人类历史上一个空前伟大的技术革命时代。现代信息技术、通讯传播技术、网络技术等众多现代化的传播技术已渗透到社会生活的各个领域。互联网广泛性、即时性、开放性、共享性和互动性的特点及丰富多彩、方便实用的应用形式决定其日益成为反映社情民意的重要阵地,网上热点层出不穷,网络舆情对国家事务、公共事务决策的影响力也日益加大。历史原因曾使中国长期处于封闭状态,国内关于舆情的研究起步较晚,目前迫切需要提升与之相应的理论和技术支持。舆情分析与监测是信息深加工,以往“剪报”式低价值粗加工的信息服务,虽可按主题范围搜集,但提供的结果仅局限于单一的信息内容,传统的单一线性收集方式已不能够满足人类大脑发散思维的需要。

二、网络舆情监测引导的技术支撑

在浩瀚的网络中,政府如果仅仅依靠人工完成网络海量信息的收集和处理是不现实的。而Web数据挖掘能快速、准确的获得有价值的网络信息,利用历史数据预测未来的行为以及从海量数据中发现知识。它克服了普通数据库管理系统无法发现数据中隐藏的关系和规则及根据现有数据预测未来的弱点。Web数据挖掘的出现为自动和智能的把互联网上的海量数据转化为有用信息和知识提供了条件。可有效地从Web获取并分析相关舆情,达到监测、辅助决策和引导的目的,为网络舆情预警提供了极大的帮助。

(一)Web数据挖掘

Web数据挖掘由传统数据库领域的数据挖掘技术演变而来。数据挖掘是指从大型数据库的数据中提取出人们感兴趣的、可信的、隐含的、明显未知的、新颖的、有效的、具有潜在用处的信息的过程[1]。随着互联网的蓬勃发展,数据挖掘技术被运用到网络上,并根据网络信息的特点发展出新的理论与方法,演变成网络数据挖掘技术。Web数据挖掘是指对目标样本进行分析提取特征,以此为依据从Web文档和Web活动中抽取人们感兴趣、潜在的有用模式和隐藏的信息,所挖掘出的知识能够用于信息管理、查询处理、决策支持、过程控制等方面。

根据挖掘对象的不同,可将Web数据挖掘技术分为三大类[2]:Web内容挖掘、Web结构挖掘和Web使用挖掘。Web内容挖掘是指从Web上检索资源,从相关文件内容及描述信息中获取有价值的潜在信息。根据处理对象的不同,Web内容挖掘分为文本挖掘和多媒体挖掘。Web结构挖掘的目标是Web文档的链接结构,目的在于揭示蕴含于文档结构中的信息,主要方法是通过对Web站点的结构进行分析、变形和归纳,将Web页面进行分类,以利于信息的搜索。结构挖掘的重点在于链接信息。Web使用挖掘是从服务器访问日志、用户策略、用户对话和事物处理信息中得到用户的访问模式和感兴趣的信息,利用这种方法,可以获知Web使用者的行为偏好,从而预测其行为。

(二)Web挖掘过程

Web数据挖掘依然遵循数据挖掘的研究思路,挖掘过程分为四个阶段:数据收集、数据预处理、模式发现和模式分析(如图1所示)[3]。

1.数据收集。网络信息的收集是网络舆情监测的源头,其广度和深度决定了监测效果。对于明确主题的舆情信息采集,可以采用搜索引擎方法。由于各个现存搜索引擎索引数据库的构造方法不同,其索引数据不尽完整,所以应将多个单搜索引擎搜索结果进行整合、调用、控制和优化。搜索中可以以宽度优先、深度优先或启发方式循环地在互联网中发现相关信息,可将网络空间按域名、IP地址或国别域名划分为独立子空间详细搜索;或以信息类型为划分,如HTML格式、XML格式、FTP文件、Word文档、newsgroup文章和各种音、视频文件等。舆情信息检索结果可按不同维度展现,包括按内容分类、舆情分类、相关人物、相关机构、相关地区、正负面分类等。每个维度下把搜索结果自动分类统计展示,以便短时间内检索到精确信息。

2.数据预处理。因原始Web访问数据的文件格式是半结构化的,包含不完整、冗余、错误的数据,需进行提取、分解、合并,转化为适合挖掘的格式,保存到关系型数据库表或数据仓库中,等待进一步处理。数据预处理可改进数据质量,提高后续舆情挖掘过程的精度和性能。对采集到的舆情进行初步加工处理,如格式转换、数据清理、数据统计,对于新闻评论,需过滤无关信息,保存新闻标题、出处、时间、内容、点击次数、评论人、评论内容和评论数量等。对于论坛,需记录帖子的标题、发言人、时间、内容、回帖内容、回帖数量等,最后形成格式化信息。条件允许时甚至可直接对网站服务器的数据库进行操作。

3.模式发现。利用数据挖掘的算法可发现用户聚类、页面聚类、频繁访问页组、频繁访问路径等隐藏的用户访问模式。若在挖掘用户浏览模式过程中发现选择的数据或属性有偏差,或挖掘技术达不到预期结果,需根据反馈结果不断重复以上过程,通过数据挖掘,创建和更新用户模式库。模式发现可应用许多相关领域的方法,但需针对Web数据挖掘的特点做出相应的改进。

数据挖掘技术分析论文范文5

【关键词】数据挖掘技术;软件工程;应用

社会的发展使得技术也得到了快速发展,信息技术营运而生,并且被人们广泛的应用于机械、医疗、化工和教育等领域,发挥着越来越重要的作用。在当前社会的发展背景下,信息技术中的软件工程虽然发展规模不断扩大,但是在技术上已经不能满足对资源管理的要求,而数据挖掘技术的到来弥补了软件软件工程的不足,促进了软件工程的进一步发展

1数据挖掘技术的简介

1.1数据挖掘技术的含义

所谓数据挖掘,主要指的是在大量的数据信息中利用科学、有效的算法第一时间获取到有用信息的筛选过程。大量的信息存在于生产和生活领域,使得人们在处理事情是无从下手,这样大大降低了人们的工作效率,也浪费了工作人员宝贵的时间。而这一问题通过数据挖掘技术的使用得到了很好的解决

1.2数据挖掘技术所采用的方法

在具体的操作中,数据挖掘技术会通过很多方法来使任务得以完成。具体的方法有如下几种:1.2.1遗传算法的使用所谓遗传算法,主要是指基于生物自然选择与遗传激励的随机搜索算法,也是数据挖掘技术常用的一种操作方法。遗传算法的有点就在于表面上看似无联系的事物,却能在事物模型间建立相关的练习,实现事物之间共同发展,现在生物界越来越重视的遗传基因等的研究,所以这种方法很受人们的欢迎。1.2.2采用决策树方法这种方法主要用于对信息的分类和整合,在遇到大量的信息的时候,能够在短时间内找出关键的信息,能够使信息分类的快速化和简单化,并且保证了信息分类的准确度,但是此方法的不足之处就在于具有较差的抗噪性能,不能全面的来表述较为复杂的概念。1.2.3采用统计分析法往往会利用回归分析和主成分分析等方法来分析数据库字段之间的关系。在字段之间的关系包括相关关系,函数关系也是其中的一种,不同的是函数关系可以用公式来表示,而相关关系则不能通过公示来表示关系,系统分析法的使用为这种关系的分析提供了便利。1.2.4采用可视化技术可视化技术是采用一些图表来对数据进行表现,便于对数据的理解,比如,使用简单图形来展示存在于数据库中的多个数据,使研究者看起来一目了然,使单调的数据形象化,更容易掌握数据的相关信息。1.2.5采用神经网络方法它模拟人脑神经元结构,以MP模型和Hebb学习规则为基础,用神经网络连接的权值表示知识,其学习体现在神经网络权值的逐步计算上。前馈式网络、反馈式网络和自组织网络是常用的三种神经网络模型,分别用于预测、联想记忆和聚类等。

2软件工程中数据挖掘技术的应用表现

2.1用于软件项目管理方面

软件项目的管理呈现出复杂化和系统化的特点,数据挖掘技术应用于软件项目管理一方面表现在对组织关系的挖掘,比如公司举办年会等大型活动,在人员的分配上如果处理不好,就会出现混乱的局面,为了实现人力资源的合理配制,往往采用数据挖掘技术来区分每个职员的职责,实现项目管理的有序化,提高了办事效率;软件项目管理中使用数据挖掘技术的另一个方面就是挖掘版本控制信息,在此系统面临外系统入侵时提出警告是数据挖掘技术所具备的功能之一,除此之外数据挖掘技术可以检测该系统的修复情况,版本控制信息的作用就是方便了人们对版本信息的查看,而数据挖掘技术的使用为系统的安全运行提供了更有利的保障,使得软件项目的管理水平逐步提高。

2.2漏洞的检测时数据挖掘技术的使用

当数据挖掘技术用于检测软件的漏洞时,第一步要弄清楚要检测什么样的软件,第二步就是要制定合理的计划,计划的目的是为了更好的对软件进行检测,不同软件的构成和性质决定了检测要采用不同的方式,紧接着就是对漏洞库中的数据进行整理,对于不需要的数据进行清除,除此之外对于丢失的项目要采取措施补救回来,用数值表示来代替数据属性。另外,要对合适的数据模型进行验证,不同的项目会采取不同的方法,重要的是选择合适的发掘方式来使其形成测试集,进而可以对全部的结果进行比较,通过比较找出最满意的方式,数据挖掘技术的应用不见可以检测漏洞还可以对未知的漏洞进行防护,并且把漏洞的种类进行分析,整合出修复的方法,能使的在第一时间找出漏洞并进行修复,使得软件能够保持良好的性能,使其运行速度不至于减慢。

2.3挖掘程序代码和结构中数据挖掘技术的使用

在挖掘程序代码和结构方面比较常用的一种数据挖掘方法就是克隆代码检测法,该方法分为度量、文本对比、程序结构和标识符对比这四种方法,四种方法各有各自的特点,具体的运用中需要考虑实际情况来确定到底使用那种方法。克隆代码检测通常会复制粘贴某一个代码,在特殊的要求下,会根据需求来改正某些代码,检测这些代码主要是为了防止大面积出现故障,维护系统的安全,为软件运行提供一个可靠的环境。另一个常见的就是Aspect的挖掘,Aspect的挖掘就是常见说的横切关注点挖掘。软件工程中面向方面软件的改造需要解决好Aspect的挖掘,虽然可以采用大量的方式来解决这个问题,但是最重要的方法之一就是度量分析法。

3数据挖掘技术在具体的使用中面临的问题

3.1数据复杂化

目前的软件工程数据主要包括结构化和非结构化两类数据。非结构化数据包括软件代码,结构化数据则跟软件的版本信息有关,非结构化数据和结构化数据之间联系密切,因此在使用数据挖掘技术的时候,要对着两种数据的关系进行考虑,这就增加了挖掘技术使用的难度。

3.2评价标准不一致

生产生活中很多领域都在使用数据挖掘技术,在使用后对它的结果也采取了一定的评价方法,但是往往这些方法不能一致,在软件工程中也很难统一评价标准,因为在软件工程中出现的信息一般比较复杂,而且往往通过不同的方法来表达,所以获取者在进行信息比较时候,面临很大的苦难,所以导致不能准确的对数据挖掘结果进行分析。

4结论

总而言之,时代的发展越来越离不开数据挖掘技术的使用,这项技术很大程度上满足了人们的需求,受到越来越多的重视,经过本文的论述之后,可以得知数据挖掘技术不仅使软件工程更加完善,而且使人们学会用新的方式来获得信息,虽然书籍挖掘技术在实际的应用中会因为软件项目的数据复杂等原因会面临一些挑战,但是科技也在不断进步,相信未来,数据挖掘技术会得到更广泛的应用。

参考文献

[1]陈建桦.数据挖掘技术在软件工程中的应用研究[J].硅谷,2014(01):11-12.

[2]姚文涛.试论软件工程中数据挖掘技术的应用[J].河南科技,2014(23):45-46.

数据挖掘技术分析论文范文6

1.Web数据挖掘技术

随着信息时代的飞速发展,互联网己成为人们获取信息的重要途径。网络作为信息资源平台,为人们的日常生活提供了便利快捷的服务。然而,在大量的网络信息面前, 如何不被淹没,如何从海量信息中及时发现提取有价值的信息,成为互联网信息检索面临的首要问题。面对这一挑战, Web数据挖掘技术提供了一种比较好的解决方法。Web数据挖掘技术包括数据库、计算机网络和人工智能技术,Web数据挖掘技术使用了很多数据挖掘技术,但是它并不是传统数据挖掘技术的一个简单应用,它是一个新的研究领域。Web数据挖掘技术一般分为Web结构挖掘、Web内容挖掘、Web日志挖掘三类。Web内容挖掘是指利用某种算法策略对网络资源进行抽取,以期发现有用的知识,常用的策略有总结、分类、聚类和关联分析等。Web页面内部结构挖掘与外部结构(链接分析)是Web结构挖掘的两个主要研究方向,内部结构挖掘应用于信息抽取、网站结构模式提取和页面分类,链接分析则主要应用于搜索引擎领域。Web日志挖掘主要通过识别用户浏览模式,并通过改进Web站点结构,达到用户能够更加方便浏览的目的,以此来吸引更多的用户访问站点。

Web数据挖掘与搜索引擎联系紧密,校园网搜索引擎除了使用传统搜索引擎相关的理论和技术方法外,还需要新的方法和技术来满足学校师生要求,Web数据挖掘的很多技术可以应用在校园网的搜索引擎中,Web内容挖掘能对互联网上海量的网页信息进行总结、分类、集群、关联分析和趋势预测等。通过对网页内容的挖掘,可以实现网页的聚类和分类,能够对网络信息进行分类浏览和检索,从而提高网络信息的标引准确度,提高检索效率。

根据数据挖掘的一般方法和相关理论,可以得出Web数据挖掘的流程图,如图1所示。

网络数据的收集主要是从Web站点上的数据信息中提取一个数据子集,主要包括页面数据、超链接信息和用户的访问历史记录等,为数据挖掘提供资源支持。数据的预处理主要是对数据源进行组织重构和加工处理,并以此构建主题数据库,为Web数据挖掘提供相应的平台。模式发现及分析是Web数据挖掘最核心的部分,它主要是通过运用各种数据挖掘技术,从数据对象中发现潜在的、能被人所理解的知识模式,并最终发现描述性模式和预测性模式。

2.校园网搜索引擎系统架构设计

2.1 整体框架模型设计

校园网搜索引擎系统设计以智能化为目标,最大程度上满足学校师生不同需求的查询。系统首先收集海量的网页信息,然后搜索引擎程序会自动对收集到的网页内容进行分析,并通过分词程序得到语句关键词,再利用索引来构建索引数据库。当用户通过Web页面来查询索引数据库时,系统就会返回所有与检索关键词相匹配的网页。一个搜索引擎系统主要由以下四部分组成,分别是:页面采集模块、页面分析模块、索引数据库模块和信息检索模块。从功能上来说,四部分内容既相互独立,又相互联系,形成一个有机的整体。搜索引擎系统架构如图2所示。

2.2 系统模块设计

本文设计的校园网搜索引擎系统与传统搜索引擎系统的主要不同之处是搜索引擎被分解为多个任务不同的专业搜索引擎, 每个专业搜索引擎只搜索特定相关的信息。该搜索引擎系统主要包括5个模块。

(1)信息抓取模块:搜索引擎系统首先收集用户所要查询关键词和搜索引擎返回的查询结果,并对收集到的数据进行预处理。

(2)概念提取模块:系统从收集到的搜索结果中选取前100条数据,进行概念提取,然后将提取到的概念存入相应数据库。最后,搜索引擎系统计算概念联系度并将计算结果存储到数据库中,为后面的概念聚类做好准备。

(3)用户建模模块:系统针对用户的搜索关键字进行概念提取,从而获得用户感兴趣的相关概念,然后,根据已经建立的概念联系,确定与用户搜索关键字有联系的概念。

(4)查询概念聚类模块:系统根据用户兴趣模型建立查询概念二分图,然后使用基于查询概念的二分图聚类算法对查询和概念分别进行聚类。

(5)查询优化模块:聚类形成相似的查询和相似的概念,相似的查询用以优化查询语句,优化后的查询语句由系统提交给搜索引擎。相似的概念以搜索建议的形式提供给用户,系统根据用户兴趣模型产生聚类结果。

3.Web数据挖掘技术在数字化校园中的应用

在数字化校园建设中,主要以教师和学生为主体,如何更好地协调教师和学生的关系是数据挖掘首要考虑的问题。本文以学生的数字化校园中的基本信息作为基础信息,通过对学校的各个子库的个人信息进行加工处理,运用简单的统计方法对每个子库信息进行聚合,从而得到进行数据挖掘的基本信息。

搜索引擎系统首先需要将不同的数据源集中到统一的数据仓库中,执行数据的清洗和转换操作。为了方便不同数据仓库之间的数据交换,采用统一的数据挖掘元数据模型。Web数据挖掘技术利用统一的驱动程序存取数据仓库中的数据,并且采用统一的结果模型表示形式,应用程序通过统一的接口访问数据挖掘服务。数据挖掘应用程序构架如图3所示,其中Data是待挖掘数据,存放在关系数据库或文件中。Data Access获取文件、数据库或视图中的数据,并将数据保存到数据仓库。数据源可以来自分布式和远程数据库。Data Warehouse用来存放待挖掘的数据,Driver提供统一的数据库驱动程序,DMT提供不同的算法为应用程序服务。数据挖掘算法(DMM)在数据上应用所得的结果,不同DMT之间可以相互调用数据挖掘模型,用于结果应用、评估和可视化。Application是客户端应用程序,调用一个或多个数据挖掘服务,得到数据挖掘的结果模型,从而获得决策需要的信息。

Web数据挖掘中,应用关联分析技术寻找网页信息库中的值的相关性,应用分类方法分析进行网页信息库中的web数据的分析,这样能够为每个类别实现数据模型建立、分类规则挖掘、从而对数据类别做出准确的描述,另外应用聚类方法对网页信息库中的记录数据进行分析,也就是对记录集合进行合理的规划并对每个记录所在的类别进行确定。这样就能精炼出一个集成度高、易于使用、冗余度地的索引数据库,方便师生的信息检索和查找。

4.结论

数据挖掘技术分析论文范文7

关键词 数据挖掘;数据采集;应用

中图分类号TP392 文献标识码A 文章编号 1674-6708(2013)102-0222-02

所谓数据挖掘,就是将那些隐含的在数据中的、不能先知以及包含潜在价值的大量信息,从数据中提炼出来以供技术人员参考分析。通过数据挖掘理论所得到的信息,可以为地理信息的测绘提供依据,并且还具有预测和决策的功能。为了能够得到更加精确的信息,我们建立了数据采集平台。数据采集平台侧重于数据的收集,将大量的数据进行有效的汇总,使之转化成有助于测绘地理信息管理和决策的有效信息。我们在实际工作中,常常可以看到,由于对数据没有进行系统科学的分析,使得一些潜在的威胁留在了我们要做的工程中,甚至会为此丧失掉很多利益。如果我们不能够尽力把威胁清除掉,后果可能不堪设想,数据表面,看不出东西(即其隐藏的信息量),绝对是关键所在。因此,我们不仅要做好数据采集工作,更要有效的利用好数据挖掘理论,做好数据分析工作,充分挖掘出这些数据背后所带来的意义。

1数据挖掘的功能

在测绘地理信息技术领域,数据挖掘理论能够将采集的数据转化为我们需要的知识。下面就数据挖掘的功能,并结合其在数据采集中的运用,我概括了几点,主要功能有以下几点:1)聚类功能。即按照数据内在的规则,把数据聚合分类;2)关联分析功能。关联分析是从数据库中发现知识的一类重要方法。当建立在多次检测的基础上的某两个或多个数据之间算出来的数据相似,差异极小的时候, 那么我们就说这些事件之间存在着某种关联, 能够建立起这些关联项的关联规则;3)分类功能。将不同数据按照不同的分类标准进行分类组合;4)偏差检测功能。对那些不常见,极端的特例进行归档分析, 并揭示其发生偏差的原因,以便以后好做调整;5)预测功能。通过数据信息所显示的一些潜在的知识,我们能够做好对未来测绘数据的预测。实践证明,事物的联系是普遍存在的,即数据挖掘的各项功能协调组合,以便发挥更大的作用。数据挖掘通过对数据的总结、分类、聚类和关联等分析, 对采集的数据进行深层次的剖析,把那些潜在的东西给挖掘出来,便于技术人员的管理与预测。

2 “数据挖掘”理论在数据采集平台上的应用基础

2.1数据采集平台的建立

由于科技发展的需要,数据采集平台应势而生。数据采集平台,是一个拥有大量数据的数据库。据最新的统计数据显示,整个平台采集一次便可产生多达50万以上的数据量。数据采集平台最大的作用就是能够产生巨大的数据。

我们知道数据本身就是数据而已,不能够得到对我们有帮助的东西。而数据挖掘理论,基于相应的知识,做出极具准确性的预测性,能够把单纯的数据,通过总结、分类、聚类、偏差检测和关联等功能可以把那些分散在数据库里面的各种数据,进行综合分析整合。数据挖掘理论,是以对数据的分析作为基础的,其功能与分析方法对数据采集平台管理和运用,有着不可估量的作用和意义。

2.2“数据挖掘”理论应用基础

由于科技的不断发展,数据库不断充实,数据采集平台也在不断的完善和发展中。在国家政策,和科技不断发展的趋势下,数据采集平台近几年来,其结构和采集信息量上也发生了翻天覆地的改变。主要表现在版本、汇总部分字段以及采集字段上。即:版本不断的更新,由原先的“08c版”一直发展到现在的“10a001版”; 汇总部分字段和采集字段的增加,使得数据库里的数据成海量的增长,甚至多达数十万。这样使得数据采集平台更加规模化,同时也加强了数据与数据之间的联系,这也使得采集的数据成了 “数据挖掘”的数据基础,给了“数据挖掘”一个更好的平台。也为技术人员运用数据挖掘理论提供了数据来源。

3 “数据挖掘”理论在数据采集平台上的实际应用

在上面我笼统的介绍了数据挖掘的基本功能,即分类、估计、关联、聚类、偏差检测和预测。在这里我具体的介绍一下“关联规则挖掘” 理论。通过“关联规则挖掘”理论,我们知道,如果仅仅是单独、孤立的数据,那是形成不了重要信息的,但是,如果我们将那些相互关联的数据集中起来,并从不同的角度,不同的方面去分析这些数据,那么潜伏在这些数据表面以下的部分就会浮出表面,这样我们就能看到事物的全部。这对我们做决策有着重要的意义。所以我们要可以通过“关联规则挖掘”理论辨证的去分析事物内部所蕴含的关系。相反,如果只是盲目的看到表面的数据,甚至割裂地、孤立地去看待数据,这样不仅找不到数据与数据之间关联关系,更不能通过聚合这些相互关联的数据,这不能做出科学有效的决策。在测绘地理信息的时候,“关联规则挖掘”的理论,为我们提供了更广阔的分析方法和思维模式,为我们做出正确合理的决策提供了理论依据。在实际操作中,我们感觉到任何一个重要问题的分析,我们都要依赖“关联规则挖掘”理论,对具体的数据进行科学分析,以呈现其数据和事物之间的关联性。

4 结论

结合个人的工作经验和实际操作,就数据挖掘理论在数据采集中的应用展开了探讨和研究。介绍了数据挖掘的功能;“数据挖掘”理论在数据采集平台上的应用基础:数据采集平台的建立和“数据挖掘”理论应用基础;以及“数据挖掘”理论在数据采集平台上的实际应用。但是由于自身学识和理解的局限性,说的不是很全面,只是希望大家可以关注一下数据挖掘理论在数据采集中的应用,并能在你所在的领域内有所应用。

参考文献

[1]谭广宇.数据挖掘理论在状态数据采集平台上的应用[J].广西教育,2011(6).

[2]蒋盛益,李霞,郑琪.数据挖掘原理与实践[J].图书,2011(8).

[3]曾锡山,胡俊荣.WEB文本海量数据挖掘应用中的多点数据采集及处理问题研究[J].情报杂志,2010(8).

数据挖掘技术分析论文范文8

【关键词】数据挖掘;电力行业;检修;预测

1.引言

电力行业信息化的现状。在过去近50年的时间里,电力行业信息化主要可以分为三个阶段:初级阶段,电力信息化较为基础,主要为电力企业利用IT打基础,包括对基础局域网的搭建,计算机的使用普及,以及针对一些简单应用进行的初步系统开发等等;中级阶段,也是我国目前各级电力企业的状总值,在这一阶段,企业中相应的部门、各电力分公司建立了现代化的信息中心,建立了完整的企业主干网,对于生产调度、生产营销等专业领域也构建了专业的业务支持系统。也构建了能满足电力企业的基础需求的电力信息化系统;高级阶段,集中型平台建设.集团网络架设全面业务整合平台。随着电力企业体制改革的推进,信息系统除了提供基础支持,更重要的是为企业的决策、管理、创新提供快速、全面的信息,企业已经不能满足于各个独立电力信息化已经不能仅仅的业务系统,对整合型平台的呼声也越来越高。

从上个世纪六十年代起,我国电力行业开始了信息化建设,电力系统的工程计算,变电站和发电厂的自动监测、监控等方面。到了八十年代,电力系统各个方面都被信息化覆盖,包括电力企业各个层次以及各级电力企业建立的不同的信息系统。随着科学技术的发展,以及信息化建设加快,电力系统的信息化系统产生并累积了大量的数据,有些数据甚至成为了信息孤岛。

电力行业信息化系统每天都在产生大量的数据,尤其是过程控制和数据采集对现场运行设备进行监视和控制,实现数据采集,设备控制采集,测量,参数据调节,以及各种信号报警等,这些数据中蕴藏着重要的信息,但缺乏从数据中提取知识的工具,企业很多重要的决定和决策不是根据数据库中的信息丰富的数据,而是凭经验和直觉做出,数据和信息之间形成鸿沟。

数据挖掘技术是近年来应运而生的一门新兴技术,它能够利用现有的计算机技术和各个相关领域的知识,将其组织成适合决策分析需要的分析数据,挖掘出有用的模式知识和规则,用来提高整个管理系统的决策分析能力,围绕电力企业关键指标体系,应用数据挖掘技术势在必行。

2.数据挖掘技术

数据挖掘又称为知识发现(knowledge discovery)、商业智能(business intellige-nce)、预测建模(predictive modeling)以及预测分析(predictive analytics)等等。这里使用的数据挖掘定义,数据挖掘是一项探测大量数据以发现有意义的模式(pattern)和规则(rule)的业务流程(business process)。从狭义上讲,数据挖掘是工具和技术的集合。它是用来支持以客户为中心的企业的几种必要技术之一。从广义上讲,数据挖掘是一种态度,即业务行动应该基于学习、知情的决定比不知情的决定要好,以及度量结果对业务有益等。数据挖掘也是一个应用分析工具和技术的过程和方法论(methodology)。

2.1 数据挖掘过程

数据挖掘的流程分为以下几个步骤:问题提出,数据收集(预处理),数据挖掘(算法执行),结果的解释和评估,知识,如图1所示。

图1 数据挖掘过程

2.2 数据挖掘的主要方法

2.2.1 关联分析

关联分析是指如果两个或多个事物之间存在一定的关联,那么其中一个事物就能通过其他事物进行预测,它的目的是为了挖掘隐藏在数据间的相互关系。在数据挖掘的基本任务中关联(association)和顺序贯模型(sequencing)关联分析是指搜索事务数据库(transactional databases)中的所有细节或事务,从中寻找重复出现概率很高的模式或规则。其属于灰色理论中的一种分析方法。

2.2.2 时间序列分析

时间序列分析(Time series analysis)是一种动态数据处理的统计方法。该方法基于随机过程理论和数理统计学方法,研究随机数据序列所遵从的统计规律,以用于解决实际问题。

2.2.3 聚类分析

聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。它是一种重要的人类行为。聚类分析的目标就是在相似的基础上收集数据来分类。聚类源于很多领域,包括数学,计算机科学,统计学,生物学和经济学。在不同的应用领域,很多聚类技术都得到了发展,这些技术方法被用作描述数据,衡量不同数据源间的相似性,以及把数据源分类到不同的簇中。

2.2.4 分类分析

主要是研究对有关信息进行分类的方法,分类模型以分析数据集中的某些数据得到另外的数据结果,主要分为预测离散变量的分类,预测的连续变量的回归(Regression),数据挖掘中广泛使用的分类方法有决策树,神经网络、径向基础函数等。

2.2.5 异常分析

一条信息在一定条件下可能是垃圾的信息,而在另一条件下可能是非常重要的数据。异常或孤点是事件过程的各种不正行为的反映,通常用“距离”的恒量,孤点就是离正常状态下的大量状态点较远的点,电力机关在盗电选案的过程中,选取从电力数据仓库中根据用电客户的状况,把客户常年用电量进行收集数据,将这些数据再用数据挖掘查找用电量明显偏离常规用量的客户,可以将这些客户作为有盗电的企业进行稽查。

3.电力行业中数据挖掘的研究

电力系统中,电能的生产和使用可以分为发电、输电、配电、用电四个环节,它主要有以下特点:电能不能大量储存;发电、输电、配电、用电各环节组成统一的不可分割的整体;电能生产、输送、消费工作状态的改变十分迅速;对电能质量的要求颇为严格。因此在这样一个非线性的电力系统中,保证可靠地持续供电,保证良好的电能质量,保证系统运行的经济性是其最终目的,电力行业信息化开启后,在长期的运行过程中,收集了大量的数据,用传统的分析方法,无法完成对数据分析,若要从中发现的规律,提高系统的性能,就必须利用这此后数据为决策提供更快更有效地支持。数据挖掘的应用提供了一个开拓了这样的空间。

3.1 电力行业中的数据挖掘系统模型

数据挖掘系统模型由源数据服务层、数据挖掘服务层、服务接口层、用户层组成,如图2所示。

图2 电力行业中的数据挖掘系统模型

3.2 数据挖掘在电力行业中的应用领域分析

3.2.1 负荷预测

电力调度运行部门在电力系统的运行中始终处于重要地位.电力负荷预测是电力调度系统的最重要工作之一,电力负荷的预测结果将为发电厂为各机组制定发电计划提供数据保障,预测结果的准确度直接影响电力企业的生产效益和经济效益。用户用电负荷规律具有一定的随时间变化规律性,可以采时间序列模型,在对历史用电数据进行挖掘后,对电力负荷进行预测,用决策树按时间,区域、气候等相关因素对用电记录进行聚类分析,可以为调度部门做出相关决策提供有力的帮助。

3.2.2 电力设备状态检修

传统上,电力设备长期实行检修体制是:事后维修、预防性计划检修,主要包括定期维护、临修、小修、大修等形式。这种的主要缺点是:临时检修频繁,维修不足,过剩维修,盲目维修等。为解决这个缺点,电力系统正步向状态检修体制过渡。状态检测与设备故障诊断技术在电力设备上得到推广应用。状态检修是一种通过收集电力设备状态数据,并以数据为基础、预测电力设备状态未来发展趋势为根据的电力设备检修体制。

状态检修通过收集电力设备的日常检查数成、定期重点检查数据、在线状态检测数据、故障诊断数据等,经过数据挖掘系统分析处理,通过挖掘的结果来预判设备的健康和性能优劣状况及其性能发展变化趋势,确定设备的维修状态,有计划地安排检修。

采用数据挖掘技术对设备的检测数、试验数据进行分析,揭示电力设备性能状态渐变和寿命捐赠耗规律,及时、准确地发现潜在的故障的早期征兆,快速地对故障部位的严重程度及发展趋势做出判断,确定科学有效的检修计划。

如在变压器检修中,用回归分析法分析变压器绝缘油运行中开成的各种气体浓度情况,判定变压器的状态。

3.2.3 电力营销策略支持

电力营销主要业务:(1)分析各因素对用电水平的综合影响,做好用电量需求预测;(2)电费回收及欠费风险分析控制;(3)电价制定;(4)客户细分。

利用数据挖掘技术,对一段时间里电力系统中电能用量与时间变化的关系数据进行挖掘,掌握数年内电能需求的时间序列反映的方向和趋势,进行预测和推断。采用聚类技术来进行电力客户细分。分析用户的数据情况和根据分析需要,采取不同聚类算法来进行客户细分。利用关联规则分析市场环境与销售电量水平的关联度,寻找不同市场环境中影响电量销售变化的因素。利用决策树挖掘市场环境内部各个因素之间对电量水平变化的层次关系。

4.结论和展望

电力信息化在电力行业使用越来越广,收集的数所越来越大,数据挖掘技术可以从海量的数据中挖掘出有用的知识和规则,用于电力行业的决策支持,这是传统的工具和方法,无法达到的,因此在电力行业中推广数据挖掘的应用,能有效提高信息系统的效能,提高电力行业决策的准确性,同时我们也发现数所挖掘也存在不足,它需要专业的人员培训,专业的应用软件,以及数据挖掘管理理念的建立的支持,在行业中如何解决这几个问题,是数据挖掘得到充分应用的有力保证,也是数据挖掘能否发挥其能力,开发电力行业信息系统潜能的关键。

参考文献

[1]张志磊电力信息系统中单一登录和访问控制方法的研究[D].华北电力大学(保定),2007.

[2]仇卫东.电网规划基础数据管理分析[J].电力建设, 2011(10).

[3]徐鑫.安徽电力公司ERP项目实施研究[D].合肥工业大学,2011.

[4]史小梅.数据挖掘在电力决策支持系统中的应用[J].上海电力学院学报,2010(4).

[5]西安美林电子有限责任公司,大话数据挖掘[M].清华大学出版社,2013(1).

[6]梁瑜.数据挖掘技术及其在电力系统中的应用[J].内蒙古广播与电视技术,2012,29,3.

[7]Gordon S.Linoff著.巢文涵译.数据挖掘技术(第3版)[M].清华大学出版社出版,2013(3).

[8]邵峰晶.数据挖掘原理与算法[M].中国水利水电出版社,2003(08).

[9]肖峻.基于关联分析的城市用电负荷研究[J].电力系统自动化,2007,31(17).

[10]张哲.基于支持向量机的变压器状态评估和故障诊断的研究[J].华北电力大学(北京)硕士论文库,2009.

[11]李皎.数据挖掘在电力营销中的应用[J].华北电业,2013(1).

数据挖掘技术分析论文范文9

关键词:BBS管理系统;数据挖掘技术;应用

中图分类号:TP311.13

在当前的社会环境中网络技术发挥着越来越重要的作用,网络应用服务也成为人们日常生活与工作中不可或缺的重要组成部分,网络技术的出现为人们信息交流拓宽了渠道,但同时由于网络应用服务的增多以及涉及范围的扩大,进而导致网络的安全性能越来越难以保障。BBS作为一种信息服务系统常常是人们生活与工作的交流平台,人们通常使用它来发表言论、传播信息或文件等,然而由于网络管理工作上的不完善让某些不法分子或思想不健康的用户有了可乘之机,他们恶意通过BBS论坛发表一些负面言论,从而造成网络与社会的不稳定。为此,需要网络管理工作者重视这一问题,研究出相关数据挖掘技术应用于BBS管理系统中,从而提高BBS管理中信息处理的效率。

1 数据挖掘技术

1.1 数据挖掘

数据挖掘,其实质上是一个动态的挖掘数据库信息的系统过程,是管理者以存放在数据库、信息库中的大量数据为研究对象,管理者发挥不同功能模块的作用来完成挖掘任务,从中发现数据库中有趣的、有价值的信息与知识。为了方便完成数据挖掘工作,具体划分为三个数据挖掘步骤:一是数据准备;二是规律寻找;三是规律表达。数据准备,即数据挖掘工作开展的前提准备工作,通过确定挖掘任务以计划后期的工作安排;规律寻找,即根据数据库与信息库中的数据资源来进行关联规则与趋势的分析,从中寻找出相关规律性,并运用恰当的挖掘计算方法来求解出相关参数;规律表达,即对前两个数据挖掘工作的总结,以书面材料的形式整理出在数据挖掘工作中的发现。

1.2 文本挖掘

文本挖掘,顾名思义是网络管理者对文本中的数据进行挖掘,从中提取有价值的信息与知识,其属于一种计算机处理技术,不过需要依托数据挖掘技术的支持。现今,文本挖掘已成为一门数据挖掘学科,尽管该学科具有很大的边缘性,但其融合了多个学科的知识(如计算机、数理统计、自然语言处理、机器学习等),学科内容的兼容性极大。在运用文本挖掘技术的前提准备工作有三步,第一步是要将文本进行分类;第二步是提炼文本的特征;第三步是转化文本,利用数据的形式对文本内容进行转化,使之转换成描述性、结构性兼具的数据。之后,就可以顺利进行文本数据挖掘工作。

1.3 Web文本挖掘

近些年,新兴的服务技术层出不穷,而Web服务技术是运用最普遍的一种,其可以不通过任何载体而实现不同计算机之间数据的交换或集成,从而将自身功能或服务的调用说明向外界,并利用URL定位实现信息的自动反馈,以满足特定客户端的信息需求。于是乎,将Web服务技术应用在数据挖掘中十分有必要,建立在数据挖掘技术之上的Web文本挖掘便应运而出,该技术能够强化现有数据挖掘系统的扩展性,并很好的满足客户需求的变动。Web文本挖掘技术具有广泛的功能性,能够通过计算机网络技术、模式识别、智能语言、统计学等功能在结构不合理或异常的Web文档集合中进行数据挖掘工作,利于提高知识挖掘效率。在Web文档中,其信息复杂多样,而文本信息又占据着主要成分,于是对Web文本进行挖掘意义重大,而XML功能的日益完善方便了对Web文档资源的数据描述,通过这些数据描述简化了Web文档抽取信息的特征,更利于采用不同模型来表示Web文档信息的描述特征。

2 数据挖掘技术在BBS管理系统中的应用

2.1 BBS管理系统

BBS算是使用较长的一种电子信息服务系统,由研究机构与教育机构对其进行统一管理,其最初的功能是以公共电子白板的形式为用户提供一个信息或意见的渠道,用户可以在电子版面上畅所欲言。现如今,BBS管理系统趋于完善,其功能也逐步扩大,已转变成信息交流与共享的平台,一种快捷的通讯方式,其针对不同的服务对象划分出不同类型的BBS,如校园BBS、情感BBS、商业BBS等。由于BBS使用群体的日益庞大,其需要一个完善的BBS管理系统来确保信息资源的安全性与使用性,而将数据挖掘技术应用在BBS管理系统中能够有效对BBS的信息进行系统挖掘与管理,这不仅有利于BBS的系统管理,而且也有利于数据挖掘技术的进一步发展。

2.2 尝试性挖掘

用户数据库、版面数据库、帖子数据库,这三部分是构成BBS系统的基本要素,用户数据库是用于存储用户私人信息(姓名、密码、登录ID号等)的载体,而记录版主ID、版面名称的载体则是版面数据库。其中帖子数据库的存储信息更加多样,包括作者、帖子内容、帖子ID、链接地址等。在BBS管理系统中,常识性数据挖掘技术运用得非常广泛,如图1所示,通过该图能够让人们更加清楚尝试性挖掘数据的具体模式。

图1 尝试性挖掘数据模式

以BBS管理系统为研究对象,本文将通过尝试性挖掘技术来提高BBS数据挖掘的效率,而该项数据挖掘工作的第一步则是要进行信息模式的转化,即实现多维数据模型对星型模式的转换。以事务T来表示BBS用户的登录次数,1个T表示一次登录,以数据库D来表示事务集合,在数据库中集合事务,构成多个二维数组(数组中记录了BBS登录样本),使用特征集来定义这些数组的列集。之后,使用计算机智能决策来分析数据挖掘结果,通过直观的星型模式来表示挖掘结果,从而便于用户理解数据挖掘结果。

3 结束语

基于BBS管理系统的数据挖掘技术研究是网络管理者与时俱进的发展表现,正是因为BBS这一电子信息服务在人们生活与工作中运用得越来越广泛,因而人们也在实际应用中对BBS管理员提出了更多的需求。统一信息的数据结构,便于BBS信息的管理与分析、信息的安全性就是人们所提出的实际需求,为了提高BBS信息的管理质量与效率,数据挖掘技术便逐渐应用于BBS管理工作中,而这一举动不仅成功促进了BBS的信息管理,净化了BBS的网络环境,而且还在一定程度上推动了数据挖掘技术的发展。

参考文献:

[1]No-Wook Park, Kwang-Hoon Chi and Byung-Doo Kwon.Accounting for spatial patterns of multiple geological data sets in geological thematic mapping using GIS-based spatial analysis[J].Environmental Geology,2007,51(7):1147-1155.

[2]吴昊,耿焕同,吴祥.一种基于聚类分析的BBS主题发现算法研究[J].安徽师范大学学报(自然科学版),2009(01).

相关期刊