HI,欢迎来到好期刊网,发表咨询:400-888-9411 订阅咨询:400-888-1571证券代码(211862)

数据分析分析技术集锦9篇

时间:2023-08-07 17:29:18

数据分析分析技术

数据分析分析技术范文1

关键词:大数据 智能 数据分析

中图分类号:F503 文献标识码:A 文章编号:1674-098X(2014)04(a)-0021-01

对于数据分析来说,其主要的目的就是通过对数据的分析去发现问题或预测趋势。从数据钻取、大规模分析的技术手段、以及算法执行上来说,大规模分析是和小规模数据在技术上是有很大差异的。想要探究大数据下的智能数据分析技术,首先要对数据分析这一概念进行深入研究。

1 数据分析

数据分析的过程其实简单的说就是做报告,做什么样的报告反映什么样的指标。最开始的时候基本上是data processing。例如零售行业来说,最主要的指标就是库存、销售同比增长情况、利润同比增长情况、促销率等等。对于不同的行业会有不同的相关的KPI需要跟踪,所以报告的内容也会有所侧重,但是只要你一个行业做久了,熟悉了套路之后,基本上就是以同样的方法开展。

对于数据分析,如果公司部门分的比较细的(例如可能有建模组),那么做数据分析可能永远都是做data processing了。对于模型的分析,需要你对业务有了深入的了解就可以建立一些模型出来(例如推荐模型)等等。

数据分析主要涉及的技能:

(1)数据库的能力。越全面越好,如果不是理工科的,最起码要会select那些简单的查询语句。

(2)EXCEL、PPT的能力。报告的呈现一般都是Excel+PPT的形式,最好VBA,这样就可以将很多人工的工作转化为自动化的能力,提高工作效率,领导也对你刮目相看,自己也有更多空余的时间准备其他方面的知识。

(3)市场分析能力。学会观察市场的走向和关注的内容,例如零售行业,现在大家都对CRM很热衷,那相关的分析方法和方式是怎么样的,你要自己去了解。从来不会有人手把手的将所有东西都告诉你,你必须自己学会去增长知识。

(4)一些会计的知识。因为通过以上分析,就是会计管理的一部分内容,最后还是公司盈利问题。有兴趣的也可以去看看战略管理方面的,对于做数据分析也很有好处的说。

综合来看,可以说数据分析=技术+市场+战略。

2 如何培养数据分析能力

理论:

基础的数据分析知识,至少知道如何做趋势分析、比较分析和细分,不然拿到一份数据就无从下手;

(2)基础的统计学知识,至少基础的统计量要认识,知道这些统计量的定义和适用条件,统计学方法可以让分析过程更加严谨,结论更有说服力;

(3)对数据的兴趣,以及其它的知识多多益善,让分析过程有趣起来。

实践:

(1)明确分析的目的。如果分析前没有明确分析的最终目标,很容易被数据绕进去,最终自己都不知道自己得出的结论到底是用来干嘛的;

(2)多结合业务去看数据。数据从业务运营中来,分析当然要回归到业务中去,多熟悉了解业务可以使数据看起来更加透彻;

(3)了解数据的定义和获取。最好从数据最初是怎么获取的开始了解,当然指标的统计逻辑和规则是必须熟记于心的,不然很容易就被数据给坑了;

(4)最后就是不断地看数据、分析数据,这是个必经的过程,往往一个工作经验丰富的非数据分析的运营人员要比刚进来不久的数据分析师对数据的了解要深入得多,就是这个原因。

3 大数据

大数据就是通过统计分析计算机收集的数据,在人们可能不知道“为什么”的前提下,了解到事物的状态、趋势、结果等“是什么”。

对于大数据,一直来说,数据规模导致的存储、运算等技术问题从来不是最重要的瓶颈。瓶颈只在于前端数据的收集途径,以及后端商业思想引领的模型和算法问题。早期的各类OLAP工具已经足够了,后来类似海杜普这样的研究则彻底降低了分布式数据的架构成本和门槛,就彻底将大数据带入了一个普及的领域。

从技术层面说,大数据和以前的数据时代的最大差异在于,以前是数据找应用/算法的过程(例如各大银行的大集中项目,以及数据建仓),而大数据时代的重要技术特征之一,是应用/算法去找数据的过程,因为数据规模变成了技术上最大的挑战。

大数据的特点:

(1)大数据不等同于数据大,我们处理问题是根据这个问题的所有数据而非样本数据,即样本就是总体;不是精确性而是混杂性;不是因果关系而是相关关系。

(2)大数据应用的几个可能:当文字变成数据,此时人可以用之阅读,机器可以用之分析;当方位变成数据,商业广告,疫情传染监控,雅安地震时的谷歌寻人;当沟通变成数据,就成了社交图谱。一切都可以量化,将世界看作可以理解的数据的海洋,为我们提供了一个从来未有过的审视现实的视角。

(3)数据创新的价值:数据的再利用。例如重组数据:随着大数据出现,数据的总和比部分更有价值,重组总和和本身价值也比单个总和更大;可扩展数据:在设计数据收集时就设计好了它的可扩展性,可以增加数据的潜在价值;数据的折旧值:数据会无用,需淘汰更新;数据废气:比如语音识别,当用户指出语音识别程序误解了他的意思,实际上就有效的训练了这个系统。

总之,大数据是因为对它的分析使用,才产生和体现它的价值,而不是因为其用到了突出的技术和算法才体现了它的价值。

4 大数据下的智能数据分析

在大数据的背景下,必须考虑数据之间的关联性。一个单独的数据是没有意义的,实际中,选择处在两个极端的数据往往更容易找出它们之间的联系,把它们放在一个框架中看才能发现问题。因此,可以用以下四种方法在大数据背景下进行智能数据分析:

(1)从解决问题的角度出发收集数据;

(2)把收集的数据整理好,放入一个框架内,并利用这个框架帮助决策者做出决定;

(3)评估决定与行动的效果,这将告诉我们框架是否合理;

(4)如果有新的数据出现,我们将考察能否利用它对前面三步做出改进,以及我们今天是否还需要收集更多种类的数据。

5 结语

数据分析的最终目的是帮助业务发现问题并解决问题,提升公司价值,而这些是从数据发觉的,而不是盲目下结论。每家公司都有自己业务生产的数据,通过数据分析、同比环比、漏斗分析及模型等,发现业务上存在的问题,帮助公司业务的优化。

参考文献

[1] 李贵兵,罗洪.大数据下的智能数据分析技术研究[J].科技资讯,2013(30).

数据分析分析技术范文2

关键词: 大数据;科技情报研究技术;资源管理

引言:社会科技水平的应用和发展,推进了数据资源的应用程度在社会发展中的作用进一步加深,大数据环境下科技情报研究技术的分析和应用是开展数据信息资源传输,提高信息分析的详细程度的资源保障,为科技情报研究技术提供了丰富的发展空间。

一、科技情报研究技术的现状和主要内容

目前,我国科技情报研究主要是通过文献调查、比较调查、内容分析、技术预测等技术方法,对期刊、杂志等科技文献资源进行搜集、整理、加工和分析,在科技动态、产业发展、科技政策研究、科技发展战略、科技发展跟踪等方面进行针对性研究,为制定科技发展战略及科技政策提供决策依据;为科研立项、科技水平认定等科技活动提供信息支持。

二、传统科技情报研究技术面临的挑战

(一)科技情报研究技术中应用的数据资源短缺

社会科技水平逐步进步发展,对科技情报研究技术的要求也逐步提高,而传统的科技情报研究技术中存在众多问题,成为阻碍我国科技情报研究技术进步发展的重要阻碍。传统科技情报研究技术中应用数据资源短缺,互联网模式下的数据信息资源来源广,种类多,逐渐成为科技情报研究技术发展的新方向,而传统的科技情报研究中的数据资源来源不仅受到地域限制,准确程度也无法得到保障,与现代科技情报研究技术格格不入,严重影响了科技情报技术的发展与应用。

(二)科技情报研究技术中的用户需求的满足标准降低

现代科技水平中人们对数据资源应用程度进一步提高,数据管理的质量和要求也逐步提高,传统的科技情报研究技术主要采用人工为主,互联网为辅的情报研究分析技术[1],导致科技情报研究分析技术的质量性无法与客户需求的数据信息质量之间达成共识,降低了科技情报研究的使用价值,从而影响了科技情报研究技术在实现应用中的创新发展。

(三)科技情报研究中研究人员信息量少

科技情报研究技术中重要组成部分是研究中心的人员,传统的科技情报研究中研究人员是推进科技情报研究技术进步的重要部分,研究人员对科技知识的应用创新受到研究范围的限制,导致研究人员自身数据信息量更新速率慢,与互联网环境下的大数据要求之间的间隙逐步增加,降低了科技情报研究技术的作用。

三、实现大数据环境下科技情报研究技术的创新发展

(一)完善科技情报研究中的数据资源

大数据的挖掘和整理主要依靠互联网的虚拟空间进行多种数据资源的整理和应用[2],将众多不同种类的数据信息资源汇集到网络虚拟空间中,然后按照程序执行要求从数据库中的众多资源中进行信息筛选,得出相应的数据资源结果。在科技情报研究中,应用大数据进行分析整理能够实现科技情报研究中数据库资源整理与应用的准确性发展,提高了科技情报分析的准确性,同时也为数据资源的来源提供了保障,实现科技情报研究中的资源管理与资源应用中数据完完整性和高效性运行。

(二)实现科技情报研究中数据存储体系的完善和发展

传统的科技情报研究中,数据研究和分析体系中主要采用人工数据分析为主,计算机分析为辅的形式进行数据资源分析管理,这种“劳动密集型”的分析存储体系使科技情报研究中的技术性较低[3],信息准确程度也受到一定的限制,大数据下信息资源分析存储体系逐步完善和发展,使科技情报研究从数据信息供应到数据信息资源整理之间形成完美的数据对接,实现科技情报研究中信息资源中存储体系和存储资源的综合性应用。同时互联网虚拟数据存储空间的应用,提高了科技情报研究技术的信息资源存储的保密性和完整性,促进科技情报研究技术体系的完善和创新发展。

(三)提高科技情报研究技术人员自身信息量

虽然现代科技情报研究技术中大部分数据资源来自于基于互联网等大数据信息资源挖掘,但科技情报研究的研究人员也应当不断丰富自身的科技信息资源信息量,这样可以保障对数据信息的精确化分析,充分发挥科技情报研究技术体系中研究人员的作用,促进我国科技情报研究技术在大数据环境下开拓新的发展领域。

(四)加强大数据环境下科技情报研究中心数据收集和整理

互联网应用环境中大数据资源的应用和管理,为科技情报研究技术的发展提供了源源不断的信息资源,促进科技情报研究中数据研究资源的丰富。但大数据挖掘中常常混杂着多种多样的数据信息资源,科技情报研究技术人员进行数据资源分析和管理过程中应当提高对信息资源分辨能力,对大数据环境中的信息资源进行合理的收集整理,保障科技情报研究技术中资源应用和管理程度向着更加专业化,更加科学化发展,从而提高科技情报研究数据的准确性。

结论:基于大数据的科技情报研究技术分析是推进互联网应用发展在数据信息资源应用中的体现,是促进我国信息资源发展的有效途径,注重把握大数据下的科技情报研究技术的分析能够促进我国科技水平创新发展。

参考文献

[1]祁玉方,时建强,王中伟.科技情报机构三级联动平台建设模式探析――以中国太阳能热利用产业专利数据分析与决策支撑平台建设为例[J].现代情报,2012,10:99-102.

[2]钟辉新,张兴旺,黄晓斌.面向大数据的企业竞争情报动态运行模式MDD:监控、发现、决策的互动.情报理论与实践,2014,03:6-11+15.

数据分析分析技术范文3

关键词: 数据挖掘技术 计算机考试 数据处理 数据库

信息化发展带动了电子产品的生产,也可以说是计算机的普及带来了信息化发展,两者是相辅相成的。计算机被越来越多地运用到各行各业,本文主要分析的是计算机在教学中的使用。计算机的使用离不开数据库的支持,信息数据处理是计算机教学研究的一项重大课题,数据挖掘作为一种新型数据处理技术,得到了广泛关注。对数据进行处理、分析和挖掘的主要目的是发现学校教学管理和学生管理各个方面的有效信息,本文从计算机考试入手,进行深入研究分析。

一、数据挖掘技术概述

随着信息技术的迅猛发展,各行各业每年都积累了大量数据,推动了数据的高效管理与应用。数据管理从最早的手工开始,后期发展为文件管理,再到现如今的数据库管理。过去人们对现有数据管理还比较顺利,但对过去几年、几十年甚至更长时间的数据管理起来就相当费事,甚至可以说是不太容易完成的任务。现如今计算机技术日渐成熟,大量信息数据给数据库管理带来大量工作量,此时数据挖掘技术就是为了数据处理而应运而生的。对于数据查询而言,可以方便快捷地查询出所需数据,远远超出人类所能理解的概括范围。现有统计学和数据查询分析技术能对数据进行综合分析和查询,一定程度上解决人们处理分析数据的需求。数据挖掘技术不仅限于数据查询,还可以根据有效数据对非预期潜在有价值的信息进行再处理,从而得出更多有用的潜在信息。

人们日常生活中离不开数据挖掘技术的应用,如超市物品的陈列问题上,经营者想要把人们可能同时购买的商品摆放到一起,以便引起人们的购买欲望,增加销售量。药店经营者想要了解人们购买药物时还会附带购买的商品,将治疗不同病种的药物与可能购买的商品摆放到一起,附带销售。医学研究人员希望从已有成千上万份病例中找出某种疾病病人的共同特征,以便为治愈这种疾病提供一些帮助。企业管理者想要了解整体员工的平均收入水平,提取出业绩较好员工的个人信息等。

从以上实例研究中得出结论,现有信息管理依靠数据查询统计,并通过做报表对数据进行分析处理。先不说其潜在信息并不能很好地挖掘出来,就其工作量来讲,也是一项繁重而复杂的工作,很难保证数据的有效性和实用性。为了满足人们对数据管理的需求,从现有信息数据中提取出更有价值的信息,数据挖掘技术得到了充分应用。

数据挖掘技术可以从大量随机数据中快速地进行信息数据归纳整理,并从中分析出有效的潜在信息。一般会采用统计型和人工智能型数据处理方法,共同完成对数据管理的分析应用。统计型数据处理采用传统的统计学原理,对现有和过去很久的数据进行概率分析,从而推理出数据中隐含的潜在有用信息。统计学由来已久,其优点是精确度相对较高,简单易懂,并且使用比较广泛。数据挖掘技术统计型可以准确快速地挖掘出有用信息,大大提高工作效率,甚至大大减轻统计者的工作量。人工智能是在统计学原理基础之上,通过训练和学量样品集得出需要的模式或参数。将有共同模式或参数的数据通过机器人工智能,发现有价值的潜在信息。但也存在一定的局限性,不同的样品集有特定的应用领域,样品集的选择将直接影响数据结果,一般情况下会将多种技术结合起来使用,达到有力互补的目的,从而更高效准确地分析出数据结果。

二、数据挖掘技术在计算机考试中的应用

通过上述对数据挖掘技术的概述,对数据挖掘的基本原理有了初步了解,将其运用到教学中,必会事半功倍。数据挖掘技术运用到教学管理中,不仅可以完善教学管理体制,还可以客观分析出教学管理中存在的问题。以教学管理中的计算机考试为例,分析计算机考试系统中数据挖掘技术的应用,从而得出以下结果:

本文通过实例验证方法找出答案,首先是采用数据采集方法,从大量数据中提取出与所要挖掘的数据目标相关的数据子集,该数据样本的精选不仅减少数据处理量,还突出相关性规律,表明数据样本的代表性和质量尤为重要。在计算机考试系统中,会通过输入考生信息进行考试,考生的每个信息都定义为不同变量。考生的姓名、性别、年龄、任课老师、所在班级等信息都是一个个不同的变量,这样可以清晰地了解到每个考生的计算机考试情况。根据其做不同题型的长短分析出考生擅长什么样的题型及在什么题型面前处于劣势。根据其答题速度和准确率可看出考生掌握知识能力如何,任课老师可根据学生的不同学习程度逐个击破,有利于提高班级整体学习成绩水平,这就是数据挖掘技术挖掘出的潜在信息价值。

数据挖掘技术是信息化时代的产物,将其运用到教育教学中,可大大提高教学管理质量。可快速有效地了解到学生管理中出现的问题,有利于教师及时解决这些问题。计算机考试数据中应用数据挖掘技术,不仅可以精准地了解到学生潜在的学习问题,还可以帮助老师更快地找到提高学生学习成绩的方法。

信息化发展使信息数据量急剧增加,这个数据处理造成了困扰,为了更好地对信息数据进行处理分析,从而准确快速地提取出有效信息,数据挖掘技术起到了重要作用。计算机考试系统的完善可提高考试效率,奠定数据挖掘技术在计算机教学中的重要地位。现代是不断变化的时代,也可以说是信息化时代,时代离不开信息化发展,要不断进步才能持续发展。数据挖掘技术势必会成为计算机技术发展的第二大方向,是时展的要求所致。

参考文献:

[1]吴英,刘俊熙.计算机考试数据分析中数据挖掘技术的应用[J].制造业自动化,2010(9).

[2]方新丽.浅析数据挖掘技术在计算机审计中的应用[J].电脑知识与技术,2013(5).

数据分析分析技术范文4

【关键词】 飞行试验 FC数据 检测技术

1 飞行试验总线检测分析

FC光纤通道具有高带宽、开放式互联等特点,解决了航空产品中许多与高性能数据块传输相关的难题;但是FC具有的网络特点也给飞行试验航电总线测试带来了新的挑战。在采用了FC光纤通道总线构架技术后,对采用了新技术后的航电系统进行鉴定是飞行试验一项重要内容。应用了FC总线技术后的航电系统,飞行试验测试环境也随之变得复杂,测试系统需要在网络化总线下进行采集,同时进行数据分析。针对新形势下的航电总线网络的延迟性、不确定性、丢包等缺点,对飞行试验测试采集的FC总线数据必须进行检测分析,以验证采集的总线数据可靠,进而对航电系统进行鉴定。

2 FC数据检测分析

2.1 FC总线检测分析

由于FC总线飞行试验的测试环境及总线本身具有的网络特性,需对FC总线进行检测分析。FC总线检测分析主要包括:FC消息帧识别,FC完整帧检测,FC帧丢包检测。FC消息帧识别分析是FC 总线数据分析的基础,因飞行试验采集记录的FC总线数据是以二进制存储的,同时记录的不仅仅只有FC总线数据,还有随机的其他底层通信消息,所以要对飞行试验采集记录的数据进行FC消息帧识别。FC完整帧检测分析是对FC总线数据进行处理的必要步骤,对识别后的FC消息帧进行完整性分析,以确定采集记录的FC总线消息帧的完整性。FC帧丢包检测分析是对试验机航电系统以及飞行试验测试系统部署的一项重要的鉴定技术手段,对航电子系统之间通信的消息经过核心交换机之后是否存在丢失数据进行分析,以确定航电系统之间通信的可靠性。

2.2 FC总线检测分析过程

FC总线检测分析的过程一般包含:(1)读取飞行试验测试记录的FC总线数据;(2)按照记录协议开始进行FC总线的解析分析;(3)分析并找到完整的UPD数据包;(4)对完整的UPD数据包的数据进行分析;(5)按照FC协议进行FC总线的识别分析,确定记录的FC消息帧;(6)分析并找到FC消息帧;(7)对FC消息帧进行完整性分析;(8)对完整的FC消息帧进行丢包分析检测;(9)循环这一过程,直到检测分析完成。

3 FC数据检测的关键技术

3.1 FC总线消息识别分析技术

在对飞行试验海量FC总线数据进行检测分析时,需不断地读取数据,进行关键字段地判断、跳过等操作[1]。在测试系统的采集子系统的设计过程中,采用了对采集到的标准的FC总线数据打标记的技术手段来识别FC总线数据包,一般记录包头的识别字位置定义为 0x FE6B2840,这样在分析海量复杂原始FC总线数据时,对FC总线消息进行识别分析:

(1)按照以太网协议标准,找到一个完整的UDP数据包;(2)判断在记录包头的前4B是否为0x FE6B2840;(3)如果不是则表示不是需要的FC帧,接着分析下一个数据包;(4)如果是则表示该数据包为所需要的FC总线数据帧。通过识别字的判断,实现了FC总线消息的识别判断,确定测试系统记录了哪些FC消息帧。

3.2 完整FC帧检测技术

在获得一个FC消息帧后,按照飞行试验的需求,需要对FC总线消息帧进行完整性检测,以鉴定FC总线帧的完整性。对照FC总线协议标准,首先对关键字段信息进行检测,包括一个SOF定界符、一个EOF定界符和CRC字段:

(1)首先对SOF界定符进行检测,它采用了SOFn3的编码,并且SOFn3的编码值:0x BCB53636;(2)如果SOF界定符的值不符合约定,则该数据帧就不是需要的消息帧;(3)其次对CRC字段进行检测,效验码CRC由硬件计算并填入,一般为0x FFFFFFFF;(4)如果CRC界定符的值不符合约定,则该数据帧就不是我们需要的消息帧;(5)最后对EOF定界符进行检测分析,EOF采用了EOFt N的编码,且其值为0x BC957575;(6)如果EOF界定符的值不符合约定,则该数据帧就不是需要的消息帧;通过SOF定界符、EOF定界符和CRC字段的判断,实现了FC总线消息的完整性检测[2]。

3.3 FC帧丢包检测技术

FC总线为网络化总线技术,同时测试系统对FC总线的采集也运用了网络化测试技术。理论上网络化技术的运用就会存在丢包现象,所以对采集记录的FC总线数据进行丢包检测就非常有必要。航电总线消息有两类:一类是周期性消息,一类是事件消息。事件消息在标准的协议架构下无法进行丢包检测,但是周期性消息可以进行丢包检测。对FC总线的丢包检测主要针对周期性消息。按照ICD信息文件的定义,对周期性消息进行丢包检测分析:

(1)对记录的FC试验数据进行FC总线消息识别分析即FC帧完整性检测分析;(2)对需要检测分析的FC消息,读取ICD数据库中相关信息,特别是周期信息;(3)对FC消息帧进行周期性检测,比对每个周期ICD中定义的消息帧出现的次数和ICD定义中定义的次数是否一致,如果少于定义的则表示丢包;(4)对检测分析的FC总线数据帧进行丢包统计并给出结果。通过周期信息的判断,实现了FC总线消息的丢包检测分析。

4 结语

综上所述,文章基行试验对于FC总线数据检测分析的基本要求,对FC总线检测分析的关键技术进行了详细的分析,期望对同行能够有所借鉴。

参考文献:

数据分析分析技术范文5

关键词:数据挖掘技术;财务分析

财务报表是综合反映企业一定时期财务状况、经营成果、现金流量状况及财务状况变动的文件,是企业和投资者进行财务分析的主要依据。但是企业普遍面临数据爆炸、知识匮乏的困境,如何从海量的信息资源中挖掘出潜在的信息,为管理和决策服务,是企业迫切需要解决的问题。数据挖掘为解决该问题提供了新的途径。

一、数据挖掘基本原理介绍

数据挖掘是指从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘将人们对数据的应用,从低层次的简单查询,提升到从数据中挖掘有用的信息和知识,提高决策能力的水平。

(一)数据挖掘的主要功能

数据挖掘的目标是从数据库中发现隐含的、有意义的信息,主要有以下功能:

1、估计与预测。估计是根据已有积累的资料来推测某一属性未知的值,预测是根据对象属性的过去观察来估计该属性未来之值。数据挖掘技术能够自动的在大型数据库中寻找预测性信息。

2、关联和序列发现。关联是要找出在某一事件或是资料中会同时出现的东西;序列发现与关联关系很密切,所不同的是序列发现中相关的对象是以时间来区分的。

3、聚类。数据库中的记录可被化分为一系列有意义的子集,即聚类。聚类技术要点是在划分对象时不仅考虑对象之间的距离,还要求划分出的类具有某种内涵描述,从而避免了传统技术的某些片面性。

4、描述。描述的功能是对负责的数据库提供简要的描述,其主要目的是为了在使用别的功能时对数据先有较好的了解,然后再建立分析模型。

5、偏差检测。数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。偏差包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等。

(二)数据挖掘的基本步骤

SAS研究所提出的SEMMA方法是目前最受欢迎的一种数据挖掘方法,其描述的数据挖掘的大致过程包括取样、探索修改、模型和评价。

1、数据取样。在进行数据挖掘之前,首先要根据数据挖掘的目标选定相关的数据库。通过创建一个或多个数据表进行抽样。所抽取的样本数据量既要大到足以包含有实际意义的信息,同时又不至于大到无法处理。

2、数据探索。数据探索就是对数据进行深入调查的过程,通过对数据进行深入探察以发现隐藏在数据中预期的或未被预期的关系和异常,从而获取对事物的理解和概念。

3、数据调整。在上述两个步骤的基础上对数据进行增删、修改,使之更明确、更有效。

4、建模。使用人工神经网络、回归分析、决策树、时间序列分析等分析工具来建立模型,从数据中发现那些能够对预测结果进行可靠预测的模型。

5、评价。就是对从数据挖掘过程中发现的信息的实用性和可靠性进行评估。

二、数据挖掘在财务决策中的应用

从财务分析的角度来看,数据挖掘是一种新的财务信息处理技术,其主要特点是能对会计数据库以及其他业务数据库中的大量数据进行抽取、转换、分析及其他模型化处理,从中提取辅助决策的关键性数据。数据挖掘其实是深层次的财务数据分析方法。分析这些数据主要目的是为企业决策提供真正有价值的信息,进而获取更大企业价值的最大化。

(一)网络经济时代企业财务分析的变化

随着网络经济时代的到来,现在的财务分析与传统财务分析相比,数据使用的广泛性大大提高,而且还产生如下变化:

1、财务分析信息使用者发生变化。传统财务分析信息注重提供给现有投资者,主要为现有的投资者提供企业相关的分析资料。在网络经济时代,随着资本市场的不断发展和完善,企业的股东结构日趋多元化,这就要求企业不仅要考虑现有投资者的分析资料要求,更要将企业推向潜在的投资者,吸引潜在投资者注意,以此增强其发展潜力。

2、财务分析导向性发生变化。传统财务分析主要是面向过去。在网络经济时代财务分析不仅要面向过去,更要面向未来。由于潜在投资者的增多,财务分析信息使用者更需要的是能为其提供决策依据的信息,进而决定是否采取某一行动或决策。这就要求企业全面分析企业内部和外部的经营发展情况和趋势,向使用者充分暴露有关未来发展前景,赢利预测和现金流量的信息。

3、财务分析时效性发展变化。传统财务分析信息一般实时反映。在网络经济时代,要求企业成为一个信息系统,利用网络随时向外提供信息,以满足投资者等利害关系人进入企业网页或有关搜索引擎上搜索当日、当时企业情况的需要。

4、财务分析对象范围发生变化。传统财务分析的对象主要是有形资产。在网络经济时代,知识资源、人力资源、企业文化资源和顾客市场资源等已成为公司最重要的资源,企业的无形资产在整个资产总额中的份额将大大超过有形资产。将知识资源、人力资源、企业文化资源和顾客市场资源等无形资产纳人资产要素范畴势在必行。

(二)数据挖掘在财务分析中的应用

由于以上变化,使得对财务分析的方法有了更高的要求。财务数据挖掘其实是一类深层次的财务数据分析方法,同传统的财务分析相比,它具有以下特点:首先,数据挖掘所采用的基础数据更加全面,不仅包含财务报表中的数据,而且可以包括会计业务基础数据、非财务数据以及其他相关业务数据,如企业背景资料、人力资源信息等;其次,财务分析可以提供更有价值的信息,不仅可以利用钻取、切片、漂移、旋转等功能简单而直观地引导用户从多角度、多侧面观察数据,而且可以将分析数据统一管理起来,使用户在同一界面下选择分析的重点,获取所有分析数据;再次,财务分析的时效性更强,影响的范围更大,有助于吸引潜在的投资者。利用数据挖掘技术进行财务分析的基本过程如下:

1、确定财务分析对象。定义财务分析的对象,根据财务分析的目的选择合适的分析模型,采用相应的数据挖掘方法。

2、数据收集。数据收集是数据挖掘的首要步骤,数据可以来自于现有的会计信息系统,也可以从数据仓库中得到,还可以是其他业务系统中的数据。

3、数据整理。数据收集阶段得到的数据可能有一定的“污染”,可能存在自身的不一致性或者有缺失数据的存在等,因此数据的整理是必须的。同时通过数据整理,可以对数据做简单的泛化处理,从而在原始数据的基础之上得到更为丰富的数据信息,便于下一步数据挖掘的顺利进行。数据整理主要包括以下内容:(1)数据选择。搜索所有与财务分析对象有关的内部和外部数据信息,根据财务分析的目的并从中选择出适用于数据挖掘的数据。(2)数据简化。有些数据属性对财务分析是没用的,这些属性的存在会大大影响挖掘效率,甚至还可以导致挖掘结果的偏差。数据简化是在对发现任务和数据本身内容理解的基础上,寻找依赖于发现目标的表达数据的有用特征,以缩减数据规模,从而在尽可能保持数据原貌的前提下最大限度地精简数据量。(3)数据的转换。将数据转换成一个分析模型,这个分析模型是针对挖掘算法建立的。建立一个真正适合挖掘算法的分析模型是数据挖掘成功的关键。

4、数据挖掘。对所得到的经过转换的数据进行挖掘。除了完善选择合适的挖掘算法外,其余一切工作都能自动地完成。

5、结果分析。数据挖掘的结果有些是有实际意义的,而有些是没有实际意义的或是与实际情况相违背的,就需要进行评估。评估可以根据用户多年的经验,也可以直接用实际数据来验证模型的正确性,进而调整挖掘模型,再次进行挖掘。

6、知识的同化。数据挖掘的最终目的是辅助决策。决策者可以根据数据挖掘的结果,结合实际情况,将分析所得到的知识集成到财务分析系统中。

三、数据挖掘技术在企业财务分析中应用的难点

数据挖掘在企业财务报表分析中的应用还是一门崭新的技术或者方法,接受数据挖掘的概念容易,但是实际将其落在实处却比较困难。其中最重要的就是成本的负担问题。数据挖掘功能对进行企业财务报表分析来说虽然存在优势,但前提是具备完整、正确的数据,即在建立数据仓库系统基础后,与此功能结合运用以达到事半功倍的效果。但是企业财务报表所提供的数据本身都可能存在水分,因此需要报表使用者在经过会计信息质量分析等前提下调整或重新计算企业财务报表中的数据,然后再利用数据挖掘等技术进行财务报表分析。

数据挖掘仅仅依靠电子计算机或者软件是无法完成这项任务的,更多的是需要依靠职业人士的职业判断。虽然在企业财务报表分析中利用数据挖掘技术还不十分成熟,相信伴随科学技术的迅猛发展,数据挖掘技术将会在未来的企业财务报表分析中扮演重要的角色。

参考文献:

1、李剑锋,李一军,祁威.数据挖掘在公司财务分析中的应用[J].计算机工程与应用,2005(2).

2、林伟林,林有.数据挖掘在上市公司财务状况分析中的应用[J].市场周刊,2004(10).

3、李爱玲,沈,李豫州.数据挖掘在财务预测中的应用[J].安阳师范学院学报,2005(2).

4、刘胜平,张启銮.基于数据挖掘技术的财务实时控制系统研究[J].财会月刊,2004(3).

5、杨春华.数据挖掘OLAP在财务决策中的应用[J].财会通讯,2002(10).

6、郭素蓉.浅谈数据挖掘在财务风险分析中的应用[J].现代企业教育,2007(14).

7、吕橙,易艳红.数据挖掘在财务分析中应用的理性思考[J].商场现代化,2006(18).

8、李静,万继峰.浅议数据挖掘技术在企业财务报表分析中的应用[J].中国管理信息化,2005(8).

9、曹明,闪四清,梁海燕.基于数据挖掘的财务预警模型设计与实现[J].计算机应用,2006(10).

10、曹中.论数据挖掘和企业财务分析[J].上海会计,2004(3).

数据分析分析技术范文6

关键词:铝电解分析系统;数据深度解析;技术应用

DOI:10.16640/ki.37-1222/t.2016.24.004

铝电解分析系统是对槽数据进行挖掘分析,把现有的大量数据进行数据分析、数据处理、数据呈现、最后给出数据结论。铝电解数据分析系统可以使数据更灵活的配合电解生产、指导电解生产、分析出电解槽况,可减少电解操作人员的工作量,更能提高管理人员的工作效率。数据是与铝电解生产密不可分的一部分,是铝电解生产的基础,对数据的深度挖掘就是节省成本提高效率的最直接的方式。本文对电解铝厂数据的使用情况进行了说明、比较。详细介绍数据挖掘技术在铝电解系统中的应用。

1 传统的铝电解生产中数据使用情况

1.1 数据的初步统计

数据库最初使用在铝电解生产中时,由于受到设备的限制,无论从存储量,还是存储时间上都受到限制。只做数据记录,并不能做数据的分析。

1.2 数据初步统计的特点

(1)其优点在于:有了数据库的应用,使数据更加结构化,解决了数据存储到文件的模式,克服了数据处理不便、数据共享困难,大幅提高了数据库管理效率,降低了用户使用的复杂性。

(2)其缺点在于:仍为单一结构,数据量非常少,数据只能以单一的报表展现,没有更多分析功能;数据存储的周期不长,数据不能进行更深度的分析处理,不能直接给出分析的结果,对生产的指导有限。

2 数据的深度挖掘的方式

(1)以国内某300KA铝厂铝电解分析系统进行说明,该系统由以下设备构成:电解计算机控制室和电解控制设备之间通过工业网络设备组成。主控室的主要配置如下:2台服务器IBM 3650 M5 高配置服务器、1台Web高配置服务器、12台工业控制计算机、2台终端查询机;主控室工控机数据采集系统通过核心交换机把电解车间控制设备的控制数据实时进行采集,在主控室数据采集计算机和智能槽控机之间采用2HZ的数据通信频率,使数据直接存储到服务器,服务器的数据按照设备号和时间进行存储。数据经过计算和分析后,上传到Web服务器上,通过互联网上传到网络平台,网络平台是一种特殊类型的Web页,用户可以在此Web页中与数据库中的数据进行连接,查看、修改数据库中数据。 具体配置如图1。

(2)铝电解分析系统中数据挖掘技术应用特点。1)铝电解厂使用铝电解数据挖掘技术后,使大数据量组成了更大信息技术资源,可以动态的进行数据处理,对数据进行转化、提取、计算、分析。为铝电解厂提供了更丰富的数据量的同时,还以更丰富的形式进行数据的呈现,包括图表、表格、多样性的数据格式。2)数据挖掘运用全新的分析方法及工具,对数据进行分析,提取有价值的信息,形成有效结论的过程,为决策者提供依据。3)数据量的增加,可以更有效的进行数据挖掘,从而改变数据的模式,摆脱单一的数据报表形式,形成了图表结合,呈现出图文并茂,层次清晰;结论明确;提供可行的建议和解决方案;实时共享的特点。4)现有的设备能够满足高速大容量的需求,可以满足数据的实时快速保存、生产参数传输和数据长时间存储功能。

(3)数据挖掘技术在铝电解生产应用中需要注意的问题。铝电解数据挖掘技术提供巨大的信息量和交互功能,提高了电解铝厂的整体工作效率,但网络信息安全即影响网络稳定运行又影响用户的正常使用,信息一旦丢失或泄漏将造成重大的损失。针对这些情况,需要对网络安全进行防范,保障系统的正常运行。

1)防火墙技术。防火墙是由软件和硬件设备组合而成,能够限制外部用户的内部访问,有效地控制信息输入输出是否符合安全规则,对包含不安全信息进行过滤,防止内网数据和资源外泄,强化计算机的安全策略,保障网络安全。

2)防止计算机病毒。 由于计算机病毒的破坏性和危害性很大,所以防止病毒方面,除了设置防火墙,还要在计算机上安装正版杀毒软件,并且及时的升级杀毒软件,更新病毒库,同时规定上网安全,不许打开不正常的网页连接和下载可疑文件。

3)规范管理。要加强计算机信息网络的安全规范化管理力度,大力加强安全技术建设,强化使用人员和管理人员的安全防范意识。网络内使用的IP地址作为一种资源一直被忽略,为了更好的进行安全管理工作,应该对IP地址进行统一管理、统一分配。只有共同努力,才能使计算机网络的安全可靠得到保障,从而使网络内的信息得到保障。

4)对系统及时的备份。数据的备份工作也是计算机网络安全的内容之一,可以使用备份工具,对数据进行备份和还原,一旦系统出现故障时,减少信息数据的损失,保障计算机系统的恢复使用,使数据不丢失,更能保障生产的安全。

3 总结

实际运行情况表明,在铝工业发展方面,数据深度挖掘逐渐成为一种新的决策方式,数据挖掘技术有力的促进了信息技术与各行业的深度融合,数据挖掘大大推动了新技术和新应用的不断涌现。数据挖掘的兴起,将在很大程度上改变铝行业的生产现状,因此,数据挖掘技术能更好的对数据进行高效的使用,满足现代铝电解生产需要,已成为铝电解分析系统的今后主要的发展方向。

参考文献:

[1]韩家炜等著,范明等译.数据挖掘:概念与计算[M].机械工业出版社,2012.

[2]谢龙汉等编著. SPSS统计分析与数据挖掘[M].电子工业出版社,2014.

数据分析分析技术范文7

随着信息技术的发展以及计算机的数据存储和处理能力的提升,数据分析技术的应用领域逐渐拓展,各种技术也日趋成熟。目前,在数据挖掘分析技术上已经形成了较为完备的体系,在大多数行业的业务数据分析领域已经形成了固定的技术模式。

1数据源准备

数据源是数据分析技术应用的重要前提,数据来源关系到各种业务分析所需要的数据是否齐全、原始数据质量是否可靠、数据提供的性能方面是否满足相关要求等。对于不同的行业领域,数据来源的渠道各不相同,对于数据分析应用而言,也需要在众多的数据中选取合适的部分进行后续加工和处理。对于大多数信息化技术应用比较广泛的企业而言,主要的业务运营数据源都可以从自身的信息管理系统中取得,如业务支撑系统、企业资源规划和管理系统以及流水线作业信息管理系统等。有部分数据信息是从非常专业的系统中直接采集到的,如专业调度系统、电话交换机以及生产线控制系统等。从这些系统中,可以取得企业运营过程中的基础信息和关键数据,这些数据通常是最能真实客观地反映企业运行情况。此外,数据获取的成本也比较低,稳定性和质量比较好,并且易于管理和重构。然而,就经营分析的角度而言,从企业内部提供的数据还不能满足全方位分析的需要,需要从企业外部获取必要的信息。比如为了深入了解客户的信息,就需要进行相应的市场调研工作,设计一些调查问卷,搜集与业务开展和经营相关的重要信息。另外,在某些特定的场合下,还有可能还需要从其它一些外部渠道去集中获得一些有关客户和市场的数据信息,目前有不少机构专门从事市场信息数据提供的服务工作。从企业外部获得的业务数据往往是针对性较强,有较高利用价值的信息。但这些信息的真实性、稳定性程度就比内部的数据源要低,并且数据获得的成本相对比较高。

2数据仓库技术的应用

目前,数据仓库技术对于大多数经营业务数据分析任务而言,是必备的基础条件之一,尤其是对于规模较大、业务开展较广泛的企业。由于日常运营涉及到的数据来源和种类较多、数据量较大,在进行数据分析处理时需要对原始的信息进行大量的加工处理工作,因此数据仓库技术的应用就是必然的选择。应用数据仓库技术的主要目的是将原始的数据源按相应的要求进行转换并按专门设计的数据结构进行存储。数据仓库技术对原始数据加工处理流程目前一般称为ETL,即抽取(Extract)、转换(Transform)和加载(Loading)。抽取过程是指从各类原始的数据源获取数据的过程,综合考虑信息系统的处理性能和数据时效性以及分析应用需求等因素,数据抽取过程可以是实时的,也可以是非实时的。对于抽取出的数据需要进行一定的转换处理,才能够进行后续的应用,转换过程主要是根据后期应用需求将原始的数据进行过滤、异常处理后再进行格式变换、维度调整以及初步分类汇总等处理。数据加载过程就是将处理后的数据装载到仓库模型中,并根据应用需求进行数据关联关系的调整以及性能优化。在一些专题分析应用场合,还可以将已经加载至数据仓库中的数据进行进一步的归纳处理,形成相关主题的数据集市,以提高数据的可用程度。

数据分析方案的设计和实施

数据仓库建设完成之后,为了实现业务分析的目标,就可以考虑实施一些数据分析方案,选择合适的分析方法和工具建立相应的模型,对数据进行处理,最终得到能够支持业务经营分析的关键信息,这一步对于整个业务数据分析工作而言是一个关键点。数据分析建模工作不仅需要掌握相关分析方法技术,更需要对业务背景和业务分析目标有充分的认识。因为数据分析挖掘建模方法没有严格的定律可以遵循,往往需要在实践中运用一些基本的方法去探索影响业务目标的关键因素,并且需要长期跟踪业务发展情况,不断地完善模型、调整相关参数,才能够得到能正确辅助经营决策制定的方案。此外,随着业务运营模式的调整和市场环境的变化,业务分析模型还可能随时需要重构并且反复验证。目前用于数据挖掘分析的方法有很多,从基本的数理统计方法到目前研究比较广泛的神经网络、遗传算法等。但是并不是越复杂的算法效果越好。在很多场合下,应用较为简便的方法得出的结论更易于描述业务信息,便于理解以及实践操作。现在市场上用于进行数据挖掘和统计分析产品也比较丰富,比较典型的分析工具如SPSS、SAS、STAT等,在一些行业应用领域,还有更加专业的数据分析工具和软件包可供使用。在实际运用过程中,可以根据数据分析的需求和应用范围进行选择。

互动点播业务的业务分析需求

以及数据分析方案设计目前,有线电视运营商在互动点播业务开展过程中关注最多的经营目标是如何提高用户对服务的认可程度、扩大用户规模、避免用户流失以及提升用户的业务贡献价值等方面。在这个过程中同时也需要对点播内容的使用情况进行分析,判断哪些产品的点播频率比较高,以便进行内容安排方面的调整。为了支撑互动点播业务经营分析的目标,首先需要初步选择可能对点播业务使用频率影响比较大的一些关键性因素,并且判断哪些信息是有手段可以收集到的,以及从哪些渠道收集等等。这个过程通常需要对基础业务有一定的认识,此外还需要对信息数据的分布和管理有相应的了解。通常情况下,对于大多数有线电视运营商而言,目前都在建设和使用业务支撑系统。互动业务分析所需要的基础信息大多数都可以从业务支撑系统中获取,例如从客户关系管理平台中可以收集到用户的基本信息,如客户名称、联系方式、业务使用的地址等。另外,客户开通的业务信息以及订购的各种产品信息、业务变更记录信息以及终端信息等基本上都可以从业务支撑系统中获取到。经过一些信息转换和汇总,我们就可以了解到用户业务的在网时间、消费情况、订购记录、离网情况等。从这些基本信息里面可以选择一些业务上感兴趣的因素进行统计分析,以归纳总结出经营分析相关的业务特征。对于互动点播业务相关的另外一些信息,如客户的点播行为记录,一般就不是直接从业务支撑平台上进行采集到。这些数据的来源通常是在互动业务管理平台中,用户在终端上进行点播操作后,互动业务管理平台会记录下与用户点播操作相关的信息。从这些记录中,我们可以了解到用户的点播时间、点播内容、收看时间等等。根据点播的内容,可以在互动业务内容管理平台上关联到其价格、类型、上线时间等信息。综合上述信息后,就可以整理出互动点播业务的使用记录,通过统计分析可以发现用户点播的时间、内容偏好和使用量发展趋势等数据,这些数据可以帮助判断系统的容量以及内容的受欢迎程度等信息。最后,为了综合评估互动业务的发展情况,发现与业务分析目标关联较大的一些因素,可以综合用户的业务记录信息和点播使用情况进行模型构造,并且对结果进行验证和评估,以得到对决策分析有价值的信息。

互动点播业务的数据分析方案的实施应用

根据业务数据分析基本方案设计的思路,可以着手开始实施相应的分析方案。在本文中主要介绍两类数据分析应用案例,一个是基于基础点播行为数据进行的统计分析应用,另外一个是根据用户点播行为数据以及基础业务数据综合分析影响用户的互动业务在线情况的因素。

1用户点播行为数据分析案例

为了了解点播业务的使用情况,可以根据用户的点播行为记录进行数据挖掘分析,以实现总结互动点播内容、时段和使用量趋势等业务特征的分析目标。根据方案设计的结论,从互动业务管理平台中可以取得这类业务分析所需要的全部源数据。但是,互动业务管理平台中的点播记录通常全部是以文本记录的方式保存的,并且由于点播记录的数量较大,一般按照记录数量或者时间间隔进行了拆分。为了利用这些信息就有必要进行相应的数据抽取转换工作。在实际应用中可以使用预先设计的脚本定时从互动业务管理平台中进行数据的抽取,然后经过简单的类型变换后加载至数据仓库中。为了达到分析目标,主要抽取的信息有产生用户点播记录的用户ID、点播内容的代码及分类信息、点播的开始和结束时间等等。原始的点播记录信息转换后,就可以进行下一步的主题分析准备了,例如可以按照点播的时段、点播的内容,以及用户区域等信息进行不同维度的数据分析。图2是对互动点播类业务按每日播频率进行的一个分类统计后用SAS统计工具生成的图形,在生成统计数据前需要从原始数据中分离出点播时段信息,并行分类汇总。从图2中可以发现,点播频率在一天之中的大致分布规律。从点播总量上看,每天点播频率最高的时段是在18:00至22:30左右,峰值在21:00到22:00左右出现,此外在中午12:00左右也有一个高峰时期。点播频率最低的时段大约在3:00至5:00左右。根据每天点播业务频率的分布情况,可以进行相应的网络容量分析,比如通过业务高峰数值可以评估出互动点播平台的并发容量是否足够。另外,根据每日点播频率的分布特征,可以安排相应的业务运营工作部署。例如在业务高峰时段可以集中投放一些广告、通知信息,而一些系统割接和调试工作尽量应安排在使用频率较低的时段内进行。如果需要了解一些特殊的节假日的点播频率分布特征,可以在原始数据中进行重新过滤筛选,生成类似的频率分布图并与图2进行比对,然后分析其特点。从互动业务点播数据还可以按内容代码维度进行分析,以统计出与互动视频节目内容相关的数据,也可以将不同维度的数据进行组合分析,进一步挖掘出业务方面感兴趣的信息。

2影响互动业务用户在线状态因素的综合分析案例

互动业务经营分析的另外一个重点就是用户的流失特点分析,其目的在于找到影响用户在线状态的主要因素,并且根据这些信息和目前的业务状态去预测未来一段时间内可能流失的用户情况。另一方面可以针对影响用户在线状态的主要因素实施有针对性的市场营销策略,尽可能避免用户流失情况的产生。此外,在通过分析影响互动在线状态的主要因素后,也可以从中发现进一步发展扩大用户规模的一些线索。为了实现上述业务目标,首先需要确定分析数据来源。由于是综合因素分析,首先需要使用业务支撑系统中用户的互动业务状态变更信息以及其它一些属性特征信息。此外,用户的点播行为数据也是一项重要的数据源,因此也需要引入到模型中。由于最终目的是需要分析影响用户在线状态的主要因素,而在某一个观测时间点用户的在线状态一般认为是一个二值型的变量,因此可以使用逻辑回归(logisticregression)方法进行建模。然后将在此时间点前一个时段的用户点播次数、用户的在网时长、终端特征等作为自变量。在本案例中,按照某一个时间段内用户在线状态是否发生变更这一特征,选择一个用户的样本使用SAS软件的proclogistic过程进行分析。SAS的分析报告中还给出了模型的相关参数以及各变量的参数估计情况。根据分析结果中的卡方值和P值可以了解模型对数据的适配性和稳定性。从分析结果给出的参数估计信息中可以了解不同自变量对于互动用户在线状态的影响情况。用户的点播次数、在线时长以及终端属性等参数都会影响到用户的在线状态。从参数估计中可以看出点播次数较高的用户,其流失的比率相对较低,另外使用高清互动终端用户流失率也相对较低,并且终端类型因素有较高的预测能力。在网时长似乎对用户的在线情况影响不大,但实际建模的过程中需要考虑套餐赠送的情况,因此最好重新调整参数模型后再进行分析。根据分析的结果可以得出相关的结论,互动用户的点播频率越高,其连续使用的可能性就越大,并且使用高清终端用户连续在线的概率比使用标清终端的用户更大。因此在后续的分析过程中就可以预测目前点播频率较低的用户流失的风险较大,在进行针对性的营销活动时就可以设法引导用户更多地进行互动业务的体验,并且鼓励其进行终端升级,以提高这部分用户在线的概率。当然在分析过程中可能会发现一些使用频率非常高的用户意外流失了,这就值得进一步跟踪分析,因为很有可能这些用户选择了竞争对手提供的类似服务。

数据分析分析技术范文8

关键词:大数据;数据分析;数据挖掘

1综述

1.1简介

在数字化时代,需要新一代系统架构提升业务创新能力。在新一代系统架构中,大数据是核心要素。业务应用能否自主发现与自助获得高质量的大数据,就成为业务创新成败的关键。这就要在搭建大数据平台时,就着手大数据治理相关建设。

1.2需求和意义

从某种意义上说大数据治理架构需要以元数据为核心、提高大数据质量、透明化大数据资产、自助化数据开发、自动化数据、智能化数据安全,提升大数据平台服务能力,让大数据平台变得易使用、易获得、高质量。但是,目前很多技术解决方案存在诸多安全和效率隐患:业务系统多,监管力度大;数据量庞大且呈碎片化分布,急需提升大数据质量;数据格式不规范、难以在短时间内找到所需数据;数据在各阶段的应用角度不同,需要降低系统间的集成复杂度。

2功能设计

2.1总体架构

本文讲述的数据分析方法及实现技术是建立在Hadoop/Spark技术生态圈的基础之上,以实现用户集成处理、、清理、分析的一个统一的数据处理平台;按数据类别分为线数据、归档数据;按数据格式分为非结构化数据、结构化数据;按数据模型分类为范式化模型数据、维度模型数据;按数据采集频度分为非实时数据、准实时数据处理架构;并提供数据中心平台与安全管理方案,为企业级用户建立一个通用数据处理和分析中心。如图1所示。

2.2在线数据

在线数据在线通过接口去获得的数据,一般要求为秒级或速度更快。首先应当将数据进行区分:在线数据、或归档数据。本平台中采用:Storm或SparkStreaming框架进行实现。SparkStreaming将数据切分成片段,变成小批量时间间隔处理,Spark抽象一个持续的数据流称为DStream(离散流),一个DStream是RDD弹性分布式数据集的micro-batch微批次,RDD是分布式集合能够并行地被任何函数操作,也可以通过一个滑动窗口的数据进行变换。

2.3归档数据

归档数据是在线存储周期超过数据生命周期规划的数据,处理的要求一般在分钟级或速度更慢。通常归档数据的计算量、数据量、数据复杂度均超过试试数据处理。本平台中采用:Hadoop、Spark技术生态体系内的框架进行计算,这里不详细阐述。

2.4非结构化数据

通常非结构化的数据不一定具备字段,即使具备字段其长度也不固定,并且字段的又可是由可不可重复和重复的子字段组成,不仅可以包含结构化数据,更适合处理非结构化数据。常见的非结构化数据包括XML、文本、图象、声音、影音、各类应用软件产生的文件。针对包含文字、数据的为结构化数据应当先利用数据清洗、数据治理工具进行提取,这项工作目前仍依赖技术员进行操作,由于格式的复杂性所以难以使用自动化方式进行较为高效的批处理。在治理数据的过程中,需要根据情况对数据本身额外建立描述数据结构的元数据、以及检索数据的索引服务,以便后续更佳深度利用数据。

2.5结构化数据

结构化数据具备特定的数据结构,通常可以转换后最终用二维的结构的数据,并且其字段的含义明确,是挖掘数据价值的主要对象。本平台中主要使用HadoopImpala和SparkSQL来进行结构化数据的处理。Impale底层采用C++实现,而非Hadoop的基于Java的Map-Reduce机制,将性能提高了1-2个数量级。而SparkSQL提供很好的性能并且与Shark、Hive兼容。提供了对结构化数据的简便的narrow-waist操作,为高级的数据分析统一了SQL结构化查询语言与命令式语言的混合使用。结构化数据根据采集频度可以继续分类为:非实时数据、准实时数据。

2.6准实时数据

通常准实时数据是指数据存储在平台本身,但更新频率接近于接口调用数据源的数据。适合用于支持数据和信息的查询,但数据的再处理度不高,具有计算并发度高、数据规模大、结果可靠性较高的特点。通常使用分布式数据处理提高数据规模、使用内存数据进行计算过程缓冲和优化。本平台主要采用SparkSQL结合高速缓存Redis的技术来实现。SparkSQL作为大数据的基本查询框架,Redis作为高速缓存去缓存数据热区,减小高并发下的系统负载。

2.7非实时数据

非实时数据主要应用于支持分析型应用,时效性较低。通常用于数据的深度利用和挖掘,例如:因素分析、信息分类、语义网络、图计算、数值拟合等。非实时数据根据数据模型可继续分类为:范式化模型数据、维度模型数据。

2.8范式化模型

范式化模型主要是针对关系型数据库设计范式,通常数据是采用第三范式3NF或更高范式。面向近源数据查询、数据主题的整合。范式化模型数据的数据存储区,建议使用并行MPP数据库集群,既具备关系型数据库的优点,又兼顾了大数据下的处理。

2.9基于维度模型

维度模型数据主要应用于业务系统的数据挖掘和分析。过去多维度数据处理主要依赖OLAP、BI等中间件技术,而在大数据和开源框架的时代下,本技术平台采用HadoopImpala来进行实现。Im-pala并没有使用MapReduce这种不太适合做SQL查询的范式,而是参考了MPP并行数据库的思想另起炉灶,省掉不必要的shuffle、sort等开销,使运算得到优化。

3应用效果

本系统在不同的业务领域上都可以应用,以2016年在某银行的应用案例为例:该银行已完成数据仓库建设,但众多数据质量问题严重影响了数据应用的效果,以不同的数据存储方式,以更高的要求去进行数据的统一管理。通过组织、制度、流程三个方面的实施,以元数据、数据标准、数据质量平台为支撑,实现了数据管控在50多个分支,60个局,1000余处的全面推广,实现了全行的覆盖;管理了120个系统和数据仓库,显著提升了新系统的快速接入能力;通过14个数据规范和流程明确了数据管控的分工;数据考核机制的实施,使其在数据质量评比中名列前茅。

4结语

本文介绍了大数据下数据分析方法及实现技术的大体设计和思路,从需求分析、总体架构和数据处理以及数据分析这几个方面来介绍。文章在最后介绍出了这种平台的应用效果。笔者相信这些思路和技术能够在业务中能得到很好的应用。

作者:蓝科 李婧 单位:1.中国科学院成都计算机应用研究所 2.中国科学院成都文献情报中心

参考文献

数据分析分析技术范文9

论文摘要:电子商务(EC)在现代商务企业的发展中占有越来越重要的地位。如何利用信息技术掌握更多的商务信息已备受商家们的关注,站点分析技术正是为商家和网站提供了这样一种有效的分析工具。

本文讨论了一些站点分析的相关技术信息和几种网站分析浏览者行为的理论与算法,及数据仓库的相关理论知识。并对站点日志数据进行了实例分析,并指出了站点分析技术发展的方向。

一、绪论

互联网技术不断革新与发展,给全球经济带来新的革命,从而也影响着人们的生活。互联网为企业提供了一种真正属于自己并面对广大网民的信息载体,企业通过这一载体,可以自由地将企业的产品、服务等其他相关信息在线。

电子商务就是网上实行各种商务活动的总包装,种种所谓电子商务解决方案,实际上就是实现各种网上商务活动的硬件与软件系统。它将影响到每一个人、每一个企业。电子商务的主体是我们每一个人、每一个企业,电子商务发展的过程就是对人们的生活、企业的运行的一种模式的一个巨大改变的过程。对于进入虚拟世界的商家而言,仅仅吸引注意力还不行,对它们而言,站点的访问率绝对不仅仅是一个数字,它还是一种信息,如果网站能够从网络中获得网民的信息并从中分析其行为诱因,那么就容易掌握网民的需求,从而利用互联网去创造更多商机。

电子商务站点用户行为的分析这一问题也因此成为现如今的热门话题,被人们普遍关心起来,尤其是被众商家所重视。Web站点的日志数据正以每天数十兆的速度增长。如何分析这些数据,如何从这些大量数据中发现有用的、重要的知识(包括模式、规则、可视化结构等)也成为现在人们最关注的信息。

在此情况下,站点用户行为分析就可为网站或商家提供出大量有价值的信息,包括站点的受欢迎度的对比、商业广告点击情况总括、产品的反馈信息、站点各种信息的点击情况等等。另外,还可根据不同的页面内容来分类浏览者,以便做出更合理的页面分类,促使网站逐步向个性化、最优化状态发展。这一技术对互联网的发展壮大有着不可忽视的巨大作用,它的发展对信息技术亦将产生深远的影响。

在电子商务早期阶段时,Web站点数据流分析通常是在主页上安装计数器以及在一个外部日志文件上运行简单的统计程序记录点击率。但是,简单的点击计数既不准确也远未达到营销目的所需的详细程度。因此,各公司开始寻找更先进的分析工具,这类工具可以提供谁在访问公司Web站点以及访问者一旦进入站点后将做些什么的全面信息。站点开始分析的地方是Web服务器的访问日志。每当用户在站点上请求一个网页时,这个请求就被记录在访问日志中。如:目前有多少用户正在访问站点、他们正在看哪些网页以及他们在站点中呆了多长时间。显然,日志分析和行为概况的正确组合可以对Web站点的成功产生直接影响。此外,从日志分析中得到的信息是很难从真实世界中捕获到的,但这些信息却可以较容易地在线收集到。Web数据流分析工具的这些最新进展可以使网站获得有关上网客户和他们习惯的详细报告。

二、站点信息统计方法

Web页面数据主要是半结构化数据,计算机网络技术和信息技术的飞速发展,使得半结构化数据呈现日益繁荣的趋势。半结构化数据,是一种介于模式固定的结构化数据,和完全没有模式的无序数据之间,在查询前无法预先确定其具体的类型和格式;同时它们相应的数据结构是不固定、不完全或不规则的,即这些数据有的本身就没有结构,有的只有十分松散的结构,有的数据的结构是隐含的,需要从数据中进行抽取。而有时,尽管数据本身是有精确结构的,但为了一定的目的,而故意忽视它的结构。半结构化数据具有以下五方面的

主要特点:

1.结构是不规则的。包含异构数据、相同的数据信息用不同类型或不同的结构表示。

2.结构是隐含的。如电子文档SGML格式。

3.结构是部分的,有时部分数据根本无结构,而部分数据只有粗略的结构。

4.指示性结构与约束性结构。传统的数据库使用严格的分类策略来保护数据。而指示性数据结构是对结构的一种非精确的描述。它可接受所有新数据,代价是要频繁修改结构。

5.半结构化数据通常在数据存在之后才能通过当前数据归纳出其结构,称之为事后模式引导。模式有时可被忽略,同时数据与数据模式间的区别逐渐消除。

三、数据分析的方法

Web页面的数据通常是利用统计模型和数学模型来分析的。使用的模型有线性分析和非线性分析;连续回归分析和逻辑回归分析;单变量和多变量分析以及时间序列分析等。这些统计分析工具能提供可视化功能和分析功能来寻找数据间关系、构造模型来分析、解释数据。并通过交互式过程和迭代过程用来求精模型,最终开发出最具适应性的模型来将数据转化为有价值的信息。

知识发现是从数据仓库的大量数据中筛取信息,寻找经常出现的模式,检查趋势并发掘实施。它是分析Web页面数据的重要方法。知识发现与模式识别的算法有以下几种:

1.依赖性分析

依赖性分析算法搜索数据仓库的条目和对象,从中寻找重复出现概率很高的模式。它展示了数据间未知的依赖关系。利用依赖性分析算法可以从某一数据对象的信息来推断另一数据对象的信息。例如:在杂货店中,一堆椒盐饼干放在陈列饮料的走道上,这是因为经过依赖性分析,商店认为:很大一部分买饮料的顾客如果在取饮料的路上看到椒盐饼干的话就会购买,因而此种分析影响了商店布局。

2.聚类和分类

在某些情况下,无法界定要分析的数据类,用聚类算法发现一些不知道的数据类或怀疑的数据类。聚类的过程是以某一特定时间为依据,找出一个共享一些公共类别的群体,它称为无监督学习。分类过程,这是发现一些规定某些商品或时间是否属于某一特定数据子集的规则。这些数据类很少在关系数据库中进行定义,因而规范的数据模型中没有它们的位置。最典型的例子是信用卡核准过程,可确定能否按商品价格和其它标准把某一购买者归入可接受的那一类中。分类又称为有监督学习。

3.神经网络

神经网络通过学习待分析数据中的模式来构造模型。它对隐式类型进行分类。图像分析是神经网络最成功的应用之一。神经网络用于模型化非线性的、复杂的或噪声高的数据。一般神经模型由三个层次组成:数据仓库数据输入、中间层(各种神经元)和输出。它通常用恰当的数据库示例来训练和学习、校正预测的模型,提高预测结果的准确性。

4.数据挖掘中的关联规则

关联规则是数据挖掘的一个重要内容,通常关联规则反映的是数据间的定性关联关系。如一个商品交易数据库,一条记录表示用户一次购买的商品种类,每个属性(A、B……)代表一种商品,每个属性都是布尔类型的。一条关联规则的例子是:{A、B}{D}[2%][60%],规则的含义是“如果用户购买商品A和B,那么也可能购买商品D,因为同时购买商品A、B和D的交易记录占总交易数的2%而购买A和B的交易中,有60%的交易也包含D”。规则中60%是规则的信任度,2%是规则的支持度。数据挖掘就是要发现所有满足用户定义的最小信任度和支持度阀值限制的关联规则。数据只是定性地描述一个交易是否包含某商品,而对交易量没有定量描述,这种布尔类型数据间的关联规则被称为定性关联规则。但数据记录的属性往往是数值型或字符型的,这些数据间也存在对决策有帮助的关联规则,相对于定性关联规则,这些规则被称为定量关联规则。

另外,数据挖掘目前仍面临着数据质量的问题。由于数据仓库中的数据来自多个数据源,而在合并中存在很多障碍,如:没有建立合并视图所需的公共关键字;数据值相互抵触;元数据的说明不完备或丢失;数据值的不洁净等等。数据挖掘是在标准化的数据基础上进行的,因而这些都会严重破坏数据的准确性,导致最终决策的失误。所有这些问题都在等待着人们去发掘更好的解决方法。

参考资料

1.周斌,吴泉源,高洪奎:“用户访问模式数据挖掘的模型与算法研究”,《计算机研究与发展》,1999 vol.36 No.7 P.870-875;

2.Srikant R,Vu W,Agrawal R.Mining association rules with itemconstrains.IBM Almaden Research Center,Tech Rep:97.056,1997;

3.Park J S,Chen M,Yu P S.Aneffective hash based algorithm for miningassociation ru1es.In:ACM InternationalConference on Management of Data,Caliform,1995;

4.Inmon,William H,Building the DataWarehouse(2nd ed.).Wiley.NewYork(1996);

相关期刊