HI,欢迎来到好期刊网,发表咨询:400-888-9411 订阅咨询:400-888-1571证券代码(211862)

数据分析方法集锦9篇

时间:2023-06-18 10:31:04

数据分析方法

数据分析方法范文1

【关键词】 泳道 数据流图 需求分析

【Abstract】 With the development of information technology, data sharing and interactive between the departments and grades increase rapidly, and the basic data flow diagram is incapable of mining and expressing the complicate data requirement of networked information system. An effective data requirement analysis method based on swimlane data flow diagram is presented in this article, which takes the advantages of swimlane flowcharts and data flow diagram.

【Keywords】 swimlane; data flow diagram; requirement analysis

管理信息系统建设的基础在于政府、军队、企事业单位的信息资源规划。信息资源规划的核心任务在于各部门、各层级数据需求的获取与分析,其主要方法来自于业务流程分析和数据流分析[1]。然而信息技术的飞跃发展,使得部门间、层级间的数据共享与交互呈现指数级的增长[2],传统的基本形式的数据流图也不能充分的挖掘和表达复杂的网络化的信息系统数据需求,本文结合泳道流程图[3]和数据流图两者的优势,提出了一种基于泳道数据流图的数据需求分析方法。

1 基本形式的数据流图

数据流图(Data Flow Diagram),是从数据传递和加工的角度,以图形的方式刻画数据在系统中流动和处理的过程。

数据流图有以下几种主要元素:(1)数据流。数据流是数据在系统内传播的路径,由一组成分固定的数据组成。如订票单由旅客姓名、年龄、单位、身份证号、日期、目的地等数据项组成。数据流是流动中的数据,具有流向,除了与数据存储之间的数据流不用命名外,数据流应该用名词或名词短语命名。(2)数据源(终点)。代表系统之外的实体,可以是人、物或其他软件系统。(3)对数据的加工(处理)。加工是对数据进行处理的单元,它接收一定的数据输入,对其进行处理,并产生输出。(4)数据存储。表示信息的静态存储,可以代表文件、文件的一部分、数据库的元素等。

这里给出一个物资采购管理流程的数据流图的实例,如图1所示。

这个数据流图给出了数据源(评估人员),数据流,数据加工(如收货管理、采购统计等)和数据存储(如采购申请信息,供应商资料等),给出了数据输入与输出的流向,但是数据源或终点不够明确,数据产生和消费的职能部门、岗位以及时序等都无法清晰明了的展现出来,各部门,各层级间的独立信息和共享信息不能一一分明。为解决这些问题,可以采用泳道数据流图。

2 泳道数据流图

泳道数据流图是根据业务实际需求,在基本数据流图的基础上,结合泳道流程图具有的跨职能部门业务处理流程能力和数据流图刻画数据单元输入输出及其处理过程的能力,形成一种图形化分析跨职能部门业务数据需求的方法。

泳道数据流图包括以下几种基本元素:(1)数据流、数据存储、数据处理同基本形式的数据流图;(2)泳道。职能部门是业务处理的核心单位(业务流程主体),也是数据源或终点,在泳道数据流图中表现为一个泳道,是数据产生、处理或存储的容器或者空间。在这个泳道空间中,可以包含数据流、数据存储和数据处理。泳道空间所包括的数据处理,意味着由该职能部门完成该项数据处理,该职能部门是流入该项数据处理的数据流(含特定数据项)的消费者;其所包括的数据存储,意味着该项数据存储由该职能部门产生并维持其序列化,该职能部门是数据存储中所含数据项的生产者;在泳道数据流图中,泳道从左向右水平排列,也可从上到下垂直排列。(3)阶段。阶段是一个容纳业务流程元素或数据元素的时段,它是业务流程在时间上的意义分割,展现业务流程执行或控制的时序;同时也是业务数据产生、处理和存储的时序。在泳道数据流图中,阶段按时间先后可以从上到下排列,也可以按时间先后从左到右排列。(4)起始点。数据的输入输出以及处理追随着业务活动的过程,其起始点常常起于某项业务活动的开始。(5)终止点。数据处理的终点常常是数据输出,例如数据库存储、表单等。但业务活动常常有比较明晰的终止点。为简明表达业务数据需求,泳道流程图纳入终止点。(6)分岔点。数据处理过程常常因为业务逻辑的需要输出不同的数据项,从而产生分岔点。(7)数据项。数据项为数据流中的数据组分,具有明确的定义,包括名称、类型、长度、精度、取值范围、能否为空、是否主键等信息。

泳道数据流图中,以各个职能部门形成的泳道横向水平(或纵向垂直)排列,各个岗位纵向垂直(或横向水平)排列,由业务起始点开始,结束于终止点。分别明确各职能部门,各阶段的数据流、数据项、数据处理过程和数据存储方式和内容。

3 泳道数据流图的应用实例

以前文的物资采购管理流程为例,按照上述泳道数据流图绘制步骤,物资采购管理流程所涉及的泳道数据流图绘制如图2所示。

图中,职能部门分为申购部门,计划部门,评估部门、采购实施部门和财会部门。流程分为需求请领与评估、计划拟制、采购实施和财会审计四个阶段。流程起始于需求请领与评估阶段,由申购部门发起物资采购申请,该部门产生“采购申请信息”,处理“请购管理”过程,并将填写完备的“采购申请信息”发送到计划部门的采购计划拟制人员。计划部门接收“采购申请信息”、“样品评估信息”、“供应商评估信息”,从而“制定采购计划”,完成“采购单管理”,生成“采购单信息”。这个过程中,计划部门的采购计划拟制人员是“采购申请信息”、“样品评估信息”、“供应商评估信息”的消费者,又是“采购单信息”的生产者。其中“样品评估信息”由评估部门的产品评估人员生产,而“供应商评估信息”则由评估部门的供应商评估人员生产。后续的数据流信息则由采购实施部门和财会部门生成、处理并完成。

4 结语

泳道数据流图不仅拥有基本形式数据流图的优势,而且还可以清晰地分析数据项的生产者和消费者,分析数据流在跨职能部门间的流转过程,并给出数据处理和数据存储的执行者,从而更加充分的挖掘和表达信息系统的数据需求,是一种有效的信息系统数据需求分析方法和途径。

参考文献:

[1]高复先.信息资源规划――信息化建设基础工程[M].北京:清华大学出版社,2002:88-149.

数据分析方法范文2

关键词:大数据统计分析;经济管理领域;运用

统计应用作为数学的重要领域,在大多数情况下,数据被收集并且通过一定方法在系统中存储,重要策略被记录,并应用于其他领域。随着数据恢复方法和统计分析方法的逐步集成,大数据的统计数据分析方法在财务管理中变得越来越重要。面对当今全球化的压力和经济市场的激烈竞争,使用财务管理的统计整合是提高有效管理效率,优化资源分配和科学行为的有效步骤。通过市场经济的发展和经济水平的不断提高,数据集成和财务管理水平运用了大数据的统计分析。在建立大规模数据的经济增长政策时,技术在宏观经济研究中起着重要作用。大数据统计分析的作用正在增加,其在管理中的用途正在进一步扩大。显然,加强对经济发展大数据统计分析技术的使用对促进经济增长和提高管理效率非常重要。

一、大数据统计分析方法在经济管理领域运用的意义

为响应市场环境和公司治理内容的变化而促进使用公司治理统计数据的需求主要体现在两个方面:

(一)宏观经济方面发展有若干规律。为了寻找有关经济发展的规律,强大的数据分析技术在宏观经济学中的应用非常重要。一方面,大数据分析统计数据用于从宏观经济发展行业收集数据,对相关行业信息进行实证分析,并调查行业发展和行业问题。使用SPS,Stata和其他数据分析软件,中国拥有最重要的发展法;同时,发现工业发展规律,规范工业发展,开辟新的经济发展方式也很重要[1]。

(二)企业经营管理方面1.提升企业竞争力的必然要求当前,业务发展的竞争越来越激烈。竞争压力主要归因于国内市场经济带来的经济化以及国内市场竞争激烈加入的外国公司的影响。公司必须面对激烈的市场竞争。大众市场信息的统计分析将调整生产和管理策略,并为业务发展的战略调整作出有效的决策。2.提升企业管理水平的必然要求一方面,诸如运营管理、财务管理、风险管理和企业资源管理等相关任务变得越来越复杂。需要统计分析方法来对丰富的业务操作信息进行分类和汇总,为业务管理决策提供有效的信息。同时,企业需要不断满足产品和服务生产方向的政治要求。由于需要与相关部门合作,例如运营财务管理、规避财务风险,因此需要建立相关部门的统计数据,以提高决策效率[2]。

二、大数据统计分析方法在经济管理领域的运用

利用大数据的统计数据分析技术研究宏观经济发展政策,对促进行业发展至关重要。另一方面,如何获取有关复杂数据管理的重要信息,在业务流程和管理方面为公司制定有效的决策是重中之重。关键在于掌握财务管理的大数据分析方法,并使用大数据统计分析技术来分类和提供业务流程管理,隐藏的规则以及来自异常数据点的大量信息。为了应对突发情况,管理人员需要制订正确的决策计划。本文主要讨论宏观经济应用管理领域的统计数据分析方法,以及业务管理、财务管理、风险管理和管理的六个方面。如:

(一)宏观经济方面关于宏观经济产业的运作和发展有若干规律。为了找到宏观经济发展方法,统计分析技术对于稳定经济增长和调查潜在的经济危机很重要。当前,不仅学者,业务经理也开始了解计算机技术的使用,并开始通过统计分析来发现工业发展中的若干问题,学习工业发展的原理。为了找出答案,我们选择了相关的影响因素并采取了相应的行动,采取措施提高工业发展效率。

(二)企业运营管理方面通常,在日常工作程序和工作相关领域中存在某些特定的业务管理和操作规则。另一方面,通过将统计信息应用于业务的运营和管理,公司可以通过分析大数据的统计信息来获得规律。这将帮助公司节省一些资源,避免重复的任务并节省公司的业务资源。如果该政策是从科学的统计评估阶段得出的,则情况与正常情况不同的企业高管应仔细考虑潜在的风险。

(三)企业营销管理方面企业需要建立大型数据管理系统来收集有关企业提供的产品或服务的市场交易信息。因此,消费者的热点必须与受管理的信息系统对齐,以使其隐藏在协同交易信息中。确定消费者对需求的偏好并确定消费者需求。公司的主要产品和服务根据消费者的喜好运作,可以满足消费者的需求,替代市场上的非反应性产品和服务。同时,开发新产品和服务企业领导者可以提供有效的决策信息,并为消费者创建新的热点[3]。

(四)企业财务管理方面应用管理统计信息。它通过审查有关生产过程和运营的统计数据(尤其是财务数据),进行定性和定量分析,帮助评估相关活动,例如商业投资。财务管理是开展业务必不可少的部分,这对于减轻公司的财务风险和提高公司资源分配的效率至关重要。通过统计分析对商业经济数据进行分类和分析,可以为高管、投资者和其他相关利益相关者提供有效的决策信息。

(五)企业人力资源管理方面将统计应用于公司的人力资源管理,并使用统计分析技术结合公司业务管理部门的特征,选择适当的方法来提高效率。人力资源管理很重要,人才基本上是企业的无形资产,在部门保留相关的人力资源是业务发展的关键。回归站评估法用于预测企业发展的人力资源需求,动态分析法用于根据状态预测人力资源的变化。将这两个方面结合起来可以大大提高业务资源的效率。

(六)企业风险管理方面使用统计分析技术对业务流程中的大量业务信息进行分类和分析,发现隐藏的规则和数据差异。重要的是,业务主管需要进行预测,做出正确的决定,解决事件并发现潜在危险。意思是如果统计数据分析有些奇怪,则需要找出业务流程中具有的某些规则,因此业务主管需要寻找更多异常条件,尤其是财务管理,要注意关注状态的变化。另一方面,对公司财务信息进行统计分析是公司规避财务风险的有效手段之一。

三、完善大数据统计分析方法在经济

管理领域运用的措施在本文中,我们将了解如何从六个方面分析大数据的统计数据:宏观经济活动、业务管理、风险管理、财务管理、资源管理和财务管理人员。这被认为是财务管理数据大规模统计方法的一种改进。必须在三个方面进行现场应用:

(一)社会宏观经济层面尽管存在宏观经济法则,但根据过去的经验,由于缺乏安全可靠的数据和分析方法,宏观经济法则的分析则一直被认为是伪科学。大数据分析技术提供了探索宏观经济法则的机会,大数据技术使用数据创建系统,而使用许多信息技术的科学分析是宏观经济法研究中的重要一步。特别是,某些行业使用行业信息和对经济趋势预测的全面分析来帮助识别和克服复杂的工业发展挑战,可以提高宏观经济发展效率。

(二)企业经营管理层面在公司上载和数据受限的情况下,企业很难优化管理功能以提高性能[2]。由于业务经理的管理理念和管理水平受到限制,因此很难断定业务开发操作和管理流程是否存在问题。统计分析技术可用于计算和评估每个关键决策或业务战略适合性的有效性。如果由于大数据分析技术而导致预期的数据销量存在矛盾,该公司可以调整其总体战略并进行业务变更以优化管理理念。

(三)行业与行业之间存在着一定的鸿沟无论是快速消费品行业、食品行业还是大型公司,其经营理念和经济结构在公司治理方面都存在根本差异。统计数据分析技术使公司能够了解整个行业的消费者需求的性质,分析社会经济状况,能够了解共同的业务条件和业务发展情况,并优化或区分劣质产品。在某些情况下,此更改是提高产品价格的高级更改,如果消耗量和消耗品减少,则可以降低产品价格。产品必须能够升级以满足顾客需求。产品行业、食品行业或大型行业具有不同的经营理念和财务结构,还在进行公司管理。但是,各个行业的业务方向取决于消费者的需求。换句话说,公司开发了产品的功能并使产品的功能适应消费者的需求。对于公司而言,通过优化生产结构并提供更多定价和功能来说服更多消费者也很重要。

(四)企业财务管理层面财务管理贯穿公司治理的整个过程。公司财务管理非常有效,但是存在诸如财务管理的巨大风险之类的问题。对公司财务信息进行统计分析是防范财务风险的有效手段之一。公司需要管理其日常收入和支出,并进行大规模会计处理。企业可以使用大数据分析技术来监测财务管理功能并确保标准化业务的财务安全。利用统计分析技术和大数据,公司可以预测潜在的市场和行业风险,以提供最佳解决方案,还可以提供分析大数据的方法,可以跟踪异常并快速发现异常。

四、结语

数据分析方法范文3

关键词:大数据;数据分析;数据挖掘

中图分类号:TP311 文献标识码:A 文章编号:1007-9416(2017)03-0104-02

1 综述

1.1 简介

在数字化时代,需要新一代系统架构提升业务创新能力。在新一代系统架构中,大数据是核心要素。业务应用能否自主发现与自助获得高质量的大数据,就成为业务创新成败的关键。这就要在搭建大数据平台时,就着手大数据治理相关建设。

1.2 需求和意义

从某种意义上说大数据治理架构需要以元数据为核心、提高大数据质量、透明化大数据资产、自助化数据开发、自动化数据、智能化数据安全,提升大数据平台服务能力,让大数据平台变得易使用、易获得、高质量。

但是,目前很多技术解决方案存在诸多安全和效率隐患:业务系统多,监管力度大;数据量庞大且呈碎片化分布,急需提升大数据质量;数据格式不规范、难以在短时间内找到所需数据;数据在各阶段的应用角度不同,需要降低系统间的集成复杂度。

2 功能设计

2.1 总体架构

本文讲述的数据分析方法及实现技术是建立在Hadoop/Spark技术生态圈的基础之上,以实现用户集成处理、、清理、分析的一个统一的数据处理平台;按数据类别分为线数据、归档数据;按数据格式分为非结构化数据、结构化数据;按数据模型分类为范式化模型数据、维度模型数据;按数据采集频度分为非实时数据、准实时数据处理架构;并提供数据中心平台与安全管理方案,为企业级用户建立一个通用数据处理和分析中心。如图1所示。

2.2 在线数据

在线数据在线通过接口去获得的数据,一般要求为秒级或速度更快。首先应当将数据进行区分:在线数据、或归档数据。本平台中采用:Storm或Spark Streaming框架进行实现。Spark Streaming将数据切分成片段,变成小批量时间间隔处理,Spark抽象一个持续的数据流称为DStream(离散流),一个DStream是RDD弹性分布式数据集的micro-batch微批次,RDD是分布式集合能够并行地被任何函数操作,也可以通过一个滑动窗口的数据进行变换。

2.3 归档数据

归档数据是在线存储周期超过数据生命周期规划的数据,处理的要求一般在分钟级或速度更慢。通常归档数据的计算量、数据量、数据复杂度均超过试试数据处理。本平台中采用:Hadoop、Spark技术生态体系内的框架进行计算,这里不详细阐述。

2.4 非结构化数据

通常非结构化的数据不一定具备字段,即使具备字段其长度也不固定,并且字段的又可是由可不可重复和重复的子字段组成,不仅可以包含结构化数据,更适合处理非结构化数据。常见的非结构化数据包括XML、文本、图象、声音、影音、各类应用软件产生的文件。

针对包含文字、数据的为结构化数据应当先利用数据清洗、数据治理工具进行提取,这项工作目前仍依赖技术员进行操作,由于格式的复杂性所以难以使用自动化方式进行较为高效的批处理。在治理数据的过程中,需要根据情况对数据本身额外建立描述数据结构的元数据、以及检索数据的索引服务,以便后续更佳深度利用数据。

2.5 结构化数据

结构化数据具备特定的数据结构,通常可以转换后最终用二维的结构的数据,并且其字段的含义明确,是挖掘数据价值的主要对象。

本平台中主要使用Hadoop Impala和Spark SQL来进行结构化数据的处理。Impale底层采用C++实现,而非Hadoop的基于Java的Map-Reduce机制,将性能提高了1-2个数量级。而Spark SQL提供很好的性能并且与Shark、Hive兼容。提供了对结构化数据的简便的narrow-waist操作,为高级的数据分析统一了SQL结构化查询语言与命令式语言的混合使用。

结构化数据根据采集频度可以继续分类为:非实时数据、准实时数据。

2.6 准实时数据

通常准实时数据是指数据存储在平台本身,但更新频率接近于接口调用数据源的数据。适合用于支持数据和信息的查询,但数据的再处理度不高,具有计算并发度高、数据规模大、结果可靠性较高的特点。通常使用分布式数据处理提高数据规模、使用内存数据进行计算过程缓冲和优化。本平台主要采用Spark SQL结合高速缓存Redis的技术来实现。Spark SQL作为大数据的基本查询框架,Redis作为高速缓存去缓存数据热区,减小高并发下的系统负载。

2.7 非实时数据

非实时数据主要应用于支持分析型应用,时效性较低。通常用于数据的深度利用和挖掘,例如:因素分析、信息分类、语义网络、图计算、数值拟合等。

非实时数据根据数据模型可继续分类为:范式化模型数据、维度模型数据。

2.8 范式化模型

范式化模型主要是针对关系型数据库设计范式,通常稻菔遣捎玫谌范式3NF或更高范式。面向近源数据查询、数据主题的整合。范式化模型数据的数据存储区,建议使用并行MPP数据库集群,既具备关系型数据库的优点,又兼顾了大数据下的处理。

2.9 基于维度模型

维度模型数据主要应用于业务系统的数据挖掘和分析。过去多维度数据处理主要依赖OLAP、BI等中间件技术,而在大数据和开源框架的时代下,本技术平台采用Hadoop Impala来进行实现。Impala并没有使用MapReduce这种不太适合做SQL查询的范式,而是参考了MPP并行数据库的思想另起炉灶,省掉不必要的shuffle、sort等开销,使运算得到优化。

3 应用效果

本系统在不同的业务领域上都可以应用,以2016年在某银行的应用案例为例:该银行已完成数据仓库建设,但众多数据质量问题严重影响了数据应用的效果,以不同的数据存储方式,以更高的要求去进行数据的统一管理。通过组织、制度、流程三个方面的实施,以元数据、数据标准、数据质量平台为支撑,实现了数据管控在50多个分支,60个局,1000余处的全面推广,实现了全行的覆盖;管理了120个系统和数据仓库,显著提升了新系统的快速接入能力;通过14个数据规范和流程明确了数据管控的分工;数据考核机制的实施,使其在数据质量评比中名列前茅。

4 结语

本文介绍了大数据下数据分析方法及实现技术的大体设计和思路,从需求分析、总体架构和数据处理以及数据分析这几个方面来介绍。文章在最后介绍出了这种平台的应用效果。笔者相信这些思路和技术能够在业务中能得到很好的应用。

参考文献

数据分析方法范文4

一、定量计算法

在探究中我们会收集到很多数据,我们可以把收集到的数据运用数学运算方法,得出各数量之间的关系。例如六上《杠杆的科学》一课中,学生通过实验得到了以下数据:

杠杆的科学

阻力点情况 用力点情况

教师引导学生分别比较阻力点与用力点的钩码数和格子数,发现杠杆平衡时每组数据都是用力点的钩码数与格子数的积等于阻力点的钩码数与距离的积,教师利用数据之间的等量关系,帮助学生很好掌握了杠杆平衡的规律。

二、对比分析法

对比是常用的思维方法。在探究活动中,教师可以通过有意识控制一定的条件,让学生观察数据在不同情况的表现,找到它们之间的不同点和共同点,从而揭示事物的本质和现象。如在五下《摆的研究》一课中,针对摆的快慢与哪些因素有关这一问题,让学生利用三个钩码和三根长度不同的摆绳进行实验并采集了以下数据:

15秒摆动次数记录表

引导学生比较数据,可以得出这样的结论:在摆绳长度相同时,摆的快慢与摆重无关;在摆的重量相同时,摆线越长,摆的速度越慢。学生在数据的比较中,发现了摆的特点。

三、示意图分析法

示意图分析法是指利用简单的图和形,把实验采集的数据,绘制成简明的图形,用来说明所研究对象量与量之间关系的一种方法。如六上《下沉的物体会受到水的浮力吗》一课,学生采集了以下数据(见下表):

下教师让学生用示意图,将重力和浮力之间的关系,用图示方法(见上图)画出,并附上简单的文字说明,然后利用示意图解释石块在水下沉的原因。在这里,教师用示意图搭建数据与概念之间的桥梁,把抽象的力之间的关系用直观的手段表现出来,帮助学生理解石块下沉的原因,突破了学生学习上的难点。

示意图直观,形象和简捷,通过示意图来分析数据,既有利于学生对知识的理解和记忆,又可以提高学生的学习兴趣,提升学生的学习能力及情感、态度和价值观等方面的素养。

四、图表图像法

图表图像法是结合数据与图形之间的密切关系,形象地表达数据趋势和规律的一种方法。在六上《抵抗弯曲》一课中,探究 “纸的抗弯曲能力和什么有关” 这个问题时,学生通过实验来获得纸在不同宽度和不同厚度时承受压力(垫圈个数)的数据。(见下表)

教师利用“折线统计图” 将上面的数据用统计图表示如下:

在完成图表和图像后,让学生结合表格中的数据观察折线图,在图上清晰看到了纸的宽度和厚度的抗弯曲能力,同时对纸的厚度更能影响纸的抗弯曲能力有了更直观的认识。在这里,教师利用统计图,引导学生比较纸的宽度和厚度的抗弯曲能力,方法巧妙,目标清晰,学生对概念的印象也深刻。

五、推理分析法

数据推理方法是运用数学思想,通过推导、分析一组已知数据,来判断、推测与它对应数值的一种分析方法。如五上《我们的小缆车》中,一小组在2、4、6个垫圈拉力时,测得小车运行时间分别为2.5秒、1.8秒和1.2秒,教师引导提问:“推测一下,你们的小缆车在8个垫圈的时候,速度大概是多少?并说说理由。”学生:“我们认为8个垫圈应该在0.6秒左右。”教师:“说说理由。”学生:“因为我们组2个垫圈是2.5秒,4个垫圈是1.8秒,6个垫圈是1.2秒,增加2个垫圈,时间减少0.6秒左右,所以我们估计8个垫圈在0.6秒左右。”教师:“那你们能不能利用刚才的实验装置来验证一下你们的猜测?”学生:“可以。”

……

在上述案例中,学生根据自己的实验数据,通过对相邻数据的连续观察,发现其中的一些科学规律,经过分析、推敲,得出一个可能的稻荨T谡飧龉程中,教师引导学生运用推理方法分析数据,不仅加深了学生对力与运动的进一步认识,而且提高了儿童的思维能力和探究能力。

上面所说的是一些科学探究活动中常用的数据分析方法。事实上,对科学探究中的实验数据进行分析、处理的方法很多。只有根据具体的实际情况,引导学生选择恰当的方法对实验数据进行合理处理,才能快速发现规律,得出科学的结论,形成科学概念。科学探究的过程是曲折的,在科学探究的路上,从一堆数据中找出规律来,有的要花费科学家毕生的精力,甚至需要一代又一代的不懈努力。我们在引导学生进行探究活动时, 不能只为完成教学任务,急功近利,应多在引导学生分析数据上下功夫,真正让学生体会到科学探究的艰辛和乐趣。

参考文献:

[1] 张红霞.科学究竟是什么[M] .北京:教育科学出版社.2003:85

数据分析方法范文5

关键词:经营分析系统;数据质量;数据仓库

中图分类号:TP311文献标识码:A文章编号:1009-3044(2012)06-1219-02

Improvement Methods of Business Analysis Support System Data Quality

XIAO Jie

(China Mobile (Shenzhen) Limited , Shenzhen 518048, China)

Abstract: Business analysis support system is a decision-making system as the "brain" of the enterprises. The data quality of the data ware? house using by the analysis system is critical to ensure that the business analysis support system can maximize the power of enterprises. This paper raises the improvement methods based on the practical inspection of data quality of business analysis system that combined with the data quality issues and the root causes coming from the inspection.

Key words: business analysis support system, data quality, data warehouse

企业经营分析系统担负着数据综合分析、数据挖掘、关键业务指标监控、报表展现等与企业发展决策息息相关的重要任务,越来越多的企业将分散在各个业务支撑系统中的数据集中整合在经营分析系统当中,形成企业统一的数据中心,为经营分析、发展战略等起着重要的支撑作用。

随着近年来市场格局的变化以及客户需求的日趋个性化和多样化,企业发展对经营分析系统的依赖性也变得越来越强,企业决策者对经营分析系统数据仓库的数据质量问题变得更加关注。

1数据质量要求

数据质量是数据仓库的生命,如果数据仓库中的数据毫无质量可言,那么该数据仓库就没有任何的价值[1]。企业经营分析系统的数据仓库有着复杂的数据来源,这些数据源系统多为操作性的业务支撑系统,其数据在业务定义上可能存在冲突、在表达形式上可能存在差异,这些数据源数据在装载到经营分析系统的数据仓库前要经过各式各样的传输、清洗、转换,对这样的数据进行数据质量管控并不容易。

早前依据对企业经营分析系统的数据仓库数据质量要求,并结合企业的数据仓库中数据的业务特征,制定了一套经营分析系统数据质量检查方案及检查规则,针对经营分析系统的基础明细数据(事实表、维表)开展了数据质量检查工作。

主要检查要求包括以下几点:

1)数据的完备性:根据系统的建设规范,逐一核对应接入经分系统的数据根据数据模型的建设情况,在数据仓库相应的事实表中存在;

2)数据的一致性:在事实表中的数据应该遵守维表的约束,其取值范围与维表中约定的范围一致,并且具有关联关系的事实表之间的信息应该一致;

3)数据的合理性:事实表中的数据应与其所在字段的业务逻辑相符,在此基础上应该避免大量的默认值填充情况,而造成数据分析价值降低;同时,具有逻辑关系的多个字段之间其数据取值应满足逻辑关系的约束;

4)数据的时效性:事实表中的数据应在约定的下游作业开始之前装载完毕,这一点可以从对其有依赖关系的作业运行时间或指标上报时间上来考察。

2数据质量问题分析

通过对企业的经营分析系统进行数据质量检查,发现主要存在以下几类数据质量问题:数据缺失、无效数据、数据重复、数据不一致以及数据传输延迟。

1)数据缺失:事实表未建立或表字段的数据缺失;

2)无效数据:字段中存在大量以默认值填充的数据或无法理解的数据,甚至乱码;

3)数据重复:同一事实表中出现重复的记录,或同一字段在不同事实表中不必要的重复出现;

4)数据不一致:数据超出了维表限定的取值范围,或与其业务逻辑不一致;

5)数据传输延迟:事实表中的数据到达时间延迟,导致相关作业延迟,相应的指标生产或报表出具收到影响。

分析上述问题的产生原因,经分系统数据质量问题的诱因可以归纳为以下几类:数据源差错、系统性差错、规则性差错、管控性差错[2]四类。2.1数据源差错

1)数据源差错的典型之一就是数据源缺失,即数据源未给目标系统及经营分析系统提供相关的数据,可能是接口未打通也可能是没有数据传输。这会直接导致经分系统中的数据缺失。

2)人工输入数据导致的数据质量问题也是数据源差错之一,由于经营分析系统的数据源系统多为操作型的业务支撑系统,这类系统中仍存在着一部分相比不可控的人工输入数据,这部分受相关人员的素质影响数据随意性大,易出现遗漏、填写错误的现象,会直接导致目标系统中出现数据缺失或无效数据。

3)数据源系统运行故障,数据源系统运行故障若无法及时发现或恢复,会导致目标系统接收到错误数据或数据缺失,也会使得目标系统的数据传输延迟问题。

4)数据源系统改造数据格式或内容发生变更,目标系统没有及时获得通知或及时改造,导致数据无法装载或错误的装载结果。

2.2系统性差错

经营分析系统自身的运行故障、作业异常同样会导致数据质量问题的存在。典型的系统性差错就是经营分析系统的资源不足导致的系统负荷过高,作业延迟甚至挂死。此外,还包括系统运行故障恢复后,对受故障影响而中断的作业没有进行恰当的处理,导致数据缺失或重复装载。

2.3规则性差错

1)在经营分析系统中,存在多个事实表之间存在着重复字段、类似字段,或同字段名称不同内容的情况。这一情况多数来源于数据统计口径。由于经营分析系统的数据源系统多为操作性的业务支撑系统,这些系统相互之间存在业务关联但独立建设,业务定义、指标定义时极易出现二义性,这样会直接导致相同内容的重复建设或同一名称的指标、字段内容却完全不同。

2)规则性差错还包括经分系统对数据装载转换时的处理规则,由于程序员对业务逻辑的理解不够准确或程序编写失误而导致的数据处理错误,例如将用户业务办理的生效时间与失效时间两个字段的内容倒置了,导致在业务逻辑上无法处理。再有例如对源系统提供的数据当中包含的分隔符没有正确识别导致出现乱码的情况也偶有出现。

2.4管控性差错

管控机制不健全,数据质量管理工作是一项贯穿经分系统整个数据流转过程的工作,任一环节的松懈都可能导致全盘的数据质量问题。数据质量管理工作需要周密考虑并深入细节,即使建立了完善的管控流程,也需要有相当的执行力度才能保证工作的持续开展[2]。以人工输入数据为例,虽然看似是在经分系统自身体系之外的工作,但实际上却关系着经分系统中的数据质量,若数据的输入人员疏于训练或监管不到位,其输入的脏数据就会流入经分系统最终导致无效数据的出现或错误指标的产出。

3数据质量提升方法

基于实际的检查和分析,经营分析系统的数据质量提升应从问题的根源抓起。

经分系统的数据需求应充分考虑业务发展情况。经分析发现,数据源数据缺失的内容多为业务部门当前需求不强的内容,这部分内容即便对于长远的业务发展而言具备分析价值,但数据源系统一侧由于业务发展现状的限制对这部分数据的需求缺少驱动力,即便建立了相关的数据模型,但也缺少有效数据的供给。因此,经分系统在建设相关数据接入的时候,应充分的调研业务发展需求,对于短期内无明确应用的数据应允许分批建设或延期上线。

经分系统应该加强与数据源系统间的协同互通。由于业务的发展需求,操作型的数据源系统改造时有发生,或经分系统基于分析决策的需求也会要求数据内容、数据类型、数据模型等进行相关改造。这一改造工作应联动源系统和目标系统,只有在双方同期完成改造后同步上线才能避免数据装载错误或无效数据的出现。这一工作需要建立专门人员负责,覆盖改造过程的需求分析、变更实施、跟踪上线全过程。

充分利用元数据来进行数据质量管理。元数据系统当中的技术元数据操作符不仅使管理员能够根据元数据仓储中的业务规则精确地控制载入数据仓库的数据以及载入方式,还为技术管理员提供了数据仓库内容质量的度量方式,同时也有助于在数据仓库ETL过程中发现改进的可能性[3]。元数据系统当中的业务元数据则提供了业务指标的定义、统计口径,结合关联分析功能可以为技术管理员发现重复数据的建设提供有效的手段。可以有效降低数据仓库当中类似表或重复表的建设工作量,也会大大的提高对数据仓库存储的利用效率。

加强人员的培养并完善管控机制。对于数据的生产人员应加强培训,例如前台数据的输入人员应对输入数据的规范化有清晰的认知,对于程序人员在重视其程序编写能力的同时也应该对其进行一定的业务培训,使其了解业务规则才能避免在程序编写时出现业务逻辑错误。同时,应在数据处理流程中设置稽核点,依据技术和业务要求严格控制各环节输出数据的质量,并设置专门的质量负责人、明确职责已保证稽核工作的落地性。

4结束语

数据质量是经营分析系统的生命线。经营分析系统肩负这企业发展分析决策的重任,其数据质量的好坏是企业发展成败的关键因素。企业应严把数据质量关,通过系统协同建设、加强部门间的衔接和协调、完善管理流程、严格按照标准或考核指标落实工作,确保经营分析系统数据的质量,才能实现数据商业价值的最大化,从而提高企业的核心竞争力并保持企业活力实现可持续发展。

参考文献:

[1]周东山,李喜英.数据仓库建设中数据质量问题的研究[J].华南金融电脑:金融信息化论坛,2007(7).

数据分析方法范文6

[关键词]测试用例;数据驱动测试;逻辑覆盖

软件测试是软件开发过程中必不可少的部分。从根本上说,测试过程的质量决定了软件测试的质量和有效性。软件测试作为软件生存周期的一个重要组成部分,受到重视程度越来越高。软件测试的本质是针对要测试的内容确定一组测试用例。测试用例是测试工作的指导,是软件测试的必须遵守的准则。更是软件测试质量稳定的根本保障。所以对于软件测试的过程来讲,测试用例的设计是其中最关键的环节。软件测试分功能性测试和结构性测试。功能性测试又称黑盒测试,结构性测试又称白盒测试。下面仅详细介绍功能性测试用例的设计方法。

一、数据驱动测试用例设计

功能性测试又称黑盒测试(Black-box?Testing)或数据驱动测试,是把测试对象看作一个黑盒子。利用黑盒测试法进行动态测试时,需要测试软件产品的功能,不需测试软件产品的内部结构和处理过程。黑盒测试注重于测试软件的功能性需求,也即黑盒测试使软件工程师派生出执行程序有功能需求的输入条件。

黑盒测试试图发现以下类型的错误:

1、功能错误或遗漏;

2、界面错误;

3、数据结构或外部数据库访问错误;

4、性能错误;

5、初始化和终止错误。

二、数据驱动测试的测试用例设计方法

数据驱动测试的测试用例设计方法一般有等价类划分方法,边界值分析方法,错误推测方法,因果图方法,判定表驱动分析方法,正交实验设计方法,功能图分析方法几种。下面详细介绍几种比较重要的黑盒测试方法。

1、等价类划分。

是把所有可能的输入数据,即程序的输入域划分成若干部分(子集),然后从每一个子集中选取少数具有代表性的数据作为测试用例。该方法是一种重要的,常用的黑盒测试用例设计方法。

(1)划分等价类:等价类是指某个输入域的子集合。在该子集合中,各个输入数据对于揭露程序中的错误都是等效的。并合理地假定:测试某等价类的代表值就等于对这一类其它值的测试。因此,可以把全部输入数据合理划分为若干等价类,在每一个等价类中取一个数据作为测试的输入条件,就可以用少量代表性的测试数据。取得较好的测试结果。等价类划分可有两种不同的情况:有效等价类和无效等价类。

(2)有效等价类:是指对于程序的规格说明来说是合理的,有意义的输入数据构成的集合。利用有效等价类可检验程序是否实现了规格说明中所规定的功能和性能。

(3)无效等价类:与有效等价类的定义恰巧相反。

设计测试用例时,要同时考虑这两种等价类。因为,软件不仅要能接收合理的数据,也要能经受意外的考验。这样的测试才能确保软件具有更高的可靠性。

2、边界值分析法。

边界值分析方法是对等价类划分方法的补充。

长期的测试工作经验告诉我们,大量的错误是发生在输入或输出范围的边界上,而不是发生在输入输出范围的内部。因此针对各种边界情况设计测试用例,可以查出更多的错误。使用边界值分析方法设计测试用例,首先应确定边界情况。通常输入和输出等价类的边界,就是应着重测试的边界情况。应当选取正好等于,刚刚大于或刚刚小于边界的值作为测试数据,而不是选取等价类中的典型值或任意值作为测试数据。

基于边界值分析方法选择测试用例的原则:

(1)如果输入条件规定了值的范围,则应取刚达到这个范围的边界的值,以及刚刚超越这个范围边界的值作为测试输入数据。

(2)如果输入条件规定了值的个数,则用最大个数,最小个数,比最小个数少一,比最大个数多一的数作为测试数据。

(3)根据规格说明的每个输出条件,使用前面的原则1)。

(4)根据规格说明的每个输出条件,应用前面的原则2)。

(5)如果程序的规格说明给出的输入域或输出域是有序集合,则应选取集合的第一个元素和最后一个元素作为测试用例。

(6)如果程序中使用了一个内部数据结构,则应当选择这个内部数据结构的边界上的值作为测试用例。

(7)分析规格说明,找出其它可能的边界条件

3、错误推测法。

错误推测法:基于经验和直觉推测程序中所有可能存在的各种错误,从而有针对性的设计测试用例的方法。

错误推测方法的基本思想:列举出程序中所有可能有的错误和容易发生错误的特殊情况,根据他们选择测试用例。例如,在单元测试时曾列出的许多在模块中常见的错误。以前产品测试中曾经发现的错误等,这些就是经验的总结。还有,输入数据和输出数据为0的情况。输入表格为空格或输入表格只有一行。这些都是容易发生错误的情况。可选择这些情况下的例子作为测试用例。

综上所述,测试用例的编写对于计算机测试人员来说是一项必须掌握的能力。但有效的设计和熟练的编写却是一个十分复杂的技术,它需要测试人员对整个软件不管从业务还是从功能上都有一个明晰的把握。需要测试人员在实践中不断总结经验,然后结合测试理论,这样才能设计出更加有效的测试用例。

[参考文献]

[1]周文莱,马珊国,最新实用软件测试过程[M],北京,机械工业出版社,2008第一版

数据分析方法范文7

从现实着眼,从宏观层面反映城市在全国范围内的竞争力与综合影响力的“国内知名度”对于进行中国区域城市的比较研究具有重大意义:一方面,通过分析中国城市在经历从带有浓厚农业社会传统向快速现代化转型的进程,有利于揭示政治、经济和文化在城市知名度建构机制中的作用关系;另一方面,在中国区域现代化发展进入到攻坚期的背景下,城市国内知名度的研究可以为区域城市竞争力对比分析提供精准切入点。特别是对于处于中国经济和文化中心的苏南地区而言,对区域内城市的国内知名度的变迁轨迹和结构特征进行历史比较分析,并与其他区域的代表性城市进行空间对照观察,能够在一般意义上归纳出在社会转型过程中中国城市的发展机理以及动力构成。

尽管关于城市知名度的研究日益成为城市文化领域的“显学”,但梳理以往的相关研究,我们不难发现:绝大多数研究是以理论探讨为旨趣,并且研究视域较为狭隘,缺乏从全面整体的维度对城市文化影响力进行研究。并且在一些采取量化分析方法的研究中,其操作化指标在可信性、全面性、有效性等方面也备受质疑。究其原因,一方面是由于采用抽样调查的资料收集方法不可避免地要承受成本巨大和样本代表性难以得到可靠保证的风险,而更为关键的则是在现有的技术条件下既难以在空间维度上保证基于全国范围内的系统测量和分析,也无法在时间维度上完成大跨度的历史回溯和描述。Gary King认为,由互联网时代衍生而来的、具备超大规模和海量信息特性的“大数据”很有可能会打破定性与定量研究的方法和技术壁垒,进而为社会科学、人文科学领域开拓崭新的分析思维和研究路径。因此,在互联网时代蓬勃兴起的“大数据”为我们针对大跨度的城市国内知名度历史演化进程进行精准测量提供了新的研究路径。特别是通过大数据的比较和总结性的分析,可以看到城市知名度不仅可以作为城市形象一般性表达的符号和说明,而且也是建构城市核心竞争力和提升城市软实力能级的前提和必要条件,知名度特别是在高美誉度前提下形成的城市知名度,既是一个城市的特色和文化价值的表达,也是城市文化软实力的集中表现,还是“城市文化资本”再生产的前提和文化场域。

(二)以谷歌图书和百度指数为基础的大数据

谷歌图书(Google Books)的创立和互联网搜索引擎的发展,为在社会科学领域内有效克服“大数据”所存在的资料获取难度大、以及学界对其与社会科学研究之间适用性、样本代表性、测量方法的信度和效度等争议提供了有力支持。自2004年年底以来,谷歌公司与哈佛大学、剑桥大学等40多所国际知名大学及相关出版社合作,对馆藏图书及出版社赠书进行了数字化的建设,截止到2013年,谷歌图书最新版语料库中被扫描和识别的图书已经超过3000多万种,目前可供进行全文检索和数据分析的书籍高达8116746种,词汇量为8613亿。其中,汉语(简体)书籍和词汇数量分别为30万种和269亿。表1展示了谷歌图书语料库2012年第2版的主要构成,其数据资源规模的超大体量性和极佳的时空代表性为从事中国社会问题的历史性组群对象和现实社会问题的研究提供了技术可行性支持。

此外,由于近年互联网的迅速崛起已经深刻改变人类社会信息资源聚合方式,加之谷歌图书书籍词频检索时间存在的限制(截至到2008年),并且基于中国大陆网络用户对于搜索引擎使用习惯的考虑,我们认为有必要结合中国国情引入在中文世界中占据核心地位的百度搜索引擎来更加精确、全面地反映处于中国大陆范围内各大城市在本土的受关注度情况,以进一步提高样本的规模性和代表性。我们采用2011-2016年百度指数的“用户关注度’,大数据来分析苏南城市及其他中国主要大城市国内知名度在此期间的变动情况。

这一分析方法的意义还有,对于相关城市地名出现的频率和范围可以从一般意义上佐证知名度的程度和价值,虽然个别大事件,特别是负面意义的大事件,对城市知名度的影响度有较大的影响。但是,在一个较长的时间段内,人们主要关注的是某一城市的整体文化意义,如人们对某城市的历史领域、建筑领域、文化艺术领域等所进行的学术研究和传统文献的表述。因为城市本身的历史与现实的价值而对某城市本身的关注较多,其知名度自然以正面取向和积极意义为主。不言而喻,知名度本身选词的海量意义来说,知名高与经济社会发展的正向、城市优良的环境、城市创新性及向上的积极意义呈正相关。

 (三)城市国内知名度的概念操作化及测量

应该明确,本文所研究的城市知名度是指公众对某城市综合意象的正向性认知,并且依托在全社会诸领域内的综合影响力而提升关注度,而非藉由恶意炒作而“吸引眼球”,以及因重大安全事件和集体性事件而增加关注度。因此,如何寻找更具科学性的测量工具以便从海量无结构的数据中提炼出同时具有时空结构性和研究匹配性的数据就显得尤为重要。笔者认为,语言学中的语料库词频分析的方法可以对某一关键词在特定时段内其所蕴含的文化影响力进行有效测量。在社会科学领域应用“词频比例”方法具有充分的逻辑严密性与系统科学性。一方面,从语言学角度来看,社会历史进程中的多数事件和现象都是依靠书籍语言得以记录,其在承载知识、思维和观念等抽象事物上最具有正式性和权威性。而且,书籍语言不仅蕴含了笔者的观点和意图,而且更能反映当时公众思维倾向和社会整体风尚。超过半个世纪的汉语印刷书籍在某种意义上汇聚了建国以来整个中国社会的知识、观念与经验。由于谷歌图书语料库具有充分的规模性、跨度性和代表性,我们可以逻辑性地假定某一词汇出现在其中的相对频次能够近似地反映这个词汇本身及其蕴含的“文化影响力”,即知名度、公众关注度等,甚至折射出某种社会趋势、风尚或思潮。目前,基于谷歌图书的词频统计研究已经在国际语言学和历史学界得到广泛应用。比如Jean-Baptiste  Michel等人率先利用谷歌图书语料库展开的文化史定量分析,阿瑟比等人对其中的情感用词变迁和英语地区差异进行的研究,以及宾利等人在书籍词汇与经济发展周期之间进行的关联性分析等[l0],都给我们带来很好的研究经验与证明。

在本研究中,我们利用谷歌图书的所有汉语(简体)书籍(1949-2008年)和百度指数(2011-2016年)的全部搜索记录作为语料库(Corpus ),并将提及有关苏南地区和其他城市的词汇频次,作为衡量城市国内知名度的测度,从而在超越以往相关研究的时空跨度上对区域性城市乃至全国范围的城市国内知名度的历史变迁轨迹进行全景探索和深度分析。在具体算法上,由于谷歌图书内汉语书籍中的词汇在数量上不尽相同,为增强数据的时间可比性,

我们用关键词出现频数除以当年的词汇总量。具体的计算公式为:

其中,F表示在公元Y年城市i的出现次数,F为在公元y年中出版书籍的全部词汇量、为在公元y年城市i的同频比例,即国内知名度。

百度指数中用户关注度的计算公式是根据在所选定时段内百度网页或百度新闻的用户搜索量的周平均值得出,其如下:

 

数据分析方法范文8

关键词:17909 号码变换 呼叫源 号首集

中图分类号:TN916 文献标识码:A 文章编号:1672-3791(2014)11(a)-0060-02

随着本地网全网智能化、长途局、关口局撤并的实施,独汇局承担了长途、关口、汇接的功能,原来在长途局、关口局实现的数据需要在独汇局上实现。

1 17909数据现状分析

1.1 17909相关数据现状

17909有直拨业务和卡类业务,本网内固话和小灵通用户拨17909使用的是直拨业务,其他运营商用户拨17909用的是卡类业务,17909直拨业务数据是在长途局变换后送IP网关,其他运营商用17909卡类业务是在关口局将17909变换为16975后送省智能网SSP,SSP再送IP网关。

1.2 本地网网络现状分析

全网智能化、长途局、关口局撤并后整个本地网网络结构发生很大变化,由原来的三级网络结构演变为现在的以两个独汇局为核心的二级网络结构,独汇局是长途、关口及本地汇接合一局。

本地网内所有端局间以及局内话务均由独汇局汇接,两独汇局至无线市话局、省智能网、本地智能网及其他特服设备间设置直达的中继电路,所有话务全部经独汇局转接。计费中心采集独汇局的话单。

两独汇局对省内各独汇局采用A、B平面方式组网,两独汇局对长春TS1、TS2采用交叉连接的组网方式,对省内其他地市独汇局设置直达电路。至长春集团软交换A、B平面TG设备交叉开通直达中继电路,以实现长途汇接的双路由保护。和其他运营商关口局均设有直达电路。本地网网络结构见图1。

2 17909数据分析过程和解决思路

2.1 17909直拨业务的数据分析及实现思路

独汇局为华为交换机(128模8k版本),我们考虑在长途字冠细扩的基础上,在用户拨打17909时,利用华为交换机的号码变换功能,将179090X前的17909删除,不影响产生17909的话单,然后再按变换后的号码进行重新分析。

针对被叫号码变换,独汇局可以利用呼叫源通过号码准备、号首处理、中继承载、主叫分析、特殊号码变换进行变换,但用号码准备变换、号首处理、主叫分析变换后话单中的被叫号码为变换以后的被叫号码,不适合用在这里;用中继承载做的话,产生的话单被叫号码虽说为变换以前的被叫号码,但用中继承载进行的号码变换是针对中继上的出局呼叫进行的,还需要细扩17909字冠,增加了很大的工作量,后期维护工作也很麻烦。对于特殊号码变换,可以使用软件参数,呼叫内部参数5BIT6,控制话单中的被叫号码为变换前还是变换后的号码。将该软件参数改为0,则话单中的被叫号码便为变换前的被叫号码。

我们这里用的是特殊号码变换功能,将被叫号码179090X前的17909删除后,0X字冠还可以按现有的长途字冠路由进行选路,不必要把17909字冠细分。在独汇局做179090、1790900、17909013、17909015、17909018字冠,利用特殊号码变换将179090X前的17909吃掉,经过测试验证,话单是号码变换前的号码,例如:用户拨打179090431114,号码变换后,被叫号码变为0431114,然后再在字冠表中查找0431114的路由选路出局,话单中被叫号码是179090431114。只是用特殊号码变换后,话务统计不能直接统计到179090X的目的地中,用组合对象条件话务测量来统计。

2.2 17909直拨业务具体制作方法

(1)增加17909X字冠,在这里路由指向没有实际意义,因为增加字冠时的是否进行特殊号码变换标志是“是”,先分析特殊号码变换表。

ADD CNACLD:PFX=K'179090, ISSPCHG=SPCHG,CSA=NTT,_SR_39=7,RSC=141,MINL=5, MAXL=22,CHSC=0,DEST=909, DL=6;

(2)增加被叫号码变换,删除被叫号码的前5位。

ADD SPDNC:PFX=K'179090,DCT=DEL,DCL=5;

2.3 17909卡类业务的数据分析及实现思路

其他运营商拨17909由于不能对主叫号码进行直接计费,只能用卡类业务,17909卡类业务是经省智能网平台送IP网关来实现的,需要在独汇局把该类呼叫通过相应的号码变换后送到省智能网SSP(老SSP),核实主叫用户的17909卡的相关信息:主叫用户所拨的卡号和密码是否有效、余额是否充足、是否绑定或者签约用户。

其他运营商用户拨17909卡业务呼叫流程如图2所示。

17909直拨业务已经用特殊号码变换实现了,由于华为128模的主叫分析流程在特殊号码变换分析之后进行分析,如果用主叫号码分析来做17909变成16975的号码变换,那其他运营商拨打17909时,先触发特殊号码变换,被叫号码前的17909就直接被删除了,主叫分析数据不起作用。为了能让其他运营商拨打17909的呼叫经过变换后上智能网,我们针对其他运营商的呼叫源增加新号首集2,在号首集2中增加0-9大字冠,同时增加17909详细字冠,针对0-9字冠做号首处理,将其变换到号首集0(0号首集已经存在具体细扩的字冠),针对17909做号首处理,将17909变换为16975同时变换到号首集0,在0号首集中增加16975字冠,路由指向省智能网。

2.4 卡类业务的具体制作方法

(1)在2号首集增加0-9大字冠、17909、1790913、1790915、1790918,业务权限给本局即可,因为要做号首处理,路由指向在这里没有实际意义。

ADD CNACLD:P=2,PFX=K'0~9, MINL=3,MAXL=20,CHSC=0;

ADD CNACLD:P=2,PFX=K'17909,MINL=3,MAXL=25, CHSC=0;

ADD CNACLD:

P=2,PFX=K'1790913,

MINL=3,MAXL=25,CHSC=0;

(2)对号首集2中的0-9大字冠作号首处理变换成新号首集0,其他运营商的呼叫源都需要做。

ADD PFXPRO:P=2, PFX=K'0~9,CSC=32, DDC=TRUE, NPS=0, RAF=TRUE;

(3)增加被叫号码变换索引,被叫号码前5位改成16975,由于手机用户用IP卡拨异地手机是179091X,和固定电话不一样,把被叫号码179091X改成1697501X。

ADD DNC:DCX=145,DCT=MOD,DCL=5, ND=K'16975;

ADD DNC:DCX=39,DCT=MOD,DCL=7, ND=K'16975013;

(4)对17909作号首处理,将17909变换为16975并变换到号首集0,其他运营商的呼叫源都需要做。

ADD PFXPRO:P=2,PFX=K'17909, CSC=32, DDC=TRUE,DDCX=145,NPS=0, RAF=TRUE;

ADD PFXPRO:P=2,PFX=K'1790913, CSC=32,DDC=TRUE,DDCX=39,NPS=0, RAF=TRUE;

(5)修改现网互联互通呼叫源的号首集为2,其他运营商的呼叫源都需要做。

MOD CALLSRC:CSC=32,P=2;

(6)在0号首集中增加16975字冠,路由指向省智能网。

ADD CNACLD:PFX=K'16975,CSA=NTT,_SR_39=7,RSC=5,MINL=8,MAXL=24, CHSC=0, DEST=145;

经过测试验证,卡类业务的计费话单中主被叫号码没有变换,号首集有变换,号首集为2,但不影响计费分拣。

2.5 话务统计

在独汇局用号码变换设置17909的数据,对17909的话务统计不能被直接统计到该字冠的目的地中,可以用组合对象条件话务测量或者组合话务测量来统计,通过限定入端、出端和目的码或者目的地来完成具体的话务统计。

CRE TRFCLR:tsk=80,mu=MICDT, cycl=DAY,prd=H1,st1=0&00,et1=0&00,TLINLET=all,TLOUTLET=all,TLSVN=all, CD=K'179090,TLCID=all, si=100,ota=PP,oda=STATS&NMP,CONFIRM=Y;

3 结语

目前使用的这种方法,在独汇局改动数据最少,数据也简单,后期维护起来容易,以上方法的实施,使17909的直拨业务和卡类业务的数据顺利割接到独汇局,也使长途局、关口局撤并工作顺利完成。经过拨测验证,本网内固定电话和小灵通用户直拨17909X,话单和话务统计正常,其他运营商用户必须事先注册、绑定或者输入卡号和密码才能拨打17909,话单和卡计费情况正常。

参考文献

[1] 邹洁.关于华为C&C08交换机中数据设置问题的探究[J].价值工程,2010(13):185.

数据分析方法范文9

关键词:单元格; 数据;条件

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2014)02-0426-02

Excel中,根据数据处理的目的和要求,可以把数据处理的方法分为如下几类:

1 数据筛选

1.1 使用“自动筛选”命令筛出符合条件的数据

选择命令:数据—筛选—自动筛选,在要进行数据筛选的列上单击黑色三角,选择一种条件,或者自定义筛选的条件,即可按条件进行数据筛选。若不想破坏原有的数据表格,可先复制一个数据表的副本,在副本上进行操作即可保留原数据表。

1.2 使用“高级筛选”命令进行数据的复杂筛选

在数据表之外的一处单元格如H3中,输入要进行筛选的数据所在的字段名称,紧靠这个单元格下方H4中,输入筛选的条件。选择命令:数据—筛选—高级筛选,勾选“将筛选结果复制到其他位置”选项,设定“列表区域”为全部数据表,设定“条件区域”为“H3:H4”,设定“复制到”位置为H5单元格。按确定之后,按照指定条件筛选出来的数据项就会显示在H5单元格的右下方。如果有多个筛选条件并存,则筛选条件放在同一行上为“且”的关系,放在错开的行上为“或者”的关系。

1.3 使用“条件格式”命令为符合条件的单元格作标记

例:成绩

选中成绩表所有单元格,点“格式”—“条件格式”,条件设为:

单元格数值,小于,60。

选格式—图案,点击红色后点“确定”。

2 数据计算

2.1 对一列数据求和

在存放结果的单元格中输入公式:=SUM(开始格:结束格)

对开始格到结束格这一区域数值进行求和;也可以使用从开始格拖拽到结束格的方式输入求和的范围。

2.2 对一列数据求平均数

在存放结果的单元格中输入公式:=AVERAGE(开始格:结束格)

对开始格到结束格这一区域数值求平均数;也可以使用从开始格拖拽到结束格的方式输入求和的范围。若有几列数据求平均数,可以使用拖拽复制的方式实现。

2.3 对一列数据标志等级

在存放标志结果的第一个单元格中输入公式:=IF(格>=90,"优",IF(格>=80,"良",IF(格>=60,"及格", "不及格")))

最后使用拖拽复制的方式实现对这一列数据标志等级。

2.4 已知每位学生的“平时”、“实践”、“期末”三项成绩,计算学期总成绩

在存放结果的单元格中输入公式:=格1*0.3+格2*0.4+格3*0.3

假设格1列、格2列和格3列分别存放着学生的“平时”、“实践”、“期末”三项成绩。最后使用拖拽复制的方式实现对所有学生求学期总成绩。

2.5 求最高分

在存放结果的单元格中输入公式:=MAX(开始格:结束格)

则在该单元格中显示从开始格到结束格中的最高分数。

2.6 求最低分

在存放结果的单元格中输入公式:=MIN(开始格:结束格)

则在该单元格中显示从开始格到结束格中的最低分数。

2.7 对某一列数据按条件求和

在存放结果的单元格中输入公式: =SUMIF(性别列开始格:性别列结束格,"男",课时列开始格:课时列结束格)

假设性别列存放老师的性别,课时列存放老师的课时数,则此函数返回的结果为全部男老师的课时总数。

2.8 根据出生年月来计算年龄公式

在存放结果的单元格中输入公式:=TRUNC((DAYS360(出生日期格,NOW(),FALSE))/360,0)

在存放结果的单元格中返回值即为年龄。最后使用拖拽复制的方式实现多个计算。

2.9 根据18位身份证号码自动判断性别

在存放结果的单元格中输入公式:= IF(MOD(MID(身份证号码格,17,1),2)=1,"男”, "女”)

在存放结果的单元格中返回值即为性别。最后使用拖拽复制的方式实现多个判断。

2.10 判断单元格里是否包含指定文本

在存放结果的单元格中输入公式:=IF(COUNTIF(目标格,"张"&"*")=1,"是","否")

假定目标格中存放的是姓名,则在存放结果的单元格中返回值即为判断结果,即是否姓张。最后使用拖拽复制的方式实现多个判断。

3 数据统计

3.1 统计成绩表中各分数段人数

假设A1:A50存放的是学生成绩,则

1) 求A1到A50区域中成绩为100分的人数,在存放结果的单元格中输入公式为: =COUNTIF(A1:A50,"100");假设把结果存放于A52单元格。

2) 求A1到A50区域中成绩为90~99.5分的人数,在存放结果的单元格中输入公式为:=COUNTIF(A1:A50,">=90")-A52;假设把结果存放于A53单元格;

3) 求A1到A50区域中成绩为80~89.5分的人数,在存放结果的单元格中输入公式为:=COUNTIF(A1:A50,">=80")-SUM(A52:A53);假设把结果存放于A54单元格;

3.2 统计成绩表中男、女生人数

在存放结果的单元格中输入公式为:COUNTIF(开始格:结束格,"男"),则在存放结果的单元格中返回性别为男性的人数。

3.3 统计成绩表中的优秀率

在存放结果的单元格中输入公式为:=SUM(A52:A54)/总人数*100。

在存放结果的单元格中返回值即为优秀率,即80分以上学生所占的比例。

3.4 统计成绩表中的及格率

在存放结果的单元格中输入公式为:=SUM(A52:A56)/总人数*100。假设A55和A56单元格分别存放的是70分以上和60分以上的学生人数。

则存放结果的单元格中返回值即为及格率,即60分以上学生所占的比例。

3.5 统计成绩表中的学生成绩上下浮动情况,即求标准差

在存放结果的单元格中输入公式为:=STDEV(A1:A50)

则存放结果的单元格中返回值即表示成绩波动情况,数值越小,说明学生间的成绩差异较小,反之,说明学生的成绩存在两极分化。

3.6 统计成绩表中同时符合多重条件的人数

例:如果想统计成绩表中,性别为男,语文成绩在90分以上,数学成绩在80分以上的学生人数。假设A1-A50存放性别信息,B1-B50存放语文成绩,C1-C50存放数学成绩,则在要存放结果的单元格中输入公式:=SUM(IF((A1:A50="男")*( B1:B50〉90)*( C1:C50>80),1,0)),输入完公式后按Ctrl+Shift+Enter组合键,让它自动加上数组公式符号”{}”。

则在存放结果的单元格中返回值即为同时符合多重条件的人数。

在Excel中有很多功能强大的函数,例如各种概念分布统计函数、各种数学运算函数、

各种财务函数等等。在工作中根据工作性质的不同会用到不同的函数,我们在使用时可以通过查阅Excel帮助来学习函数的使用,通过Excel中的函数可以帮助我们轻松实现数据分析和管理。

参考文献:

相关期刊