HI,欢迎来到好期刊网,发表咨询:400-888-9411 订阅咨询:400-888-1571证券代码(211862)

统计学变量的定义集锦9篇

时间:2023-07-28 17:01:56

统计学变量的定义

统计学变量的定义范文1

关键词:统计测度;统计学;大数据;数据科学;

作者简介:李金昌,男,50岁,浙江义乌人。浙江财经大学校长,统计学教授,博士生导师。研究方向为经济统计学,统计理论与方法,抽样技术,政府统计等。

最近两年,统计学界对大数据问题所进行的理论探讨逐渐增多,视角也各有千秋,引起了一些共鸣。围绕大数据问题,由统计学、计算机科学、人工智能、数学等学科共同支撑的数据科学开始形成。但大数据毕竟是一个新课题,因此远未达到对其有一个系统完整的认识,仍然需要从不同的方面加以研究,其中有一个重要但又容易被忽视的问题,即统计测度问题,值得去探讨。

一、什么是统计测度

汉语上,测度是指猜测、揣度、估计。数学上,测度是一个函数,它对一个给定集合的某些子集指定一个数,这个数可以比作大小、体积、概率等等。通俗地说,测度把每个集合映射到非负实数来规定这个集合的大小:空集的测度是0;集合变大时测度至少不会减小(因为要加上变大的部分的测度,而它是非负的)。

除了数学角度的测度论,查阅国内文献资料,带有测度这个词汇的文献不少,但专门针对统计测度(或测度)内涵的讨论几乎没有。一些对社会经济现象进行分析测度的文献,例如新型工业化进程测度、货币流动性测度、全面小康社会发展进程测度、收入分配公平性测度、技术效率测度、人力资本测度、金融风险测度、产业关联测度等等,所做的测度都是再测度,均不对测度本身进行讨论。查阅国外文献资料(关键词:measurement),也同样存在这样的问题,只能收集到一些比较零散的表述。LudwikFinkelstein(1975)[1]认为,在我们对事物或现象进行描述时,测度可以被定义为对现实世界中某一现象的个体属性或特征进行量化的过程。JamesT.Townsend和F.GregoryAshby(1984)[2]认为,如果按照极端的观点,那么统计分析中的基本测度理论的含义仍然是存在争议的。LudwikFinkelstein(2003)[3]指出,测度在那些原来尚未得到卓有成效或广泛应用的领域,也已取得了明显的进步,社会、政治、经济和行为科学正在更大程度地利用定量技术;测度是现代思维的一种实际有效的工具,是我们借以描述世界的一种方法。GiovanniBattistaRossi(2007)[4]认为,用以表示测度结果的,是数字或者数字符号。LucaMari(2013)[5]认为,测度的基础特征是被公认为世界上获取并正式表达信息的基本方法,这让它成为一种跨学科的工具。LudwikFinkelstein(2014)[6]指出,在自然科学技术中,测度的重要性不可否认,它是科学调查和发现必不可少的工具,它可将宇宙中的复杂现象用精确、简洁和普遍的数学语言来描述。

那么,到底什么是统计测度呢?目前没有一个统一的定义。本文认为,统计测度具有不同于测度的意义,并且大大超越数学上的界定,即它具有数学定义的一般属性,但又不受制于函数表现形式,因为统计测度所要面对的是现实世界,实际问题要比理论上可以定义的问题复杂得多。按照我们的理解,统计测度就是用一定的符号和数字,用一定的形式和载体,对所研究的现象或事物的特征进行量化反映,表现为可用于统计分析的数据的过程。它应该具有这样一些属性:以实际现象为测度对象,测度结果具有实际意义;以量化为目的,把信息转化为数量,提供人们容易理解的定量结论;个体特征的测度符合形成总体定量结论的要求,同时能够体现个体差异。可以发现,统计测度需要借用数学工具,但更重要的是对具体测度现象本质特征的认识和掌握。

统计测度可以从若干不同角度进行分类。邱东教授(2012)[7]曾在“宏观测度的边界悖律及其意义”一文中,从边界的角度对宏观测度进行了分类:一是因事物本身可测度性而形成的边界,即本体论意义上的测度边界;再一是由人的认知能力而形成的边界,即认识论意义上的测度边界;第三则是由统计相关性偏好和投入约束而形成的边界,即操作意义上的测度边界。这三条测度边界,应该以本体论意义的测度边界最大,认识论意义的测度边界次之,而操作意义的测度边界最小。这样的分类,对于我们正确理解统计测度的内涵很有帮助。受此启发,笔者认为统计测度还可以有如下分类:

1.从测度的实现形式看,可以分为原始测度和再测度。原始测度也可以称为直接测度,它通过对测度对象进行直接测度来获取数据,例如清点库存物品数量、丈量作物播种面积、观察培育细菌数目、检测药物成分等获得的数据,以及各种登记、记录的原始数据等等。再测度也称为间接测度,它以其他已知的测度数据为基础去计算、推算或预测所需的未知数据,例如根据GDP和人口数测度人均GDP、根据人口普查分年龄人口数据测度老龄化系数和社会负担系数、根据相关指标数据测度CPI的变化等等。复杂的再测度则需要借助相应的统计模型作为工具,因为它实际上是对相关变量之间的关系进行定量反映。从两者关系上看,原始测度是基础,是根本,没有科学的原始测度就不会有可靠的再测度;再测度则是测度功能提升的必然要求,以解决原始测度不能解决的问题。

2.从测度的计量方式看,可以分为自然测度、物理测度、化学测度、时间测度和价值测度。自然测度是利用现象的自然属性所进行的一种统计测度,例如人口规模、企业数量等的测度,采用自然计量单位;物理测度是利用现象的物理属性所进行的一种统计测度,例如公路长度、作物播种面积、天然气产量等的测度,采用物理计量单位;化学测度是利用现象的化学属性所进行的一种统计测度,例如医学、生物学中化学合成物的成分结构测度,采用百分数、千分数或特定标识为计量单位;时间测度是利用现象的时间属性所进行的一种统计测度,例如劳动用工、闲暇时间等测度,采用时间计量单位;价值测度是利用现象的价值属性所进行的一种统计测度,例如劳动报酬、经济活动成果等测度,采用货币计量单位。在这些测度计量方式中,价值测度因最具有综合功能而应用最为广泛。

3.从测度的方法看,可以分为计数测度、测量测度、实验测度、定义测度和模型测度。计数测度是一种通过观测计数来获得数据的方法,最为简单,一般用于自然测度或时间测度;测量测度是一种根据物理或化学规制对现象进行测量、测算来获得数据的方法,一般用于物理测度或化学测度;实验测度是一种按照科学实验原理、通过观察实验对象在既定条件下的反应来获得数据的方法,一般与测量测度相结合,用于获取科学研究数据;定义测度也可以称之为指标测度,是一种通过探究现象的本质特征和活动规律、归纳出表现其数量特征的范畴、给出统计指标定义(包括内容、口径、计算方法和表现形式等)来获取数据的方法,最常用于价值测度,也用于其他形式的测度。可以说,定义测度方法应用最为广泛,但也最为困难。模型测度是一种根据现象与现象之间的内在联系关系、或者现象自身的发展变化规律,通过建立一定的方程模型来获取数据的方法。前面三种统计测度方法基本上都属于直接测度,定义测度既可能是直接测度、也可能是间接测度,而模型测度都属于间接测度方法。

4.从测度的维度看,可以分为单一测度与多维测度。单一测度是指采用单一的方式方法对所研究现象或事物进行单一角度的测度,获得单一的数据。多维测度是指对所研究现象或事物进行多角度的测度,测度过程中可能需要采用多种测度方法和计量方式,例如多指标综合评价就需要借助统计指标体系对评价对象进行多角度的测度。显然,单一测度是多维测度的基础。

二、统计测度是统计学的立足之本

首先,从统计学的发展历史看,是统计测度使统计学破茧而出。为什么主流观点认为政治算术是统计学的起源而不是国势学?正是因为威廉·配第首次采用统计测度的方式进行了国家实力的统计分析和有关推算,得出了令人信服的结论。威廉·配第在1693年出版的《政治算术》[8]中写道“因为和只使用比较级或最高级的词汇以及单纯作思维的论证相反,我却采用了这样的方法(作为我很久以来就想建立的政治算术的一个范例),即用数字、重量和尺度的词汇来表达我自己想说的问题,只进行能诉诸人们的感官的论证和考察在性质上有可见的根据的原因”,这一观点在统计学的发展过程中产生了非常重要的影响。他的这段话虽然没有出现测度一词,但却道出了测度的本质,即让事物变得明白、变得有根据,因为“数字、重量和尺度”就是测度、就是根据,用“数字、重量和尺度的词汇来表达想说的问题”就是一种测度的思想,尽管测度的方式方法还很简单。相反,国势学虽然提出了归纳法这一统计学的基本方法并首创了统计学一词,但由于没有采用统计测度的方式进行国势问题的研究而难以修成正果。正如邱东教授[7]所说:“在配第之前,统计学的研究对象虽然是国家的态势,但它在方法论上只是定性言说。一个国家的财富总量在本体论意义上是可以测度的。然而只是到了配第时期,人类才想到了要测度它,并发明了如何测度的基本方法。政治算术,即开创期的经济统计学,实现了从无到有的转变,大大扩展了宏观测度的认识论边界,因而才具有了统计学范式创新的革命性意义。”同样,格朗特的《关于死亡表的自然观察和政治观察》也是人口统计测度方面的经典之作,无论是原始测度还是再测度,都给后人留下了宝贵的财富。之后,统计学就是沿着如何更加科学、准确测度世界这一主线而发展的。笔者曾在“从政治算术到大数据分析”一文[9],对数据的变化与统计分析方法的发展进行了粗浅的归纳,其主题实际上就是统计测度问题。

其次,从统计学的研究对象上看,统计测度是体现统计学数量性特征的前提条件。统计学的研究对象是现象的数量方面,或者说统计学是关于如何收集和分析数据的科学。统计数据从何而来?从统计测度中来。数据不同于数字,数字是统计测度的符号,数据是统计测度的结果,这也正是统计学区别于数学之处。所以说,数据的本质问题就是统计测度问题,故此统计测度是统计学的基本问题。这里重点讨论两个问题:一是统计测度与统计指标的关系,二是统计测度面临的新问题。关于第一个问题,本文认为统计测度与统计指标是一个事物的两个方面,这个事物就是数据。统计指标法是统计学的基本方法之一,尽管前面对统计测度从方式方法上进行了分类,但从广义上说所有统计测度都是定义测度,都表现为指标。也就是说,任何统计测度———不论是直接测度还是间接测度,最终目的是获得能够让人明白的数据,而表现数据的最主要形式就是统计指标,其他表现数据的形式都是派生出来的。所以,统计测度就是根据所设定的统计指标去获得所需的数据。关于第二个问题,与后文所要论及的大数据有关,就是定性测度问题。在统计学中,数据可以分为两类———定性数据与定量数据,其中定性数据又包括定类数据与定序数据两种,它们属于非结构化或半结构化数据。相应地,统计测度也可分为定性测度与定量测度。很显然,只有定性测度与定量测度方法得到同步发展,统计学才能更加完善。总体上看,定量数据的统计测度已经比较完善,但定性数据的统计测度还有很多问题尚待解决,难点就在于测度的切入点———如何提取有效的信息、如何最终转化为统计指标。尽管关于定性数据分析的论著已经不少,但还没有从理论方法上建立起定性数据统计测度的体系,因此统计学在这方面的任务依然很重。

第三,从统计学的永恒主题看,通过科学的数据分析、得出有效的结论是其不变的追求,而数据分析过程就是综合的统计测度过程。获得数据的目的是为了发现隐含其中的有价值的信息,即发现数据背后的数据,让数据再生数据,从而满足人们认识事物、掌握规律、科学决策的需要。除了总量、结构等基本信息外,更重要的是通过数据分析来呈现现象的变化规律与相互关系。不难发现,这种数据分析的过程,就是不断进行各种统计测度的过程,所以最终的统计分析结果实际上就是各环节、各方面的各种类型的统计测度的叠加结果,或者说是统计测度不断放大的过程。大量针对社会经济现象进行分析研究的文献(不论是否冠以“测度”两字),只要有数据分析,都是如此。可以说,统计测度贯穿于统计数据分析的全过程。但是,为什么很多统计数据分析并没有得出有效的结论呢?本文认为原因就出在统计测度上,尤其是没有首先解决好原始统计测度问题。应该说,围绕数据分析已经建立起一整套比较完整的统计方法体系,很多方法也都身经百战、行之有效,但一旦原始统计测度有问题、数据不准确或不真实,那么任何方法都只是摆设。仔细研读很多所谓的实证分析文献,其重点均在于构建什么样的模型或运用什么样的方法,虽然有的文献也必须要讨论选择什么样的变量(指标)这个问题,但并不是系统地从测度的角度进行阐述,因此所用的模型越来越复杂,但所得的结论却离实际情况越来越远。学界总是有这样一种观念:变量越多、符号越新奇、模型越复杂的文章才越有水平,似乎这样分析所得的结论才越可靠。殊不知,不以科学可靠的原始统计测度为基础,任何数据分析都会成为无源之水、无本之木,所得的结论也只是更精确的错误而已。本文认为,任何脱离科学统计测度的统计分析都是毫无意义的,充其量是一种数字游戏而已。应该树立这样一种观念:科学的统计数据分析首先取决于科学的统计测度,而不是首先取决于什么样的分析模型,虽然模型也很重要。这也再一次证明,统计测度问题是统计学的根本问题。其实,归根结底看,在统计数据分析过程中,每一步分析都以前一步的测度为原始测度,每一步所用的方法都是统计测度方法,因此所有的统计分析方法都是统计测度方法。甚至可以说,统计学方法体系就是统计测度方法体系。

当然,在实际的统计分析中,统计测度往往遇到一些困难,即有些指标数据由于各种原因无法获得,这就不得不采用替代这种途径。例如,绿色GDP核算的概念已经提出很多年,但为什么还没有哪个国家真正公布绿色GDP数据,原因就是自然资源价值、生态环境价值等的统计测度目前还面临着很大的困难,其背后存在着一系列有待进一步研究和解决的理论与实践问题,因此不少学者进行了替代测度的探讨。这一方面说明统计测度的重要性,另一方面说明统计测度替代的无奈性。但是,替代测度必须遵守相应的规则与逻辑,要经得起推敲。有的文献明明知道有关变量无法测度、有关数据无法获得,却随意地、不符合逻辑地进行所谓的替代,结果是最后的结论不知替代成什么样了,很难理解它的意义。关于替代测度的有效性问题,邱东教授[7]已有精辟的论述,在此不再展开讨论。

三、统计测度是数据科学的基础

笼统地讲,数据科学就是以大数据为研究对象的科学,需要多学科交叉融合、共同支撑。由于大数据是快速增长的复杂数据,因此大数据分析仅有统计思维与统计分析方法是不够的,还需要强大的数据处理能力与计算能力。只有把统计思维、统计方法与计算技术结合起来,才有可能真正挖掘出大数据中的有价值信息。本文认为统计思维、统计方法与计算技术相结合的基础就是科学的统计测度。

首先,大数据技术不能自行解决其计算和分析应从何处着手的问题。现代信息技术与互联网、物联网技术的快速发展,使人类进入大数据时代,也有人说进入到数联网时代,这意味着我们一方面被各种越来越多、越来越复杂的数据所包围,另一方面又被数据中巨大的信息价值所吸引,想从中挖掘出可供决策之用的信息。如何挖掘大数据?人们已经进行了艰苦的探索,发展了很多专门的方法技术,并已尝到了不少甜头,但远未达到充分利用大数据中有效信息的目的,因为已有的大数据分析研究主要集中于计算机科学与技术、软件工程、计算数学等领域,重点是计算能力与算法研究,而很少从统计学的角度进行有针对的探讨,还没有真正进入数据分析的深层。这里面实际上忽略了最基础的统计测度问题。如果说,计算技术的发展能够解决数据储存与计算的能力问题,算法模型的改进能够解决大数据分析的综合能力问题,那么它们仍然不能解决对谁进行计算与分析的问题,也即从何处着手的问题。无论是传统的结构型数据,还是现在的包含大量非结构型数据的大数据,要对它们进行分析都必须找到正确的切入口,即分析的基本元素是什么,或者说需要测度什么。当然,还有如何测度的问题。然后,才能进行分组、综合和构建模型,否则大数据分析不会达到人们的预期。

其次,大数据之所以催生数据科学,就是为了通过多学科交叉融合来共同解决大数据分析中存在的问题,其中包括统计测度问题,这一点对于非结构化数据尤为突出。实际上,大数据的本质就是非结构化数据,一是体量大、比重高(超过95%),二是变化快、形式多,三是内容杂、不确定。通过各种社交网络、自媒体、富媒体,以及人机对话和机器感应记录等产生的各种非结构化数据,例如各种文字、各种表情符号、各种声音、各种图像,到底表示什么?综合在一起能体现什么规律?如何综合各种信息?存在着大量有待研究的问题。其实,文字的长短、用词、表达形式(叙述式、议论式、散文式、诗歌式,等)甚至字体大小与颜色,表情类型与偏好,声音高低、频率与情绪,图像颜色等等,都是有特定意义的,即在特定环境条件下的反应。所以,一句话或一段声音的意义并非文字本身的意思,一个表情符号的意义并非符号表征的意思,一个图像的意义并非图像内容与色彩本身的意思,因为背后有太多的未知。人们浏览检索各种信息的习惯、收看与回复邮件等信息的习惯、参与信息网络的习惯、购物习惯与支付习惯等等,也是如此。更何况,同样的网络词汇在不同的时间代表着不同的语义。这背后隐藏着的是人们的行为与社会关系,既具有个性又具有共性,极其复杂。所以对这样的数据进行分析,首先绝非是计算问题,也不是用什么模型问题,而首先是从何处着手、如何选取关键词、如何选定关联词、可以用什么样的指标来综合、可以用什么样的表式来表现等问题,一句话就是统计测度问题。非结构化数据的统计测度将主要是定义测度,这些问题不解决,分析模型也是难以构建的,或者难以得出令人信服的结论。

例如,关于《红楼梦》前80回与后40回是否同一作者的争论,韦博成[10]进行了综合性的比较研究并提出了自己的观点,他指出已有美国威斯康辛大学华裔学者陈炳藻教授(1980)[11]、我国华东师范大学陈大康教授(1987年)[12]和复旦大学李贤平教授(1987年)[13]等学者从统计学的角度进行过专门的研究,但却得出了不同的结论:陈炳藻教授认为前80回与后40回均是曹雪芹所著;陈大康教授认为前80回与后40回为不同人所著;李贤平教授认为前80回是曹雪芹根据《石头记》增删而成,后40回是曹雪芹亲友搜集整理原稿加工补写而成。此外,还有其他一些学者进行过类似的研究,也有一些不同的结论。为什么都通过提取关联词和统计的方法却得出不同的结论?原因就在于用以分析的关联词不同,即统计测度的切入点不同,当然也有统计方法上的差异,但前者是根本。至少存在几个统计测度上的问题:提取单一维度的关联词还是多维度的关联词?提取什么类型的关联词(例如:关联词是名词、形容词还是动词;是花卉、树木、饮食、医药还是诗词)?这些关联词可以综合为什么样的指标?等等。由此可见,原始统计测度代表着数据分析的方向。

相比《红楼梦》,大数据分析要复杂得多、困难得多。所以,数据科学除了需要数学、统计学、计算机科学与技术、人工智能等学科的交叉融合外,还需要与行为科学、语言学、社会学、经济学等学科相结合,以便能很好地解决作为数据分析之前提的统计测度问题。

第三,数据科学将进一步拓展统计测度的边界,并提出更高的要求。伴随着人类认识世界的范围的不断拓展,统计测度的范围也不断扩大,从自然现象统计测度到人口现象、经济现象统计测度,再到社会现象、环境现象、政治现象等统计测度,几乎已经渗透到了所有可以想象到的领域。相应地,统计数据分析也从少量数据的分析进入到了大数据分析。大数据的复杂性、不确定性和涌现性(王元卓等,2013)[14],意味着统计测度的内容大大增加,原来一些不能测度的数据被纳入到了统计测度的范围,按照邱东教授的说法就是统计测度的边界大大扩展了。统计测度边界的扩大,必须以统计测度能力的提升为前提,即要求统计学借助现代信息技术进一步提升处理和分析数据的能力———对大数据“化繁为简”、“变厚为薄”的能力,这就必须以科学准确的大数据统计测度为前提,既改变统计思维,又创新统计分析方法,其中就包括统计测度思维、统计测度方法与统计测度标准。面对大量繁杂的数据,如果没有更好的统计测度思路与方法,包括个体标志定义方法、最小数据细胞分组与聚类方法、关联词含义的时间影响计量方法、定性测度指标筛选方法、再测度路径与方法、大数据统计测度评价标准等,那么统计学在数据科学发展过程中就难以发挥应有的作用,数据科学也将裹足不前。这就是统计学迈向数据科学的重要挑战之一。

综上所述,统计测度的基础性问题从统计学延伸到了数据科学,是两者的共同基础,并且对于数据科学而言显得更为重要。大数据的复杂性、不确定性和涌现性导致了统计测度的难度猛增,亟需建立面向大数据分析的统计测度理论与方法。要通过研究大数据的复杂性、不确定性和涌现性特征的基本因素,以及这些因素之间的内在联系、外在指标和测度方法,进而研究基于先进计算技术的大数据度量模型,构建寻找面向计算的数据内核或者数据边界的基本方法。总之,建立有效易行的数据表示方法,即科学的统计测度方法,是数据科学必须解决的基础问题之一。

四、创新与完善大数据统计测度方法

如前所述,统计学研究对象已经从结构化数据延伸到了包括非结构化数据在内的一切数据,统计测度边界得到了大大的扩展。按照邱东教授[7]曾经引用过的海德格尔的话:“界限并不表示某一事物的发展到此为止,而是像希腊人所认知的那样,界限是某种事物开始展现的地方”,预示着统计学在数据科学发展阶段的新起点已经展现在我们面前。新的统计测度边界催生统计测度方法的创新,统计测度方法的创新促进统计测度边界的拓展,两者相辅相成,共同推动统计学与数据科学的发展。为此,我们要系统梳理统计测度方法的发展历程,面对大数据提出的新挑战,大胆探索统计测度的新思路、新理论和新方法,为数据科学奠定坚实的统计学基础。为此提出如下几点建议:

首先,要紧密结合现象的本质去探求更科学的统计测度方法。本质决定一切,既然统计测度的目的是获得客观反映现象本质的数据,那么深入到现象本质、认识和掌握现象的本质,是科学统计测度的关键,也是探求新的统计方法的出发点。换句话说,科学的统计测度方法能够体现出数据的真正意义。例如,要探求社交网络数据的统计分析和测度方法,就必须了解社交网络的产生背景、构成要素、表现形式与基本特征,既要研究它的共性问题,又要研究它的个性问题与差异性,同时还要研究它的变化趋势。只有这样,才能掌握社交网络数据的构成要件或元素,才能建立起科学的、能有效体现社交网络数据意义的统计测度方法。再如,要分析研究电子商务数据,也必须先弄清楚什么是电子商务,尤其是弄清楚它与传统的商业模式有什么不同(包括物流、资金流与信息流)、有哪些新生事物(包括时空特征、法律监管)等等,否则统计测度无从下手或者抓不住要害。同时,作为一个新的研究领域,数据科学的理论基础将与计算机科学、统计学、人工智能、数学、社会科学等有关,离不开对相关学科领域知识与研究方法的借鉴,因此对相关领域的知识与研究方法的学习十分重要。否则,就会严重扭曲统计测度方法,胡乱设置测度标志,这需要引起高度关注。

其次,要紧密结合大数据的特点去创新统计测度方法。大数据的特点是复杂性、不确定性和涌现性并存,构成了多维的数据空间,里面蕴藏着丰富的信息资源,这是传统的统计数据不可比拟的。那么该从何处进入这样的数据空间?怎么进去?又怎么出来?这归根结底还是统计测度方法问题。因此,在开展大数据分析之前,首先要研究大数据的基础性问题,包括大数据的内在机理(包括大数据的演化与传播机制、生命周期),数据科学与社会学、经济学、行为科学等之间的互动机制,以及大数据的结构与效能的规律性等等,为创新统计测度方法提供导向。本文认为,再复杂的数据也有共性,再不确定的数据也有规律,再涌现的数据也有轨迹。网络大数据背后的网络平均路径长度、度分布、聚集系数、核数、介数等具有共性的特征与参数,是开展复杂网络数据分析的基础(李国杰、程学旗,2012)[15];大数据在时空维度上的分布形式、内在结构、动态变化和相关联的规律,是找到大数据分析切入口、进而简化大数据表征的前提;大数据的涌现性轨迹(包括模式涌现性、行为涌现性和智慧涌现性),是研究更多的社会网络模型和理解网络瓦解失效原因,理解人们网络行为涌现特征(例如人们发邮件数量的时间分布特征),以及探求大量自发个体语义融合连接形成有特定意义的通用语义之过程的路径(靳小龙等,2013)[16]。也就是说,这些共性、规律和轨迹就是统计测度的主要依据,也是重点内容。发展和创新能够准确发现大数据的共性、规律和轨迹的定量方法,其实就是发展和创新大数据统计测度方法。

第三,要紧密结合现代信息技术以完善统计测度方法。复杂、多变和不断涌现的大数据,不仅需要借助现代信息技术(包括硬件与软件)来解决极其复杂的分析计算问题,也需要利用现代信息技术来解决其繁杂多样的统计测度问题。对于大数据,不论是原始统计测度还是再测度,其复杂性或难度都不是传统的结构化数据所能相提并论的,哪怕是基本的关联词计数、分类与汇总,其工作量之大也超乎想象,不借用现代信息技术几乎是不可能完成的。而事实上,有些统计测度的内容与方法本身也是以数据处理能力的提升为前提的。可以说,脱离现代信息技术,人们难以承受大数据的统计测度与分析任务;要把统计测度思想变为可实现的统计测度方法,必须借助现代信息技术。为此,要充分利用各种信息技术和手段,把统计测度与数据清洗相结合、与数据分析模型相结合、与计算方法相结合,努力建立融自动搜索统计测度、动态演化统计测度和自主优选统计测度为一体的大数据统计测度方法体系。

统计学变量的定义范文2

王谦 (国家计生委计财司 副司长)

由于工作关系和职业习惯,笔者对各种各样有关人口和计划生育的工作报告、分析文章中的统计方法和统计数据比较关注,经常可以发现统计方法和统计数据被误用的情况。本文通过一些实例,分析由于不了解人口和计划生育的特点而造成统计方法和数据误用的情况。

1 个案与群体

〔实例1〕某调查报告称,某村2001年出生婴儿10人,其中男婴6人,女婴4人,出生性别比高达150,严重失调。

〔实例2〕某乡给某村下达人口计划,其中一项指标是计划生育率,要求当年的计划生育率不低于95%,而该村一般每年出生不足20人。

〔实例3]某地计生委根据群众举报,查出某县一个超生5胎的情况,据此称该县超生问题严重。

〔实例4〕某县总人口不足50万人,近年来在孕妇中推广服用“福施福”。上级要求检查服用“福施福”后,人口缺陷发生率是否逐年下降。还有不少地方把孕产妇死亡率是否逐年下降当作生殖健康服务工作的考核内容。

这几个例子所出现的问题都是以个案或少量发生的情况,说明一个地方宏观的情况。人口和计划生育统计所分析的对象(人口)或事例具有群体性,这个群体是由每个个体的人或事件集合而成。每个个体是否发现这种现象是偶然的,作为表现群体规律的统计数据,只有当群体具有相当的规模后才有意义。群体的规模太小,尽管对每个个体的统计是准确的,指标的计算也是正确的,但计算结果并不能客观地反映群体的规律。

如实例1,一个村的出生人数仅为10人,计算的出生性别比要么是100(“绝对平衡”),要么就是男女比例严重失调。实例2中计划生育率受出生总数的影响,要么计生率正好100%,只要有一个计划外出生,计划生育率就低于95%。例4涉及的出生缺陷发生率或孕产妇死亡率一般统计时均以10万作为分母,对于一个县,每年出生几千人或1万多人,即使按照出生缺陷、孕产妇死亡发生的平均水平,每年也只有几例,偶然性很大,在统计数据上很难表现为逐年下降。至于例3,以一个特例说明全县的情况,更是欠妥。各种人口和计划生育统计教材上并未说明各项统计指标适用的人群至少要达到多少,但一般说来这些统计指标绝大部分不能用于分析规模在几百人到一千多人的村级情况,许多指标在县、乡级使用也不太合适。多年来各级是通过报表收集人口和计划生育统计数据。报表由上级制发,基层单位按统一的口径填报每个项目,然后逐级汇总、上报。这样以来,上、下级的报表式样相同,只是数量大小有差别,于是,上级单位计算哪些指标,下级单位“照葫芦画瓢”计算相同指标。特别是实行人口与计划生育目标管理责任制后,各项工作任务和责任要逐级分解、落实,相应地,工作指标也被层层分解,上一级控制的指标(如出生率、计划生育率)也被一直套用到基层单位。在这种情况下,群体性的要求很容易被忽视。

2 自然属性与社会属性

〔实例5〕1995年8月,在全国上半年人口形势分析会上,某省计生委分析本省当年上半年二孩出生数量比上一年同期减少的原因时称,由于自当年起全省广泛推行“三结合”,许多群众为了发家致富,主动退出二孩指标,于是二孩出生明显减少。笔者的同事立即对此理由提出了置疑:既然是主动退出二孩指标导致二孩出生减少,那么原来应在1995年上半年生育二孩的妇女至少在1994年上半年就应退出二孩指标,而那时候,该省并未开展计划生育“三结合”;至于1995年上半年开展“三结合”后退出的二孩指标,其二孩出生减少的效果应在1996年以后才能表现出来。群众退出二孩指标与二孩出生数量的减少在时间上出现了“矛盾”。

〔实例6〕许多文章分析妇女受教育程度越高,生育的孩子越少。

这两个例子说明分析人口出生数量的变化应考虑人口的自然属性和社会属性。人口首先是生物意义上的人口,具有自然属性,同时,人口生活、存在于一定的社会环境中,具有社会属性。人口现象的发生既受自然属性的影响,也受社会属性的影响。从根本上说,社会属性对人口现象的影响和制约是有条件的、间接的。而自然属性的影响和制约是无条件的、直接的。社会属性的影响和制约常常要通过自然属性来实现。在分析人口现象的时候,首先要解释人口的自然属性,然后再解释社会属性。就实例5而言,从妇女退出二孩指标到二孩出生减少,至少间隔10个月,即妇女的怀孕期,无论推行“三结合”力度多大,妇女10个月的怀孕期不能缩短。退指标的发生与出生数的减少在时间上不“同步”,至少要“滞后”一年。也就是说,1995年上半年因开展“三结合”妇女退出二孩生育指标不会影响这个时期的二孩出生数量。关于实例6,一个人的受教育程度属于社会属性,妇女受教育水平提高,的确会影响其生育行为。然而,影响生育的自然因素,直接因素是避孕节育行为,具体地说,影响生育的生物因素包括推迟结婚(不发生性行为)、采取避孕措施和流产(终止妊娠)。妇女文化程度影响到上述生物因素发生变化(如文化程度高,能够更好地掌握避孕知识,可以提高避孕的有效性,减少怀孕的可能),并通过上述因素影响生育孩子的数量。直接讲文化程度与孩子数量的关系,未免有些牵强。

3 定量与定性

〔实例7〕各地每年都要分析当年的人口形势,将当年的数据与上一年的数据进行对比。许多分析报告在列举了对比数据后得出结论:“今年的工作比上一年有明显的进步,取得了巨大的成绩,上了一个新台阶”。但如果我们仔细察看各项指标的数量,发现变化并不大,如计划生育率由88.5%上升到89%,出生率由15.4‰下降为14.9‰(这其中由于人口年龄结构的变化也能导致出生率下降),多孩出生由165人减少为149人,多孩率由2.2%下降为2%等等。根据这些数据的变化,得出的定性结论应当是:“工作稳步发展,人口增长保持平稳的态势”。人口和计划生育的统计分析主要是指对数据的分析,并由“定量”的描述引申到定性的判断。如果忽视定性的分析,那么,所谓定量分析不过是数量变化的文字描述而已。把握好定性分析的关键在于,定性分析应以定量分析为基础,即“定量”在前,“定性”在后。那种先“定性”,再计算数量变化的做法,违背了“定量”与“定性”的基本规律。这样进行的定量分析,只是给定性的结论加一些数量的点缀。

4 模糊和精确

〔实例8〕某地区的一份材料称,根据20年来每年总和生育率的变化,推算本地区20年来少生了1831275人。

〔实例9〕某县计生委利用农村赶集日人口比较集中的机会,出动服务车,设置咨询台,向群众宣传计划生育知识,提供咨询服务。县计生委的汇报材料称,“一个月来在集日上接受宣传、咨询的群众累计达到127328人次”。

乍一看,实例8和实例9中的人数和人次数的统计和计算十分认真仔细,数字如此精确,令人钦佩。但转念一想,不免生疑:实例8中利用总和生育率计算少生人口,需要以年龄别生育率与分年龄妇女人数相乘计算出生人数,一般来看,每个年龄组的计算结果都不会是整数,只好四舍五入。每一年若干个年龄组累计下来,个位数已经含糊不清了。再把20年的少生人数累计起来,怎么可能精确到个位数呢?况且20年间,该地区的人口并非处于“封闭状态”,各年龄组人数因为人口迁移而变化,也会影响到计算少生的数量。至于实例9,在一个开放的、人们频繁走动的集市上,如何判定哪个人接受了宣传,哪个人接受了咨询,并没有一个客观的标准;即使有标准,实际操作中也很难把握,因此,根本没有可能逐人统计。实例8、实例9中看似精确的数据令人感到滑稽,倒不如模糊一些,说“20年大约少生了18万人”,“一个月在集市上接受了计划生育宣传、咨询服务的人次达10余万”,或许有几分可信。从某种意义上讲,人口和计划生育所涉及的是宏观层面的事情,与此相应的统计数据所反映的是大致的状态或趋势,没有必要也没有可能做到精确。许多同志在应用统计方法时,往往注意的是方法本身的定义和计算过程,而对计算中数据的来源不了解。人口和计划生育统计属于社会经济统计范畴,很多数据是通过抽样调查获得,允许有一定的误差;即使是全面的调查(如人口普查、全局报表),在实施过程中,也会遇到这样、那样的干扰或影响,存在着调查误差,这是无法完全避免的。从某种意义上讲,数据存在一定的误差,这是人口和计划生育统计的特点之一。

5 原因与结果

〔实例10〕最典型的例子莫过于“人口出生率每降低1个千分点,人均GDP提高多少个百分点”的说法。这种说法的依据是利用相关分析法对全国各省的人口出生率和人均GDP的数量变化进行计算,得出二者之间的函数关系式和相关系数。把人口出生率作为自变量,看自变量的单位变化影响因变量(人均GDP)变化的数量大小。

在这个例子中相关分析法本身以及有关的数据都是正确的,然而,用这样一个函数式来解释人口增长与经济增长的相互关系是有问题的。其一,就统计方法来说,相关分析只反映变量之间的相关关系,而不说明因果关系;其二,人口增长与经济增长固然相互影响,但从本质上来说,是经济发展影响人们的思想,进而影响人们的生育行为,最终导致生育率下降,人口增长率降低,即经济增长是“因”,而人口增长是“果”。颠倒了因果关系,不仅逻辑上讲不通,数量上的“相关性”也失去了意义。

笔者在多年的工作中体会到,由于人口和计划生育所具有的特点,人口和计划生育统计分析方法的应用和统计数据的解释有别于其它部门和领域对于统计的一般要求。正确地应用统计分析有助于我们认识人口和计划生育的特点和规律,只有科学地认识和把握人口和计划生育的特点和规律,才能避免在统计分析中陷入误区。

社会科学实证研究中的统计分析方法应用

郑真真 (北京大学人口研究所 副教授)

统计学的应用随着微型计算机的普及越来越广泛,在社会科学实证研究中几乎是无处不在。有了一定规模的数据和一个统计分析软件,就可以很方便地进行各种估算和分析。然而由于统计分析方法本身并不像加减乘除那样简单,而一些统计分析软件已经发展到几乎是人人都可使用的程度,如果使用者在只知其然不知其所以然的情况下操作并得到结果,可能出现对统计分析方法误用或滥用的现象。本文仅对一些统计分析中比较常见的问题进行讨论,以引起各方面的重视。

1 描述性统计

描述性统计是社会科学实证研究中最常用的方法。准确、全面、正确的描述是所有实证分析的基础,如果对某个事件或某种现象的描述不清楚或存在偏差,那么其后的所有分析都将是值得怀疑的。一项研究能够将所研究的现象或对象描述清楚,就是一个极大的贡献;而描述的偏差可能会引起公众或学术界对某些社会现象的误解,甚至误导政府决策。但是因为描述性统计所用方法简单易得,往往没有得到足够的重视。

均值的局限 普遍用于描述样本集中趋势的测量之一是均值。它对于近似正态的对称分布样本来说是比较好的测量,对于不对称分布则不然,尤其会受到极端值的影响。两个分布完全不同的样本可能会有相同的均值,因此均值在某种程度上抹杀了样本内部的差异,而往往这种内部差异正是需要我们进行深入研究的、或应当引起人们注意的。为了弥补均值的这个缺陷,一般在报告均值的同时也报告方差,或用直方图/散点图的形式描述分布,以提请读者注意群体内部的差异。

不同群体的可比性 在描述性统计中,往往涉及到对不同时期或不同人群的总体描述,以反映社会变化或地区差异。在社会科学中、尤其是人口研究中,不少事件的发生都是与年龄密切相关的,如我国妇女大部分在35岁以前完成了生育,从而导致35岁以上育龄妇女中极高的避孕现用率。在这种情况下,两个样本之间存在避孕现用率的差异可能只是年龄结构的差异,而不是年龄别避孕现用率的差异。又如在报告流动人口犯罪问题时,给人的印象往往是流动人口犯罪率高于常住人口,但忽视了流动人口的年龄和性别构成与常住人口完全不同,且青年男性是犯罪率较高的人群。这种对两个不同群体的比较往往会导致错误的结论。

绝对数的使用 由于中国人口数量巨大,调查研究也比较容易得到大容量的样本,所以对任何小概率事件用绝对数报告都会出现惊人的巨大数字,单纯对绝对数的强调往往会产生戏剧性的效果。比较合理的方式一般是在报告某事件绝对数的同时,给出该事件的发生率或占研究人群的比例。

小样本的代表性 在一次抽样的小样本中求得的率或比例会非常不稳定,与另一次抽样的结果可能会有较大差距。因此当研究仅限于从小样本获得的资料时,应当在报告比例的同时也报告样本量。

2 双变量统计分析

在社会科学研究中,首先分析的往往是两个变量之间的关系,如用相关或列联表等方法。一般在确定两个变量之间确实有某种关系,如在经过统计检验后证实两变量有显著相关关系,进行更进一步的分析才有意义。因此,双变量统计分析在实证分析中占有重要地位。但是,由于在应用中对有些问题的忽视,双变量统计分析也很容易出现偏差或错误。

卡方检验的局限 在利用列联表对两个定序/定类变量进行相关分析时,需要进行统计检验来判断两个变量的相关是否有统计上的显著意义。不少研究结果都用卡方检验的显著性报告相关状况。但值得注意的是,卡方统计量的计算本身是有局限性的,样本越大,卡方值就会相应增大,因此大样本的卡方检验很容易得到显著结果。所以一般在报告卡方检验结果以说明两变量是否显著相关时,还应当同时报告相关强度,即相应的相关系数,如Gamma,Lambda等。

统计意义上的显著与差别的实际意义 在检验两个定距变量的均值差别是否具有统计上的显著性时,也存在相似的问题。由于样本量越大,样本均值分布的方差就越小,因此常用的t检验结果就越可能显著,任何细微的差别都可能有统计上的显著性。但有时具有统计意义显著性的差异,在实际生活中可能意义并不大,如同在两个草堆之间找出一根草的差距,对判断两个草堆的大小没有实际意义。因此,对任何检验结果都应当有符合实际的解释和说明。

虚假相关问题 双变量分析中的虚假相关问题,几乎在所有关于社会科学研究方法的教科书中都会涉及到,在统计分析方法的教学中也被视为经典问题。但是多少年来,人们仍然在不断地重复着这个“经典的错误”,即认为可见的或统计检验结果显著的相关就是真正的相关;更为大胆的做法是把这种相关关系推向因果关系。我们知道,对于有的变量来说,即使是经过检验判定两者具有统计上显著的相关关系,也不一定存在实际意义上的关系,因为可能有未考虑到的变量或不可测量的变量在同时对两个研究变量起作用,有时甚至可能完全是偶然的巧合。例如,火灾的大小是以火灾损失来衡量的,而参加灭火的消防员人数是与火灾大小有关的,火灾越大,出动的消防员就越多,但凡是具有常识的人都不会根据出动消防员人数和火灾损失两个变量之间的高度相关,断定出动消防员越多火灾损失就越大,因为火灾的规模是决定因素(但很难直接衡量)。在有关人口科学研究中也有报告虚假相关的现象,如人口增长率的降低导致了经济增长的提法就是一例。因此,在分析相关关系时,应当根据理论、知识、经验、甚至常识来判断这种分析是否有意义、是否存在其他变量的作用(称为外在变量),避免得出有悖于常理的分析结果。有些虚假相关是可以通过统计分析方法判别的,如在控制了另外一些变量后观察两个变量的偏相关,或在双变量分析的基础上,进一步用多变量分析深入研究。

3 多变量分析

回归分析是多变量分析中应用最多的方法,尤其是逻辑斯蒂回归更是被广泛地应用。在众多应用中,比较明显的问题是使用方法是否得当和对结果的报告和解释是否规范、合理(见2002年第2期《人口研究》刘金塘文)。此外还有一些应当引起注意的问题。

分析框架的重要性 在社会科学研究中,各变量之间往往存在错综复杂的关系,如果在进行回归分析之前没有一个清晰合理的分析框架,那么回归的结果有可能会引起质疑。一般应在报告回归分析结果之前,介绍该分析的框架,如各变量的定义、各自变量与因变量的假设关系及其理由等,对建立的回归模型做出合理性论证。有一些变量可能是作为控制变量纳入回归模型的,如性别、年龄等,最好事先解释清楚。对假设因果关系的模型,应当至少能够说明:(1)该因果关系在理论上是正确的、在实践中是合理的;(2)从事件发生的时间上来说,应当是原因发生在先、结果发生在后。如有些回归分析中,未加说明即把所有与因变量显著相关的变量都囊括在自变量中,甚至有些自变量与因变量有明显的互为因果关系,显得分析逻辑混乱;还有的论文在简单介绍研究背景和数据来源之后,急于建立因果关系并推出回归分析结果,然后再根据各变量在回归模型中的显著性一一说明,这相当于事后解释;这些做法都是错误的。

在具备“奔4”微机和较易操作的软件的今天,转瞬间就可完成一次回归分析,但是在此之前,需要有大量的前期准备工作,包括文献检索和理论框架构建,才能确保统计分析的科学性。

分析方法应用的条件 每种多变量方法都有各自的前提条件或假设,如果这些条件不具备或者假设不成立,该方法的应用就成问题。如Pearson相关是考察线性相关关系,多元方差分析只能辨别线性相关因变量的多元差异,线性回归分析假设自变量与因变量之间为线性关系,因子分析方法也是建立在各变量具有一定的线性相关基础之上的;另外,在逻辑斯蒂回归中,每个分类都应保证有足够的频数,如果频数太少就会影响参数估计的稳定性;等等。尽管一般不在报告分析结果时说明各种假设是否成立或条件是否满足,但是在进行分析时应当自觉地进行考察。如果不能满足条件或假设不能成立,就对数据进行转换或调整后再分析,或者改变分析方法。

统计学变量的定义范文3

【关键词】统计学DCOVA框架统计方法教学

一、引言

数据对于当今天的商务活动具有重大的意义。数据是关于这个世界的事实,它能够说明问题、提示事实、隐含规律。一些商业机构正是通过“挖掘”数据来发现事物之间的关联性,并从中获取利润。如果人们躲避数据,就可能由于盲目接受他人对数据的概括总结而上当受骗,也可能完全依赖“感觉”来做决策,从而不利于做出正确的决策。因此,作为一门研究如何处理和分析数据的课程——统计学越来越受到各方重视。在高校中,绝大部分商科专业把统计学或商务统计作为专业必修课列入到人才培养方案中。如何学好、用好统计学成为当前许多人需要迫切解决的一个问题。美国著名的统计学家莱文(Levine)等在其撰写的统计学教科书中首次提出了DCOVA框架,用于指导学生或相关从业者如何有效学习和使用统计学。

二、基本术语

统计学是把数据转化为信息用于决策的方法或工具。例如,为了研究青年人喜欢网上购物的主要原因,可以通过调查来收集原始数据,再制作总结表来整理数据从中获得数据中隐藏的有用信息(最主要的原因是网上购物价格便宜),最后根据所获得的信息进行决策,即网店价格要比实体店便宜才能吸引青年消费者。从调查数据到总表结,就是把数据转化为信息的方法。统计方法是把数据转化信息的方法,包括统计描述方法和统计推断方法。统计描述方法主要包括收集、整理、可视化和概括数据;统计推断方法是指用样本数据得出总体结论,包括对总体参数的置信区间估计和假设检验。为了学习和使用统计学的方法,可以应用DCOVA框架。DCOVA框架包括定义数据(D)、收集数据(C)、整理数据(O)、可视化数据(V)和分析数据(A)等5个阶段(图1)。例如,为了研究一所高校学生的努力学习程度,根据DCOVA框架,首要定义数据,即找什么样的数据能够代表学生的努力学习程度,为此需要对努力学习程度开发一个可操作定义,比如用每天平均学习时长(小时)来代表一个学生的努力学习程度。其次要收集数据,可以通过问卷调查的形式收集数据。再次是整理和可视化数据,比如制作频数分布表来整理数据,从而可以查看学习时长的分布情况,制作直方图来可视化学习时长数据,从而直观形象地显现数据的分布特征,从中判断学习时长是否服从正态分布等。最后是分析数据,比如可以分析不同专业、不同性别、不同年级的学生每天学习时长均值的差异,或者估计全校学生每天平均学习时长等。DCOVA框架较好地囊括了统计学教学中主要的知识体系。

三、定义数据(D)

定义数据主要是解释收集什么数据的问题,它与一项研究的目的及其所涉及的变量相关。研究目标决定研究中所涉及的变量,相关变量决定需要收集的数据(图2)。在上述的例子中,研究目标是“研究一所高校学生的努力学习程度”,其中“努力学习程度”就是研究中需要涉及的变量。由于该变量没有直接的数据对应,需要开发一个相应的可操作定义——如每天平均学习时长,最后去收集学生每天平均学习时长的数据。

可操作定义指对所有与该分析相关的人而言很显明是普遍接受的定义,是对某个抽象变量的一种清晰、精确的表述,是对该变量意义的共同理解。努力学习程度是一个抽象变量,在收集數据时会遇到麻烦,因此需要一个可操作定义。每天平均学习时长可以作为努力学习程度的一个可操作定义,因为大家普遍认为一名学生在学习上花费的时间越多,说明该生学生越努力,并有每天平均学习时长是一种清晰、精确的表述,从而方便研究者收集相关的数据。

定义数据还包括确定所需数据的类型。数据是变量的取值,变量类型与其所对的数据类型一致。变量可以分为属性变量(如性别)和数值变量,数值变量又进一步区分为离散数值变量(如家庭人数)和连续数值变量(如身高)。相应的,数据可以分为属性数据(如男、女)和数值数据,数值数据又进一步区分为离散数值数据(如2人、3人)和连续数值数据(如1.75m、1.68m)。在SPSS中,变量的测量尺度(类型)分为名义(图标为三个小圈)和有序(图标为阶梯),这两类都属于属性数据;还有一类为标度(图标为尺子),这类属于数值数据。

四、收集数据(C)

在明确了需要什么数据的前提下,就需要进入收集数据阶段。收集数据(C)主要是解决数据的来源问题。数据的来源有原始数据来源和二手数据来源。原始数据来源主要通过调查、观察和实验获得数据;二手数据来源主要是指其他组织或个人已公布的数据。由于获得原始数据比较麻烦,所以二手数据是首选的数据来源。

在经济管理研究领域,原始数据来源主要依靠调查。由普查涉及面广、成本高、耗时长和难度大,所以一般不常用,对许多研究者来说,主要通过抽样调查来获得原始数据。因此,如何抽样就成了一个无法逃避的问题。调查数据的质量直接影响研究的价值,如果数据本身严重存在错误、偏见,不管采用什么数据分析方法,都很难得出可信的分析结果。为了从一种总体中找到一个样本,并对样本采集数据,首先要做的工作是抽样。不同的抽样方法生成不同的样本类型,如简单随机抽样方法生产简单随机样本,抽样方法与形成的样本类型一致。抽样方法分为非概率抽样和概率抽样两大类。非概率抽样包括便利抽样和判断抽样,其优点是便利、快速、低成本,可以用于前期或试探性分析,其缺点是样本的代表性一般较差,不能用于统计推断。概率抽样包括简单随机抽样、系统抽样、分层抽样和群抽样,其中简单随机抽样和系统抽样的优点是简单易行,但无法保证样本的代表性;分层抽样过程比较繁琐,但能够确保样本的代表性,并能对每个层进行分析,得出每层的结果;群抽样的优点是调查成本低,但有效性相对较差,需要增加样本容量才能达到其他抽样方法的效果。

五、整理数据(O)和可视化数据(V)

有了数据之后,就可以进入数据的整理和可视化阶段了。不同的数据类型分别有不同的整理和可视化方法。整理数据主要用到表格,可视化数据主要是用图形。对于属性数据,可以用总结表、交叉表进行整理,用条形图、饼图、帕累托图、对比条形图等工具进行可视化。对于数值数据,可以用频数分布表进行整理,用茎叶图、直方图、折线图、箱线图、散点图等工具进行可视化。从对数据的整理和可视化的工作中,可以获得数据的描述性信息。

统计学变量的定义范文4

1.1研究对象

在知情同意条件下,随机抽取广西右江民族医学院护理学专业女大学生395名。所有受检对象的身体均无畸形,无重大疾病和手术史。

1.2研究方法

1.2.1检测方法

利用日本百利达公司生产的MC-180人体成分分析仪检测护理学专业女大学生的体成分,选取躯干、四肢的肌肉量和脂肪量进行分析。

1.2.2采集条件

①测试前受检对象无剧烈运动,心情平静,排空二便;②摘除与身体接触的金属饰品;③双脚裸足站立在人体成分分析仪上,根据分析仪提示手握电极时,受检者双手握住电极;④测试时间在20s内完成;⑤测试前均对仪器进行校正,并由专人负责仪器操作。检测时严格按照仪器说明书及采集条件进行操作。

1.2.3体质状况评定标准

根据中华人民共和国卫生部疾病控制司关于利用身体质量指数(BodyMassIndex,BMI)判定体质状况的标准,以BMI<18.5为体重过低,18.5kg/m2≤BMI<23.9kg/m2为体重正常,24kg/m2≤BMI<27.9kg/m2超重,BMI≥28kg/m2为肥胖[6]。

1.3统计学方法

用SPSS13.0统计软件对体成分相关数据进行t检验、单因素方差分析、各均数间两两比较用LSD。P<0.05为差异有统计学意义。

2结果

2.1护理学女大学生的整体健康状况

根据中华人民共和国卫生部疾病控制司关于BMI的评定标准,受检的395名护理学专业女大学生中体重正常人数为255人,占总受检人数的64.56%;体重过轻人数为119人,占总人数的30.13%;超重人数为17人,占总人数的4.30%;肥胖人数为4人,占总人数的1.01%。

2.2护理学专业女大学生的全身和躯干肌肉和脂肪分布情况

经单因素方差分析各年龄段全身和躯干的肌肉量和脂肪量,差异有统计学意义(P<0.01);全身肌肉量在21岁分别与18、19、20、22、23、24、25岁比较,差异均有统计学意义(P<0.05)。各年龄段躯干肌肉量的比较,21岁分别与18、22岁比较,18岁分别与23、25岁比较,22岁分别与23、24、25岁比较,差异均有统计学意义(P<0.05);19、20岁分别与21、23、24、25岁比较,差异有统计学意义(P<0.01)。18、19、24岁全身脂肪量、躯干脂肪量分别与22、23、25岁年龄组比较,差异有统计学意义(P<0.05或0.01)。

2.3护理学专业女大学生的四肢节段性肌肉量和脂肪量分布情况

右上肢肌肉量明显高于左上肢肌肉量(P<0.01);而脂肪量右上肢则明显低于左上肢(P<0.01),见表2。分别对四肢的肌肉量和脂肪量进行单因素方差分析,结果显示:各年龄段左上肢肌肉量和脂肪量、左下肢脂肪量、右上下肢脂肪量总的来说差异有统计学意义(P<0.05),各年龄段右上、下肢肌肉量和左下肢肌肉量总的来说差异有统计学意义(P<0.01),见表3。左上肢肌肉量在21岁分别与18、21、22岁比较差异有统计学意义(P<0.05);21岁分别与19、20、24岁比较差异有统计学意义(P<0.01)。右上肢肌肉量在21岁分别与22、23岁,24岁分别与23、25岁比较差异有统计学意义(P<0.05);21岁分别与18、19、20、24岁比较差异有统计学意义(P<0.01)。左下肢肌肉量在18岁与24岁,19与25岁比较差异有统计学意义(P<0.05);21岁分别与18、19、20、22、23、24、25岁,24岁分别与19、20岁,25岁分别与20、22岁,20岁与24岁比较差异有统计学意义(P<0.01)。右下肢肌肉量在18岁分别与21、25,23岁与24岁比较差异有统计学意义(P<0.05);21岁分别与19、20、22、23、24、25岁,25岁分别与20、19岁,24岁分别与18、19、20岁比较差异有统计学意义(P<0.01)。左上肢脂肪量在23岁分别与19、24岁,18岁与22岁,24岁与25岁比较差异有统计学意义(P<0.05)。22岁分别与19、24岁比较差异有统计学意义(P<0.01)。右上肢脂肪量在18岁分别与23、25岁,23岁与25岁比较差异有统计学意义(P<0.05);22岁分别与18、19、24岁,19岁与23岁比较差异有统计学意义(P<0.01)。左下肢脂肪量在18岁与22岁,19岁与23岁,24岁分别与23、25岁比较差异有统计学意义(P<0.05);22岁分别与19、24岁,23岁与25岁比较差异有统计学意义(P<0.01)。右下肢脂肪量在23岁分别与19、24岁,18岁与22岁,24岁与25岁比较差异有统计学意义(P<0.05);22岁分别与19、24岁比较差异有统计学意义(P<0.01)。

3讨论

3.1护理学专业女大学生的体质健康状况

本研究中护理学专业女大学生体重异常人数为140人,占总人数的35.44%,其中体重过轻人数占30.13%,超重和肥胖学生人数占5.31%。有研究表明适当的体育运动可改变机体的肌肉和脂肪分布,从本次调查的结果表明,护理学专业女大学生体重过轻人数偏多,除了女生自身爱美之外,还与护理学专业学生的就业密切相关。现在很多医院招聘护理学专业女大学生时除身高要求之外,还有外在的形体美要求。为此,很多女生为自己在今后的就业招聘中脱颖而出增添一份自信,除增加体育运动之外,在日常生活中盲目过度控制饮食以保持苗条身材,这是护理学专业女大学生体重过轻人数偏多的原因之一。而出现超重和肥胖的学生除了遗传因素外,主要是由于饮食无节制、经常食用高能量食品以及缺乏体育锻炼有关。

3.2护理学专业女大学生躯干四肢肌肉量和脂肪量的年龄变化

不同的人群由于其遗传素质、饮食习惯和生活环境等不同,体脂分布及其占体质量百分比均可能呈现各自的特点。本研究结果显示:躯干、四肢的肌肉量和脂肪量呈波浪式变化,护理学专业女大学生躯干四肢的肌肉量在20岁之前无明显变化,但在21岁年龄组的躯干四肢的肌肉量达到阶段性高峰,而躯干四肢的脂肪量在22岁达到阶段性高峰。护理学专业女大学生各年龄段的全身肌肉量和躯干肌肉量均高于百色市苗族青少年,主要考虑是女大学生的身体发育已完全,而青少年处于生长发育阶段所致。躯干四肢的脂肪量与广西汉族女大学生相比,四肢脂肪量在18、19岁年龄组明显低于汉族女大学生,躯干脂肪量在21岁年龄组之前亦明显低于汉族女大学生,出现这种差异除了遗传、民族因素之外,还可能与护理学专业的特殊性有关,护理学女大学生比汉族女大学生更关注自己的形体美,此外,亦有可能是护理学女大学生的生活水平比汉族女大学生低所致。

3.3护理学毕业女大学生的身体节段性分布

统计学变量的定义范文5

关键词:定性资料;列联表;对数线性模型;Logistic模型

中图分类号:G4

文献标识码:A

doi:10.19311/ki.16723198.2017.01.070

1问题提出

本科生教学质量评价中除了涉及少量的定量变量(或称间隔尺度变量)外,往往更多地研究定性变量(或称名义尺度变量),这些定性变量往往只有各种状态的区别而无数量上的区别,例如学生的性别、教师职称等。

在概率统计中描述两个随机的相关程度是用线性相关系数,为了避免术语上的混淆,描述两个定性随机变量之间的相关性是指广义的相关性,称为关联性,两个定义随机变量之间的关联程度在某种意义上就是指的“不独立性”,如何直接对定性资料进行分析并给出两个定性变量之间是否立性检验?

先从引授实例切入:研讨优秀论文与依托科研的关系,这里用A表示是否获优,用B表示是否参加科研,假设从一批被调查的对象中得到的统计表,如表1所示。

3Logistic回归

对数线性模型是将列表中每格的概率(或理论频数)取对数后分解参数获得的,Logistic回归模型是将概率比取对数后,再进行参数化而获得的。在很多研究中概率比是常常遇到的,当因变量是一个多级分类的变量时,列联表就需要采用两两比较的方法。

Logistic回归要解决的问题与普通回归要解决的许多问题类似。比如在医药行业中,因变量y取0,1,…,g等g+1个不同的值,分别表示不同用药类型,y=0表示正常情况,y=1,…,g表示不同用药后的反应;药的剂量x1,性别x2,年龄x3,体重x4,血压x5,…等等为自变量x;显然因变量y与自变量x有关。很显然,这里因变量是定性的,自变量有定性的也有定量的,问这些自变量对一个定性变量的关系是否独立?不独立又会具有什么形式的联系?是线性的还是非线性的等等。

3.1Logit变换

在现实生活中常常会遇到这样的问题,即要研究某一事件A发生的概率p以及p值的大小与某些因素的关系,但由于p对x的变化在p=0或p=1的附近是缓慢的,或说不敏感的,比如像一个可靠度p已经是0.998的可靠系统,不管如何改善条件和系统结构,它的可靠度增长只能在0.000以后。于是人们就希望寻找一个形式相对较简单、且在p=0或p=1附近变化幅度较大、p的函数θ(p)。根据导数的意义,用dθ(p)dp来反映θ(p)在p附近的变化是很合适的,同时希望p=0或p=1,dθ(p)dp有较大的值,因此取

4结语

定性资料统计分析的内容丰富,方法实用,在教学质量评价实际工作中,对于列联表,可根据实际需要来选择模型,既可用对数线性模型也可用Logistic模型。研究表明了在对调查资料中进行定性随机变量之间的关联程度探讨分析时,实施数据挖掘,发现新的知识,是提高信息反馈的质量,提供决策参考的科学性与可靠性的有效途径。

参考文献

[1](美)Mehmed kantardazic, DATA MINING concepts, Models, Methods, and Algorithms[M].北京:清华大学出版社,2003.

[2]邸凯昌.空间数据发掘与知识发现[M].武汉:武汉大学出版社,2000.

[3]高惠璇.统计计算[M].北京:北京大学出版社,1999.

统计学变量的定义范文6

关键词 商品市场模型 货币市场模型 鲁棒调节法

中图分类号:F822 文献标识码:A

一、引言

文献[1]单纯的从数学描述的角度来设计货币财政和财政政策以达到宏观经济调节的目的,这是一种硬性着陆的方法,需要很强的控制力度,而本文从经济控制论角度出发,运用鲁棒调节法自动跟踪给定目标,以实现宏观经济平稳有序发展。文献[5]主要从极点配置的理论着手,并列举了动态投入产出系统,提出跟踪目标变量的变化特征难的问题。本文从一个封闭的IS-LM动态经济系统出发,在商品市场中引入时滞,Yt=Et-1,即上一期的计划支出决定了这一期的实际产出,再此我们不考虑物价指数。

二、封闭的宏观动态经济模型

(一)商品市场模型。

总需求方程:Et=It +Ct +,Gt ,其中,:Et为计划支出,它由计划投资支出It 、计划消费支出Ct 和计划政府购买GIt 组成,在此不考虑净出口需求。

消费函数:Ct =a+nYdt,a>0,0

可支配收入方程:Ytd=,Yt-Tt,Tt其中,t为期税收。

税收方程:Tt= Yt 0

投资函数:It=c-dit,c>0,d>0其中,I0为自发投资水平,it为t期的名义利率, te为t期的预期通货膨胀率。

总供给调节方程:由于商品市场有时滞,故Yt=Et-1即上一期的计划支出决定了这一期的实际支出。

(二)货币市场模型。

货币总需求函数:Lt=LTt+LSt,其中,Lt为t期的货币总需求,LTt为t期的货币交易需求,LSt为t期的货币投资需求。

货币交易需求方程:LTt=e+gYt g>0,其中,e、g为常数。

货币投机需求方程:LSt=h-lit l>0,其中,h、l为常数。

利率调节方程:it+1=it+k(Lt-Mt) k>0,其中,Mt为t期的货币供给量,k为调节系数。当货币需求Lt大于货币供给Mt时,利率it+1上升;反之,货币需求小于货币供给导致下一期的利率下降。

以上构成一个简单的宏观动态IS-LM经济模型,把有关方程罗列如下:

其控制框图如下:

图1 封闭宏观经济模型框图

给出系统模型后,首先分析系统的目标变量Yt,本系统中目标变量为的变化与名义利率it变化。一般名义利率等于实际利率加上通货膨胀率,实际利率与一个国家的实际GNP增长率有关。由于在一定时期内,一个国家的实际GNP增长率变动不大,而且我们也不希望有太高的通货膨胀率,因此我们的控制目的是使名义利率it为某一给定的常数,它约等于通货膨胀率加上实际GNP增长率。另一目标变量为产出Yt,GNP名义增长率等于实际GNP增长率加上通货膨胀率。综上所述,系统的控制目的可设置为:

其中i*,Y*为给定的常数, 等于1+给定的经济增长率。

系统中的控制输入为政府购买Gt和货币供给量Mt,这两个控制策略变量分别称为财政政策变量和货币政策变量。

三、鲁棒调节经济策略

经过整理可得如下的系统状态方程,写成矩阵形式:

现在通过鲁棒控制策略设计补偿器:

及控制策略:

反馈矩阵K1、K2、K3共12个元素待定,由于受控系统(1)有2个内部状态,2个控制输入,补偿器有4个内部状态变量,那么反馈阵共有2+4)=12个待定元素。式(1)与式(2)构成如下受控系统与补偿器共同组成的系统:

其中

代入并整理得:

记这是一个6拷拙卣蟆H粢瓜低尘】毂平勘曛担敲纯闪个特征根全为0.

特征方程如下:

则系统运动全过程计算整理可得:

这是宏观动态经济封闭系统模型,此模型没有代入具体数值,故具有一般性,决策者可以根据具体经济情况,运用计量经济学知识估计出系统中的相关参数,代入即可实现宏观经济政策的调控目标。

当研究经济系统的某一变量跟踪另一变量时,采用鲁棒调节是比较合适的。本文应用控制论中的鲁棒调节器,能在短时间内实现宏观经济平稳有序的增长,实现软着陆。鲁棒调节器的优点在于可以使系统的性能变得很好,即使参数变化,也能自动跟踪给定的目标。要使系统过渡更平稳,可以选择适当的极点配置也可以采用最优控制方法。当然,如何选择极点配置使得系统过渡过程和反应速度两者兼有好的品质,还有待进一步探讨。

(作者单位:西南财经大学经济数学学院)

参考文献:

[1]邱冠英.从政策变量到目标变量的数学描述及相应政策设计[J].泰山学报,2003,2-2.

[2]罗纳德.肖恩.动态经济学[M].北京:中国人民大学出版社,2003,264-266.

[3]N.格里高利.曼昆.宏观经济学[M].北京:中国人民大学出版社,2005,247-263.

统计学变量的定义范文7

光学成像系统是一种最基本的光学信息处理系统,用于传递二维光学图像信息,当信源携带输入信息从光学成像系统传播到像面时,输出的图像信息质量取决于光学系统传递特性。通常评价光学系统成像质量的方法有星点法、分辨率法及光学传递函数法等。星点法指检验点光源经过光学系统后产生像斑,由于像差等导致像斑不规则,很难对像斑定量计算和测量,易把主观判断带入检验结果中;分辨率法虽能定量评价,但并不能对可分辨范围内的成像质量给予全面评价[1];光学传递函数评价方法[2]通过研究系统空间频率传递特性,考察光学系统传递过程中的变化,可以综合分析评价系统成像质量,但因计算空间频率较复杂等因素,仍有不足。为在实际工作中能根据光学成像系统输出的图像直接判定光学系统输出的信息量,使分析更加方便,本文提出一种新的评价方法,利用系统成像信息熵分析光学系统在不同像散下的信息传递能力,以此评价光学系统性能。通过分析信息熵定义及计算方式[3],计算点光源通过简单光学系统后在不同像散情况下成像的信息熵,发现其值变化趋势与光学传递函数评价光学系统像质方法的结果一致,表明信息熵可用于分析评价光学成像系统信息传递能力和光学系统性能。

1 信息熵

1.1 信息熵定義

信源指信息来源,一般以符号的形式发出信息。包含信息的符号通常具有随机性,当符号随机出现,常可用随机变量代表。

信源符号取值于集合:

每个输出符号常以等概率出现,即[pai=1n],所以获取的符号信息量与n有关,n越大,未收到该符号的不定性愈大,而后解除该不定性,意味着收获信息量较大[4-5]。考虑到概率[pai]在0~1时,为方便、直观地获得信息量大小,选用负对数进行定义,对于一个有n个等概率值的信源符号,规定信息量为:

其中,要求信息量I为非负值,所以对数底须大于1。

关于对数底的选取要求包括:①以2为底,单位为比特(Binary Digit,bt),常用于实际工程;②以10为底,单位为Dit或哈特;③以e为底,单位为奈特(Natural Unit,Nat),常用于理论推导。

单一信源发出单一消息包含的信息量是一个随机变量,发出的消息不同,则含有的信息量也不一样[6]。任何单一消息的信息量都代表不了整个信源包含的平均信息量,不能作为整个信源的信息测度,所以定义信息量的数学期望为信源平均信息量,定义为信息熵(简称熵)。

根据整个信源统计特性定义熵,从数学期望表征信源总体特性[7]。对于特定信源的熵只有一个。不同的信源因统计特性不同,其熵也不同。熵一般用符号H表示,对数以2为底,单位为比特。变量不确定性越大,熵越大。

1.2 信息熵计算

图像也是信源符号的一种,对信源的推论可推及至图像信息熵[8]。图像信息熵是一种特征统计形式,描述图像信源的平均信息量[9]。为了能反映图像灰度分布的特征,选择图像的邻域灰度均值作为灰度分布的特征量,与图像的像素灰度组成特征二元组,记为(i,j)。其中i表示像素灰度值([0i255]),j表示邻域灰度均值([0i255])。

式(3)反映某像素位置上的灰度值与其周围像素灰度分布综合特征,其中f(i,j)为特征二元组(i,j)出现的频数,N是图像尺度,定义图像的信息熵为:

构造图像信息熵可以在图像包含信息量的前提下,突出反映图像像素位置灰度信息和像素邻域内灰度分布综合特征[10-11]。

2 基于信息量的光学系统像散分析

2.1 光学传递函数评价分析光学系统

光学系统可看成是线性不变的系统,物体经过光学系统传递后,其频率不发生改变,但是对比度下降,相位发生推移,并在某一频率处截止,即对比度为零[12]。对比度降低和相位推移随频率变化而变化,其函数关系被称为光学传递函数。用光学传递函数评价光学系统成像质量,是基于把物体看作由各种频率的光谱组成[13],也就是把物体的光场分布函数展开成傅里叶级数或傅里叶积分的形式。因为光学传递函数与光学系统的像差和光学系统衍射效果有关,所以可用于评价光学系统的成像质量[14-15]。

光学传递函数能反映光学系统对物体不同频率成分的传递能力。高频部分反映物体细节传递情况,中频部分反映物体层次传递情况,低频部分则反映物体轮廓传递情况,但是表明各种频率传递情况的则是调制传递函数(MTF)[16-17]。MTF表示各种不同频率正弦强度分布函数经光学系统成像后,其对比度(即振幅)衰减程度。理论上像点中心点亮度值等于调制传递函数曲线所围的面积[18-19],曲线所围面积越大,光学系统传递的信息量越多,光学系统成像质量越好,图像更清晰。

根据以上仿真结果可以看出,当空间频率很低时,MTF 趋于1;当空间频率提高,MTF 值逐渐下降,MTF曲线可以大致反映光学系统传递能力[20]。同时随着光学系统像散的增加,MTF所围面积变小,表明系统传递信息量变少,成像质量下降。MTF曲线大体可以反映光学系统成像质量,为了有更高效、精准的评价方法,提出一种新的用信息熵评价光学系统成像质量的方法。

2.2 基于信息量的光学系统成像分析与计算

图像熵反映图像平均信息量的多少。可以通过计算图像邻域灰度均值计算得到图像二维熵,使其可以在图像包含信息量的前提下,突出反映图像像素位置灰度信息和像素邻域内灰度分布综合特征,因此可以通过信息熵的大小判断光学系统传递信息量的多少。

为了更好地对比,将点光源作为信源输入到一个简单的光学系统中,得到经过光学系统处理的图像,利用Matlab软件读取图像中的数据,将该数据编程,求得每一个数据3*3邻域内的灰度均值,再与图像像素灰度组成特征二元组,代入公式(4)中,即可计算出图像的二维熵。结果如表1所示。

统计学变量的定义范文8

1.特困移民与常住居民一般情况比较共调查少数民族特困移民188例(包括土家族102例、苗族86例)和安置地同民族常住居民110名(包括土家族63例、苗族47例)。其中土家族特困移民与常住居民在性别、年龄、婚姻状况上差异均无统计学意义(P>0.05),而在受教育程度、就业状况、家庭人均年收入上差异有统计学意义(P<0.05);苗族特困移民与常住居民在性别、年龄、婚姻状况、受教育程度上差异均无统计学意义(P>0.05),而在就业状况、家庭人均年收入上差异有统计学意义(P<0.05,)。

2.特困移民与常住居民SCL-90评分情况比较土家族特困移民与常住居民在人际关系、抑郁、焦虑、偏执、精神病性得分及总分上差异均有统计学意义(P<0.05),而在躯体化、强迫症状、敌对、恐怖得分上差异无统计学意义(P>0.05);苗族特困移民与常住居民在躯体化、人际关系、抑郁、焦虑、精神病性得分及总分上差异均有统计学意义(P<0.05),而在强迫症状、敌对、恐怖、偏执得分上差异无统计学意义(P>0.05,)。

3.特困移民与常住居民心理障碍阳性症状检出情况比较心理障碍阳性症状的总检出率为28.5%(85/298),其中土家族特困移民和常住居民的检出率分别为32.4%(33/102)和23.8%(15/63),差异无统计学意义(χ2=1.857,P=0.173);苗族特困移民和常住居民的检出率分别为31.4%(27/86)和21.3%(10/47),差异无统计学意义(χ2=1.866,P=0.171)。不同性别、年龄、婚姻状况、就业状况的土家族特困移民心理障碍阳性症状的检出率间差异有统计学意义(P<0.05);而不同受教育程度、家庭人均年收入的土家族特困移民心理障碍阳性症状的检出率间差异无统计学意义(P>0.05)。不同年龄、就业状况的土家族常住居民心理障碍阳性症状的检出率间差异有统计学意义(P<0.05);而不同性别、婚姻状况、受教育程度、家庭人均年收入的土家族常住居民心理障碍阳性症状的检出率间差异无统计学意义(P>0.05)。不同性别、年龄、婚姻状况的苗族特困移民心理障碍阳性症状的检出率间差异有统计学意义(P<0.05);而不同受教育程度、就业状况、家庭人均年收入的苗族特困移民心理障碍阳性症状的检出率间差异无统计学意义(P>0.05)。不同年龄、就业状况的苗族常住居民心理障碍阳性症状的检出率间差异有统计学意义(P<0.05);而不同性别、婚姻状况、受教育程度、家庭人均年收入的苗族常住居民心理障碍阳性症状的检出率间差异无统计学意义(P>0.05)。

4.特困移民与常住居民SSRS评分情况比较无论土家族还是苗族特困移民主观支持、客观支持、支持利用度得分及总分与常住居民比较差异均有统计学意义(P<0.05,)。特困移民与常住居民心理健康问题的多因素Logistic回归分析以是否有心理健康问题为应变量,以性别、年龄、婚姻状况、教育程度、就业状况和家庭人均年收入为自变量,采取逐步回归法进行二分类Logistic回归分析,自变量纳入水平α=0.10,以P<0.05为有统计学意义。变量赋值情况:无心理健康问题者(SCL-90总分<160分)=0,有心理健康问题者(SCL-90总分≥160分)=1;男性=0,女性=1;15~35岁=0,36~55岁=1,≥56岁=2;未婚=0,已婚=1,离异/丧偶=2;文盲或小学=0,初中及以上=1;无业=0,农民/零工=1,固定职业=2;家庭人均年收入<0.9万元=0,0.9~1.8万元=1,>1.8万元=2。结果显示,两个特困移民纳入模型的自变量有3个,分别为性别、年龄和家庭人均年收入;土家族常住居民纳入模型的自变量为性别和年龄;苗族常住居民纳入模型的自变量为年龄和受教育程度。在两个特困移民及土家族常住居民中,女性和高龄对心理健康的影响有统计学意义(P<0.05);在苗族常住居民中,高龄对心理健康的影响有统计学意义

二、讨论

1.本研究结果显示,湘西州土家族、苗族特困移民的SCL-90总分及人际关系、抑郁、焦虑、精神病性因子得分均高于安置地同民族的常住居民,其心理障碍阳性症状的检出率为31.9%(60/188),说明移民的总体心理健康水平较当地居民差,已有相当数量的移民存在不同程度的心理症状。这与其他类型移民的研究结果相似。移民心理健康受个体和社会等多种因素影响。相关研究表明,性别和年龄是影响移民心理健康的两个重要个体因素。在本研究中,不同性别、年龄、婚姻状况的特困移民心理障碍阳性症状的检出率间有差异。多因素Logistic回归分析也显示,女性和高龄是特困移民心理健康的危险因素。女性对移民带来的生活生产方式和社会关系的变化更为敏感,对新环境的适应和认同更为艰难,因而容易表现得更为焦虑,较男性更易产生心理健康问题。老年人由于年龄的增加,身体健康状态和劳动能力下降,加之对故地的思乡之情和社会支持网络的缺失,影响了他们对新环境的融入和新生活的适应,心理应激增加,容易产生不良情绪,导致心理健康问题出现。因此,女性和老年人应成为特困移民心理健康监控和干预的重点人群。社会支持是指能够获得来自家庭成员、亲友、同事、团体、组织和社区等在精神上和物质上的支持和帮助,对缓冲心理应激、维护和促进心理健康具有重要作用,也是影响心理健康的一个重要社会因素。

2.本研究SSRS评分结果显示,特困移民主观支持、客观支持、支持利用度得分及总分均低于常住居民,有统计学差异,提示湘西州土家族、苗族特困移民在移民搬迁后获取的社会支持不够,社会调适能力较差。本研究认为,特困移民作为移民中的特殊群体,其社会支持网络经历了“破坏-重建-再次破坏-再次重建”的特殊过程,他们获取社会支持的可及性、稳定性和有效性远远低于当地居民和搬迁前,心理上难免产生焦虑和失落感,而且他们的生活方式、思想意识等还受到传统社会的影响,不可能迅速适应和融入当地,因此出现心理健康问题的可能性较高。对于特困移民,迁入地政府和社区应加大帮扶力度和心理干预,指导他们尽快建立新的、稳固的社会支持网络,尽早融入当地社会环境。虽然特困移民的生活水平、生产能力和收入水平较搬迁前有了普遍提高,移民对搬迁后的物质生活水平比较满意,但移民的整体心理建康状态不是很稳定,部分移民已经出现了心理健康问题。这一现象也提示在移民工作中,除了要解决好移民搬迁后的生活与生产外,特困移民的心理健康与社会调适情况也应纳入移民工作重点中去。

统计学变量的定义范文9

关键词:MFS;广义货币总量;加权货币总量;货币服务指数

文章编号:1003―4625(2007)03―0026 03

中图分类号:F832.O

文献标识码:A

[收稿日期]2006-12

注:本文系国家社科基金资助项目《中国货币与金融统计体系及其国际接轨》(批准号:02CTJ004)阶段性成果。

[作者简介]任英华(1975-),女,浙江东阳人,讲师,博士研究生,研究方向:金融统计与风险管理,国际贸易与投资;许涤龙(1962-),男,湖南衡阳人,院长,教授,博士生导师,经济学博士,研究方向:宏观经济与金融统计。

一、引言

货币政策中介目标有五种基本类型,即汇率目标、货币总量目标、利率目标、通胀目标、隐性货币政策目标。货币总量目标是货币政策中介目标选择的基本类型之一,我国目前采用简单加总的货币总量作为货币政策的中介目标。但有不少学者对目前这种货币总量作为货币政策中介目标提出了异议:如李卓,高岚(2004)从相关性、可控性、可测性、抗干扰性等四个角度对货币供应量作为货币政策中介目标效果的分析表明:货币供应量作为中介目标存在很多问题,应该另行选择。封思贤(2006)通过运用向量自回归(VAR)模型、脉冲响应函数(IRF)、方差分解分析等经济计量方法,对我国现行货币政策中介目标进行了实证分析并得出结论:货币供应量作为中介目标的有效性正不断降低,实际利率作为中介目标的实施效果好于货币供应量。尹中立(2006)认为以货币总量作为我国货币政策中介目标,该目标越来越难以琢磨,其中原因很多,金融市场的发展,尤其是股票市场的发展是影响货币政策中介目标稳定性的重要原因之一。这些研究均表明,我国货币供应量作为货币政策中介目标的实施效果存在一定的问题。

笔者认为,无论是放弃还是坚持以货币总量目标作为中介目标,有一点是必须要明确的,即货币总量统计在货币政策制定及其对整个宏观调控、对经济金融政策的信息支撑作用是不可替代的。测度货币总量的根本目的是通过对货币的控制实现经济的均衡增长和物价水平的稳定。因此,科学测度货币总量不仅具有重要的理论价值,而且今后也仍然是货币与金融统计工作的一个中心工作和任务。由国际货币基金组织(IMF)2000年推出的《货币与金融统计手册》(简称MFS)是目前世界编制或公布经济和金融数据的国际标准,对各国金融统计具有极大的指导作用。本文拟通过对《货币与金融统计手册》(简称MFS)这一国际准则中关于货币总量测度的研究,以期从中得到启示,从而为我国货币总量科学测度提供参考。

二、MFS货币总量测度研究

(一)广义货币总量的界定

MFS所定义的货币概念是广义范畴的。MFS认为,狭义货币通常被定义为包括货币和可转让存款,而金融创新却削弱了狭义货币对于政策目的的有用性,广义货币则能较好地适用于政策目的。因此,MFS认为,广义货币总量的每个组成部分都有以下三个基本方面:1.属于广义货币的金融资产;2.货币的持有部门;3.货币的发行部门。

MFS这个定义实际上是在探讨可纳入货币总量的组成部分。第一方面说明哪些金融资产可以纳入广义货币,这是选择货币总量组成部分的主要特性。几乎所有的金融资产都有“货币性”,只是程度不同而已。哪些金融资产是广义货币,哪些不是,一般可从货币的流动性、储藏价值功能和其他基本特性如法定货币、可转让性、可分割性、期限、交易成本、盈利性等角度判断。例如:货币和可转让存款是流动性最强的金融资产,属于广义货币。它们的货币特征可概括为:是法定货币;具有广为接受性;零期限,可直接用于支付;无交易成本或交易成本很低;可分割成更小的单位。

第二方面说明哪些部门持有的金融资产可以纳入广义货币。根据定义,货币持有部门通常包括除存款性公司和中央政府之外的所有居民部门。也就是说,货币持有者一般包括:1.公共和其他非金融性公司;2.中央政府之外的其他政府单位;3.住户和为住户提供服务的非营利机构;4.金融性公司部门中除存款性公司分部门(即中央银行和其他存款性公司)之外的所有机构单位。

第三方面说明哪些部门发行被持有者持有的金融资产可以纳入广义货币。货币发行部门通常包括中央银行和其他存款性公司。中央银行发行本国货币,也可以发行包括在广义货币中的存款或证券。其他存款性公司吸收的存款可看作是其发行的存款凭证,是创造存款货币的部门。

MFS广义货币总量概念的提出,就有了一种统一的“格式”为有关国家编制广义货币总量,从而有利于进行国际对比,解决了各国因货币定义不同而导致的无法比较的问题。

(二)流动性总量的界定

MFS提倡各国在编制广义货币总量时,还可以对流动性总量进行测度。对于流动性总量,MFS是这样定义的:除了广义货币负债之外,流动性总量还包括其他被认为具有一定流动性,但还不足以纳入国家定义的广义货币之内的金融资产。也就是说,流动性总量的组成包括两个部分,即广义货币的组成部分和具有一定流动性的其他负债。流动性总量在负债的类型和涵盖的发行部门这两方面比广义货币的范围要广。

进行流动性总量的测度的原因是,MFS认为,有些金融资产货币性强弱的判断并不是十分清楚,这样就使一些具有一定流动性,但还不足以纳入国家定义的广义货币之内的金融资产被排除在统计监测之外。为了扩大货币监测的范围,MFS建议各国根据需要除了统计监测广义货币之外,还可统计监测流动性总量。

(三)MFS货币总量测度方法评价

MFS主张的货币总量测度方法主要有以下两种:

1.简单加总法。简单加总法是先根据金融资产的流动性来划分货币供应量层次,然后将不同层次的货币总量指标如M1、M2、M3等,按各自包括的组成部分以相等的权数简单相加。这种方法由于计量简明,因此为大多数国家所采纳。但这种传统的货币总量计量方法也受到了批评,主要是因为该方法的基本假设与微观经济理论相悖。该方法假设货币资产的持有者将构成货币总量的各类货币资产看做是完全的替代品,因此在计算时赋予各类货币资产相同的权重,例如M2中的现金、支票存款、储蓄存款与定期存款等各项货币资产的权重都等于1。然而,根据微观经济学的需求理论,人们之所以持有不同货币,原因在于不同货币的交易职能和价值储藏手段是有差异的。就交易职能而言,人们会选择具有高流动性的货币资产;而对于价值储

藏手段,人们会选择能够保值的货币资产。也就是说,实际上,货币持有者并不认为这些货币资产具有完全替代性。

2.加权汇总法。该方法考虑到了不同货币性资产的不完全替代性。由于货币总量是由各种流动性不同(或货币性有差别)的金融资产构成的,因此,可按流动性的不同程度(或货币性的程度)确定各组成部分的权重(大于0小于1),然后求出货币的各个组成部分的加权平均总量,这一货币总量就是货币的加权度量,通常称之为加权货币总量。

常用的货币总量有货币服务总量和拉式加权货币服务总量。由于货币服务总量度量了服务性流量,因而不能与货币存量直接比较。因此,人们更愿意使用指数的形式来反映货币的增长情况,如拉式货币服务指数和Divisia货币服务指数就是目前主要使用的两种总量指数。这种统计指数可以反映所有货币服务总量的动态及平均变化程度,它提供了度量货币增长的另一种形式。各种货币总量和货币服务指数具体的计算公式如下:

(1)货币服务总量

由于货币资产是一种提供货币服务的耐用品,因此,对货币所提供服务的度量,可称为货币服务总量,其计算方法为:

注:“本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文”

式中:TMS是t期的货币服务总量;m是第i种金融工具的数量。式(1)表示对所有金融工具货币性的一个总的衡量,即将每一种金融工具的服务加总的结果。

(2)拉式加权货币服务总量

注:“本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文”

式中:LWMS是第i种金融工具在第t期的拉氏加权货币服务总量;r是第i种工具在基期的收益率;是作为参照物的某种金融工具在基期的基准利率。

(3)拉式货币服务指数

注:“本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文”

式中:LWSI是第t期的拉式货币服务指数;m是第i种金融工具基期的数量。r是基期作为参照物的金融工具的基准利率;r是第i种工具的收益率。由于拉氏指数使用固定基期权数,因此,用这种方法度量时,可不受一定时期利率变化的影响。

(4)Divisia货币服务指数

该指数是由巴内特(Barnett,1980)将微观经济总量理论、统计指数理论与货币理论结合起来,通过解消费者最优选择问题而导出的。该指数以货币资产的机会成本来建立权数加总各种货币资产。持有货币资产的机会成本,也叫“使用者成本”(usercost)。持有每一种货币资产的开支(该种货币资产总量×使用者成本)占持有全部货币资产的总开支的比重,就是该种货币资产在货币总量中的权重。显然,如果某项货币资产的流动性强,则收益率低,与基准利率的差值大,在货币总量中的相对权重就增加。在离散时间情况下,Divisi货币数量指数可表示为:

式中:D为第t期的Divisa货币总量;为第i种货币资产占总支出的比重;m是第i种货币资产在时刻t的数量;p是第i种货币资产在时刻t的机会成本,或称价格,它是由第i种货币资产的自身收益与某一基准利率决定的,其计算公式为是基准利率;是第i种货币资产的自身收益,ro是极小的常数。公式(4)表示Divisa货币总量的增长率等于各货币资产的增长率按其支出的比重加权加总。由于该指数的权重表现为每一种货币提供服务占所有货币资产提供服务总量的比重,这样,以加权的方式就能体现不同货币层次的结构,进而对宏观经济指标予以反映。因此,Divisia货币服务指数可以很好地体现各货币层次由于流动性、安全性、机会成本带来的结构上的差异。

三、借鉴MFS,科学测度我国货币总量的建议

通过对MFS货币总量测度方法的解读和评价,在我国货币总量测度具体操作上,笔者认为应在以下几个方面加强研究和改进。

(一)把握好选择标准,是科学测度货币总量的前提和关键

货币总量的选择总是要结合政策目标,选取可用于宏观经济分析的货币总量。MFS认为选择的标准一般有以下几点:一是货币总量与宏观经济变量之间要有可预见的关系为准,具体包括价格总水平、国民收入(国内生产总值及其组成部分)、国际收支的组成部分。二是货币总量与中介目标变量之间要有可预见的关系,如货币总量与利率、基础货币。三是要考虑中央银行使用货币政策工具的可预见效果,具体包括对中介目标变量的影响、对货币总量的间接影响等。从目前简单加总的货币供应量作为我国货币总量的实施效果来看,有不尽如人意的地方,而这又恰好是我们研究和改进的突破口。因此,把握好选择标准,是科学测度货币总量的前提和关键。

(二)扩大货币总量统计机构范围,并编制金融性公司概览,以完善货币总量基础数据的来源

货币基础数据的提供,是正确统计货币总量的基础。与MFS相比较,我国的货币总量统计也是在金融性公司分类的基础上,对报表数据逐级汇总、合并和轧差而形成的。与MFS略不同的是,我国货币总量统计采取两种并行的表述方式:一是单独编制货币供应量统计表、基础货币统计表等;二是按MFS的要求编制货币当局等机构的资产负债表以及存款性公司概览。在机构范围上,我国货币总量统计的覆盖的金融机构只有存款性公司,其他金融性公司不包括在内。我国应按照MFS的要求,尽快编制金融性公司概览,与国际标准相接轨。

(三)积极修订货币供应量层次,进一步改善货币总量测度的科学性和准确性

现阶段,我国根据国际通用原则,以货币流动性差别作为划分各层次货币供应量的标准,把货币供应划分为以下三个层次:Mo:流通中现金;M1(即货币):Mo+活期存款;M2:M1+准货币(储蓄存款+定期存款+其他存款)。考虑到金融创新的影响,对货币统计口径主要作过2次修订:第一次是从2001年7月起,将证券公司客户保证金计入广义货币供应量(M2);第二次是2002年初,将在中国的外资、合资金融机构的人民币存款业务,分别计入了不同层次的货币供应量。由于金融创新的影响,使货币属性的界线不像以前那样分明了。人们对于目前这种货币供应层次划分仍存在很大的分歧。基于这些变化,我国应尽快研究并积极应对金融创新对货币总量统计的影响,对货币总量计量的口径作相应的调整。在科学计量货币总量时还要考虑统计口径要符合国际通行的原则,与国际通行准则的货币计量方式有可比性。

(四)试编加权货币总量,使其作为我国货币政策中介目标的有效辅助工具

目前我国货币供应总量是按简单加总的方法计算的,由于简单加总的货币总量与产出和物价的稳定关系受到金融创新的影响,难以准确地描述货币作为交易中介的本质及其对其他宏观经济指标的影响,难以有效地测定货币需求。因此,探索具有坚实理论基础,并与经济变量之间相关性程度高的货币定义,对货币政策制定和实施都有很大的必要性与现实意义。李治国,施月华(2003)就认为,Divisia货币数量指数充分考虑了货币总量中各类资产的货币性职能,可作为我国货币政策中介目标的有效辅助工具。因此,我国实际部门和理论界应加强加权货币总量,特别是货币服务指数(monetary services index)体系的研究和构建,以提高中央银行以货币供应量作为中介目标的有效性。

(五)增加流动性总量的统计,扩大货币监测范围

要使货币总量更好地担当好货币政策中介目标的角色,我们认为,扩大货币监测范围也是一个不错的选择。MFS中流动性总量的提出,告诉我们建立一种比广义货币更广义的测度也是可能的。世界上有些国家如日本已开始统计流动性总量,我国目前尚未正式统计流动性总量。因此,我国应加强对流动性总量的理论研究和实践,以扩大货币监测范围。

参考文献:

[1]国际货币基金组织[R],货币与金融统计手册(MFS),2000.

[2]国际货币基金组织,许涤龙等译,货币与金融统计手册(MFS)[J],金融学家,2001年专刊。

[3]尹中立,重启IPO对货币政策中介目标的影响[J],中国金 融,2006,(14).

[4]李卓,高岚,我国货币政策中介目标――对我国货币政策中介目标选择的思考[J],浙江金,2004,(1-2).