HI,欢迎来到好期刊网,发表咨询:400-888-9411 订阅咨询:400-888-1571证券代码(211862)

数据采集论文集锦9篇

时间:2023-03-27 16:37:47

数据采集论文

数据采集论文范文1

关键词:MCF5249uClinuxWeb数据采集

引言

现在嵌入式系统的应用越来越广泛。随着网络技术发展和市场需求的变化,工业设备实现网络化管理控制已经成为一种必然趋势。M2M(MachinetoMachine)的网络通信已成为国内外研究热点,而Web技术为工业设备实现网络化管理提供了一种解决方案。本文从硬件和软件设计两个方面讨论了摩托罗拉MCF5249处理器在数据采集方面的应用,并实现了采集数据的远程Web表征。

由于这一系统面向广义的过程,所以只要可获得过程参数,就能实现过程行业的远程在线表征。特别是基于Web完成实时数据库生成,真正实现远程集群系统的数据资源无人工干预自动获取。其应用将会不断地延伸。

本文描述的摩托罗拉MCF5249是以ColdFire32位微处理器为基础的高性能处理器,该处理器内部集成了一个片内12位ADC,可用于工业数据采集。且数据采集系统基于嵌入式操作系统uClinux。由于uClinux是为没有MMU的微处理器设计的。且源泉代码公开,为降低成本和获取软件的自有产权提供了方便。当然,uClinux不是一个强实时系统,为支持一般过程系统,可以通过一些补丁程序来提高其实时性,所以本文讨论的数据采集系统主要应用于一些实时性要求不高的场合。

1数据采集系统的硬件设计

摩托罗拉MCF5249处理器内部集成了一个片内12位∑—ΔADC,它有四路输入(ADIN0~ADIN3),任一时刻只允许一路输入,由多路选择器决定。ADC的数字部分在MCF5249的内部,而模拟电压比较器由电路提供。A/D转换的输出引脚以脉宽调制的格式提供参考电压,因此,该输出需要一个的阻容电路,将其转换成直流电压,以备外部的电压比较器电路使用。数据采集系统的硬件原理图如图1所示。

由于微处理器不可承受负电压,所以必须将输入电压限制在0~+3V之间。Motorola公司不建议使用外部箝位二极管直接在模拟输入端进行过压保护,而在输入端引入1~10kΩ的限流电阻和低通滤波器,在低通滤波器的输入端连接二极管对输入电压进行箝位。

2数据采集系统的软件设计

数据采集系统的软件设计主要分为两大模块,即数据采集模块与数据显示模块。

2.1数据采集模块的设计

数据采集模块是系统的核心模块,为了提高数据采集的实时性,应采用中断方式完成数据采集。其流程图如图2所示。

MCF5249微处理器为其内部ADC提供了一个控制寄存器ADCONFIG,其地址是MBAR2_ADDR+0x402,在初始化程序中需要指定MBAR2_ADDR地址。

通过ADCONFIG寄存器可以设置A/D转换器工作方式、采样频率、是否采用中断方式等。下面给出设置ADCONFIG寄存器实例。

#defineMBAR2_ADDR0x8000000

#defineAD_CONFIG0x402

#defineAD_VALUE0x406

…………

//设置ADC

*(volatileunsignedshortint*)(MBAR2_ADDR+AD_CONFIG)=0x442;

该设置确定ADIN0作为模拟信号输入通道,采样频率设置为1/4系统总线时钟频率。当时钟产生4095次翻转时,系统产生一个软件中断(中断号为63)。一次采样结束,并将采样结果存于ADVALUE寄存器(其地址为MBAR2_ADDR+0x406)。A/D转换值可以用如下公式计算:

Vi=(X/(2n-1))×Vfullscate

其中,Vi为ADC的输入电压;Vfullscate为满量程输入电压;

X为ADC输出的数字量;

n为ADC的位数。

A/D转换的结果在中断处理程序中读取。读取一次转换的程序代码如下:

Volatileunsignedshortintm;

m=*(volatileunsignedshortint*)(MBAR2_ADDR+AD_VALUE);

通常,A/D转换需要连续采样。采样结果应存放在一个多访问循环队列MACQ(MultipleAccessCircularQueue)中。

MACQ是一个定长有序的数据结构。源进程(生产者,ADC采样程序)将数据存入MACQ,一旦初始化,MACQ总是满的。当有新的数据被存入(PUT)MACQ,旧数据即被丢弃(如图3)。应用进程(消费者)可以从MACQ中读取任何数据。读功能是非破坏性的,即读操作不会改变MACQ。

在uClinux中,A/D转换中断程序的编写方法是将A/D转换器作为一个字符设备来处理。中断程序是在linux/drivers/char目录下编写,其结构如下:*file:m5249_adirq.c

#include<linux/interrupt.h>

#include<asm/irq.h>

#defineADC_IRQ(128+63)//定义中断号

#defineMBAR2_ADDR0x8000000

#defineAD_CONFIG0x402

#defineAD_VALUE0x406

/*定义中断处理函数*/

voidadirq_interrupt(intirq,void*d,structpt_regs*regs){

在此读取A/D转换的值并存入队列中。

}

/*设备初始化函数*/

intadirq_init(){

intresult;

unsignedshortadc_irq;

adc_irq=ADC_IRQ;

result=request_irq(adc_irq,&adirq_interrupt,SA_INTERRUPT,5249_adirqNULL);//注册中断

if(result==-1)

{printk(“Can''''tgetassigned%d”adc_irq);

returnresult;}

return0;

}

中断服务程序的添加方法如下:

①编辑uClinux/drivers/char目录下的mem.c,添加“adirq_init();”;

②编辑此目录下的Makefile加入“obj-y+=m5249_adirq.o”;

③编译(make)。

2.2数据显示模块的设计

为了实现采集到的数据以Web方式显示,需要选择一个Web服务器。本文采用的Web服务器是BOA。在CGI程序中编写一个函数读取MACQ队列中的数据并显示。

主要有以下显示模块。

(1)编写一个CGI程序

*编写一个读取MACQ队列中数值的函

readFromMacq()。

*编写一个生成动态HTML页面的函数show()。

Voidshow_t(){

……

printf("Content-type:text/html");

prinft{"

<html>

<head>

<metahttp-equiv=pragmacontent=no-cache><metahttpequiv=expirecontent=now>

<title></title>

</head>

<body>");

在此将MACQ中的数据读出,假设值赋给变量n

prinft("<center")Thevalueis%x!</center>

</body>

</html>",n);

}

*编写一个CGI的主程序main_cgi。

在主程序中需要读取HTML页面中的字符,并判断应执行那一个CGI程序。

(2)用HTML语言编写一个主页

在主面中应包含:

<ahref=/cgi-bin/main_cgi.cgi?flag=10target=main>键接字符</a>.

其中,flag的值是main_cgi用于判断应执行哪一个CGI程序的标志。

数据采集论文范文2

云定制的使用方便大批量采集控制服务器的集中管理,尤其在批量采集策略变更时为集中更改提供便利。广播电视音视频采集广泛分布在各无线频段和有线网络之中,采集种类多,数据存在差异,采集地域分布广,通过专网将采集前端设备、集中控制服务器等连接起来,并反馈给数据处理服务器。云定制屏蔽了采集前端设备的差异性、分散性,将其集中在同一个云之中,实现定制服务的远程控制和自由变更。如图3所示。

通过架设云定制服务器Web服务端作为云端,依靠B/S系统结构,使用者仅需在专网之中使用任意一台计算机设备即可连接云端,进而连接所有采集前端,其优点主要体现在无需安装软件,便可通过浏览器登陆广播电视音视频采集云定制系统,对所有前端设备、控制服务器进行操作。云定制服务器基于C#语言,基于Socket通信协议编写通信模块,与前端采集控制软件通信,接收并汇总采集端控制软件返回的结果,下发采集服务定制的命令至采集端控制软件进行变更操作,并预留二期开发接口,方便其他系统对云定制切换服务的调用。采集集中控制服务器与采集前端系统通过采集端控制软件接收来自云端的命令,并反馈采集状态与命令执行状态,执行云端下发的采集策略,变更采集方案,实现所有广播电视音视频数据按需分类、分时采集。软件测试阶段,发现前期测试始终存在指令丢失的情况,后经反复测验,发现本策略对网络时间同步、数据可靠传递要求较高,需要引入GPS校时系统,以解决网络设备时间不统一的问题。在自动切换策略时间的过程中,专网网段采用统一的GPS校时服务器,并在采集端C/S软件嵌入校时功能,确保整个网络内设备时间一致。同时对Socket通信数据进行编码校验,采用8位2进制数顺序累加做校验,一旦校验失败便启用数据重传机制,确保数据传输稳定、可靠,无指令数据丢失或错乱。指令收到后,返回执行状态,以使云端准确收到各设备采集端切换策略的执行情况。

2自动切换策略的实现

在实际应用中,广播电视音视频采集策略会根据业务需求变化,业务需求又分为周期性变化与临时性非周期变化。云策略变更的命令下发后,采集集中控制服务器接收采集前端的命令,并将采集策略转化为采集指令,根据采集策略规定的时间启用或停止某一类广播电视音视频数据采集。同时使用C#Process类对采集服务进程进行实时监测,以掌握采集命令执行是否成功,采集端进程是否正常启用或者关闭,并将所有进程终止与启动情况记入前端log文件,并阶段性回收至云端数据库。前端采集服务存在一定的差异性,硬件不同,驱动不同,使用C#语言,依托不同硬件的DLL封装文件,将采集服务最小分割,并打包存储,由采集端控制软件集中调用。在采集集中控制服务器存储config配置文件,将周期性、预期性采集策略的变更存储其中,依靠定时器触发采集策略的变更,实现自动切换采集策略。采集策略一旦变更,需要对采集数据进行抽样测试,如发现数据开启采集仍未回传、数据关闭采集仍有回传等切换失败的情况,需要对采集进程进行2次校验操作,即回复之前策略,校验数据采集状态,再重新执行采集切换策略。

3采集状态实时监测、记录与预警

广播电视音视频采集对实时性与采集质量要求很高,一旦因前端软件或设备故障影响采集,势必影响下游业务,因此需在采集前端控制软件中增加监测、记录与预警的功能,对采集进程实时监控,一旦采集进程卡死或进程终止,需立即激活采集服务重启响应采集任务。同时将所有采集状态通过Socket通信反馈至云端服务器,云端服务器将所有采集设备的运行状态计入数据库中,形成采集状态记录并报警,便于对采集前端的设备软件故障进行及时处理,同时也有利于积累长期的采集数据,用于日后数据汇总分析。在测试中发现,采集策略切换失败主要由前端C/S软件通信数据堵塞、软件卡死、内存溢出、config配置文件读写错误等问题引起,一般重启前端软件后即可恢复正常。多次测试发现,广播电视音视频数据采集量大,采集时间长,设备一直满负荷运转,因此需要对前端软件定时重启。后期完善中,增加采集端软件进程监视模块,并在每天23:59:59对前端软件自重启,对16台前端设备分组测试,累计测试7天,A组使用定时重启功能,B组不使用该功能,测试结果表明,A组7天内未发生切换失败故障,B组7天内仍有2次切换故障,故引入定时重启可确保软件运行正常。

4总结

数据采集论文范文3

管理平台指标体系的内容应包括学校发展的各方面情况,必须真实准确。同时平台数据的填报要具有规范性,指标体系应从指标名称、指标概念、统计口径、数据来源等方面进行统一规范和要求,力求数据采集的科学化。再者数据平台采集中的部分数据具有时点要求,也就是数据的及时性,统计指标的填报应保证时间点,提供及时的统计报表,为相关决策提供准确及时的信息。

1.数据采集方法分类

按照数据平台的填写方式和时间要求,对平台采集中数据的关联要求进行分析。按照上述的要求,以2012年填报数据为例,将采集的数据分为以下几个大类:无条件;自动生成;一次性+及时更新;按年度;按会计年度;按学年;按学期;一次性;学年+更新;及时更新+条件。

2.平台数据采集关联分析

分别对10类数据采集时的关联度进行分析。“无条件”指的是系统初始化好的,各学校可以直接使用的功能模块,直接填报即可,与其他的数据关联性不强。“自动生成”数据,不需要填报,由其他数据自动产生逻辑数据,与学校整体数据有关,关联性非常强。例如2.1.3在校生人数则是由2.3.2专业列表在校生人数(二级学院)自动汇总而来,如果后者填报有误,那么前者不会准确,关联密切。“一次性+及时更新”数据是由初次导入数据加上及时更新的数据组成。对初次导入数据进行更新时需要考虑数据间的关联性。例如二级单位已经有专业、教职工信息等和二级单位相关联的数据,则此二级单位无法被删除。如需删除,需要对二级单位相关联的数据进行删除。再如新建一个专业后,直接删除,但是并未删除掉,这是因为系统自动为其建立了“专业招生状态”,此专业已被“专业招生状态”使用了,如真的需要删除此专业,则先点击“正在招生”链接,进入专业招生状态页面,将其建立的一条招生状态记录删除掉,再回到专业列表,便可删除刚新建的专业。所以及时更新时,一定要考虑到数据原有的关联系。“按年度”的数据,统计的时间段是年度,需要注意的是,年度要求有区别。以2012年上报数据为例,数据上报时间分别是2009年起、2011年起,数据填报从2009级起、2012~2013学年第一学期起,采集数据时需要关联不同年度的数据。“按会计年度”数据关联性相对较低,只采集上报年的会计年度的数据,考虑学校收入和支出之间的平衡。“按学年”、“按学期”、“学年+更新”数据,在采集数据时要充分考虑到统计时间的要求,还要考虑到数据间的关联。例如3.6国际合作采集的数据要以2.3.1专业基本信息为基础;4.2课程评价采集数据要以4.1课程安排数据为基础,课程状态有时不能更改,是因为一旦完成了课程评价,即将课程状态设置为“结束”,并保存了课程评价,则无法再将课程状态设置为“开课”。“一次性”数据是指一次性采集完成、不能更改、不需更新的数据。例如7.2.3高考情况,记录学生的高考成绩。这类数据采集之初关联系不强,但是作为其他数据的支撑,关联性就比较强。“及时更新+条件”数据,是指随时可以更新的数据,如师资培训情况、实践情况、学生毕业后的创业情况等,在采集这类数据时,也是先区分好统计的时间段,再填写各项内容,数据采集是没有关联数据的,采集后的数据对平台的第8大项报告的生成产生很大影响。

二、管理平台数据的共享性分析

管理平台数据的采集涉及到学校的各个方面、各个部门,如教学部门、财务部门、人事部门、资产部门等。通过管理平台所形成的数据具有共享性,如某实训室实训条件数据的采集,可以利用资产部门所建立的数据平台,抽取其中的关联数据,从而得到实训室的基本硬件资料,使得原不同平台间的数据不再单一不可复用,这就是利用数据平台实现信息共享的优势所在。通过这种方式,学校内的数据可以通过重用其他领域数据而获利,学校数据也可以促成其他领域没有的活动,并产生新的关联数据,使得数据成为一个成长着的有机体。管理平台关联数据采集的意义在于:一是各种基础信息由各基层单位通过审核生成,通过计算机网络平台的填报使各职能部门能及时掌握企业的运行状况,满足各职能部门需要;二是各职能部门能及时做出对比,及时分析研究解决问题的措施,把各种综合信息向学校领导、各职能部门及基层单位及时反馈,分别满足其管理决策、研究问题和解决问题的需要。为确保统计资料的系统性、完整性,应该在各部门的工作职责中明确相应的统计责任,要求其按统一确定的口径、范围及时间提供相应的统计资料及分析报告,最终将统计信息自基层通过计算机网络覆盖整个学校。

三、总结

数据采集论文范文4

关键词:USB2.0协议同步数据采集CY7C68013可编程控制接口FIFO

USB(UniversalSerialBus)总线是INTEL、NEC、MICROSOFT、IBM等公司联合提出的一种新的串行总线接口规范。为了适应高速传输的需要,2000年4月,这些公司在原1.1协议的基础上制订了USB2.0传输协议,已超过了目前IEEE1394接口400Mbps的传输速度,达到了480Mbps。USB总线使用简单,支持即插即用PnP(PlugAndPlay),一台主机可串连127个USB设备。设备与主机之间通过轻便、柔性好的USB线缆连接,最长可达5m,使设备具有移动性,可自由挂接在具有USB接口的运行在Windows98/NT平台的PC机上。USB总线已被越来越多的标准外设和用户自定义外设所使用,如鼠标、键盘、扫描仪、音箱等。

笔者结合设备检测中数据采集的实际需要,设计了该高速同步数据采集系统。该系统最多可四路同步采样,单通道采样速度可达620ksps,四通道同时采样速度可达180ksps。USB接口控制芯片采用Cypress公司FX2系列中的CY7C68013,通过对其可编程接口控制逻辑的合理设计和芯片内部FIFO的有效运用,实现了数据的高速连续采样和传输。

1基本原理

该采集系统总体框架分三部分:主机(能支持USB2.0协议的PC机)、内部包含CPU及高速缓存的USB接口控制芯片(CY7C68013)和高速同步采样芯片(MAX115),如图1所示。其数据传输分两部分:控制信号传输和采集数据传输。控制信号方向为由主机到外设,由外设CPU控制,数据量较小;采集到的数据由外设到主机,数据量较大。为了保证较高的传输速度,不经过CPU。系统基本操作过程为:主机给外设一个采样控制信号,FX2根据该信号向A/D转换器送出相应控制信号,即采样模式控制字;之后由A/D转换器自主控制转换,并将各通道采样数据存入其片内缓存。一旦转换完成,由A/D的完成位向FX2的可编程控制接口发读采样结果信号;然后由可编程接口的控制逻辑依次将各通道采样结果从A/D的缓存读入FX2的内部FIFO。当FIFO容量达到指定程度后,自动将数据打包传送给USB总线。期间所有操作不需要CPU的干预。采样过程中接口控制逻辑依次取走批量数据,在打包传送时A/D仍持续转换,内部FIFO也持续写入转换结果。只要内部FIFO写指针和读指针位置相差达到指定的值就立即取走数据。从而保证了同步连续高速采集的可靠性。

2硬件部分

2.1芯片介绍

CY7C68013属于Cypress公司的FX2系列产品,它提供了对USB2.0的完整解决方案。该芯片包括带8KB片内RAM的高速CPU、16位并行地址总线+8位数据总线、I2C总线、4KBFIFO存储器以及通用可编程接口(GPIF)、串行接口引擎(SIE)和USB2.0收发器。在代码的编写上,与8051系列单片机兼容,且速度是标准8051的3~5倍。

CY7C68013与外设有两种接口方式:可编程接口GPIF和SlaveFIFOs。

可编程接口GPIF是主机方式,可以由软件设置读写控制波形,灵活性很大,几乎可以对任何8/16bit接口的控制器、存储器和总线进行数据的主动读写,使用非常灵活。SlaveFIFOs方式是从机方式,外部控制器可象对普通FIFO一样对FX2的多层缓冲FIFO进行读写。FX2的SlaveFIFOs工作方式可设为同步或异步;工作时钟为内部产生或外部输入可选;其它控制信号也可灵活地设置为高有效或低有效。笔者在设计中采用主机方式。

MAX115是美信公司的高速多通道同步采样芯片。含有两组4路同步通道,共8个输入端。采样精度为12位,采样模式由采样控制字决定,可灵活地在两组中的1~4个通道间选择。采样时,各通道转换结果先存入其内部相对应的4个12bit存储单元,各通道都转换完后再一起取走。

2.2电路原理及设计

考虑CY7C68013与MAX115接口时,采样模式不同,控制波形有所差别,笔者选择主机方式即可编程控制接口(GPIF)。

GPIF是FX2端点FIFO的内部控制器。在这种方式下,接口内核可产生6个控制输出端(CTL0~CTL5)和9根线的地址(GADR[8:0])输出,同时可以接收6个外部输入(RDY0~RDY5)和2个内部输入。FX2有4个波形描述符控制各个状态。这些波形描述符可以动态地配置给任何一个端点FIFO。例如,一个波形描述符可以配置为写FIFO,而另一个配置为读FIFO。FX2的固件程序可以把这些描述符配置给四个FIFO中的任意一个,配置后,GPIF将依据波形描述符产生相应的控制逻辑和握手信号给外界接口,满足向FIFO读写数据的需要。GPIF的数据总线既可以是单字节宽(8位FD[7:0])也可以是双字节宽(16位FD[15:0])。每个波形描述符包含了S0~S6七个有效状态和一个空闲状态。在每个有效状态对应的时间段里,经过预先设置,GPIF可以做以下几件事情:(1)驱动(使为高或低)或悬浮6个输出控制端;(2)采样或驱动FIFO的数据总线;(3)增加GPIF地址总线的值;(4)增加指向当前FIFO指针的值;(5)启动GPFIWF(波形描述符)中断。除此之外,在每个状态,GPIF可以对以下几个信号中任意两个进行采样,它们是:(1)RDYX输入端;(2)FIFO状态标志位;(3)内部RDY标志位;(4)传输计数中止标志位。把其中两个信号相与、相或或者相异或,根据结果跳转到其它任意一个状态或延迟1~256个IFCLK时钟周期。当然也可以根据输入端的信号进行跳转或延迟。GPIF波形描述符通常用Cepress公司的GPIF工具(GPIFTOOL)进行配置。它是一个可运行于Windows平台的应用程序,与FX2的开发包一起。

在这种方式下,所有的读写及控制逻辑通过CY7C68013的GPIF以软件编程的方式实现,且控制逻辑的变换方便灵活(只需要改变接口的一个配置寄存器的值)。电路连接如图2所示。

本数据采集系统只用到了两个输出控制CTL0、CTL1和一个外部输入RDY0,它们分别接MAX115的CONVST#、WR#和INT#。数据总线用双字节,其中FD0~FD11接MAX115的数据输入端D0~D11,FD12和FD13接控制字输入端的A2和A3,FD0和FD1复用做控制字输入端的A0和A1。MAX115的采样基准时钟由FX2的输出时钟经三分频得到,为16MHz。对应四种数据传输方式(八种不同的采样模式),GPIF的控制及握手信号波形有所不同。四通道同步采样的时序图如图3所示。

在第一个判决点,若采样数据已准备就绪,MAX115传给GPIF一个负脉冲信号RDY0;根据此信号,波形按顺序转入2、3、4、5状态,使指向内部FIFO的指针在每个时钟上升沿加1,依次读取四个数据,取完数据后利用CTL0的上升沿启动下一次采样。若在状态1时没有出现负脉冲,则直接跳转到状态6,之后重复执行此波形描述符。

三通道同步采样时,读取数据的状态只需要持续三次。其它采样模式控制波形的设计依此类推。

2.3固件程序设计

固件程序是指运行在设备CPU中的程序。只有在该程序运行时,外设才能称之为具有给定功能的外部设备。固件程序负责初始化各硬件单元,重新配置设备及A/D采样控制。固件代码的存储位置有三种:第一种是存在主机中,设备加电后由驱动程序把固件下载到片内RAM后执行,即“重新枚举”;第二种方法是把固件代码固化到一片EEPROM中,外设加电后由FX2通过I2C总线下载到片内RAM后自动执行;最后一种方法是把程序固化到一片ROM中,使之充当外部程序存储器,连在FX2三总线上。笔者选用第一种方式,这种方式便于系统的调试和升级。固件程序框图如图4所示。

3用户程序和驱动程序

3.1驱动程序的编写

该系统需要两个驱动程序,即通用驱动和下载固件的驱动。通用驱动完成与外设和用户程序的通信及控制;而下载固件的驱动则只负责在外设连接USB总线后把特定的固件程序下载到FX2的RAM中,使FX2的CPU重启,模拟断开与USB总线的连接,完成对外设的重新设置。主机根据新的设置安装通用驱动程序,重新枚举外设为一个新的USB设备。

通用驱动程序一般不需要重新编写,用Cypress公司已经编好的驱动ezusb.sys;而下载固件的驱动则必须定做,其详细操作过程见参考文献[2]。

3.2用户程序的编写

用户程序是系统与用户的接口,它通过通用驱动程序完成对外设的控制和通信。在编写用户程序时,首先要建立与外设的连接,然后才能实施数据的传输。启动采样后,为了保证不丢失数据,用户程序应该建立一个新的工作线程专门获取外设传来的数据。程序中主要用到两个API函数:CreateFile()和DeviceIoControl()。CreateFile()取得设备句柄后,DeviceIoControl()根据该句柄完成数据传输。程序代码简要如下:

hDevice=CreateFile(″\\\\.\\EZUSB-0″)

GENERIC_READ|GENERIC_WRITE,

FILE_SHARE_WRITE,

NULL,

OPEN_EXISTING,

FILE_ATTRIBUTE_NORMAL,

NULL);

If(hDevice==INVALID_HANDLE_VALUE)

{

Application->MessageBoxA(“无法创建设备,请确认设备是否连上!”,NULL,IDOK);

}

else

{

DeviceIoControl(

hDevice,

IOCTL_EZUSB_BULK_WRITE,

&blkctl,

sizeof(BULK_TRANSFER_CONTROL),

&inBuffer,//定义的数据缓冲区

sizeof(inBuffer),

&nBytes,

NULL);

……

}

数据采集论文范文5

关键词 数据挖掘;数据采集;应用

中图分类号TP392 文献标识码A 文章编号 1674-6708(2013)102-0222-02

所谓数据挖掘,就是将那些隐含的在数据中的、不能先知以及包含潜在价值的大量信息,从数据中提炼出来以供技术人员参考分析。通过数据挖掘理论所得到的信息,可以为地理信息的测绘提供依据,并且还具有预测和决策的功能。为了能够得到更加精确的信息,我们建立了数据采集平台。数据采集平台侧重于数据的收集,将大量的数据进行有效的汇总,使之转化成有助于测绘地理信息管理和决策的有效信息。我们在实际工作中,常常可以看到,由于对数据没有进行系统科学的分析,使得一些潜在的威胁留在了我们要做的工程中,甚至会为此丧失掉很多利益。如果我们不能够尽力把威胁清除掉,后果可能不堪设想,数据表面,看不出东西(即其隐藏的信息量),绝对是关键所在。因此,我们不仅要做好数据采集工作,更要有效的利用好数据挖掘理论,做好数据分析工作,充分挖掘出这些数据背后所带来的意义。

1数据挖掘的功能

在测绘地理信息技术领域,数据挖掘理论能够将采集的数据转化为我们需要的知识。下面就数据挖掘的功能,并结合其在数据采集中的运用,我概括了几点,主要功能有以下几点:1)聚类功能。即按照数据内在的规则,把数据聚合分类;2)关联分析功能。关联分析是从数据库中发现知识的一类重要方法。当建立在多次检测的基础上的某两个或多个数据之间算出来的数据相似,差异极小的时候, 那么我们就说这些事件之间存在着某种关联, 能够建立起这些关联项的关联规则;3)分类功能。将不同数据按照不同的分类标准进行分类组合;4)偏差检测功能。对那些不常见,极端的特例进行归档分析, 并揭示其发生偏差的原因,以便以后好做调整;5)预测功能。通过数据信息所显示的一些潜在的知识,我们能够做好对未来测绘数据的预测。实践证明,事物的联系是普遍存在的,即数据挖掘的各项功能协调组合,以便发挥更大的作用。数据挖掘通过对数据的总结、分类、聚类和关联等分析, 对采集的数据进行深层次的剖析,把那些潜在的东西给挖掘出来,便于技术人员的管理与预测。

2 “数据挖掘”理论在数据采集平台上的应用基础

2.1数据采集平台的建立

由于科技发展的需要,数据采集平台应势而生。数据采集平台,是一个拥有大量数据的数据库。据最新的统计数据显示,整个平台采集一次便可产生多达50万以上的数据量。数据采集平台最大的作用就是能够产生巨大的数据。

我们知道数据本身就是数据而已,不能够得到对我们有帮助的东西。而数据挖掘理论,基于相应的知识,做出极具准确性的预测性,能够把单纯的数据,通过总结、分类、聚类、偏差检测和关联等功能可以把那些分散在数据库里面的各种数据,进行综合分析整合。数据挖掘理论,是以对数据的分析作为基础的,其功能与分析方法对数据采集平台管理和运用,有着不可估量的作用和意义。

2.2“数据挖掘”理论应用基础

由于科技的不断发展,数据库不断充实,数据采集平台也在不断的完善和发展中。在国家政策,和科技不断发展的趋势下,数据采集平台近几年来,其结构和采集信息量上也发生了翻天覆地的改变。主要表现在版本、汇总部分字段以及采集字段上。即:版本不断的更新,由原先的“08c版”一直发展到现在的“10a001版”; 汇总部分字段和采集字段的增加,使得数据库里的数据成海量的增长,甚至多达数十万。这样使得数据采集平台更加规模化,同时也加强了数据与数据之间的联系,这也使得采集的数据成了 “数据挖掘”的数据基础,给了“数据挖掘”一个更好的平台。也为技术人员运用数据挖掘理论提供了数据来源。

3 “数据挖掘”理论在数据采集平台上的实际应用

在上面我笼统的介绍了数据挖掘的基本功能,即分类、估计、关联、聚类、偏差检测和预测。在这里我具体的介绍一下“关联规则挖掘” 理论。通过“关联规则挖掘”理论,我们知道,如果仅仅是单独、孤立的数据,那是形成不了重要信息的,但是,如果我们将那些相互关联的数据集中起来,并从不同的角度,不同的方面去分析这些数据,那么潜伏在这些数据表面以下的部分就会浮出表面,这样我们就能看到事物的全部。这对我们做决策有着重要的意义。所以我们要可以通过“关联规则挖掘”理论辨证的去分析事物内部所蕴含的关系。相反,如果只是盲目的看到表面的数据,甚至割裂地、孤立地去看待数据,这样不仅找不到数据与数据之间关联关系,更不能通过聚合这些相互关联的数据,这不能做出科学有效的决策。在测绘地理信息的时候,“关联规则挖掘”的理论,为我们提供了更广阔的分析方法和思维模式,为我们做出正确合理的决策提供了理论依据。在实际操作中,我们感觉到任何一个重要问题的分析,我们都要依赖“关联规则挖掘”理论,对具体的数据进行科学分析,以呈现其数据和事物之间的关联性。

4 结论

结合个人的工作经验和实际操作,就数据挖掘理论在数据采集中的应用展开了探讨和研究。介绍了数据挖掘的功能;“数据挖掘”理论在数据采集平台上的应用基础:数据采集平台的建立和“数据挖掘”理论应用基础;以及“数据挖掘”理论在数据采集平台上的实际应用。但是由于自身学识和理解的局限性,说的不是很全面,只是希望大家可以关注一下数据挖掘理论在数据采集中的应用,并能在你所在的领域内有所应用。

参考文献

[1]谭广宇.数据挖掘理论在状态数据采集平台上的应用[J].广西教育,2011(6).

[2]蒋盛益,李霞,郑琪.数据挖掘原理与实践[J].图书,2011(8).

[3]曾锡山,胡俊荣.WEB文本海量数据挖掘应用中的多点数据采集及处理问题研究[J].情报杂志,2010(8).

数据采集论文范文6

关键词:网络数字内容挖掘;深度采集技术;互联网舆情

中图分类号:F49 文献标识码:A 文章编号:1674-7712 (2014) 12-0000-01

社会化媒体给互联网带来的变化在于,由社交网络参与用户组成的用户关系网,构成了信息的传播链,传播链上的不同节点(用户),对于信息的传播起着不同的作用。传统的挖掘技术只关注数据内容而忽略用户维度,具有一定的片面性。从数据挖掘的角度,针对社交网络的特点,只有综合考虑数据内容和承载数据内容的传播链(用户关系网)才有可能获得更有价值的挖掘成果。

一、网络数字内容深度采集技术

(一)异构多维网络数据采集

异构数据采集将文字、图片、音视频、多媒体等多种数据类型定义为数据的异构性。除了对于普通网页的采集能力,对于异构数据要求具备以下采集能力:支持论坛、博客、据微博等各类网站的数采集。支持文字、图片、音频、视频等做媒体信息的采集。对于不同来源、不同类型的异构数据具有准确解析元数据的能力,包括智能化自动分析,或者基于模板或规则的方法实现元数据准确解析。

在社交网络已经成为重要应用趋势的背景下,参与网络信息共享的主体不再单单是数据内容本身,而是包含了参与人这个重要因素。我们把数据本身作为第一维,而把数据产生和传播的参与人作为第二维,定义网络数据的多维性。在多维特征下,为了实现深度挖掘的目标,除了内容数据的采集能力,对产生和传播数据的参与人(用户)以及他们之间的关联关系(用户关系网)具备深度采集能力:

1.支持社交类网站用户信息采集。根据社交网站所能提供的信息,用户属性信息可以包括用户名、用户ID、信息数、粉丝数、关注数、个人介绍、个性化标签、教育信息、行业信息、地域信息、认证信息等。

2.支持内容数据中有关用户维度的信息采集。对于社交网络类型的数据源,在采集内容数据的同时,需同步采集到其发帖人名字或ID。对于多层传播的内容数据,比如评论、转发等,能够采集到内容数据在各个传播层次的驱动用户以及信息传播方向。

3.对于社交网络类型网站,能够根据需要采集用户之间的关联关系,比如关注关系,评论关系,转发关系等。

(二)社交网络穿透采集

以微博、社交网站为代表的社交网络是一种封闭或本封闭网络媒体,其内容数据并不是完全共享的状态。每个使用社交网络的用户,首先需要注册为一个用户,登录到微博或社交网站上才能浏览信息。提供社交网络服务的网站,为了网络信息安全,在用户认证、信息安全等方面一般都进行较为严格的控制。在这样的环境下,社交网络的数据采集一般会受到诸多方面的限制。

互联网海量数据以及时时刻刻产生新数据的背景,决定了任何数据挖掘工作,都不可能在将网络数据全部采集到本地的前提下进行,特别是社交网络所产生的巨大实时信息量。但是,如果采集模块能够根据数据挖掘工作的进展,不断调整数据采集的目标并提供给挖掘模块使用,则可以认为它已经为数据挖掘工作提供了最大限度的支持。依据目标驱动采集的要求,需要采集技术具备以下功能:

1.数据采集具有灵活的调用接口,可以嵌入数据挖掘模块,由挖掘模块按需方便调用。

2.支持多种采集手段,包括定点采集、元搜索,可根据指定的线索进行深度采集,比如可以根据搜索引擎的搜索结果进行进一步的深度采集。

二、网络数字内容深度挖掘技术

(一)非结构化数据挖掘。主要包括关键词抽取、自动聚类、自动分类、自动摘要、正负面情感分析等技术,实现对网络数字内容的基本挖掘功能,为进一步深度挖掘提供基础。

(二)多媒体挖掘。主要包括基于内容的图像检索技术,视频摘要和字幕提取技术,语音识别技术等。

(三)热点事件挖掘。热点事件挖掘是指从海量内容数据中挖掘出网民关注的焦点事件。热点事件挖掘需要综合运用对网络意见领袖、转发和评论信息的统计,结合内容聚类技术完成。结合地域特征和行业特征,还可以挖掘出基于地域或行业的热点事件。

(四)人物关系挖掘。通过社交网络中人物之间的信息传播特点进行统计分析,获得人物之间的关联关系。可以利用人物之间的关注关系、评论关系、转发关系等关系展开统计分析工作,其中评论关系能够比较客观地反映人物之间的关系。

(五)多维挖掘技术。以社交网络为特点的内容数据可以挖掘多维度信息,包括人与人的关联关系、人与事件的关联关系、事件与事件的关联关系以及时间维度下的事件演变过程。这些信息从不同的维度反应出事件相关的内在关联,其挖掘结果可以为网络舆情分析提供详实的数据支撑。

三、网络数字内容挖掘技术的实践意义及发展建议

网络数字内容挖掘技术是互联网内容管理和应用的重要支撑技术,是社会化媒体发展的新趋势,为网络数字内容挖掘带来了挑战,也带来了机遇。在传统挖掘技术的基础上,迫切需要加大投入,形成自主的技术、产品和应用,服务于互联网舆情分析以及其他互联网挖掘应用,创造社会和经济效益。

另外,海量数据的挖掘需要一个性能优越、功能丰富的数据存储和检索平台,作为网络挖掘系统的底层支撑平台。平台具有异构数据的统一搜索,支持结构化、半结构化、非结构化数据的统一搜索等功能;具有高性能、智能化信息处理、弹性扩展等特点和能力,可以支撑PB以上级别数据;无单点故障,具有故障感知、自动恢复、可在线扩展等功能;多检索引擎机制,对于不同的数据类型和检索需求,可以选择不同的检索引擎,比如全文检索、图像检索等。

参考文献:

[1]曹来成.利用容错技术提高P2P网络安全[J].哈尔滨工业大学学报,2009(03).

[2]李军,马晨光,武平.一种P2P网络中对等结点间的身份认证方法[J].科学技术与工程,2009(21).

数据采集论文范文7

参与式感知[1]是近几年出现的一种感知技术,利用具有传感器的移动设备对各种信息进行交互式或自助式的采集、分类、传输和分析。参与式感知强调感知过程中人的参与,人们利用移动设备的各种传感器对各种数据进行采集,一个人感知的信息或者群体感知的信息可以被其他人或者群体使用,从而实现数据的广泛采集和共享使用[2]。

参与式感知的感知主体是一个个具有思想的人,而个人的安全与隐私是每个用户在加入参与式感知时必定会考虑的问题。目前关于参与式感知中用户的安全与隐私的研究主要集中在用户与服务器的交互过程中[3-4]。随着WiFi(Wireless Fidelity)等近场通信(Near Field Communication, NFC)技术的发展,用户与用户之间的数据共享应用将越来越广泛。而用户之间进行数据共享过程中的安全与隐私问题还鲜有关注。

参与式感知中,用户之间会进行频繁的数据共享[5],出于个人的安全与隐私考虑,用户在向周围用户发送数据请求时,不希望自己需要的数据类型被交互双方之外的人知晓,并且用户总是期望通过单次交互就能获得全部所需的数据类型,同时希望获得的差异化数据价值能够满足需求。在实际应用中用户对差异化数据的价值需求不尽相同,如供水质量监控的用户和普通用户对水质数据就有差异化要求,负责供水质量监控的用户需要水质标准中几乎全部的108种数据[6],需要长时间的大量测量数据;而普通用户只关心当前水质是否达标或少量常规数据,需要的是实时数据少量数据。这两类用户由于关心的内容不同,所以各种数据对他们的价值也不同。不同类型的用户可以根据提供方数据对他们的价值不同,进行取舍。可以看出,仅仅只是保证获取全部数据类型并不能保证用户对差异化数据的不同需求。 本文考虑用户对差异化数据的不同需求,通过计数布隆过滤器(Counting Bloom Filter, CBF)实现数据价值的计算,这个数据价值的值就是用来衡量用户对数据的差异化需求。本文的数据分享协议既保护用户对数据的偏好隐私,又实现了不同用户对数据的差异化需求。

1 相关研究

与本文相关的研究主要是隐私保护的集合交,根据使用的数学理论,隐私保护的集合交计算方法主要分为:基于交换加密的匹配协议、基于线性多项式的匹配协议和基于伪随机函数的匹配协议。

1.1 基于交换加密的匹配协议

Agrawal等[7]提出了一种可交换加密协议用于解决PSI(Private Set Intersection)和PCSI(Private Cardinality of Set Intersection)问题,实现了两个数据集中的交集运算。该协议的安全性依赖于DDH(Decisional DiffieHellman)假设,但对受到恶意攻击的情况没有考虑。

在文献[7]的基础上,Xie等[8]提出了一种移动社交网络中的匹配协议,能够抵御一定恶意攻击。该协议计算量较大,占用资源较多。

1.2 基于线性多项式的匹配协议

Freedman等[9]提出了一种基于多项式估值和加法同态加密的协议——FNP(FreedmanNissimPinkas)协议。该协议通过将数据集中的数据作为多项式的根构造出一个多项式,并对多项式系数同态加密。该协议复杂度低,适用于半诚实模型,但对恶意攻击抵御能力较弱。

为将文献[9]协议应用到分布式环境中,Ye等[10]把数据方集合用一个多项式表示,然后分发多项式系数到多个服务器,实现密钥分享这种分布式协议不适合在参与式感知环境中应用。

另外,在双线性映射函数基础上,Lu等[11]提出了一个双线性映射匹配算法,并且运用到了疾病监控的具体案例中,使具有相同病症的人可以分享信息。该算法只适用于匹配一个属性的场景,难以扩充到多属性的应用中。

1.3 基于伪随机函数的匹配协议

Yang等[12]设计了一种分布式手机社交网络系统:ESmallTalker。运用布隆过滤器(Bloom Filter, BF)作为属性存储结构,通过伪随机函数进行多轮迭代映射计算交集,可以有效减少存储空间和避免对方知道共同属性以外的其他信息。然而,由于布隆过滤器不能按需增删元素,若要改变元素集合,只能重置布隆过滤器,因此会增加额外的工作量。

Sun等[13]提出了两种计算集合交的方法:一种是基于PSI的加密方法;一种是基于布隆过滤器的非加密方法。加密方法通过适应性量化技术,将用户的每个元素对应到一个单元索引,计算集合交的双方通过PSI计算公共元素。这种方法的计算量和通信量都较大,不适用于资源有限的移动终端。非加密方式通过对布隆过滤器进行改进,双方分别采用不同的方式计算各元素对应的布隆过滤器,再计算公共元素,这种方法的计算量和通信量都较小,但计算结果存在一定误差。

以上三类关于集合交的办法,都只考虑了是否存在的问题,而没有考虑存在多少的问题,如集合C={a,b},B={a,b,c,d,a,b,a},目前研究得到的是公共属性集合{a,b}或者判断C是B的子集,但是都不能知道B中含有C中元素a和b的具体数目。本文提出一种新型数据分享协议,使请求者在数据分享过程中不仅能判断采集者是否拥有自己需要的数据类型,还能判断采集者对每一类型数据的拥有量,即数据的价值,同时在数据分享过程中保护双方对数据的偏好隐私。

2 模型与假设

2.1 系统模型

如图1所  本文由WwW. dyLw.neT提供,第一 论 文 网专业写作教育教学论文和毕业论文以及服务,欢迎光临dyLw.nET示,本文的系统模型主要由数据采集者和数据请求者构成,用户既可以是数据采集者也可以是数据请求者。图1中的数据采集者利用自己智能终端的传感器采集数据。数据请求者由于业务或者其他需求,需要获取一定价值的数据,所以向周围用户发出数据交互请求。关于身份认证问题目前存在大量的研究[14-16],本文假设只有合法用户能够进行交互过程。

2.2 安全模型

假设用户是理性、诚实而好奇的。理性是指获得满足自己所需数据时才会付出相应代价;诚实而好奇是指每个用户都希望隐藏自己的偏好隐私,但是却希望知道其他用户的偏好隐私,同时,用户总是希望通过单次交互就能获取全部所需数据。除此之外,用户的操作都会遵循系统的要求。

2.3 问题描述

假设系统包括m个用户,分别表示为U1,U2,…,Um,系统一共有n种数据,数据类型对应为一个固定长度的集合A={A1,A2, …,An}。每个用户既可以是数据使用者也可以是数据提供者,因此每个用户都拥有两个集合NAi和PAi。NAi表示用户需要的数据类型对应的集合,PAi表示用户拥有的数据类型对应的集合。假设用户之间是通过WiFi/Bluetooth等近场通信技术通信,并且任意两个用户之间都建立了一个可信的通信通道。

进一步定义两个用户Ui(Alice)和Uj(Bob),Alice向Bob发出数据交易请求,假设Alice需要的数据类型对应的集合为NAi={Ai1,Ai2,…,Ain},其中Alice需要的数据类型的相应位为1,其他位为0。Bob拥有的数据类型对应的集合为PAi={Ni1,Ni2,…,Nin},Bob每次获取一种类型的数据,就将相应数据类型的值加1,Aij表示Bob拥有第j类数据的数目。由于Alice希望能直接从一个数据采集者处获得全部所需的数据类型并且希望获取数据的价值能满足自己的需求,因此Alice需要将Bob拥有的数据对应的数据类型与自己需要的数据类型进行匹配,另外,Alice还会对Bob拥有的数据的价值进行计算判断是否达到要求(如,Alice需要第3种数据100个,第7种数据30个等)。如果Bob拥有的数据类型满足Alice需要的数据类型且Bob拥有的数据价值达到了Alice的要求,则Alice与Bob进行交互,获得想要得到的数据,如果Bob没有Alice想要的全部的数据类型或者数据的价值不满足需求,则Alice终止与Bob的交互,并继续与其他用户进行上述相同过程直到找到一个满足交互条件的用户,然后Alice与满足交互条件的用户进行交互。

3 隐私保护的数据分享协议

3.1 设计思想

由于整个过程是在能量有限的手机端进行操作,因此需要一个计算量小、既能计算数据类型是否匹配又能计算数据价值的方法,同时请求者在交互过程中不希望不满足条件的采集者知道自己对数据的需求,而采集者也不希望将自己的数据细节暴露给任何请求者,因此在交互过程中还需满足双方对数据的偏好隐私。本文采用计数布隆过滤器[17]实现用户对数据类型和数据价值的计算,计数布隆过滤器将标准的布隆过滤器[18]的每一位扩展为一个计数器,这个计数器恰恰可以用来衡量不同数据的价值,同时对计数布隆过滤器的构造过程进行改进,保护交互双方对数据的偏好隐私。

3.2 相关知识

3.2.1 计数布隆过滤器

计数布隆过滤器(CBF)由标准布隆过滤器扩展而来,它将标准布隆过滤器的每一位扩展为一个小的计数器(Counter),如图2所示。在插入元素时给对应的k(k为哈希函数的个数)个Counter的值分别加1,删除元素时  本文由WwW. dyLw.neT提供,第一 论 文 网专业写作教育教学论文和毕业论文以及服务,欢迎光临dyLw.nET将对应的k个Counter的值分别减1。计数布隆过滤器通过多占用几倍存储空间为代价,在标准布隆过滤器的基础上增加了删除元素的功能[19],通过这个删除功能计算元素集合里每个元素的个数,而数据个数作为数据价值的衡量标准。

在计算数据价值时,对a分别利用k(此处为3)个Hash函数进行计算,找到计数布隆过滤器向量中对应数值最小的位,以该位的数值作为a的数据价值,在此处a的价值为8。然后将对应的k位分别减去8,同样的方法计算得到b的数据价值为5。

3.3 协议描述

假设F为一个很大的公开的Hash函数池。选择Hash函数H:{0,1}*→Z*。

1)Bob随机选择整数z,利用H(z)在Hash池F里面选择k个Hash函数,从得到的k个Hash函数里面选择l个(l

4)如果符合交互要求,则Alice认为Bob是满足交互,双方通过安全信道进行交互。

4 协议分析

4.1 偏好隐私保护

在匹配成功之前,数据采集者对用户需要的数据类型是完全未知的。数据采集者选择k-l个不在F里面的Hash函数,并将这k-l个Hash函数对用户保密,在数据采集者将H(z)和CBFB发送给用户之后,用户不能直接计算出数据采集者拥有的数据类型[18]。数据采集者的偏好隐私是保密的。

4.2 计数布隆过滤器位数的选择

参与式感知中,数据的采集者数目较多[2],为了防止数据过多,对数据的新鲜度有一定的要求,假设用户采集的数据有效时间是3d,用户每天采集的次数不超过20次,同一种类型的数据最大的数量为60,而26=64>60,因此,存储一种数据数量的位数选择为6位。由于不同的输入,Hash可能会得到相同的输出,因此还需考虑由于其他数据类型造成的Counter增加。

4.3 数据价值计算的准确性

本方案只有匹配成功才需要考虑数据的价值是否满足条件,因此对数据价值的计算是建立在已经判定匹配成功的基础  本文由WwW. dyLw.neT提供,第一 论 文 网专业写作教育教学论文和毕业论文以及服务,欢迎光临dyLw.nET上。

在CBFB中加入一个元素时,k个哈希位置的Counter都要加1。也就是说,如果不考虑碰撞,出现次数为n的元素对应的k个Counter的值都为n。即使考虑到碰撞的因素,只要k个位置不全出现碰撞,k个Counter中的最小值仍是n。令元素x对应的k个Counter的最小值为mx,x的出现频率为fx,从上面的分析可知, fx≠mx的概率和标准布隆过滤器的误判概率相同,因为二者出现的充要条件都是k个哈希位置同时出现碰撞[20]。

在本方案中,每一次对某个元素Aiy进行k次Hash,判断每种数据对应的价值时,都是选择CBFB对应k位的最小值,而Alice计算得到的价值是和预先选定的价值阈值相比较,因此通过选择合适的系统参数和阈值,能使数据价值计算的准确性达到系统要求。

4.4 系统匹配误差阈值的选择

由4.2节可知,布隆过滤器的误判概率在k= ln 2×ω/n时最小为FPR=(1-1/2)k=2-k=2-ln 2×ω/n=0.6185ω/n。

匹配过程中的误差除了布隆过滤器的误判概率之外,主要是因为交互双方选择的Hash函数不完全相同,在此主要讨论在保证误判率最低的情况下Hash函数不同个数t=(k-l)对匹配精度的影响。

为了便于存储,设置ω=211=2048,n=100,则当ln 2×ω/n≈0.7×ω/n≈14,取k=14,此时布隆过滤器的误判率最低。

Hash函数不同个数(k-l)对匹配精度和数据价值的影响分别如图3和图4所示。

实验过程中的PBj={Aj1,Aj2,…,Ajn}是利用随机函数生成的[0,60]区间的随机数。NAi={Ai1,Ai2,…,Ain}是 利用随机函数生成的随机0,1。数据价值的权重是利用随机函数生成的[0,1)区间的随机数。

由图3和图4可知,当Hash函数不同个数t=(k-l)在增大时,实验的匹配个数和实际价值都在减少,但两者不呈现线性关系,由于不同的输入,经过相同的Hash函数计算可能会有相同的输出,而不同的输入、不同的Hash函数计算也可能会有相同的输出,因此当t=k时,匹配个数也不会减小到0。

根据图3和图4可知,当k一定时,通过选取合理的l和阈值能够使匹配精度和数据价值精度都保持在满足要求的范围内。如,k=14,取l=12,此时匹配个数为53(实际匹配个数为56),数据价值为520(实际数据价值为563),而此时文献中作者也说明了实验得到的匹配结果比实际的匹配数大。在实际的应用中,如果协议计算的结果为匹配的数目比需要的多则结论一定是匹配成功,当这种“多”是由于误差引起时,实际的误判率会变大,到交易阶段用户才能知道实际是否匹配,如果不匹配会消耗更多的资源。针对本文的结果,此时若选取允许CBFB为0的个数,即误差阈值τ1=5,数据最小价值τ2=500,则能保证数据分享成功且保护用户对数据的偏好隐私。实际应用中,在可接受的误差范围内,合理地选择Hash函数及阈值τ1和τ2,能使匹配精度和数据价值误差满足应用要求,使得用户通过单次分享就能获取满足需求的数据类型和数据量,同时保护用户对数据的偏好隐私。 4.5 性能分析

整个协议中的数据类型匹配和数据价值计算都是基于计数布隆过滤器的,没有采用复杂的加解密操作,计算量小。用户只需要计算nk个Hash函数操作和简单的整数加减法,加减法对协议的计算复杂度影响可忽略,因此整个协议的计算复杂度为O(kn)。与第2章中相关研究相比,本文的计算复杂度较小。

文献[10]涉及到服务器的交互,与本文协议没有可比性,文献[11]只能用于特定环境,因此也不予以比较。对比如表1所示。

表1中,i, j分别为交互双方拥有的属性数目,C是利用fe(x)=xe mod p加解密的开销,D为文献[8]涉及的DiffieHellman计算开销,E为文献[9]涉及到的加解密的计算开销。文献[7-11]都只实现了计算类型匹配度;没有实现对数据价值的计算,并且计算开销都比本文的高。文献[12]采用的是布隆过滤器因此与本文开销一样;但是该方案只能计算数据类型匹配度,不能计算数据价值,同时本协议保护了交易双方的数据隐私。文献[13]也是对布隆过滤器进行改造,保护了交易双方的数据隐私;但是该方案除了构造布隆过滤器的开销,还需要对两个布隆过滤器进行遍历,当布隆过滤器位数增多时,该开销会显著增加。

5 结语

  本文由WwW. dyLw.neT提供,第一 论 文 网专业写作教育教学论文和毕业论文以及服务,欢迎光临dyLw.nET

在参与式感知的用户之间的交互过程中,为了实现既能保护用户隐私,又能使用户仅通过单次交互便能获得全部所需数据类型且获得的数据满足价值需求,本文将用户对数据价值的差异化需求考虑进来,采用计数布隆过滤器,使用户不仅能计算数据类型的匹配度,也能判断差异化数据价值是否符合需求,同时也保护用户对数据的偏好隐私。分析表明协议既能够隐私保护的计算数据类型的匹配度,也能对数据价值进行计算,为用户提供差异化服务。接下来将对布隆过滤器的构造方法进行进一步的研究与改进,将数据类型匹配和价值计算误差进一步减小。

参考文献:

[1]BURKE J A, ESTRIN D, HANSEN M, et al. Participatory sensing [C]// WSW06: Proceedings of the 1st Workshop on WorldSensorWeb. New York: ACM, 2006:117-134.

[2]MUN M, REDDY S, SHILTON K, et al. PEIR, the personal environmental impact report, as a platform for participatory sensing systems research [C]// Proceedings of the 7th International Conference on Mobile Systems, Applications, and Services. New York: ACM, 2009: 55-68.

// CCIS 2012: Proceedings of the 2012 IEEE 2nd International Conference on Cloud Computing and Intelligent Systems. Piscataway: IEEE, 2012: 1017-1021.

// Proceedings of the 8th ACM Conference on Embedded Networked Sensor Systems. New York: ACM, 2010: 99-112.

[5]LEE J S, HOH B. Sell your experiences: a market mechanism based incentive for participatory sensing [C]// Pe  本文由WwW. dyLw.neT提供,第一 论 文 网专业写作教育教学论文和毕业论文以及服务,欢迎光临dyLw.nETrCom 2010: Proceedings of the 2010 IEEE International Conference on Pervasive Computing and Communications. Piscataway: IEEE, 2010: 60-68.

.北京:中国标准出版社,2006:1-8.)

数据采集论文范文8

论文摘要:利用数据采集卡构建的数据采集系统一般价格昂贵且难以与实际需求完全匹配。声卡作为数据采集卡具有价格低廉、开发容易和系统灵活等优点。本文详细介绍了系统的开发背景,软件结构和特点,系统地分析了数据采集硬件和软件设计技术,在此基础上以声卡为数据采集卡,以matlab为开发平台设计了数据采集与分析系统。 

本文介绍了matlab及其数据采集工具箱, 利用声卡的a/ d、d/ a 技术和matlab 的方便编程及可视化功能,提出了一种基于声卡的数据采集与分析方案,该方案具有实现简单、性价比和灵活度高的优点。用matlab 语言编制了相应软件,实现了该系统。该软件有着简洁的人机交互工作界面,操作方便,并且可以根据用户的需求进行功能扩充。最后给出了应用该系统采集数据的应用实例。

1绪论 

1.1 课题背景 

数据也称观测值,是实验、测量、观察、调查等的结果,常以数量的形式给出。数据采集,又称数据获取,就是将系统需要管理的所有对象的原始数据收集、归类、整理、录入到系统当中去。数据采集是计算机管理系统使用前的一个数据初始化过程。数据采集技术广泛引用在各个领域。比如摄像头,麦克风,都是数据采集工具。

数据采集(data acquisition)是将被测对象(外部世界、现场)的各种参量(可以是物理量,也可以是化学量、生物量等)通过各种传感元件作适当转换后,再经信号调理、采样、量化、编码、传输等步骤,最后送到控制器进行数据处理或存储记录的过程。

被采集数据是已被转换为电讯号的各种物理量,如温度、水位、风速、压力等,可以是模拟量,也可以是数字量。采集一般是采样方式,即隔一定时间(称采样周期)对同一点数据重复采集。采集的数据大多是瞬时值,也可是某段时间内的一个特征值。准确的数据测量是数据采集的基础。数据测量方法有接触式和非接触式,检测元件多种多样。不论哪种方法和元件,都以不影响被测对象状态和测量环境为前提,以保证数据的正确性。数据采集含义很广,包括对连续物理量的采集。在计算机辅助制图、测图、设计中,对图形或图像数字化过程也可称为数据采集,此时被采集的是几何量数据。

在智能仪器、信号处理以及工业自动控制等领域,都存在着数据的测量与控制问题,常常需要对外部的温度、压力、流量、位移等模拟量进行采集。数据采集技术是一种流行且实用的电子技术。它广泛应用于信号检测、信号处理、仪器仪表等领域。近年来,随着数字化技术的不断发展,数据采集技术也呈现出速度更高、通道更多、数据量更大的发展态势。

数据采集系统是一种应用极为广泛的模拟量测量设备,其基本任务是把信号送入计算机或相应的信号处理系统,根据不同的需要进行相应的计算和处理。它将模拟量采集、转换成数字量后,再经过计算机处理得出所需的数据。同时,还可以用计算机将得到的数据进行储存、显示和打印,以实现对某些物理量的监视,其中一部分数据还将被用作生产过程中的反馈控制量。

数据采集系统是计算机测控系统中非常重要的环节,目前,有各种数据采集卡或采集系统可供选择,以满足生产和科研试验等各方面的不同需要,但由于数据源以及用户需求的多样性,有时并不能满足要求。特别是在某些应用中,需要同时高速采集多个通道的数据,而且为了分析比较各通道信号间的相互关系,常常要求所有通道的采集必须同步。现有的数据采集系统能够满足上述要求的比较少,且价格十分昂贵,体积较大,分量较重,使用十分不方便。

一般模拟量是通过各种数据采集卡进行数据采集。目前常用的是具有 isa 总线、pci 总线等接口形式的 a/d 采集卡,虽然数据传输率很高,但是还存在整个系统笨重,缺乏灵活性,不能实现即插即用,不适合小型、便携设备采用等缺点。另外这些类型的采集卡在计算机上安装比较麻烦,而且由于受计算机插槽数量、地址、中断资源的限制不可能挂接很多设备。因此,工程师们往往需要花费大量的时间和资源用于系统搭建。

随着现代工业技术的迅猛发展,生产规模的不断壮大,生产过程和制作工艺的日趋复杂,对自动测试和各种信息集成的要求也就越来越高。数据采集系统的好坏将直接影响自动测试系统的可靠性和稳定性,为了满足不同的测试需求,以及减少对资源的浪费,在系统的设计上应该尽量满足通用性和可扩展性。在高度发展的当今社会中,科学技术的突飞猛进和生产过程的高度自动化已成为人所共知的必然趋势,而它们的共同要求是必须建立在有着不断发展与提高的信息工业基础上。人们只有从外界获取大量准确、可靠的信息经过一系列的科学分析、处理、加工与判断,进而认识和掌握自然界与科学技术中的各种现象与其相关的变化规律,并通过相应的系统和方法实现科学实验研究与生产过程的高度自动化。换言之,生产过程的自动化面临的第一个问题就是必须根据从各种传感器得到的数据来检测、监视现场,以保证现场设备的正常工作。所以对现场进行数据采集是重要的前期基础工作,然后再对现场数据进行传输和相应的处理工作,以满足不同的需要。

数据采集卡是中低端数据采集系统设计的必选产品。基于 isa、pci 的插卡式数据采集设备存在以下缺陷:安装麻烦;价格昂贵;受计算机插槽数量、地址、中断资源限制,可扩展性差;在一些电磁干扰性强的测试现场,无法专门对其做电磁屏蔽,导致采集的数据失真。而现代工业生产和科学研究的发展要求数据采集卡具有更好的数据采集、处理能力,传统的 cpu 已经不能满足这一要求。针对以上要求,本文将论述一种基于pc机的声卡技术,它安装容易,成本较低。只需利用计算机本身的软硬件资源,而不需添加其他任何设备即可构成数据采集与分析系统,使用matiab语言编制简洁的图形用户界面,该界面操作方便,并且可以根据用户的需求进行功能扩充。

数据分析在整个科研工作中是个重要的必不可少的环节,它的目的是把隐没在一大批看来杂乱无章的数据中的信息集中、萃取和提炼出来,以找出所研究对象的内在规律。在实用中,数据分析可帮助人们作出判断,以便采取适当行动。数据分析是组织有目的地收集数据、分析数据,使之成为信息的过程。这一过程是质量管理体系的支持过程。在产品的整个寿命周期,包括从市场调研到售后服务和最终处置的各个过程都需要适当运用数据分析过程,以提升有效性。例如,一个企业的领导人要通过市场调查,分析所得数据以判定市场动向,从而制定合适的生产及销售计划。因此数据分析有极其广泛的应用范围。数据分析系统工作的质量和速度如何,对整个科研工作的影响也是很大的。因此研究一种质量性能高的通用数据采集平台具有很大的意义。

在近几十年来 ic 技术和计算机技术的高速发展,为数据采集与分析提供了非常良好与可靠的科学技术基础,也提出了更高的要求和强有力的推动。如今面临着先进的计算机技术和信息技术与落后的信息采集与分析技术的现实差距,那将大大影响科学技术的高度发展和生产过程的高度自动化。所以,近几十年来世界各国都大量投入进行信息采集与分析的工作,尤其是在经济发达的美、英、德、法日等国与我国,都对这一技术高度重视。

1.2 国内外研究动态 

数据采集是获取信息的基本手段,数据采集技术作为信息科学的一个重要分支,与传感器、信号测量与处理、微型计算机等技术为基础而形成的一门综合应用技术,它研究信息数据的采集、存储、处理及控制等作业,具有很强的实用性。随着科学技术的发展,数据采集系统得到了越来越广泛得应用,同时人们对数据采集系统的各项技术指标,如:采样率、线性度、精度、输入范围、控制方法以及抗干扰能力等提出了越来越高的要求,特别是精度和采样率更是使用者和设计者所共同关注的重要问题,于是,高速及超高速数据采集系统应运而生并且得到了快速发展。今天,数据采集技术己经在雷达、通信、水声、振动工程、无损监测、智能仪器、工业自动控制以及生物医学工程等众多领域得到广泛的应用并且收到了良好的效果。高速数据采集系统在国防、航天、边缘科学研究中及国民经济的各个领域的成功的应用,进一步引起了各方的关注,推动了它的研制和发展。随着科学技术的发展,数据采集系统得到了越来越广泛的应用。目前,国外很多公司与厂商都投入巨资进行数据采集系统的研制开发与生产销售,其中比较著名的有 neff, ni、hp,tek 等。

从数据采集系统产品来看,各大公司提供的系列产品都包括了完成数据采集的诸如信号放大、滤波、多路开关、模数转换和接口等各种模块。现有的高速数据采集器件和开发的产品中,目前还没有完全实现高速、高分辨率。在雷达、通信、谱分析、瞬态分析、电视等应用领域,为满足实时检测和高速采集的日益更新的需要,实现数据采集的高速、高分辨率已成为数据采集系统的一个发展方向。现有的高速 adc 器件和产品价格都比较昂贵,有些高速、高分辨率的器件本身还存在着不稳定性,因此,在数据采集系统向高速、高分辨率发展的同时,开发和研制的器件和产品应不断地提高可靠性,降低成本,提高性价比,以便使之得到更广泛的应用。在国内,由于历史、技术等原因,我们的产品普遍存在:通用性差、用途单一、测点少、测量距离小、环境适应性差等缺点,远没有形成系列化、模块化、标准化的通用产品,根本无法满足国内用户不断增长的需要,也远远不能与国外产品抗衡,正因此使得价格高昂的国外产品占有了相当大的市场份额。

1.3 数据采集系统的现状及发展 

数据采集与分析一直是生产实践研究与应用领域的一个热点和难点。随着微电子制造工艺水平的飞速提高及数据分析理论的进一步完善与成熟,目前国内外对数据采集系统的高性能方面的研究上取得了很大的成就。就 a/d 转换的精度、速度和通道数来说,采样通道从单通道发展到双通道、多通道,采样频率、分辨率、精度逐步提高,为分析功能的加强提供了前提条件。而在数据分析的微处理器上,最初的数据采集系统以 8 位单片机为核心,随着微电子技术的不断发展,新兴单片机的不断问世,十六位、三十二位单片机也为数据采集系统研制厂家所采用,近年来采用具有 dsp 功能的数据采集系统也己投入市场。同时,通用 pc 机的 cpu 用于数据处理也较为常见。总之,伴随着高性能微处理器的采用和用户技术要求的不断提高,数据采集系统的功能也越来越完善。数据采集系统的发展主要体现在以下几个趋势:

首先,在专业测控方面,基于 pc 计算机的数据采集系统越来越成熟和智能化。在过去的二十年中,开放式架构 pc 机的处理能力平均每十八个月就增强一倍。为了充分利用处理器速度的发展,现代开放式测量平台结合了高速总线接口,如 pci和 pxi/compact pci,以便获得性能的进一步提升。计算机的性能提升和由此引起的基于计算机的测量技术的创新,正在持续不断地模糊着传统仪器和基于计算机的测量仪器之间的界线。

其次,在通用测控方面,采用嵌入式微处理器的方案也由早期的采用 a/d 器件和标准单片机组成应用系统发展到在单芯片上实现完整的数据采集与分析,即目前极为热门的 soc (system on chip)。通常在一块芯片上会集成一个,可以采样多路模拟信号的 a/d 转换子系统和一个硬 cpu 核(比如增强型 80_52 内核),而且其cpu 的运算处理速度和性能也较早期的标准 cpu 内核提高了数倍,而且有着极低的功耗。这种单芯片解决方案降低了系统的成本和设计的复杂性。

此外,为了解决 soc 方案中数据处理性能的不足,采用 dsp 作为数据采集系统的 cpu 的研究与应用目前也逐渐引起业内重视。但是这类产品目前仅仅处于发展的初级阶段,在精度、速度或其它性能指标上并不能很好的满足要求。因此,国内外以 dsp 作为数据采集系统的采样控制和分析运算的研究与应用正在展开。

近年来随着芯片技术、计算机技术和网络技术的发展,数据采集技术取得了许多新的技术成果,市场上推出了繁多的新产品。高速数据采集技术的发展一方面是提高采集速率,另一方面不断向两端延伸。一端是输入的信号调理,另一端是采集后的数字化信号的实时处理与事后处理。20世纪90年代末,随着数字技术快速发展,数据采集技术已向着并行、高速、大量存储、实时分析处理、集成化等方向发展。

(1)采样方式

①过采样(over sampling)。采样方式中最早是过采样,根据采样定理,采样频率fs必须高于被采信号最高频率fch的两倍,才不致产生频率混叠现象。例如信号最高频率为10khz,采样频率必须高于20khz。

②欠采样(under sampling)。在通信和动态数据的采集中,发展了一种欠采样技术,即采样频率fs可以低于信号频率fch,但信号的频带宽度不得大于0.5fs,利用采样信号产生的高次谐波,将采样后的信号移至第二或者更高的奈奎斯特区。例如采样频率fs为10khz,可对频带fch落于11~14khz的信号(频带宽度为3khz,低于0.5fs=5khz)进行欠采样。于是在采样频率2次谐波两边产生的采样后的信号频带为f2ch = 2fs±fch = 20 khz±(11~14 khz)= 31~34 khz,或9~6 khz

③等效时间采样(equivalent time sampling )。主要是对于重复的周期波形进行等效时间采样。例如美国泰克公司的tds784d数字存储示波器,其实际的采样频率为 1 gs/s ( 1ghz ),对于重复的周期信号,采取周期微差法,可以达到250gs/s(250ghz)的等效时间采样。例如对于 1 ghz 的方波,进行周期微差法采样,每个周期的采样只有微小的时差,将若干个周期中的样点集中排列,即可测出方波上升沿和下降沿的波形。对于单次瞬态信号,这种方法是无效的。

④变速率变分辨率采样。

(2)采集方式的发展

①扫描式采集(scanning acquisition):时分制、多通道巡回采集。

②并行式采集(parallel acquisition):多个通道同步并行采集,每个通道采用一个独立的a/d转换器,通道采集速率只取决于a/d的转换速率,与通道数无关。

③交替采集(internative acquisition):一个通道由多个a/d转换器交替采集,使每个通道采样速率等于多个a/d的转换速率之和,可以高于单个a/d的转换速率。

(3)采集数据的实时分析与处理软件

目前国外的测试仪器或系统生产厂家,在生产硬件的同时,推出其相应的支持软件或软件开发平台,如为产品开发者提供的软件工具;为系统集成者提供系统应用软件的集成的环境;为终端用户提供编写自己的用户应用程序的手段。

1.4 本文主要内容和章节安排 

本文完成了一种基于matlab的数据采集系统的方案的设计,实现了在matlab环境下利用声卡和matlab数据采集工具箱进行的数据采集与分析。

全文的结构安排如下:

第一章  绪论,说明了研究背景、意义、国内外现状,以及系统的发展现状。

第二章  主要介绍了系统结构特点及性能

第三章  主要介绍了声卡、matlab软件及其工具箱的使用

第四章  主要讨论了系统结构功能设计与实现,以及数据采集与分析的具体过程

第五章  主要对数据采集进行了举例 

2数据采集系统结构特点 

2.1  系统组成结构 

数据采集系统主要由两部分组成:采集子系统和计算机子系统,即下位机智能数据采集系统和上位机 hmi(human machine interface)系统。采集子系统实现将客观世界被测对象信号采集和转换为能被计算机处理的数字信号的功能等;计算机子系统实现对采集数据的控制、存储和处理等功能,计算机起着对采集数据的存储和处理、统计分析、提供人机接口与其他计算机的数据通信和交换的功能。

数据采集系统涉及多学科,所研究的对象是物理或生物等各种非电或电信号。根据各种非电或电信号的特征,利用相应的归一化技术,将其转换为可真实反映事物特征的电信号后,经a/d转换器转换为计算机可识别的有限长二进制数字编码,以此作为研究自然科学和实现工业实时控制的重要依据,实现对宏观和微观自然科学的量化认识,典型的数据采集系统组成如图2-1所示。

图2-1   典型数据采集系统的组成

而一般的外置式数据采集系统结构如图2-2所示。模拟信号由传感器采得经过信号调理模块送入数据采集硬件设备。在数据采集设备中完成a/d转换,包括采样、量化、编码,转化成数字信号后送入与之相连的pc机中。根据不同的要求,在pc机上利用matlab以及二次编程实现数据的实时分析与处理。用户可以通过人机交互界面修改、设定各项参数来控制数据采集硬件设备的工作状态,同时可以得到数据的采集与分析结果, 从而实现数据采集与分析的自动化。

图2-2 一般的外置式数据采集系统结构

利用声卡在windows环境下开发数据采集系统时,由于受编程语言的限制,其数据分析与处理的功能非常有限。例如,为了对所采集的数据进行功率谱分析,则需要用户以vb或c语言来编写功率谱分析的子程序,这显然增加了开发的难度,并且也极不利于分析功能的进一步扩展。

而利用声卡作为a/d转换工具,经过衰减和取样电路得到的模拟信号送至声卡的线路输入端linein,并利用matlab中提供的数据采集工具箱,可满足控制声卡进行数据采集的要求。用户通过调用matlab命令, 可对采集的数据进行分析和处理。

整个系统可分为数据采集和数据分析两大部分,以友好的图形界面与用户进行交互沟通。数据采集部分实现数据采集功能,根据用户选择的采样频率和预设的采样时间,从声卡获得用户需要的数据;数据分析部分对采集到的数据进行频谱分析。全部数据的时域和频域波形以图形方式直观地呈现于用户面前。此外,还提供保存数据以及回放数据的功能。

图2-3给出了基于matlab的数据采集系统的简图,主要部件数据采集工具箱提供了硬件驱动程序和matlab环境之间“对话”所需的硬件驱动程序适配器、数据采集引擎和m-文件函数.

图2-3  基于matlab的数据采集系统简图

硬件驱动程序适配器在硬件驱动程序和数据采集引擎之间交换属性数值、数据和事件;数据采集引擎用来存储各个设备对象,以及每个设备对象的属性值;对采集到的数据进行存储并且使不同事件同步;m-文件用来创建设备对象、采集或输出数据、配置属性值和检测数据采集状态和数据采集设备。

2.2 系统的特点和性能指标 

现代数据采集系统发展到今天,一般来说具有如下主要特点:

(1)现代采集系统一般都由计算机控制,使得数据采集的质量和效率等大为提高,也节省了硬件投资。

(2)软件在数据采集系统中的作用越来越大,增加了系统设计的灵活性。

(3)数据采集与数据处理相互结合的日益紧密,形成数据采集与处理系统,可实现从数据采集、处理到控制的全部工作。

(4)数据采集过程一般都具有“实时”特性,实时的标准是能满足实际需要;对于通用采集系统一般希望有尽可能高的速度,以满足更多的应用环境。

(5)随着电子技术的发展,电路集成度的提高,数据采集系统的体积越来越小,可靠性越来越高,甚至出现了单片数据采集系统。

(6)总线在数据采集系统中有着广泛的应用,总线技术它对数据采集系统结构的发展起着重要作用。

评价一个数据采集系统的性能有很多指标,但是一般采用以下几个比较常用的指标进行评价。

(1)系统分辨率

系统分辨率是指数据采集系统可以分辨的输入信号的最小变化量。通常可以用如下几种方法表示系统分辨率:

使用系统所采用的 a/d 转换器的位数表示系统分辨率;

使用最低有效位值(lsb)占系统满度值的百分比表示系统分辨率;

使用系统可分辨的实际电压数值表示系统分辨率;

使用满度值可以分的级数表示系统分辨率。

(2)系统精度

系统精度是指当系统工作在额定采集速率下,整个数据采集系统所能达到的转换精度。a/d 转换器的精度是系统精度的极限值。实际上,系统精度往往达不到a/d 转换器的精度。因为系统精度取决于系统的各个环节(子系统)的精度,如前置放大器、滤波器、模拟多路开关等。只有当这些子系统的精度都明显优于 a/d 转换器的精度时,系统精度才有可能达到 a/d 转换器的精度。系统精度是系统的实际输出值与理论输出值之差,它是系统各种误差的总和,通常表示为满度值的百分数。

(3)采集速率

采集速率又称为系统通过速率或吞吐率,是指在满足系统精度指标的前提下,系统对输入的模拟信号在单位时间内所能完成的采集次数,或者说是系统每个通道、每秒钟可采集的有效数据的数量。这里说的“采集”包括对被测物理量进行采样、量化、编码、传输和存储的全部过程。

(4)动态范围

动态范围是指某个确定的物理量的变化范围。信号的动态范围是指信号的最大幅度和最小幅度之比的分贝数。

2.3 系统常见的几种结构形式 

(1)多通道共享采样/保持器和 a/d 转换器数据采集系统

这种系统构成如下图所示,这种结构形式采用分时转换工作的方式,多路被测信号共用一个采样/保持器和一个 a/d 转换器。当采样保持器的输出已充分逼近输入信号(按给定精度)时,在控制命令的作用下,采样保持器由采样状态进入保持状态,a/d 转换器开始进行转换,转换完毕后输出数字信号。在转换期间,多路开关将下一路信号切换到采样/保持器的输入端,系统不断重复以上的操作,可以实现对多通道模拟信号的数据采集。采样方式可以按顺序或随机进行。

多通道共享采样保持器和 ad 转换器数据采集系统图

这种采集系统结构形式最简单,所用芯片数量少,适用于信号变化率不高、对采样信号不要求同步的场合。如果被测信号变化速率较慢,可以不用采样保持器,直接进行 a/d 转换。如果信号很弱而干扰噪声强,需要在系统电路中增加信号放大电路和滤波环节。

(2)多通道同步数据采集系统

多通道同步型数据采集系统图

其结构如上图所示,也属于分时转换系统。

多路模拟输入信号共用一个 a/d 转换器,但是每个通道各有一个采样/保持器,在同一采样指令控制下对各路信号同步进行信号采样,得到各路信号在同一时刻的瞬时值。模拟开关分时将各路采样/保持器切换到 a/d 转换器上,进行模数转换。这些同步数据可以描述各路信号的相位关系,所以这种结构被称为同步型数据采集系统。

由于各路信号必须串行的在共用的 a/d 转换器中进行转换和计算,若采样信号回路过多时,这种采集结构的速度仍然较慢。

(3)多通道并行数据采集系统 

 

多通道并行数据采集系统框图如上图所示。这种结构形式中,每个通道都有自己的采样保持器和a/d转换器,经过a/d转换的数据经过接口电路送到计算机中。相对于前两种数据采集系统,这种结构形式的数据采集速度最快,但所用的硬件电路复杂,成本较高。

通用型模拟量数据采集模块则属于这一类的数据采集子系统。数据采集模块是属于单片机的智能器件,在整个数据采集系统中,每个模块可以认为是实时、并行地工作,每个模块仅完成几路信号的检测和采集,实时响应性能优。

(4)分布式数据采集系统

以上介绍的三种结构形式中,系统各部件之间的空间距离很近,逻辑上耦合程度紧密,都可以称之为数据采集系统。这种系统的优点是:结构简单,容易实现,能满足中小规模的集中数据采集的要求。在市面上均有成熟产品可供选用。系统的体积和设备量小,造价低。

由于工作原理、结构形式和性能设计等原因,这类系统也存在不少缺点:

因为系统结构不灵活,不易扩展,所以不适合大规模的数据采集应用场合。抗干扰能力差,尤其对于被测对象物理位置分散、传感器输出的微弱信号需要长距离传输时,所受的干扰不容忽视的。可靠性差。系统结构中某一部件出现故障会导致整个系统工作崩溃。由于各部件之间紧密耦合,导致系统的可扩展性和灵活性差。分布式数据采集系统是数据采集技术、计算机技术和通信技术综合和发展的产物,基于“分散采集、集中管理”的思想设计的系统结构形式,由若干个“数据采集点”和上位机以及通信接口组成。分布式数据采集系统结构如下图所示:

分布式数据采集系统图

处于分散部位的数据采集点相当于小型的集中数据采集系统,位于被测对象的附近,可独立完成数据采集和预处理任务,并将采集的数据转换为数字信号的形式传送给上位机,采用数据传输的方法可以克服模拟信号传输的固有缺陷。分布式数据采集系统的主要特点是:

(1)系统适应能力强。因为可以通过选用适当数量的数据采集点来构成相应规模的系统,所以无论是大规模的系统,还是中小规模的系统,分布式结构都能够适应。

(2)系统可靠性高。由于采用了多个数据采集点,若某个数据采集点出现故障,只会影响某项数据的采集,而不会对系统的其他部分造成任何影响。

(3)系统实时相应性好。由于系统各个数据采集点之间是真正“并行”工作的,所以系统的实时相应性较好。

(4)另外,这种数据采集系统是用数字信号传输代替模拟信号传输,有利于克服常模干扰和共模干扰。因此,这种系统特别适合于在恶劣的环境下工作。目前对于大规模的数据采集场合一般都采用分布式结构,根据不同的数据采集工作原理、结构形式和性能特点,在本系统中采用集中式的数据采集器件作为数据采集终端,采用上下位的连接方式,最终组成整个数据采集系统。

3 matlab软件

3.1 matlab 简介 

matlab 是美国mathworks 公司开发的一种功能极其强大的高技术计算机语言和内容极其丰富的软件库,它适合于工程各领域的分析设计与复杂计算的软件,该软件包括基本部分和专业扩展两大部分.扩展部分称为工具箱,用于解决某一方面的专业问题.它以矩阵和向量的运算以及运算结果的可视化为基础,把广泛应用于各个学科领域的数值分析、矩阵计算、函数生成、信号处理、图形及图像处理、建模与仿真等诸多强大功能集成在一个便于用户使用的交互式环境中,为使用者提供了一个高效的编程工具及丰富的算法资源。对于信号处理和图像处理等数字处理领域,matlab 更是得天独厚,它丰富的m文件和强大的绘图可视功能为使用者带来了极大的方便, 被广泛的应用于信号与图像处理、控制系统设计、通信、系统仿真等诸多领域,尤其对初学者可起到事半功倍之效。

matlab是一种解释语言,所有的程序和指令都必须在matlab解释器中读入后才能运行,因而极大地限制了代码执行速度。matlab强大的计算功能只能在其平台上才能使用,也就是说,必需在安装了其解释器的机器上才能使用matlab的m文件,这样就给工程应用带来了很大不便。对于一般用户来讲,matlab只能作为离线的计算和分析工具,而不能作为实时的工程工具。幸运的是,开发matlab的mathworks公司为广大的应用者提供了应用程序接口(api,applicationprogram interface)和编译器(compiler)。利用matlab和c语言交互,也可以开发基于matlab的数据采集系统。如果配上数据采集线路,该系统就可以作为一个虚拟仪器来使用。

3.2 数据采集工具箱及声卡简介 

matlab 自带的数据采集工具箱(data acquisitiontoolbox, daq) 能更容易地将实验测得的数据进行分析和可视化操作。数据采集设备包括: 多媒体声卡、美国国家仪器e系列和1200 系列接口板、hewlett-packard-vxie1432- 系列接口板及其他各种数据采集硬件设备。数据采集硬件设备的内部特性对matlab 的接口完全透明, 无论是使用一个或几个硬件设备, 数据采集工具箱都会向所有硬件设备提供单一和统一的接口。通过调用matlab 命令和函数可对与计算机兼容的数据采集硬件设备进行访问并对其属性进行可视化监控。

数据采集工具箱是一种建立在matlab环境下的m函数文件和mex动态链接库文件的集合,包含3大区域的组件:m文件函数、数据采集引擎及硬件驱动适配器。它具有如下特点:是一种通过使用与pc机兼容的、即插即用的数据采集设备在matlab环境中的架构;支持模拟信号的输入输出以及数字信号的输入、输出,子系统还包括同步模拟输入输出的转换;支持声卡;事件驱动采集。

在matlab数据采集工具箱里集成了数据采集的m 文件格式的函数和mex文件格式的动态链接库。其主要特征如下:

(1)提供了将实时测量数据从数据采集硬件采集到matlab中的框架。

(2)支持模拟量输入(ai)、模拟量输出(a0)以及数字量i/0子系统,包括模拟量i/o实时变换。

(3)支持pc声卡和业界非常流行的数据采集设备如ni卡、并行口(lpt1-lpt3)、keithley卡等。

(4)采用事件驱动模式进行数据采集。数据采集工具箱由3部分组成:m文件格式的函数、数据采集引擎和硬件驱动,如图3-1所示。这些组成部分使得matlab与数据采集硬件之间的信息传递成为可能。

数据采集论文范文9

建立科研论文数据库应解决的几个问题

科研处、图书馆根据分工,各司其职,严格按照知识产权管理条例进行论文收集工作。多途径开展科研论文收集工作目前,一些高校的论文收集工作非常困难,很多教师都认为科研论文是自己所有,不愿意拿出来交由学校保管,因此可以采用多种途径进行论文的收集工作。首先,图书馆工作人员通过检索数据库可以尽可能详尽地查询到本校所有教师发表在各项期刊、杂志、报纸等媒介上的论文;其次,科研处本身也收录了本校教师发表的部分论文;最后,教师本人对自己的论文肯定收录的最齐全,一方面可以详尽的向他们介绍科研论文数据库建立的必要性和意义,加深他们对数据库的了解,获得他们的支持,另一方面积极在学校营造科研氛围,开展学术活动,激励那些经常或者论文获奖的教师,让他们产生一种自豪感,从而能够主动的提供论文给我们。图书馆做好学科馆员建设,在此时也能很好地显示作用,因为经常需要和相应学科教师联系沟通,由此比较了解教师本人的科研成果和情况,相对也比较容易获取论文。做好论文归纳工作收集的论文由于来源途径广泛会有重合的现象,需要剔除重合的论文,同时按系科、各个教师分门别类地做好论文归纳工作。尽量获取电子版本也有利于之后的论文录入工作。做好论文的录入和维护工作数据的录入数据的质量是数据库的核心,是一个不可忽视的重要问题。数据的质量主要体现在数据的完整性、数据的准确性和数据的标准化[2]。为了保证数据录入的质量,应该由专门的录入人员进行这项工作。将收集上来的科研论文按照统一的规范和标准先进行校对,然后完善数据的录入工作数据库的维护和更新在数据库建好之后,要及时地进行数据库的维护和更新,发现问题及时更正,数据库的建立本就是为了更好的服务于学校的科研建设,因此要密切留意教师对科研数据库使用的感受,采纳一些比较好的建议,做好更新工作;同时加快新发表的科研论文的再录入工作,不断完善数据库。

做好数据库的利用工作

相关期刊