基于大數(shù)據(jù)的統(tǒng)計(jì)分析模型設(shè)計(jì)論文
統(tǒng)計(jì)是利用盡可能少的局部樣本數(shù)據(jù)來發(fā)現(xiàn)總體規(guī)律,處理對(duì)象往往數(shù)據(jù)規(guī)模小且數(shù)據(jù)結(jié)構(gòu)單一。在大數(shù)據(jù)環(huán)境下,面臨海量數(shù)據(jù)的采集與統(tǒng)計(jì),傳統(tǒng)方法已無法滿足大規(guī)模數(shù)據(jù)集處理;贖adoop系統(tǒng),利用其分布式存儲(chǔ)和并行處理機(jī)制,設(shè)計(jì)了大數(shù)據(jù)環(huán)境下的統(tǒng)計(jì)分析模型,從海量數(shù)據(jù)中提取出有用的信息特征,實(shí)現(xiàn)數(shù)據(jù)資源共享,為相關(guān)部門決策提供信息服務(wù)。
0引言
隨著統(tǒng)計(jì)數(shù)據(jù)規(guī)模的快速增長,數(shù)據(jù)特征日趨復(fù)雜,數(shù)據(jù)收集渠道多樣,統(tǒng)計(jì)學(xué)相關(guān)領(lǐng)域研究已進(jìn)入大數(shù)據(jù)時(shí)代。如何高效收集樣本數(shù)據(jù)、挖掘信息,從海量數(shù)據(jù)中提取有用的信息特征,將信息及時(shí)提供給相關(guān)部門決策,成為當(dāng)前統(tǒng)計(jì)學(xué)研究熱點(diǎn)之一。與國外相比,我國在統(tǒng)計(jì)分析工作中存在信息資源整合程度不高、數(shù)據(jù)共享匱乏、信息不完整等問題。隨著大數(shù)據(jù)時(shí)代的到來,對(duì)大數(shù)據(jù)分析與挖掘的研究和應(yīng)用越來越重視,大數(shù)據(jù)的挖掘與分析將幫助統(tǒng)計(jì)部門在有效合理的時(shí)間內(nèi)采集、處理、管理與分析海量數(shù)據(jù)。
目前政府部門間借助政務(wù)平臺(tái)可以實(shí)現(xiàn)數(shù)據(jù)資源共享,但是企業(yè)與政府間缺乏數(shù)據(jù)的分享平臺(tái),造成了信息隔離,對(duì)此,統(tǒng)計(jì)部門要構(gòu)建起全方位的海量數(shù)據(jù)共享和分布式存儲(chǔ)的安全統(tǒng)計(jì)分析平臺(tái),實(shí)現(xiàn)跨地區(qū)的統(tǒng)計(jì)信息交流,滿足海量信息數(shù)據(jù)的實(shí)時(shí)分享和處理。
1大數(shù)據(jù)
大數(shù)據(jù)是一種大規(guī)模的數(shù)據(jù)集合,數(shù)據(jù)分析人員無法在一定時(shí)間內(nèi)用一般軟件對(duì)其進(jìn)行提取、處理、分析和管理。處理大數(shù)據(jù)的關(guān)鍵技術(shù)包括大規(guī)模數(shù)據(jù)集的并行處理技術(shù)、分布式數(shù)據(jù)庫、分布式文件存儲(chǔ)與處理系統(tǒng)、數(shù)據(jù)挖掘、云計(jì)算等。大數(shù)據(jù)具有5V特點(diǎn):Volume(體量浩大)、Variety(類型多樣)、Velocity(生成快速)、Veracity(真實(shí)性高)、Value(價(jià)值巨大)。
1.1云計(jì)算
云計(jì)算(Cloud Computing)是傳統(tǒng)信息技術(shù)發(fā)展融合的產(chǎn)物,基于效用計(jì)算(Utility Computing)、并行計(jì)算(Parallel Computing)、分布式計(jì)算(Distributed Computing),它提供便捷的、可用的、按需付費(fèi)的網(wǎng)絡(luò)訪問。云計(jì)算平臺(tái)可以提供IaaS(基礎(chǔ)設(shè)施即服務(wù))、PaaS(平臺(tái)即服務(wù))、 SaaS(軟件即服務(wù)),同時(shí)負(fù)責(zé)數(shù)據(jù)安全、分布式網(wǎng)絡(luò)存儲(chǔ)、虛擬化、負(fù)載均衡、熱備份冗余等,用戶在使用資源時(shí)不需考慮底層基礎(chǔ)架構(gòu)。
大數(shù)據(jù)應(yīng)用不在于掌握龐大的數(shù)據(jù)信息,而在于對(duì)獲取的數(shù)據(jù)進(jìn)行專業(yè)化處理,以挖掘出數(shù)據(jù)的價(jià)值。大數(shù)據(jù)處理任務(wù)無法用單機(jī)串行計(jì)算方式處理,必須采用分布式架構(gòu)進(jìn)行計(jì)算。其特點(diǎn)在于依托云計(jì)算的分布式處理、云存儲(chǔ)、分布式數(shù)據(jù)庫和虛擬化技術(shù)對(duì)海量數(shù)據(jù)進(jìn)行挖掘。
1.2大數(shù)據(jù)處理技術(shù)
1.2.1大數(shù)據(jù)研究現(xiàn)狀
Science、Nature等國際頂級(jí)學(xué)術(shù)期刊出?接懥舜髷(shù)據(jù)處理與分析研究,介紹海量數(shù)據(jù)給社會(huì)生產(chǎn)和人們生活帶來的挑戰(zhàn)和機(jī)遇,學(xué)者們斷言:“數(shù)據(jù)將是未來舉足輕重的資源。在應(yīng)用方面,目前已有很多企業(yè)開始做大數(shù)據(jù)處理的相關(guān)研究,IBM、谷歌、雅虎、亞馬遜等公司紛紛提出自己的大數(shù)據(jù)處理架構(gòu)和計(jì)算模式。谷歌首先提出了分布式存儲(chǔ)系統(tǒng)GFS文件系統(tǒng)、大型分布式數(shù)據(jù)庫BigTable。2012年美國政府斥資2億美元啟動(dòng)了大數(shù)據(jù)研究和發(fā)展計(jì)劃,大力發(fā)展數(shù)據(jù)信息化基礎(chǔ)設(shè)施建設(shè)。
1.2.2大數(shù)據(jù)處理關(guān)鍵技術(shù)
處理和分析大數(shù)據(jù)的關(guān)鍵在于具備分布式存儲(chǔ)功能和強(qiáng)大的計(jì)算能力,數(shù)據(jù)處理的基礎(chǔ)在于數(shù)據(jù)存儲(chǔ),數(shù)據(jù)分析的關(guān)鍵在于強(qiáng)勁的處理能力。 Hadoop是一個(gè)可擴(kuò)展、可靠、開源的分布式計(jì)算系統(tǒng),該框架能夠?qū)崿F(xiàn)在計(jì)算機(jī)集群中用簡單的計(jì)算模式處理海量數(shù)據(jù),同依賴高性能服務(wù)器相比,Hadoop擴(kuò)展性較好,同時(shí)集群中的節(jié)點(diǎn)都可以提供本地存儲(chǔ)和計(jì)算。
1.3基于大數(shù)據(jù)的統(tǒng)計(jì)分析研究
統(tǒng)計(jì)是一項(xiàng)數(shù)據(jù)處理工程,面對(duì)大數(shù)據(jù)集的處理,統(tǒng)計(jì)樣本變大、數(shù)據(jù)特征復(fù)雜等使得統(tǒng)計(jì)工作也變得繁瑣,而數(shù)據(jù)挖掘是從大量數(shù)據(jù)中取得有用信息的過程,利用現(xiàn)代信息技術(shù)及挖掘算法,可以高效地對(duì)有用數(shù)據(jù)獲取與處理。不妨將數(shù)據(jù)挖掘理解為一個(gè)大數(shù)據(jù)狀態(tài)下精確處理數(shù)據(jù)的統(tǒng)計(jì)模型,對(duì)挖掘后的數(shù)據(jù)再引入統(tǒng)計(jì)學(xué)的思想進(jìn)行相關(guān)數(shù)據(jù)處理與分析,將兩種方法有機(jī)結(jié)合起來。
圖1大數(shù)據(jù)環(huán)境下的統(tǒng)計(jì)工作基礎(chǔ)架構(gòu) Hadoop為統(tǒng)計(jì)分析工作提供了一個(gè)穩(wěn)定可靠的分析系統(tǒng)和共享存儲(chǔ),它包含兩個(gè)核心技術(shù):MapReduce和HDFS。MapReduce實(shí)現(xiàn)數(shù)據(jù)的處理和分析,HDFS負(fù)責(zé)數(shù)據(jù)的共享存儲(chǔ)。如圖1所示,大數(shù)據(jù)環(huán)境下,統(tǒng)計(jì)工作的基本架構(gòu)包含數(shù)據(jù)采集中心和統(tǒng)計(jì)分析處理中心。數(shù)據(jù)采集中心主要是通過部署在云計(jì)算環(huán)境下的服務(wù)器集群去完成數(shù)據(jù)采集工作,數(shù)據(jù)主要存放在HDFS分布式數(shù)據(jù)庫中;統(tǒng)計(jì)管理部門設(shè)立總的服務(wù)器集群,為保證系統(tǒng)的可擴(kuò)展性,還可以將基層的服務(wù)器隨時(shí)納入該集群中,利用MapReduce機(jī)制分配和處理計(jì)算任務(wù);統(tǒng)計(jì)分析處理中心主要是智能算法池,通過算法的`應(yīng)用對(duì)采集到的數(shù)據(jù)進(jìn)行分析。
2基于Hadoop的大數(shù)據(jù)統(tǒng)計(jì)分析模型構(gòu)建
大數(shù)據(jù)環(huán)境下的統(tǒng)計(jì)分析系統(tǒng)以海量數(shù)據(jù)挖掘?yàn)榛A(chǔ),傳統(tǒng)的統(tǒng)計(jì)分析系統(tǒng)采用定期對(duì)數(shù)據(jù)進(jìn)行處理和分析的方式來更新模型。由于是定期被動(dòng)更新,模型無法保持實(shí)時(shí)性,容易造成統(tǒng)計(jì)結(jié)果不連續(xù)。
系統(tǒng)的設(shè)計(jì)關(guān)鍵在于海量數(shù)據(jù)的實(shí)時(shí)采集獲取、統(tǒng)計(jì)分析處理和存儲(chǔ),目的在于實(shí)現(xiàn)統(tǒng)計(jì)信息資源的共享;贖adoop的層次化統(tǒng)計(jì)分析模型如圖2所示,自上而下包括云平臺(tái)應(yīng)用層、邏輯與接口層、計(jì)算層、文件系統(tǒng)管理層、物理資源層。
圖2基于Hadoop的層次化統(tǒng)計(jì)分析模型 物理資源層:負(fù)責(zé)管理平臺(tái)的基礎(chǔ)設(shè)施,為平臺(tái)提供物理設(shè)施,除包含分布式集群、數(shù)據(jù)采集終端、基礎(chǔ)網(wǎng)絡(luò)外,還包括圍繞應(yīng)用相關(guān)的基礎(chǔ)組件。
文件系統(tǒng)管理層:主要用于存儲(chǔ)數(shù)據(jù)文件和日志文件,同時(shí)具備高可用數(shù)據(jù)備份功能。該層主要采用HDFS分布式存儲(chǔ),提供很強(qiáng)的數(shù)據(jù)吞吐能力。針對(duì)不同的數(shù)據(jù)統(tǒng)計(jì)終端,該層設(shè)計(jì)使用不同的操作系統(tǒng),以便于數(shù)據(jù)的統(tǒng)一性。
計(jì)算層是該統(tǒng)計(jì)模型的核心層,所有的運(yùn)算機(jī)制和數(shù)據(jù)處理任務(wù)都在該層完成。其基礎(chǔ)框架是基于Hadoop MapReduce并行計(jì)算框架,采用對(duì)數(shù)據(jù) “分而治之”的方法來完成并行化的大數(shù)據(jù)統(tǒng)計(jì)分析工作,用Map和Reduce函數(shù)提供兩個(gè)高層的并行編程抽象模型和接口,工作人員只需要實(shí)現(xiàn)這兩個(gè)基本接口即可快速完成并行化數(shù)據(jù)處理程序設(shè)計(jì)。此外該層還包含了Hadoop平臺(tái)的流數(shù)據(jù)處理storm和實(shí)時(shí)處理spark,用于對(duì)數(shù)據(jù)源的實(shí)時(shí)分析處理和更新,以滿足統(tǒng)計(jì)部門的高效快速響應(yīng)要求。
邏輯與接口層:該層主要功能是實(shí)現(xiàn)上層應(yīng)用層的基礎(chǔ)管理功能,主要包含用戶管理、安全身份認(rèn)證、統(tǒng)計(jì)任務(wù)的分配以及連接各地統(tǒng)計(jì)部門的接口等,該層還負(fù)責(zé)整體功能的性能監(jiān)控。
【基于大數(shù)據(jù)的統(tǒng)計(jì)分析模型設(shè)計(jì)論文】相關(guān)文章:
基于數(shù)據(jù)流SFCM挖掘的入侵檢測(cè)系統(tǒng)模型論文04-29
基于數(shù)據(jù)挖掘的高校教務(wù)系統(tǒng)設(shè)計(jì)論文11-15
基于對(duì)象數(shù)據(jù)模型的信息管理系統(tǒng)結(jié)構(gòu)設(shè)計(jì)技術(shù)探究論文10-28
淺談基于的Windows Azure平臺(tái)下的訪問控制模型的設(shè)計(jì)論文11-16
基于工業(yè)設(shè)計(jì)模型的高校實(shí)驗(yàn)室建設(shè)論文11-19
石油勘探開發(fā)主數(shù)據(jù)模型研究與設(shè)計(jì)論文11-02