關(guān)于大數(shù)據(jù)產(chǎn)品報(bào)告范文
關(guān)于大數(shù)據(jù)產(chǎn)品報(bào)告范文
篇一:中國(guó)大數(shù)據(jù)行業(yè)調(diào)查報(bào)告
公司使用大數(shù)據(jù)的基本情況
無(wú)論你是來(lái)自互聯(lián)網(wǎng)行業(yè)、通信行業(yè),還是金融行業(yè)、服務(wù)業(yè)或是零售業(yè),相信都不會(huì)對(duì)大數(shù)據(jù)感到陌生。據(jù)調(diào)查報(bào)告顯示,32.5%的公司正在搭建大數(shù)據(jù)平臺(tái),處于測(cè)試階段;29.5%的公司已經(jīng)在生產(chǎn)環(huán)境實(shí)踐大數(shù)據(jù),并有成功的用例/產(chǎn)品;24.5%的公司已經(jīng)做了足夠的了解,開(kāi)發(fā)準(zhǔn)備就緒;基本不了解的只占3000+用戶的13.5%。
現(xiàn)有公司大數(shù)據(jù)的使用情況
其中,大家對(duì)大數(shù)據(jù)平臺(tái)提出的的主要需求有:36.5%是進(jìn)行海量數(shù)據(jù)的離線處理,比如大數(shù)據(jù)BI;23.2%是為了大量數(shù)據(jù)的實(shí)時(shí)處理,比如在線交互式分析;40.3%的公司的大數(shù)據(jù)平臺(tái)則同時(shí)負(fù)責(zé)這兩種業(yè)務(wù)。
大數(shù)據(jù)平臺(tái)主要負(fù)責(zé)的業(yè)務(wù)
傳統(tǒng)觀念下,大數(shù)據(jù)往往是大型互聯(lián)網(wǎng)公司的玩物。然而,通過(guò)本次調(diào)查,我們卻發(fā)現(xiàn)在那些對(duì)大數(shù)據(jù)平臺(tái)有需求的公司中,研發(fā)團(tuán)隊(duì)規(guī)模遠(yuǎn)沒(méi)有我們想象的大,29.11%的研發(fā)團(tuán)隊(duì)僅有1-10人,次居第二的10-50人的規(guī)模占到了25.77%,兩種規(guī)模的研發(fā)團(tuán)隊(duì)就超過(guò)了一半。可見(jiàn),當(dāng)下大數(shù)據(jù)的需求已不止步于大型公司。
研發(fā)團(tuán)隊(duì)規(guī)模
從傳統(tǒng)架構(gòu)到大數(shù)據(jù)時(shí)代應(yīng)用程序架構(gòu)的轉(zhuǎn)變往往都會(huì)遇到一些問(wèn)題和挑戰(zhàn)。在對(duì)計(jì)算框架門檻調(diào)查中,非專業(yè)人士難于入手這一難題的比例達(dá)到了46.5%,這對(duì)企業(yè)人才的培訓(xùn)提出了迫切的要求。
當(dāng)下計(jì)算框架使用過(guò)程中存在的問(wèn)題
打造大數(shù)據(jù)平臺(tái)需要企業(yè)克服諸多問(wèn)題和挑戰(zhàn),尤其是安全性和可靠性方面。
大數(shù)據(jù)平臺(tái)打造的主要挑戰(zhàn)
大數(shù)據(jù)技術(shù)現(xiàn)狀
大數(shù)據(jù)技術(shù)在開(kāi)發(fā)者或從業(yè)人員的應(yīng)用中逐步走向成熟,這些成熟的技術(shù)在開(kāi)發(fā)人員的探索中得到了初步的穩(wěn)定發(fā)展,公司的使用便是對(duì)這些技術(shù)的肯定。包括開(kāi)發(fā)語(yǔ)言,數(shù)據(jù)分析語(yǔ)言、數(shù)據(jù)庫(kù)等在內(nèi)的大數(shù)據(jù)工具,究竟哪個(gè)更適合自己的業(yè)務(wù),相信開(kāi)發(fā)者們都有自己的評(píng)判標(biāo)準(zhǔn)。
在眾多的開(kāi)發(fā)語(yǔ)言中,大數(shù)據(jù)平臺(tái)開(kāi)發(fā)者們尤為青睞Java,占到了總比例的65%,遠(yuǎn)遠(yuǎn)超過(guò)其他開(kāi)發(fā)語(yǔ)言。值得一提的是,Hadoop本身就由Java實(shí)現(xiàn)的。
大數(shù)據(jù)開(kāi)發(fā)語(yǔ)言
在大數(shù)據(jù)分析語(yǔ)言中,SQL的使用比例達(dá)到了64%,是R語(yǔ)言使用者人數(shù)的2倍之多。我們從中不難看出SQL-on-XXX項(xiàng)目的前景;同時(shí)從R的支持率上,也看到了更多非技術(shù)人員,比如數(shù)據(jù)分析師對(duì)低門檻分析類語(yǔ)言的需求。
大數(shù)據(jù)分析通常用的語(yǔ)言
在大數(shù)據(jù)存儲(chǔ)上,HBase則以67.55%的比例位居榜首,遠(yuǎn)超其他數(shù)據(jù)倉(cāng)庫(kù),當(dāng)然這點(diǎn)與Hadoop原生支持是分不開(kāi)的。
大數(shù)據(jù)存儲(chǔ)中適合的數(shù)據(jù)庫(kù)
對(duì)存儲(chǔ)在HBase或Cassandra這樣NOSQL數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行復(fù)雜查詢,Solr、Elasticsearch、Splunk等主流的搜索引擎差距并不大。
篇二:大數(shù)據(jù)調(diào)研報(bào)告
摘要:大數(shù)據(jù)時(shí)代的數(shù)據(jù)格式特性 首先讓我們先來(lái)了解一下大數(shù)據(jù)時(shí)代的數(shù)據(jù)格式特性。從IT角度來(lái)看,信息結(jié)構(gòu)類型大致經(jīng)歷了三次浪潮。必須注意這一點(diǎn),新的浪潮并沒(méi)取代舊浪潮,它們?nèi)栽诓粩喟l(fā)展,三種數(shù)據(jù)結(jié)構(gòu)類型一直存在,只是其中一種結(jié)構(gòu)類型往往主導(dǎo)于其他結(jié)構(gòu):
結(jié)構(gòu)化信息這種信息可以在關(guān)...
根據(jù)IDC的調(diào)查報(bào)告預(yù)測(cè)到2020年全球電子設(shè)備存儲(chǔ)的數(shù)據(jù)將暴增30倍,達(dá)到35ZB(相當(dāng)于10億塊1TB的硬盤的容量)。大數(shù)據(jù)浪潮的到來(lái)也為企業(yè)帶來(lái)了新一輪的挑戰(zhàn)。對(duì)于有準(zhǔn)備的企業(yè)來(lái)說(shuō)這無(wú)疑是一座信息金礦,能夠合理的將大數(shù)據(jù)轉(zhuǎn)換為有價(jià)值信息成為未來(lái)企業(yè)的必備技能。恰逢此時(shí),CSDN專門針對(duì)企業(yè)相關(guān)人員進(jìn)行了大規(guī)模問(wèn)卷調(diào)研,并在數(shù)千份的調(diào)查報(bào)告中總結(jié)出現(xiàn)今企業(yè)大數(shù)據(jù)業(yè)務(wù)的現(xiàn)狀。在此我們也將調(diào)研結(jié)果展示與此以供大家參考。
大數(shù)據(jù)時(shí)代的數(shù)據(jù)格式特性
首先讓我們先來(lái)了解一下大數(shù)據(jù)時(shí)代的數(shù)據(jù)格式特性。從IT角度來(lái)看,信息結(jié)構(gòu)類型大致經(jīng)歷了三次浪潮。必須注意這一點(diǎn),新的浪潮并沒(méi)取代舊浪潮,它們?nèi)栽诓粩喟l(fā)展,三種數(shù)據(jù)結(jié)構(gòu)類型一直存在,只是其中一種結(jié)構(gòu)類型往往主導(dǎo)于其他結(jié)構(gòu):
結(jié)構(gòu)化信息——這種信息可以在關(guān)系數(shù)據(jù)庫(kù)中找到,多年來(lái)一直主導(dǎo)著IT應(yīng)用。這是關(guān)鍵任務(wù)OLTP系統(tǒng)業(yè)務(wù)所依賴的信息,另外,還可對(duì)結(jié)構(gòu)數(shù)據(jù)庫(kù)信息進(jìn)行排序和查詢;
半結(jié)構(gòu)化信息——這是IT的第二次浪潮,包括電子郵件,文字處理文件以及大量保存和發(fā)布在網(wǎng)絡(luò)上的信息。半結(jié)構(gòu)化信息是以內(nèi)容為基礎(chǔ),可以用于搜索,這也是谷歌存在的理由; 非結(jié)構(gòu)化信息——該信息在本質(zhì)形式上可認(rèn)為主要是位映射數(shù)據(jù)。數(shù)據(jù)必須處于一種可感知的形式中(諸如可在音頻、視頻和多媒體文件中被聽(tīng)或被看)。許多大數(shù)據(jù)都是非結(jié)構(gòu)化的,其龐大規(guī)模和復(fù)雜性需要高級(jí)分析工具來(lái)創(chuàng)建或利用一種更易于人們感知和交互的結(jié)構(gòu)。 企業(yè)內(nèi)部大數(shù)據(jù)處理基礎(chǔ)設(shè)施普遍落后
從調(diào)查結(jié)果可以看出,接近50%的企業(yè)服務(wù)器數(shù)量在100臺(tái)以內(nèi),而擁有100至500臺(tái)占據(jù)了22%的比例。500至2000臺(tái)服務(wù)器則占據(jù)剩下28.4%的比例?梢钥闯雒鎸(duì)大數(shù)據(jù)現(xiàn)今大部分企業(yè)還沒(méi)有完善其硬件基礎(chǔ)架構(gòu)設(shè)施。
以現(xiàn)階段企業(yè)內(nèi)大數(shù)據(jù)處理基礎(chǔ)設(shè)施的情況來(lái)看50%的企業(yè)面臨大數(shù)據(jù)處理的問(wèn)題(中小企業(yè)在面對(duì)大數(shù)據(jù)的解決之道應(yīng)遵循采集、導(dǎo)入/處理、查詢、挖掘的流程)。
但這只是暫時(shí)狀況,“廉價(jià)”服務(wù)器設(shè)施會(huì)隨著企業(yè)業(yè)務(wù)的發(fā)展逐漸被淘汰出歷史的舞臺(tái),在未來(lái)企業(yè)基礎(chǔ)架構(gòu)體系的硬件選用上,多核多路處理器以及SSD等設(shè)備會(huì)成為企業(yè)的首選。Facebook的Open Compute Project就在業(yè)界樹(shù)立了榜樣,Open Compute Project利用開(kāi)源社區(qū)的理念改善服務(wù)器硬件以及機(jī)架的設(shè)計(jì)。其數(shù)據(jù)中心PUE值也是領(lǐng)先與業(yè)內(nèi)的其他對(duì)手。
而在具有大數(shù)據(jù)處理需求的企業(yè)中52.2%的日數(shù)據(jù)生成量在100GB以下,日數(shù)據(jù)生成量100GB到50TB占據(jù)了43.5%,而令人驚訝的是,日數(shù)據(jù)生成量50TB以上也有4.4%的份額。數(shù)據(jù)量持續(xù)的增長(zhǎng),公司將被迫增加基礎(chǔ)設(shè)施的部署。專利費(fèi)用將一直增加,而開(kāi)源技術(shù),則省了這筆一直持續(xù)的專利費(fèi)。對(duì)于急需改變自己傳統(tǒng)IT架構(gòu)的企業(yè)而言,傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)的融合,成了所有人關(guān)心的問(wèn)題。
企業(yè)面對(duì)大數(shù)據(jù)處理的挑戰(zhàn)與問(wèn)題
現(xiàn)今大數(shù)據(jù)呈現(xiàn)出“4V + 1C”的特點(diǎn)。既Variety:一般包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化等多類數(shù)據(jù),而且它們處理和分析方式有區(qū)別;Volume:通過(guò)各種設(shè)備產(chǎn)生了大量的數(shù)據(jù),PB級(jí)別是常態(tài);Velocity:要求快速處理,存在時(shí)效性;Vitality:分析和處理模型必須快速變化,因?yàn)樾枨笤谧;Complexity:處理和分析的難度非常大。
從圖中我們可以看出資源利用率低、擴(kuò)展性差以及應(yīng)用部署過(guò)于復(fù)雜是現(xiàn)今企業(yè)數(shù)據(jù)系統(tǒng)架構(gòu)面臨的主要問(wèn)題。其實(shí)大數(shù)據(jù)的基礎(chǔ)架構(gòu)首要需要考慮就是前瞻性,隨著數(shù)據(jù)的不斷增長(zhǎng),用戶需要從硬體、軟件層面思考需要怎樣的架構(gòu)去實(shí)現(xiàn)。而具備資源高利用率、高擴(kuò)展性并對(duì)文件存儲(chǔ)友好的文件系統(tǒng)必將是未來(lái)的發(fā)展趨勢(shì)。
應(yīng)用部署過(guò)于復(fù)雜也催生了大數(shù)據(jù)處理系統(tǒng)管理員這一新興職業(yè),其主要負(fù)責(zé)日常Hadoop集群正常運(yùn)行。例如直接或間接的管理硬件,當(dāng)需要添加硬件時(shí)需保證集群仍能夠穩(wěn)定運(yùn)行。同時(shí)還要負(fù)責(zé)系統(tǒng)監(jiān)控和配置,保證Hadoop與其他系統(tǒng)的有機(jī)結(jié)合。而多格式數(shù)據(jù)、讀寫速度(讀寫速度是指數(shù)據(jù)從端點(diǎn)移動(dòng)到處理器和存儲(chǔ)的速度)以及海量數(shù)據(jù)是企業(yè)面臨大數(shù)據(jù)處理急需解決的技術(shù)挑戰(zhàn)。眾所周知隨著大容量數(shù)據(jù)(TB級(jí)、PB級(jí)甚至EB級(jí))的出現(xiàn),業(yè)務(wù)數(shù)據(jù)對(duì)IT系統(tǒng)帶來(lái)了更大的挑戰(zhàn),數(shù)據(jù)的存儲(chǔ)和安全以及在未來(lái)訪問(wèn)和使用這些數(shù)據(jù)已成為難點(diǎn)。同時(shí)大數(shù)據(jù)不只是關(guān)于數(shù)據(jù)量而已。大數(shù)據(jù)包括了越來(lái)越多不同格式的數(shù)據(jù),這些不同格式的數(shù)據(jù)也需要不同的處理方法。充分利用有用的數(shù)據(jù),廢棄虛偽無(wú)用的數(shù)據(jù),是數(shù)據(jù)挖掘技術(shù)的最重要的應(yīng)用。
企業(yè)內(nèi)部數(shù)據(jù)分析與挖掘工具應(yīng)用現(xiàn)狀 云時(shí)代企業(yè)數(shù)據(jù)挖掘面臨如下三點(diǎn)挑戰(zhàn)。挖掘效率:進(jìn)入云計(jì)算時(shí)代后,BI的思路發(fā)生了轉(zhuǎn)換。以前是基于封閉的企業(yè)數(shù)據(jù)進(jìn)行挖掘,而面對(duì)引入互聯(lián)網(wǎng)應(yīng)用后海量的異構(gòu)數(shù)據(jù)時(shí),目前并行挖掘算法的效率很低;多源數(shù)據(jù):引入云計(jì)算后,企業(yè)數(shù)據(jù)的位置有可能在提供公有云服務(wù)的平臺(tái)上,也可能在企業(yè)自建的私有云上,如何面對(duì)不同的數(shù)據(jù)源進(jìn)行挖掘也是一個(gè)挑戰(zhàn);異構(gòu)數(shù)據(jù):Web數(shù)據(jù)的最大特點(diǎn)就是半結(jié)構(gòu)化,如文檔、報(bào)表、網(wǎng)頁(yè)、聲音、圖像、視頻等,而云計(jì)算帶來(lái)了大量的基于互聯(lián)網(wǎng)模式提供的SaaS應(yīng)用,如何梳理有效數(shù)據(jù)是一個(gè)挑戰(zhàn)。
【大數(shù)據(jù)產(chǎn)品報(bào)告】相關(guān)文章:
中國(guó)大學(xué)生創(chuàng)業(yè)數(shù)據(jù)報(bào)告03-20
干部作風(fēng)大討論大整改的工作報(bào)告03-02
論十大關(guān)系的讀書(shū)報(bào)告02-01
八大心態(tài)感悟03-20
八大心態(tài)的感想感悟02-12
大瀑布的葬禮聽(tīng)后感03-19
八大心態(tài)的理解與感悟03-20