大數(shù)據(jù)作為一種趨勢(shì),正在席卷整個(gè)中國(guó),尤其是發(fā)達(dá)地區(qū)。
現(xiàn)在,國(guó)家確定大數(shù)據(jù)戰(zhàn)略,在十三五期間“實(shí)施國(guó)家大數(shù)據(jù)戰(zhàn)略,推進(jìn)數(shù)據(jù)資源開放共享”,所以在政府和國(guó)有大企業(yè)都在大數(shù)據(jù)方面發(fā)力,推進(jìn)政府部門和企業(yè)內(nèi)部大數(shù)據(jù)整合及創(chuàng)新應(yīng)用的建設(shè),根據(jù)這幾年大數(shù)據(jù)方面建設(shè)經(jīng)驗(yàn),對(duì)大數(shù)據(jù)建設(shè)項(xiàng)目提出以下幾條建議。
第一步,建設(shè)大數(shù)據(jù)環(huán)境,主要包括基礎(chǔ)設(shè)施環(huán)境建設(shè),平臺(tái)建設(shè),基礎(chǔ)設(shè)施主要是硬件方面建設(shè),包括主機(jī)、網(wǎng)絡(luò)、存儲(chǔ)的建設(shè),大數(shù)據(jù)環(huán)境要求網(wǎng)絡(luò)帶寬一般至少千兆,數(shù)據(jù)量大,數(shù)據(jù)實(shí)時(shí)性要求高的,至少要求萬兆網(wǎng)絡(luò),主機(jī)根據(jù)需要可以采用X86系列的主機(jī),視計(jì)算能力和存儲(chǔ)要求配置主機(jī)臺(tái)數(shù)及CPU和存儲(chǔ)容量。平臺(tái)建設(shè)一般指大數(shù)據(jù)軟件環(huán)境,包括主機(jī)操作系統(tǒng)、大數(shù)據(jù)運(yùn)行環(huán)境(目前一般是Hadoop體系),常用中間件、數(shù)據(jù)庫等,中間件如tomcat、weblogic、websphere等,數(shù)據(jù)庫需要支持當(dāng)前主流數(shù)據(jù)庫,如Oracle、Mysql、Gbase等。
第二步,建設(shè)數(shù)據(jù)中心,采集各類用于數(shù)據(jù)分析、數(shù)據(jù)統(tǒng)計(jì)的數(shù)據(jù),包括組織內(nèi)部數(shù)據(jù)、組織外部相關(guān)數(shù)據(jù),及互聯(lián)網(wǎng)抓取的數(shù)據(jù)(作為參考)。并根據(jù)數(shù)據(jù)特點(diǎn)應(yīng)用場(chǎng)景不同,采取不同的存儲(chǔ)方式,如結(jié)構(gòu)化數(shù)據(jù),TB以下數(shù)據(jù)可以放在常用關(guān)系數(shù)據(jù)庫中,如Oracle數(shù)據(jù)庫,對(duì)于數(shù)據(jù)量巨大的數(shù)據(jù)可以存放MPP(分布式關(guān)系數(shù)據(jù)庫)或大數(shù)據(jù)環(huán)境的Hive、Hbase中,對(duì)于有靈活查詢需求的大數(shù)據(jù),建議存放MPP數(shù)據(jù)庫中,對(duì)于靜態(tài)的,主要用于統(tǒng)計(jì)分析的數(shù)據(jù),建議存放在Hive或Hbase中,采用Spark架構(gòu)實(shí)現(xiàn)數(shù)據(jù)的統(tǒng)計(jì)分析;對(duì)于非結(jié)構(gòu)化數(shù)據(jù),建議存放在Hbase或Hdfs上,擴(kuò)展性和穩(wěn)定性較好。
最后,基于數(shù)據(jù)中心,建設(shè)創(chuàng)新應(yīng)用,以前由于數(shù)據(jù)分散在不同的系統(tǒng)中,不能通過數(shù)據(jù)碰撞產(chǎn)生新的應(yīng)用,現(xiàn)在具備數(shù)據(jù)碰撞的條件了,一批新的創(chuàng)新應(yīng)用自然就會(huì)出現(xiàn)了,如常見的查找套牌車的應(yīng)用,通過獲取多地的車輛卡口數(shù)據(jù),可以輕松判定同時(shí)出現(xiàn)在相距遙遠(yuǎn)的車牌同時(shí)出現(xiàn),有一輛即為套牌車。再如民政系統(tǒng),通過采集房產(chǎn)信息、車輛信息、銀行相關(guān)信息,利用這些信息來驗(yàn)證低保用戶是否為真。房產(chǎn)信息聯(lián)網(wǎng),可以為房產(chǎn)政策提供真實(shí)的數(shù)據(jù),為國(guó)家決策提供基礎(chǔ)。
大數(shù)據(jù)整體架構(gòu)圖如下: