大數(shù)據(jù)作為一種趨勢,正在席卷整個中國,尤其是重慶等地區(qū)。
現(xiàn)在,國家確定大數(shù)據(jù)戰(zhàn)略,在十三五期間“實(shí)施國家大數(shù)據(jù)戰(zhàn)略,推進(jìn)數(shù)據(jù)資源開放共享”,所以在政府和國有大企業(yè)都在大數(shù)據(jù)方面發(fā)力,推進(jìn)政府部門和企業(yè)內(nèi)部大數(shù)據(jù)整合及創(chuàng)新應(yīng)用的建設(shè),根據(jù)這幾年大數(shù)據(jù)方面建設(shè)經(jīng)驗(yàn),對大數(shù)據(jù)建設(shè)項目提出以下幾條建議。
第一步,建設(shè)大數(shù)據(jù)環(huán)境,主要包括基礎(chǔ)設(shè)施環(huán)境建設(shè),平臺建設(shè),基礎(chǔ)設(shè)施主要是硬件方面建設(shè),包括主機(jī)、網(wǎng)絡(luò)、存儲的建設(shè),大數(shù)據(jù)環(huán)境要求網(wǎng)絡(luò)帶寬一般至少千兆,數(shù)據(jù)量大,數(shù)據(jù)實(shí)時性要求高的,至少要求萬兆網(wǎng)絡(luò),主機(jī)根據(jù)需要可以采用X86系列的主機(jī),視計算能力和存儲要求配置主機(jī)臺數(shù)及CPU和存儲容量。平臺建設(shè)一般指大數(shù)據(jù)軟件環(huán)境,包括主機(jī)操作系統(tǒng)、大數(shù)據(jù)運(yùn)行環(huán)境(目前一般是Hadoop體系),常用中間件、數(shù)據(jù)庫等,中間件如tomcat、weblogic、websphere等,數(shù)據(jù)庫需要支持當(dāng)前主流數(shù)據(jù)庫,如Oracle、Mysql、Gbase等。
第二步,建設(shè)數(shù)據(jù)中心,采集各類用于數(shù)據(jù)分析、數(shù)據(jù)統(tǒng)計的數(shù)據(jù),包括組織內(nèi)部數(shù)據(jù)、組織外部相關(guān)數(shù)據(jù),及互聯(lián)網(wǎng)抓取的數(shù)據(jù)(作為參考)。并根據(jù)數(shù)據(jù)特點(diǎn)應(yīng)用場景不同,采取不同的存儲方式,如結(jié)構(gòu)化數(shù)據(jù),TB以下數(shù)據(jù)可以放在常用關(guān)系數(shù)據(jù)庫中,如Oracle數(shù)據(jù)庫,對于數(shù)據(jù)量巨大的數(shù)據(jù)可以存放MPP(分布式關(guān)系數(shù)據(jù)庫)或大數(shù)據(jù)環(huán)境的Hive、Hbase中,對于有靈活查詢需求的大數(shù)據(jù),建議存放MPP數(shù)據(jù)庫中,對于靜態(tài)的,主要用于統(tǒng)計分析的數(shù)據(jù),建議存放在Hive或Hbase中,采用Spark架構(gòu)實(shí)現(xiàn)數(shù)據(jù)的統(tǒng)計分析;對于非結(jié)構(gòu)化數(shù)據(jù),建議存放在Hbase或Hdfs上,擴(kuò)展性和穩(wěn)定性較好。
最后,基于數(shù)據(jù)中心,建設(shè)創(chuàng)新應(yīng)用,以前由于數(shù)據(jù)分散在不同的系統(tǒng)中,不能通過數(shù)據(jù)碰撞產(chǎn)生新的應(yīng)用,現(xiàn)在具備數(shù)據(jù)碰撞的條件了,一批新的創(chuàng)新應(yīng)用自然就會出現(xiàn)了,如常見的查找套牌車的應(yīng)用,通過獲取多地的車輛卡口數(shù)據(jù),可以輕松判定同時出現(xiàn)在相距遙遠(yuǎn)的車牌同時出現(xiàn),有一輛即為套牌車。再如民政系統(tǒng),通過采集房產(chǎn)信息、車輛信息、銀行相關(guān)信息,利用這些信息來驗(yàn)證低保用戶是否為真。房產(chǎn)信息聯(lián)網(wǎng),可以為房產(chǎn)政策提供真實(shí)的數(shù)據(jù),為國家決策提供基礎(chǔ)。、