— “Big data is like teenage sex, everyone talks about it, nobody reallyknows how to do it, everyone thinks everyone else is doing it, so everyoneclaims they are doing it.”
So now the question is, whatis big data?
何為大數(shù)據(jù)
過去,大數(shù)據(jù)指的是那些數(shù)量龐大而復(fù)雜的數(shù)據(jù)集,其大小超出了常用軟件工具在可容忍的時間內(nèi)捕獲、管理和處理數(shù)據(jù)的能力。一個更能達成共識的定義就是:大數(shù)據(jù)代表的信息資產(chǎn)的特點是具有非常龐大的數(shù)量,產(chǎn)生的速度非??煲约皵?shù)據(jù)的多樣性,這些特點決定了需要特定的技術(shù)和分析方法來實現(xiàn)其價值的轉(zhuǎn)化。因此,其實近期“大數(shù)據(jù)”已經(jīng)很少用來指數(shù)據(jù)集的大小了,現(xiàn)在更傾向于指人們使用預(yù)測分析、用戶行為分析或某些其他高級的數(shù)據(jù)分析方法,從數(shù)據(jù)中提取信息創(chuàng)造價值。因為數(shù)據(jù)本身的價值是無法直接可見的,但是通過各種數(shù)據(jù)計算和分析,可以將人們無法注意到的信息從數(shù)據(jù)中提取出來,創(chuàng)造價值。
這也是為什么企業(yè)們紛紛想搭建大數(shù)據(jù)分析平臺的原因。每天企業(yè)的內(nèi)部運營支撐系統(tǒng)和外部與客戶的交互系統(tǒng)都能產(chǎn)生大量的數(shù)據(jù),如何利用這些數(shù)據(jù)向企業(yè)內(nèi)部和外部企業(yè)客戶提供具有極大商業(yè)價值的信息支撐和智能解決方案已經(jīng)成為企業(yè)的重要的無形資產(chǎn)。根據(jù)企業(yè)量身定做的大數(shù)據(jù)分析平臺,可為企業(yè)提供報表工具、分析工具、結(jié)合企業(yè)的實際需求進行的解決方案實施服務(wù);企業(yè)的管理人員、業(yè)務(wù)分析人員等也可以通過web、手機或者其他移動設(shè)備訪問,以便隨時了解企業(yè)的關(guān)鍵指標(biāo)和進行深度業(yè)務(wù)分析。
何為大數(shù)據(jù)分析平臺?
那么大數(shù)據(jù)分析平臺具體是長什么樣的呢?大部分數(shù)據(jù)分析平臺都會按照下圖的架構(gòu)去搭建。
首先,最底層的是各種各樣的數(shù)據(jù)源。當(dāng)今的IT生態(tài)系統(tǒng),需要對各種不同種類來源的數(shù)據(jù)進行分析。這些來源有可能是系統(tǒng)內(nèi)部的日志數(shù)據(jù),也有可能是來源于其他接口的數(shù)據(jù)等等。
然后從這些數(shù)據(jù)源采集各種符合企業(yè)需求的數(shù)據(jù),經(jīng)過驗證、清洗、并轉(zhuǎn)化為所需格式后,儲存到一個合適的持久化儲存層中。
下一階段是數(shù)據(jù)的處理和分析,包括從數(shù)據(jù)分析人員從原始數(shù)據(jù)中分析出來的一些拓展信息,在這一階段中的一部分干凈數(shù)據(jù)是去規(guī)范化的,包括對一些相關(guān)數(shù)據(jù)集的數(shù)據(jù)進行一些排序,在規(guī)定的時間間隔內(nèi)進行數(shù)據(jù)結(jié)果歸集,執(zhí)行機器學(xué)習(xí)算法,分析預(yù)測等。
最后一層,是可視化和展示各個不同分析算法處理過的結(jié)果。這個步驟包括從預(yù)先計算匯總的結(jié)果中讀取和用一種友好界面或者表格的形式展示出來,這樣便于企業(yè)內(nèi)部非專業(yè)人員對數(shù)據(jù)分析結(jié)果的理解。
大數(shù)據(jù)分析平臺的應(yīng)用
最基礎(chǔ)的大數(shù)據(jù)分析平臺有上述的幾層架構(gòu),如果是數(shù)據(jù)量龐大的企業(yè),會需要架構(gòu)更加復(fù)雜的分析平臺。
如果我們現(xiàn)在要為一間規(guī)模龐大的金融集團構(gòu)建大數(shù)據(jù)分析平臺,這個金融集團的基本現(xiàn)狀為其商城已經(jīng)建立面向整個零售業(yè)務(wù)的數(shù)據(jù)倉庫,整合了前臺業(yè)務(wù)運營數(shù)據(jù)和后臺管理數(shù)據(jù),建立了面向零售的管理分析應(yīng)用;并且開展了供應(yīng)鏈金融、人人貸和保理等多種業(yè)務(wù),積累了一定量的業(yè)務(wù)數(shù)據(jù),同時業(yè)務(wù)人員也從客戶管理、風(fēng)險評級和經(jīng)營規(guī)模預(yù)測等方面,提出了大量分析預(yù)測需求。但是該集團仍然存在一些問題,它的商城數(shù)據(jù)倉庫積累的數(shù)據(jù)沒有充分的利用,缺乏面向整個金融集團的統(tǒng)一、完整的數(shù)據(jù)視圖,以及缺乏支撐金融集團日常業(yè)務(wù)運轉(zhuǎn)的風(fēng)險評估體系和客戶的360度視圖,客戶行為分析和預(yù)測無法實現(xiàn)。
那么,想而知,對于這個集團目前建設(shè)基礎(chǔ)數(shù)據(jù)平臺和BI應(yīng)用是未來一段時間的重點。通過數(shù)據(jù)平臺和BI應(yīng)用建設(shè),他們可以搭建統(tǒng)一的大數(shù)據(jù)共享和分析平臺,對各類業(yè)務(wù)進行前瞻性預(yù)測分析,并為集團各層次用戶提供統(tǒng)一的決策分析支持,提升數(shù)據(jù)共享與流轉(zhuǎn)能力。下圖為該集團的大數(shù)據(jù)分析平臺的效果圖,可視為最終的建設(shè)目標(biāo)。
所以,這個集團的大數(shù)據(jù)分析平臺該如何構(gòu)建呢?
首先該集團的數(shù)據(jù)來源可分為兩大塊,一是源數(shù)據(jù)內(nèi)容:有內(nèi)部業(yè)務(wù)系統(tǒng)產(chǎn)生的結(jié)構(gòu)化數(shù)據(jù),如供應(yīng)商信息、客戶信息等,還有企業(yè)內(nèi)外部的非結(jié)構(gòu)化數(shù)據(jù),包括用戶訪問日志、用戶點評、投訴等;二是源數(shù)據(jù)增量,主要為商城和金融集團業(yè)務(wù)系統(tǒng)數(shù)據(jù)(見下圖):
這些數(shù)據(jù)需要通過數(shù)據(jù)交換平臺傳輸?shù)缴蠈庸┨幚碛嬎悖瑐鬏斀M件需根據(jù)數(shù)據(jù)源存儲結(jié)構(gòu)和存儲數(shù)據(jù)庫的特點的不同來設(shè)計,以追求性能的卓越。在數(shù)據(jù)存儲層之上,是數(shù)據(jù)計算層。大家看著數(shù)據(jù)計算層里面的結(jié)構(gòu)比較復(fù)雜,具體每一個區(qū)是一個什么功能下面為大家講解一下:
貼源數(shù)據(jù)區(qū)主要用于處理業(yè)務(wù)系統(tǒng)前日快照數(shù)據(jù)和一段時間的流水?dāng)?shù)據(jù),將數(shù)據(jù)標(biāo)準化,為后續(xù)主題模型、集市和沙盤演練提供數(shù)據(jù);
大數(shù)據(jù)區(qū)主要采集并存儲企業(yè)內(nèi)外部非結(jié)構(gòu)化、半結(jié)構(gòu)化的數(shù)據(jù),將其進行結(jié)構(gòu)化處理,最終得到結(jié)構(gòu)化數(shù)據(jù);歷史歸檔數(shù)據(jù)區(qū)適用于存儲其他各數(shù)據(jù)區(qū)的歷史數(shù)據(jù),按數(shù)據(jù)生命周期規(guī)劃歸檔平臺過期數(shù)據(jù),支撐歷史數(shù)據(jù)的查詢;
主題數(shù)據(jù)區(qū)用于處理業(yè)務(wù)系統(tǒng)例示明細,打破業(yè)務(wù)條線整合數(shù)據(jù),并對主題數(shù)據(jù)預(yù)加工后的處理結(jié)果,針對應(yīng)用需求進行數(shù)據(jù)預(yù)連接、預(yù)匯總,為集市提供數(shù)據(jù);
再上層的沙盤演練數(shù)據(jù)區(qū)是按照沙盤演練需求,準備明細或匯總業(yè)務(wù)數(shù)據(jù),為數(shù)據(jù)科學(xué)家的挖掘預(yù)測操作提供數(shù)據(jù)服務(wù);
而應(yīng)用集市數(shù)據(jù)區(qū)是面向企業(yè)內(nèi)部管理分析類應(yīng)用需求而匯總數(shù)據(jù),為客戶、運營等管理分析主題和數(shù)據(jù)增值產(chǎn)品提供數(shù)據(jù)服務(wù);增值產(chǎn)品區(qū)則是根據(jù)外部用戶數(shù)據(jù)使用需求數(shù)據(jù)平臺加工計算的結(jié)果數(shù)據(jù),為了部署在數(shù)據(jù)平臺上的企業(yè)內(nèi)外部增值產(chǎn)品提供數(shù)據(jù)支持;
實施數(shù)據(jù)區(qū)是面向應(yīng)用業(yè)務(wù)系統(tǒng)存儲快照數(shù)據(jù)和一段時間的交易流水,為實時獲準實時分析應(yīng)用提供數(shù)據(jù)服務(wù)。
然后再上層就是企業(yè)數(shù)據(jù)的各種應(yīng)用了,主要分為企業(yè)內(nèi)部的管理分析應(yīng)用;數(shù)據(jù)增
類產(chǎn)品的應(yīng)用,即數(shù)據(jù)科學(xué)家根據(jù)業(yè)務(wù)需求,設(shè)計并運行模型,發(fā)掘數(shù)據(jù)價值,并封裝成商業(yè)產(chǎn)品;沙盤演練應(yīng)用,這是業(yè)務(wù)人員根據(jù)業(yè)務(wù)需求,設(shè)計計算模型,準備各類明細或匯總數(shù)據(jù),導(dǎo)入模型運算,驗證業(yè)務(wù)結(jié)果;歷史數(shù)據(jù)類應(yīng)用以及高時效性的分析應(yīng)用。最終用一個用戶友好的界面將整個平臺封裝起來供用戶訪問。