如何使用大數(shù)據(jù)進行數(shù)據(jù)分析,數(shù)據(jù)挖掘,畫像和推薦,結合云計算來談談自己對于大數(shù)據(jù)的認識。
研究機構Gartner給出了這樣的定義:“大數(shù)據(jù)”是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。那什么是數(shù)據(jù)或者信息,數(shù)據(jù)是指事實或觀察的結果,是對客觀事物的邏輯歸納,是用于表示客觀事物的未經(jīng)加工的的原始素材。在互聯(lián)網(wǎng)領域,數(shù)據(jù)就是二進制單元,以0或1來表示。比如我們的用戶信息,商品的信息,地圖軟件導航的路徑,這些都是數(shù)據(jù),而且這些數(shù)據(jù)不是大數(shù)據(jù)的概念,而是互聯(lián)網(wǎng)應用必備的數(shù)據(jù)要求。那為什么在數(shù)據(jù)之前前綴是“大”?
大家都了解大數(shù)據(jù)的4個特點,海量的數(shù)據(jù)模型(volume),快速的數(shù)據(jù)流轉(velocity),多樣的數(shù)據(jù)類型(variety)和巨大的數(shù)據(jù)價值(value)。
海量的數(shù)據(jù),大數(shù)據(jù)的體量為什么在12年后爆發(fā)起來,是因為我們有能給力記錄巨量的數(shù)據(jù),或者中小企業(yè)有能力來存儲大數(shù)據(jù)。之前可能只有Google,BAT等企業(yè)才有能力記錄巨量的數(shù)據(jù),隨著15年云計算的大批量普及及云計算存儲能力的提升,大數(shù)據(jù)的存儲問題得以解決。單單記錄用戶的業(yè)務數(shù)據(jù)或者關鍵數(shù)據(jù),可能沒有數(shù)據(jù)存儲壓力,但是如果需要記錄所有的用戶軌跡,用戶的位置信息,用戶的其他額外有效信息等多樣的數(shù)據(jù)內(nèi)容,如何記錄多種類型的數(shù)據(jù),而且都是巨量數(shù)據(jù)。在云計算引入之后,我們就可以通過各種方式,通過云存儲記錄我們需要保存的多類型,海量的數(shù)據(jù)。
那么有了這么大的數(shù)據(jù)量,如何計算?如果沒有一個強有力的數(shù)據(jù)計算模型和巨量的計算資源,談何容易。對于10T以上的非關系型數(shù)據(jù)信息,怎么來獲取其中的我想要的業(yè)務邏輯?或者如果是100G以上的關系數(shù)據(jù),如何快速的獲取其中的關聯(lián)信息?如果我們通過傳統(tǒng)的計算方式,估計幾天幾夜的計算和資源的調(diào)配,才能將100G的數(shù)據(jù)梳理完成,并且得到結果。如果其中出錯,重新計算,那么對比起,可能還需要幾天幾夜。但是如果我們采用大數(shù)據(jù)計算,在用mapreduce等等技術,我們可能1小時就能夠把需要的數(shù)據(jù)計算出來,在云計算平臺的支持下。
大數(shù)據(jù)的基礎就是海量數(shù)據(jù)和快速的處理能力,我們需要挖掘數(shù)據(jù)的價值,從各種數(shù)據(jù)中進行關聯(lián)分析,找到我們想要的內(nèi)容。大數(shù)據(jù)的本質(zhì)不是海量的數(shù)據(jù),而是我們能夠通過各種不同的數(shù)據(jù)內(nèi)容,快速的進行驗證分析和交叉對比,能夠讓我們的數(shù)據(jù)分析和數(shù)據(jù)挖掘非常的精準和有效,達到定點打擊的效果。