如何使用大數(shù)據(jù)進(jìn)行數(shù)據(jù)分析,數(shù)據(jù)挖掘,畫像和推薦,結(jié)合云計(jì)算來(lái)談?wù)勛约簩?duì)于大數(shù)據(jù)的認(rèn)識(shí)。
研究機(jī)構(gòu)Gartner給出了這樣的定義:“大數(shù)據(jù)”是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。那什么是數(shù)據(jù)或者信息,數(shù)據(jù)是指事實(shí)或觀察的結(jié)果,是對(duì)客觀事物的邏輯歸納,是用于表示客觀事物的未經(jīng)加工的的原始素材。在互聯(lián)網(wǎng)領(lǐng)域,數(shù)據(jù)就是二進(jìn)制單元,以0或1來(lái)表示。比如我們的用戶信息,商品的信息,地圖軟件導(dǎo)航的路徑,這些都是數(shù)據(jù),而且這些數(shù)據(jù)不是大數(shù)據(jù)的概念,而是互聯(lián)網(wǎng)應(yīng)用必備的數(shù)據(jù)要求。那為什么在數(shù)據(jù)之前前綴是“大”?
大家都了解大數(shù)據(jù)的4個(gè)特點(diǎn),海量的數(shù)據(jù)模型(volume),快速的數(shù)據(jù)流轉(zhuǎn)(velocity),多樣的數(shù)據(jù)類型(variety)和巨大的數(shù)據(jù)價(jià)值(value)。
海量的數(shù)據(jù),大數(shù)據(jù)的體量為什么在12年后爆發(fā)起來(lái),是因?yàn)槲覀冇心芙o力記錄巨量的數(shù)據(jù),或者中小企業(yè)有能力來(lái)存儲(chǔ)大數(shù)據(jù)。之前可能只有Google,BAT等企業(yè)才有能力記錄巨量的數(shù)據(jù),隨著15年云計(jì)算的大批量普及及云計(jì)算存儲(chǔ)能力的提升,大數(shù)據(jù)的存儲(chǔ)問(wèn)題得以解決。單單記錄用戶的業(yè)務(wù)數(shù)據(jù)或者關(guān)鍵數(shù)據(jù),可能沒(méi)有數(shù)據(jù)存儲(chǔ)壓力,但是如果需要記錄所有的用戶軌跡,用戶的位置信息,用戶的其他額外有效信息等多樣的數(shù)據(jù)內(nèi)容,如何記錄多種類型的數(shù)據(jù),而且都是巨量數(shù)據(jù)。在云計(jì)算引入之后,我們就可以通過(guò)各種方式,通過(guò)云存儲(chǔ)記錄我們需要保存的多類型,海量的數(shù)據(jù)。
那么有了這么大的數(shù)據(jù)量,如何計(jì)算?如果沒(méi)有一個(gè)強(qiáng)有力的數(shù)據(jù)計(jì)算模型和巨量的計(jì)算資源,談何容易。對(duì)于10T以上的非關(guān)系型數(shù)據(jù)信息,怎么來(lái)獲取其中的我想要的業(yè)務(wù)邏輯?或者如果是100G以上的關(guān)系數(shù)據(jù),如何快速的獲取其中的關(guān)聯(lián)信息?如果我們通過(guò)傳統(tǒng)的計(jì)算方式,估計(jì)幾天幾夜的計(jì)算和資源的調(diào)配,才能將100G的數(shù)據(jù)梳理完成,并且得到結(jié)果。如果其中出錯(cuò),重新計(jì)算,那么對(duì)比起,可能還需要幾天幾夜。但是如果我們采用大數(shù)據(jù)計(jì)算,在用mapreduce等等技術(shù),我們可能1小時(shí)就能夠把需要的數(shù)據(jù)計(jì)算出來(lái),在云計(jì)算平臺(tái)的支持下。
大數(shù)據(jù)的基礎(chǔ)就是海量數(shù)據(jù)和快速的處理能力,我們需要挖掘數(shù)據(jù)的價(jià)值,從各種數(shù)據(jù)中進(jìn)行關(guān)聯(lián)分析,找到我們想要的內(nèi)容。大數(shù)據(jù)的本質(zhì)不是海量的數(shù)據(jù),而是我們能夠通過(guò)各種不同的數(shù)據(jù)內(nèi)容,快速的進(jìn)行驗(yàn)證分析和交叉對(duì)比,能夠讓我們的數(shù)據(jù)分析和數(shù)據(jù)挖掘非常的精準(zhǔn)和有效,達(dá)到定點(diǎn)打擊的效果。