只有量的積累的數(shù)據(jù),通常并不能稱之為大數(shù)據(jù)。除了大量性,大數(shù)據(jù)常常還應(yīng)該具有多維性和完備性。大數(shù)據(jù)的多維性,可以理解為針對單一“個(gè)體”(人/物/事件等)不同角度的數(shù)據(jù)。比如之前提到的:收集全國所有人的出生年月,單收集這一項(xiàng),數(shù)據(jù)單一缺乏意義;但如果再加入收入、所屬地區(qū)、受教育程度等等多維的信息,那數(shù)據(jù)本身就變得鮮活了。我們可以從數(shù)據(jù)中分析人口的地域分布、經(jīng)濟(jì)分布、教育分布等并在此基礎(chǔ)上給出宏觀的資源調(diào)控計(jì)劃。大數(shù)據(jù)的完備性,則可以理解為數(shù)據(jù)的全面性。比如2012年一位名叫內(nèi)德·斯威爾的年輕人,利用大數(shù)據(jù)成功預(yù)測了美國50+1個(gè)州的大選結(jié)果。他其實(shí)就是在投票前利用互聯(lián)網(wǎng)盡可能的搜集當(dāng)年的大選數(shù)據(jù)(如地方媒體數(shù)據(jù)、社交網(wǎng)絡(luò)留言、朋友間評論等),從而近似的知道每個(gè)人對大選的態(tài)度,并按照州進(jìn)行分類整理,最終成功預(yù)測了當(dāng)年的大選結(jié)果。缺少多維性的“大數(shù)據(jù)”會(huì)讓數(shù)據(jù)承載的信息“片面”,進(jìn)而導(dǎo)致數(shù)據(jù)本身的利用價(jià)值大大下降;缺乏完備性的數(shù)據(jù)則會(huì)由于缺乏“完備樣本”的支撐,也會(huì)使得獲取的信息“局限性”。大數(shù)據(jù)最好還應(yīng)具有“及時(shí)性”,但及時(shí)性卻并不是其必備條件,只是有了“及時(shí)性”的大數(shù)據(jù),會(huì)實(shí)現(xiàn)一些過去無法做到的事情。大數(shù)據(jù)的及時(shí)性,可以理解為數(shù)據(jù)收集的時(shí)效性。一方面,要分析當(dāng)前情況,就要盡可能使用與當(dāng)前時(shí)間點(diǎn)較為接近的數(shù)據(jù);另一方面,數(shù)據(jù)本身就在時(shí)刻產(chǎn)生(特別是今天的互聯(lián)網(wǎng)),新鮮的數(shù)據(jù)能更快速的反應(yīng)當(dāng)前社會(huì)的一些情況。比如使用百度地圖導(dǎo)航的時(shí)候,它能根據(jù)數(shù)據(jù)庫中人們當(dāng)前的(及時(shí)的數(shù)據(jù))車輛出行地點(diǎn),和即將要去的地方大概估算出此人的行程規(guī)劃,并通過眾多數(shù)據(jù)的整合估算出某一路段可能的堵塞情況,進(jìn)而在導(dǎo)航的時(shí)候給出“避免擁堵”的導(dǎo)航建議。
大數(shù)據(jù)產(chǎn)生價(jià)值的鏈路是:數(shù)據(jù)驅(qū)動(dòng)決策——決策實(shí)踐價(jià)值。國內(nèi)企業(yè)總是談數(shù)據(jù)變現(xiàn)實(shí)際是一種對大數(shù)據(jù)價(jià)值的歧義理解。企業(yè)面對的TO B或TO C不是個(gè)體單維度數(shù)據(jù)而是海量多維度數(shù)據(jù),單一數(shù)據(jù)不能提供任何決策依據(jù)。然而企業(yè)決策者往往對大數(shù)據(jù)的理解不夠清晰透徹,片面的認(rèn)為數(shù)據(jù)就是價(jià)值,花錢就要見效,把重點(diǎn)需求放在了所謂的上文說道的“有效數(shù)據(jù)上”當(dāng)然效果在短期是非常顯而易見的。而在利益驅(qū)動(dòng)下企業(yè)的方向就真的隨著“數(shù)據(jù)”驅(qū)動(dòng)決策了,如同你是正常人卻天天吸純氧,企業(yè)想的就不是產(chǎn)品緊貼市場需求、如何有效改進(jìn),增強(qiáng)市場競爭優(yōu)勢,而是圍繞相應(yīng)“數(shù)據(jù)”下進(jìn)行各種營銷。
接下來為大家推薦學(xué)習(xí)大數(shù)據(jù)時(shí)代的一份書單。
《為數(shù)據(jù)而生》全書分成四個(gè)部分。我給大家寫個(gè)梗概。:
1.大數(shù)據(jù)時(shí)代,用數(shù)據(jù)說話:
這一部分是引子。大數(shù)據(jù)時(shí)代,數(shù)據(jù)無處不在,我們每個(gè)人都制造更多數(shù)據(jù),也接受更多數(shù)據(jù)。量變引起質(zhì)變,大數(shù)據(jù)實(shí)際上已經(jīng)成為一種新的理念,它已經(jīng)引起商業(yè)模式、決策、生活方式等等的顛覆性變化。
所以作者認(rèn)為,大數(shù)據(jù)將會(huì)驅(qū)動(dòng)新的工業(yè)革命。計(jì)算效率的指數(shù)級提升,數(shù)據(jù)的數(shù)量、深度和廣度的增加,數(shù)據(jù)分析理論的進(jìn)步,對于個(gè)性化的追求,這四點(diǎn)為我們描繪了工業(yè)革命的新圖景。
2.大數(shù)據(jù)1.0:分析
用常規(guī)的統(tǒng)計(jì)學(xué)分析方法結(jié)合大數(shù)據(jù),能夠做到很多以前做不到的事情。數(shù)據(jù)總會(huì)呈現(xiàn)一些特征,當(dāng)異常情況出現(xiàn),我們就能從中偵測到有用的信息,正所謂“統(tǒng)計(jì)呈現(xiàn)洞見”。事物之間總有關(guān)聯(lián)與因果,通過分析數(shù)據(jù)中的關(guān)聯(lián)關(guān)系,便能使關(guān)聯(lián)創(chuàng)造價(jià)值。通過統(tǒng)計(jì)和關(guān)聯(lián)發(fā)掘特征之后,便能進(jìn)行預(yù)測,指導(dǎo)決策。
3.大數(shù)據(jù)2.0:外化
外化的意思包括兩點(diǎn)——
一方面是尋求外部數(shù)據(jù)的幫助。作者在電子科技大學(xué)采集學(xué)生日常行為數(shù)據(jù),發(fā)現(xiàn)了諸多“在寢室呆的越久,成績越差”、“進(jìn)圖書館次數(shù)越多,成績越好”甚至于“打水越多,成績越好”的關(guān)聯(lián)——而這些關(guān)聯(lián)的可信度,統(tǒng)統(tǒng)是由大數(shù)據(jù)支持的??梢?,為達(dá)到某種分析目標(biāo),可能需要借用看起來關(guān)聯(lián)度并不高的外部數(shù)據(jù)。但實(shí)際效果卻是非常有效的。
另一方面是自身數(shù)據(jù)的外部價(jià)值。Google對自己搜索引擎的搜索數(shù)據(jù)進(jìn)行挖掘,結(jié)果竟然建立了一個(gè)流感傳播趨勢的預(yù)測模型。在此之前,傳染病流行是一個(gè)非常復(fù)雜的統(tǒng)計(jì)問題,但基于先進(jìn)的大數(shù)據(jù)方法,Google僅用45個(gè)變量就將其趨勢刻畫出來了。
這一部分最后提到的是機(jī)器學(xué)習(xí),數(shù)據(jù)外化最神奇的利器。坦白說,這應(yīng)該是全書最難的一章,但卻是不得不讀的一章。作者常被問到,什么課程對于理解和應(yīng)用大數(shù)據(jù)最有幫助?他永遠(yuǎn)建議:統(tǒng)計(jì)理論和機(jī)器學(xué)習(xí)。真正厲害的大數(shù)據(jù)應(yīng)用,絕大部分都和機(jī)器學(xué)習(xí)有關(guān)系。作者還很形象地把機(jī)器學(xué)習(xí)模型比喻為程咬金的“三板斧”,包括特征、模型、融合三點(diǎn)。鑒于國內(nèi)很少有機(jī)器學(xué)習(xí)的入門資料,這一項(xiàng)艱深的技術(shù)對于初學(xué)者可以說是非常不友好。但至少在這本書里,我們能有一個(gè)大概的鳥瞰式了解。