1. 大數(shù)據(jù)概述
1.1. 概述
大數(shù)據(jù),IT行業(yè)的又一次技術(shù)變革,大數(shù)據(jù)的浪潮洶涌而至,對(duì)國(guó)家治理、企業(yè)決策和個(gè)人生活都在產(chǎn)生深遠(yuǎn)的影響,并將成為云計(jì)算、物聯(lián)網(wǎng)之后信息技術(shù)產(chǎn)業(yè)領(lǐng)域又一重大創(chuàng)新變革。未來(lái)的十年將是一個(gè)“大數(shù)據(jù)”引領(lǐng)的智慧科技的時(shí)代、隨著社交網(wǎng)絡(luò)的逐漸成熟,移動(dòng)帶寬迅速提升、云計(jì)算、物聯(lián)網(wǎng)應(yīng)用更加豐富、更多的傳感設(shè)備、移動(dòng)終端接入到網(wǎng)絡(luò),由此而產(chǎn)生的數(shù)據(jù)及增長(zhǎng)速度將比歷史上的任何時(shí)期都要多、都要快。
數(shù)據(jù)技術(shù)發(fā)展歷史如圖一所示:
圖一
1.2. 大數(shù)據(jù)定義
“大數(shù)據(jù)”是一個(gè)涵蓋多種技術(shù)的概念,簡(jiǎn)單地說,是指無(wú)法在一定時(shí)間內(nèi)用常規(guī)軟件工具對(duì)其內(nèi)容進(jìn)行抓取、管理和處理的數(shù)據(jù)集合。IBM將“大數(shù)據(jù)”理念定義為4個(gè)V,即大量化(Volume)、多樣化(Variety)、快速化(Velocity)及由此產(chǎn)生的價(jià)值(Value)。如圖二;
圖二
要理解大數(shù)據(jù)這一概念,首先要從"大"入手,"大"是指數(shù)據(jù)規(guī)模,大數(shù)據(jù)一般指在10TB(1TB=1024GB)規(guī)模以上的數(shù)據(jù)量。大數(shù)據(jù)同過去的海量數(shù)據(jù)有所區(qū)別,其基本特征可以用4個(gè)V來(lái)總結(jié)(Vol-ume、Variety、Value和Veloc-ity),即體量大、多樣性、價(jià)值密度低、速度快。
? 數(shù)據(jù)體量巨大。從TB級(jí)別,躍升到PB級(jí)別。
? 數(shù)據(jù)類型繁多,如前文提到的網(wǎng)絡(luò)日志、視頻、圖片、地理位置信息,等等。
? 價(jià)值密度低。以視頻為例,連續(xù)不間斷監(jiān)控過程中,可能有用的數(shù)據(jù)僅僅有一兩秒。
? 處理速度快。1秒定律。最后這一點(diǎn)也是和傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)有著本質(zhì)的不同。物聯(lián)網(wǎng)、云計(jì)算、移動(dòng)互聯(lián)網(wǎng)、車聯(lián)網(wǎng)、手機(jī)、平板電腦、PC以及遍布地球各個(gè)角落的各種各樣的傳感器,無(wú)一不是數(shù)據(jù)來(lái)源或者承載的方式。
大數(shù)據(jù)技術(shù)是指從各種各樣類型的巨量數(shù)據(jù)中,快速獲得有價(jià)值信息的技術(shù)。解決大數(shù)據(jù)問題的核心是大數(shù)據(jù)技術(shù)。目前所說的"大數(shù)據(jù)"不僅指數(shù)據(jù)本身的規(guī)模,也包括采集數(shù)據(jù)的工具、平臺(tái)和數(shù)據(jù)分析系統(tǒng)。大數(shù)據(jù)研發(fā)目的是發(fā)展大數(shù)據(jù)技術(shù)并將其應(yīng)用到相關(guān)領(lǐng)域,通過解決巨量數(shù)據(jù)處理問題促進(jìn)其突破性發(fā)展。因此,大數(shù)據(jù)時(shí)代帶來(lái)的挑戰(zhàn)不僅體現(xiàn)在如何處理巨量數(shù)據(jù)從中獲取有價(jià)值的信息,也體現(xiàn)在如何加強(qiáng)大數(shù)據(jù)技術(shù)研發(fā),搶占時(shí)代發(fā)展的前沿。
1.3. 大數(shù)據(jù)技術(shù)發(fā)展
大數(shù)據(jù)技術(shù)描述了一種新一代技術(shù)和構(gòu)架,用于以很經(jīng)濟(jì)的方式、以高速的捕獲、發(fā)現(xiàn)和分析技術(shù),從各種超大規(guī)模的數(shù)據(jù)中提取價(jià)值,而且未來(lái)急劇增長(zhǎng)的數(shù)據(jù)迫切需要尋求新的處理技術(shù)手段。如圖三所示:
圖三
在“大數(shù)據(jù)”(Big data)時(shí)代,通過互聯(lián)網(wǎng)、社交網(wǎng)絡(luò)、物聯(lián)網(wǎng),人們能夠及時(shí)全面地獲得大信息。同時(shí),信息自身存在形式的變化與演進(jìn),也使得作為信息載體的數(shù)據(jù)以遠(yuǎn)超人們想象的速度迅速膨脹。
云時(shí)代的到來(lái)使得數(shù)據(jù)創(chuàng)造的主體由企業(yè)逐漸轉(zhuǎn)向個(gè)體,而個(gè)體所產(chǎn)生的絕大部分?jǐn)?shù)據(jù)為圖片、文檔、視頻等非結(jié)構(gòu)化數(shù)據(jù)。信息化技術(shù)的普及使得企業(yè)更多的辦公流程通過網(wǎng)絡(luò)得以實(shí)現(xiàn),由此產(chǎn)生的數(shù)據(jù)也以非結(jié)構(gòu)化數(shù)據(jù)為主。預(yù)計(jì)到2012年,非結(jié)構(gòu)化數(shù)據(jù)將達(dá)到互聯(lián)網(wǎng)整個(gè)數(shù)據(jù)量的75%以上。用于提取智慧的“大數(shù)據(jù)”,往往是這些非結(jié)構(gòu)化數(shù)據(jù)。傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)、BI、鏈路挖掘等應(yīng)用對(duì)數(shù)據(jù)處理的時(shí)間要求往往以小時(shí)或天為單位。但“大數(shù)據(jù)”應(yīng)用突出強(qiáng)調(diào)數(shù)據(jù)處理的實(shí)時(shí)性。在線個(gè)性化推薦、股票交易處理、實(shí)時(shí)路況信息等數(shù)據(jù)處理時(shí)間要求在分鐘甚至秒級(jí)。
全球技術(shù)研究和咨詢公司Gartner將“大數(shù)據(jù)”技術(shù)列入2012年對(duì)眾多公司和組織機(jī)構(gòu)具有戰(zhàn)略意義的十大技術(shù)與趨勢(shì)之一,而其他領(lǐng)域的研究,如云計(jì)算、下一代分析、內(nèi)存計(jì)算等也都與“大數(shù)據(jù)”的研究相輔相成。Gartner在其新興技術(shù)成熟度曲線中將“大數(shù)據(jù)”技術(shù)視為轉(zhuǎn)型技術(shù),這意味著“大數(shù)據(jù)”技術(shù)將在未來(lái)3—5年內(nèi)進(jìn)入主流。
而 “大數(shù)據(jù)”的多樣性決定了數(shù)據(jù)采集來(lái)源的復(fù)雜性,從智能傳感器到社交網(wǎng)絡(luò)數(shù)據(jù),從聲音圖片到在線交易數(shù)據(jù),可能性是無(wú)窮無(wú)盡的。選擇正確的數(shù)據(jù)來(lái)源并進(jìn)行交叉分析可以為企業(yè)創(chuàng)造最顯著的利益。隨著數(shù)據(jù)源的爆發(fā)式增長(zhǎng),數(shù)據(jù)的多樣性成為“大數(shù)據(jù)”應(yīng)用亟待解決的問題。例如如何實(shí)時(shí)地及通過各種數(shù)據(jù)庫(kù)管理系統(tǒng)來(lái)安全地訪問數(shù)據(jù),如何通過優(yōu)化存儲(chǔ)策略,評(píng)估當(dāng)前的數(shù)據(jù)存儲(chǔ)技術(shù)并改進(jìn)、加強(qiáng)數(shù)據(jù)存儲(chǔ)能力,最大限度地利用現(xiàn)有的存儲(chǔ)投資。從某種意義上說,數(shù)據(jù)將成為企業(yè)的核心資產(chǎn)。
“大數(shù)據(jù)”不僅是一場(chǎng)技術(shù)變革,更是一場(chǎng)商業(yè)模式變革。在“大數(shù)據(jù)”概念提出之前,盡管互聯(lián)網(wǎng)為傳統(tǒng)企業(yè)提供了一個(gè)新的銷售渠道,但總體來(lái)看,二者平行發(fā)展,鮮有交集。我們可以看到,無(wú)論是Google通過分析用戶個(gè)人信息,根據(jù)用戶偏好提供精準(zhǔn)廣告,還是Facebook將用戶的線下社會(huì)關(guān)系遷移在線上,構(gòu)造一個(gè)半真實(shí)的實(shí)名帝國(guó),但這些商業(yè)和消費(fèi)模式仍不能脫離互聯(lián)網(wǎng),傳統(tǒng)企業(yè)仍無(wú)法嫁接到互聯(lián)網(wǎng)中。同時(shí),傳統(tǒng)企業(yè)通過傳統(tǒng)的用戶分析工具卻很難獲得大范圍用戶的真實(shí)需求。
企業(yè)從大規(guī)模制造過渡到大規(guī)模定制,必須掌握用戶的需求特點(diǎn)。在互聯(lián)網(wǎng)時(shí)代,這些需求特征往往是在用戶不經(jīng)意的行為中透露出來(lái)的。通過對(duì)信息進(jìn)行關(guān)聯(lián)、參照、聚類、分類等方法分析,才能得到答案。
“大數(shù)據(jù)”在互聯(lián)網(wǎng)與傳統(tǒng)企業(yè)間建立一個(gè)交集。它推動(dòng)互聯(lián)網(wǎng)企業(yè)融合進(jìn)傳統(tǒng)企業(yè)的供應(yīng)鏈,并在傳統(tǒng)企業(yè)種下互聯(lián)網(wǎng)基因。傳統(tǒng)企業(yè)與互聯(lián)網(wǎng)企業(yè)的結(jié)合,網(wǎng)民和消費(fèi)者的融合,必將引發(fā)消費(fèi)模式、制造模式、管理模式的巨大變革。
大數(shù)據(jù)正成為IT行業(yè)全新的制高點(diǎn),各企業(yè)和組織紛紛助推大數(shù)據(jù)的發(fā)展,相關(guān)技術(shù)呈現(xiàn)百花齊放局面,并在互聯(lián)網(wǎng)應(yīng)用領(lǐng)域嶄露頭角,具體情況如下圖四所示:
圖四
大數(shù)據(jù)將帶來(lái)巨大的技術(shù)和商業(yè)機(jī)遇,大數(shù)據(jù)分析挖掘和利用將為企業(yè)帶來(lái)巨大的商業(yè)價(jià)值,而隨著應(yīng)用數(shù)據(jù)規(guī)模急劇增加,傳統(tǒng)計(jì)算面臨嚴(yán)重挑戰(zhàn),大規(guī)模數(shù)據(jù)處理和行業(yè)應(yīng)用需求日益增加和迫切出現(xiàn)越來(lái)越多的大規(guī)模數(shù)據(jù)處理應(yīng)用需求,傳統(tǒng)系統(tǒng)難以提供足夠的存儲(chǔ)和計(jì)算資源進(jìn)行處理,云計(jì)算技術(shù)是最理想的解決方案。調(diào)查顯示:目前,IT專業(yè)人員對(duì)云計(jì)算中諸多關(guān)鍵技術(shù)最為關(guān)心的是大規(guī)模數(shù)據(jù)并行處理技術(shù)大數(shù)據(jù)并行處理沒有通用和現(xiàn)成的解決方案對(duì)于應(yīng)用行業(yè)來(lái)說,云計(jì)算平臺(tái)軟件、虛擬化軟件都不需要自己開發(fā),但行業(yè)的大規(guī)模數(shù)據(jù)處理應(yīng)用沒有現(xiàn)成和通用的軟件,需要針對(duì)特定的應(yīng)用需求專門開發(fā),涉及到諸多并行化算法、索引查詢優(yōu)化技術(shù)研究、以及系統(tǒng)的設(shè)計(jì)實(shí)現(xiàn),這些都為大數(shù)據(jù)處理技術(shù)的發(fā)展提供了巨大的驅(qū)動(dòng)力。
2. 大數(shù)據(jù)應(yīng)用
2.1. 大數(shù)據(jù)應(yīng)用闡述
大數(shù)據(jù)能做什么?我們那么多地方探討大數(shù)據(jù),無(wú)非總結(jié)下來(lái)就做三件事:
第一,對(duì)信息的理解。你發(fā)的每一張圖片、每一個(gè)新聞、每一個(gè)廣告,這些都是信息,你對(duì)這個(gè)信息的理解是大數(shù)據(jù)重要的領(lǐng)域。
第二,用戶的理解,每個(gè)人的基本特征,你的潛在的特征,每個(gè)用戶上網(wǎng)的習(xí)慣等等,這些都是對(duì)用戶的理解。
第三,關(guān)系。關(guān)系才是我們的核心,信息與信息之間的關(guān)系,一條微博和另外一條微博之間的關(guān)系,一個(gè)廣告和另外一個(gè)廣告的關(guān)系。一條微博和一個(gè)視頻之間的關(guān)系,這些在我們?nèi)庋廴タ吹臅r(shí)候是相對(duì)簡(jiǎn)單的。
比如有條微博說這兩天朝鮮綁架我們船的事,那條微博也大概是談這件事的。人眼一眼就能看出來(lái)。但是用機(jī)器怎么能看出來(lái)這是一件事,以及他們之間的因果關(guān) 系,這是很有難度的。然后就是用戶與用戶之間的關(guān)系。哪些人你愿意收聽,是你的朋友,哪些是你感興趣的領(lǐng)域,你是一個(gè)音樂達(dá)人,你是一個(gè)吃貨,那個(gè)用戶也 是一個(gè)吃貨,你愿意收聽他。這就是用戶與用戶之間的關(guān)系理解。還有用戶與信息之間的理解,就是你對(duì)哪一類型的微博感興趣,你對(duì)哪一類型的信息感興趣,如果 牽扯到商業(yè)化,你對(duì)哪一類的廣告或者商品感興趣。其實(shí)就是用戶與信息之間的關(guān)系,他無(wú)非是做這件事。
大數(shù)據(jù)說的那么懸,其實(shí)主要是做三件事:對(duì)用戶的理解、對(duì)信息的理解、對(duì)關(guān)系的理解。如果我們?cè)谶@三件事之間還要提一件事的話,一個(gè)叫趨勢(shì)。 他也是關(guān)系的一種變種,只是關(guān)系稍微遠(yuǎn)一點(diǎn),情感之間的分析,還有我們政府部門做的輿情監(jiān)控。他可以監(jiān)控大規(guī)模的數(shù)據(jù),可以分析出人的動(dòng)向。在美國(guó)的好萊 塢,這兩年也是基于FACEBOOK和TIWTTER的數(shù)據(jù)來(lái)預(yù)測(cè)即將上映的電影的票房。他也是一個(gè)趨勢(shì)的分析,只是我們把這個(gè)趨勢(shì)提前來(lái)。核心就是這三件事。
2.2. 大數(shù)據(jù)應(yīng)用架構(gòu)
2.3. 大數(shù)據(jù)行業(yè)應(yīng)用
2.3.1. 醫(yī)療行業(yè)
1. Seton Healthcare是采用IBM最新沃森技術(shù)醫(yī)療保健內(nèi)容分析預(yù)測(cè)的首個(gè)客戶。該技術(shù)允許企業(yè)找到大量病人相關(guān)的臨床醫(yī)療信息,通過大數(shù)據(jù)處理,更好地分析病人的信息。
2. 在加拿大多倫多的一家醫(yī)院,針對(duì)早產(chǎn)嬰兒,每秒鐘有超過3000次的數(shù)據(jù)讀取。通過這些數(shù)據(jù)分析,醫(yī)院能夠提前知道哪些早產(chǎn)兒出現(xiàn)問題并且有針對(duì)性地采取措施,避免早產(chǎn)嬰兒夭折。
3. 它讓更多的創(chuàng)業(yè)者更方便地開發(fā)產(chǎn)品,比如通過社交網(wǎng)絡(luò)來(lái)收集數(shù)據(jù)的健康類App。也許未來(lái)數(shù)年后,它們搜集的數(shù)據(jù)能讓醫(yī)生給你的診斷變得更為精確,比方說不是通用的成人每日三次一次一片,而是檢測(cè)到你的血液中藥劑已經(jīng)代謝完成會(huì)自動(dòng)提醒你再次服藥。
2.3.2. 能源行業(yè)
1. 智能電網(wǎng)現(xiàn)在歐洲已經(jīng)做到了終端,也就是所謂的智能電表。在德國(guó),為了鼓勵(lì)利用太陽(yáng)能,會(huì)在家庭安裝太陽(yáng)能,除了賣電給你,當(dāng)你的太陽(yáng)能有多余電的時(shí)候還可以買回來(lái)。通過電網(wǎng)收集每隔五分鐘或十分鐘收集一次數(shù)據(jù),收集來(lái)的這些數(shù)據(jù)可以用來(lái)預(yù)測(cè)客戶的用電習(xí)慣等,從而推斷出在未來(lái)2~3個(gè)月時(shí)間里,整個(gè)電網(wǎng)大概需要多少電。有了這個(gè)預(yù)測(cè)后,就可以向發(fā)電或者供電企業(yè)購(gòu)買一定數(shù)量的電。因?yàn)殡娪悬c(diǎn)像期貨一樣,如果提前買就會(huì)比較便宜,買現(xiàn)貨就比較貴。通過這個(gè)預(yù)測(cè)后,可以降低采購(gòu)成本。
2. 維斯塔斯風(fēng)力系統(tǒng),依靠的是BigInsights軟件和IBM超級(jí)計(jì)算機(jī),然后對(duì)氣象數(shù)據(jù)進(jìn)行分析,找出安裝風(fēng)力渦輪機(jī)和整個(gè)風(fēng)電場(chǎng)最佳的地點(diǎn)。利用大數(shù)據(jù),以往需要數(shù)周的分析工作,現(xiàn)在僅需要不足1小時(shí)便可完成。
2.3.3. 通信行業(yè)
1. XO Communications通過使用IBM SPSS預(yù)測(cè)分析軟件,減少了將近一半的客戶流失率。XO現(xiàn)在可以預(yù)測(cè)客戶的行為,發(fā)現(xiàn)行為趨勢(shì),并找出存在缺陷的環(huán)節(jié),從而幫助公司及時(shí)采取措施,保留客戶。此外,IBM新的Netezza網(wǎng)絡(luò)分析加速器,將通過提供單個(gè)端到端網(wǎng)絡(luò)、服務(wù)、客戶分析視圖的可擴(kuò)展平臺(tái),幫助通信企業(yè)制定更科學(xué)、合理決策。
2. 電信業(yè)者透過數(shù)以千萬(wàn)計(jì)的客戶資料,能分析出多種使用者行為和趨勢(shì),賣給需要的企業(yè),這是全新的資料經(jīng)濟(jì)。
3. 中國(guó)移動(dòng)通過大數(shù)據(jù)分析,對(duì)企業(yè)運(yùn)營(yíng)的全業(yè)務(wù)進(jìn)行針對(duì)性的監(jiān)控、預(yù)警、跟蹤。系統(tǒng)在第一時(shí)間自動(dòng)捕捉市場(chǎng)變化,再以最快捷的方式推送給指定負(fù)責(zé)人,使他在最短時(shí)間內(nèi)獲知市場(chǎng)行情。
4. NTT docomo把手機(jī)位置信息和互聯(lián)網(wǎng)上的信息結(jié)合起來(lái),為顧客提供附近的餐飲店信息,接近末班車時(shí)間時(shí),提供末班車信息服務(wù)。
2.3.4. 零售業(yè)
1. "我們的某個(gè)客戶,是一家領(lǐng)先的專業(yè)時(shí)裝零售商,通過當(dāng)?shù)氐陌儇浬痰?、網(wǎng)絡(luò)及其郵購(gòu)目錄業(yè)務(wù)為客戶提供服務(wù)。公司希望向客戶提供差異化服務(wù),如何定位公司的差異化,他們通過從 Twitter 和 Facebook 上收集社交信息,更深入的理解化妝品的營(yíng)銷模式,隨后他們認(rèn)識(shí)到必須保留兩類有價(jià)值的客戶:高消費(fèi)者和高影響者。希望通過接受免費(fèi)化妝服務(wù),讓用戶進(jìn)行口碑宣傳,這是交易數(shù)據(jù)與交互數(shù)據(jù)的完美結(jié)合,為業(yè)務(wù)挑戰(zhàn)提供了解決方案。"Informatica的技術(shù)幫助這家零售商用社交平臺(tái)上的數(shù)據(jù)充實(shí)了客戶主數(shù)據(jù),使他的業(yè)務(wù)服務(wù)更具有目標(biāo)性。
2. 零售企業(yè)也監(jiān)控客戶的店內(nèi)走動(dòng)情況以及與商品的互動(dòng)。它們將這些數(shù)據(jù)與交易記錄相結(jié)合來(lái)展開分析,從而在銷售哪些商品、如何擺放貨品以及何時(shí)調(diào)整售價(jià)上給出意見,此類方法已經(jīng)幫助某領(lǐng)先零售企業(yè)減少了17%的存貨,同時(shí)在保持市場(chǎng)份額的前提下,增加了高利潤(rùn)率自有品牌商品的比例。