大數(shù)據(jù)概述
1.1. 概述
大數(shù)據(jù),IT行業(yè)的又一次技術(shù)變革,大數(shù)據(jù)的浪潮洶涌而至,對(duì)國(guó)家治理、企業(yè)決策和個(gè)人生活都在產(chǎn)生深遠(yuǎn)的影響,并將成為云計(jì)算、物聯(lián)網(wǎng)之后信息技術(shù)產(chǎn)業(yè)領(lǐng)域又一重大創(chuàng)新變革。未來(lái)的十年將是一個(gè)“大數(shù)據(jù)”引領(lǐng)的智慧科技的時(shí)代、隨著社交網(wǎng)絡(luò)的逐漸成熟,移動(dòng)帶寬迅速提升、云計(jì)算、物聯(lián)網(wǎng)應(yīng)用更加豐富、更多的傳感設(shè)備、移動(dòng)終端接入到網(wǎng)絡(luò),由此而產(chǎn)生的數(shù)據(jù)及增長(zhǎng)速度將比歷史上的任何時(shí)期都要多、都要快。
數(shù)據(jù)技術(shù)發(fā)展歷史如圖一所示:
圖一
1.2. 大數(shù)據(jù)定義
“大數(shù)據(jù)”是一個(gè)涵蓋多種技術(shù)的概念,簡(jiǎn)單地說(shuō),是指無(wú)法在一定時(shí)間內(nèi)用常規(guī)軟件工具對(duì)其內(nèi)容進(jìn)行抓取、管理和處理的數(shù)據(jù)集合。IBM將“大數(shù)據(jù)”理念定義為4個(gè)V,即大量化(Volume)、多樣化(Variety)、快速化(Velocity)及由此產(chǎn)生的價(jià)值(Value)。如圖二;
圖二
要理解大數(shù)據(jù)這一概念,首先要從"大"入手,"大"是指數(shù)據(jù)規(guī)模,大數(shù)據(jù)一般指在10TB(1TB=1024GB)規(guī)模以上的數(shù)據(jù)量。大數(shù)據(jù)同過(guò)去的海量數(shù)據(jù)有所區(qū)別,其基本特征可以用4個(gè)V來(lái)總結(jié)(Vol-ume、Variety、Value和Veloc-ity),即體量大、多樣性、價(jià)值密度低、速度快。
很多初學(xué)者,對(duì)大數(shù)據(jù)的概念都是模糊不清的,大數(shù)據(jù)是什么,能做什么,學(xué)的時(shí)候,該按照什么線路去學(xué)習(xí),學(xué)完往哪方面發(fā)展,想深入了解,想學(xué)習(xí)的同學(xué)歡迎加入大數(shù)據(jù)學(xué)習(xí)扣群:805127855,有大量干貨(零基礎(chǔ)以及進(jìn)階的經(jīng)典實(shí)戰(zhàn))分享給大家,并且有清華大學(xué)畢業(yè)的資深大數(shù)據(jù)講師給大家免費(fèi)授課,給大家分享目前國(guó)內(nèi)最完整的大數(shù)據(jù)高端實(shí)戰(zhàn)實(shí)用學(xué)習(xí)流程體系
? 數(shù)據(jù)體量巨大。從TB級(jí)別,躍升到PB級(jí)別。
? 數(shù)據(jù)類型繁多,如前文提到的網(wǎng)絡(luò)日志、視頻、圖片、地理位置信息,等等。
? 價(jià)值密度低。以視頻為例,連續(xù)不間斷監(jiān)控過(guò)程中,可能有用的數(shù)據(jù)僅僅有一兩秒。
? 處理速度快。1秒定律。最后這一點(diǎn)也是和傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)有著本質(zhì)的不同。物聯(lián)網(wǎng)、云計(jì)算、移動(dòng)互聯(lián)網(wǎng)、車聯(lián)網(wǎng)、手機(jī)、平板電腦、PC以及遍布地球各個(gè)角落的各種各樣的傳感器,無(wú)一不是數(shù)據(jù)來(lái)源或者承載的方式。
大數(shù)據(jù)技術(shù)是指從各種各樣類型的巨量數(shù)據(jù)中,快速獲得有價(jià)值信息的技術(shù)。解決大數(shù)據(jù)問(wèn)題的核心是大數(shù)據(jù)技術(shù)。目前所說(shuō)的"大數(shù)據(jù)"不僅指數(shù)據(jù)本身的規(guī)模,也包括采集數(shù)據(jù)的工具、平臺(tái)和數(shù)據(jù)分析系統(tǒng)。大數(shù)據(jù)研發(fā)目的是發(fā)展大數(shù)據(jù)技術(shù)并將其應(yīng)用到相關(guān)領(lǐng)域,通過(guò)解決巨量數(shù)據(jù)處理問(wèn)題促進(jìn)其突破性發(fā)展。因此,大數(shù)據(jù)時(shí)代帶來(lái)的挑戰(zhàn)不僅體現(xiàn)在如何處理巨量數(shù)據(jù)從中獲取有價(jià)值的信息,也體現(xiàn)在如何加強(qiáng)大數(shù)據(jù)技術(shù)研發(fā),搶占時(shí)代發(fā)展的前沿。
1.3. 大數(shù)據(jù)技術(shù)發(fā)展
大數(shù)據(jù)技術(shù)描述了一種新一代技術(shù)和構(gòu)架,用于以很經(jīng)濟(jì)的方式、以高速的捕獲、發(fā)現(xiàn)和分析技術(shù),從各種超大規(guī)模的數(shù)據(jù)中提取價(jià)值,而且未來(lái)急劇增長(zhǎng)的數(shù)據(jù)迫切需要尋求新的處理技術(shù)手段。如圖三所示:
圖三
在“大數(shù)據(jù)”(Big data)時(shí)代,通過(guò)互聯(lián)網(wǎng)、社交網(wǎng)絡(luò)、物聯(lián)網(wǎng),人們能夠及時(shí)全面地獲得大信息。同時(shí),信息自身存在形式的變化與演進(jìn),也使得作為信息載體的數(shù)據(jù)以遠(yuǎn)超人們想象的速度迅速膨脹。
云時(shí)代的到來(lái)使得數(shù)據(jù)創(chuàng)造的主體由企業(yè)逐漸轉(zhuǎn)向個(gè)體,而個(gè)體所產(chǎn)生的絕大部分?jǐn)?shù)據(jù)為圖片、文檔、視頻等非結(jié)構(gòu)化數(shù)據(jù)。信息化技術(shù)的普及使得企業(yè)更多的辦公流程通過(guò)網(wǎng)絡(luò)得以實(shí)現(xiàn),由此產(chǎn)生的數(shù)據(jù)也以非結(jié)構(gòu)化數(shù)據(jù)為主。預(yù)計(jì)到2012年,非結(jié)構(gòu)化數(shù)據(jù)將達(dá)到互聯(lián)網(wǎng)整個(gè)數(shù)據(jù)量的75%以上。用于提取智慧的“大數(shù)據(jù)”,往往是這些非結(jié)構(gòu)化數(shù)據(jù)。傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)、BI、鏈路挖掘等應(yīng)用對(duì)數(shù)據(jù)處理的時(shí)間要求往往以小時(shí)或天為單位。但“大數(shù)據(jù)”應(yīng)用突出強(qiáng)調(diào)數(shù)據(jù)處理的實(shí)時(shí)性。在線個(gè)性化推薦、股票交易處理、實(shí)時(shí)路況信息等數(shù)據(jù)處理時(shí)間要求在分鐘甚至秒級(jí)。
全球技術(shù)研究和咨詢公司Gartner將“大數(shù)據(jù)”技術(shù)列入2012年對(duì)眾多公司和組織機(jī)構(gòu)具有戰(zhàn)略意義的十大技術(shù)與趨勢(shì)之一,而其他領(lǐng)域的研究,如云計(jì)算、下一代分析、內(nèi)存計(jì)算等也都與“大數(shù)據(jù)”的研究相輔相成。Gartner在其新興技術(shù)成熟度曲線中將“大數(shù)據(jù)”技術(shù)視為轉(zhuǎn)型技術(shù),這意味著“大數(shù)據(jù)”技術(shù)將在未來(lái)3—5年內(nèi)進(jìn)入主流。
而 “大數(shù)據(jù)”的多樣性決定了數(shù)據(jù)采集來(lái)源的復(fù)雜性,從智能傳感器到社交網(wǎng)絡(luò)數(shù)據(jù),從聲音圖片到在線交易數(shù)據(jù),可能性是無(wú)窮無(wú)盡的。選擇正確的數(shù)據(jù)來(lái)源并進(jìn)行交叉分析可以為企業(yè)創(chuàng)造最顯著的利益。隨著數(shù)據(jù)源的爆發(fā)式增長(zhǎng),數(shù)據(jù)的多樣性成為“大數(shù)據(jù)”應(yīng)用亟待解決的問(wèn)題。例如如何實(shí)時(shí)地及通過(guò)各種數(shù)據(jù)庫(kù)管理系統(tǒng)來(lái)安全地訪問(wèn)數(shù)據(jù),如何通過(guò)優(yōu)化存儲(chǔ)策略,評(píng)估當(dāng)前的數(shù)據(jù)存儲(chǔ)技術(shù)并改進(jìn)、加強(qiáng)數(shù)據(jù)存儲(chǔ)能力,最大限度地利用現(xiàn)有的存儲(chǔ)投資。從某種意義上說(shuō),數(shù)據(jù)將成為企業(yè)的核心資產(chǎn)。
“大數(shù)據(jù)”不僅是一場(chǎng)技術(shù)變革,更是一場(chǎng)商業(yè)模式變革。在“大數(shù)據(jù)”概念提出之前,盡管互聯(lián)網(wǎng)為傳統(tǒng)企業(yè)提供了一個(gè)新的銷售渠道,但總體來(lái)看,二者平行發(fā)展,鮮有交集。我們可以看到,無(wú)論是Google通過(guò)分析用戶個(gè)人信息,根據(jù)用戶偏好提供精準(zhǔn)廣告,還是Facebook將用戶的線下社會(huì)關(guān)系遷移在線上,構(gòu)造一個(gè)半真實(shí)的實(shí)名帝國(guó),但這些商業(yè)和消費(fèi)模式仍不能脫離互聯(lián)網(wǎng),傳統(tǒng)企業(yè)仍無(wú)法嫁接到互聯(lián)網(wǎng)中。同時(shí),傳統(tǒng)企業(yè)通過(guò)傳統(tǒng)的用戶分析工具卻很難獲得大范圍用戶的真實(shí)需求。
企業(yè)從大規(guī)模制造過(guò)渡到大規(guī)模定制,必須掌握用戶的需求特點(diǎn)。在互聯(lián)網(wǎng)時(shí)代,這些需求特征往往是在用戶不經(jīng)意的行為中透露出來(lái)的。通過(guò)對(duì)信息進(jìn)行關(guān)聯(lián)、參照、聚類、分類等方法分析,才能得到答案。
“大數(shù)據(jù)”在互聯(lián)網(wǎng)與傳統(tǒng)企業(yè)間建立一個(gè)交集。它推動(dòng)互聯(lián)網(wǎng)企業(yè)融合進(jìn)傳統(tǒng)企業(yè)的供應(yīng)鏈,并在傳統(tǒng)企業(yè)種下互聯(lián)網(wǎng)基因。傳統(tǒng)企業(yè)與互聯(lián)網(wǎng)企業(yè)的結(jié)合,網(wǎng)民和消費(fèi)者的融合,必將引發(fā)消費(fèi)模式、制造模式、管理模式的巨大變革。
大數(shù)據(jù)正成為IT行業(yè)全新的制高點(diǎn),各企業(yè)和組織紛紛助推大數(shù)據(jù)的發(fā)展,相關(guān)技術(shù)呈現(xiàn)百花齊放局面,并在互聯(lián)網(wǎng)應(yīng)用領(lǐng)域嶄露頭角,具體情況如下圖四所示:
圖四
大數(shù)據(jù)將帶來(lái)巨大的技術(shù)和商業(yè)機(jī)遇,大數(shù)據(jù)分析挖掘和利用將為企業(yè)帶來(lái)巨大的商業(yè)價(jià)值,而隨著應(yīng)用數(shù)據(jù)規(guī)模急劇增加,傳統(tǒng)計(jì)算面臨嚴(yán)重挑戰(zhàn),大規(guī)模數(shù)據(jù)處理和行業(yè)應(yīng)用需求日益增加和迫切出現(xiàn)越來(lái)越多的大規(guī)模數(shù)據(jù)處理應(yīng)用需求,傳統(tǒng)系統(tǒng)難以提供足夠的存儲(chǔ)和計(jì)算資源進(jìn)行處理,云計(jì)算技術(shù)是最理想的解決方案。調(diào)查顯示:目前,IT專業(yè)人員對(duì)云計(jì)算中諸多關(guān)鍵技術(shù)最為關(guān)心的是大規(guī)模數(shù)據(jù)并行處理技術(shù)大數(shù)據(jù)并行處理沒(méi)有通用和現(xiàn)成的解決方案對(duì)于應(yīng)用行業(yè)來(lái)說(shuō),云計(jì)算平臺(tái)軟件、虛擬化軟件都不需要自己開(kāi)發(fā),但行業(yè)的大規(guī)模數(shù)據(jù)處理應(yīng)用沒(méi)有現(xiàn)成和通用的軟件,需要針對(duì)特定的應(yīng)用需求專門開(kāi)發(fā),涉及到諸多并行化算法、索引查詢優(yōu)化技術(shù)研究、以及系統(tǒng)的設(shè)計(jì)實(shí)現(xiàn),這些都為大數(shù)據(jù)處理技術(shù)的發(fā)展提供了巨大的驅(qū)動(dòng)力。
2
大數(shù)據(jù)應(yīng)用
2.1. 大數(shù)據(jù)應(yīng)用闡述
大數(shù)據(jù)能做什么?我們那么多地方探討大數(shù)據(jù),無(wú)非總結(jié)下來(lái)就做三件事:
第一,對(duì)信息的理解。你發(fā)的每一張圖片、每一個(gè)新聞、每一個(gè)廣告,這些都是信息,你對(duì)這個(gè)信息的理解是大數(shù)據(jù)重要的領(lǐng)域。
第二,用戶的理解,每個(gè)人的基本特征,你的潛在的特征,每個(gè)用戶上網(wǎng)的習(xí)慣等等,這些都是對(duì)用戶的理解。
第三,關(guān)系。關(guān)系才是我們的核心,信息與信息之間的關(guān)系,一條微博和另外一條微博之間的關(guān)系,一個(gè)廣告和另外一個(gè)廣告的關(guān)系。一條微博和一個(gè)視頻之間的關(guān)系,這些在我們?nèi)庋廴タ吹臅r(shí)候是相對(duì)簡(jiǎn)單的。
比如有條微博說(shuō)這兩天朝鮮綁架我們船的事,那條微博也大概是談這件事的。人眼一眼就能看出來(lái)。但是用機(jī)器怎么能看出來(lái)這是一件事,以及他們之間的因果關(guān) 系,這是很有難度的。然后就是用戶與用戶之間的關(guān)系。哪些人你愿意收聽(tīng),是你的朋友,哪些是你感興趣的領(lǐng)域,你是一個(gè)音樂(lè)達(dá)人,你是一個(gè)吃貨,那個(gè)用戶也 是一個(gè)吃貨,你愿意收聽(tīng)他。這就是用戶與用戶之間的關(guān)系理解。還有用戶與信息之間的理解,就是你對(duì)哪一類型的微博感興趣,你對(duì)哪一類型的信息感興趣,如果 牽扯到商業(yè)化,你對(duì)哪一類的廣告或者商品感興趣。其實(shí)就是用戶與信息之間的關(guān)系,他無(wú)非是做這件事。
大數(shù)據(jù)說(shuō)的那么懸,其實(shí)主要是做三件事:對(duì)用戶的理解、對(duì)信息的理解、對(duì)關(guān)系的理解。如果我們?cè)谶@三件事之間還要提一件事的話,一個(gè)叫趨勢(shì)。 他也是關(guān)系的一種變種,只是關(guān)系稍微遠(yuǎn)一點(diǎn),情感之間的分析,還有我們政府部門做的輿情監(jiān)控。他可以監(jiān)控大規(guī)模的數(shù)據(jù),可以分析出人的動(dòng)向。在美國(guó)的好萊 塢,這兩年也是基于FACEBOOK和TIWTTER的數(shù)據(jù)來(lái)預(yù)測(cè)即將上映的電影的票房。他也是一個(gè)趨勢(shì)的分析,只是我們把這個(gè)趨勢(shì)提前來(lái)。核心就是這三件事。
2.2. 大數(shù)據(jù)應(yīng)用架構(gòu)
2.3. 大數(shù)據(jù)行業(yè)應(yīng)用
2.3.1. 醫(yī)療行業(yè)
1. Seton Healthcare是采用IBM最新沃森技術(shù)醫(yī)療保健內(nèi)容分析預(yù)測(cè)的首個(gè)客戶。該技術(shù)允許企業(yè)找到大量病人相關(guān)的臨床醫(yī)療信息,通過(guò)大數(shù)據(jù)處理,更好地分析病人的信息。
2. 在加拿大多倫多的一家醫(yī)院,針對(duì)早產(chǎn)嬰兒,每秒鐘有超過(guò)3000次的數(shù)據(jù)讀取。通過(guò)這些數(shù)據(jù)分析,醫(yī)院能夠提前知道哪些早產(chǎn)兒出現(xiàn)問(wèn)題并且有針對(duì)性地采取措施,避免早產(chǎn)嬰兒夭折。
3. 它讓更多的創(chuàng)業(yè)者更方便地開(kāi)發(fā)產(chǎn)品,比如通過(guò)社交網(wǎng)絡(luò)來(lái)收集數(shù)據(jù)的健康類App。也許未來(lái)數(shù)年后,它們搜集的數(shù)據(jù)能讓醫(yī)生給你的診斷變得更為精確,比方說(shuō)不是通用的成人每日三次一次一片,而是檢測(cè)到你的血液中藥劑已經(jīng)代謝完成會(huì)自動(dòng)提醒你再次服藥。
2.3.2. 能源行業(yè)
1. 智能電網(wǎng)現(xiàn)在歐洲已經(jīng)做到了終端,也就是所謂的智能電表。在德國(guó),為了鼓勵(lì)利用太陽(yáng)能,會(huì)在家庭安裝太陽(yáng)能,除了賣電給你,當(dāng)你的太陽(yáng)能有多余電的時(shí)候還可以買回來(lái)。通過(guò)電網(wǎng)收集每隔五分鐘或十分鐘收集一次數(shù)據(jù),收集來(lái)的這些數(shù)據(jù)可以用來(lái)預(yù)測(cè)客戶的用電習(xí)慣等,從而推斷出在未來(lái)2~3個(gè)月時(shí)間里,整個(gè)電網(wǎng)大概需要多少電。有了這個(gè)預(yù)測(cè)后,就可以向發(fā)電或者供電企業(yè)購(gòu)買一定數(shù)量的電。因?yàn)殡娪悬c(diǎn)像期貨一樣,如果提前買就會(huì)比較便宜,買現(xiàn)貨就比較貴。通過(guò)這個(gè)預(yù)測(cè)后,可以降低采購(gòu)成本。
2. 維斯塔斯風(fēng)力系統(tǒng),依靠的是BigInsights軟件和IBM超級(jí)計(jì)算機(jī),然后對(duì)氣象數(shù)據(jù)進(jìn)行分析,找出安裝風(fēng)力渦輪機(jī)和整個(gè)風(fēng)電場(chǎng)最佳的地點(diǎn)。利用大數(shù)據(jù),以往需要數(shù)周的分析工作,現(xiàn)在僅需要不足1小時(shí)便可完成。
2.3.3. 通信行業(yè)
1. XO Communications通過(guò)使用IBM SPSS預(yù)測(cè)分析軟件,減少了將近一半的客戶流失率。XO現(xiàn)在可以預(yù)測(cè)客戶的行為,發(fā)現(xiàn)行為趨勢(shì),并找出存在缺陷的環(huán)節(jié),從而幫助公司及時(shí)采取措施,保留客戶。此外,IBM新的Netezza網(wǎng)絡(luò)分析加速器,將通過(guò)提供單個(gè)端到端網(wǎng)絡(luò)、服務(wù)、客戶分析視圖的可擴(kuò)展平臺(tái),幫助通信企業(yè)制定更科學(xué)、合理決策。
2. 電信業(yè)者透過(guò)數(shù)以千萬(wàn)計(jì)的客戶資料,能分析出多種使用者行為和趨勢(shì),賣給需要的企業(yè),這是全新的資料經(jīng)濟(jì)。
3. 中國(guó)移動(dòng)通過(guò)大數(shù)據(jù)分析,對(duì)企業(yè)運(yùn)營(yíng)的全業(yè)務(wù)進(jìn)行針對(duì)性的監(jiān)控、預(yù)警、跟蹤。系統(tǒng)在第一時(shí)間自動(dòng)捕捉市場(chǎng)變化,再以最快捷的方式推送給指定負(fù)責(zé)人,使他在最短時(shí)間內(nèi)獲知市場(chǎng)行情。
4. NTT docomo把手機(jī)位置信息和互聯(lián)網(wǎng)上的信息結(jié)合起來(lái),為顧客提供附近的餐飲店信息,接近末班車時(shí)間時(shí),提供末班車信息服務(wù)。
2.3.4. 零售業(yè)
1. "我們的某個(gè)客戶,是一家領(lǐng)先的專業(yè)時(shí)裝零售商,通過(guò)當(dāng)?shù)氐陌儇浬痰辍⒕W(wǎng)絡(luò)及其郵購(gòu)目錄業(yè)務(wù)為客戶提供服務(wù)。公司希望向客戶提供差異化服務(wù),如何定位公司的差異化,他們通過(guò)從 Twitter 和 Facebook 上收集社交信息,更深入的理解化妝品的營(yíng)銷模式,隨后他們認(rèn)識(shí)到必須保留兩類有價(jià)值的客戶:高消費(fèi)者和高影響者。希望通過(guò)接受免費(fèi)化妝服務(wù),讓用戶進(jìn)行口碑宣傳,這是交易數(shù)據(jù)與交互數(shù)據(jù)的完美結(jié)合,為業(yè)務(wù)挑戰(zhàn)提供了解決方案。"Informatica的技術(shù)幫助這家零售商用社交平臺(tái)上的數(shù)據(jù)充實(shí)了客戶主數(shù)據(jù),使他的業(yè)務(wù)服務(wù)更具有目標(biāo)性。
2. 零售企業(yè)也監(jiān)控客戶的店內(nèi)走動(dòng)情況以及與商品的互動(dòng)。它們將這些數(shù)據(jù)與交易記錄相結(jié)合來(lái)展開(kāi)分析,從而在銷售哪些商品、如何擺放貨品以及何時(shí)調(diào)整售價(jià)上給出意見(jiàn),此類方法已經(jīng)幫助某領(lǐng)先零售企業(yè)減少了17%的存貨,同時(shí)在保持市場(chǎng)份額的前提下,增加了高利潤(rùn)率自有品牌商品的比例。
3
大數(shù)據(jù)解決方案
3.1. 大數(shù)據(jù)技術(shù)組成
大數(shù)據(jù)技術(shù)由四種技術(shù)構(gòu)成,它們包括:
3.1.1. 分析技術(shù)
分析技術(shù)意味著對(duì)海量數(shù)據(jù)進(jìn)行分析以實(shí)時(shí)得出答案,由于大數(shù)據(jù)的特殊性,大數(shù)據(jù)分析技術(shù)還處于發(fā)展階段,老技術(shù)會(huì)日趨完善,新技術(shù)會(huì)更多出現(xiàn)。大數(shù)據(jù)分析技術(shù)涵蓋了以下的的五個(gè)方面
3.1.1.1. 可視化分析
數(shù)據(jù)可視化無(wú)論對(duì)于普通用戶或是數(shù)據(jù)分析專家,都是最基本的功能。數(shù)據(jù)圖像化可以讓數(shù)據(jù)自己說(shuō)話,讓用戶直觀的感受到結(jié)果。
3.1.1.2. 數(shù)據(jù)挖掘算法
圖像化是將機(jī)器語(yǔ)言翻譯給人看,而數(shù)據(jù)挖掘就是機(jī)器的母語(yǔ)。分割、集群、孤立點(diǎn)分析還有各種各樣五花八門的算法讓我們精煉數(shù)據(jù),挖掘價(jià)值。這些算法一定要能夠應(yīng)付大數(shù)據(jù)的量,同時(shí)還具有很高的處理速度。
3.1.1.3. 預(yù)測(cè)分析能力
數(shù)據(jù)挖掘可以讓分析師對(duì)數(shù)據(jù)承載信息更快更好地消化理解,進(jìn)而提升判斷的準(zhǔn)確性,而預(yù)測(cè)性分析可以讓分析師根據(jù)圖像化分析和數(shù)據(jù)挖掘的結(jié)果做出一些前瞻性判斷。
3.1.1.4. 語(yǔ)義引擎
非結(jié)構(gòu)化數(shù)據(jù)的多元化給數(shù)據(jù)分析帶來(lái)新的挑戰(zhàn),我們需要一套工具系統(tǒng)的去分析,提煉數(shù)據(jù)。語(yǔ)義引擎需要設(shè)計(jì)到有足夠的人工智能以足以從數(shù)據(jù)中主動(dòng)地提取信息。
3.1.1.5. 數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理
數(shù)據(jù)質(zhì)量與管理是管理的最佳實(shí)踐,透過(guò)標(biāo)準(zhǔn)化流程和機(jī)器對(duì)數(shù)據(jù)進(jìn)行處理可以確保獲得一個(gè)預(yù)設(shè)質(zhì)量的分析結(jié)果。
我們知道大數(shù)據(jù)分析技術(shù)最初起源于互聯(lián)網(wǎng)行業(yè)。網(wǎng)頁(yè)存檔、用戶點(diǎn)擊、商品信息、用戶關(guān)系等數(shù)據(jù)形成了持續(xù)增長(zhǎng)的海量數(shù)據(jù)集。這些大數(shù)據(jù)中蘊(yùn)藏著大量可以用于增強(qiáng)用戶體驗(yàn)、提高服務(wù)質(zhì)量和開(kāi)發(fā)新型應(yīng)用的知識(shí),而如何高效和準(zhǔn)確的發(fā)現(xiàn)這些知識(shí)就基本決定了各大互聯(lián)網(wǎng)公司在激烈競(jìng)爭(zhēng)環(huán)境中的位置。首先,以Google為首的技術(shù)型互聯(lián)網(wǎng)公司提出了MapReduce的技術(shù)框架,利用廉價(jià)的PC服務(wù)器集群,大規(guī)模并發(fā)處理批量事務(wù)。
利用文件系統(tǒng)存放非結(jié)構(gòu)化數(shù)據(jù),加上完善的備份和容災(zāi)策略,這套經(jīng)濟(jì)實(shí)惠的大數(shù)據(jù)解決方案與之前昂貴的企業(yè)小型機(jī)集群+商業(yè)數(shù)據(jù)庫(kù)方案相比,不僅沒(méi)有丟失性能,而且還贏在了可擴(kuò)展性上。之前,我們?cè)谠O(shè)計(jì)一個(gè)數(shù)據(jù)中心解決方案的前期,就要考慮到方案實(shí)施后的可擴(kuò)展性。通常的方法是預(yù)估今后一段時(shí)期內(nèi)的業(yè)務(wù)量和數(shù)據(jù)量,加入多余的計(jì)算單元(CPU)和存儲(chǔ),以備不時(shí)只需。
這樣的方式直接導(dǎo)致了前期一次性投資的巨大,并且即使這樣也依然無(wú)法保證計(jì)算需求和存儲(chǔ)超出設(shè)計(jì)量時(shí)的系統(tǒng)性能。而一旦需要擴(kuò)容,問(wèn)題就會(huì)接踵而來(lái)。首先是商業(yè)并行數(shù)據(jù)庫(kù)通常需要各節(jié)點(diǎn)物理同構(gòu),也就是具有近似的計(jì)算和存儲(chǔ)能力。而隨著硬件的更新,我們通常加入的新硬件都會(huì)強(qiáng)于已有的硬件。這樣,舊硬件就成為了系統(tǒng)的瓶頸。為了保證系統(tǒng)性能,我們不得不把舊硬件逐步替換掉,經(jīng)濟(jì)成本損失巨大。其次,即使是當(dāng)前最強(qiáng)的商業(yè)并行數(shù)據(jù)庫(kù),其所能管理的數(shù)據(jù)節(jié)點(diǎn)也只是在幾十或上百這個(gè)數(shù)量級(jí),這主要是由于架構(gòu)上的設(shè)計(jì)問(wèn)題,所以其可擴(kuò)展性必然有限。而MapReduce+GFS框架,不受上述問(wèn)題的困擾。需要擴(kuò)容了,只需增加個(gè)機(jī)柜,加入適當(dāng)?shù)挠?jì)算單元和存儲(chǔ),集群系統(tǒng)會(huì)自動(dòng)分配和調(diào)度這些資源,絲毫不影響現(xiàn)有系統(tǒng)的運(yùn)行
3.1.2. 存儲(chǔ)數(shù)據(jù)庫(kù)
存儲(chǔ)數(shù)據(jù)庫(kù)(In-Memory Databases)讓信息快速流通,大數(shù)據(jù)分析經(jīng)常會(huì)用到存儲(chǔ)數(shù)據(jù)庫(kù)來(lái)快速處理大量記錄的數(shù)據(jù)流通。比方說(shuō),它可以對(duì)某個(gè)全國(guó)性的連鎖店某天的銷售記錄進(jìn)行分析,得出某些特征進(jìn)而根據(jù)某種規(guī)則及時(shí)為消費(fèi)者提供獎(jiǎng)勵(lì)回饋。
但傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)嚴(yán)格的設(shè)計(jì)定式、為保證強(qiáng)一致性而放棄性能、可擴(kuò)展性差等問(wèn)題在大數(shù)據(jù)分析中被逐漸暴露。隨之而來(lái),NoSQL數(shù)據(jù)存儲(chǔ)模型開(kāi)始風(fēng)行。NoSQL,也有人理解為Not Only SQL,并不是一種特定的數(shù)據(jù)存儲(chǔ)模型,它是一類非關(guān)系型數(shù)據(jù)庫(kù)的統(tǒng)稱。其特點(diǎn)是:沒(méi)有固定的數(shù)據(jù)表模式、可以分布式和水平擴(kuò)展。NoSQL并不是單純的反對(duì)關(guān)系型數(shù)據(jù)庫(kù),而是針對(duì)其缺點(diǎn)的一種補(bǔ)充和擴(kuò)展。典型的NoSQL數(shù)據(jù)存儲(chǔ)模型有文檔存儲(chǔ)、鍵-值存儲(chǔ)、圖存儲(chǔ)、對(duì)象數(shù)據(jù)庫(kù)、列存儲(chǔ)等
NoSQL數(shù)據(jù)庫(kù)是一種建立在云平臺(tái)的新型數(shù)據(jù)處理模式,NoSQL在很多情況下又叫做云數(shù)據(jù)庫(kù)。由于其處理數(shù)據(jù)的模式完全是分布于各種低成本服務(wù)器和存儲(chǔ)磁盤,因此它可以幫助網(wǎng)頁(yè)和各種交互性應(yīng)用快速處理過(guò)程中的海量數(shù)據(jù)。它為Zynga、AOL、Cisco以及其它一些企業(yè)提供網(wǎng)頁(yè)應(yīng)用支持。正常的數(shù)據(jù)庫(kù)需要將數(shù)據(jù)進(jìn)行歸類組織,類似于姓名和帳號(hào)這些數(shù)據(jù)需要進(jìn)行結(jié)構(gòu)化和標(biāo)簽化。但是NoSQL數(shù)據(jù)庫(kù)則完全不關(guān)心這些,它能處理各種類型的文檔。
在處理海量數(shù)據(jù)同時(shí)請(qǐng)求時(shí),它也不會(huì)有任何問(wèn)題。比方說(shuō),如果有1000萬(wàn)人同時(shí)登錄某個(gè)Zynga游戲,它會(huì)將這些數(shù)據(jù)分布于全世界的服務(wù)器并通過(guò)它們來(lái)進(jìn)行數(shù)據(jù)處理,結(jié)果與1萬(wàn)人同時(shí)在線沒(méi)什么兩樣。現(xiàn)今有多種不同類型的NoSQL模式。商業(yè)化的模式如Couchbase、10gen的mongoDB以及Oracle的NoSQL;開(kāi)源免費(fèi)的模式如CouchDB和Cassandra;還有亞馬遜最新推出的NoSQL云服務(wù)。
3.1.3. 分布式計(jì)算技術(shù)
分布式計(jì)算結(jié)合了NoSQL與實(shí)時(shí)分析技術(shù),如果想要同時(shí)處理實(shí)時(shí)分析與NoSQL數(shù)據(jù)功能,那么你就需要分布式計(jì)算技術(shù)。分布式技術(shù)結(jié)合了一系列技術(shù),可以對(duì)海量數(shù)據(jù)進(jìn)行實(shí)時(shí)分析。更重要的是,它所使用的硬件非常便宜,因而讓這種技術(shù)的普及變成可能。SGI的Sunny Sundstrom解釋說(shuō),通過(guò)對(duì)那些看起來(lái)沒(méi)什么關(guān)聯(lián)和組織的數(shù)據(jù)進(jìn)行分析,我們可以獲得很多有價(jià)值的結(jié)果。比如說(shuō)可以分發(fā)現(xiàn)一些新的模式或者新的行為。運(yùn)用分布式計(jì)算技術(shù),銀行可以從消費(fèi)者的一些消費(fèi)行為和模式中識(shí)別網(wǎng)上交易的欺詐行為。
很多初學(xué)者,對(duì)大數(shù)據(jù)的概念都是模糊不清的,大數(shù)據(jù)是什么,能做什么,學(xué)的時(shí)候,該按照什么線路去學(xué)習(xí),學(xué)完往哪方面發(fā)展,想深入了解,想學(xué)習(xí)的同學(xué)歡迎加入大數(shù)據(jù)學(xué)習(xí)扣群:805127855,有大量干貨(零基礎(chǔ)以及進(jìn)階的經(jīng)典實(shí)戰(zhàn))分享給大家,并且有清華大學(xué)畢業(yè)的資深大數(shù)據(jù)講師給大家免費(fèi)授課,給大家分享目前國(guó)內(nèi)最完整的大數(shù)據(jù)高端實(shí)戰(zhàn)實(shí)用學(xué)習(xí)流程體系
分布式計(jì)算技術(shù)讓不可能變成可能,分布式計(jì)算技術(shù)正引領(lǐng)著將不可能變?yōu)榭赡堋kybox Imaging就是一個(gè)很好的例子。這家公司通過(guò)對(duì)衛(wèi)星圖片的分析得出一些實(shí)時(shí)結(jié)果,比如說(shuō)某個(gè)城市有多少可用停車空間,或者某個(gè)港口目前有多少船只。它們將這些實(shí)時(shí)結(jié)果賣給需要的客戶。沒(méi)有這個(gè)技術(shù),要想快速便宜的分析這么大量衛(wèi)星圖片數(shù)據(jù)將是不可能的。如圖五所示:
圖五
分布式計(jì)算技術(shù)是Google的核心,也是Yahoo的基礎(chǔ),目前分布式計(jì)算技術(shù)是基于Google創(chuàng)建的技術(shù),但是卻最新由Yahoo所建立。Google總共發(fā)表了兩篇論文,2004年發(fā)表的叫做MapReduce的論文介紹了如何在多計(jì)算機(jī)之間進(jìn)行數(shù)據(jù)處理;另一篇于2003年發(fā)表,主要是關(guān)于如何在多服務(wù)器上存儲(chǔ)數(shù)據(jù)。來(lái)自于Yahoo的工程師Doug Cutting在讀了這兩篇論文后建立了分布式計(jì)算平臺(tái),以他兒子的玩具大象命名。而Hadoop作為一個(gè)重量級(jí)的分布式處理開(kāi)源框架已經(jīng)在大數(shù)據(jù)處理領(lǐng)域有所作為
3.2. 大數(shù)據(jù)處理過(guò)程
3.2.1. 采集
大數(shù)據(jù)的采集是指利用多個(gè)數(shù)據(jù)庫(kù)來(lái)接收發(fā)自客戶端(Web、App或者傳感器形式等)的數(shù)據(jù),并且用戶可以通過(guò)這些數(shù)據(jù)庫(kù)來(lái)進(jìn)行簡(jiǎn)單的查詢和處理工作。比如,電商會(huì)使用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)MySQL和Oracle等來(lái)存儲(chǔ)每一筆事務(wù)數(shù)據(jù),除此之外,Redis和MongoDB這樣的NoSQL數(shù)據(jù)庫(kù)也常用于數(shù)據(jù)的采集。
在大數(shù)據(jù)的采集過(guò)程中,其主要特點(diǎn)和挑戰(zhàn)是并發(fā)數(shù)高,因?yàn)橥瑫r(shí)有可能會(huì)有成千上萬(wàn)的用戶來(lái)進(jìn)行訪問(wèn)和操作,比如火車票售票網(wǎng)站和淘寶,它們并發(fā)的訪問(wèn)量在峰值時(shí)達(dá)到上百萬(wàn),所以需要在采集端部署大量數(shù)據(jù)庫(kù)才能支撐。并且如何在這些數(shù)據(jù)庫(kù)之間進(jìn)行負(fù)載均衡和分片的確是需要深入的思考和設(shè)計(jì)。
3.2.2. 導(dǎo)入/預(yù)處理
雖然采集端本身會(huì)有很多數(shù)據(jù)庫(kù),但是如果要對(duì)這些海量數(shù)據(jù)進(jìn)行有效的分析,還是應(yīng)該將這些來(lái)自前端的數(shù)據(jù)導(dǎo)入到一個(gè)集中的大型分布式數(shù)據(jù)庫(kù),或者分布式存儲(chǔ)集群,并且可以在導(dǎo)入基礎(chǔ)上做一些簡(jiǎn)單的清洗和預(yù)處理工作。也有一些用戶會(huì)在導(dǎo)入時(shí)使用來(lái)自Twitter的Storm來(lái)對(duì)數(shù)據(jù)進(jìn)行流式計(jì)算,來(lái)滿足部分業(yè)務(wù)的實(shí)時(shí)計(jì)算需求。
導(dǎo)入與預(yù)處理過(guò)程的特點(diǎn)和挑戰(zhàn)主要是導(dǎo)入的數(shù)據(jù)量大,每秒鐘的導(dǎo)入量經(jīng)常會(huì)達(dá)到百兆,甚至千兆級(jí)別。
3.2.3. 統(tǒng)計(jì)/分析
統(tǒng)計(jì)與分析主要利用分布式數(shù)據(jù)庫(kù),或者分布式計(jì)算集群來(lái)對(duì)存儲(chǔ)于其內(nèi)的海量數(shù)據(jù)進(jìn)行普通的分析和分類匯總等,以滿足大多數(shù)常見(jiàn)的分析需求,在這方面,一些實(shí)時(shí)性需求會(huì)用到EMC的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存儲(chǔ)Infobright等,而一些批處理,或者基于半結(jié)構(gòu)化數(shù)據(jù)的需求可以使用Hadoop。
統(tǒng)計(jì)與分析這部分的主要特點(diǎn)和挑戰(zhàn)是分析涉及的數(shù)據(jù)量大,其對(duì)系統(tǒng)資源,特別是I/O會(huì)有極大的占用。
3.2.4. 挖掘
與前面統(tǒng)計(jì)和分析過(guò)程不同的是,數(shù)據(jù)挖掘一般沒(méi)有什么預(yù)先設(shè)定好的主題,主要是在現(xiàn)有數(shù)據(jù)上面進(jìn)行基于各種算法的計(jì)算,從而起到預(yù)測(cè)(Predict)的效果,從而實(shí)現(xiàn)一些高級(jí)別數(shù)據(jù)分析的需求。比較典型算法有用于聚類的Kmeans、用于統(tǒng)計(jì)學(xué)習(xí)的SVM和用于分類的NaiveBayes,主要使用的工具有Hadoop的Mahout等。該過(guò)程的特點(diǎn)和挑戰(zhàn)主要是用于挖掘的算法很復(fù)雜,并且計(jì)算涉及的數(shù)據(jù)量和計(jì)算量都很大,常用數(shù)據(jù)挖掘算法都以單線程為主。
整個(gè)大數(shù)據(jù)處理的普遍流程至少應(yīng)該滿足這四個(gè)方面的步驟,才能算得上是一個(gè)比較完整的大數(shù)據(jù)處理
3.3. 大數(shù)據(jù)處理的核心技術(shù)-Hadoop
大數(shù)據(jù)技術(shù)涵蓋了硬軟件多個(gè)方面的技術(shù),目前各種技術(shù)基本都獨(dú)立存在于存儲(chǔ)、開(kāi)發(fā)、平臺(tái)架構(gòu)、數(shù)據(jù)分析挖掘的各個(gè)相對(duì)獨(dú)立的領(lǐng)域。這一部分主要介紹和分析大數(shù)據(jù)處理的核心技術(shù)——Hadoop。
3.3.1. Hadoop的組成
大數(shù)據(jù)不同于傳統(tǒng)類型的數(shù)據(jù),它可能由TB甚至PB級(jí)信息組成,既包括結(jié)構(gòu)化數(shù)據(jù),也包括文本、多媒體等非結(jié)構(gòu)化數(shù)據(jù)。這些數(shù)據(jù)類型缺乏一致性,使得標(biāo)準(zhǔn)存儲(chǔ)技術(shù)無(wú)法對(duì)大數(shù)據(jù)進(jìn)行有效存儲(chǔ),而且我們也難以使用傳統(tǒng)的服務(wù)器和SAN方法來(lái)有效地存儲(chǔ)和處理龐大的數(shù)據(jù)量。這些都決定了“大數(shù)據(jù)”需要不同的處理方法,而Hadoop目前正是廣泛應(yīng)用的大數(shù)據(jù)處理技術(shù)。Hadoop是一個(gè)基于Java的分布式密集數(shù)據(jù)處理和數(shù)據(jù)分析的軟件框架。該框架在很大程度上受Google在2004年白皮書(shū)中闡述的MapReduce的技術(shù)啟發(fā)。Hadoop主要組件包含如圖七:
圖七
Hadoop Common:通用模塊,
? 支持其他Hadoop模塊
? Ha d o o p Di s t r i b u t e d Fi l eSystem(HDFS):分布式文件系統(tǒng),用以提供高流量的應(yīng)用數(shù)據(jù)訪問(wèn)
? Hadoop YARN:支持工作調(diào)度和集群資源管理的框架
? HadoopMapReduce:針對(duì)大數(shù)據(jù)的、靈活的并行數(shù)據(jù)處理框架
其他相關(guān)的模塊還有:
? ZooKeeper:高可靠性分布式協(xié)調(diào)系統(tǒng)
? Oozie:負(fù)責(zé)MapReduce作業(yè)調(diào)度
? HBase:可擴(kuò)展的分布式數(shù)據(jù)庫(kù),可以將結(jié)構(gòu)性數(shù)據(jù)存儲(chǔ)為大表
? Hive:構(gòu)建在MapRudece之上的數(shù)據(jù)倉(cāng)庫(kù)軟件包
? Pig:架構(gòu)在Hadoop之上的高級(jí)數(shù)據(jù)處理層
在Hadoop框架中,最底層的HDFS存儲(chǔ)Hadoop集群中所有存儲(chǔ)節(jié)點(diǎn)上的文件。HDFS的架構(gòu)是基于一組特定的節(jié)點(diǎn)構(gòu)建的(如圖八),
圖八
這些節(jié)點(diǎn)包括一個(gè)NameNode和大量的DataNode。存儲(chǔ)在HDFS中的文件被分成塊,然后將這些塊復(fù)制到多個(gè)計(jì)算機(jī)中(DataNode)。這與傳統(tǒng)的RAID架構(gòu)大不相同。塊的大小(通常為64MB)和復(fù)制的塊數(shù)量在創(chuàng)建文件時(shí)由客戶機(jī)決定。NameNode可以控制所有文件操作。HDFS內(nèi)部的所有通信都基于標(biāo)準(zhǔn)的TCP/IP協(xié)議。NameNode在HDFS內(nèi)部提供元數(shù)據(jù)服務(wù),負(fù)責(zé)管理文件系統(tǒng)名稱空間和控制外部客戶機(jī)的訪問(wèn)。它決定是否將文件映射到DataNode上的復(fù)制塊上。DataNode通常以機(jī)架的形式組織,機(jī)架通過(guò)一個(gè)交換機(jī)將所有系統(tǒng)連接起來(lái)。H a d o o p M a p R e d u c e 是Google MapReduce的開(kāi)源實(shí)現(xiàn)。MapReduce技術(shù)是一種簡(jiǎn)潔的并行計(jì)算模型,它在系統(tǒng)層面解決了擴(kuò)展性、容錯(cuò)性等問(wèn)題,通過(guò)接受用戶編寫的Map函數(shù)和Reduce函數(shù),自動(dòng)地在可伸縮的大規(guī)模集群上并行執(zhí)行,從而可以處理和分析大規(guī)模的數(shù)據(jù)[6]。Hadoop提供了大量的接口和抽象類,從而為Hadoop應(yīng)用程序開(kāi)發(fā)人員提供許多工具,可用于調(diào)試和性能度量等。在H a d o o p 應(yīng)用實(shí)例中,一個(gè)代表客戶機(jī)在單個(gè)主系統(tǒng)上啟動(dòng)Ma pRe d u c e的應(yīng)用程序稱為JobTracker。類似于NameNode,它是Ha d o o p 集群中唯一負(fù)責(zé)控制MapReduce應(yīng)用程序的系統(tǒng)。在應(yīng)用程序提交之后,將提供包含在HDFS中的輸入和輸出目錄。JobTr a cke r使用文件塊信息(物理量和位置)確定如何創(chuàng)建其他TaskTracker從屬任務(wù)。MapReduce應(yīng)用程序被復(fù)制到每個(gè)出現(xiàn)輸入文件塊的節(jié)點(diǎn),將為特定節(jié)點(diǎn)上的每個(gè)文件塊創(chuàng)建一個(gè)唯一的從屬任務(wù)。每個(gè)TaskTracker將狀態(tài)和完成信息報(bào)告給JobTracker。如圖顯示一個(gè)示例集群中的工作分布,如圖九:
圖九
3.3.2. Hadoop的優(yōu)點(diǎn):
Hadoop能夠使用戶輕松開(kāi)發(fā)和運(yùn)行處理大數(shù)據(jù)的應(yīng)用程序。它主要有以下幾個(gè)優(yōu)點(diǎn):
3.3.2.1. 高可靠性。
Hadoop按位存儲(chǔ)和處理數(shù)據(jù)的能力值得人們信賴。
3.3.2.2. 高擴(kuò)展性。很多初學(xué)者,對(duì)大數(shù)據(jù)的概念都是模糊不清的,大數(shù)據(jù)是什么,能做什么,學(xué)的時(shí)候,該按照什么線路去學(xué)習(xí),學(xué)完往哪方面發(fā)展,想深入了解,想學(xué)習(xí)的同學(xué)歡迎加入大數(shù)據(jù)學(xué)習(xí)扣群:805127855,有大量干貨(零基礎(chǔ)以及進(jìn)階的經(jīng)典實(shí)戰(zhàn))分享給大家,并且有清華大學(xué)畢業(yè)的資深大數(shù)據(jù)講師給大家免費(fèi)授課,給大家分享目前國(guó)內(nèi)最完整的大數(shù)據(jù)高端實(shí)戰(zhàn)實(shí)用學(xué)習(xí)流程體系
Hadoop是在可用的計(jì)算機(jī)集簇間分配數(shù)據(jù)并完成計(jì)算任務(wù)的,這些集簇可以方便地?cái)U(kuò)展到數(shù)以千計(jì)的節(jié)點(diǎn)中。
3.3.2.3. 高效性。
Hadoop能夠在節(jié)點(diǎn)之間動(dòng)態(tài)地移動(dòng)數(shù)據(jù),并保證各個(gè)節(jié)點(diǎn)的動(dòng)態(tài)平衡,因此處理速度非???。
3.3.2.4. 高容錯(cuò)性。
Hadoop能夠自動(dòng)保存數(shù)據(jù)的多個(gè)副本,并且能夠自動(dòng)將失敗的任務(wù)重新分配。Hadoop帶有用Java語(yǔ)言編寫的框架,因此運(yùn)行在Linux生產(chǎn)平臺(tái)上是非常理想的。Hadoop上的應(yīng)用程序也可以使用其他語(yǔ)言編寫,比如C++。
3.3.3. Hadoop的不足
Hadoop作為一個(gè)處理大數(shù)據(jù)的軟件框架,雖然受到眾多商業(yè)公司的青睞,但是其自身的技術(shù)特點(diǎn)也決定了它不能完全解決大數(shù)據(jù)問(wèn)題。在當(dāng)前Hadoop的設(shè)計(jì)中,所有的metadata操作都要通過(guò)集中式的NameNode來(lái)進(jìn)行,NameNode有可能是性能的瓶頸。當(dāng)前Hadoop單一NameNode、單一Jobtracker的設(shè)計(jì)嚴(yán)重制約了整個(gè)Hadoop可擴(kuò)展性和可靠性。首先,NameNode和JobTracker是整個(gè)系統(tǒng)中明顯的單點(diǎn)故障源。再次,單一NameNode的內(nèi)存容量有限,使得Hadoop集群的節(jié)點(diǎn)數(shù)量被限制到2000個(gè)左右,能支持的文件系統(tǒng)大小被限制在10-50PB,最多能支持的文件數(shù)量大約為1.5億左右。實(shí)際上,有用戶抱怨其集群的NameNode重啟需要數(shù)小時(shí),這大大降低了系統(tǒng)的可用性。隨著Hadoop被廣泛使用,面對(duì)各式各樣的需求,人們期望Hadoop能提供更多特性,比如完全可讀寫的文件系統(tǒng)、Snapshot、Mirror等等。這些都是當(dāng)前版本的Hadoop不支持,但是用戶又有強(qiáng)烈需求的。
3.3.4. 主要商業(yè)性“大數(shù)據(jù)”處理方案
“大數(shù)據(jù)”被科技企業(yè)看作是云計(jì)算之后的另一個(gè)巨大商機(jī),包括IBM、谷歌、亞馬遜和微軟在內(nèi)的一大批知名企業(yè)紛紛掘金這一市場(chǎng)。此外,很多初創(chuàng)企業(yè)也開(kāi)始加入到大數(shù)據(jù)的淘金隊(duì)伍中。Hadoop是非結(jié)構(gòu)數(shù)據(jù)庫(kù)的代表,低成本、高擴(kuò)展性和靈活性等優(yōu)勢(shì)使其成為各種面向大數(shù)據(jù)處理分析的商業(yè)服務(wù)方案的首選。Oracle、IBM、Microsoft三大商業(yè)數(shù)據(jù)提供商是Hadoop的主要支持者。很多知名企業(yè)都以Hadoop技術(shù)為基礎(chǔ)提供自己的商業(yè)性大數(shù)據(jù)解決方案。這一部分主要介紹以Hadoop為基礎(chǔ)的典型商業(yè)性大數(shù)據(jù)解決方案。
3.3.2.5. IBM InfoSphere大數(shù)據(jù)分析平臺(tái)
I B M于2 0 1 1 年5 月推出的InfoSphere大數(shù)據(jù)分析平臺(tái)是一款定位為企業(yè)級(jí)的大數(shù)據(jù)分析產(chǎn)品。該產(chǎn)品包括BigInsight s和Streams,二者互補(bǔ),Biglnsights基于Hadoop,對(duì)大規(guī)模的靜態(tài)數(shù)據(jù)進(jìn)行分析,它提供多節(jié)點(diǎn)的分布式計(jì)算,可以隨時(shí)增加節(jié)點(diǎn),提升數(shù)據(jù)處理能力。St reams采用內(nèi)存計(jì)算方式分析實(shí)時(shí)數(shù)據(jù)。它們將包括HadoopMapReduce在內(nèi)的開(kāi)源技術(shù)緊密地與IBM系統(tǒng)集成起來(lái)。研究Hadoop這樣開(kāi)源技術(shù)的人很多,但是IBM這次是真正將其變成了企業(yè)級(jí)的應(yīng)用,針對(duì)不同的人員增加不同的價(jià)值。InfoSphereBigInsight s 1.3的存儲(chǔ)和運(yùn)算框架采用了開(kāi)源的Ha d o o pMa pRe d u c e,同時(shí)針對(duì)Ha d o o p 框架進(jìn)行了改造,采用了IBM特有的通用并行文件系統(tǒng)——GPFS。利用GPFS的目的是為了避免單點(diǎn)故障,保證可用性。BigInsights中還有兩個(gè)分析產(chǎn)品——Cognos和SPSS,這兩個(gè)分析產(chǎn)品在傳統(tǒng)功能上加強(qiáng)了文本分析的功能,提供了一系列文本分析工具,并使用高級(jí)語(yǔ)言進(jìn)行自定義規(guī)則,如文本格式轉(zhuǎn)換等。目前BigInsights提供兩種版本,一種是企業(yè)版(Enterprise Edition),用于企業(yè)級(jí)的大數(shù)據(jù)分析解決方案。另一種是基礎(chǔ)版(Basic Edition),去掉了企業(yè)版中的大部分功能,用戶可以免費(fèi)下載,主要提供給開(kāi)發(fā)人員和合作伙伴試用。St r e ams 最大的特點(diǎn)就是內(nèi)存分析,利用多節(jié)點(diǎn)PC服務(wù)器的內(nèi)存來(lái)處理大批量的數(shù)據(jù)分析請(qǐng)求。St reams的特點(diǎn)就是“小快靈”,數(shù)據(jù)是實(shí)時(shí)流動(dòng)的,其分析反應(yīng)速度可以控制在毫秒級(jí)別,而B(niǎo)igInsights的分析是批處理,反應(yīng)速度無(wú)法同St reams相比??傮w來(lái)說(shuō),二者的設(shè)計(jì)架構(gòu)不同,也用于處理不同的大數(shù)據(jù)分析需求,并可以形成良好的互補(bǔ)。InfoSphere平臺(tái)僅僅是IBM大數(shù)據(jù)解決方案中的一部分。IBM大數(shù)據(jù)平臺(tái)包括4大部分:信息整合與治理組件、基于開(kāi)源Apache Hadoop的框架而實(shí)現(xiàn)的Bi g I n s i g h t s 平臺(tái)、加速器,以及包含可視化與發(fā)現(xiàn)、應(yīng)用程序開(kāi)發(fā)、系統(tǒng)管理的上層應(yīng)用。通過(guò)IBM的解決方案可以看出,解決大數(shù)據(jù)問(wèn)題不能僅僅依靠Hadoop。
3.3.2.6. Or a c l e Bi g Da t aApplianc
Oracle Big Data Appliance準(zhǔn)確地說(shuō)是一款硬件產(chǎn)品,添加了Hadoop裝載器、應(yīng)用適配器以及Or acle新的NoSQL數(shù)據(jù)庫(kù),主要目的是為了將非結(jié)構(gòu)化數(shù)據(jù)加載到關(guān)系型數(shù)據(jù)庫(kù)中去,并對(duì)軟硬件的集成做了一些優(yōu)化。Oracle BigData機(jī)包括開(kāi)源Apache Hadoop、Oracle NoSQL數(shù)據(jù)庫(kù)、Oracle數(shù)據(jù)集成Hadoop應(yīng)用適配器、OracleHa d o o p 裝載器、Op e n So u r c eDistribution of R、Oracle Linux和Oracle Java HotSpot虛擬機(jī)。它能夠快速、便捷地與Oracle數(shù)據(jù)庫(kù)11g、Oracle Exadata數(shù)據(jù)庫(kù)云服務(wù)器和Oracle Exalytics商務(wù)智能云服務(wù)器集成。分析師和統(tǒng)計(jì)人員可以運(yùn)行現(xiàn)有的R應(yīng)用,并利用R客戶端直接處理存儲(chǔ)在Oracle數(shù)據(jù)庫(kù)11g中的數(shù)據(jù),從而極大地提高可擴(kuò)展性、性能和安全性。
3.3.2.7. Mi c r o s o f t S QLServer
微軟已經(jīng)發(fā)布Hadoop Connectorfor SQL Se r ve r Pa r a l lel Dat aWarehouse和Hadoop Connectorfor SQL Ser ver社區(qū)技術(shù)預(yù)覽版本的連接器。該連接器是雙向的,用戶可以在Hadoop和微軟數(shù)據(jù)庫(kù)服務(wù)器之間向前或者向后遷移數(shù)據(jù)。微軟的SQL Server 2012將并入Hadoop分布式計(jì)算平臺(tái),微軟還將把Hadoop引入Windows Server和Azure(微軟的云服務(wù))。
3.3.2.8. Sybase IQ
Sybase IQ是Sybase公司推出的特別為數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)的關(guān)系型數(shù)據(jù)庫(kù),添加了Hadoop的集成,并提供了MapReduce的API。相比于傳統(tǒng)的“行式存儲(chǔ)”的關(guān)系型數(shù)據(jù)庫(kù),Sybase IQ使用了獨(dú)特的列式存儲(chǔ)方式,在進(jìn)行分析查詢時(shí),僅需讀取查詢所需的列,其垂直分區(qū)策略不僅能夠支持大量的用戶、大規(guī)模數(shù)據(jù),還可以提交對(duì)商業(yè)信息的高速訪問(wèn),其速度可達(dá)到傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)的百倍甚至千倍。
3.3.5. 其他“大數(shù)據(jù)”解決方案
“大數(shù)據(jù)”解決方案并非只有Hadoop一種,許多知名企業(yè)還提供了其他的解決方案。
3.3.2.9. EMC
EMC 提供了兩種大數(shù)據(jù)存儲(chǔ)方案,即Isilon和Atmos。Isilon能夠提供無(wú)限的橫向擴(kuò)展能力,Atmos是一款云存儲(chǔ)基礎(chǔ)架構(gòu),在內(nèi)容服務(wù)方面,Atmos是很好的解決方案。在數(shù)據(jù)分析方面,EMC提供的解決方案、提供的產(chǎn)品是Greenplum,Greenplum有兩個(gè)產(chǎn)品,第一是GreenplumDatabase,GreenplumDatabase是大規(guī)模的并行成立的數(shù)據(jù)庫(kù),它可以管理、存儲(chǔ)、分析PB量級(jí)的一些結(jié)構(gòu)性數(shù)據(jù),它下載的速度非常高,最高可以達(dá)到每小時(shí)10 T B,速度非常驚人。這是EMC可以提供給企業(yè)、政府,用來(lái)分析海量的數(shù)據(jù)。但是Gr e e n p l umDa t a b a s e面對(duì)的是結(jié)構(gòu)化數(shù)據(jù)。很多數(shù)據(jù)超過(guò)9 0 % 是非結(jié)構(gòu)化數(shù)據(jù),E M C 有另外一個(gè)產(chǎn)品是GreenplumHD,GreenplumHD可以把非結(jié)構(gòu)化的數(shù)據(jù)或者是半結(jié)構(gòu)化的數(shù)據(jù)轉(zhuǎn)換成結(jié)構(gòu)化數(shù)據(jù),然后讓GreenplumDatabase去處理。
3.3.2.10. BigQuery
BigQu e r y是Go og l e 推出的一項(xiàng)We b服務(wù),用來(lái)在云端處理大數(shù)據(jù)。該服務(wù)讓開(kāi)發(fā)者可以使用Go o g l e 的架構(gòu)來(lái)運(yùn)行SQL語(yǔ)句對(duì)超級(jí)大的數(shù)據(jù)庫(kù)進(jìn)行操作。BigQuery允許用戶上傳他們的超大量數(shù)據(jù)并通過(guò)其直接進(jìn)行交互式分析,從而不必投資建立自己的數(shù)據(jù)中心。Google曾表示BigQuery引擎可以快速掃描高達(dá)70TB未經(jīng)壓縮處理的數(shù)據(jù),并且可馬上得到分析結(jié)果。大數(shù)據(jù)在云端模型具備很多優(yōu)勢(shì),BigQuery服務(wù)無(wú)需組織提供或建立數(shù)據(jù)倉(cāng)庫(kù)。而B(niǎo)igQuery在安全性和數(shù)據(jù)備份服務(wù)方面也相當(dāng)完善。免費(fèi)帳號(hào)可以讓用戶每月訪問(wèn)高達(dá)100GB的數(shù)據(jù),用戶也可以付費(fèi)使用額外查詢和存儲(chǔ)空間。
3.3.6. 大數(shù)據(jù)”與科技文獻(xiàn)信息處理
“大數(shù)據(jù)”目前主要指醫(yī)學(xué)、天文、地理、Web日志、多媒體信息等數(shù)據(jù),鮮有提及文獻(xiàn)信息。事實(shí)上,現(xiàn)在的科技文獻(xiàn)信息日益凸顯出“大數(shù)據(jù)”的特征,主要表現(xiàn)在以下幾個(gè)方面:更新周期縮短;數(shù)量龐大;文獻(xiàn)的類型多樣;文獻(xiàn)載體數(shù)字化;文獻(xiàn)語(yǔ)種多樣化;文獻(xiàn)內(nèi)容交叉;文獻(xiàn)信息密度大??萍嘉墨I(xiàn)中所含的信息類型多樣,既有結(jié)構(gòu)性數(shù)據(jù),也有非結(jié)構(gòu)性文本和公式,如何利用“大數(shù)據(jù)”技術(shù)對(duì)文獻(xiàn)內(nèi)容進(jìn)行分析,挖掘用戶訪問(wèn)日志、評(píng)價(jià)反饋等數(shù)據(jù)的價(jià)值,為用戶提供服務(wù)成為科技信息服務(wù)業(yè)急需思考和解決的問(wèn)題。在科技文獻(xiàn)信息處理中,文本分析技術(shù)、語(yǔ)義計(jì)算技術(shù)、數(shù)據(jù)安全需要與“大數(shù)據(jù)”解決方案結(jié)合起來(lái)考慮實(shí)施,這樣才能更有效地提供知識(shí)服務(wù)。
很多初學(xué)者,對(duì)大數(shù)據(jù)的概念都是模糊不清的,大數(shù)據(jù)是什么,能做什么,學(xué)的時(shí)候,該按照什么線路去學(xué)習(xí),學(xué)完往哪方面發(fā)展,想深入了解,想學(xué)習(xí)的同學(xué)歡迎加入大數(shù)據(jù)學(xué)習(xí)扣群:805127855,有大量干貨(零基礎(chǔ)以及進(jìn)階的經(jīng)典實(shí)戰(zhàn))分享給大家,并且有清華大學(xué)畢業(yè)的資深大數(shù)據(jù)講師給大家免費(fèi)授課,給大家分享目前國(guó)內(nèi)最完整的大數(shù)據(jù)高端實(shí)戰(zhàn)實(shí)用學(xué)習(xí)流程體系
3.4. 大數(shù)據(jù)處理技術(shù)發(fā)展前景
隨著大數(shù)據(jù)時(shí)代的來(lái)臨,應(yīng)用越來(lái)越廣,其發(fā)展前景是很光明的。
3.4.1. 大數(shù)據(jù)復(fù)雜度降低
大數(shù)據(jù)技術(shù)的落地將會(huì)有兩個(gè)特點(diǎn):一個(gè)是對(duì)MapReduce依賴越來(lái)越少,另外一個(gè)是會(huì)把Hadoop技術(shù)深入的應(yīng)用到企業(yè)的軟件架構(gòu)中。對(duì)于第一個(gè)特點(diǎn),像Cloudera的Impala和微軟的PolyBase這樣的軟件會(huì)得到充分發(fā)展,他們繞開(kāi)了MapReduce,直接對(duì)存在HDFS中的數(shù)據(jù)進(jìn)行處理。對(duì)于第二個(gè)特點(diǎn),大規(guī)模的使用Hadoop是個(gè)必然趨勢(shì),漸漸的就會(huì)形成行業(yè)的標(biāo)準(zhǔn),進(jìn)而成為更有價(jià)值的軟件基礎(chǔ),而不僅是自己內(nèi)部使用。
3.4.2. 大數(shù)據(jù)細(xì)分市場(chǎng)
大數(shù)據(jù)相關(guān)技術(shù)的發(fā)展,將會(huì)創(chuàng)造出一些新的細(xì)分市場(chǎng)。例如,以數(shù)據(jù)分析和處理為主的高級(jí)數(shù)據(jù)服務(wù),將出現(xiàn)以數(shù)據(jù)分析作為服務(wù)產(chǎn)品提交的分析即服務(wù)(Analyze as a Service)業(yè)務(wù);將多種信息整合管理,創(chuàng)造對(duì)大數(shù)據(jù)統(tǒng)一的訪問(wèn)和分析的組件產(chǎn)品;基于社交網(wǎng)絡(luò)的社交大數(shù)據(jù)分析;甚至?xí)霈F(xiàn)大數(shù)據(jù)技能的培訓(xùn)市場(chǎng),教授數(shù)據(jù)分析課程等。
3.4.3. 大數(shù)據(jù)開(kāi)源
開(kāi)源軟件為大數(shù)據(jù)市場(chǎng)帶來(lái)更多機(jī)會(huì)。與人們的傳統(tǒng)理解不同,大數(shù)據(jù)市場(chǎng)開(kāi)源軟件的盛行不會(huì)抑制市場(chǎng)的商業(yè)機(jī)會(huì),相反開(kāi)源軟件將會(huì)給基礎(chǔ)架構(gòu)硬件、應(yīng)用程序開(kāi)發(fā)工具、應(yīng)用、服務(wù)等各個(gè)方面的相關(guān)領(lǐng)域帶來(lái)更多的機(jī)會(huì)。
3.4.4. Hadoop將加速發(fā)展
做為大數(shù)據(jù)領(lǐng)域的代表技術(shù),許多企業(yè)都把明年的計(jì)劃聚焦在Hadoop之上。據(jù)預(yù)測(cè),用戶對(duì)Hadoop的優(yōu)化將更注重硬件,同時(shí),對(duì)企業(yè)友好的Hadoop技術(shù)市場(chǎng)將達(dá)到前所未有的高峰。從整體上說(shuō),不僅是Hadoop本身本會(huì)得到迅猛的發(fā)展,同時(shí)Hadoop在多個(gè)數(shù)據(jù)中心中的配置和無(wú)縫集成技術(shù)也將成為熱門。Hadoop的專業(yè)知識(shí)正在飛速增長(zhǎng),但是這方面優(yōu)秀的人才仍然很缺乏?;赟QL的Hadoop工具將會(huì)得到持續(xù)發(fā)展”。
3.4.5. 打包的大數(shù)據(jù)行業(yè)分析應(yīng)用
隨著大數(shù)據(jù)逐漸走向各個(gè)行業(yè),基于行業(yè)的大數(shù)據(jù)分析應(yīng)用需求也日益增長(zhǎng)。未來(lái)幾年中針對(duì)特定行業(yè)和業(yè)務(wù)流程的分析應(yīng)用將會(huì)以預(yù)打包的形式出現(xiàn),這將為大數(shù)據(jù)技術(shù)供應(yīng)商打開(kāi)新的市場(chǎng)。這些分析應(yīng)用內(nèi)容還會(huì)覆蓋很多行業(yè)的專業(yè)知識(shí),也會(huì)吸引大量行業(yè)軟件開(kāi)發(fā)公司的投入。
3.4.6. 大數(shù)據(jù)分析的革命性方法出現(xiàn)
在大數(shù)據(jù)分析上,將出現(xiàn)革命性的新方法。就像計(jì)算機(jī)和互聯(lián)網(wǎng)一樣,大數(shù)據(jù)可能是新一波技術(shù)革命。從前的很多算法和基礎(chǔ)理論可能會(huì)產(chǎn)生理論級(jí)別的突破。
3.4.7. 大數(shù)據(jù)與云計(jì)算:深度融合
大數(shù)據(jù)處理離不開(kāi)云計(jì)算技術(shù),云計(jì)算為大數(shù)據(jù)提供彈性可擴(kuò)展的基礎(chǔ)設(shè)施支撐環(huán)境以及數(shù)據(jù)服務(wù)的高效模式,大數(shù)據(jù)則為云計(jì)算提供了新的商業(yè)價(jià)值,大數(shù)據(jù)技術(shù)與云計(jì)算技術(shù)必有更完美的結(jié)合。同樣的,云計(jì)算、物聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)等新興計(jì)算形態(tài),既是產(chǎn)生大數(shù)據(jù)的地方,也是需要大數(shù)據(jù)分析方法的領(lǐng)域。
3.4.8. 大數(shù)據(jù)一體機(jī)陸續(xù)發(fā)布
自云計(jì)算和大數(shù)據(jù)概念被提出后,針對(duì)該市場(chǎng)推出的軟硬件一體化設(shè)備就層出不窮。在未來(lái)幾年里,數(shù)據(jù)倉(cāng)庫(kù)一體機(jī)、NoSQL 一體機(jī)以及其它一些將多種技術(shù)結(jié)合的一體化設(shè)備將進(jìn)一步快速發(fā)展。