據(jù) IDC 預(yù)測,全球大數(shù)據(jù)市場規(guī)模有望在 2017 年達(dá) 530 億美元,并在未來幾年內(nèi)依然保持30%以上的年復(fù)合增長率。中國市場大數(shù)據(jù)研究雖然起步較晚,但是近幾年來在國家政策指引下,市場需求處于爆發(fā)期,發(fā)展迅速。
從細(xì)分產(chǎn)業(yè)來看,各大產(chǎn)業(yè)對(duì)大數(shù)據(jù)的呼聲越來越高,希望加快傳統(tǒng)產(chǎn)業(yè)數(shù)字化、智能化,做大做強(qiáng)數(shù)字經(jīng)濟(jì),為產(chǎn)業(yè)轉(zhuǎn)型升級(jí)提供新動(dòng)力。大數(shù)據(jù)需求旺盛,在金融、電信、政務(wù)、醫(yī)療、能源等行業(yè)已經(jīng)起步,并逐步向其他行業(yè)擴(kuò)展。
然而,由于大數(shù)據(jù)相關(guān)技術(shù)更新速度快、技術(shù)門檻高,多數(shù)傳統(tǒng)產(chǎn)業(yè)在這方面積累不足,大數(shù)據(jù)轉(zhuǎn)型過程中僅依靠自身力量困難重重,并且成本高昂。因此,希望有相關(guān)廠商提供成熟的大數(shù)據(jù)產(chǎn)品和一體化的解決方案。
解決方案介紹:大數(shù)據(jù)平臺(tái)架構(gòu)
由于數(shù)據(jù)的多源異構(gòu)、數(shù)據(jù)量大以及各種業(yè)務(wù)處理時(shí)間的不一致性,給大數(shù)據(jù)處理帶來了巨大挑戰(zhàn),僅靠單一的大數(shù)據(jù)處理技術(shù)無法滿足大數(shù)據(jù)處理需求。大數(shù)據(jù)平臺(tái)項(xiàng)目的建設(shè),應(yīng)采用當(dāng)前主流的技術(shù)架構(gòu)體系;技術(shù)工具自主可控,成熟先進(jìn);能支撐三到五年內(nèi)各類實(shí)時(shí)、近線、離線數(shù)據(jù)計(jì)算場景;隨著業(yè)務(wù)和數(shù)據(jù)規(guī)模的增加,通過分布式架構(gòu)可水平擴(kuò)充計(jì)算設(shè)備和存儲(chǔ)設(shè)備,實(shí)現(xiàn)資源的水平擴(kuò)展。
由大數(shù)據(jù)處理平臺(tái)總體架構(gòu)可以看出,其應(yīng)具備完整的大數(shù)據(jù)采集、整合、存儲(chǔ)、處理、分析、展現(xiàn)和管理能力。
數(shù)據(jù)集成
平臺(tái)提供統(tǒng)一的數(shù)據(jù)總線,在傳統(tǒng)ETL基礎(chǔ)上增加對(duì)非結(jié)構(gòu)化數(shù)據(jù)、流數(shù)據(jù)、互聯(lián)網(wǎng)數(shù)據(jù)的支撐,通過實(shí)時(shí)數(shù)據(jù)預(yù)處理或單獨(dú)的批量數(shù)據(jù)離線處理腳本,協(xié)同完成數(shù)據(jù)清洗、去重、打標(biāo)簽、索引化、分發(fā)等大數(shù)據(jù)管控和治理體系建設(shè)。
對(duì)于結(jié)構(gòu)化數(shù)據(jù),從技術(shù)實(shí)現(xiàn)上通過ETL工具進(jìn)行數(shù)據(jù)抽取。ETL工具基于業(yè)界主流的ETL產(chǎn)品Kettle來實(shí)現(xiàn),支持Oracle、DB2、SqlServer、MySQL等主流關(guān)系數(shù)據(jù)庫之間以及到Hadoop的數(shù)據(jù)抽取。
對(duì)于非結(jié)構(gòu)化數(shù)據(jù),特別是互聯(lián)網(wǎng)相關(guān)的網(wǎng)頁、圖片、視音頻文件等,主要通過分布式網(wǎng)絡(luò)爬蟲進(jìn)行獲取。該工具可實(shí)現(xiàn)數(shù)據(jù)采集、抽取、預(yù)處理、任務(wù)優(yōu)先級(jí)、任務(wù)監(jiān)控的靈活定義。通過與后端的智能化語義處理模塊協(xié)作,可實(shí)現(xiàn)高效的互聯(lián)網(wǎng)數(shù)據(jù)價(jià)值挖掘。
數(shù)據(jù)存儲(chǔ)
在數(shù)據(jù)存儲(chǔ)層面,傳統(tǒng)數(shù)據(jù)存儲(chǔ)方式在海量數(shù)據(jù)場景下,存儲(chǔ)容量和讀取性能方面都出現(xiàn)了明顯的弊端。數(shù)據(jù)通過不同渠道采集集成到平臺(tái)之后,平臺(tái)根據(jù)數(shù)據(jù)的使用方式等采用不同的分布式存儲(chǔ)技術(shù)進(jìn)行存儲(chǔ),使得整個(gè)數(shù)據(jù)環(huán)境具備高度的伸縮性和擴(kuò)展性,滿足未來快速增長的數(shù)據(jù)規(guī)模,并充分保證數(shù)據(jù)存儲(chǔ)方式的合理性及將來軟硬件的擴(kuò)展能力。除了原來的關(guān)系型數(shù)據(jù)庫外,大數(shù)據(jù)平臺(tái)還提供如下幾種存儲(chǔ)方式:
基于HDFS分布式文件系統(tǒng),將數(shù)據(jù)的訪問和存儲(chǔ)分布在大量服務(wù)器之中,在可靠的多備份存儲(chǔ)的同時(shí)還能將訪問分布在集群中的各個(gè)服務(wù)器之上,通過分布式存儲(chǔ)實(shí)現(xiàn)數(shù)據(jù)的冗余備份,并提升大數(shù)據(jù)的訪問存取性能,高效低成本地應(yīng)對(duì)海量非結(jié)構(gòu)化數(shù)據(jù)和不需要關(guān)聯(lián)分析、Ad-hoc查詢較少的低價(jià)值密度結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)和處理工作。
KV列式數(shù)據(jù)存儲(chǔ),針對(duì)結(jié)構(gòu)化數(shù)據(jù),采用與傳統(tǒng)數(shù)據(jù)庫類似的設(shè)計(jì)模型,支持?jǐn)?shù)字、字符串、二進(jìn)制和布爾值等多種數(shù)據(jù)類型;針對(duì)半結(jié)構(gòu)化數(shù)據(jù),則允許開發(fā)者自定義數(shù)據(jù)模型,提供多種數(shù)據(jù)訪問方式,助力高性能應(yīng)用程序的開發(fā)。
MPP數(shù)據(jù)存儲(chǔ),針對(duì)海量數(shù)據(jù)提供無共享的分布式、并行處理架構(gòu),應(yīng)對(duì)海量結(jié)構(gòu)化數(shù)據(jù)的分析挖掘場景。
內(nèi)存數(shù)據(jù)存儲(chǔ),基于全部數(shù)據(jù)都在內(nèi)存中的體系結(jié)構(gòu),在數(shù)據(jù)緩存、快速算法、并行操作方面進(jìn)行了相應(yīng)的改進(jìn),數(shù)據(jù)處理速度比傳統(tǒng)數(shù)據(jù)庫的數(shù)據(jù)處理速度提升很多,可以有效解決數(shù)據(jù)訪問延時(shí)的問題。
數(shù)據(jù)計(jì)算
集成豐富的計(jì)算框架
大規(guī)模數(shù)據(jù)計(jì)算與處理的場景復(fù)雜,性能要求高,因此需要采用分布式、可擴(kuò)展的計(jì)算和調(diào)度架構(gòu)。
離線計(jì)算:需要調(diào)度批量任務(wù)來操作大規(guī)模靜態(tài)數(shù)據(jù),適合實(shí)時(shí)性要求不高的場景。通過將一個(gè)大的任務(wù)劃分成多個(gè)部分,分別交給多個(gè)計(jì)算節(jié)點(diǎn)進(jìn)行處理,綜合得到最終結(jié)果。
流式計(jì)算:在數(shù)據(jù)的有效時(shí)間內(nèi)獲取其價(jià)值,是流式計(jì)算系統(tǒng)的首要設(shè)計(jì)目標(biāo)。因此,當(dāng)數(shù)據(jù)到來后將立即對(duì)其進(jìn)行計(jì)算,而不再對(duì)其進(jìn)行緩存等待后續(xù)全部數(shù)據(jù)到來再進(jìn)行計(jì)算。流式計(jì)算主要用在搜索、實(shí)時(shí)監(jiān)控統(tǒng)計(jì)、實(shí)時(shí)推薦、垃圾郵件處理等場景。
內(nèi)存計(jì)算:面對(duì)海量信息,傳統(tǒng)的技術(shù)架構(gòu)中需要讀取數(shù)據(jù),然后再進(jìn)行運(yùn)算,性能和效率不盡人如意。而內(nèi)存計(jì)算,將整個(gè)數(shù)據(jù)放入內(nèi)存,使每個(gè)事務(wù)在執(zhí)行過程中沒有I/O,相對(duì)于磁盤操作,內(nèi)存的數(shù)據(jù)讀寫速度要高出幾個(gè)數(shù)量級(jí)。
圖計(jì)算:分布式圖計(jì)算通過抽象分布式存儲(chǔ)、并行計(jì)算等復(fù)雜問題,高效處理巨型圖的各種操作,從噪音很多的海量數(shù)據(jù)中抽取有用的信息,可以挖掘人、物和實(shí)體之間的潛在、不易觀察的行為和聯(lián)系。
統(tǒng)一的調(diào)度管理和標(biāo)準(zhǔn)的開放服務(wù)
通過統(tǒng)一的資源調(diào)度框架,實(shí)現(xiàn)了不同計(jì)算框架的共享管理模式。通過這種共享管理模式,可以感知各節(jié)點(diǎn)的資源情況和計(jì)算壓力,自動(dòng)平衡和調(diào)度計(jì)算任務(wù),大大提升計(jì)算效率和資源有效利用率。
提供標(biāo)準(zhǔn)的開放服務(wù)接口,將計(jì)算能力以服務(wù)接口的方式進(jìn)行暴露,易理解、易調(diào)用。服務(wù)接口提供統(tǒng)一認(rèn)證,接口調(diào)用時(shí)需提供賬號(hào)、密碼、密鑰、租戶信息等獲取訪問憑證,保證服務(wù)訪問的安全可靠。
數(shù)據(jù)分析挖掘
智能搜索
智能搜索引擎把相關(guān)的結(jié)構(gòu)化和非結(jié)構(gòu)化內(nèi)容信息抽取出來并進(jìn)行建模,經(jīng)過中文分詞技術(shù)建立起索引,讓用戶通過搜索快速地訪問到這些信息,并能做到根據(jù)用戶的個(gè)性化做出合理的排序結(jié)果。
機(jī)器學(xué)習(xí)
機(jī)器學(xué)習(xí)提供方便易用的交互式界面,幫助使用者進(jìn)行離線批量預(yù)測或在線實(shí)時(shí)預(yù)測。預(yù)測過程運(yùn)行在分布式系統(tǒng)中,基于內(nèi)存進(jìn)行迭代式計(jì)算,可以對(duì)海量數(shù)據(jù)進(jìn)行預(yù)測,具備極強(qiáng)的擴(kuò)展性,每天可以生成十幾億條預(yù)測結(jié)果。針對(duì)預(yù)制值,允許人工調(diào)整和修改,以確保數(shù)據(jù)讀取的準(zhǔn)確性,從而提升預(yù)測命中率。支持成熟、豐富的數(shù)據(jù)挖掘算法,可以生成分類、聚集、回歸模型,適應(yīng)在多種行業(yè)的機(jī)器學(xué)習(xí)場景。
客戶收益:Insight將業(yè)界主流的新型數(shù)據(jù)處理技術(shù)、架構(gòu)框架、分析模型、服務(wù)理念等內(nèi)置在產(chǎn)品中,各行業(yè)客戶可以基于該產(chǎn)品快速搭建起安全可靠、高效智能的大數(shù)據(jù)平臺(tái),快速實(shí)現(xiàn)傳統(tǒng)產(chǎn)業(yè)數(shù)字化、智能化,做大做強(qiáng)數(shù)字經(jīng)濟(jì),為產(chǎn)業(yè)轉(zhuǎn)型升級(jí)提供新動(dòng)力。
快速實(shí)現(xiàn)多源數(shù)據(jù)整合,挖掘數(shù)據(jù)全新價(jià)值
實(shí)現(xiàn)內(nèi)外部信息資源的有效整合,全面提升數(shù)據(jù)共享和信息聯(lián)動(dòng)的運(yùn)轉(zhuǎn)效率,挖掘數(shù)據(jù)全新價(jià)值,支持決策管理。
大幅減少數(shù)據(jù)計(jì)算時(shí)間,提升業(yè)務(wù)效率
具有并行處理架構(gòu)、內(nèi)存計(jì)算等多重機(jī)制,保證數(shù)據(jù)加載、計(jì)算、訪問等各個(gè)環(huán)節(jié)數(shù)據(jù)處理效率最大化,提升業(yè)務(wù)效率。
實(shí)現(xiàn)在線擴(kuò)容,提升系統(tǒng)穩(wěn)定性
支持集群在線擴(kuò)展,支持?jǐn)?shù)據(jù)存儲(chǔ)、加載和查詢性能線性增長,并具備多層次的容錯(cuò)、自動(dòng)檢測和自動(dòng)恢復(fù)機(jī)制,保證系統(tǒng)安全可用,降低業(yè)務(wù)停頓和運(yùn)維風(fēng)險(xiǎn)。
提供大數(shù)據(jù)分析能力,提升業(yè)務(wù)價(jià)值
在海量多源數(shù)據(jù)的有效整合基礎(chǔ)上,結(jié)合智能搜索、機(jī)器學(xué)習(xí)等大數(shù)據(jù)分析手段,實(shí)現(xiàn)自動(dòng)高效的智能檢索、推薦預(yù)測,全面提升數(shù)據(jù)共享和信息聯(lián)動(dòng)的運(yùn)轉(zhuǎn)效率,挖掘數(shù)據(jù)全新業(yè)務(wù)價(jià)值,支持決策管理。