大數(shù)據(jù)解決方案的邏輯層可以幫助定義和分類各個必要的組件,大數(shù)據(jù)解決方案需要使用這些組件來滿足給定業(yè)務(wù)案例的功能性和非功能性需求。這些邏輯層列出了大數(shù)據(jù)解決方案的關(guān)鍵組件,包括從各種數(shù)據(jù)源獲取數(shù)據(jù)的位置,以及向需要洞察的流程、設(shè)備和人員提供業(yè)務(wù)洞察所需的分析。
概述
如何知道一個大數(shù)據(jù)解決方案是否適合您的組織 介紹了一種評估大數(shù)據(jù)解決方案可行性的基于維度的方法。如果您已經(jīng)使用上一篇文章中的問題和提示分析了自己的情況,并且已經(jīng)決定開始構(gòu)建新的(或更新現(xiàn)有的)大數(shù)據(jù)解決方案,那么下一步就是識別定義項目的大數(shù)據(jù)解決方案所需的組件。大數(shù)據(jù)解決方案的邏輯層
邏輯層提供了一種組織您的組件的方式。這些層提供了一種方法來組織執(zhí)行特定功能的組件。這些層只是邏輯層;這并不意味著支持每層的功能在獨立的機器或獨立的進程上運行。大數(shù)據(jù)解決方案通常由以下邏輯層組成:
1、大數(shù)據(jù)來源
2、數(shù)據(jù)改動 (massaging) 和存儲層
3、分析層
4、使用層
大數(shù)據(jù)來源:考慮來自所有渠道的,所有可用于分析的數(shù)據(jù)。要求組織中的數(shù)據(jù)科學(xué)家闡明執(zhí)行您需要的分析類型所需的數(shù)據(jù)。數(shù)據(jù)的格式和起源各不相同:
格式— 結(jié)構(gòu)化、半結(jié)構(gòu)化或非結(jié)構(gòu)化。
速度和數(shù)據(jù)量— 數(shù)據(jù)到達的速度和傳送它的速率因數(shù)據(jù)源不同而不同。
收集點— 收集數(shù)據(jù)的位置,直接或通過數(shù)據(jù)提供程序,實時或以批量模式收集數(shù)據(jù)。數(shù)據(jù)可能來自某個主要來源,比如天氣條件,也有可能來自一個輔助來源,比如媒體贊助的天氣頻道。
數(shù)據(jù)源的位置— 數(shù)據(jù)源可能位于企業(yè)內(nèi)或外部。識別您具有有限訪問權(quán)的數(shù)據(jù),因為對數(shù)據(jù)的訪問會影響可用于分析的數(shù)據(jù)范圍。
數(shù)據(jù)改動和存儲層:此層負責從數(shù)據(jù)源獲取數(shù)據(jù),并在必要時,將它轉(zhuǎn)換為適合數(shù)據(jù)分析方式的格式。例如,可能需要轉(zhuǎn)換一幅圖,才能將它存儲在 Hadoop Distributed File System (HDFS) 存儲或關(guān)系數(shù)據(jù)庫管理系統(tǒng) (RDBMS) 倉庫中,以供進一步處理。合規(guī)性制度和治理策略要求為不同的數(shù)據(jù)類型提供合適的存儲。
分析層:分析層讀取數(shù)據(jù)改動和存儲層整理 (digest) 的數(shù)據(jù)。在某些情況下,分析層直接從數(shù)據(jù)源訪問數(shù)據(jù)。設(shè)計分析層需要認真地進行事先籌劃和規(guī)劃。必須制定如何管理以下任務(wù)的決策:
? 生成想要的分析
? 從數(shù)據(jù)中獲取洞察
? 找到所需的實體
? 定位可提供這些實體的數(shù)據(jù)的數(shù)據(jù)源
? 理解執(zhí)行分析需要哪些算法和工具。
使用層:此層使用了分析層所提供的輸出。使用者可以是可視化應(yīng)用程序、人類、業(yè)務(wù)流程或服務(wù)??梢暬治鰧拥慕Y(jié)果可能具有挑戰(zhàn)。有時,看看類似市場中的競爭對手是如何做的會有所幫助。
每一層包含多種組件類型,下面將會介紹這些類型。
圖 1. 邏輯和垂直層的組件
大數(shù)據(jù)來源
此層包含所有必要的數(shù)據(jù)源,提供了解決業(yè)務(wù)問題所需的洞察。數(shù)據(jù)是結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù),而且來自許多來源:
1、企業(yè)遺留系統(tǒng)— 這些系統(tǒng)是企業(yè)應(yīng)用程序,執(zhí)行業(yè)務(wù)需要的分析并獲取需要的洞察:
? 客戶關(guān)系管理系統(tǒng)
? 結(jié)算操作
? 大型機應(yīng)用程序
? 企業(yè)資源規(guī)劃
? Web 應(yīng)用程序開發(fā)
? Web 應(yīng)用程序和其他數(shù)據(jù)來源擴充了企業(yè)擁有的數(shù)據(jù)。這些應(yīng)用程序可使用自定義的協(xié)議和機制來公開數(shù)據(jù)。
2、數(shù)據(jù)管理系統(tǒng) (DMS)— 數(shù)據(jù)管理系統(tǒng)存儲邏輯數(shù)據(jù)、流程、策略和各種其他類型的文檔:
? Microsoft? Excel? 電子表格
? Microsoft Word 文檔
? 這些文檔可以轉(zhuǎn)換為可用于分析的結(jié)構(gòu)化數(shù)據(jù)。文檔數(shù)據(jù)可公開為領(lǐng)域?qū)嶓w,或者數(shù)據(jù)改動和存儲層可將它轉(zhuǎn)換為領(lǐng)域?qū)嶓w。
3、數(shù)據(jù)存儲— 數(shù)據(jù)存儲包含企業(yè)數(shù)據(jù)倉庫、操作數(shù)據(jù)庫和事務(wù)數(shù)據(jù)庫。此數(shù)據(jù)通常是結(jié)構(gòu)化數(shù)據(jù),可直接使用或輕松地轉(zhuǎn)換來滿足需求。這些數(shù)據(jù)不一定存儲在分布式文件系統(tǒng)中,具體依賴于所處的上下文。
4、智慧設(shè)備— 智慧設(shè)備能夠捕獲、處理和傳輸使用最廣泛的協(xié)議和格式的信息。這方面的示例包括智能電話、儀表和醫(yī)療設(shè)備。這些設(shè)備可用于執(zhí)行各種類型的分析。絕大多數(shù)智慧設(shè)備都會執(zhí)行實時分析,但從智慧設(shè)備傳來的信息也可批量分析。
5、聚合的數(shù)據(jù)提供程序— 這些提供程序擁有或獲取數(shù)據(jù),并以復(fù)雜的格式和所需的頻率通過特定的過濾器公開它。每天都會產(chǎn)生海量的數(shù)據(jù),它們具有不同的格式,以不同的速度生成,而且通過各種數(shù)據(jù)提供程序、傳感器和現(xiàn)有企業(yè)提供。
其他數(shù)據(jù)源— 有許多數(shù)據(jù)來自自動化的來源:
地理信息:
? 地圖
? 地區(qū)詳細信息
? 位置詳細信息
? 礦井詳細信息
人類生成的內(nèi)容:
? 社交媒體
? 電子郵件
? 博客
? 在線信息
傳感器數(shù)據(jù):
? 環(huán)境:天氣、降雨量、濕度、光線
? 電氣:電流、能源潛力等
? 導(dǎo)航裝置
? 電離輻射、亞原子粒子等
? 靠近、存在等
? 位置、角度、位移、距離、速度、加速度
? 聲音、聲震動等
? 汽車、運輸?shù)?/span>
? 熱量、熱度、溫度
? 光學(xué)、光、成像、見光度
? 化學(xué)
? 壓力
? 流動、流體、速度
? 力、密度級別等
? 來自傳感器供應(yīng)商的其他數(shù)據(jù)
數(shù)據(jù)改動和存儲層
因為傳入的數(shù)據(jù)可能具有不同的特征,所以數(shù)據(jù)改動和存儲層中的組件必須能夠以各種頻率、格式、大小和在各種通信渠道上讀取數(shù)據(jù):
數(shù)據(jù)獲取— 從各種數(shù)據(jù)源獲取數(shù)據(jù),并將其發(fā)送到數(shù)據(jù)整理組件或存儲在指定的位置中。此組件必須足夠智能,能夠選擇是否和在何處存儲傳入的數(shù)據(jù)。它必須能夠確定數(shù)據(jù)在存儲前是否應(yīng)改動,或者數(shù)據(jù)是否可直接發(fā)送到業(yè)務(wù)分析層。
數(shù)據(jù)整理— 負責將數(shù)據(jù)修改為需要的格式,以實現(xiàn)分析用途。此組件可擁有簡單的轉(zhuǎn)換邏輯或復(fù)雜的統(tǒng)計算法來轉(zhuǎn)換源數(shù)據(jù)。分析引擎將會確定所需的特定的數(shù)據(jù)格式。主要的挑戰(zhàn)是容納非結(jié)構(gòu)化數(shù)據(jù)格式,比如圖像、音頻、視頻和其他二進制格式。
分布式數(shù)據(jù)存儲— 負責存儲來自數(shù)據(jù)源的數(shù)據(jù)。通常,這一層中提供了多個數(shù)據(jù)存儲選項,比如分布式文件存儲 (DFS)、云、結(jié)構(gòu)化數(shù)據(jù)源、NoSQL 等。
分析層
這是從數(shù)據(jù)中提取業(yè)務(wù)洞察的層:
分析層實體識別— 負責識別和填充上下文實體。這是一個復(fù)雜的任務(wù),需要高效的高性能流程。數(shù)據(jù)整理組件應(yīng)為這個實體識別組件提供補充,將數(shù)據(jù)修改為需要的格式。分析引擎將需要上下文實體來執(zhí)行分析。
分析引擎— 使用其他組件(具體來講,包括實體鑒別、模型管理和分析算法)來處理和執(zhí)行分析。分析引擎可具有支持并行處理的各種不同的工作流、算法和工具。
模型管理— 負責維護各種統(tǒng)計模型,驗證和檢驗這些模型,通過持續(xù)培訓(xùn)模型來提高準確性。然后,模型管理組件會推廣這些模型,它們可供實體識別或分析引擎組件使用。
使用層
這一層使用了從分析應(yīng)用程序獲取的業(yè)務(wù)洞察。分析的結(jié)果由組織內(nèi)的各個用戶和組織外部的實體(比如客戶、供應(yīng)商、合作伙伴和提供商)使用。此洞察可用于針對客戶提供產(chǎn)品營銷信息。例如,借助從分析中獲取的洞察,公司可以使用客戶偏好數(shù)據(jù)和位置感知,在客戶經(jīng)過通道或店鋪時向他們提供個性化的營銷信息。
該洞察可用于檢測欺詐,實時攔截交易,并將它們與使用已存儲在企業(yè)中的數(shù)據(jù)構(gòu)建的視圖進行關(guān)聯(lián)。在欺詐性交易發(fā)生時,可以告知客戶可能存在欺詐,以便及時采取更正操作。
此外,可以根據(jù)在數(shù)據(jù)改動層完成的分析來觸發(fā)業(yè)務(wù)流程??梢詥幼詣踊牟襟E — 例如,如果客戶接受了一條可自動觸發(fā)的營銷信息,則需要創(chuàng)建一個新訂單,如果客戶報告了欺詐,那么可以觸發(fā)對信用卡使用的阻止。
分析的輸出也可由推薦引擎使用,該引擎可將客戶與他們喜歡的產(chǎn)品相匹配。推薦引擎分析可用的信息,并提供個性化且實時的推薦。
使用層還為內(nèi)部用戶提供了理解、找到和導(dǎo)航企業(yè)內(nèi)外的鏈鎖信息的能力。對于內(nèi)部使用者,為業(yè)務(wù)用戶構(gòu)建報告和儀表板的能力使得利益相關(guān)者能夠制定精明的決策并設(shè)計恰當?shù)膽?zhàn)略。為了提高操作有效性,可以從數(shù)據(jù)中生成實時業(yè)務(wù)警告,而且可以監(jiān)視操作性的關(guān)鍵績效指標:
交易攔截器— 此組件可實時攔截高容量交易,將它們轉(zhuǎn)換為一種容易被分析層理解的實時格式,以便在傳入數(shù)據(jù)上執(zhí)行實時分析。事務(wù)攔截器應(yīng)能夠集成并處理來自各種來源的數(shù)據(jù),比如傳感器、智能儀表、麥克風、攝像頭、GPS 設(shè)備、ATM 和圖像掃描儀??梢允褂酶鞣N類型的適配器和 API 來連接到數(shù)據(jù)源。也可以使用各種加速器來簡化開發(fā),比如實時優(yōu)化和流分析,視頻分析,銀行、保險、零售、電信和公共運輸領(lǐng)域的加速器,社交媒體分析,以及情緒分析。
業(yè)務(wù)流程管理流程— 來自分析層的洞察可供業(yè)務(wù)流程執(zhí)行語言 (BPEL) 流程、API 或其他業(yè)務(wù)流程使用,通過自動化上游和下游 IT 應(yīng)用程序、人員和流程的功能,進一步獲取業(yè)務(wù)價值。
實時監(jiān)視— 可以使用從分析中得出的數(shù)據(jù)來生成實時警告??梢詫⒕姘l(fā)送給感興趣的使用者和設(shè)備,比如智能電話和平板電腦。可以使用從分析組件生成的數(shù)據(jù)洞察,定義并監(jiān)視關(guān)鍵績效指標,以便確定操作有效性。實時數(shù)據(jù)可從各種來源以儀表板的形式向業(yè)務(wù)用戶公開,以便監(jiān)視系統(tǒng)的健康或度量營銷活動的有效性。
報告引擎— 生成與傳統(tǒng)商業(yè)智能報告類似的報告的能力至關(guān)重要。用戶可基于從分析層中得到的洞察,創(chuàng)建臨時報告、計劃的報告或自助查詢和分析。
推薦引擎— 基于來自分析層的分析結(jié)果,推薦引擎可向購物者提供實時的、相關(guān)的和個性化的推薦,提高電子商務(wù)交易中的轉(zhuǎn)換率和每個訂單的平均價值。該引擎實時處理可用信息并動態(tài)地響應(yīng)每個用戶,響應(yīng)基于用戶的實時活動、存儲在 CRM 系統(tǒng)中的注冊客戶信息,以及非注冊客戶的社交概況。
可視化和發(fā)現(xiàn)— 數(shù)據(jù)可跨企業(yè)內(nèi)外的各種聯(lián)邦的數(shù)據(jù)源進行導(dǎo)航。數(shù)據(jù)可能具有不同的內(nèi)容和格式,所有數(shù)據(jù)(結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化)可組合來進行可視化并提供給用戶。此能力使得組織能夠?qū)⑵鋫鹘y(tǒng)的企業(yè)內(nèi)容(包含在企業(yè)內(nèi)容管理系統(tǒng)和數(shù)據(jù)倉庫中)與新的社交內(nèi)容(例如 tweet 和博客文章)組合到單個用戶界面中。
垂直層
影響邏輯層(大數(shù)據(jù)來源、數(shù)據(jù)改動和存儲、分析和使用層)的所有組件的各方面都包含在垂直層中:
? 信息集成
? 大數(shù)據(jù)治理
? 系統(tǒng)管理
? 服務(wù)質(zhì)量
信息集成
大數(shù)據(jù)應(yīng)用程序從各種數(shù)據(jù)起源、提供程序和數(shù)據(jù)源獲取數(shù)據(jù),并存儲在 HDFS、NoSQL 和 MongoDB 等數(shù)據(jù)存儲系統(tǒng)中。這個垂直層可供各種組件使用(例如數(shù)據(jù)獲取、數(shù)據(jù)整理、模型管理和交易攔截器),負責連接到各種數(shù)據(jù)源。集成將具有不同特征(例如協(xié)議和連接性)的數(shù)據(jù)源的信息,需要高質(zhì)量的連接器和適配器。可以使用加速器連接到大多數(shù)已知和廣泛使用的來源。這些加速器包括社交媒體適配器和天氣數(shù)據(jù)適配器。各種組件還可以使用這一層在大數(shù)據(jù)存儲中存儲信息,從大數(shù)據(jù)存儲中檢索信息,以便處理這些信息。大多數(shù)大數(shù)據(jù)存儲都提供了服務(wù)和 API 來存儲和檢索該信息。
大數(shù)據(jù)治理
數(shù)據(jù)治理涉及到定義指南來幫助企業(yè)制定有關(guān)數(shù)據(jù)的正確決策。大數(shù)據(jù)治理有助于處理企業(yè)內(nèi)或從外部來源傳入的數(shù)據(jù)的復(fù)雜性、量和種類。在將數(shù)據(jù)傳入企業(yè)進行處理、存儲、分析和清除或歸檔時,需要強有力的指南和流程來監(jiān)視、構(gòu)建、存儲和保護數(shù)據(jù)。
除了正常的數(shù)據(jù)治理考慮因素之外,大數(shù)據(jù)治理還包含其他因素:
1、管理各種格式的大量數(shù)據(jù)。
2、持續(xù)培訓(xùn)和管理必要的統(tǒng)計模型,以便對非結(jié)構(gòu)化數(shù)據(jù)和分析進行預(yù)處理。請記住,設(shè)置處理非結(jié)構(gòu)化數(shù)據(jù)時的重要一步。
3、為外部數(shù)據(jù)設(shè)置有關(guān)其保留和使用的策略和合規(guī)性制度。
4、定義數(shù)據(jù)歸檔和清除策略。
5、創(chuàng)建如何跨各種系統(tǒng)復(fù)制數(shù)據(jù)的策略。
6、設(shè)置數(shù)據(jù)加密策略。
服務(wù)質(zhì)量層
此層復(fù)雜定義數(shù)據(jù)質(zhì)量、圍繞隱私和安全性的策略、數(shù)據(jù)頻率、每次抓取的數(shù)據(jù)大小和數(shù)據(jù)過濾器:
數(shù)據(jù)質(zhì)量
1、完整地識別所有必要的數(shù)據(jù)元素
2、以可接受的新鮮度提供數(shù)據(jù)的時間軸
3、依照數(shù)據(jù)準確性規(guī)則來驗證數(shù)據(jù)的準確性
4、采用一種通用語言(數(shù)據(jù)元組滿足使用簡單業(yè)務(wù)語言所表達的需求)
5、依據(jù)數(shù)據(jù)一致性規(guī)則驗證來自多個系統(tǒng)的數(shù)據(jù)一致性
6、在滿足數(shù)據(jù)規(guī)范和信息架構(gòu)指南基礎(chǔ)上的技術(shù)符合性
圍繞隱私和安全的策略
需要策略來保護敏感數(shù)據(jù)。從外部機構(gòu)和提供程序獲取的數(shù)據(jù)可能包含敏感數(shù)據(jù)(比如 Facebook 用戶的聯(lián)系信息或產(chǎn)品定價信息)。數(shù)據(jù)可以來源于不同的地區(qū)和國家,但必須進行相應(yīng)的處理。必須制定有關(guān)數(shù)據(jù)屏蔽和這類數(shù)據(jù)的存儲的決策。考慮以下數(shù)據(jù)訪問策略:
A、數(shù)據(jù)可用性
B、數(shù)據(jù)關(guān)鍵性
C、數(shù)據(jù)真實性
D、數(shù)據(jù)共享和發(fā)布
E、數(shù)據(jù)存儲和保留,包括能否存儲外部數(shù)據(jù)等問題。如果能夠存儲數(shù)據(jù),數(shù)據(jù)可存儲多長時間?可存儲何種類型的數(shù)據(jù)?
F、數(shù)據(jù)提供程序約束(政策、技術(shù)和地區(qū))
G、社交媒體使用條款
數(shù)據(jù)頻率
提供新鮮數(shù)據(jù)的頻率是多少?它是按需、連續(xù)還是離線的?
抓取的數(shù)據(jù)大小
此屬性有助于定義可抓取的數(shù)據(jù)以及每次抓取后可使用的數(shù)據(jù)大小。
過濾器
標準過濾器會刪除不想要的數(shù)據(jù)和數(shù)據(jù)中的干擾數(shù)據(jù),僅留下分析所需的數(shù)據(jù)。
系統(tǒng)管理
系統(tǒng)管理對大數(shù)據(jù)至關(guān)重要,因為它涉及到跨企業(yè)集群和邊界的許多系統(tǒng)。對整個大數(shù)據(jù)生態(tài)系統(tǒng)的健康的監(jiān)視包括:
A、管理系統(tǒng)日志、虛擬機、應(yīng)用程序和其他設(shè)備
B、關(guān)聯(lián)各種日志,幫助調(diào)查和監(jiān)視具體情形
C、監(jiān)視實時警告和通知
D、使用顯示各種參數(shù)的實時儀表板
E、引用有關(guān)系統(tǒng)的報告和詳細分析
F、設(shè)定和遵守服務(wù)水平協(xié)議
G、管理存儲和容量
H、歸檔和管理歸檔檢索
I、執(zhí)行系統(tǒng)恢復(fù)、集群管理和網(wǎng)絡(luò)管理
J、策略管理
結(jié)束語
對開發(fā)人員而言,層提供了一種對大數(shù)據(jù)解決方案必須執(zhí)行的功能進行分類的途徑,為組織建議必需執(zhí)行這些功能所需的代碼。但是,對于想要從大數(shù)據(jù)獲取洞察的業(yè)務(wù)用戶,考慮大數(shù)據(jù)需求和范圍通常會有所幫助。原子模式解決了訪問、處理、存儲和使用大數(shù)據(jù)的機制,為業(yè)務(wù)用戶提供了一種解決需求和范圍的途徑