很多大數(shù)據(jù)應(yīng)用的實(shí)施似乎都是在一個(gè)現(xiàn)有的數(shù)據(jù)倉(cāng)庫(kù)上,添加一個(gè)或多個(gè)新的大容量數(shù)據(jù)流,還有一些支持?jǐn)?shù)據(jù)存儲(chǔ)和業(yè)務(wù)分析的專業(yè)軟硬件。數(shù)據(jù)存儲(chǔ)問(wèn)題通常是通過(guò)部署一個(gè)專門的硬件一體機(jī)來(lái)協(xié)調(diào),這樣就可以在存儲(chǔ)大量數(shù)據(jù)的同時(shí)還能夠提供超快的數(shù)據(jù)訪問(wèn)。
在這樣的情況下,我們還需要考慮數(shù)據(jù)庫(kù)設(shè)計(jì)的問(wèn)題么?
大數(shù)據(jù)環(huán)境下的數(shù)據(jù)建模
大多數(shù)DBA認(rèn)為:良好的數(shù)據(jù)庫(kù)設(shè)計(jì)是系統(tǒng)和應(yīng)用程序設(shè)計(jì)的一部分。很多的業(yè)務(wù)需求,如數(shù)據(jù)可用性,清理處理,還有應(yīng)用性能都可以利用特定的數(shù)據(jù)庫(kù)設(shè)計(jì)加以解決。
那么對(duì)于大數(shù)據(jù)又如何呢?有趣的是,為大數(shù)據(jù)業(yè)務(wù)分析提供軟硬件解決方案的供應(yīng)商總是宣稱數(shù)據(jù)庫(kù)設(shè)計(jì)并不是那么重要。他們認(rèn)為,由于數(shù)據(jù)是以專門的格式進(jìn)行存儲(chǔ)的,所以大多數(shù)數(shù)據(jù)庫(kù)設(shè)計(jì)便沒有了用武之地。
在這個(gè)問(wèn)題上的困惑通常是源于對(duì)解決方案要以何種特殊的方式執(zhí)行大數(shù)據(jù)查詢的誤解。簡(jiǎn)單來(lái)說(shuō)就是,在大多數(shù)情況下,數(shù)據(jù)會(huì)存儲(chǔ)在兩個(gè) 地方:你當(dāng)前的生產(chǎn)數(shù)據(jù)庫(kù)管理系統(tǒng)(DBMS)和新型專用的一體機(jī)。當(dāng)前的生產(chǎn)流程是提取,轉(zhuǎn)換并加載數(shù)據(jù)到當(dāng)前DBMS,繼續(xù)按原樣操作,還有一個(gè)額外 步驟:每當(dāng)你加載數(shù)據(jù)到一個(gè)表的時(shí)候,你還要確保新數(shù)據(jù)也能被加載到新一體機(jī)中去。
在DBMS加載成功后,便可以馬上把數(shù)據(jù)加載到一體機(jī),或者可以供后續(xù)執(zhí)行分批處理。而重要的是,在任何大數(shù)據(jù)查詢使用已加載數(shù)據(jù)來(lái)獲得性能改善之前,必須先把數(shù)據(jù)加載到一體機(jī)。
數(shù)據(jù)庫(kù)設(shè)計(jì)是質(zhì)量的保證
有質(zhì)量的數(shù)據(jù)庫(kù)設(shè)計(jì)意味著什么呢?一般來(lái)說(shuō),數(shù)據(jù)庫(kù)設(shè)計(jì)開始于數(shù)據(jù)模型和定義之間關(guān)系的業(yè)務(wù)規(guī)則。例如,訂單總是與客戶相關(guān)的,并且客戶可能沒有訂單或者有多個(gè)訂單。有了這些東西以及數(shù)據(jù)元素定義和屬性,數(shù)據(jù)庫(kù)設(shè)計(jì)就可以在以下領(lǐng)域解決,處理或是降低風(fēng)險(xiǎn):
通過(guò)自動(dòng)數(shù)據(jù)元素有效值檢查來(lái)協(xié)助避免缺陷;
在應(yīng)用構(gòu)建和測(cè)試期間允許缺陷檢測(cè)和修復(fù);
盡可能讓數(shù)據(jù)驗(yàn)證接近其源頭;
提供穩(wěn)定性,可靠性,數(shù)據(jù)可訪問(wèn)性和系統(tǒng)擴(kuò)展性。
數(shù)據(jù)庫(kù)設(shè)計(jì)人員的做法有什么差別?
糟糕的數(shù)據(jù)庫(kù)設(shè)計(jì)對(duì)技術(shù)支持的影響非常之大,他們必須實(shí)時(shí)處理系統(tǒng)問(wèn)題,這樣就會(huì)抬升定位和解決問(wèn)題的成本。其在產(chǎn)品行為上還會(huì)體現(xiàn)為惹惱或是趕走客戶。而與糟糕設(shè)計(jì)相關(guān)的最常見的問(wèn)題就是非常差得應(yīng)用性能和數(shù)據(jù)沖突。
典型的修復(fù)方法包括數(shù)據(jù)庫(kù)重組或重新設(shè)計(jì),如添加表索引和改變表分區(qū)和聚簇。然而,在大數(shù)據(jù)環(huán)境中,這些方法在專用一體機(jī)中通常是行 不通的。它們只會(huì)存在 于數(shù)據(jù)庫(kù)的基本表中。這是問(wèn)題的癥結(jié)所在:盡管供應(yīng)商聲稱你所有的數(shù)據(jù)都可以遷移至專用一體機(jī),但這絕不是最佳的解決方案。
讓數(shù)據(jù)在主數(shù)據(jù)庫(kù)管理系統(tǒng)和一體機(jī)之間共存是最好的方法,其原因如下:
避免單點(diǎn)故障。專 用一體機(jī)往往存折一個(gè)單點(diǎn)故障。雖然有供應(yīng)商和支持人員的努力,但是一體機(jī)中的軟硬件,網(wǎng)絡(luò)連接和流程都可能會(huì)發(fā)生故障。如果是這樣,如何才能進(jìn)行滿意的 查詢呢?數(shù)據(jù)協(xié)同定位在數(shù)據(jù)庫(kù)管理系統(tǒng)中,查詢結(jié)果可以通過(guò)訪問(wèn)基本表得以滿足。當(dāng)然,性能肯定會(huì)受到影響;但是,如果不這樣做的話,在有人修復(fù)這一問(wèn)題 之前,你的大數(shù)據(jù)應(yīng)用都會(huì)是不可用的。
提供數(shù)據(jù)卸載。查詢并非是數(shù)據(jù)的唯一消費(fèi)方。一種常見的用法是將生產(chǎn)數(shù)據(jù)卸載到測(cè)試環(huán)境。此外,某些第三方供應(yīng)商軟件工具會(huì)直接訪問(wèn)本地?cái)?shù)據(jù)庫(kù)中的數(shù)據(jù),而這在一體機(jī)中是不可用的,因?yàn)閿?shù)據(jù)是以專門的格式進(jìn)行存儲(chǔ)的。
備份和恢復(fù)。最常見的備份和恢復(fù)工具都是以那些駐留在數(shù)據(jù)庫(kù)中的數(shù)據(jù)為基礎(chǔ)的。而第三方供應(yīng)商工具通常用于高性能備份和恢復(fù),包括索引恢復(fù)。這些備份是針對(duì)基本表和表空間執(zhí)行的,而非一體機(jī)。
某些性能狀況。在某些情況下,SQL查詢?cè)谝惑w機(jī)中無(wú)法執(zhí)行。這些限制都是定義在手冊(cè)中的,并且隨著供應(yīng)商一體機(jī)和版本的不同而不同。在這些情況下,你別無(wú)選擇;你必須訪 問(wèn)基本表并接受性能的下降。其中一些限制包含了特定的SQL語(yǔ)法,例如可滾動(dòng)游標(biāo),動(dòng)態(tài)SQL,使用多個(gè)字符編碼方案,某些相關(guān)表表達(dá)式,以及使用某些內(nèi) 置函數(shù)。
大數(shù)據(jù)的數(shù)據(jù)庫(kù)設(shè)計(jì)
因?yàn)槟阋瑫r(shí)在DBMS和專用一體機(jī)中保存數(shù)據(jù),所以標(biāo)準(zhǔn)數(shù)據(jù)庫(kù)設(shè)計(jì)規(guī)則對(duì)你來(lái)說(shuō)仍然適用。有趣的是,由于一體機(jī)的存在,如今某些規(guī)則得以擴(kuò)展或是變得更加復(fù)雜。下面是一些注意事項(xiàng):
對(duì)索引的需求。索 引服務(wù)于 多種需求:它們可以賦予數(shù)據(jù)元素唯一性,它們可以賦予參照完整性關(guān)系,它們可以定義主鍵,并且它們可以定義額外訪問(wèn)路徑。最后一項(xiàng)是十分重要的。 在大數(shù)據(jù)環(huán)境中,我們的想法是把長(zhǎng)時(shí)間運(yùn)行的查詢放進(jìn)一體機(jī)中以進(jìn)行高速處理。如果某些存在的索引僅僅是提供可選訪問(wèn)路徑,那么可能就不再需要它們了。數(shù) 據(jù)庫(kù)設(shè)計(jì)或是重新設(shè)計(jì)應(yīng)該包括對(duì)所謂性能索引的檢查。如果此索引不再被查詢所用,那么就可以刪除它們,從而節(jié)省表數(shù)據(jù)恢復(fù)所需要的磁盤空間,處理時(shí)間和恢 復(fù)時(shí)間。
刪除一體機(jī)的SQL限制。通常來(lái)說(shuō),數(shù)據(jù)的業(yè)務(wù)規(guī)則決定著數(shù)據(jù)庫(kù)設(shè)計(jì)的部分內(nèi)容。這包括進(jìn)行物理分區(qū)以允許更快 的查詢和更簡(jiǎn)便的數(shù)據(jù)清理,諸如字段約束在內(nèi)的數(shù)據(jù)元素域檢查,以及用于支持參照完整性規(guī)則的主鍵和外鍵定義。接著,應(yīng)用程序開發(fā)人員會(huì)編寫SQL查詢來(lái) 訪問(wèn)數(shù)據(jù)。此外,用戶可能擁有的報(bào)告工具會(huì)自動(dòng)為查詢和報(bào)告生成SQL代碼。因?yàn)镾QL查詢語(yǔ)法和功能取決于數(shù)據(jù)庫(kù)設(shè)計(jì),所以設(shè)計(jì)人員需要對(duì)一體機(jī)限制熟 稔于胸。
為高速一體機(jī)的數(shù)據(jù)加載進(jìn)行設(shè)計(jì)。現(xiàn)在正常的數(shù)據(jù)庫(kù)加載過(guò)程包含一個(gè)額外步驟:將數(shù)據(jù)加載進(jìn)一體機(jī)。如何才能對(duì)此以最佳的方式實(shí)現(xiàn)呢?這主要取決于你的應(yīng)用和數(shù)據(jù)波動(dòng)程度,因此要考慮以下變量:
定期批量加載(每天,每小時(shí))一體機(jī),但要明白其中的數(shù)據(jù)并不完全是最新的。
細(xì)流加載,基本表中的記錄有過(guò)更新的地方會(huì)同步傳送至一體機(jī)。這樣就會(huì)保持一體機(jī)數(shù)據(jù)最新,但是記錄的處理要比批量加載緩慢許多。.