大數(shù)據(jù)解決方案
大數(shù)據(jù)時代的到來對數(shù)據(jù)的存儲、處理及分析提出了新的挑戰(zhàn), 但總的發(fā)展趨勢是通過分布式計算來解決 “瓶頸”問題。我們不能依賴提高單個節(jié)點性能這種縱向擴展的方式提升系統(tǒng)整體的性能,相反, 我們需要能夠通過增加系統(tǒng)內(nèi)節(jié)點的數(shù)目這種橫向擴展的方式來達到我們的目的。我們將存儲、 處理和分析的任務(wù)通過分布式的方式分散到系統(tǒng)中各個節(jié)點上來加快數(shù)據(jù)的存儲、 處理和分析的速度。在實際的實現(xiàn)上,Google、Amazon、微軟和 VMware 這 4 家公司在不同時間陸續(xù)推出各自的大數(shù)據(jù)方案, 在應(yīng)用領(lǐng)域和贏利模式上,Amazon 和Google 處于跑者地位, 微軟和 VMware 緊隨其后,此外還有開源的Hadoop 平臺。Hadoop 是谷歌大數(shù)據(jù)平臺的開源實現(xiàn), 由于其開源特性, 越來越多的企業(yè)在Hadoop 的基礎(chǔ)上對其進行修改以適應(yīng)自己的需要,如Facebook 根據(jù)其業(yè)務(wù)需求, 底層采用Hadoop 平臺進行數(shù)據(jù)的存儲和處理, 并在其上開發(fā)了Hive。Facebook 通過Hive實現(xiàn)了例行性報表、 即席查詢、 機器學(xué)習(xí)和數(shù)據(jù)挖掘算法, 達到了較好的效果。大數(shù)據(jù)的存儲穩(wěn)定、 高效的存儲系統(tǒng)既是系統(tǒng)正常運行的重要保證, 也可以單獨作為一項服務(wù)提供給用戶。5 種方案之中, Amazon 的 S3 和微軟的 Blob存儲比較類似, Google的GFS則完全不同,VMware 目前僅向虛擬機提供存儲服務(wù),Hadoop仿照GFS 開發(fā)了HDFS, 是GFS的簡化版本。相比GFS, HDFS 缺少了多客戶端并發(fā)的 Append 模型及快照功能。
大數(shù)據(jù)的處理
計算服務(wù)是所有的大數(shù)據(jù)解決方案最核心的業(yè)務(wù)之一, 同時也是用戶最常用的服務(wù)。Google 和Hadoop提供基于MapReduce 的數(shù)據(jù)處理, 整個 過 程 對用戶而言是透明的。Amazon 的EC2給予用戶配置硬件參數(shù)的權(quán)利, 使得用戶可以根據(jù)實際的需求動態(tài)地改變配置,從而提高效率和節(jié)省資源。微軟的Azure允許用戶在處理數(shù)據(jù)之前設(shè)置部分參數(shù)。
VMware 的 vCloud 中提供了DRS 和DPM 技術(shù),可以通過遷移和關(guān)閉虛擬機來實現(xiàn)資源優(yōu)化。表2 是這5 種計算服務(wù)的比較。MapReduce 在系統(tǒng)層面解決了大數(shù)據(jù)分析平臺的擴展性和容錯性問題,是非關(guān)系型數(shù)據(jù)庫的典型代表,因此越來越多的研究人員從性能和易用性方面對MapReduce 進行改進。
1. 多核硬件與圖形處理器上的性能改進。
2. 索引技術(shù)與連接技術(shù)的優(yōu)化。
3. 調(diào)度技術(shù)優(yōu)化。
4. 其他優(yōu)化技術(shù)。
針對MapReduce 易用性的研究成果包括 Yahoo 的 Pig、Microsoft 的LINQ、Hive 等。
山東大學(xué)數(shù)據(jù)分析的幾個探索
學(xué)術(shù)論文成果學(xué)科數(shù)據(jù)可視化探索
我們提出了一個交互系統(tǒng),用來收集,分析和可視化科研的論文數(shù)據(jù),這種方法可用于量化學(xué)生和導(dǎo)師的研究成果。系統(tǒng)專門分析了每個作者文章數(shù)量和質(zhì)量的貢獻。同時將第一作者的在圖形上中顯示,其目的是直觀地反應(yīng)論文的詳細情況。
我們采用雙環(huán)可視化方法而不是網(wǎng)絡(luò)圖方法的目的是,觀察學(xué)生和導(dǎo)師在研究成果中的不同職責(zé),特別是指導(dǎo)學(xué)生的導(dǎo)師。同時,學(xué)術(shù)合作和知識域的變化可以通過可視化的表現(xiàn)形式展現(xiàn)給用戶。
我們開發(fā)了在兩個同心圓中呈現(xiàn)結(jié)果的可視化方法。外圈用不同的顏色將不同級別的學(xué)生區(qū)分開,內(nèi)圈用不同的顏色將導(dǎo)師區(qū)分開。三角形以及三角形的邊框顏色表示了出版的類型(會議或期刊出版),并填充顏色表示不同發(fā)表指數(shù)(SCI 或EI)的出版物。三角形可以看作是一個箭頭指向本文的第一作者,連接到三角形的線表示發(fā)表成果的共同作者,實線表示第一作者和第二作者在這個發(fā)表成果中的直接貢獻,而虛線表示發(fā)表成果第一作者和第三作者之間的貢獻關(guān)系。
我們統(tǒng)計和分析了計算機科學(xué)領(lǐng)域2004 至2012 年所有可用的文字類型成果,其中包括作者信息,關(guān)鍵字,摘要,級別和類型。采用指數(shù)將EI 和SCI 進行分類。
圖1 展示了每年在不同出版物中發(fā)表的數(shù)量信息??梢钥闯?,該數(shù)字波動的年變化,在2008 年和2010 年之間出現(xiàn)明顯的熱潮,但是之后,開始遞減。
圖1 每年在不同出版物中發(fā)表的數(shù)量信息
此外,刊物的級別可以通過影響因子,反映該雜志近期的文章被引用的平均數(shù)。圖2 對成果的發(fā)表時間進行了評估,通過圖表可以清楚地看出,在一年中成果發(fā)表水平和數(shù)量的情況。例如,2007 年有三個論文的影響因子大于2.0。
圖2 對成果的發(fā)表時間進行的評估
圖3 表示了導(dǎo)師的研究成果。可以看出,所選中的導(dǎo)師參與了11 篇論文的研究工作,其中包括7 篇會議論文, 4 篇期刊論文,其中四個是SCI 收錄。其中,作為第一作者出現(xiàn)一次,作為第二作者出現(xiàn)五次。圖4 給出了研究組于2008 年在計算機科學(xué)領(lǐng)域的發(fā)表成果信息。在外圈上的對象表示學(xué)生,內(nèi)圈的對象表示顧問,對象的顏色區(qū)分出他們的研究興趣是否一致,內(nèi)外圈上對象會自動調(diào)整其位置以避免重疊的出現(xiàn)。在這個交互界面中,發(fā)表成果的信息將很容易通過選擇三角形進行查詢,其詳細信息,包括標題,作者,會議或期刊以及其他人的信息將出現(xiàn)在頂部。
圖3 表示了導(dǎo)師的研究成果
招生網(wǎng)站檢測與生源數(shù)據(jù)分析
山東大學(xué)本科招生網(wǎng)站是山東大學(xué)發(fā)布招生信息,錄取信息,公布錄取結(jié)果的重要手段之一,每到招生期間訪問人數(shù)很大。對于本科招生網(wǎng)站的數(shù)據(jù)監(jiān)控和數(shù)據(jù)分析對于保障招生安全進行,招生數(shù)據(jù)挖掘和分析有重要的意義。所以每年數(shù)據(jù)分析的使用有著良好的作用。通過數(shù)據(jù)挖掘可以分析考生的關(guān)注點,考生的活躍時間等有價值的信息。
“大數(shù)據(jù)”分析做不了什么?
數(shù)據(jù)可以幫我們解讀數(shù)字的含義。數(shù)據(jù)可以輔助我們擺脫直覺和認知的錯誤。但有些事情是“大數(shù)據(jù)”不擅長的:
數(shù)據(jù)不理解社會認知,計算機數(shù)據(jù)分析擅長的是測量社會交往的“量”而非“質(zhì)”。數(shù)據(jù)不了解背景,即便是一部普普通通的小說,數(shù)據(jù)分析也無法解釋其中的思路。
數(shù)據(jù)擴張?zhí)?,關(guān)系太復(fù)雜,找到有價值信息的難度大。
數(shù)據(jù)掩蓋了價值觀念?!丁霸紨?shù)據(jù)”只是一種修辭》一書中的要點之一就是,數(shù)據(jù)從來都不可能是“原始”的,數(shù)據(jù)總是依照某人的傾向和價值觀念而被構(gòu)建出來的。數(shù)據(jù)分析的結(jié)果看似客觀公正,但其實價值選擇貫穿了從構(gòu)建到解讀的全過程。
大數(shù)據(jù)有拿手強項,也有不擅長的領(lǐng)域。我們既需要看到大數(shù)據(jù)的優(yōu)點,也要清晰認識到大數(shù)據(jù)的缺點,解讀大數(shù)據(jù)是一項系統(tǒng)綜合工程,與數(shù)據(jù)所生成的社會背景無法分開。