分類(lèi)和預(yù)測(cè)是兩種大數(shù)據(jù)分析的方法,它們可用于抽取能夠描述重要數(shù)據(jù)集合或預(yù)測(cè)未來(lái)數(shù)據(jù)趨勢(shì)的模型。 分類(lèi)方法用于預(yù)測(cè)數(shù)據(jù)對(duì)象的離散類(lèi)別;而預(yù)測(cè)則用于預(yù)測(cè)數(shù)據(jù)對(duì)象的連續(xù)取值。許多分類(lèi)和預(yù)測(cè)方法已被機(jī)器學(xué)習(xí)、專(zhuān)家系統(tǒng)、統(tǒng)計(jì)學(xué)和神經(jīng)生物學(xué)等方麗的研究 者提出,其中的大部分算法屬于駐留內(nèi)存算法,通常假定的數(shù)據(jù)量很小,最初的數(shù)據(jù)挖掘方法大多都是在這些方法及基于內(nèi)存基礎(chǔ)上所構(gòu)造的算法。目前數(shù)據(jù)挖掘方 法都要求,目前的數(shù)據(jù)挖掘研究已經(jīng)在這些工作基礎(chǔ)之上得到了很大的改進(jìn),開(kāi)發(fā)了具有基于外存以處理大規(guī)模數(shù)據(jù)集合能力的分類(lèi)和預(yù)測(cè)技術(shù),這些技術(shù)結(jié)合了并 行和分布處理的思想。
1、數(shù)據(jù)變小——分類(lèi)算法
分類(lèi)是找出數(shù)據(jù)庫(kù)中的一組數(shù)據(jù)對(duì)象的共同特點(diǎn)并按照分類(lèi)模式將其劃分為不同的類(lèi),其目的是通過(guò)分類(lèi) 模型,將數(shù)據(jù)庫(kù)中的數(shù)據(jù)項(xiàng)映射到摸個(gè)給定的類(lèi)別中??梢詰?yīng)用到涉及到應(yīng)用分類(lèi)、趨勢(shì)預(yù)測(cè)中,如淘寶商鋪將用戶(hù)在一段時(shí)間內(nèi)的購(gòu)買(mǎi)情況劃分成不同的類(lèi),根據(jù) 情況向用戶(hù)推薦關(guān)聯(lián)類(lèi)的商品,從而增加商鋪的銷(xiāo)售量。
空間覆蓋算法-基于球鄰域的空間劃分
空間覆蓋算法-仿生模式識(shí)別
空間覆蓋算法-視覺(jué)分類(lèi)方法
VCA把數(shù)據(jù)看作一幅圖像,核心是基于尺度空間理論,選擇合適的尺度使得同類(lèi)樣本區(qū)域融合在一起。
分類(lèi)超曲面算法HSC
設(shè)訓(xùn)練樣本所在空間為一封閉維方體區(qū)域,將此區(qū)域按照一定細(xì)分規(guī)則劃分成若干小區(qū)域,使每個(gè)小區(qū)域只包含同一類(lèi)樣本點(diǎn),并用樣本點(diǎn)的類(lèi)別標(biāo)定該區(qū)域,合并相鄰?fù)?lèi)區(qū)域邊界,獲得若干超平面片封閉組成的分類(lèi)超曲面。輸入新樣本點(diǎn),根據(jù)分類(lèi)判別定理判斷樣本點(diǎn)所在的類(lèi)別。
特點(diǎn):
(1)通過(guò)特征區(qū)域細(xì)化直接解決非線(xiàn)性分類(lèi)問(wèn)題,不需要考慮使用何種函數(shù),不需要升維變換。
(2)通用可操作的分類(lèi)超曲面構(gòu)造法,基于分類(lèi)超曲面的方法通過(guò)區(qū)域合并計(jì)算獲得分類(lèi)超曲面對(duì)空間進(jìn)行劃分
(3)獨(dú)特、簡(jiǎn)便、易行的分類(lèi)判別方法,基于分類(lèi)超曲面的方法是基于Jordan定理的分類(lèi)判斷算法,使得基于非凸的超曲面的分類(lèi)判別變得簡(jiǎn)便、易行。
2、極小覆蓋子集
覆蓋型分類(lèi)算法的極小覆蓋子集——對(duì)特定的訓(xùn)練樣本集,若其子樣本集訓(xùn)練后得到的分類(lèi)模型與與原樣本集訓(xùn)練后得到的分類(lèi)模型相同,則稱(chēng)子樣本集是原樣本集的一個(gè)覆蓋。在一個(gè)樣本集的所有覆蓋中,包含樣本個(gè)數(shù)最少的覆蓋稱(chēng)為樣本集的極小覆蓋子集。
(1)計(jì)算極小覆蓋子集的基本步驟:
用一個(gè)方形區(qū)域覆蓋所有樣本點(diǎn);將該區(qū)域劃分成一系列小區(qū)域 (單元格),直到每個(gè)小區(qū)域內(nèi)包含的樣本點(diǎn)都屬于同一類(lèi)別;將落在同一小區(qū)域內(nèi)的樣本點(diǎn)中選擇且僅選擇一個(gè)樣本構(gòu)成極小覆蓋子集。
(2)采樣受限于極小覆蓋子集
全樣本空間必然包含極小覆蓋子集,任意一個(gè)數(shù)據(jù)集未必包含完整的極小覆蓋子集。大數(shù)據(jù)環(huán)境下,極小覆蓋子集中的樣本更多地包含在大數(shù)據(jù)中,較多的數(shù)據(jù)可以戰(zhàn)勝較好的算法、再多的數(shù)據(jù)亦不會(huì)超過(guò)極小覆蓋子集的代表性、再好的提升手段亦不會(huì)超過(guò)極小覆蓋子集確定的精度。
3、回歸大數(shù)據(jù)分析
回歸分析反映了數(shù)據(jù)庫(kù)中數(shù)據(jù)的屬性值的特性,通過(guò)函數(shù)表達(dá)數(shù)據(jù)映射的關(guān)系來(lái)發(fā)現(xiàn)屬性值之間的依賴(lài)關(guān) 系。它可以應(yīng)用到對(duì)數(shù)據(jù)序列的預(yù)測(cè)及相關(guān)關(guān)系的研究中去。在市場(chǎng)營(yíng)銷(xiāo)中,回歸分析可以被應(yīng)用到各個(gè)方面。如通過(guò)對(duì)本季度銷(xiāo)售的回歸分析,對(duì)下一季度的銷(xiāo)售 趨勢(shì)作出預(yù)測(cè)并做出針對(duì)性的營(yíng)銷(xiāo)改變。
4、 聚類(lèi)
聚類(lèi)類(lèi)似于分類(lèi),但與分類(lèi)的目的不同,是針對(duì)數(shù)據(jù)的相似性和差異性將一組數(shù)據(jù)分為幾個(gè)類(lèi)別。屬于同一類(lèi)別的數(shù)據(jù)間的相似性很大,但不同類(lèi)別之間數(shù)據(jù)的相似性很小,跨類(lèi)的數(shù)據(jù)關(guān)聯(lián)性很低。
5、關(guān)聯(lián)規(guī)則
關(guān)聯(lián)規(guī)則是隱藏在數(shù)據(jù)項(xiàng)之間的關(guān)聯(lián)或相互關(guān)系,即可以根據(jù)一個(gè)數(shù)據(jù)項(xiàng)的出現(xiàn)推導(dǎo)出其他數(shù)據(jù)項(xiàng)的出 現(xiàn)。關(guān)聯(lián)規(guī)則的挖掘過(guò)程主要包括兩個(gè)階段:第一階段為從海量原始數(shù)據(jù)中找出所有的高頻項(xiàng)目組;第二極端為從這些高頻項(xiàng)目組產(chǎn)生關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則挖掘技術(shù) 已經(jīng)被廣泛應(yīng)用于金融行業(yè)企業(yè)中用以預(yù)測(cè)客戶(hù)的需求,各銀行在自己的ATM 機(jī)上通過(guò)捆綁客戶(hù)可能感興趣的信息供用戶(hù)了解并獲取相應(yīng)信息來(lái)改善自身的營(yíng) 銷(xiāo)。
6 、神經(jīng)網(wǎng)絡(luò)方法
神經(jīng)網(wǎng)絡(luò)作為一種先進(jìn)的人工智能技術(shù),因其自身自行處理、分布存儲(chǔ)和高度容錯(cuò)等特性非常適合處理非 線(xiàn)性的以及那些以模糊、不完整、不嚴(yán)密的知識(shí)或數(shù)據(jù)為特征的處理問(wèn)題,它的這一特點(diǎn)十分適合解決數(shù)據(jù)挖掘的問(wèn)題。典型的神經(jīng)網(wǎng)絡(luò)模型主要分為三大類(lèi):第一 類(lèi)是以用于分類(lèi)預(yù)測(cè)和模式識(shí)別的前饋式神經(jīng)網(wǎng)絡(luò)模型,其主要代表為函數(shù)型網(wǎng)絡(luò)、感知機(jī);第二類(lèi)是用于聯(lián)想記憶和優(yōu)化算法的反饋式神經(jīng)網(wǎng)絡(luò)模型,以 Hopfield 的離散模型和連續(xù)模型為代表。第三類(lèi)是用于聚類(lèi)的自組織映射方法,以ART 模型為代表。雖然神經(jīng)網(wǎng)絡(luò)有多種模型及算法,但在特定領(lǐng)域 的數(shù)據(jù)挖掘中使用何種模型及算法并沒(méi)有統(tǒng)一的規(guī)則,而且人們很難理解網(wǎng)絡(luò)的學(xué)習(xí)及決策過(guò)程。
7、Web數(shù)據(jù)挖掘
Web數(shù)據(jù)挖掘是一項(xiàng)綜合性技術(shù),指Web 從文檔結(jié)構(gòu)和使用的集合C 中發(fā)現(xiàn)隱含的模式P,如果將C看做是輸入,P 看做是輸出,那么Web 挖掘過(guò)程就可以看做是從輸入到輸出的一個(gè)映射過(guò)程。
大數(shù)據(jù)技術(shù)能夠?qū)㈦[藏于海量數(shù)據(jù)中的信息和知識(shí)挖掘出來(lái),為人類(lèi)的社會(huì)經(jīng)濟(jì)活動(dòng)提供依據(jù),從而提高 各個(gè)領(lǐng)域的運(yùn)行效率,大大提高整個(gè)社會(huì)經(jīng)濟(jì)的集約化程度。根據(jù)ESM國(guó)際電子商情針大數(shù)據(jù)應(yīng)用現(xiàn)狀和趨勢(shì)的調(diào)查顯示:被調(diào)查者最關(guān)注的大數(shù)據(jù)技術(shù)中,排在 前五位的分別是大數(shù)據(jù)分析(12.91%)、云數(shù)據(jù)庫(kù)(11.82%)、Hadoop(11.73%)、內(nèi)存數(shù)據(jù)庫(kù)(11.64%)以及數(shù)據(jù)安全 (9.21%)。Hadoop已不再是人們心目中僅有的大數(shù)據(jù)技術(shù),而大數(shù)據(jù)分析成為最被關(guān)注的技術(shù)。從中可以看出,人們對(duì)大數(shù)據(jù)的了解已經(jīng)逐漸深入,關(guān) 注的技術(shù)點(diǎn)也越來(lái)越多。既然大數(shù)據(jù)分析是最被關(guān)注的技術(shù)趨勢(shì),那么大數(shù)據(jù)分析中的哪項(xiàng)功能是最重要的呢?從下圖可以看出,排在前三位的功能分別是實(shí)時(shí)分析 (21.32%)、豐富的挖掘模型(17.97%)和可視化界面(15.91%)。從調(diào)查結(jié)果可以看出:在未來(lái)一兩年中有迫切部署大數(shù)據(jù)的需求,并且已經(jīng) 從一開(kāi)始的基礎(chǔ)設(shè)施建設(shè),逐漸發(fā)展為對(duì)大數(shù)據(jù)分析和整體大數(shù)據(jù)解決方案的需求。
大數(shù)據(jù)將重點(diǎn)應(yīng)用于以下幾大大領(lǐng)域:商業(yè)智能、政府決策、公共服務(wù)等。
行業(yè)拓展者,打造大數(shù)據(jù)行業(yè)基石
IBM:IBM大數(shù)據(jù)提供的服務(wù)包括數(shù)據(jù)分析,文本分析,藍(lán)色云杉;業(yè)務(wù)事件處 理;IBM Mashup Center的計(jì)量,監(jiān)測(cè),和商業(yè)化服務(wù)(MMMS)。 IBM的大數(shù)據(jù)產(chǎn)品組合中的最新系列產(chǎn)品的 InfoSphere bigInsights,基于Apache Hadoop。 該產(chǎn)品組合包括:打包的Apache Hadoop的軟件和服務(wù),代 號(hào)是bigInsights核心,用于開(kāi)始大數(shù)據(jù)分析。軟件被稱(chēng)為bigsheet,軟件目的是幫助從大量數(shù)據(jù)中輕松、簡(jiǎn)單、直觀的提取、批注相關(guān)信息為 金融,風(fēng)險(xiǎn)管理,媒體和娛樂(lè)等行業(yè)量身定做的行業(yè)解決方案 微軟:2011年1月與惠普(具體而言是HP數(shù)據(jù)庫(kù)綜合應(yīng)用部門(mén)) 合作目標(biāo)是開(kāi)發(fā)了一系列能 夠提升生產(chǎn)力和提高決策速度的設(shè)備。
EMC:EMC 斬獲了紐交所和Nasdaq;大數(shù)據(jù)解決方案已包括40多個(gè)產(chǎn)品。
Oracle:Oracle大數(shù)據(jù)機(jī)與Oracle Exalogic中間件云服務(wù)器、Oracle Exadata數(shù)據(jù)庫(kù)云服務(wù)器以及Oracle Exalytics商務(wù)智能云服務(wù)器一起組成了甲骨文最廣泛、高度集成化系統(tǒng)產(chǎn)品組合。
大數(shù)據(jù)促進(jìn)了政府職能變革
重視應(yīng)用大數(shù)據(jù)技術(shù),盤(pán)活各地云計(jì)算中心資產(chǎn):把原來(lái)大規(guī)模投資產(chǎn)業(yè)園、物聯(lián)網(wǎng)產(chǎn)業(yè)園從政績(jī)工程, 改造成智慧工程;在安防領(lǐng)域,應(yīng)用大數(shù)據(jù)技術(shù),提高應(yīng)急處置能力和安全防范能力;在民生領(lǐng)域,應(yīng)用大數(shù)據(jù)技術(shù),提升服務(wù)能力和運(yùn)作效率,以及個(gè)性化的服 務(wù),比如醫(yī)療、衛(wèi)生、教育等部門(mén);解決在金融,電信領(lǐng)域等中數(shù)據(jù)分析的問(wèn)題:一直得到得極大的重視,但受困于存儲(chǔ)能力和計(jì)算能力的限制,只局限在交易數(shù)型 數(shù)據(jù)的統(tǒng)計(jì)分析。一方面大數(shù)據(jù)的應(yīng)用促進(jìn)了政府職能變革,另一方面政府投入將形成示范效應(yīng),大大推動(dòng)大數(shù)據(jù)的發(fā)展。
打造“智慧城市”
通過(guò)收集、處理龐大而復(fù)雜的數(shù)據(jù)信息,從中獲得知識(shí)和洞見(jiàn),提升能力,加快科學(xué)、工程領(lǐng)域的創(chuàng)新步伐,強(qiáng)化安全意識(shí),轉(zhuǎn)變教育和學(xué)習(xí)模式。智慧城市是使用智能計(jì)算技術(shù)使得城市的關(guān)鍵基礎(chǔ)設(shè)施的組成和服務(wù)更智能、互聯(lián)和有效,隨著智慧城市的建設(shè),社會(huì)將步入“大數(shù)據(jù)”時(shí)代。
未來(lái),改變一切
未來(lái),企業(yè)會(huì)依靠洞悉數(shù)據(jù)中的信息更加了解自己,也更加了解客戶(hù)。 數(shù)據(jù)的再利用:由于在信息價(jià)值 鏈中的特殊位置,有些公司可能會(huì)收集到大量的數(shù)據(jù),但他們并不急需使用也不擅長(zhǎng)再次利用這些數(shù)據(jù)。但當(dāng)它被一些發(fā)布個(gè)性化位置廣告服務(wù)和促銷(xiāo)活動(dòng)的公司再 次利用時(shí),則變得更有價(jià)值。