大數(shù)據(jù)Big Data是指大小超出了常用的軟件工具在運(yùn)行時(shí)間內(nèi)可以承受的收集,管理和處理數(shù)據(jù)能力的數(shù)據(jù)集;大數(shù)據(jù)是目前存儲(chǔ)模式與能力、計(jì)算模式與能力不能滿足存儲(chǔ)與處理現(xiàn)有數(shù)據(jù)集規(guī)模產(chǎn)生的相對(duì)概念。
大數(shù)據(jù)的預(yù)處理
主要完成對(duì)已接收數(shù)據(jù)的辨析、抽取、清洗等操作。
(1)抽?。阂颢@取的數(shù)據(jù)可能具有多種結(jié)構(gòu)和類型,數(shù)據(jù)抽取過(guò)程可以幫助我們將這些復(fù)雜的數(shù)據(jù)轉(zhuǎn)化為單一的或者便于處理的構(gòu)型,以達(dá)到快速分析處理的目的。
(2)清洗:對(duì)于大數(shù)據(jù),并不全是有價(jià)值的,有些數(shù)據(jù)并不是我們所關(guān)心的內(nèi)容,而另一些數(shù)據(jù)則是完全錯(cuò)誤的干擾項(xiàng),因此要對(duì)數(shù)據(jù)通過(guò)過(guò)濾“去噪”從而提取出有效數(shù)據(jù)。
大數(shù)據(jù)帶來(lái)的數(shù)學(xué)問(wèn)題
在數(shù)學(xué)上來(lái)看,計(jì)算機(jī)中存在不斷變大的數(shù)據(jù)集,不存在絕對(duì)的大數(shù)據(jù),計(jì)算機(jī)中的所有數(shù)據(jù)集都是有限集合。
大數(shù)據(jù)采樣——把大數(shù)據(jù)變小、找到與算法相適應(yīng)的極小樣本集、采樣對(duì)算法誤差的影響
大數(shù)據(jù)表示——表示決定存儲(chǔ)、表示影響算法效率
大數(shù)據(jù)不一致問(wèn)題——導(dǎo)致算法失效和無(wú)解、如何消解不一致
大數(shù)據(jù)中的超高維問(wèn)題——超高維導(dǎo)致數(shù)據(jù)稀疏、算法復(fù)雜度增加
大數(shù)據(jù)中的不確定維問(wèn)題——多維度數(shù)據(jù)并存、按任務(wù)定維難
大數(shù)據(jù)中的不適定性問(wèn)題——高維導(dǎo)致問(wèn)題的解太多難以抉擇
大數(shù)據(jù)的特征
稠密與稀疏共存:局部稠密與全局稀疏
冗余與缺失并在:大量冗余與局部缺失
顯式與隱式均有:大量顯式與豐富隱式
靜態(tài)與動(dòng)態(tài)忽現(xiàn):動(dòng)態(tài)演進(jìn)與靜態(tài)關(guān)聯(lián)
多元與異質(zhì)共處:多元多變與異質(zhì)異性
量大與可用矛盾:量大低值與可用稀少
目前大數(shù)據(jù)的外延
大數(shù)據(jù)規(guī)模大小是一個(gè)不斷演化的指標(biāo):
當(dāng)前任務(wù)處理的單一的數(shù)據(jù)集,從數(shù)十TB到十幾PB級(jí)的數(shù)據(jù)規(guī)模(TB?PB?EB?ZB)
處理大數(shù)據(jù)的可等待的合理時(shí)間依賴任務(wù)的目標(biāo):
地震數(shù)據(jù)預(yù)測(cè)要求在幾分鐘內(nèi)才有效、氣象數(shù)據(jù)應(yīng)該在小時(shí)級(jí)別、失聯(lián)飛機(jī)數(shù)據(jù)處理要在7天之內(nèi)、數(shù)據(jù)挖掘一般要求在12小時(shí)內(nèi)
大數(shù)據(jù)已被定義為科學(xué)探索的第四范式。繼幾千年前的實(shí)驗(yàn)科學(xué)、數(shù)百年前的理論科學(xué)和數(shù)十年前的計(jì)算 科學(xué)之后,當(dāng)今的數(shù)據(jù)爆炸孕育了數(shù)據(jù)密集型科學(xué),將理論、實(shí)驗(yàn)和計(jì)算仿真等范式統(tǒng)一起來(lái)。大數(shù)據(jù)已被譽(yù)為“非競(jìng)爭(zhēng)性”生產(chǎn)要素。大數(shù)據(jù)具有“取之不盡,用 之不竭”的特性,在不斷的再利用、重組和擴(kuò)展中持續(xù)釋放其潛在價(jià)值,在廣泛的公開(kāi)、共享中不斷創(chuàng)造著新的財(cái)富。根源在于,大數(shù)據(jù)的價(jià)值在于預(yù)測(cè)未知領(lǐng)域、 非特定因素的未來(lái)趨勢(shì),在于破解長(zhǎng)期的、普遍的社會(huì)難題。而目前的大數(shù)據(jù)技術(shù)和應(yīng)用,依然局限于歷史和實(shí)時(shí)數(shù)據(jù)的關(guān)聯(lián)分析,局限于滿足短線的、特定的市場(chǎng) 需求。解決悖論的過(guò)程,恰恰是理論和方法應(yīng)運(yùn)而生的過(guò)程。而人們?cè)噲D解決悖論的努力,正好是大數(shù)據(jù)落地生根的推動(dòng)力。
方法論缺位
自2008年《自然》雜志推出“大數(shù)據(jù)”??詠?lái),大數(shù)據(jù)概念就從學(xué)術(shù)大討論,轉(zhuǎn)向了企業(yè)的數(shù)字化 轉(zhuǎn)型,進(jìn)而上升到“開(kāi)放政府數(shù)據(jù)”的戰(zhàn)略布局。然而,單純的數(shù)量上的規(guī)模龐大,并不能輕易地將大數(shù)據(jù)與以往的“海量數(shù)據(jù)”、“超大規(guī)模數(shù)據(jù)”等區(qū)別開(kāi),因 為三者均沒(méi)有設(shè)置數(shù)量級(jí)等門檻。
方法論缺位是最大的障礙。大數(shù)據(jù)發(fā)展的核心動(dòng)力源于人們測(cè)量、記錄和分析世界的渴望,滿足這些渴望 需要數(shù)據(jù)、技術(shù)和思維三大要素。在計(jì)算技術(shù)、通信技術(shù)日益成熟的今天,在廉價(jià)的、便捷的數(shù)字化存儲(chǔ)普及的當(dāng)下,數(shù)據(jù)無(wú)處不在,技術(shù)正以標(biāo)準(zhǔn)化、商品化的方 式提供,事實(shí)上思維和方法論才是決定大數(shù)據(jù)成敗的關(guān)鍵,但目前來(lái)看,跨越學(xué)術(shù)與產(chǎn)業(yè)、技術(shù)與應(yīng)用之間鴻溝的方法論依然不完善。
在社會(huì)難題中淘金
正如數(shù)學(xué)史上三次危機(jī)分別促成公理幾何的誕生、集合論的創(chuàng)立和現(xiàn)代數(shù)據(jù)的發(fā)展一樣,悖論是理論、技 術(shù)和應(yīng)用進(jìn)步的巨大推動(dòng)力。大數(shù)據(jù)悖論的解決,也將推動(dòng)大數(shù)據(jù)應(yīng)用的普及和社會(huì)價(jià)值的釋放。經(jīng)過(guò)新聞媒體和學(xué)術(shù)會(huì)議的大肆宣傳之后,大數(shù)據(jù)技術(shù)趨勢(shì)一下子 跌到谷底,許多數(shù)據(jù)創(chuàng)業(yè)公司變得岌岌可?!鶕?jù)這條著名的Gartner技術(shù)成熟度曲線,大數(shù)據(jù)已經(jīng)走過(guò)了萌芽期和泡沫化的炒作期,并將在未來(lái)3~5年 內(nèi)步入低谷期。
市場(chǎng)中的鴻溝
大數(shù)據(jù)營(yíng)銷模型將經(jīng)歷創(chuàng)新者、早期采用者、早期大眾、后期大眾和落后者等5個(gè)階段。這5個(gè)階段之間存在著4條裂縫,其中最大、最危險(xiǎn)的裂縫存在于早期市場(chǎng)與主流市場(chǎng)之間,我們稱之為“鴻溝”。
大數(shù)據(jù)的主流市場(chǎng)來(lái)源于實(shí)用主義的早期大眾和保守主義的后期大眾,兩者各自占據(jù)大數(shù)據(jù)市場(chǎng)1/3的 份額。這兩個(gè)群組的共同特征是均具備良好的信息技術(shù)基礎(chǔ)和深厚的大數(shù)據(jù)積累,并深諳大數(shù)據(jù)的社會(huì)價(jià)值和經(jīng)濟(jì)價(jià)值。有所不同的是,前者希望看到成熟的解決方 案和成功的應(yīng)用案例,它們大多是金融、能源、電信等公共服務(wù)部門。而后者需要有更安全可靠的大數(shù)據(jù)保障和廣泛的社會(huì)應(yīng)用基礎(chǔ),它們大多是致力于解決環(huán)境、 能源和健康等社會(huì)問(wèn)題的公共管理部門。
大數(shù)據(jù)技術(shù)和應(yīng)用獲得創(chuàng)新者的追捧是顯而易見(jiàn)的,獲得早期市場(chǎng)的擁護(hù)也是輕而易舉的。但是,不因“時(shí)髦”而加入,不因“過(guò)時(shí)”而退出,才能成為大數(shù)據(jù)主流市場(chǎng)的掘金者。遺憾的是,不少企業(yè)或許會(huì)成為“鴻溝中的犧牲者”,而無(wú)緣迎接大數(shù)據(jù)真正應(yīng)用市場(chǎng)的到來(lái)。
規(guī)劃整體產(chǎn)品
現(xiàn)代營(yíng)銷奠基人之——西奧多·萊維特給出了“整體產(chǎn)品”的概念。根據(jù)這一概念,大數(shù)據(jù)產(chǎn)品應(yīng)該包括作為“核心吸引物”的一般產(chǎn)品、滿足初級(jí)心理需求的期望產(chǎn)品和實(shí)現(xiàn)更高階參與以及自我實(shí)現(xiàn)的延伸產(chǎn)品和潛在產(chǎn)品4個(gè)部分。