大數(shù)據(jù)是指數(shù)據(jù)量很大么? 大數(shù)據(jù)到底有多大?
大數(shù)據(jù)和數(shù)據(jù)是兩個完全不同的概念,數(shù)據(jù)是對客觀事物的屬性邏輯描述,大數(shù)據(jù)是對數(shù)據(jù)進行管理的存在形式。例如:煤炭按照性質有不同分類,且挖掘成本又不一樣。與此類似,大數(shù)據(jù)并不在“大”,而在于“有用”。價值含量、挖掘成本比數(shù)量更為重要。
一組名為“互聯(lián)網上一天”的數(shù)據(jù)告訴我們,一天之中,互聯(lián)網產生的全部內容可以刻滿1.68億張DVD;發(fā)出的郵件有2940億封之多(相當于美國兩年的紙質信件數(shù)量);發(fā)出的社區(qū)帖子達200萬個(相當于《時代》雜志770年的文字量);賣出的手機為37.8萬臺,高于全球每天出生的嬰兒數(shù)量37.1萬……足以見大數(shù)據(jù)的體量有多大?
大數(shù)據(jù)是最近才出現(xiàn)的一種新科技么?
不是。大數(shù)據(jù)就是互聯(lián)網發(fā)展到現(xiàn)今階段的一種表象或特征而已,數(shù)據(jù)在很久以前便存在,只是在以云計算為代表的技術創(chuàng)新大幕的襯托下,這些原本很難收集和使用的數(shù)據(jù)開始容易被利用起來了,只有通過各行各業(yè)的不斷創(chuàng)新,大數(shù)據(jù)才會逐步為人類創(chuàng)造更多的價值。
大數(shù)據(jù)和云計算什么關系?
從技術上看,大數(shù)據(jù)與云計算的關系就像一枚硬幣的正反面一樣密不可分。大數(shù)據(jù)必然無法用單臺的計算機進行處理,必須采用分布式架構。它的特色在于對海量數(shù)據(jù)進行分布式數(shù)據(jù)挖掘,但它必須依托云計算的分布式處理、分布式數(shù)據(jù)庫和云存儲、虛擬化技術。
人們常指的大數(shù)據(jù)是什么?
大數(shù)據(jù)可分成大數(shù)據(jù)技術、大數(shù)據(jù)工程、大數(shù)據(jù)科學和大數(shù)據(jù)應用等領域。目前人們談論最多的是大數(shù)據(jù)技術和大數(shù)據(jù)應用。工程和科學問題尚未被重視。大數(shù)據(jù)工程指大數(shù)據(jù)的規(guī)劃建設運營管理的系統(tǒng)工程;大數(shù)據(jù)科學關注大數(shù)據(jù)網絡發(fā)展和運營過程中發(fā)現(xiàn)和驗證大數(shù)據(jù)的規(guī)律及其與自然和社會活動之間的關系。
大數(shù)據(jù)可以應用在哪些領域?數(shù)據(jù)共享的能力體現(xiàn)?
數(shù)據(jù)源、數(shù)據(jù)工程能力以及數(shù)據(jù)挖掘能力沒有哪個更為重要,三方相輔相成,同時也根據(jù)不同產品、不同定位隨需而變,以滿足用戶多方位的需求。
人們一直在聊大數(shù)據(jù)、DT時代,我們發(fā)現(xiàn)除了數(shù)據(jù)寡頭,各級政府、一些相關的機構都積累了大量的跟我們生活中息息相關的海量數(shù)據(jù)資源。市面上有較多免費的基礎數(shù)據(jù)產品,但數(shù)據(jù)資源是稀缺的。
我經常會被問到“你認為數(shù)據(jù)源、數(shù)據(jù)工程能力以及數(shù)據(jù)挖掘能力,哪個是第一位的?”,這個問題對于不同的公司來說,答案肯定會不一樣。
我首先要強調一點,共享不等于免費。是什么原因阻礙了數(shù)據(jù)能力共享的?
第一,在沒有相應法律政策引導下,從業(yè)人員會擔心數(shù)據(jù)共享引起的信息安全問題,數(shù)據(jù)泄密失控,對開放有恐懼。除了6月1號開始試行的《中華人民共和國網絡安全法》之外,之前參考的更多是條例、辦法、規(guī)定。比如互聯(lián)網信息管理辦法以及互聯(lián)網個人信息保護規(guī)定。
這是一個非?,F(xiàn)實的問題,從業(yè)人員都會有這個擔憂。對于數(shù)據(jù)共享或者數(shù)據(jù)的開放造成的影響是不可避免的。隨著進一步的媒體宣傳大家對于數(shù)據(jù)有了敬畏之心,看到第一反應是說“什么事情我能做,什么事情我不能做”,第二就是數(shù)據(jù)的壁壘。數(shù)據(jù)一旦出門就失去了壁壘,這樣的短線操作存在極大風險。這個擔憂當然是有道理的。這也是目前很多data bank , data broker 在不停嘗試努力并且要解決的問題。
除此之外,數(shù)據(jù)源五花八門,算法能力層次不齊,如何實現(xiàn)數(shù)據(jù)對接也是重中之重。以畫像標簽為例,某家的年齡標簽是18-23,另一家是19-24,給你幾個不同數(shù)據(jù)源標簽畫像,怎么使用?不同家標簽對接方式也不一樣。
關于數(shù)據(jù)對接,畫像系統(tǒng)輸入的先決條件大都以客戶提供ID包為主,每一個群體畫像查詢都應該有一個查詢主題。例如某服裝品牌的人群畫像、某部綜藝節(jié)目女性觀眾的的APP使用習慣等等。然而,畫像系統(tǒng)輸入條件是ID包,這也是很多用戶面對的難題之一。可以提供服務群體畫像的ID包,或者當客戶提供ID包時,我們可以ID-mapping.
當有多個數(shù)據(jù)源能力單元以及多個數(shù)據(jù)合作伙伴時,如何正確選擇準確的標簽,同時選擇性價比最高的標簽使用呢?
相同標簽不同源之間的評估,合并后輸出結果。
對于所提到的ID級數(shù)據(jù),首先ID級不是輸出ID的,在這里主要是強調和之前產品的一些區(qū)別,非配比、非推及、非調研的方式打造的ID級數(shù)據(jù)產品。不涉及配比的方式,不涉及推及的算法。比如,APP活躍畫像標簽一定是第一步夠建的人群所對應的結果,而并不代表這些APP在中國網民的排名。
同時要了解的是,數(shù)據(jù)能力共享不是數(shù)據(jù)共享,不是把原始的數(shù)據(jù)生產資料發(fā)布出來。簡單來說,假設所有人能夠同時利用辨析畫像能力,以及其他的頭部數(shù)據(jù)源的畫像能力,進而,允許你去選擇所想要的標簽。即便如此,由于場景不同,還需要第三方去驗證每個標簽的質量,統(tǒng)一整合之后發(fā)布,這樣才會使得事半功倍、并且高效。
無需冒著各種風險大量采購數(shù)據(jù),也無需招人完成數(shù)據(jù)工程能力。1000個ID起查,群體結果輸出,不涉及個人隱私。同時規(guī)避數(shù)據(jù)留存問題,群體畫像針對客戶所構建的人群實現(xiàn)一次性結果。
群體畫像能力共享的前提是DMP提供多種方式構建人群。特別是傳統(tǒng)企業(yè),除了CRM里的手機號,通常沒有其它可供分析的ID包。
而將數(shù)據(jù)分IOS、安卓、PC端等;人群劃分出核心人群、競品人群、潛在人群、沉默人群等。同時,支持的方式有:一方ID、預設人群、標簽DMP、APP定向,活躍域名,視頻人群,地理圍欄等方式構建人群。同時,內部研究團隊會根據(jù)不同情況,設定不同特殊人群。
綜上來說,對于受眾管理和受眾洞察有完整及豐富的處理經驗。簡單來說,受眾管理在產品里的體現(xiàn)是利用DMP構建目標人群,生成ID包;而受眾洞察在產品的體現(xiàn)是基于已構建的ID包,對接以及數(shù)據(jù)合作伙伴的畫像能力去完成畫像服務。