A. 對(duì)于投資人和創(chuàng)業(yè)者而言,大數(shù)據(jù)是個(gè)熱門的融資標(biāo)簽。就和前幾年流行的 SoLoMo,這幾年火爆的 P2P 一樣,大數(shù)據(jù)是資本泡沫的催化劑。如今任何一家(移動(dòng))互聯(lián)網(wǎng)公司都忙著把自己標(biāo)榜為大數(shù)據(jù)公司,或者干脆說(shuō)自己是一家數(shù)據(jù)公司。遺憾的是,大多數(shù)中國(guó)的互聯(lián)網(wǎng)公司都是流量驅(qū)動(dòng)的企業(yè)。與其說(shuō)這些公司是大數(shù)據(jù)公司,不如說(shuō)它們是數(shù)據(jù)采集公司。是的,每一家互聯(lián)網(wǎng)公司都是數(shù)據(jù)公司,因?yàn)閿?shù)據(jù)(Data)是比信息(Information)要狹隘得多的詞匯。換句話說(shuō),任何一家 IT 行業(yè)的公司天然地都是數(shù)據(jù)公司。但是非 IT 公司同樣可以是數(shù)據(jù)公司,例如房地產(chǎn)企業(yè)和汽車銷售公司——畢竟他們優(yōu)質(zhì)低價(jià)地將顧客的信息轉(zhuǎn)賣給任何感興趣的個(gè)人或?qū)嶓w。遺憾的是,中國(guó)并沒有幾家 Pure-Play 的數(shù)據(jù)公司,因此中國(guó)不太可能出現(xiàn) Palantir 這樣偉大的企業(yè)。我不幸見過(guò)一兩家國(guó)產(chǎn)獨(dú)角獸企業(yè)的技術(shù)/數(shù)據(jù)負(fù)責(zé)人,他們似乎并不了解這家 CIA 投資的創(chuàng)業(yè)公司,但這并不妨礙他們把自己的公司定位為世界級(jí)的大數(shù)據(jù)公司。我可以臆測(cè),國(guó)內(nèi)這些獨(dú)角獸企業(yè)的道德底線遠(yuǎn)遠(yuǎn)低于(為美帝情報(bào)機(jī)構(gòu)服務(wù)的) Palantir,只是它們還沒有足夠的人才和技術(shù)來(lái)充分挖掘數(shù)據(jù)中的有效信息。 對(duì)于大多數(shù)互聯(lián)網(wǎng)公司或者工程師而言,大數(shù)據(jù)實(shí)際上只有一個(gè)意思,就是把一堆亂七八糟的數(shù)據(jù)扔到 HDFS 上面然后進(jìn)行計(jì)算。計(jì)算的工具有很多,最常見的是 Map-Reduce,但是技術(shù)一直在演進(jìn),現(xiàn)在還流行 Impala、Spark、Presto 什么的。對(duì)于這些搞大數(shù)據(jù)的工程師而言,這是一個(gè)非常好的事情,因?yàn)橐堰@么多異構(gòu)的數(shù)據(jù)和系統(tǒng)跑起來(lái),需要很多人寫很多代碼,還需要有人來(lái)做運(yùn)維。這么一個(gè)部門總得需要幾十臺(tái)機(jī)器否則還不如單機(jī)計(jì)算能力強(qiáng),工程師也得有十來(lái)人。然后可能還需要數(shù)據(jù)分析師,否則這部門跟擺設(shè)也沒什么區(qū)別。如果系統(tǒng)做得不錯(cuò)數(shù)據(jù)量也有了,總得配個(gè)數(shù)據(jù)科學(xué)家搞點(diǎn)數(shù)據(jù)挖掘或者機(jī)器學(xué)習(xí)什么的吧。所以大數(shù)據(jù)這件事情可以解決很多就業(yè)問(wèn)題,畢竟很多上了規(guī)模的互聯(lián)網(wǎng)公司都想搞大數(shù)據(jù)。 但是對(duì)于消費(fèi)者或者互聯(lián)網(wǎng)所謂的“用戶”來(lái)說(shuō),大數(shù)據(jù)卻是另外一個(gè)意思。大數(shù)據(jù)的意思就是盡可能地搜集跟終端消費(fèi)者相關(guān)的隱私,然后進(jìn)行營(yíng)銷。從理論上說(shuō),大數(shù)據(jù)公司通過(guò)搜集用戶行為,可以更好地了解消費(fèi)者的需求,增強(qiáng)用戶體驗(yàn)。但是在實(shí)踐上,這些所謂的智能推薦還停留在很初級(jí)的階段,因此會(huì)有人在淘寶上搜索棺材結(jié)果在微博上不停地看到跟喪葬相關(guān)的廣告。對(duì)于微博這樣的公司,還意味著它會(huì)傾向于通過(guò)直接或者間接地暴露你的隱私來(lái)獲得商業(yè)利益。據(jù)說(shuō),評(píng)價(jià)一家國(guó)內(nèi)公司的大數(shù)據(jù)能力是跟被查水表的頻繁程度正相關(guān)的。就目前而言,大數(shù)據(jù)對(duì)于終端消費(fèi)者更多的是“被實(shí)名”。舉一個(gè)例子,如果你在 Android 手機(jī)上使用 Facebook 賬號(hào)訪問(wèn)某個(gè) App,那么對(duì)不起,你在這個(gè)手機(jī)上的所有行為都有可能被 Facebook 關(guān)聯(lián)到你真實(shí)的身份上。在這種能力上,國(guó)內(nèi)的三巨頭排序大概是 T > A >> B。所以最后這家公司的 App 特別流氓甚至超越了數(shù)字公司,如果你想幫幫這家公司就多用用他家的地圖或者訂點(diǎn)外賣。
B. 關(guān)于大數(shù)據(jù)和隱私,最核心的問(wèn)題在于標(biāo)識(shí)(Identity),尤其是所謂的 PII (Personal Identifiable Information)。但是要對(duì)用戶進(jìn)行追蹤并不一定需要 PII,任何一個(gè)強(qiáng)度足夠高的隨機(jī)數(shù)都可以用來(lái)追蹤單個(gè)用戶。在 Web 時(shí)代,由于 Cookie 的生命周期問(wèn)題,對(duì)用戶進(jìn)行長(zhǎng)期追蹤并不是很容易。但是最近幾年,越來(lái)越多的公司使用 Flash 來(lái)進(jìn)行追蹤,最終演進(jìn)成一種叫做數(shù)字指紋的技術(shù)。要解釋這些技術(shù)需要一些應(yīng)用數(shù)學(xué)背景,知乎上應(yīng)該可以找到相關(guān)的問(wèn)答,我就不贅述了。我很想系統(tǒng)地講述在使用桌面瀏覽器上如何保護(hù)自己的隱私,但是似乎離題太遠(yuǎn)了。但是我還是想提醒一句,在桌面瀏覽器上最有效的安全習(xí)慣就是禁用 Flash(當(dāng)然,如果你出于安全裝了數(shù)字公司的軟件,那么你可以假裝我說(shuō)的都是廢話——畢竟數(shù)字公司連你開機(jī)時(shí)間這種信息都不放過(guò),更何況這家公司可是以所謂的“厚數(shù)據(jù)”而聞名的)。 身份到底有多重要呢?我可以說(shuō)說(shuō)我自己的一些非理性的習(xí)慣。大多數(shù)地鐵一卡通都是不記名的,但是我以前會(huì)定期地破壞一卡通,從而避免在一卡通里積累過(guò)多的數(shù)據(jù)。但是由于我并不能很頻繁地?fù)Q卡,所以我這樣的非理性行為是毫無(wú)用處的——你只需要讀讀我的卡就知道我住在哪里又在哪里上班,誤差不會(huì)超過(guò)兩公里。從技術(shù)上說(shuō),任何一張非接觸卡都可以可能用于追蹤我的身份,以及我所在的時(shí)空坐標(biāo)。雖然我知道目前的技術(shù)并不能在超過(guò)一米的距離上讀出我隨身攜帶的卡片,但是我仍然把我身上所有的非接觸卡放在一個(gè)金屬的名片盒中。作為一個(gè)足夠偏執(zhí)的人,我更相信物理隔離。遺憾的是,這些非理性的習(xí)慣在移動(dòng)時(shí)代都是徒勞的。 在移動(dòng)時(shí)代,身份問(wèn)題變成了最嚴(yán)重的問(wèn)題,因?yàn)橹悄苁謾C(jī)在很大程度上是私人設(shè)備。大多數(shù)人都隨身攜帶這些設(shè)備,這就意味著設(shè)備的標(biāo)識(shí)和個(gè)人幾乎是一一對(duì)應(yīng)的。在這個(gè)問(wèn)題上,就連蘋果公司都沒能意識(shí)到其嚴(yán)重性,以至于在早期的蘋果設(shè)備上有一個(gè)接近完美的唯一硬件標(biāo)識(shí)(UDID)。這就意味著所有的 App 開發(fā)者都可以使用這個(gè)標(biāo)識(shí)來(lái)追蹤設(shè)備和交換數(shù)據(jù)。換句話說(shuō),只要你在一個(gè) App 中使用了 Facebook 賬號(hào)或者提交了電話號(hào)碼,那么你在這個(gè)設(shè)備中的所有行為都有可能被關(guān)聯(lián)到你的 PII。蘋果直到兩年以前才堵上這個(gè)漏洞,并通過(guò)所謂的 IDFA 來(lái)替代 UDID。我并不喜歡蘋果公司,但是我在這里提這個(gè)案例并不是為了貶低蘋果公司。事實(shí)上,蘋果公司是所有的智能手機(jī)制造商中最尊重用戶隱私的那一家,沒有之一。原因很簡(jiǎn)單,蘋果公司并不是一家互聯(lián)網(wǎng)公司,它是通過(guò)向消費(fèi)者出售手機(jī)來(lái)獲利的。蘋果公司的硬件利潤(rùn)非常高,它不需要通過(guò) App Store 和廣告來(lái)獲利,因此 Tim Cook 才會(huì)有底氣地討論消費(fèi)者的隱私問(wèn)題。而 Google 則不同,它是一家廣告公司,它甚至?xí)ㄟ^(guò)分析用戶的郵件來(lái)進(jìn)行精準(zhǔn)廣告投放。我并不想把 Google 妖魔化成一個(gè)侵犯消費(fèi)者隱私的寡頭,但是 Google 的不作為讓 Android 成為了地球上最偉大的監(jiān)控平臺(tái)。Android 上的確沒有 UDID 這么高質(zhì)量的標(biāo)識(shí),但是它允許開發(fā)者直接獲取 IMEI——利用 IMEI 理論上可以通過(guò)運(yùn)營(yíng)商獲取手機(jī)號(hào)碼,并且進(jìn)行實(shí)時(shí)的監(jiān)控。此外 Android 還允許開發(fā)者獲取 MAC 地址和 Android ID 這些標(biāo)識(shí),而前者可以用于基于 Wi-Fi 的地理位置定位。這些看起來(lái)很糟糕,但還不是最糟糕的,因?yàn)?Android 還允許開發(fā)者獲取安裝應(yīng)用列表、正在運(yùn)行應(yīng)用列表。換句話說(shuō),Android 不僅允許開發(fā)者監(jiān)控自己的 App 使用情況,還可以監(jiān)控其他的 App 的使用情況,這可是字面上的情報(bào)工作。這些在技術(shù)層面上都是 Android 允許的,對(duì)于已 Root 設(shè)備或者能夠利用漏洞提權(quán)的 App 而言,Android 提供的想象空間幾乎是無(wú)限的。 有些讀者評(píng)論扯 Google 的 IDFA 對(duì)應(yīng)物,那我舉個(gè) Google 平臺(tái)上的栗子吧: 近日,多個(gè)與TalkingData合作的廠商表示在Google Play發(fā)布的產(chǎn)品于2016年5月25日凌晨陸續(xù)被下架。且下架的說(shuō)明郵件里稱:“違反了開發(fā)者條款”并指出是TalkingData的SDK的問(wèn)題所導(dǎo)致。 TalkingData回應(yīng)SDK導(dǎo)致下架:GooglePlay審核調(diào)整 這家公司更是毫不掩飾地展示自己侵犯隱私的能力: TalkingData-行為地圖 那么問(wèn)題來(lái)了,大家覺得他們的數(shù)據(jù)是哪里來(lái)的呢,是蘋果用戶還是安卓用戶呢? 為了避免引起恐慌,這家公司的客戶主要是某些銀行和游戲,市場(chǎng)覆蓋率并不是特別高。BAT 任何一家擁有的隱私數(shù)據(jù)都能秒殺這家公司,所以大家請(qǐng)保持內(nèi)心的平靜,睡覺前多玩玩手機(jī)。
C. 想象有這么一家智能手機(jī)廠商,它以極低的價(jià)格出售 Android 智能手機(jī),它還聲稱自己是一家互聯(lián)網(wǎng)公司,并且標(biāo)榜自己是一家大數(shù)據(jù)公司。那么,這樣的公司為什么會(huì)銷售無(wú)線路由器呢?其實(shí)我說(shuō)的不是國(guó)內(nèi)的公司,而是 Google。當(dāng)然這并不是什么秘密,有一段時(shí)間所有的互聯(lián)網(wǎng)公司都想為用戶提供所謂的智能路由器。 理由很充分,Wi-Fi 技術(shù)是以兼容以太網(wǎng)為目的局域網(wǎng)組網(wǎng)方案,它從來(lái)沒有考慮過(guò)隱私和所謂的大數(shù)據(jù)帶來(lái)的問(wèn)題。以太網(wǎng)提供了一個(gè)高強(qiáng)度的網(wǎng)卡標(biāo)識(shí)(即所謂的 MAC),理論上能提供 48 位的地址空間,從實(shí)際來(lái)說(shuō)也足夠所有的網(wǎng)卡制造商唯一地標(biāo)識(shí)每一張網(wǎng)卡。最初這個(gè)網(wǎng)卡標(biāo)識(shí)的設(shè)計(jì)目的是為了區(qū)分不同的設(shè)備,將沖突降到最低,因此對(duì)于給定的網(wǎng)卡,這個(gè)標(biāo)識(shí)應(yīng)該是永久不變的。這個(gè)標(biāo)識(shí)在有線網(wǎng)絡(luò)時(shí)代從來(lái)都不是一個(gè)真正的問(wèn)題,因?yàn)?MAC 僅用于局域網(wǎng)通訊,任何設(shè)備在互聯(lián)網(wǎng)上只會(huì)暴露 IP。為了無(wú)縫地兼容以太網(wǎng),Wi-Fi 設(shè)備繼承了這個(gè)標(biāo)識(shí),并且在掃描無(wú)線接入點(diǎn)的時(shí)候廣播這個(gè)標(biāo)識(shí)。換句話說(shuō),你隨身攜帶的智能手機(jī)有一個(gè)幾乎獨(dú)一無(wú)二的永久標(biāo)識(shí),并且傾向于廣播這個(gè)標(biāo)識(shí)。因此對(duì)于很多大數(shù)據(jù)公司而言,這比你在臉上寫著自己的姓名還要好得多。所以,蘋果在最近的一次升級(jí)中改變了策略,所有的蘋果手機(jī)在掃描熱點(diǎn)的時(shí)候都會(huì)使用一個(gè)臨時(shí)的 MAC。蘋果這樣做對(duì)于保護(hù)消費(fèi)者的隱私很有幫助,但是離解決這個(gè)問(wèn)題還很遠(yuǎn)。當(dāng)蘋果設(shè)備連接一個(gè)熱點(diǎn)(例如咖啡廳里的免費(fèi)熱點(diǎn))的時(shí)候,它依然會(huì)使用一個(gè)固定的網(wǎng)卡標(biāo)識(shí)。 一個(gè)平庸的無(wú)線網(wǎng)卡標(biāo)識(shí)為什么會(huì)跟大數(shù)據(jù)扯上關(guān)系呢?出乎標(biāo)準(zhǔn)設(shè)計(jì)者的意料,Wi-Fi 已經(jīng)成為了一種主流的互聯(lián)網(wǎng)接入方式,并且成了一種重要的輔助定位技術(shù)。不同于智能設(shè)備,大多數(shù)無(wú)線熱點(diǎn)都是固定不動(dòng)的,并且覆蓋了都市的大多數(shù)區(qū)域。利用無(wú)線熱點(diǎn)的 SSID 和 MAC,加上從智能手機(jī)采集的 GPS 信息,地理信息服務(wù)商可以利用這些信息完成誤差在百米以內(nèi)的定位。在 GPS 不能覆蓋的室內(nèi),Wi-Fi 定位幾乎是首選的解決方案。從這個(gè)角度來(lái)看,Wi-Fi 定位是一個(gè)方便消費(fèi)者的福音。但是 Wi-Fi 的技術(shù)設(shè)計(jì)決定了它不是一個(gè)匿名的定位技術(shù),在定位的過(guò)程中 Wi-Fi 熱點(diǎn)同樣可以獲得智能手機(jī)的無(wú)線標(biāo)識(shí)。因此從另一個(gè)角度來(lái)看,Wi-Fi 熱點(diǎn)的運(yùn)營(yíng)商可以獲得智能手機(jī)的一個(gè)時(shí)空坐標(biāo)。這樣第三方就有可能追蹤智能手機(jī)在城市中的軌跡,其效果甚至可以超越運(yùn)營(yíng)商的監(jiān)控手段。但是這并不是最糟糕的,出于統(tǒng)計(jì)的需求,很多 Android App 還會(huì)采集手機(jī)的 Wi-Fi 網(wǎng)卡標(biāo)識(shí)。這些數(shù)據(jù)有可能將用戶的行為和時(shí)空軌跡聯(lián)系在一起,從而造成嚴(yán)重的隱私風(fēng)險(xiǎn)。正如 Facebook 一樣,智能手機(jī)的普及是 CIA/NSA 做夢(mèng)也想不到的好事。現(xiàn)代人進(jìn)入了一個(gè)自愿監(jiān)控自己的偉大時(shí)代,A Brave New World。 Snowden 在討論 XKeyscore 的時(shí)候,其實(shí)提到過(guò) NSA 非常喜歡這一點(diǎn): EDITED TO ADD (9/18): Marcy Wheeler comments on the second story, noting that the NSA uses this capability to map MAC addresses. Two New Snowden Stories 當(dāng)然,得益于 Palantir 的支持,NSA 的 SIGINT 能力已經(jīng)不再是 Snowden 能夠想象的了。
D. 讓我用一個(gè)思維實(shí)驗(yàn)來(lái)展示一個(gè) Android 用戶在這個(gè)大數(shù)據(jù)生態(tài)鏈中的位置吧(當(dāng)然任何一個(gè)讀者都可以親自嘗試,用 iPhone 手機(jī)效果會(huì)大打折扣)。某個(gè)周末,你來(lái)到了某個(gè)商場(chǎng),在一個(gè)咖啡廳里面點(diǎn)了一杯咖啡,然后開始用智能手機(jī)上網(wǎng)??Х葟d提供了免費(fèi) Wi-Fi 網(wǎng)絡(luò),由于法規(guī)要求需要你提供手機(jī)號(hào)進(jìn)行實(shí)名認(rèn)證,你毫不猶豫地輸入了手機(jī)號(hào)。于是免費(fèi) Wi-Fi 的服務(wù)商知道了你的信息:你的手機(jī)號(hào)和智能手機(jī)的 MAC。然后你開始刷微博,由于微博的 API 通常不使用加密信道,于是 Wi-Fi 熱點(diǎn)通過(guò)偷窺 HTTP 請(qǐng)求獲得了你的微博賬號(hào)。通過(guò)你的微博,Wi-Fi 服務(wù)商有可能了解你的性別年齡工作等信息。此外通過(guò)該熱點(diǎn)請(qǐng)求的很多元信息都會(huì)被服務(wù)商保留,雖然它們未必知道怎么挖掘這些元信息,但是它們會(huì)盡量將你的身份和這些信息關(guān)聯(lián)在一起并長(zhǎng)期保留。喝完咖啡,你開始逛街,這時(shí)候你的手機(jī)會(huì)開始掃描熱點(diǎn),商場(chǎng)可以通過(guò) Wi-Fi 探針追蹤你的位置。如果商場(chǎng)使用的 Wi-Fi 服務(wù)商和咖啡廳是同一家,或者與服務(wù)商建立了數(shù)據(jù)交換的協(xié)議,那么商場(chǎng)有可能實(shí)名地追蹤你的軌跡。商場(chǎng)的 Wi-Fi 服務(wù)商同樣會(huì)非常有耐心地存儲(chǔ)你的信息,以備不時(shí)之需。在逛街的過(guò)程中,你打開了一些購(gòu)物 App 用于比價(jià),順便拍了一些照片發(fā)給好友。其中一些 App 會(huì)把你的 MAC 地址和通過(guò) Wi-Fi 完成的定位信息也發(fā)送出去。如果存在一個(gè)完備的數(shù)據(jù)交易網(wǎng)絡(luò),任何對(duì)你感興趣的人都有可能獲得以下信息:你的電話號(hào)碼、手機(jī)的 MAC、微博賬號(hào),何時(shí)出現(xiàn)在這個(gè)商場(chǎng),在商場(chǎng)停留了多久,其間使用了哪些 App,在咖啡廳訪問(wèn)了哪些網(wǎng)站。而這一切都離不開 Wi-Fi 和 MAC。如果更極端一點(diǎn),你使用了專車軟件來(lái)這個(gè)商場(chǎng),并且你經(jīng)常來(lái)這家商場(chǎng),那么你很可能已經(jīng)在商場(chǎng)的??蛿?shù)據(jù)庫(kù)里了,你的家庭住址也不再是個(gè)秘密。 這個(gè)思維實(shí)驗(yàn)當(dāng)然是虛構(gòu)的,因?yàn)槔鏇_突無(wú)關(guān)公司之間很難達(dá)成信任,它們很少進(jìn)行實(shí)質(zhì)性的數(shù)據(jù)交換。但是寡頭們可以通過(guò)收購(gòu)和戰(zhàn)略投資將第三方變成第二方,甚至親自介入 Wi-Fi 熱點(diǎn)的服務(wù)。利用這些數(shù)據(jù)和技術(shù),大數(shù)據(jù)公司事實(shí)上可以將營(yíng)銷做到無(wú)孔不入。例如,利用上述信息,商場(chǎng)中的餐廳可以針對(duì)最近到過(guò)商場(chǎng)的用戶推送折扣信息,并且根據(jù)情況選擇短信或微博作為送達(dá)渠道。當(dāng)然現(xiàn)實(shí)社會(huì)中的餐廳并不會(huì)走得這么遠(yuǎn),它們更傾向于使用微信服務(wù)號(hào)一類的技術(shù)來(lái)建立會(huì)員機(jī)制。各種 P2P 金融公司、討債公司對(duì)數(shù)據(jù)更加饑渴,它們會(huì)愿意為你的信息(尤其是位置信息)付大價(jià)錢。所以從某種意義上說(shuō),數(shù)據(jù)寡頭更可能看重你的隱私的長(zhǎng)期價(jià)值。
正因?yàn)槿绱?,中?guó)的三大寡頭都參與了商業(yè) Wi-Fi 的布局。除了微信 Wi-Fi,相信大多數(shù)人都沒有注意過(guò)相關(guān)的報(bào)道。事實(shí)上新聞報(bào)道披露的僅僅是冰山一角。