[閱讀筆記] 大數據 (Big Data): 生活、工作和思考方式的全面革新

書名: 大數據: 巨量資料掀起生活、工作和思考方式的全面革新
英文書名: Big Data: A Revolution That Will Transform How We Live, Work, and Think
作者: Viktor Mayer-Schonberger, Kenneth Cukier
譯者: 林俊宏
出版日期: 2013/03/05 (英文版) 2012/05/30 (中文版)




本書舉了許多例子,說明隨著資料化數位化,善用可取得的大量資料 (Big Data),可以幫助我們作出更準確的預測,例如預測紐約市哪個人口蓋可能將會爆炸以便即時檢修,預測哪些地區可能將會引爆流感以便即早設法控制疫情,讓翻譯系統及拼字檢查更精準。

大數據 (Big Data) 是一種新的思惟模式及解決問題的方式,在商業、教育、醫療、科技等各式領域,皆可設法運用這樣的技巧,找出新的方向,以更有效的方式來解決問題。

Big Data 應用實例


Google 利用每天 3B 筆搜尋關鍵字,測試了 450M 種數學模型,找出流感發生的時間及地點的預測指標,在 2009 年 H1N1 危機時,協助即時掌握疫情;而疫病管制局的通報系統,取得的資訊和實際情況有 2 週的時間差,對於疫情的控制來說,2 週是過長的。

Oren Etzioni 從旅遊網站取得 12K 筆票價資料,建立預測模型,預測飛機票價隨著時間的變化,幫遊客以最便宜的價格買到機票,藉此創立了 Farecast。後來票價資料擴展到 200B 筆,並將產品沿伸到飯店訂房、演唱會門票、二手車等領域,以 US$ 110M 賣給了 Bing。

Xoom 分析每一筆信用卡交易,在 2011 年發現一批 Discover Card 交易異常,逮到了詐騙集團。

英國石油公司在廠房及管線架設各種 sensors,隨時監控,而得知某些種類的原油具有較高的腐蝕性。

美國勞工統計局雇用數百名員工,每個月調查 8 萬種商品的價格,計算出 CPI,每年花費 US$ 2.5M,且要幾個禮拜才能夠得到結果;MIT 的兩位經濟學家 Alberto Cavallo 和 Roberto Rigobon 則抓取相關網頁,每天可蒐集 50 萬種商品的價格,在 2008 年 9 月雷曼兄弟申請破產後,立即發現了物價緊縮的趨勢,官方的數據則直到 11 月才看到這樣的趨勢,後來據此創立了 PriceStats。

前 Google 資訊長 Douglas Merrill 成立了 ZestFinance,根據各種資料,判斷借款者的 credit,在 2012 年貸款違約率比同業平均低了 1/3 (傳統的信評方式只參考少數重要指標)。

Amazon 原本由書評團隊挑出合適的書籍放在首頁推薦,後來 Greg Linden 以購買資料與產品之間的相關性,設計推薦系統,結果成效遠高於書評團隊的人工推薦方式,於是整個書評團隊被解散。

Big Data 的概念


Big Data 的定義:
(i) 資料量要達到相當規模才能達成的事 (如獲得新觀點、創造新價值)。 
(ii) 完整的資料集 (樣本=母體)。
Big Data 的重要概念整理於下。

樣本=母體


在資料化、資訊化未發達的年代,取得母體資訊成本相當高。
例如美國在 1880 年的人口普查,花了 8 年才完成。後來發明家 Herman Hollerith 以打孔卡片處理機來進行 1890 年的人口普查,僅花不到 1 年即完成 (若用傳統方式估計要花 13 年),打孔卡片處理機並成為 IBM 創立的基礎。
因此統計學孕育而生,以隨機取樣的方式,只需要取得少量樣本的資訊,便可以據此推測母體的特性。
例如美國每年會進行人口抽樣調查,每 10 年才會進行一次人口普查。
隨機取樣有幾個問題:
(i) 難以做到真正的隨機。 
(ii) 預測會有誤差 (在 95% 的情況下會有約 3% 的誤差)。 
(iii) 無法把樣本分成子群作進一步的分析 (因為如此誤差會大幅增加)。 
(iv) 蒐集資料時,必須把問題想清楚。蒐集得到的資料,也僅適用於原始的目的,無法以新的觀點對資料再加以分析。
隨著資料化、資訊化的推展,「樣本=母體」逐漸不必然表示需要耗費高成本,如此可以直接以母體來進行完整的資料分析,完全擺脫隨機取樣帶來的問題。
例如 Steven Levitt 清查 11 年內 64K 場相撲比賽,找出比賽作假的問題。這是隨機取樣無法發現的。

精確、微觀 → 不精確、宏觀


不精確的幾種情況:
(i) 誤差。有時放寬誤差,能取得更多的資料,而有時「有些誤差但大量」的資料比「精準但少量」的資料更有價值。放寬誤差也可讓大量 deploy 的成本降低。 
(ii) 為了結合來不同 source、不同 type 的資料。 
(iii) 資料格式不一致。
IBM Candide 系統使用 3M 精心翻譯的句子來訓練電腦,但成效不佳,後來放棄;而 Google 翻譯則採用了數十億個翻譯品質良莠不齊的網頁共有 95B 個句子,結果成效良好。

Google 人工智慧專家 Peter Norvig: 「簡單的模型 + 大量的資料」會打敗「複雜的模型 + 較少量的資料」。

資料庫的設計為了包容各種不同的資料結構,由 SQL 演進到 NoSQL

處理 Big Data 的系統: MapReduce, Hadoop

更著重相關性,而非執著於找出因果關係


現實世界太複雜,影響某個因數的變數太多,難以找出其因果關係,但只要能找到某個現象的指標,藉著相關性,就能夠設法預測未來。
舉例來說, Walmart 和 Teradata 合作,發現颶風來襲前,銷量大增的不只是手電筒,還包括一種名叫 Pop-Tarts 的小甜點。因此能在適當時機即時補貨,滿足顧客需求並提升營業額。
UPS 車隊在全美有 6 萬台車輛,原本是固定時間更換零件,後來在車上裝置 sensors 並進行預測分析,改為有必要才更換零件,結果每年省下了數百萬美元的費用。
Carolyn McGregor 追踪早產兒的 16 種生理指標 (包括心跳、呼吸、體溫等),每秒蒐集 1260 筆資料,在症狀出現前的 24 小時,就能作出預測,提早因應。並發現與醫生傳統概念相反的現象,傳統的概念是身體情況是逐漸惡化然後才會遭到感染,實際上生命徵象穩定,有時只是暴風雨前的寧靜。

資料化


資料化 (datafication): 將某個現象以量化形式紀錄,以便加以分析。

舉例來說,Matthew Foutaine Maury 在 1840 年代,整理過去海軍艦長的航海日誌,並設計航行紀錄表格,要求海軍艦艇紀錄,並設計機制讓民間商船也提供相關資料,把整個大西洋分成小區塊,各個小區塊的溫度、風向、海流等資料紀錄下來,據此找出了航行時間最短的航道,比原本口耳相傳的航道,航行時間縮短了 1/3。
日本東京產業技術大學院大學的越水重臣教授在汽車座椅上裝了 360 個 sensor,可藉此辨識駕駛者的身份,將發展為汽車防盜系統,未來可用來偵測駕駛人的姿勢作為道路安全的應用。
UPS 透過紀錄車隊中各車輛的 GPS 座標,搭配道路資訊,規劃最佳化的行車路徑,在 2011 年減少了 4800 KM 行駛里程,省下了 300M 加侖的汽油。
MIT 人類動力學實驗室主任 Sandy Pentland 和 Nathan Eagle 合作,進行 Reality Mining,藉由分析大量的手機資訊,推論和預測人們的行為。曾成功找出已感染流感的病患 (甚至他們自己都還不知道)。

人際關係、貼文 (以及情緒) 也是一種資料,稱為 social graph,Facebook、Twitter、LinkedIn 都設法利用 social graph 來創造價值。

隨著科技的進展,日常生活中還有很多事物也逐漸資料化,例如 Zeo 透過腦波測量裝置,以建立了全球最大的睡眠活動資料庫,也發現男女在 REM 的 duration 有差異;GreenGoose 則販售小型 motion sensor,裝在某個物件 (像是牙膏、貓砂) 上之後,就可以追踪它的使用量。

在 Big Data 的幫助下,世界不再像是由一連串的事件所組成,而是由資訊所組成。

價值


資料可以為初始目的 (表面的價值) 的使用而發揮價值,若能夠為其他各種不同目的而重複運用,則能進一步發揮資料的價值 (隱藏的價值)。

需要思考到資料可能的應用,才能正確評估資料的價值,也才能在蒐集資料時根據可能的延伸應用一併蒐集額外的資料。
例如,全球銀行電匯系統 SWIFT 發現付款情況和全球經濟活動有高度相關,因此根據電匯資料,也提供各國的 GDP 預測。
西班牙的通訊業者 Telefonica 在 2012 年成立了 Telefonica Digital Insights,把手機用戶匿名後的位置資料打包出售給其他業者。
使用者進行各種活動 (例如在某個網頁點擊的位置、看電子書時每一頁停留的時間、搜尋後第一個點選的連結) 形成的資料,稱之為 data exhaust (資料廢氣),也有其價值。

各國政府也逐漸提供公開資料 (美國: www.data.gov),可思考如何善用這些資料創造價值。

延伸閱讀


[書籍] 大數據

[學習筆記] 統計學: 基本概念 Statistics

[TED Talk] Talithia Williams: Own your body's data