廣告

2014年2月24日 星期一

大數據處理的局限 (約翰•凱)

大數據處理的局限英國《金融時報》專欄作家 約翰•凱
週一,法國南部又在下雨(編者註:此文英文發表於2月11日)。
不過,此前一天卻是晴天。
上週三也很乾燥,但隨後的周四到週六差不多一直在下雨。
讓人稍感安慰的是,對於暴風雨和晴天之間的時間間隔,幾天前就已有了精確的預報。這正是我為何在周一而不是前一天寫這篇專欄文章的原因。如今天氣預報的準確性已經大大改善了。
英國廣播公司(BBC)再一次公佈了其歷史上最糟糕的那次天氣預報。 1987年,邁克爾•菲什(Michael Fish)曾在電視上向觀眾保證,颶風即將到來的謠言是毫無根據的。然而,幾小時之後,幾十年不遇的大風席捲了整個英國,掀翻了各地的屋頂,吹倒了許多大樹。
不過,現在出現這種烏龍的可能性小多了。短期天氣預報是大數據領域的一項巨大成就——也許是最大的一項成就。超級計算機提供了大數據處理的機遇,其所處理數據集合的規模和復雜度都令人難以置信。據我所知,最新的超級計算機能處理1EB(艾字節,指2的60次方字節——譯者註)的數據,大約是我手頭這台蘋果公司(Apple)的Mac機處理能力的2000萬倍。英國氣象局(British Meteorological Office)聲稱,比起菲什那個年代最成功的預報,如今的三天期天氣預報和當時的一天期預報一樣準——不過,要想描述預報能力的提高程度,這可能不是一種最令人信服的方式。
然而,一個依然存在的事實是,預報時間提前得越多,預報準確度下降得越厲害。天氣預報人員能向我們提供今明兩天足夠準確的預報。對於更長時間,他們仍然不能準確預報。兩者之間形成了鮮明對比。比如,今年冬天異常的天氣狀況就在預料之外。
預報短期的天氣狀況是可能的。這是因為從某種意義上說,決定明天天氣狀況的多數因素已經出現了。如果你去YouTube網站上看看菲什那次災難性預報的視頻,你會在他給出的圖上看到引發1987年颶風的超低氣壓區。當時的預報員只是在分析現有數據時出了錯。只要提高分析能力,這種錯誤出現的可能性就會降低。不過,如果你預測的時間更提前一些,你會遭遇一個難以應對的問題:在非線性系統中,如果初始條件發生細微變化,時間過得越久,結果發生的變化就越大。在這種情況下,對初始狀況了解得不夠全面根本就和一無所知是一回事。
這個道理在很大程度上對經濟和商業領域也是適用的。就像明天下不下雨或1987年颶風的問題一樣,對於明天的國內生產總值(GDP)將是多少的問題,答案或多或少已經擺在了那裡:明天的產品已在生產之中,明天的商品已擺上貨架,明天的業務已安排妥當。大數據處理將有助於我們分析這類信息。借助大數據處理,我們將更準確、更迅速地知道GDP是多少,我們將能更成功地預測下季度的產出,我們的前景預測需要調整的次數將會更少。
在大數據處理的幫助下,對沖基金經理人將能在英國國家統計局(Office for National Statistics)自己都不知道統計數字之前,準確預測出他們將發布什麼樣的數據。實現這一目標能為他們自身帶來極大的盈利能力,但對社會來說沒什麼用。大數據處理能令他們得到非常全面的信息,其全面性不亞於​​英國央行貨幣政策委員會(MPC)調整利率時手頭持有的信息。不過,大數據處理無法幫助他們了解貨幣政策委員會將做出何種決策。也無法幫助他們了解美國財政部長漢克•鮑爾森(Hank Paulson)和雷曼兄弟公司(Lehman Brothers)首席執行官迪克•富爾德(Dick Fuld)對於該行即將出現的破產將如何應對。
大數據有助於我們理解過去和現在。然而,它能在多大程度上幫助我們理解未來,要取決於未來在多大程度上通過某種相關性被包含在現在之中。這種相關性要求事件背後的運轉機制恆定不變。對於部分物理過程來說,這一原則是成立的。而對於這個包括了希特勒(Hitler)和拿破崙(Napoleon)、亨利•福特(Henry Ford)和史蒂夫•喬布斯(Steve Jobs)的世界來說,這一原則永遠都不成立。在這個世界裡,那些做出重大決策或發現的過程擁有先天的不可預測性,也無法進行定量描述。
在這個世界裡,少一枚釘子也能輸掉一場戰爭,問題描述中的細微差別也能導致大相徑庭的結果。對於這樣的世界,以上原則也是不成立的。不過,在大數據處理的幫助下,我知道明天將再一次陽光普照。
譯者/簡易

沒有留言:

網誌存檔