當前,信息技術的創新正在改變著我們熟悉的生活和工作方式。在大數據時代,與氣象事業發展密切相關的氣象數據再次成為焦點。氣象的大數據時代真的到來了嗎?近日,記者就上述問題采訪了國家氣象信息中心副總工程師沈文海、中國科學院自動化研究所研究員張文生。
大數據到底有多“大”?
IBM研究表明,在整個人類文明所獲得的全部數據中,有90%是過去兩年內產生的。而到了2020年,全世界所產生的數據規模將達到今天的44倍。
根據國際數據公司IDC監測,人類產生的數據量正在呈指數級增長,大約每兩年翻一番。
數據量暴增的速度令人瞠目結舌,我們已進入“大數據時代”。張文生說:“事實上,智能終端的大量應用,如聊微信、刷微博、手機支付,讓越來越多的用戶貢獻了越來越多的數據。”
記者了解到,就數據量而言,中國的大數據主要有以下幾類:互聯網,大約有2EB的數據。電信、金融、保險、電力、石化系統每個系統大致都擁有10PB以上的數據;在公共安全、醫療、交通、電子政務領域,一個中等規模城市每年大約產生300PB。在商業銷售、制造業、農業、物流和流通等領域,數據量尚處于積累期,體量不大,多的達到PB級別,基本約在數十TB到近百TB級別。
對于氣象數據來說,“氣象部門需要永久保存的數據目前約有4PB~5PB,年增量約1PB。”沈文海介紹,相對而言,氣象數據較上述數據大戶至少低3個數量級。
氣象數據是大數據嗎?
“大數據就是全體數據,是混雜數據,不必追究數據的來源。”張文生介紹。
目前,對大數據的特征,科學界已達成了共識,就是大體積、多樣性、高速度和價值大。“體積巨大是大數據的最根本的特征。一般而言,大數據的起始計量單位至少是PB、EB或ZB級別。”沈文海介紹。類型和來源的渠道繁多是大數據的第二個特征。此外,生成速度快、處理時效高、價值巨大也是大數據的特征。
“在體積上,氣象數據剛剛達到大數據的準入門檻。”沈文海分析道:目前,在所有氣象資料中,地面觀測、氣象衛星遙感、天氣雷達和數值預報產品四類數據占數據總量的90%以上,堪稱“四大金剛”。
氣象數據來源種類繁多,僅氣候工作特用資料就包括冰芯、花粉、樹木年輪、洋流鹽度、地表植被等觀測資料,已達數十種。沈文海說:“這些數據雖然種類多,但都是只用于氣象領域的科學數據,來源較為單一。”
眾所周知,基本的氣象數據直接用途是氣象業務、天氣預報、氣候預測以及氣象服務。“大數據應用”與目前的氣象服務有所不同,前者是氣象數據的“深度應用”和“增值應用”,后者是既定業務數據加工產品的社會推廣應用。
“不宜將氣象預報產品的社會化推廣應用簡單地冠以‘氣象大數據廣泛應用’的名稱,因為產品應用與氣象數據的‘大小’無關,如此冠名將易導致概念的混亂和氣象‘大數據’的簡單化。”沈文海表示。
氣象數據要如何發展?
大數據時代已經到來,氣象數據如何發展是氣象工作者關注的重點。“目前,社會上的‘大數據應用’大多局限在數據基本價值的深度應用挖掘方面。”張文生說。除了大家知道的天氣預報等,現在,氣象行業的公共服務職能越來越強,面向政府提供決策服務,面向公眾提供氣象預報預警服務,面向社會發展,應對氣候發展節能減排。這些決策信息怎么來依賴于我們對氣象數據的處理。
采用統計分析方法對海量數據進行分析處理,發現其中某些特定要素之間的關系,這是到目前為止,所有“大數據應用”成功案例的共同特征,即便“大機器學習”等目前備受推崇的大數據時代新事物也無例外。“大數據的核心就是預測”,這是《大數據時代》的作者舍恩伯格的名言。“如果這一斷言是準確的話,那么氣象數據的‘大數據應用’時代也許還沒有到來。”沈文海分析道。
天氣和氣候系統是典型的非線性系統,無法通過運用簡單的統計分析方法來對其進行準確的預報和預測。人們常說的南美叢林里一只蝴蝶扇動幾下翅膀,會在幾周后引發北美的一場暴風雪這一現象,形象地描繪了氣象科學的復雜性。運用統計分析方法進行天氣預報在數十年前便已被氣象科學界否決了——也就是說,目前經典的大數據應用方法并不適用于天氣預報業務。“既然預測是大數據的核心,那么對于天氣預報這一氣象領域核心‘預測’業務而言,其‘大數據應用’除了統計分析方法外,還有什么別的方法嗎?”沈文海說道。
氣象數據是整個氣象行業的基礎資源,它的價值在氣象行業內部已經和正在被深入挖掘著。對于全社會而言,氣象數據也是極其珍貴的信息資源。我們期待著氣象數據在跨行業綜合應用這一“增值應用”價值挖掘過程中煥發出的新的光芒。
面對社會上沸沸揚揚的大數據風潮,觀察一下國外氣象同行們的反應不無裨益——尤其是身處大數據風潮發源地的美國氣象同行。當你了解到這些國外(尤其是發達國家)氣象同行對于大數據風潮近乎一致的冷漠反應時,你的頭腦也許會冷靜下來,并產生如下疑問——氣象大數據時代真的到來了嗎? 中國氣象報記者張靜