科學數據的積累、開放、共享,是世界科技發展的重要資源和推動力,但數據“孤島”頻現,讓不同領域大量科學數據處于沉睡狀態。我國積極推動地球大數據實現從被動共享到主動共享轉變,通過建立數據、計算與服務一體化的數據共享系統,推動形成地球科學數據共享新模式
如何讓黃河三角洲40年間的變化像過電影一樣地展現在人們眼前?如何在一張圖內看到全世界風云變幻?如何在一個網站搜索到所有需要的數據……
新年伊始,中國科學院發布的A類戰略性科技先導專項——“地球大數據科學工程”給出了答案。
打破數據“孤島”
地球大數據有何用?“地球大數據科學工程”專項負責人、中國科學院院士郭華東舉了個例子:如果把我國430個人口超過30萬的城市遙感數據和人口數據等結合研究,就能了解土地使用率與人口增長率之間的比率。比如1990年至2000年,大數據顯示,安徽省的城市人口增長率在增加,但土地消耗率在降低,總體上人口城市化大于土地城市化;2000年以后,大數據又顯示,安徽省人口增長率持續降低,土地消耗率卻明顯提升,土地消耗率與人口增長率比率持續增加,這表明安徽省的土地城市化遠遠大于人口城市化。
大數據時代,科技創新越來越依賴于科學數據綜合分析。“大數據是財富,也是資源,作為大數據的重要組成部分,地球大數據正催生人們用全新的思維方式去了解地球?!惫A東說。
但是,我國的數據共享一直是個難題:很多單位和機構都有自己的數據資源,都認為數據應該共享,可真正實現共享很困難。
一位科學家曾對這種“各自為戰”的狀況深有感觸。他到國外參加學術會議,在會上才知道與他同一系統的另一個研究單位也在做同樣的研究,而且其中有很多是重復性的。
數據“孤島”頻現,讓不同領域大量科學數據處于沉睡狀態。“科學數據的積累、開放、共享已經成為世界科技發展的重要資源和推動力?!痹谥袊茖W院副院長張亞平看來,致力于推動地球大數據實現從被動共享到主動共享轉變,在科學數據共享及其體制機制若干關鍵問題上取得實質性突破,為中科院乃至國家層面形成良好的數據共享新生態,中科院理應先行先試。
為了喚醒沉睡的科學數據,2018年1月1日,中國科學院A類戰略性先導科技專項“地球大數據科學工程”正式啟動實施,執行期5年。作為2018年度的重要成果,地球大數據共享服務平臺近日正式發布。
“平臺以共享方式為全球用戶提供系統、多元、動態、連續并具有全球唯一標識規范化的地球大數據,通過建立數據、計算與服務一體化的數據共享系統,推動形成地球科學數據共享新模式。”郭華東表示。
服務全球用戶
地球大數據共享服務平臺的“體量”有多大?
根據郭華東提供的數據,平臺目前提供的共享數據總量約5PB(1PB=1024TB)。其中,對地觀測數據1.8PB,生物生態數據2.6PB,大氣海洋數據0.4PB,基礎地理數據及地面觀測數據0.2PB;地層學與古生物數據庫49萬條、中國生物物種名錄360萬條、微生物資源數據庫42萬條數據記錄,組學數據目前在線10億條。
“目前用戶能夠在線檢索到40%數據,隨著硬件條件不斷完善,平臺數據將陸續上線,并且每年將以3PB的數據量更新?!惫A東說。
數據共享服務系統和CASEarth Databank系統,以及區域系統——數字絲路地球大數據系統,這是地球大數據共享服務平臺的3個核心系統。
正如阿里巴巴創造的淘寶模式一樣,數據共享服務系統提供的是一個快捷精準的地球科學數據。該系統基于專項數據特點,可提供項目分類、關鍵詞檢索、標簽云過濾、數據關聯推薦等多種數據發現模式,同時提供在線下載、應用程序編程接口訪問等多種數據獲取模式,支持可定制的多格式數據在線查看、預覽和查詢,并能應對各種個性化需求,進行統計、收藏、推薦、下載和評價服務。用戶可以利用這個系統,根據數據共享權限進行共享服務。
數字絲路地球大數據系統包括“一帶一路”區域資源、環境、氣候、災害、遺產等專題數據集94套、自主知識產權數據產品57類、共享數據超過120萬億字節。目前,該系統已具備千萬億字節級的軟硬件環境,在國際上率先研發了通用大數據平臺下地球大數據提取、轉換與加載工具集,實現了6大類數據的檢索、共享、產品可視化展現,并通過中、英、法3種語言版本在國際上實施共享。
利用CASEarth Databank系統,你可以像看電影一樣觀看目標地點數十年的滄桑巨變。此系統提供長時序的多源對地觀測數據即得即用產品集,包括1986年中國遙感衛星地面站建設以來20萬景(每景12種產品,共計240萬個衛星數據產品)的長時序陸地衛星數據產品等。
有了它能干啥?比如在重要會議前,我們可以清楚地透過顏色變化,了解從江蘇到山東滸苔的變化趨勢,在一分鐘內就可以將過去滸苔在該地區間的移動了然于胸,不用再大費周折實地考察。同時,該系統還引入人工智能等先進技術,面向一般用戶、行業用戶和科學家用戶,提供不同層次的對地觀測數據分析與信息挖掘服務,為你“量身定制”所需內容。
“未來,用戶不僅可以利用其數據、計算和技術來實現應用,也可以上載多源數據,嵌入算法模型,并結合系統資源來完成特定的專題信息挖掘、知識發現和決策支持?!惫A東說。
面向科學發現
根據郭華東的研究,一個國家擁有大數據的“體量”與國家的GDP發展成正比,“誰擁有了大數據,誰就擁有了未來”。
不過,僅僅擁有還不夠,科學數據的價值在于使用。對于有些科學家對自己的數據“總愿意鎖在自己的抽屜里”,不愿意共享的情況,郭華東表示:“該系統可以解決科學家數據共享的后顧之憂,你的數據上線了,進入到這個系統,會擁有自己的版權,在這個平臺上,數據可以實現全球定位并且擁有自己的專屬‘身份證’。”
談及與同為資源數據共享平臺的谷歌大數據的區別,郭華東表示,主要有4點不同:首先,數據資源不同,谷歌大數據是基于大量的衛星數據,以遙感衛星數據為主,而地球大數據平臺是在充分重視衛星數據基礎之上,同時采用大量大氣、海洋、陸地等數據,在資源環境、生態生物方面都是高度集成的;其次,系統功能不同,谷歌更多地做一些展示和空間分析系統,而他們則更多地加入了計算系統,促進數據、計算、服務一體化;第三,應用服務不同,谷歌更多地做大眾化的系統,而他們的技術則更多面向科學發現,例如對區域地質演化規律的理解,對生物學發現和古生物研究等方面;最后,谷歌的目標是面向市場,但他們的系統更多地服務于政策、決策,科學家可以利用地球大數據平臺進行更多科學發現。
正如張亞平所說,如果我們不跨越數據共享這座高山,就永遠不可能到達大數據勝利的彼岸。構建地球大數據共享服務平臺,中科院走出了成功的第一步,也是堅實的一步。
摘自《經濟日報》