自20世紀70年代至今,我國的海洋環境監測體系已基本形成,建成了國家(海區)、省(直轄市、自治區)、市、縣四級海洋環境監測網絡,開展約8000多個監測站位的現場監測,在我國管轄的300萬km2海域開展岸基站、船舶、飛機、衛星、浮標、雷達、智能終端等多種手段監測工作,每年獲得各類監測數據(結構化數據)約200余萬條,此外還包括:遙感數據(僅國家海洋環境監測中心近幾年遙感影像加工產品就接近70TB),其它業務化系統、實驗室、數值模型、檔案系統的長尾科學數據,雖然每個數據集合在規模上并不大(一般不會超過1TB),但這種小數據集合數眾多且異構性強,它們匯聚后的規模和復雜性都不容小覷。海量的海洋環境監測數據(以下簡稱:監測數據),加上其多源性、多態性、多時相的特性,使監測數據成為了大數據。
但是,海洋數據數據來源眾多、數據類型多、獲取難度大、獲取成本高以及歷史積淀量大等問題,造成目前海洋大數據管理分散且多以紙質資料形式存放的現象出現,不利于數據檢索且復用率低,整合難度較大。而從海洋大數據平臺的角度來看,對數據的需求量和時效性要求也更高。
針對此類問題,海洋大數據平臺建設必須實現多設備、多類型、多格式數據等整合,實現資料元數據管理,空間數據模型統一,基準的統一;必須縮短后處理時長,提高自動化程度;實現各類觀測平臺各類觀察設備數據獲取的無縫接入;充分利用5G網絡、岸基自組網、海上平臺自組網,提高數據接入的時效性。
但是想要真正解決海洋大數據所帶來的困惑,必須要三個方面入手。一是如何對不同部門的海量數據進行有效挖掘、分析和應用;二是解決“信息孤島”,建立數據資源共享機制,實現數據跨部門、跨系統使用;三是數據如何應用到海洋資源開發、海洋環境監測等具體問題,為政府決策提供真正支持。因此,行業企業在發展過程中,能夠對數據和用戶需求了解充分將成為其他企業無法企及的競爭壁壘。
大數據時代的一個重要任務是監測數據集成,其意義如下:
(1)從數據分析及管理角度來看,這些分散的結構化、半結構化、非結構化的監測數據,蘊藏著大量的信息和知識,但是,目前的海洋監測系統集成一般只是系統的集成,針對數據集成的很少,即使有也只是用傳統的關系型數據為主導的集成方案,這種方式不能滿足多源異構數據集成和共享的需求,容易導致分析結果缺乏性、科學性,最終使管理者的決策缺乏可靠性。網格技術在實現更深層次、更大范圍的資源共享,以及消除數據孤島方面發揮了重要作用,但對組織成一體的資源如何共享使用上著力不多,在易用性上存在不足[1],云計算和大數據技術采用分布式計算模式,克服了網絡計算的缺陷,為海量多源異構數據收集、存儲、集成、共享、分析、決策提供了技術保障。
(2)從科研者的角度來看,大數據時代科研工作者已經不再滿足利用單一的數據源和分析方法進行研究,而是希望整合來自不同渠道的數據,從而得到一個更加全面與宏觀的認識,這意味著數據集成對科學研究至關重要的需求。
(3)從大數據的價值鏈—大數據的發現(采集、準備、組織)、集成(數據源管理、通用數據表示)、數據探索(數據分析、可視化、決策)[2]來看,大數據集成(BigDataIntegration,BDI)起著承上啟下的作用,具有非常重要的作用,是目前研究熱點之一。