引言
工業企業已進入了“大數據”時代,企業所管理數據的規模、種類和復雜度都在以前所未有的速度呈爆炸式增長。據麥肯錫咨詢公司統計,“制造業的數據存儲量高于其它行業——2010年的新數據存儲量接近2EB”。
大數據源自各種系統、設備和應用程序數據量的激增,使用傳統軟件解決方案,在可以接受的時間內完成這些數據的采集、管理和處理會非常困難。一個數據集內的大數據規模從幾十TB到許多PB不等。隨著高級裝置和設備的數量不斷增加,大量運行數據隨之上線,這種趨勢經常被稱為工業互聯網。前瞻型企業正在利用這些數據實現卓越運營和預測性分析,獲得競爭優勢,加速企業成長。
云計算已成為數據處理、儲存和分配的可行、主流解決方案,但對于具有TB量級數字內容的企業,大量數據在云內外的傳輸成為了難以解決的困難。作為在企業內實現高速海量數據傳輸的先導企業,GE采用行業領先的歷史數據庫解決方案,提供適用于大數據的云技術。
基于實時和歷史過程信息的數據驅動策略有助于企業優化績效。信息是實現工業企業競爭力和增長的核心要素,因此利用大數據云勢在必行。
云技術前景
云計算可帶來按需擴展、逐步投資的計算和存儲能力。與企業內部數據中心相比,云技術不需要大量的前期IT投資,企業可以方便地升級基礎實施,只對需要的能力進行投資。這就難怪越來越多的企業開始采用云技術——亞馬遜網絡服務(AWS)S3云存儲系統內儲存的數據量從2010年的2620億個對象激增至2012年第一季度末的9050億個對象。
工業數據面臨的難題
目前,大數據的創建和使用已經擴展到了雅虎、谷歌和Facebook等大型網絡公司之外的領域。各個領域的企業(包括工業企業)都面臨不斷上升的壓力,須利用數據推動的策略保持競爭優勢——這需要不斷增長的數據,致使數據集的規模日益龐大。此外,不斷發展和日趨嚴格的監管要求也需要采集更多信息,作為審計和合規性的證明。
制造型企業須記錄大量的過程數據,不斷增長的數據量成為了普遍存在的情況。例如,生產個人護理產品的CPG公司每33毫秒產生5000個數據樣本,其結果是:
• 每秒152000個樣本
• 每分鐘9百萬個樣本
• 每小時5.45億個樣本
• 每個輪班40億個樣本
• 每天130億個樣本
• 每年4萬億個樣本
顯然,用于提取值的數據量超出了傳統數據管理系統的能力范圍。此外,管理工業大數據的困難并不只限于信息量;由于數據具有不同的格式和來自不同來源,還存在數據多樣性和復雜度問題。經常存在過程信息“島”,必須進行合并、儲存和分析,以便獲取背景和有意義的值。
為了利用大數據,企業需要具備支持多種信息類型的能力、儲存大數據集的基礎設施及信息采集和儲存后對信息進行利用的靈活性——能夠對關鍵趨勢進行歷史分析,以實現實時預測性分析。隨著企業愈發了解到其價值主張源自于信息,大數據處理技術正快速獲得發展動力。
幾乎每一種企業感興趣的分析洞察都涉及時間元素,這要求專為利用大時間序列數據集實現關鍵洞察而設計的解決方案對其數據的值加以利用。
尋求工業數據解決方案
工業企業應感到慶幸的是,谷歌、雅虎和Facebook對大數據具有更高的需求。這幾家公司對點擊流、網絡日志和社會互動的分析需求迫使它們創建新型的大數據集存儲和分析工具。這些公司打下的基礎也可應用到工業領域,用于管理今后只會繼續增長的數據爆炸。
例如,Hadoop是一種可通過使用標準硬件,實現數據存儲擴展的工具,可在許多低成本計算機間分配數據。數據分配后,隨之而來的是數據定位和處理難題,這可以使用Map Reduce解決,Map Reduce提供一個框架,數據在一個簇內的許多節點間并行處理,允許將處理映射給許多位置的數據,然后將類似數據元素的輸出縮減成一個結果。
雖然Hadoop可能在處理大數據集方面具有良好前景,但創建Hadoop環境時的復雜度和要求的專業技能超出了工業企業的能力范圍。但這些企業仍須在整個企業內進行升級,以處理生產過程和其它工業運營中產生的大量時間序列數據。
例如,生產經理可能想要了解通過生產線的原料流速變化時,溫度改變對品質的影響;電廠主管可能想要分析過去5年的數據,研究異常情況和變化,了解之后是否發生了斷電,以實現預測性分析。
這種層面的運營洞察需要能夠對特定時間段的大數據集進行快速查詢的能力——這種獨特、強大的能力需要一種工業數據解決方案。
GE高級歷史數據庫的強大之處
對于工業大數據解決方案,人們首先想到的可能并不是歷史數據庫軟件,但許多企業可能沒有意識到的是:這些先進、開箱即用的解決方案是專為高效采集、存儲和管理大量時間序列過程數據而設計,而這正是工業大數據的難點所在。
隨著數據集的規模和復雜度不斷增加,高級歷史數據庫為企業提供了一種有效、簡單、方便的方法,能夠高效地利用大量實時和歷史過程數據,這是優化決策支持的關鍵要求。它們可以幫助企業連接和采集不同系統和設備的數據,發掘數據中隱含的信息。
高級歷史數據庫采用了時間序列友好的數據結構,使其性能大大優于傳統的關系或關鍵值數據結構,可在大數據集和相關時間段內高效地進行查詢。歷史數據庫為真正的實時數據提供速度大幅加快的讀寫性能和微秒級分辨率,能夠采集過程級的信息值,持續推動改良。
此外,高級歷史數據庫能夠與過程數據源連接,直接獲取數據——合并整個企業的數據并進行壓縮,實現高效存儲,極大減少了精確再生時間序列信號所需的數據量。
對于前文提及的CPG公司,與采用傳統數據庫相比,歷史數據庫可把每個樣本需要的磁盤空間減少85%。由于采用了智能記錄,歷史數據庫本質上能比傳統方法更加高效地儲存時間序列數據,智能記錄精簡了占用大量磁盤空間的無附加值數據點,但仍能表示“真實的全貌”。
推動創新、競爭和增長
擁有了完備的歷史數據庫性能,工業企業就能夠充分利用高級分析,有效地查詢幾年內的歷史數據,明確趨勢和模式,從而支持實時決策。企業能夠更充分地了解產品質量或生產時間損失等影響關鍵領域的因素,作出更明智的決策。
隨著越來越便宜的云存儲和越來越強大的云處理,云正成為存儲和分析公司所收集數據的不二選擇。借助云服務以及隨之而來的大數據工作流和其他類型的應用程序,用戶不再需要或同等程度的新軟件和新分析方法的培訓過程,耗費勞力。
借助Proficy Historian, GE的M&D中心持續管理整個系統內的數據流,通過大數據更好、更快地作出決策,從而優化運營和財務績效。
案例研究:大數據幫助GE能源節省數百萬
只有實現輕松的時間序列過程數據訪問,從而通過數據分析確定關鍵業務的趨勢,工業企業才能從大數據中獲益。有了這一洞察力,企業能夠提高自身的運營響應度和靈敏度,憑借差異化競爭信息從業內同行中脫穎而出。
例如,位于亞特蘭大的GE能源監測和診斷(M&D)中心,喬治亞州收集全球50多個國家上千臺燃氣輪機的數據,每天為客戶收集10千兆字節的數據。中心不得不組織并闡明來自系統內傳感器振動和溫度信號的恒定數據流。
• 高數據壓縮和實時數據訪問
監測和診斷中心仰仗GE的Proficy Historian軟件收集并管理其連續數據流。軟件強大的數據壓縮性能實現了極其高效的海量數據收集、存儲和集中。它將年度存儲容量從之前的60百萬兆字節縮減到10百萬兆字節,降低了每百萬兆字節存儲數據的管理成本,從而顯著削減了成本。
使用Proficy Historian之前,中心只能以多個關系數據庫為基準,在線存儲3個月原有應用程序的數據,優化數據的能力有限。從存檔中拉出數據,手動加載離線數據,然后運行數據查詢,落實數據請求需要幾天甚至幾周的時間,這是一項耗時且艱巨的任務。
現在,借助Historian,中心能夠在線存儲長達10年的數據,無需手動移動數據,即可高效查詢更大的數據集,從而實現近乎實時的數據分析。它能夠快速地給出自安裝后設備性能劣化等影響運營性能的關鍵問題的答案。更快地確定問題,從而及時地作出決策,更快地實行糾正措施。
• 更快的分析和預測診斷
如今,中心每天連續運行上百個不同的數據算法,企業得以更快地進行歷史數據的分析,為實時運營系統帶來意義和上下文,從而獲得關鍵競爭優勢。它也能通過比較歷史數據和當前資產績效,查看劣化跡象的趨勢和模式,提前數周預測資產故障和停機時間,在問題發生之前進行檢測、診斷和預測。
例如,中心避免了多起由閥門伺服和執行機構問題引起的故障,利用歷史和高級分析實現數據脈絡化和可行性情報,減少停機時間,為客戶節省了數百萬的支出。安裝Historian后,通過系統內大數據的使用,每年能節約和免除0.75億美元的成本,同時將性能增強為雙倍,為客戶帶來價值。
結語
業務和IT主管們需要捫心自問,他們的工業企業是否最大化過程數據的潛在價值,并通過對過程數據的分析推動實時改進。隨著數據容量的不斷增大,信息驅動的戰略將成為一種很普遍的競爭力來源,在工業領域應用大數據比以往任何時候都來的迫切。
仔細分析高級歷史,不難發現技術是如何通過對大量歷史數據集的高效、實時分析幫助企業利用其時間序列過程數據的。這些解決方案能夠為企業提供關鍵見解,以便及時地作出運營決策,改革業務方式,同時確保整個企業內的持續改進。
未來,通過信息,企業能夠更好地了解自身的業務,并預見可能發生的問題,利用大數據的價值,提高績效,超越競爭對手。企業擁有更為出眾的創新力和競爭力,推動價值。云中的大數據能夠顯著地促進業務增長,持續推動績效優化,獲得長期成功。
摘自《自動化博覽》2012年第12期