編者按:“三分技術(shù)、七分數(shù)據(jù),得數(shù)據(jù)者得天下”,作為最新最熱的技術(shù)話題,大數(shù)據(jù)受到各行業(yè)的廣泛關(guān)注。而其在石化行業(yè)的應(yīng)用,更是業(yè)內(nèi)的熱門話題。
事實上,大數(shù)據(jù)在石化行業(yè)并不是什么新鮮的詞匯。現(xiàn)如今,面對節(jié)能的挑戰(zhàn)、新能源的發(fā)展、兩化融合等多項問題,石化行業(yè)必須通過大數(shù)據(jù)的創(chuàng)新與應(yīng)用來應(yīng)對挑戰(zhàn),通過大數(shù)據(jù)分析,完成相關(guān)信息采集,并對數(shù)據(jù)進行存儲、檢索和智能分析,從數(shù)據(jù)深度關(guān)聯(lián)、可視化查詢、數(shù)據(jù)報告等多個方向,為石化企業(yè)實現(xiàn)企業(yè)決策、生產(chǎn)管理的智能化提供數(shù)據(jù)支持。
當前,涉及數(shù)據(jù)的行業(yè)越來越廣,數(shù)據(jù)種類越來越多,數(shù)據(jù)量越來越大,使人們逐漸意識到數(shù)據(jù)蘊藏的巨大財富和商機。
近年來,“大數(shù)據(jù)”一詞在各種媒體上頻頻出現(xiàn),而且越來越被人們所重視。其實,大數(shù)據(jù)問題早就存在了。
對于現(xiàn)代企業(yè),采集生產(chǎn)和經(jīng)營過程中形成的數(shù)據(jù),分析這些數(shù)據(jù),由此產(chǎn)生一系列的決策對過程進行干預(yù)和調(diào)整,這是現(xiàn)代工業(yè)管理所遵循的基本原則。石化行業(yè)早就重視生產(chǎn)經(jīng)營活動中的數(shù)據(jù)采集和分析,隨著計算機技術(shù)的成熟和普及,數(shù)據(jù)采集越來越密集,范圍越來越廣,數(shù)據(jù)越來越多。例如,乙烯生產(chǎn)裝置需要監(jiān)控的參數(shù)約5000余點,一個中等規(guī)模的石化企業(yè)需要監(jiān)控的生產(chǎn)參數(shù)約10萬點,DCS或SCADA系統(tǒng)的采樣周期為秒級,實時數(shù)據(jù)庫保存數(shù)據(jù)的周期通常為1分鐘,如此算來,一個星期內(nèi),中型石化企業(yè)實時數(shù)據(jù)庫累積的生產(chǎn)參數(shù)即可達10億條。作為石化產(chǎn)業(yè)鏈上游的石油勘探也是如此,一個普通的油田勘探項目即可產(chǎn)生十幾個TB的地震勘探數(shù)據(jù),勘探公司每年的勘探數(shù)據(jù)量達1500個TB(一個TB為十的十二次方字節(jié))。數(shù)據(jù)量之大可見一斑,由此可見,對于石化業(yè)來說,大數(shù)據(jù)問題早就有之。
大數(shù)據(jù)涉及行業(yè)廣泛
隨著IT技術(shù)和互聯(lián)網(wǎng)的迅速發(fā)展,各行各業(yè)都在與各種數(shù)據(jù)打交道,就連普通百姓也在使用數(shù)據(jù)、產(chǎn)生數(shù)據(jù),這些數(shù)據(jù)又被人們收集、儲存和分析。例如,人們在互聯(lián)網(wǎng)上產(chǎn)生數(shù)量巨大的各類數(shù)據(jù),據(jù)統(tǒng)計,社交網(wǎng)站Facebook每天更新的信息量達5000萬條,微博Twitter每天刷新的信息約6500萬條,這里的數(shù)據(jù)除了傳統(tǒng)的數(shù)字之外,還包括文本、圖形、圖像、聲音等其它形式的數(shù)據(jù)。
當前,涉及數(shù)據(jù)的行業(yè)越來越廣,數(shù)據(jù)種類越來越多,數(shù)據(jù)量越來越大,使人們逐漸意識到數(shù)據(jù)蘊藏的巨大財富和商機。2011年5月,麥肯錫全球研究院發(fā)布了題為《大數(shù)據(jù):創(chuàng)新、競爭和生產(chǎn)力的下一個新領(lǐng)域》的報告。報告指出,數(shù)據(jù)已經(jīng)滲透到每個行業(yè)和業(yè)務(wù)領(lǐng)域,逐漸成為一種重要的生產(chǎn)因素,人們對于大數(shù)據(jù)的運用預(yù)示著新一波生產(chǎn)率增長浪潮的到來。2012年3月,美國政府宣布“大數(shù)據(jù)研究和發(fā)展倡議”,并斥資啟動大數(shù)據(jù)研究和發(fā)展計劃。大數(shù)據(jù)上升為國家意志,大數(shù)據(jù)被認為是“未來的新石油”。
如何迎接大數(shù)據(jù)的挑戰(zhàn)
提出大數(shù)據(jù)已有幾年了,如今人們對數(shù)據(jù)的認識更加深刻,認為大數(shù)據(jù)的提出正在醞釀和促進一場工業(yè)革新,應(yīng)該采取對策,制定措施,迎接大數(shù)據(jù)的挑戰(zhàn)。2013年3月,中國電機工程學會信息化專委會發(fā)布《中國電力大數(shù)據(jù)發(fā)展白皮書》,該文件分析了電力大數(shù)據(jù)特征和大數(shù)據(jù)發(fā)展的挑戰(zhàn);提出了電力大數(shù)據(jù)關(guān)鍵技術(shù),以及電力大數(shù)據(jù)發(fā)展策略;指出了電力大數(shù)據(jù)是電力工業(yè)技術(shù)革新的必然過程,以及重塑電力核心價值和轉(zhuǎn)變電力發(fā)展方式是中國電力大數(shù)據(jù)的兩條核心主線;展望了大數(shù)據(jù)的應(yīng)用前景。其他行業(yè)也都在根據(jù)自身特點制定相應(yīng)對策。
石化行業(yè)有重視數(shù)據(jù)的傳統(tǒng),例如,在企業(yè)的控制、執(zhí)行和管理三個層面上分別設(shè)置數(shù)據(jù)收集、儲存和處理的機制和相應(yīng)設(shè)備,許多企業(yè)正在或已經(jīng)建立了MES和ERP信息系統(tǒng)。但是,目前數(shù)據(jù)處理和應(yīng)用僅僅限于統(tǒng)計和查詢,數(shù)據(jù)中蘊含的潛在價值遠遠沒有被挖掘出來。隨著數(shù)據(jù)量的不斷增長,數(shù)據(jù)的大容量儲存、管理和數(shù)據(jù)安全性問題,以及隨著企業(yè)在更大范圍的布局而產(chǎn)生的分散分布與數(shù)據(jù)集成之間的矛盾等,這些問題均給我們提出了新的課題。正如麥肯錫全球研究院在其分析報告中指出的那樣:大數(shù)據(jù)是一定時間內(nèi)無法用傳統(tǒng)數(shù)據(jù)庫軟件工具對其內(nèi)容進行抓取、管理和處理的數(shù)據(jù)集合。傳統(tǒng)的數(shù)據(jù)處理模式不能解決大數(shù)據(jù)問題,我們必須在大數(shù)據(jù)背景下重新審視對數(shù)據(jù)的認識,梳理出石化行業(yè)大數(shù)據(jù)的特點,關(guān)鍵技術(shù)和應(yīng)對策略。
首先,我們應(yīng)從兩個方面來認識大數(shù)據(jù),即:大數(shù)據(jù)既是一種新資源,又是一種新的商業(yè)模式。
如同石油、鐵、煤等自然礦物一樣,大數(shù)據(jù)也是一種重要資源,需要勘探、采掘、提煉等一系列步驟才能加工成有用的物質(zhì),轉(zhuǎn)化成財富。對數(shù)據(jù)的統(tǒng)計查詢只能從數(shù)據(jù)中提取一些信息,而從數(shù)據(jù)中獲取更有價值的知識就需要用數(shù)據(jù)挖掘、機器學習等非傳統(tǒng)的數(shù)據(jù)處理方法。數(shù)據(jù)、信息、知識是人們描述和認識世界的三個不同境界。數(shù)據(jù)只是記錄客觀事物的符號,只是一種資源;數(shù)據(jù)只有與某事物聯(lián)系才能有意義,成為有用的信息;知識是描述事物的某個客觀規(guī)律,反映深層次的本質(zhì)屬性,需要從數(shù)據(jù)中提煉。我們從大數(shù)據(jù)中要獲取的不光是信息,更要獲取的是知識,猶如從礦石中提煉出寶貴的金屬。對于大數(shù)據(jù)的資源屬性而言,除了數(shù)據(jù)分析方法之外,大數(shù)據(jù)設(shè)備同樣面臨許多新問題。
所謂大數(shù)據(jù)是一種新的商業(yè)模式是指:由于從大數(shù)據(jù)中發(fā)現(xiàn)有價值的結(jié)果,使人們突破傳統(tǒng)的思維,產(chǎn)生更多的增值服務(wù),催生新的管理模式,拓展新的業(yè)務(wù)領(lǐng)域,轉(zhuǎn)變原有的發(fā)展方式,引發(fā)技術(shù)創(chuàng)新和產(chǎn)業(yè)革新,甚至改變傳統(tǒng)的社會管理模式。正如牛津大學教授維克托說的那樣:大數(shù)據(jù)開啟了一次重大的時代轉(zhuǎn)型,無論是商業(yè)、思維還是管理,都無時無刻不在受到數(shù)據(jù)的影響和改變。總之,根據(jù)大數(shù)據(jù)的特點需要改變和設(shè)計企業(yè)的管理模式。可以設(shè)想,在不久的將來企業(yè)將設(shè)置大數(shù)據(jù)分析部門,他們專門分析企業(yè)內(nèi)部和周邊相關(guān)的數(shù)據(jù),從中發(fā)現(xiàn)問題,洞察形勢,預(yù)測未來,并將這些結(jié)果分發(fā)給相關(guān)人員,及時作出相應(yīng)決策。實際上,電商已經(jīng)在應(yīng)用大數(shù)據(jù)技術(shù)轉(zhuǎn)變其銷售方式,他們從互聯(lián)網(wǎng)數(shù)據(jù)中獲取客戶的需求信息,根據(jù)客戶需要主動將相關(guān)信息推送到客戶端,做到有的放矢,提高了銷售效率。
我們還應(yīng)該改變傳統(tǒng)的數(shù)據(jù)分析方法,注重應(yīng)用大數(shù)據(jù)分析方法。數(shù)理統(tǒng)計學是傳統(tǒng)數(shù)據(jù)分析方法的理論基礎(chǔ),統(tǒng)計分析主要包括描述性分析,相關(guān)性分析和回歸分析等,數(shù)理統(tǒng)計基于來自對象的少數(shù)樣本分析來推斷總體。大數(shù)據(jù)不再是少數(shù)樣本,而是對象的全體,使人們有機會俯視總體,而無需通過樣本來窺視對象。對于龐大的數(shù)據(jù)體,大數(shù)據(jù)分析常常采用聚類分析、分類分析、模式分析、關(guān)聯(lián)分析等分析手段,從中發(fā)現(xiàn)感興趣的,重要的,或異常的模式,而不必拘泥于追求尋找變量之間精確的函數(shù)表達式。實際上,石化生產(chǎn)過程是復雜的物理化學變化過程,影響過程的因素多,機理十分復雜,難以用線性手段描述和精確方程表達。通過大數(shù)據(jù)分析,可以從中發(fā)現(xiàn)某些異常,或事故模式,對安全生產(chǎn)具有重大意義。大數(shù)據(jù)分析同樣可以用于優(yōu)化生產(chǎn),以及企業(yè)管理的各個領(lǐng)域。與傳統(tǒng)數(shù)據(jù)分析相比,大數(shù)據(jù)技術(shù)注重關(guān)聯(lián)性分析,大數(shù)據(jù)使我們在更大的范圍內(nèi),在眾多的因素中研究事物之間的關(guān)聯(lián)性,會發(fā)現(xiàn)一些有價值的新現(xiàn)象和新規(guī)律,而傳統(tǒng)數(shù)據(jù)分析方法限于某個局部,造成了數(shù)據(jù)之間的斷裂,數(shù)據(jù)中的規(guī)律無法充分挖掘。傳統(tǒng)數(shù)據(jù)分析方法強調(diào)事物之間的因果關(guān)系,而大數(shù)據(jù)分析只強調(diào)業(yè)已存在的關(guān)聯(lián)性,無需探究誰是因,誰是果。總之,大數(shù)據(jù)將帶來全新的分析問題思路和視角。
為了迎接大數(shù)據(jù)時代的到來,石化企業(yè)應(yīng)該切實做好技術(shù)改造,技術(shù)儲備和技術(shù)攻關(guān),特別在以下幾個方面:數(shù)據(jù)管理上,建立大數(shù)據(jù)管理體系和架構(gòu),大數(shù)據(jù)的軟、硬件平臺;數(shù)據(jù)分析上,研究數(shù)據(jù)挖掘、機器學習、模式識別等新分析方法的應(yīng)用;數(shù)據(jù)處理上,研究分布計算式和儲存技術(shù),云計算技術(shù)等;數(shù)據(jù)展現(xiàn)上,研究如何生動展示數(shù)據(jù)和數(shù)據(jù)分析結(jié)果,如可視化,三維和虛擬現(xiàn)實等技術(shù);人才培養(yǎng)上,盡快培養(yǎng)解決大數(shù)據(jù)問題的技術(shù)人才。
作者簡介
陸治榮,畢業(yè)于清華大學工程數(shù)學力學系,曾在航天二院、南京煉油廠、霍尼韋爾公司高技術(shù)執(zhí)行部,思華數(shù)據(jù)技術(shù)有限公司,北京石油化工工程有限公司等單位工作。近十余年,專注于數(shù)據(jù)挖掘和數(shù)據(jù)分析技術(shù)的研究、開發(fā)和應(yīng)用,期間,主持了兩項數(shù)據(jù)分析軟件的研發(fā),獲發(fā)明專利一項,出版專著一部。
摘自《自動化博覽》2月刊