中國信息通信研究院付韜,張恒升,王哲
1 背景
隨著國家對數字化、信息化領域基礎設施的不斷投入,我國形成了以5G、SD-WAN等為代表的高質量工廠外網,以確定性網絡、工業以太網等為代表的高質量工廠內網。大帶寬、低時延的網絡能夠更好地支撐工廠中各業務間的協同與優化,能夠更加統一地整合資源,形成生產任務的全流程精細管控能力。在此過程中,隨著工業應用種類增多、協同過程復雜度上升、數據處理和交換密度增大,工業算力與網絡的密切程度不斷提升,促進整個工廠的算力架構呈現出新的發展趨勢。
算力的存在呈現出多種形態,既有面向公司生產業務的工業云算力,也有實現車間級賦能的邊緣算力,還有工業終端上不斷提升的本地算力。以生產應用的業務流為紐帶,算網一體化管控正逐步形成系統性的解決方案。然而,現有工業算力存在算力描述、算力計價、確定性等方面的不足,給IT網絡和OT網絡融合帶來了一定阻礙。本文梳理了工業互聯網背景下的工業算力發展現狀和工業算力架構,分析了國內工業算力的發展趨勢和方向。
2 工業算力的發展現狀
2.1 工業算力的概念
工業算力是計算機設備或計算/數據中心處理工業計算需求的能力,是指在工廠生產環境中計算能力的總和,它支撐工廠各級信息系統完成數據采集、數據分析、控制信息等活動。工業算力以計算機技術、網絡技術、大數據技術等多種途徑實現生產過程的數字化、智能化和高效化,全面賦能工廠全流程環節。工業算力并不是算力在工廠場景中的簡單應用,它需要結合工廠生產任務的高度實時性需求進行精確資源調度,在算力部署、算力分配、算網融合、算力計費等方面存在差別。近年來,國內工業算力蓬勃發展,呈現出“算力穩步提升、聯系尚不密切”的特征。目前,工業算力由“云-邊-端”三級構成,企業級工業云主要進行數據規模大的離線運算,優化生產流程和工藝參數。工業云進行工業大數據分析,挖掘生產過程中的瓶頸和問題,提高生產效率和產品質量。車間級邊緣計算主要進行數據密度大的實時處理,通過復雜算法實現智能生產、檢測、智能控制、智能維護等工作。工業終端主要是數據的產生者和執行者,近些年來本地算力也獲得了一定增長,可以實現智能算法并有限度地共享算力。以下是國內工業算力發展的幾個關鍵特征:
(1)工業算力規模持續增長:隨著數字化轉型的深入推進,國內企業對算力的需求持續增長。各類企業紛紛加大投入,通過建設企業內數據中心提升算力規模,以滿足日益復雜和精細化的生產需求。(2)算力分布分散、聚合度較弱:與移動通信運營商的算力網絡資源池不同,工業算力呈現出分層、分域的部署現狀,算力協同主要發生在臨級算力設施之間。這主要是由于缺乏通用的算力開放機制,無法跨層、跨域地精確度量、評估和調用算力資源。受限于工廠生產活動的實時性要求,跨域算力借用往往存在不穩定性和較低的效能。
(3)工業算力不具備確定性:工業算力已廣泛應用于智能制造、智慧能源、智能交通等領域,很多企業嘗試通過應用工業算力技術,實現對生產過程的實時監控和優化,提高生產效率和產品質量。但是,邊緣計算和云計算都不能夠依據嚴格的確定性指標進行調度,導致IT服務實時性和OT生產應用實時性存在巨大差距,嚴重阻礙了工業算力的應用與推廣。
(4)應用通用性較差:目前很多廠商的應用與終端設備依賴性過強,導致只能劃分專用資源給應用。這一方面降低了算力的利用率,另一方面維護起來更加復雜,導致算力的開放能力降低。
2.2 我國工業算力典型模式
邊緣算力:多個計算能力較弱的工業終端,將計算任務或數據遷移到鄰近的邊緣計算設備,實現數采、分析、檢測、控制等功能。其具體形式包括兩種,一種是工廠本地邊緣計算設備如邊緣一體機、服務器、網關等,另一種是運營商租借給工廠的移動邊緣計算節點(MEC)。
云化服務:云化服務是將云資源池以容器或虛機的形式劃分出來,遠程為工業產線提供應用服務。它的優勢在于靈活重新配置、成本較低和軟件故障恢復快。
群智算力:是指在缺乏邊緣計算和云計算資源時,利用多個生產設備的本地計算能力,通常在存在計算依賴或數據依賴的若干個設備之間,調整任務分配,使得整個設備集群的計算任務都能夠在實時性要求的范圍內完成。
算力協同:該模式充分利用了邊緣計算的實時性和云計算的大量資源,可以逐級部署計算任務,在計算能力和實時性之間取得折中。
2.3 工業算力挑戰
工業算力在發展過程中遇到了多方面的挑戰,性能方面主要是受工業生產活動實時性制約,功能方面主要是受算力設備通用性的影響,主要包括以下幾個方面:
(1)缺乏統一標準化的算力描述:算力描述本身是當前的熱點研究方向,在算力網絡、云計算等場景中都需要對算力進行抽象。在多個數據中心形成資源池的背景下,算力的度量、類型、分配狀態等情況十分復雜,由CPU、GPU、TPU、DPU等聚合而成的異構性算力需要統一的結構化描述語言。工業算力描述與外網算力描述具有一定的共性部分,但還要考慮設備類型和部署位置,需要擴展算力描述數據結構,形成面向行業和網絡結構的工業算力描述[1]。
(2)缺乏工業專用的算力計價:一是運營商租用算力的精確計費,以MEC節點算力為代表,費用由邊緣計算基站數量、性能、服務和使用時長決定。二是面向中小企業的公共算力計費,在該場景下多個企業共用園區的云邊算力,需要精確測算各企業提交的任務所使用的算力。
(3)算力開放能力較弱:算力供給粒度從大到小可以分為專用設備、容器/虛擬機、任務、時間片,從充分利用算力資源的角度,應該盡可能進行小粒度的調度。使用專用設備來保障某些工業任務,其他任務無法共用處理能力,就會造成最大的浪費。目前最常見的方式是為邊緣任務分配專用的容器,這也是由于現有方案的終端應用和邊緣應用都和廠商緊密耦合,資源在被大粒度分配后,就無法再給其他任務開發算力。未來為了實現確定性計算,必須要實現任務和時間片粒度的算力開放,需要形成細粒度的算力調用協議和接口。設計并研發通用算力服務,形成面向行業的、可復用共享的通用算力應用。各級工業智能終端可依據標準化參數調用工業算力設施的算力服務。
(4)算網確定性:在很多應用與網絡協同研究中,算力與網絡正在聯系得越來越緊密。目前國內眾多研究機構對面向應用的確定性技術開展了研究,如中國信息通信研究院提出了面向應用的確定性(AoD)研究[2],該研究針對工廠網絡或園區網絡實現離散資源的統一調度,編排具有一系列確定性執行環節的確定性服務,滿足用戶的頂層需求;北京交通大學提出了廣義確定性的概念,從理論角度分析了在多要素、網絡異構、復雜數據流場景下的確定性保障問題,該工作更側重于理論研究與模型設計;網絡通信與安全紫金山實驗室則提出了算網操作系統的概念,提出了算力網絡中的多應用協同調度問題的解決方法,不過該方案對于算力僅實現盡力而為的調度,更適用于數據中心的非實時計算任務。確定性算力網絡是使用確定性網絡的算力系統,缺乏對算力確定性調度,因此本報告認為其本質是“算力+確定性網絡”,更適合運營商的服務場景,不強調算力提供過程的確定性,追求盡可能高的服務性能。國外方面,IETF成立了CATS(Computing-Aware Traffic Steering)工作組,旨在研究網絡主動感知服務客戶端和服務站點并提供端到端路由。為了實現基于計算感知和網絡感知的路由決策,需要全面感知網邊端信息。目前CATS工作組在計算和網絡信息的分類和感知方面已經做了一些工作,包括架構、場景、協議、路由機制等。隨著CATS工作的進一步開展,將通過算網一體化的確定性實現應用服務鏈的精確執行。
(5)多資源協同能力:工業算力架構中,各種資源依據算法進行調度,需要對算力、網絡、存儲、能耗等綜合決策,以適應工業生產在高效、節能、服務質量方面的多目標優化。為了克服這些挑戰,需要多方共同努力,打通工業算力的業務、數據,加強算力開放協議設計、工業算力標準制定等方面的工作,形成滿足工業需求的算力供給能力。
3 工業算力架構
工業算力架構由決策層、管控層和執行層構成,如圖1所示。在目前的應用場景中,其主要實現了邊端精密協同和云邊精密協同。
決策層算力是集中式的算力資源中心,一般以工業云的形式存在,目前運行在工業云的計算任務實時性相對較弱。工業云具有大數據分析與決策能力,輸入輸出的數據密度與價值極大。在很多制造業企業中,工業云運行工業模型訓練、確定性全局管控、流程優化等計算密集型應用,一般以較長的周期將訓練好的模型更新到邊緣計算設施。工業算力綜合管控平臺將實現算網一體化管控,通過統一信息模型打通各類設備的監測接口和管控接口,通過對確定性服務的維護,確保生產流程中算網控制的閉環。
管控層算力是由靠近生產線的智能計算設備組成,實時性能夠滿足工業應用需求。這些設備具有推理與決策的計算能力,數據密度與價值較高,可以實現計算能力開放、數據挖掘、虛擬化、任務遷移等功能。目前邊緣側的算力開放程度主要受限于應用和工業終端的綁定,通過實現通用服務和標準化的算法,可以進一步提升邊緣計算的通用性和利用率。
執行層算力是工業現場的本地算力,實時性最強,計算能力相對較弱,數據密度與價值較低,可以實現數據采集、控制邏輯、本地訓練等任務。傳統工業設備如傳感器只能執行簡單的任務,未來能夠實現算力協同的主要是具有一定自有算力的智能終端,相對較少的計算能力用于產生數據、任務遷移、數據保護等方面。
邊端精密協同主要是工業邊緣算力為各種智能終端處理專用計算任務,實現多維數據處理、圖像識別、定位信息處理、控制決策等功能,兩者通過滿足工業高性能通信需求的確定性網絡互聯。
云邊協同主要是針對云平臺和邊緣計算的特點,將計算任務進行差異化部署,在分布式訓練中,可以將匯總的模型部署在工業云平臺,在工業邊緣算力部署局部模型。兩者在更新頻率、預測精度、工業算法等方面都可以按需配置。
圖1 工業算力架構
4 工業算力發展趨勢
(1)算力伴隨業務自由聚合傳統工業網絡中的數據主要是監測數據和控制數據,監測數據是通過攝像頭、傳感器、工控機等產生的原始生產數據,控制數據是控制產線設備生產的操作數據。工業互聯網設施在“端-邊-云”架構中逐級處理這兩類數據。
隨著行業需求和工業應用的種類越來越多,在工業智能終端之間、工廠算力設施和運營商MEC之間都會發生算力的聚合,來提供因地制宜的算力服務。這主要是在礦山、港口、供熱等領域,除了企業生產園區之外,還有大量的移動設備活動區域。這就需要設備就近組成集群,實現更快的任務分發和結果匯聚。
(2)確定性算力保障
在工業場景中,工業邊緣算力與工業云平臺的計算過程也會影響工業終端的執行,所以如果想讓IT設施深度參與OT生產過程,就必須保障算力的確定性。算力的確定性與前文提到的算力粒度相關,針對時間敏感計算任務進行強制保障的算力粒度越細小,則計算任務的確定性越強,當給每個確定性任務隔離出充足的計算單元時間片時,其計算時延和抖動就是精確可控的。在保障算力的確定性后,就可以針對確定性任務的需求指標,分解成算、網指標,從而保障任務全流程確定性。
(3)分布式訓練的應用
工業中數據采集和設備控制的算力開銷是基本穩定的資源開銷,未來大部分動態變化的工業算力是用于工業模型訓練和優化。分布式訓練將工業模型分割,按照規模和實時性需求部署在工業算力架構各層,需要根據算力部署拓撲、算力規模、模型分割等因素決定分布式訓練的中心節點、更新頻率、機器學習算法等配置。目前很多企業只是在集團側進行模型優化,在邊緣側進行模型部署,隨著機器學習應用越來越多,可以形成工業模型分割更加靈活的方案,使得整個企業中算力可以針對工業模型的細粒度高靈活動態部署與優化。
(4)群體智能算力
邊緣計算是工業終端算力不足時的必要補充,隨著芯片成本進一步下降,工業智能終端的計算、存儲性能都將進一步提升。在作業范圍比較大的行業,例如礦山、港口、供熱等行業,整個網絡中既有企業內部網絡,也有擴散到有線網之外的作業區。此時,就需要工業智能終端就近組成算力集群,通過群體智能算力進行跟生產活動強相關的計算任務,并通過對計算任務拆分、子任務遷移、計算結果匯總的過程,得到預期的決策結果。
(5)基于MEC的智能園區
工業算力是實現智能生產的重要支撐,它已經描繪了美好的愿景。然而,這也導致了建設工業算力體系的成本不是中小企業能夠負擔的昂貴開支。從國家發展的角度來看,可以將工業算力中的決策層設到工業園區,由政府出資建設并形成服務能力。由運營商將MEC基站租賃給企業,中小企業只需要采購智能工業終端即可。該方案具有三大優勢:一是增強了工業算力的共享,提升了算力基礎設施的利用率;二是形成了可復用的工業模型,有利于優秀解決方案的推廣;三是降低了中小企業應用新技術的工業算力設施建設和運維成本。
5 總結
我國工業算力已經有了長足發展,但還存在相對松散、標準化程度低等問題,本文在總結工業算力架構及挑戰的基礎上,提出了未來工業算力發展的重點方向。下一步我們將以標準化工作為重點,在工業算力描述、調用接口、工業算力南北向協議等方面凝聚產業界共識,最終通過工業算力的進步促進算網一體化與扁平化發展。
作者簡介:
付 韜,博士,中國信息通信研究院高級工程師,主要從事工業互聯網、確定性網絡的技術研究。已發表期刊及國際會議論文10余篇,其中SCI檢索3篇,EI檢索2篇,申請發明專利7項。
張恒升,中國信息通信研究院正高級工程師,技術與標準研究所產業互聯網研究部副主任,主要研究方向為工業互聯網網絡。
王 哲,博士,中國信息通信研究院高級工程師,主要從事工業互聯網、邊緣計算領域政策、技術標準,產業發展等方面研究,長期支撐工業和信息化部、國家發改委等部委的工業互聯網產業政策制定、重大專項指南編制等工作。目前擔任CCSA邊緣計算技術標準及產業發展推進委員會技術促進組組長,同時擔任IEEETransactionsonVehicularTechnology,IEEEAccess等國際期刊審稿人,已發表期刊及國際會議論文10余篇,其中SCI檢索5篇,申請發明專利及軟件著作權4項,主持并參與起草10余項行業標準制定工作。(本文通訊作者)
參考文獻:
[1] 劉鵬, 陸璐, 李志強. 工業互聯網技術發展分析及算網融合的趨勢思考[J]. 自動化博覽, 2023, 40 (2) : 29 - 31.
[2] 施巍松, 等. 邊緣計算: 現狀與展望[J]. 計算機研究與發展, 2019, 56 (1) : 21.
[3] Ordonez-Lucena, J. and F. Dsouza. Pathways towards network-as-a-service: the CAMARA project. in Proceedings of the ACM SIGCOMM Workshop on Network-Application Integration[C]. 2022. Amsterdam, Netherlands: Association for Computing Machinery.
[4] 馬華東, 等. 一種新型群智感知系統架構模型和實現方法[J]. 中國科學: 信息科學, 2023. 53 (7) : 1262 - 1280.
[5] 楊冬, 程宗榮, 田偉康, 王洪超, 張宏科. 廣義確定性標識網絡[J]. 電子學報, 2024. 1 (52) : 1 - 18.
[6] Fu, T. and H. Zhang, The System Architecture and Decision Mechanism of the Deterministic Application Layer in the Industrial Internet, 2023.
[7] 張晨, 等. 算網操作系統白皮書[R]. 2023.
[8] 網絡通信與安全紫金山實驗室, 等. 確定性算力網絡白皮書[R]. 2022.
摘自《自動化博覽》2024年第二期暨《邊緣計算2024專輯》