★軟通智慧科技有限公司李巍峰
1 背景
在今年兩會期間,政府確立了“適度超前建設數字基礎設施,加快形成全國一體化算力體系”的2024年工作任務。黑龍江省深入貫徹習近平總書記的重要指示,圍繞發展新質生產力,結合自身產業發展優勢,通過開展人工智能+行動強化數字產品制造、智能機器人等重點產業鏈。
在此背景下,為服務國家戰略,支撐地方產業數字化發展,加快人工智能與經濟社會各領域深度融合,哈爾濱數字龍江智算中心項目落地哈爾濱道外區,一方面助力黑龍江省落實國家“星網工程”、“星地融算”等國家級戰略樞紐節點布局,另一方面,面向區域產業,通過項目、基地、人才、資金的一體化配置,實現科技創新引領產業創新,促成地方產業與算力發展相互促進、共同前進的良好態勢。
數字龍江智算中心定位區域“人工智能+行動”核心載體,國家一體化算力網絡樞紐節點大科學裝置,通過二期建設完成,并于2024年7月全面上線運營。數字龍江智算中心上線后,采用“算力+產業”雙輪驅動模式,基于一體化公共算力服務平臺,服務AI、大模型及國產GPU芯片等智算中心上下游企業。這些企業與AI、新金融、芯片設計、裝備制造、新能源、工業材料、城市治理、科研教育等行業和場景深度融合,推動傳統產業的數字化轉型,加速AI大模型產業向本地集聚。
2 案例實施與應用
數字龍江智算中心作為新型數字基礎設施,覆蓋了云計算、人工智能、大數據等諸多技術領域,具備數字化、智能化的特點,是數字經濟時代支撐社會生產力數字化的基礎設施,也是數據要素的重要載體。
數字龍江智算中心采用“集中部署、分級應用”的總體思路,采用基于高并發和數據資源處理的計算架構設計,參考五橫三縱的總體框架體系,采用多層架構設計,由展現層、應用層、應用支撐層、數據層、基礎軟硬件平臺、能源基礎設施,以及安全保障體系、運維管理系統構成。
其總體架構圖如圖1所示。
圖1 總體架構圖
其中,展現層通過集成各應用系統接口,整合匯總各種數據,以門戶網站、客戶端或手機APP形式對外提供政務辦公、行業智能應用、信息咨詢等各類服務內容。
應用層采用云原生技術,部署了大模型應用平臺、AI開發平臺、數據治理平臺云服務平臺等平臺系統。各平臺基于底層豐富的計算、存儲及網絡資源,支撐政府、企業及個人應用上云,同時,為云內用戶提供用戶管理、接入管理、資源管理、授權管理、流程管理和安全審計等統一管理界面。
數據層針對結構化數據、非結構化數據等多種數據類型,提供關系型數據庫、非關系型數據庫、向量數據庫等多種數據處理、分析、存儲能力供應用層各類應用系統使用。
基礎軟硬件平臺利用云計算、軟件定義存儲、軟件定義網絡等技術將底層網絡設備、服務器、存儲備份設備、安全設備等基礎硬件產品資源化,為上層業務提供精細化計算、存儲、網絡資源。
運維管理系統結合智算中心底層軟硬件設備進行設計,支持軟硬件設備及基礎軟件平臺系統的運行監控、異常報警、事件自動處理、態勢分析等功能。
安全保障系統依據信息系統等級保護要求進行建設,實現了融合安全統一可視化管理,管理員可在統一界面下進行日常安全巡檢、集中策略下發、配置調整和設備監控等全域安全操作,同時,可實現針對入侵等安全事件及時調整安全策略,實時修正防御規則,以構建數據中心零信任安全防護體系。
目前,數字龍江智算中心已入駐8大科研聯合實驗室,支撐實驗室十余個課題小組開展大模型算法研發、行業數據分析等科研活動所需的算力及數據需求。同時,基于智算中心各類應用平臺,數字龍江智算中心為行業頭部大模型企業面向區域提供包括人工智能遷移部署在內的25項管家式服務及5類19項大模型MaaS服務。
3 應用創新
智算中心是數字基建發展的重要組成部分,其設計、建設、運營涉及數據中心機電配套、硬件設備實施、軟件系統設計、安全合規保障、服務內容設計等多方面內容,是一項規模體量特別龐大、涉及技術特別復雜、服務要求特別高、客戶需要變化特別快的創新性系統性工程。
智算中心的建設和運營往往眾多重點及難點,包括:算力硬件技術路線多樣,難以實現統一管理、統籌調度;算力需求迅猛發展,算力設備供應緊張,建設周期壓力大;算力服務重點從高性價比向高性能轉移;算法應用賦能業務場景周期長,新型應用落地不夠敏捷;算法應用賦能業務場景周期長,新型應用落地不夠敏捷。
軟通智慧基于在智算中心建設運營方面的豐富經驗,積累沉淀了諸多技術和人才儲備,圍繞智算中心規劃、建設、運營全流程打造了靈暢算力服務體系,基于該體系,軟通智慧在數字龍江智算中心建設過程中通過架構創新、聯合優化、AI工程化服務、體系保障幾個方面充分保障了數字龍江智算中心建設運營工作順利開展。
3.1 架構創新
數字龍江智算中心整體建設遵循“分區+分層+分平面+安全”的全新設計理念。將智算中心進行模塊化、標準化,便于日常運維管理和日后擴展,如圖2所示。
圖2
分區是指按照業務特點和安全要求劃分不同的業務區域,各區塊間通過核心交換機連接在一起,不同類型的流量,通過VRF進行隔離。其中:
(1)AI訓練算力存儲區+調度區主要部署人工智能融合賦能的計算和存儲節點包含調度功能模塊,向人工智能融合賦能平臺提供塊存儲、對象存儲、文件存儲,還有提供人工智能融合賦能平臺中AI計算能力,主要由人工智能服務器+存儲構成。
(2)云資源區主要為提高超算中心資源利用率,提供基礎軟硬件層包括創建業務虛擬機。業務虛擬機提供CPU、內存資源,并通過增加分布式存儲共享的方式提供共享存儲資源,是人工智能融合賦能平臺的核心系統之一;云資源區網絡采用扁平化二層數據中心Spine-Leaf組網架構組網,通過部署雙機高性能數據中心盒式交換機作為機柜TOR接入交換機對服務器或存儲設備進行網絡接入,采用堆疊部署,形成統一管理控制界面后與雙機集群核心交換機之間通過雙鏈路上行,設計速率為2*100GE保障高速率轉發,10GE下行連接服務器或存儲設備。
(3)外部接入區承擔人工智能融合賦能平臺互聯網區的網絡交換職責,主要為平臺提供流量統計、防火墻、EIP、VPN等功能。內部網絡相互訪問,以及內部與外部相互訪問都通過該區域完成。提供網絡安全能力,檢測掃描外部訪問內部的網絡流量,保障平臺安全能力。使用出口路由器與MPLSVPN承載網絡、Internet網絡、DCN網絡等進行互聯。
(4)運維管理區:該區域主要用于運維、運營和管理接入,運維管理區部署所有安全審計以及安全管理設備,包括網管平臺、漏洞掃描、運維審計、數據庫審計、日志審計、殺毒軟件、WAF、態勢感知等,做到融合安全統一可視化管理,方便管理員日常安全巡檢、集中策略下發、配置調整和設備監控,可以限制數據中心業務的非授權IP訪問權限,同時關閉不必要的通訊端口,收集前端防火墻、邊界墻實現對來自外部網絡的攻擊行為記錄、溯源、記錄攻擊目標、攻擊類型和攻擊時間。所有安全設備為態勢感知提供海量數據,態勢感知通過AI大數據分析的能力對入侵等安全事件可以及時地調整安全策略配置,及時修正防御規則,靈活地對匹配IT資源、攻擊類型、協議等的攻擊報文采取相應的動作,構建數據中心零信任安全防護體系。
分層是指采用核心層和接入層兩層扁平結構。
分平面是指采用AI高性能計算平面、業務平面、管理平面等分離的設計方法,各自獨立組網,保證平臺可靠性。同時避免了各類網絡之間的競爭和由此產生的擁塞,從而提高提高系統的可擴展性、安全性和可維護性。
安全是指在不同業務區域之間、在數據中心出口等位置部署安全設備,實現業務安全訪問和數據安全保障。
3.2 計算優化
人工智能芯片作為支撐智算中心算力的核心部件,在單臺智算服務器中,其成本能占到整臺服務器成本的80%以上。然而,數據表明,大部分用戶的智能算力芯片利用率只有10%到30%。大量算力的閑置無疑是對智算中心成本的巨大浪費。因此,對智算中心智算集群進行調優,以提高整體算力使用率無疑是智算中心建設運營的重點。
站在整個智算中心的角度來看,計算的優化分為三個方面:
(1)單訓練任務的優化
目前人工智能算法開發都依賴于TensorFlow、Pytorch、Mindspore等深度學習框架,這些基礎軟件的設計目標之一是提升單個訓練任務的計算性能,而在訓練過程中,數據的讀取、芯片之間的通信吞吐都是影響訓練效率的關鍵因素。因此,網絡系統、存儲系統及計算系統的聯合調優尤為重要,資源分配平臺需要充分了解服務器硬件的內部拓撲及整體網絡架構,才能有效發現數據傳輸的最短路徑、避免網絡可能產生的擁塞。龍江智算中心云平臺通過自動化NUMA設置、內核參數配置、網路擁塞策略調整等多種手段保證了單任務計算達到理論性能上限。
(2)多任務調度優化
智算中心作為面向公共的算力服務平臺,訓練任務是非常多樣化的,單機單卡、單機多卡、多機多卡任務對于資源規模的要求均不同。不合理的算力芯片調度策略會導致智算中心內資源碎片化嚴重,同時任務資源等待時長增加,如圖3所示。
圖3
龍江智算中心算力調度平臺一方面通過資源分配算法優化,通過底層拓撲信息分析實現GPU資源的精細化資源調度,另一方面,通過資源調度算法支持細粒度的GPU資源共享與回收,通過支持不同算力芯片的上報和管理,幫助AI訓練任務根據實際需求選擇合適的GPU類型,提升計算效率。
3.3 AI工程化服務
針對AI應用開發定制化程度高、訓練數據集生成難的問題,龍江智算中心通過搭建人工智能開發平臺,提供一站式人工智能解決方案。平臺面向人工智能研究中的數據處理、算法開發、模型訓練、算力管理和推理應用等各個流程的技術難點,提供了模型開發平臺、集成高性能分布式深度學習框架、先進算法模型庫、視覺模型煉知平臺、數據可視化分析平臺等一系列平臺工具,幫助平臺用戶高效開展分布式人工智能算法訓練、數據處理和可視分析、模型煉知和輕量化等人工智能算法開發工作。平臺整體功能架構如圖4所示。
圖4 平臺整體功能架構
同時,軟通智慧基于平臺能力,圍繞數據工程及算法工程兩方面為智算中心企業提供定制化服務。數據工程方面,圍繞業務數據清洗、訓練數據標注及數據價值發掘,協助客戶為智算中心用戶提供定制化軟件開發及數據治理服務。算法工程方面,面向用戶場景及行業痛點,協助客戶為智算中心用戶提供算力芯片適配服務、應用云化服務及場景解決方案打造服務。
4 效益分析
借助軟通智慧靈暢算力服務體系的全方位服務保障,數字龍江智算中心建設運營至今已完成130P算力需求的簽約,為現有算力規模的130%,達到上限即可滿載運營。同時項目發揮智算中心平臺優勢,積極整合央國企資源,截至目前已與星網集團達成合作,并將科技部學術認偽大模型、組織部人才畫像大模型、中國科學院紫東太初大模型等12個科研、行業大模型引入黑龍江,在全國范圍首個實現大模型訓練場的智算中心。
今年,三期項目計劃通過產業聯盟投資18億元,提升域內算力達500P,建成數字龍江智算中心國家一體化算力網絡鏈接衛星互聯網服務網絡的地基門戶,形成東數西算骨干節點、天數地算的首發節點、星地融算的樞紐節點戰略格局。目前,運營公司已成功完成180P算力服務協議的簽約。
5 案例意義
數字龍江智算中心建設運營的成功是軟通智慧靈暢算力服務體系加速人工智能大模型賦能千行百業、助力區域數字基建發展的一次成功實踐。靈暢算力服務體系圍繞智算中心規劃、建設、運營全流程打造,覆蓋了智算中心從規劃設計、建設集成到運營運維各階段客戶所需的各類技術及人員服務需求。實踐表明,靈暢算力服務體系為區域智算中心建設、運營提供了一套成熟、先進的技術服務標準,通過靈暢算力服務體系,可幫助智算中心實現交付標準、易于管理、性能高效、整體安全可控的建設目標,同時智算中心作為數字基建核心出現建而不用、用而不好的問題,切實幫助區域通過發展數字基建帶動地方產業轉型升級,進而實現地方數字經濟快速發展。
作者簡介:
李巍峰(1985-),浙江東陽人,現任軟通智慧新算力系統部總裁,主要研究方向為人工智能、數據中心建設,帶領團隊在人工智能領域取得顯著突破性進展,在多地實現區域級智算中心落地。
摘自《自動化博覽》2024年10月刊