★綴初網絡技術(上海)有限公司
1 目標和概述
隨著5G時代的到來,車聯網、智慧城市、基于AR/ VR等新型應用和工作場景層出不窮,終端設備的種類和數量也大規模增長。這些交互界面和終端設備產生了大規模的實時數據。除此之外,未來的交互,不僅是目前所熟悉的人與人、人與機器的交互,還會產生大量機器與機器之間,甚至集群級別的交互。同時,伴隨機器的單機或群體智能水平提升,數據將會呈現指數級增長。面對新型應用和巨量的實時數據,邊緣云的應用場景和行業愈加廣泛,從技術商業化的歷史發展規律來看,PPIO基于邊緣云計算的高質量音視頻邊緣服務與優化解決方案將主要面向于以下應用場景:
(1)短期:對低延時傳輸和控制成本有需求,比如短視頻和直播平臺、手機廠商等;
(2)中長期:云游戲、超低延時直播平臺等對超低延時有改善需求的場景;
(3)長期:邊緣云和邊緣計算最大的應用場景是有大量機器交互,對超低延時有剛性要求的新應用場景,而不僅僅是改善現有應用的效果,比如車聯網、智慧城市、空間數字化、基于AR/VR的生活和工作場景等。這些場景對超低延時級別的數據傳輸和計算要求更加嚴格,達到了紅線標準的級別。
PPIO高質量音視頻邊緣服務與優化解決方案,主 要目標在于為各類內容提供商和終端用戶提供低時延、 高帶寬、高質量的音視頻服務,利用邊緣計算架構、云原生框架、軟件定義網SDN、AI預測+調度算法等系統 和技術優化邊緣云服務的服務質量,實現邊緣云服務的 靈活、高效、智能部署。除此之外,PPIO在原有中心 云的架構上進行彈性伸縮,從技術角度為用戶降低部署 成本。此系統以云原生為核心,可實現中心云與邊緣云 的多元融合。整套系統的底層結構不變,意味著原本使 用中心云的客戶不用修改底層架構,其算力可以直接接 入彈性伸縮的邊緣側,從而大大降低客戶的部署成本。 彈性伸縮也是本方案的關鍵降本措施之一,以靈活的部 署和計費方案,實現資源的按需分配及回收。具有技術 創新性、廣泛的行業價值和社會價值。
2 方案介紹
2.1 架構設計與基本能力
圖1 項目核心架構
如圖1所示,本方案面向匯聚邊緣計算能力,設計 了無縫連接的K8s@Edge、SDN@Edge、AIDevOps@ Edge三大主要框架,以整合服務節點并面向B端用戶輸 出的邊緣計算服務。通過大數據分析和智能調度技術, 實現按需求靈活調度,將分發內容調度至加速節點,優 化終端用戶體驗。該技術適用于下載、點播、直播等多 種傳輸場景,實現了按需求調度,提升用戶體驗和服務 可靠性,同時降低帶寬成本。目前整體框架和核心技術 成熟,并在不斷迭代優化。
(1)K8s@Edge,標準開放的云原生技術和能力K8s@Edge敏捷部署系統架構如圖2所示。
圖2 K8s@Edge敏捷部署系統架構圖
首先,PPIO實現了K8s@Edge面向邊緣異構資 源的全局調度編排,將閑置資源用起來。云原生技 術是實現這種分布式系統最佳的選擇,但是傳統的 Kubernetes架構一般都是跑在一個機房內的多臺服 務器上的,需要將Kubernetes分布在全國數千個機 房的不同配置的服務器上,所以在保持接口兼容性 的情況下,PPIO高質量音視頻邊緣服務編排系統對 Kubernetes做了定制化改造,增強了在網絡和存儲隔 離方面的能力,保證了安全可靠,同時可以和客戶指定 的中心云廠商實現跨云無縫對接,以實現算力在云邊兩 側的彈性伸縮和協同。
基于目前主流的容器引擎K8s,在邊緣云領域進行 了創新,提升了對資源的彈性納管能力,實現了云機效 率的極致。K8s在邊緣云的應用沒有先例,憑借技術團 隊的堅持和能力積累,成功實現了這款主流容器引擎在 邊緣云上的應用,是技術領域的重大突破。通過多次迭 代優化,避免了“重復造車”的效率低下問題。更重要 的是,K8s是現在云原生架構中使用的主流容器,基于 K8s進行迭代開發,可以保障產品和解決方案與業界通 用標準的高度兼容,能大幅提升解決方案和產品的開放 性。
(2)SDN@Edge,服務邊緣云分布式節點場景的創新Overlay網絡服務框架
圖3 SDN@Edge與傳統SDN的架構對比
PPIO高質量音視頻邊緣服務編排系統拋棄傳 統網絡中使用的樹狀結構,參考服務網格(Service Mesh)思路,提供面向服務的點到點發現、路由和穩 定通信能力,并發式地實施監控預警、流量預測。任務 運行過程中,一旦發現某個節點有問題,就會通過路徑 尋優的方式,找到最適合的路徑來支持或疏解,從而保 證了云協同的流暢度,以及高質量、穩定的網絡服務。
SDN@Edge與傳統SDN的架構對比如圖3所示。
(3)AI DevOps@Edge,云邊智能協同方案對傳統自動化運維進行升級,更好適配邊緣計算環境
圖4 AI DevOps@Edge基礎架構
對傳統的DevOps方案進行智能化改造,利用 改進的Boosting模型,對業務需求波動進行時空預 測,根據需求預測結果和不同客戶的SLA等級,利用 EdgeMatrix框架進行業務調度優化,并結合K8s@ Edge進行運維部署,極大提高邊緣計算場景下的產品 交付質量和運維效率,以及邊緣節點的資源利用率,并 有效解決了資源異構、資源競爭和供需兩端動態波動的 三個問題。
(4)KaiS,其為邊云集群系統設計的基于學習的 調度框架
圖5 面向Kubernetes邊緣云系統的雙尺度調度
KaiS采用了一種雙時間尺度調度機制來協調請求指 派和服務編排,并給出了部署上述算法與原生K8s組件 兼容的設計實現,首先基于圖神經網絡進行集中式服務 編排,從而將不同類型的服務部署到各個計算節點,然 后基于多智能體算法進行分布式請求指派,從而將不同 類型的請求卸載到各個計算節點,實現高效系統調度。
(5)EdgeMatrix,引入了網絡化多智能體演員-評 判家算法,將物理資源重新定義為邏輯隔離的資源組合 EdgeMatrix引入了網絡化多智能體演員-評判家算法 (Networked Multi-agent Actor-Critic, NMAC)進行 資源定制,以及基于次模函數優化的啟發式算法JSORD 用于解決請求指派和服務編排問題。
圖6 EdgeMatrix框架
2.2 應用與部署案例
截至目前,PPIO高質量音視頻邊緣服務與優化解決 方案已為多家互聯網巨頭、一線云計算服務商、獨角獸級 創業公司,提供符合低時延、高帶寬、海量數據分布處理 需求的邊緣云計算服務,所有解決方案和服務均承諾可用 性不低于99.9%,多環節冗余災備實現高可用保證。
(1)直播
業務痛點:隨著電子競技行業的蓬勃發展,越來越 多的正規電競賽事開始被宣傳和關注。作為業內領先的 電競賽事直播平臺,客戶希望能夠在賽事直播高峰期間 減少CDN源站壓力,同時提供時延更低、彈性擴容、 性價比更高的網絡來保證終端用戶的觀賽體驗。
解決方案:為了滿足客戶的需求,在原有方案的 基礎上進行了SDK定制化開發,簡化客戶開發工作的同 時增強了系統容錯性;通過自研的智能調度算法和支持 彈性擴容的海量資源池,不斷優化直播場景相關質量指 標,其中“放大比”等關鍵指標多次受到客戶的肯定。
服務效果:不僅在重要賽事直播期間幫助客戶源站減 輕了大量的請求和分發壓力,而且在各項質量指標正常的 情況下承接住了較大量級的用戶需求,為多項國際電競賽 事的直播提供了良好的保障,也為客戶節省了帶寬成本。
(2)短視頻
業務痛點:在短視頻業務全面爆發的大環境下,客 戶平臺的用戶數量呈現高速增長的趨勢,且用戶群體向 下沉市場發展。如何能夠保證終端用戶的體驗,并實現 降本增效,成為客戶的首要問題。
解決方案:針對客戶的痛點及需求,通過業務類型 分析聚類技術,為客戶匹配最佳機器配置,在短時間內 提供滿足需求區域的資源節點,并快速部署任務,根據 業務的實際使用情況不斷進行優化,為客戶提供了穩定 的、可伸縮的、性價比高的邊緣容器云環境,大幅提升 了應用部署效率。
服務效果:致力于為客戶提供更加靠近終端用戶 的緣加速節點,解決“最后一公里”問題的用戶體驗問 題,尤其是在春節及其他重大節日流量陡增時,PPIO高 質量音視頻邊緣服務編排系統的網絡彈性經受住了一次 又一次的考驗,為客戶降本增效,獲得了客戶的好評。
3 代表性及推廣價值
3.1 技術創新性
PPIO之所以能夠深挖服務和應用場景,一部分能 力來自于之前在PPTV的技術積累,PPTV實現了將數 億臺PC機進行鏈接,利用每個人閑置的帶寬和硬盤資 源來分布式存儲和傳輸視頻服務,從而大幅度降低了對 于服務器資源的使用。而PPIO針對的資源是碎片化、 非標異構的服務器資源,對于可靠性、安全性要求更 高,因此技術路線也有所不同。最后,由于節點的碎片 化和下沉,相互之間的網絡連接并沒有傳統數據中心的 骨干網或專線那么可靠,在流量高峰期的時候可能會出 現擁塞和丟包情況,PPIO又研發了一套動態SDN的技 術,這個技術和之前開發PPTV時采用的P2P流媒體技 術有相似的地方,相當于在各個節點之間建立了一套可 自定義服務質量的Overlay傳輸網絡,通過這套網絡保 證了節點間網絡傳輸的質量和穩定性。
3.2 效益價值
(1)毫秒級低延遲,時延<30ms 將優質節點部署在用戶終端周邊,覆蓋全國各縣市 和主流運營商,將服務內容分發至全網加速節點,解決 網絡擁堵問題,有效提升訪問成功率和響應速度,降低 50%傳輸成本,提供低至毫秒級的處理時延。
(2)極致效率,調度率提升35% 用標準開放的云原生技術和能力來實現邊緣容器 編排,將資源調度效率提升了35%,實現了極致的云 機效率。
(3)高質服務,流暢度提高300% 拋棄傳統網絡樹狀結構的路徑,自主研發SDN@ Edge,即服務分布式邊緣節點的新型Overlay網絡服務 框架,將播放超高清視頻流暢度提高300%。
(4)智能運營,利用率提升15% 對傳統的DevOps方案進行智能化改造,利用改進的 Boosting模型,通過云邊智能協同,能夠自動處理90%以上 的運維問題極大地提高邊緣計算場景下的產品交付質量和 運維效率,以及將邊緣節點的資源利用率提升15%。
摘自《自動化博覽》2023年第2期暨《邊緣計算2023專輯》