1 云邊端協同聯邦學習關鍵技術
近年來,AI取得了巨大進步,較新的AI算法與用于收集、存儲和處理大量數據的高成本效益和可擴展機制相結合已將我們帶入AI黃金時代。人們普遍預計AI將推動許多大規模分布式領域的應用,例如自動駕駛汽車、災難響應、精準農業等[1]。構建AI系統的主要范式是將AI任務集中在云,通過集中式單體計算在強大的計算平臺上訓練模型。然而在許多應用中,數據在終端設備生成和分發,將它們轉移到中央服務器將違反隱私需求并受到傳輸限制。為了緩解這些問題, 聯邦學習[2]作為一種有前途的分布式AI范式被提出,它在保護用戶隱私的同時,在邊緣與海量設備協作訓練AI模型。
在聯邦學習中,設備用自己的私有數據訓練本地模型,將模型參數而不是原始數據提交給參數服務器。例如,在周期t時,每個終端設備對模型參數ωi (t)進行訓練,ηt表示梯度下降步長,Fi (·)為損失函數,得到式(1):
ωi (t)=ωi (t -1) -ηt?Fi (ωi (t -1)) (1)
在收集到足夠的參數后,參數服務器將全局模型聚合并分發給設備進行下一輪本地訓練,如式(2)所示:
其中|D|=∑i |Di |為終端設備的數據量之和。以上過程不斷迭代,直到參數服務器通過最小化的全局損失函數F(w)達到收斂,該函數如式(3)所示:
憑借其創新的運營理念,聯邦學習為多種應用場景落地提供益處。(1)數據隱私增強:隨著通用數據保護條例[3]等數據隱私保護立法, 聯邦學習成為構建智能和安全系統的理想解決方案。參數服務器中的訓練不需要原始數據,因此將用戶敏感信息泄露給第三方的可能性降到最低。(2)低延遲網絡通信:由于不需要將數據傳輸到參數服務器,有助于減少數據卸載造成的通信延遲,同時也節省了頻譜、傳輸功率等網絡資源。(3)提高學習質量:通過設備網絡中大量的計算和數據資源,聯邦學習有潛力提高整個訓練過程的收斂速度,并提高準確率,這可能無法通過使用數據不足和算力受限的集中式AI實現。反過來,由于其分布式學習特性,聯邦學習也提高了智能網絡的可伸縮性。
圖1是從集中式單體計算,分布式網聯計算到云邊端未來泛在多層級計算的演變過程。大多數聯邦學習假設云作為參數服務器, 但隨著邊緣計算[4] 的出現,基于邊緣的聯邦學習[5~6]逐漸受到關注,其中邊緣服務器作為參數服務器與終端設備協作訓練AI模型。基于云和基于邊緣的聯邦學習都采用相同的訓練算法,但兩者具有基本的區別。在基于云的聯邦學習中,參與的終端設備可達數百萬[7] ,提供AI所需的海量數據,但是通信速度慢且不可預測,使得訓練過程效率低下。相反,在基于邊緣的聯邦學習中,計算的延遲與通信的延遲相當,在計算和通信方面有著更好的權衡,然而邊緣服務器可以訪問的終端設備數量有限,導致了不可避免的訓練性能損失。因此,既要利用云訪問大量訓練樣本,又要利用邊緣實現快速模型更新。這促使技術向著異構、云邊端協同、全面泛在智能計算演進,云邊端協同的分層聯邦學習技術[8]就此提出, 且獲得了相對兩個技術的最佳效果。與基于云的聯邦學習相比,云邊端協同分層聯邦學習將顯著減少與云的昂貴通信,并輔以高效的終端設備。邊緣更新,從而顯著減少本地迭代的運行時間和數量。另一方面,由于云可以訪問更多的數據,云邊端協同分層聯邦學習也在訓練中勝過基于邊緣的聯邦學習。相應地,在云邊端協同分層聯邦學習中本地終端設備模型訓練過程演化過程如式(4)所示:
其中|De |=∑i ∈De |Di |為邊緣服務器連接的終端設備數據量之和, τ和σ分別是邊緣服務器和云的聚合頻次 (σ|τ=0)。
圖1 從集中式單體計算,分布式網聯計算到云邊端未來 泛在多層級計算的演變
2 云邊端協同聯邦學習應用前景
目前云邊端協同在不同行業中都有應用需求,例如可以促進智慧交通中信息互聯互通,幫助工業互聯網完成數字化升級和智能化轉型等。這些應用場景雖然解決了帶寬、能耗等問題,但很少考慮隱私安全。因此,有必要引入云邊端協同聯邦學習技術促進在嚴格保護隱私的前提下訓練出合適的AI模型。
2.1 “聯邦學習+智慧金融”打破數據壁壘, 成為 數字化轉型的關鍵
金融行業受到知識產權、隱私保護、數據安全等因素影響,數據無法被直接聚合進行AI模型訓練。因此,借助聯邦學習來訓練模型成為此領域備受關注的技術手段。微眾銀行推出的FATE聯邦學習平臺[9], 平安科技推出的“蜂巢”聯邦學習平臺[10] ,螞蟻金服推出的共享AI平臺[11]都將聯邦學習應用于銀行、保險、信貸、風控等金融領域,更好地挖掘了數據價值,實現多方共贏的AI模型訓練。京東數字科技集團也推出了自主研發的聯邦學習平臺Fedlearn[12] ,在滿足數據隱私安全和監管要求的前提下,讓AI系統更加高效準確地共同使用各自數據。
2.2 “聯邦學習+智慧醫療”助力醫療健康智慧化,建設醫療健康新生態
目前AI技術已被廣泛用于醫療保健領域,但仍面臨暴露醫院/病人的私人和敏感信息、分享大量數據等 問題。應用聯邦學習可以使模型計算在數據源處執行,在尊重個人隱私的前提下實現大規模的精準醫療。騰訊天衍實驗室結合微眾銀行將聯邦學習與醫療深度融合[13] ,通過搭建基于聯邦學習技術的大數據集中與挖掘平臺,打破了數據壁壘,保護了數據隱私,并成功落地疾病預測領域,腦卒中預測準確率達80%。同時,英偉達推出了基于Clara的聯邦學習新產品[14], 將患者數據保存在醫療服務機構內部,并幫助醫生進行準確高速的診斷。
2.3 “聯邦學習+智慧城市”推進城市建設邁上新 臺階,提升總體水平和格局
AI技術也被用于智慧城市來提供智能屬性,但目前多數方案依賴于集中式學習架構,不能適應智能設備的快速擴展。應用聯邦學習可以提供更有吸引力的功能,使去中心化的智能城市應用具有高隱私和低通信延遲。2019年,微眾銀行與特斯聯結合聯邦學習和城市管理的業務經驗成立了“AIoT聯合實驗室”,助力城市管理、社區等智能化升級[15]。京東城市以聯邦學習技術為本,基于城市計算和聯邦學習打造了產品“數字網關” [16] ,致力于解決城市中數據孤島、數據共享難的問題,在不同機構間創建安全、共享、智能、高效的連接。
3 云邊端協同聯邦學習關鍵挑戰和未來 展望
3.1 隱私保護
云邊端聯邦學習雖然通過交換模型參數而不是原始數據來保護隱私數據,但在訓練過程中的模型通信也會將敏感信息泄露給第三方,例如模型的反向推導。雖然已有一些提高數據隱私性的方法,但這些方法都增加了計算復雜度和計算負擔。為了進一步有效地保護數據安全,需要尋找新的方法來防止模型傳輸過程中信息泄露。事實上,由于網絡中各種設備的異構性,不同設備的隱私具有不同特點的限制,基于特定設備隱私限制,隱私保護方法的發展成為聯邦學習的一個有趣和持續的方向。
3.2 系統與數據異構
作為云邊端聯邦網絡一部分的設備,其存儲、計算和通信的能力彼此之間有很大的不同。這種差異背后的原因與硬件、網絡連接和電力供應有關,并且由于連接或能源的限制,每個設備都有可能不可靠。為了避免系統的異構性,可以采用異步通信技術,使迭代優化算法并行以消除掉隊者。另一種方法是在每一輪中選擇積極參與的設備,以確保在一個預先定義的窗口內最大限度地聚集更新。第三種方法是當失敗的設備具有某些特定的數據特征時,避免設備故障導致設備采樣方案的偏差。另外,算法冗余可以作為編碼計算技術被引入以實現容錯。
3.3 統計學異質性
如前所述,各種設備根據設備的不同使用類型,以非同分布的方式在網絡上收集數據。因此,數據可能會因底層結構而有很大的不同,這些底層結構捕捉到了設備之間的連接和它們的相關分布。數據生成的模式增加了在系統建模、分析和評估中出現掉隊者的機會。當從非同分布的數據中訓練模型時,數據建模和訓練過程中的收斂行為分析方面都會出現問題。可以考慮使用不同的指標對統計異質性進行量化,這些指標大多是在訓練階段計算的。此外,還需要研究如何改進云邊端聯邦優化方法中涉及的收斂技術。
3.4 通信成本
聯邦網絡可能由數百萬遠程移動終端設備組成,聯邦學習模型的訓練可能涉及大量交互,此外網絡中的通信速度無法保證,因此為了云邊端聯邦學習實用化,有必要開發具有高通信效率的方法。可以考慮使用本地更新方法,允許每個通信輪中在設備上并行實現可變數量的本地更新。這將有助于減少通信的次數。其次,模型壓縮機制(即稀疏化、子采樣和量化)也有助于減少每次更新時通信的消息大小。第三,在運行低帶寬和高延遲網絡時,分布式拓撲可以作為瓶頸實例的替代解決方案。
3.5 激勵機制
聯邦學習會消耗參與者的大量資源,如計算、帶寬資源等,還會遭受隱私泄露的威脅,因此如果沒有足夠的獎勵,這些因素將阻礙設備參與聯邦學習。同時,如果沒有足夠的訓練數據、帶寬和算力,訓練性能將會迅速下降。因此,有必要建立合理的激勵機制來激勵更多的設備參與,貢獻高質量的數據和充足的資源。未來激勵機制首先應以低成本提高學習性能為目標來激勵更多的參與者加入學習。其次,應該更加重視面向企業數據的云邊端聯邦學習,企業的決策行為與普通設備截然不同,這就需要采取全新的激勵方法。此外,未來應多關注多維度指標的綜合的激勵機制,以實現多目標和多功能。
3.6 實例:面向云邊端協同聯邦學習的激勵機制
在云邊端架構中,設計的激勵可能有不同的形式,可以采用博弈理論、拍賣理論等多種方式來實現。例如,利用博弈論為云邊端協同聯邦學習設計了激勵機制,云和邊緣服務器將通過選擇不同的支付方式來激勵終端設備參與訓練任務。具體地,云宣布獎勵作為對邊緣服務器和終端設備的激勵,以最大限度地提高模型的準確性,而邊緣服務器充當云和終端設備之間的媒介。理性的終端設備、邊緣和云都最大化其自身效用,分別決策貢獻數據量x_i、給所連接設備的獎勵R_l和單位數據量的獎勵P如式(5)~(7)所示:
其中,p_i,q_i,θ_i分別是設備i分配的獎勵比例、多維貢獻和類型,c_i (·)是相應的成本函數,E(·)和U(·)分別為邊緣和云的收益函數。通過將云邊端協同的層次結構映射到由效用函數相互關聯的子對策中,充分把握了協同架構中各個參與者之間的內在利益關系,揭示了利益相關者對數據資源分配的依賴關系,最大化了個人效用。這種基于激勵的模型參數共享過程將持續下去直到收斂,并達到了用低成本換取高性能的效果。如圖2所示。
圖2 面向云邊端協同聯邦學習的激勵機制
4 總結
隨著大數據和AI的發展,計算形式完成了從集中式單體計算到分布式網聯計算的躍遷,并正在朝著異構、協同、全面泛在智能計算演進。云邊端協同聯邦學習作為一種新興的技術方法,引發了學術界和產業界的極大關注。因此,本文介紹了近年來聯邦學習技術的發展,說明了其在云邊端協同領域的典型應用,強調了一些克服其應用的關鍵挑戰并展望了一些有趣的發展方向。總的來說,面向未來泛在智能的云邊端協同聯邦學習將會廣泛應用于各行各業,不斷地、深刻地改變人們的生產生活。例如近來熱度高、將有機會改變互聯網形態的元宇宙,云邊端協同聯邦學習可以為其提供無限滋長的技術土壤,成為元宇宙最重要的基礎設施之一,并對元宇宙的最終形態和融合起到決定性作用。
作者簡介:
趙云鳳(1997-),女,河北人,現就讀于天津大學智 能與計算學部,研究方向為邊緣計算、分布式機器學 習和博弈論等。 王曉飛(1982-),男,河北人,教授,現就職于天 津大學智能與計算學部,主要研究方向是邊緣智能理 論、邊緣計算系統架構、云邊協同算法等。
仇 超(1988-),女,河北人,博士,現就職于天津 大學智能與計算學部,研究方向為邊緣網絡人工智能 資源優化及區塊鏈共識算法。 劉志成(1992-),男,安徽人,現就讀于天津大學智 能與計算學部,研究方向為邊緣計算、多智能體學習 和博弈論等。 譚靖超(1994-),男,天津人,現就讀于天津大學智 能與計算學部,研究方向為邊緣計算、5G移動邊緣網 絡和云邊端網絡架構等。 鄧 輝(1982-),男,河北人,現就讀于天津大學智 能與計算學部,研究方向為邊緣計算、算力網絡、數 字城市和邊云超網絡架構等。
參考文獻:
[1] Goodfellow I, Bengio Y, Courville A. Deep Learning[M]. The MIT Press, 2016.
[2] Mcmahan H B, Moore E, D Ramage, et al. Communication-Efficient Learning of Deep Networks from DecentralizedData[J]. 2016.
[3] Goddard, Michelle. The EU General Data Protection Regulation (GDPR): European regulation that has a globalimpact[J]. International Journal of Market Research, 2017, 59 (6) : 703.
[4] Mao Y, You C, Zhang J, et al. A Survey on Mobile Edge Computing: The Communication Perspective[J]. IEEECommunications Surveys & Tutorials, 2017, (99) : 1.
[5] Wang S, Tuor T, Salonidis T, et al. Adaptive Federated Learning in Resource Constrained Edge Computing Systems[J].IEEE Journal on Selected Areas in Communications, 2019 : 1.
[6] Tran N H, Bao W, Zomaya A, et al. Federated Learning over Wireless Networks: Optimization Model Design andAnalysis[C]. IEEE INFOCOM 2019 - IEEE Conference on Computer Communications, 2019.
[7] Bonawitz K, Eichner H, Grieskamp W, et al. Towards Federated Learning at Scale: System Design[J]. 2019.
[8] Liu L, Zhang J, Song S H, et al. Client-Edge-Cloud Hierarchical Federated Learning[C]. ICC 2020 - 2020 IEEEInternational Conference on Communications (ICC), 2020.
[9] 微眾銀行開源 FATE[EB/OL]. (2019-02-01) [2021-10-30].
[10] 平安科技"蜂巢"聯邦智能平臺入選2020網絡技術應用試點示范名單[EB/OL]. (2020-12-04) [2021-10-30].
[11] 螞蟻金服發布隱私保護白皮書[EB/OL]. (2018-08-23) [2021-10-30].
[12] 京東數科推出自研聯邦學習平臺Fedlearn, 助力數據安全保護并大幅提升學習效率[EB/OL]. (2020-10-12) [2021-10-30].
[13] 騰訊天衍實驗室聯合微眾銀行研發醫療聯邦學習 AI利器讓腦卒中預測準確率達80%[EB/OL]. (2020-04-14) [2021-10-30].
[14] NVIDIA Clara推聯邦學習, 保護患者數據[EB/OL]. (2019-12-04) [2021-10-30].
[15] 微眾銀行與特斯聯成立AIoT聯合實驗室, 助力智慧安防多場景智能化升級[EB/OL]. (2019-12-25) [2021-10-30].
[16] 微眾、騰訊、華為、京東、平安、VMware頭部企業云集, 聚焦AI聯邦學習最新應用落地[EB/OL]. (2019-11-04)[2021-10-30]
摘自《自動化博覽》2022年2月刊