★北京大學(xué) 沈晴霓
摘要:邊緣學(xué)習(xí)旨在實現(xiàn)云-邊-端協(xié)同的機器學(xué)習(xí)模型訓(xùn)練和預(yù)測,天然具有一 定隱私保護能力。但是,邊緣學(xué)習(xí)過程面臨新的安全與隱私泄露風(fēng)險。為此, 本文從邊緣學(xué)習(xí)的概念出發(fā),重點圍繞邊緣學(xué)習(xí)安全與隱私泄露風(fēng)險及其隱私 計算架構(gòu)、關(guān)鍵技術(shù)、未來方向展開論述。
關(guān)鍵詞:邊緣學(xué)習(xí); 隱私計算; 聯(lián)邦學(xué)習(xí); 安全多方計算; 可信執(zhí)行環(huán)境
Abstract:Edge learning is mainly applicable in collaborative machine learning and model prediction scenarios that involve cloud-edge-end architecture. This distributed nature of edge learning naturally provides a certain level of privacy protection. However, collaborative learning faces some new privacy risks that must be addressed. Therefore, this paper explores the concept of edge learning and focuses on the security and privacy disclosure risks associated with it. Additionally, the paper delves into the technical architecture, key technologies, and future directions of privacy computing in edge learning.
Key words: Edge learning; Privacy computing; Federated learning; Secure multi-party computing; Trusted execution environment
1 引言
當前,個人數(shù)據(jù)隱私保護備受關(guān)注,各國陸續(xù)推 出隱私保護相關(guān)法律法規(guī)和技術(shù)標準,如歐盟《通用數(shù) 據(jù)保護條例》、美國《統(tǒng)一個人數(shù)據(jù)保護法案》、英國 Edge Learning: Privacy Computing Architecture Key Technologies and Challenges 《數(shù)據(jù)保障法案》、我國《數(shù)據(jù)安全法》和《個人信息 保護法》以及ISO/IEC國際標準《信息技術(shù)-安全技術(shù)隱私架構(gòu)框架》等,且聯(lián)邦學(xué)習(xí)、安全多方計算和可信 執(zhí)行環(huán)境成為隱私計算三大主流技術(shù)體系。
邊緣學(xué)習(xí)[1-4]使得數(shù)據(jù)在本地或者最近的邊緣服務(wù) 器上得到處理,用于訓(xùn)練本地的機器學(xué)習(xí)模型,只需要 和云中心通信必要的模型參數(shù),一定程度上保護了數(shù)據(jù) 的隱私性。但是“云-邊-端”架構(gòu)的邊緣學(xué)習(xí)模式在數(shù) 據(jù)、網(wǎng)絡(luò)、計算和模型層面會面臨新的安全與隱私泄露 風(fēng)險,需要采用主流隱私計算技術(shù)保護邊緣學(xué)習(xí)過程隱 私性,而這又對協(xié)同計算方之間交互的模型信息增加了 加干擾、加密、部署可信執(zhí)行環(huán)境等操作,會降低最終 模型的精度、影響模型的收斂速度和學(xué)習(xí)過程的公平性 和持續(xù)性。為此,本文從邊緣學(xué)習(xí)概念、特征和分類出 發(fā),重點討論邊緣學(xué)習(xí)安全與隱私泄露風(fēng)險、技術(shù)架構(gòu) 與技術(shù)進展,以及面臨的技術(shù)挑戰(zhàn)。
2 邊緣學(xué)習(xí)概述
2.1 邊緣學(xué)習(xí)概念及特征
邊緣學(xué)習(xí)[1-4]是一種基于“云-邊-端”層次化、分布 式的計算框架,在邊緣層進行模型訓(xùn)練與模型推理的過 程,如圖1所示。邊緣學(xué)習(xí)具有如下特征:
圖1 邊緣學(xué)習(xí)架構(gòu)圖
(1)多方協(xié)同
邊緣計算支持云邊協(xié)同、邊邊協(xié)同、云邊端協(xié)同等 模式[2],所以邊緣學(xué)習(xí)天然支持協(xié)同學(xué)習(xí),利用異構(gòu)分 布的計算設(shè)備協(xié)同訓(xùn)練模型。
(2)差異學(xué)習(xí)
邊緣學(xué)習(xí)過程參與的各個邊緣服務(wù)器能夠利用不 同規(guī)模、不同類型、非獨立同分布的數(shù)據(jù)集進行差異 化學(xué)習(xí)[3]。
(3)隱私保護
邊緣學(xué)習(xí)是在數(shù)據(jù)源本地或者就近的邊緣服務(wù)器上 進行分析和處理,用于訓(xùn)練本地的機器學(xué)習(xí)模型[5],所 以邊緣學(xué)習(xí)天然就具有一定的隱私保護能力。
(4)輕量通信
邊緣學(xué)習(xí)使得數(shù)據(jù)在數(shù)據(jù)源本地或附近盡快得到處 理,所以避免了在網(wǎng)絡(luò)上傳輸大量的數(shù)據(jù),或者僅需與 云/其他邊緣服務(wù)器/邊緣終端進行少量地通信,大大降 低了通信量[5]。
2.2 邊緣學(xué)習(xí)技術(shù)的分類
邊緣學(xué)習(xí)根據(jù)體系結(jié)構(gòu)的不同,主要分為如下三類:
(1)終端設(shè)備學(xué)習(xí)
終端設(shè)備學(xué)習(xí)是指直接在終端設(shè)備上執(zhí)行神經(jīng)網(wǎng) 絡(luò)模型學(xué)習(xí)過程,目的是減少終端設(shè)備與邊緣服務(wù)器之 間的運行延遲,并減少終端設(shè)備上隱私數(shù)據(jù)的泄露風(fēng)險。這類邊緣學(xué)習(xí)架構(gòu)需要提供資源受限的終端設(shè)備上 的模型設(shè)計、模型壓縮和硬件加速等三種技術(shù)。例如: 從模型設(shè)計層面減少神經(jīng)網(wǎng)絡(luò)的參數(shù)數(shù)量[5,6,7],以滿足 高精度要求下減少內(nèi)存和執(zhí)行延遲;通過參數(shù)剪枝和知 識蒸餾等技術(shù)對原始模型以最小的精度損失來進行壓縮[4];此外,供應(yīng)商通過整合現(xiàn)有的硬件資源(GPU、 CPU等)以加速深度學(xué)習(xí)效率,或者設(shè)計專門用于 深度學(xué)習(xí)的集成電路(ASIC),如谷歌的TPU[8], ShiDianNao[9]及軟件開發(fā)工具發(fā)揮硬件的加速效果。
(2)邊緣服務(wù)器學(xué)習(xí)
邊緣服務(wù)器學(xué)習(xí)是指將原屬于終端設(shè)備的所有神 經(jīng)網(wǎng)絡(luò)學(xué)習(xí)都放到邊緣服務(wù)器上,終端設(shè)備僅需發(fā)送數(shù) 據(jù)與接收學(xué)習(xí)的結(jié)果,目的是解決資源受限的終端設(shè)備 無法支持實時性要求高的大型神經(jīng)網(wǎng)絡(luò)計算,而放在云 端計算又無法支持低延遲需求的問題[5,6]。這類邊緣學(xué) 習(xí)需要增加數(shù)據(jù)預(yù)處理和多任務(wù)資源管理兩種技術(shù)。例 如,邊緣服務(wù)器只對發(fā)生了變更的數(shù)據(jù)執(zhí)行計算,否則 將在終端設(shè)備上預(yù)處理;利用遷移學(xué)習(xí)技術(shù)處理來自多 個終端設(shè)備的請求,使多個請求任務(wù)能夠共享神經(jīng)網(wǎng)絡(luò) 的低層計算,只需特化對應(yīng)請求任務(wù)的少數(shù)高層計算。
(3)云邊端協(xié)同學(xué)習(xí)
云邊端協(xié)同學(xué)習(xí)是指利用智能協(xié)同技術(shù),即根據(jù)硬 件算力、模型分層、數(shù)據(jù)大小、網(wǎng)絡(luò)延遲和帶寬、隱私 要求等諸要素,將終端設(shè)備、邊緣服務(wù)器,以及云智能 地聯(lián)合起來共同參與計算,實現(xiàn)云邊端協(xié)同,優(yōu)化學(xué)習(xí) 效率和增強隱私性。例如,可以將強大的神經(jīng)網(wǎng)絡(luò)模型 學(xué)習(xí)任務(wù)遷移到邊緣服務(wù)器上執(zhí)行,而較弱的模型學(xué)習(xí) 任務(wù)在終端設(shè)備本地執(zhí)行。也可以利用神經(jīng)網(wǎng)絡(luò)分層的 特點進行模型分離,一些層在終端設(shè)備上計算,一些層 在邊緣服務(wù)器或云上計算;或者在不違背任務(wù)實時性條 件下,合理使用云端的強大計算資源,幫助處理計算量 大的請求,提高邊緣服務(wù)器的請求處理率和減少云邊之 間的網(wǎng)絡(luò)流量。
3 邊緣學(xué)習(xí)的隱私計算技術(shù)現(xiàn)狀
邊緣學(xué)習(xí)的訓(xùn)練數(shù)據(jù)通常來自邊緣側(cè)的終端和設(shè) 備,如用戶手機終端數(shù)據(jù)、企業(yè)的生產(chǎn)現(xiàn)場數(shù)據(jù)、傳感 器上存儲的用戶的生理指標數(shù)據(jù)、行為數(shù)據(jù)等,這些往 往是用戶的隱私敏感數(shù)據(jù)。邊緣學(xué)習(xí)在本地的數(shù)據(jù)處理 天然具有隱私保護能力,但是其使用智能協(xié)同技術(shù),即 根據(jù)硬件算力、模型分層、數(shù)據(jù)大小、網(wǎng)絡(luò)延遲和帶寬、隱私要求等諸多要素,將終端設(shè)備、邊緣服務(wù)器、 云智能地聯(lián)合起來共同參與計算,實現(xiàn)“云-邊-端”協(xié) 同,涉及的設(shè)備種類、規(guī)模和用戶群體復(fù)雜、調(diào)度管理 機制和計算環(huán)境復(fù)雜。因此,邊緣學(xué)習(xí)數(shù)據(jù)、網(wǎng)絡(luò)、計 算和模型面臨新的安全和隱私泄露風(fēng)險[1],需要構(gòu)建隱 私計算架構(gòu),并開展相應(yīng)關(guān)鍵技術(shù)研究。
3.1 邊緣學(xué)習(xí)安全與隱私泄露風(fēng)險
(1)數(shù)據(jù)風(fēng)險
數(shù)據(jù)在邊緣層進行模型訓(xùn)練與模型推理天然具有一 定的隱私保護能力,但是在邊緣層的數(shù)據(jù)采集、傳輸和存 儲等環(huán)節(jié)面臨風(fēng)險。例如:在邊緣設(shè)備的數(shù)據(jù)采集過程 中,由于網(wǎng)絡(luò)連接不穩(wěn)定、邊緣設(shè)備資源耗盡等原因, 存在采集的原始數(shù)據(jù)不準確、數(shù)據(jù)缺失等風(fēng)險;在云邊 端協(xié)同場景中,邊緣層通過網(wǎng)絡(luò)上傳敏感數(shù)據(jù)(如模型 參數(shù))給云端時,在未加密保護的情形下可能存在信道 的數(shù)據(jù)竊聽風(fēng)險;存儲在邊緣層的數(shù)據(jù),由于邊緣層的 數(shù)據(jù)安全防護措施缺少或薄弱的情況更加普遍,所以存 在黑客入侵攻擊造成的數(shù)據(jù)竊取、篡改和丟失等風(fēng)險。
(2)網(wǎng)絡(luò)風(fēng)險
邊緣學(xué)習(xí)的基礎(chǔ)設(shè)施大量部署在網(wǎng)絡(luò)的邊緣層, 它們與海量、異構(gòu)、資源受限的終端設(shè)備大多采用短距 離的無線通信技術(shù),或者采用專用的工業(yè)協(xié)議,這些協(xié) 議大多安全性考慮不足,因此會面臨一系列網(wǎng)絡(luò)安全風(fēng) 險。例如:Modbus、Profinet、Zigbee等工業(yè)協(xié)議被 頻繁爆出漏洞,極易被黑客利用;攻擊者利用惡意終端 設(shè)備或邊緣路由器發(fā)起DDoS攻擊,或者產(chǎn)生沖突、干 擾、阻塞通信,或者將欺詐性數(shù)據(jù)分組注入通信鏈路, 或者在通信層欺騙、重定向、誤導(dǎo)或刪除數(shù)據(jù)分組,通 過生成路由循環(huán)或錯誤消息更改路由信息等。
(3)計算風(fēng)險
邊緣學(xué)習(xí)的計算設(shè)備主要包括具有邊緣算力的智能 終端設(shè)備、工業(yè)控制設(shè)備、邊緣控制器、邊緣網(wǎng)關(guān)、邊 緣計算服務(wù)器以及專用設(shè)備等,通常部署在行業(yè)現(xiàn)場, 以實現(xiàn)實時的數(shù)據(jù)處理和決策,這些計算設(shè)備通常存在 軟硬件漏洞及面臨著針對設(shè)備的攻擊風(fēng)險。例如在智能 家居場景中,為了在緊急情況下關(guān)閉供暖系統(tǒng),恒溫器 需要煙霧探測器的數(shù)據(jù),因此攻擊者可能通過入侵煙霧 探測器的方式控制整個家庭自動化系統(tǒng)。此外,攻擊者 可能通過對設(shè)備的物理訪問提取有價值的加密信息,進 而篡改電路、修改編程或者更改操作系統(tǒng),從而導(dǎo)致永 久性破壞,或者利用側(cè)信道攻擊技術(shù),對加密系統(tǒng)的安 全性和可靠性構(gòu)成嚴重的敏感信息泄露威脅。
(4)模型風(fēng)險
邊緣學(xué)習(xí)的主要任務(wù)是機器學(xué)習(xí)或深度學(xué)習(xí)模型 的訓(xùn)練、部署和推理,面臨一系列模型攻擊的風(fēng)險。 例如:惡意節(jié)點在模型訓(xùn)練環(huán)節(jié)中實施投毒攻擊和隱 私泄露攻擊。其中數(shù)據(jù)投毒攻擊,即惡意節(jié)點會注入一 些惡意樣本對原始樣本數(shù)據(jù)集進行污染,使得模型中 毒,干擾模型的準確率。模型投毒攻擊,即惡意節(jié)點通 過推導(dǎo)和計算,對模型參數(shù)或梯度信息進行精心的修改 或替換,使得模型準確率降低,造成模型可用性降低。 此外,隱私泄露攻擊,即半誠實的云服務(wù)器通過收集明 文梯度等信息,通過GAN網(wǎng)絡(luò)便可恢復(fù)邊緣層的原始 樣本信息,造成隱私泄露。訓(xùn)練完成的模型,在云服務(wù) 器或邊緣服務(wù)器存儲及下發(fā)過程中,在未加密保護情形 下存在模型竊取、后門植入等風(fēng)險。在模型推理環(huán)節(jié), 攻擊者精心構(gòu)造對抗樣本,加入人類不易察覺的微小擾 動,達到欺騙模型的目的,或者通過訪問模型推理服務(wù) 的API接口,從預(yù)測值反向推測輸入的原始樣本或其屬 性信息,構(gòu)成成員推理和模型逆向攻擊。
3.2 邊緣學(xué)習(xí)的隱私計算技術(shù)架構(gòu)
隱私計算[4]是指處理、分析和計算數(shù)據(jù)的過程中能 夠保持數(shù)據(jù)透明、不泄露、無法被計算方及其他非授 權(quán)方獲取,即在提供隱私保護的前提下實現(xiàn)數(shù)據(jù)價值挖 掘的技術(shù)體系。根據(jù)具體的實現(xiàn)方法,目前主要分為 三大主流技術(shù)體系:一是聯(lián)邦學(xué)習(xí),即在不公開數(shù)據(jù) 的情況下執(zhí)行本地分析與處理,如:橫向聯(lián)邦學(xué)習(xí)、縱 向聯(lián)邦學(xué)習(xí)和遷移聯(lián)邦學(xué)習(xí)等技術(shù);二是安全多方計 算(SMC),即在一個分布式網(wǎng)絡(luò)中,多個參與實體 各自持有秘密輸入,各方希望共同完成某函數(shù)的計算, 而要求使得每個參與實體除計算結(jié)果外均不能得到其 他參與實體的任何輸入數(shù)據(jù),所以在處理之前通常需 要轉(zhuǎn)換數(shù)據(jù)和/或算法,如:差分隱私、同態(tài)加密、秘 密共享、茫然傳輸、混淆電路等技術(shù);三是可信執(zhí)行環(huán)境(TEE),即提供可信硬件支持的安全隔離環(huán)境來 執(zhí)行和處理數(shù)據(jù),如:ARM TrustZone、Intel SGX、 AMD SEV、RISC-V keystone,以及國內(nèi)鯤鵬處理 器、群/盲簽名、遠程證明等安全保障技術(shù)。
圖2 邊緣學(xué)習(xí):隱私計算架構(gòu)
因此,如圖2,面向邊緣學(xué)習(xí)的隱私計算軟件體系 架構(gòu)[1]自底向上為:密碼學(xué)算法與協(xié)議層、AI算法與工 具層、邊緣學(xué)習(xí)優(yōu)化算法與工具層、隱私計算框架層等 四個層次。其中:
(1)密碼學(xué)算法與協(xié)議層:提供同態(tài)加密、秘密 共享、茫然傳輸、混淆電路、零知識證明、群簽名、盲 簽名、差分隱私和遠程證明等基礎(chǔ)密碼學(xué)算法與協(xié)議, 并提供基于上述算法與協(xié)議的四則運算、比較運算、邏 輯運算和矩陣運算等類型的計算工具。
(2)AI算法與工具層:提供數(shù)據(jù)預(yù)處理階段的特 征工程、激活函數(shù)計算,模型訓(xùn)練階段的優(yōu)化器、損 失函數(shù)、梯度計算,以及模型預(yù)測和推理階段的聚合 操作工具,并提供邏輯回歸、隨機森林、DNN/CNN、 RNN、LSTM、Transformer等人工智能算法。
(3)邊緣學(xué)習(xí)優(yōu)化算法與工具層:提供深度學(xué)習(xí) 模型設(shè)計、模型壓縮、模型分離、硬件加速、資源調(diào) 度、計算遷移和協(xié)同計算等優(yōu)化算法和工具。
(4)隱私計算框架層:提供聯(lián)邦學(xué)習(xí)、SMC和 TEE等隱私計算框架,實現(xiàn)相應(yīng)隱私計算算法容器的可 信部署、計算任務(wù)的靈活調(diào)度、監(jiān)控和管理,支持金 融、醫(yī)療、工業(yè)等邊緣學(xué)習(xí)場景,幫助構(gòu)建隱私保護的 模型訓(xùn)練、模型推理,以及聯(lián)合統(tǒng)計、隱私求交、匿蹤 查詢等典型應(yīng)用場景。
同時,針對邊緣學(xué)習(xí)面臨的數(shù)據(jù)、網(wǎng)絡(luò)、計算和 模型層面風(fēng)險(3.1節(jié)),需要提供相應(yīng)的安全保障機 制。其中,需要提供差分隱私、同態(tài)加密、秘密共享和 可驗證計算等技術(shù)保障邊緣學(xué)習(xí)數(shù)據(jù)的私密性和完整 性;需要提供通信信道安全、可靠連接、延遲可控和通 信輪次減少等技術(shù)保障邊緣學(xué)習(xí)網(wǎng)絡(luò)的安全性和可靠 性。需要提供計算環(huán)境可信、資源安全調(diào)度、身份安全 認證和硬件加速/TEE支持等技術(shù)保障邊緣學(xué)習(xí)計算節(jié) 點的可信性和可用性。需要提供數(shù)據(jù)清洗、魯棒學(xué)習(xí)、 對抗訓(xùn)練、模型融合等技術(shù)保障模型的機密性、完整性 和可用性。
3.3 邊緣學(xué)習(xí)的隱私計算關(guān)鍵技術(shù)
面向邊緣學(xué)習(xí)的隱私計算所依賴的關(guān)鍵技術(shù)主要包 括聯(lián)邦學(xué)習(xí)、安全多方計算(SMC)和可信執(zhí)行環(huán)境 (TEE)。從適用性上看,聯(lián)邦學(xué)習(xí)更適用于保密性要 求不高但數(shù)據(jù)量大的模型訓(xùn)練,基于密碼學(xué)的SMC更 適用于數(shù)據(jù)量適中但保密性要求較高的重要數(shù)據(jù)應(yīng)用, 而TEE因為性能和通用性具有較大優(yōu)勢而更適用于復(fù) 雜、數(shù)據(jù)量大的通用場景和通用算法,如大數(shù)據(jù)協(xié)作、 人工智能模型保護等。從技術(shù)上看,聯(lián)邦學(xué)習(xí)的優(yōu)點是 數(shù)據(jù)本地處理可降低隱私泄露風(fēng)險,缺點是學(xué)習(xí)過程中 參數(shù)傳遞和共享仍然會帶來隱私泄露問題,且通信開銷 大、模型精度和收斂效率低;SMC的優(yōu)點是隱私性在 理論上可證安全,但是協(xié)議交互和計算開銷大,且支持 的計算類型有限。TEE的優(yōu)點是可以基于硬件實現(xiàn)類似 全同態(tài)加密能力且性能遠低于目前全同態(tài)加密算法,缺 點是依賴于硬件,并且兼任性和計算開銷離產(chǎn)業(yè)需求還 有一定距離。
(1)基于聯(lián)邦學(xué)習(xí)的邊緣學(xué)習(xí)
基于聯(lián)邦學(xué)習(xí)的邊緣學(xué)習(xí)主要需要解決學(xué)習(xí)過程中 參數(shù)傳遞和共享仍然會帶來的隱私泄露問題。例如:利 用差分隱私技術(shù)保護模型參數(shù)[10,11,12],主要在云服務(wù)器 聚合全局模型時對模型參數(shù)分別添加高斯噪音[10]、普拉 斯噪音[11],或者在參與方本地訓(xùn)練過程中為待傳遞模型 參數(shù)添加高斯噪音[12];利用同態(tài)加密算法,對模型更新 進行加密,由云服務(wù)器聚合更新密文[13];在聯(lián)邦學(xué)習(xí)中利用函數(shù)加密、秘密共享技術(shù)實現(xiàn)安全多方計算來保護 模型參數(shù)[14,15]。
(2)基于安全多方計算的邊緣學(xué)習(xí)
基于安全多方計算的邊緣學(xué)習(xí)需要互不信任的多方 在不提供明文的情況下,在對輸入數(shù)據(jù)采用混淆電路、秘 密共享和同態(tài)加密處理的基礎(chǔ)上進行聯(lián)合函數(shù)計算,因此 主要需要解決聯(lián)合計算執(zhí)行效率過低、通信開銷過大的問 題[16]。例如:采取剪切和選擇、并行處理以及預(yù)處理等手 段優(yōu)化基于混淆電路的安全多方計算協(xié)議[16];將可擴展的 Spark框架與Sharemind SMC秘密共享框架結(jié)合,提出新 的混合安全多方計算協(xié)議[17],提高了連接和聚合操作的執(zhí) 行效率,以及降低通信成本;建立了TensorFlow機器學(xué) 習(xí)框架之上的基于秘密共享的安全多方計算開源庫和協(xié)議 代碼轉(zhuǎn)換方法[18,19],提高了計算執(zhí)行效率;基于帶門限的 全同態(tài)加密、多密鑰參與的全同態(tài)加密構(gòu)建了安全多方計 算協(xié)議[20,21],協(xié)議的通信成本較低。
(3)基于可信執(zhí)行環(huán)境的邊緣學(xué)習(xí)
基于可信執(zhí)行環(huán)境的邊緣學(xué)習(xí)需要解決三個主 要問題:首先,邊緣學(xué)習(xí)場景下,云服務(wù)需要下沉到 邊緣,而邊緣層為基于容器的微服務(wù)部署架構(gòu),因 此云原生應(yīng)用遷移到邊緣容器上部署運行時需要構(gòu)建 TEE邊緣容器,如:Gramine、Mystikos、Occlum 等[22]。LibOS開源項目,能夠支持云原生應(yīng)用無修改 遷移到TEE(SGX)邊緣容器;其次,需要在邊緣服 務(wù)器支持模型訓(xùn)練,因此需要在邊緣服務(wù)器支持AI 算法庫和軟件框架,如: TensorSCONE[23]是在SGX 基礎(chǔ)硬件平臺上提出的一個安全的機器學(xué)習(xí)框架, secureTF框架[24]在此基礎(chǔ)之上將SGX的保護拓展到 Tensorflow的分布式框架上,為跨機器的有狀態(tài)機 器學(xué)習(xí)提供安全保障。
4 邊緣學(xué)習(xí)的隱私計算技術(shù)展望
云邊端協(xié)同的隱私計算技術(shù),除了支持三種主流 隱私計算技術(shù)之外,還需要通過優(yōu)化協(xié)同、優(yōu)化算法來 提高模型精度,通過通信優(yōu)化、資源優(yōu)化來提高學(xué)習(xí)效 率,通過引入?yún)^(qū)塊鏈等技術(shù),以及價值度量和貢獻激勵 機制提高云邊協(xié)同學(xué)習(xí)參與的積極性。
(1)模型精度
邊緣學(xué)習(xí)需要云邊端協(xié)同,采用隱私計算技術(shù)后, 協(xié)同方之間交互的信息需要加干擾、加密、部署可信執(zhí) 行環(huán)境等處理,會降低模型的收斂速度和最終模型的精 度。因此,如何在保護數(shù)據(jù)隱私的前提下,盡可能提高 協(xié)同學(xué)習(xí)模型的精度和最終模型的可用性成為了挑戰(zhàn)。
(2)學(xué)習(xí)效率
邊緣學(xué)習(xí)需要大量終端設(shè)備、邊緣服務(wù)器和云服務(wù) 器交互協(xié)同,采用隱私計算技術(shù)后,增加的大量安全交 互過程會產(chǎn)生額外的通信開銷,這會大大降低模型訓(xùn)練 的效率。因此,如何在保護數(shù)據(jù)隱私的前提下,盡可能 提高模型的學(xué)習(xí)效率成為了挑戰(zhàn)。
(3)激勵機制
邊緣學(xué)習(xí)過程中,不同邊緣計算節(jié)點的數(shù)據(jù)集和資 源差異大,對全局模型的貢獻度不同,采用隱私計算技 術(shù)后,邊緣計算節(jié)點通常對交互的信息加干擾、加密、 部署可信執(zhí)行環(huán)境等處理,會降低數(shù)據(jù)的價值和參與方 的貢獻度,影響邊緣學(xué)習(xí)過程的可持續(xù)性。因此,如何 在保護數(shù)據(jù)隱私的前提下,通過有效的激勵機制,保證 邊緣學(xué)習(xí)過程的持續(xù)性成為了挑戰(zhàn)。
5 結(jié)論
本文從邊緣學(xué)習(xí)的概念、特征及分類出發(fā),重點圍 繞邊緣學(xué)習(xí)面臨的安全與隱私泄露風(fēng)險、隱私計算技術(shù) 架構(gòu)及關(guān)鍵技術(shù)等三個方面的技術(shù)研究進展進行了分析 與綜述,并展望了隱私計算技術(shù)未來在模型精度、學(xué)習(xí) 效率和激勵機制三個方面面臨的技術(shù)挑戰(zhàn)。
作者簡介:
沈晴霓,女,北京大學(xué)教授、博士生導(dǎo)師,兼任邊緣計 算產(chǎn)業(yè)聯(lián)盟安全工作組主席。主要研究方向為操作系統(tǒng) 與虛擬化安全、大數(shù)據(jù)安全、云/邊緣計算安全、區(qū)塊 鏈與隱私計算、可信計算等。
參考文獻:
[1] 邊緣計算產(chǎn)業(yè)聯(lián)盟安全工作組. 邊緣學(xué)習(xí):隱私計算白皮書[R/OL]. 2022.
[2] Murshed M G S, Murphy C, Hou D, et al. Machine Learning at the Network Edge: A Survey[J]. ACM Computing Surveys (CSUR), 2021, 54 (8) : 1 - 37.
[3] Zhang, Jie, et al. Edge Learning: The Enabling Technology for Distributed Big Data Analytics in the Edge[J]. ACM Computing Surveys (CSUR) 54.7 (2021) : 1 - 36.
[4] Zhang J, Chen B, Zhao Y, et al. Data Security and Privacy-Preserving in Edge Computing Paradigm: Survey and Open Issues[J]. IEEE Access, 2018, 6 : 18209 - 18237.
[5] Chen J, Ran X. Deep Learning with Edge Computing: A Review[J]. Proceedings of the IEEE, 2019, 107 (8) : 1655 - 1674.
[6] A. G. Howard et al. MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications[J/OL]. 2017, arXiv: 1704.04861.
[7] W. Liu et al., SSD: Single Shot Multibox Detector[C]. In Proceedings of 14th European Conference on Computer Vision (ECCV 2016), 2016 : 21 - 37.
[8] J. Redmon and A. Farhadi. YOLO9000: Better, Faster, Stronger[C]. In Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR 2017). 2017: 6517 - 6525.
[9] Edge TPU. Available: https://cloud.google.com/edge-tpu/.
[10] Geyer RC, Klein T, Nabi M. Differentially private federated learning: a client level perspective[C]. 31st Conference on Neural Information Processing Systems (NIPS 2017), Long Beach, CA, USA.
[11] Jayaraman B, Wang L, Evans D, Gu Q. Distributed Learning without Distress: Privacy-Preserving Empirical Risk Minimization. NeurIPS 2018: 6346-6357.
[12] Wu M, Ye D, Ding J, Guo Y, Yu R, Pan M. Incentivizing differentially private federated learning: a multidimensional contract approach[J]. IEEE Internet of Things Journal, 2021, 8 (13) : 10639 – 10651.
[13] Fang C, Guo Y, Wang N, Ju A. Highly efficient federated learning with strong privacy preservation in cloud computing[J]. Computers & Security, 2020, 96: 101889.
[14] Xu R, Baracaldo N, Zhou Y, Anwar A, Ludwig H. HybridAlpha: an efficient approach for privacy-preserving federated learning[C]. Proceedings of the 12th ACM Workshop on Artificial Intelligence and Security. New York, NY, USA: Association for Computing Machinery, 2019: 13 – 23.
[15] Khazbak Y, Tan T, Cao G. MLGuard: mitigating poisoning attacks in privacy preserving distributed collaborative learning[C]. 2020 29th International Conference on Computer Communications and Networks (ICCCN).
[16] 錢文君, 沈晴霓, 等, 大數(shù)據(jù)計算環(huán)境下的隱私保護技術(shù)研究進展[J]. 計算機學(xué)報, 2022 : 45 (4), 669 - 701.
[17] Volgushev N, Schwarzkopf M, Getchell B, et al. Conclave: Secure multi-party computation on big data[C]. Proceedings of the 14th EuroSys Conference. Dresden, Germany, 2019 : 1 - 18.
[18] Dahl M, Mancuso J, Dupis Y, et al. Private machine learning in tensorflow using secure computation[J/OL]. arXiv preprint arXiv: 1810.08130, 2018.
[19] Kumar N, Rathee M, Chandran N, et al. Cryptflow: Secure tensorflow inference[C]. Proceedings of the 41st IEEE Symposium on Security and Privacy. San Francisco, CA, USA, 2020 : 336 - 353.
[20] Asharov G, Jain A, López-Alt A, et al. Multiparty computation with low communication, computation and interaction via threshold FHE[C]. Proceedings of the 31st Annual International Conference on the Theory and Applications of Cryptographic Techniques. Cambridge, UK, 2012: 483 - 501.
[21] López-Alt A, Tromer E, Vaikuntanathan V. On-the-fly multiparty computation on the cloud via multikey fully homomorphic encryption[C]. Proceedings of the 44th Annual ACM Symposium on Theory of Computing. New York, NY, USA, 2012 : 1219 - 1234.
[22] Liu Weijie, Chen Hongbo, Wang XiaoFeng. Understanding TEE Containers, Easy to Use? Hard to Trust[J/OL]. arXiv 2021. https://doi.org/10.48550/arXiv.2109.01923.
[23] Kunkel R, Quoc DL, Gregor F, et al. TensorSCONE: A Secure TensorFlow Framework using Intel SGX, CoRR abs/1902.04413 (2019), https://doi.org/10.48550/arXiv.1902.04413.
[24] Lee, Taegyeong, et al. Occlumency: Privacy-Preserving Remote Deep-Learning Inference Using SGX[C]. In Proceedings of the 25th Annual International Conference on Mobile Computing and Networking (MobiCom 2019), 2019 : 1 - 17.
摘自《自動化博覽》2023年第2期暨《邊緣計算2023專輯》