相關(guān)概念及內(nèi)涵
大數(shù)據(jù)時代下,海量數(shù)據(jù)中蘊(yùn)藏的價值得以挖掘,但也帶來隱私信息與關(guān)鍵性敏感數(shù)據(jù)保護(hù)方面的困難。數(shù)據(jù)脫敏技術(shù)是解決這一問題的重要手段之一。傳統(tǒng)的脫敏方法人工干預(yù)大,配置成本高,對用戶的專業(yè)素養(yǎng)要求高。
為解決這一問題,如果將數(shù)據(jù)安全脫敏技術(shù)與人工智能的自主學(xué)習(xí)和強(qiáng)大的數(shù)據(jù)分析能力相結(jié)合,則無需過多人工干預(yù),會顯著加強(qiáng)數(shù)據(jù)脫敏系統(tǒng)的可靠性和易用性,在保證安全性的同時,實現(xiàn)易學(xué)習(xí)、免配置、自動脫敏和自適應(yīng)脫敏算法等功能。
數(shù)據(jù)脫敏是在保存數(shù)據(jù)原始特征的同時改變其數(shù)值,從而保護(hù)敏感數(shù)據(jù)免于未經(jīng)授權(quán)而被訪問,同時又可以進(jìn)行相關(guān)的數(shù)據(jù)處理,可以在保留數(shù)據(jù)意義和有效性的同時保持?jǐn)?shù)據(jù)的安全性,并遵從數(shù)據(jù)隱私規(guī)范。借助數(shù)據(jù)脫敏,信息依舊可以被使用,并與業(yè)務(wù)相關(guān)聯(lián),不會違反相關(guān)規(guī)定,而且也避免了數(shù)據(jù)泄露的風(fēng)險。
傳統(tǒng)數(shù)據(jù)脫敏系統(tǒng)的敏感數(shù)據(jù)發(fā)現(xiàn)和關(guān)聯(lián)關(guān)系識別,一般都是通過人工配置和正則表達(dá)式匹配來實現(xiàn)的。
其識別準(zhǔn)確程度主要取決于正則表達(dá)式的規(guī)則設(shè)置是否精準(zhǔn)合理。然而性能與準(zhǔn)確性不可兼得:正則匹配規(guī)則越簡單,系統(tǒng)性能越好,識別率相對較差;而復(fù)雜的正則規(guī)則下提升了識別率,但系統(tǒng)性能卻有所下降,對人工配置的經(jīng)驗和技術(shù)要求較高,一般業(yè)務(wù)人員難以勝任。
大數(shù)據(jù)時代下的數(shù)據(jù)脫敏系統(tǒng)機(jī)制
大數(shù)據(jù)時代下的數(shù)據(jù)脫敏系統(tǒng)設(shè)計提供多種預(yù)置算法庫,包括映射、隨機(jī)、散列和加密四大類,每一大類中都包含若干算法。系統(tǒng)可以根據(jù)用戶的業(yè)務(wù)需求,靈活搭配,使針對敏感數(shù)據(jù)的脫敏能夠滿足數(shù)據(jù)原始屬性、可重復(fù)性、可逆性、關(guān)聯(lián)性、可追蹤性以及準(zhǔn)確性要求。其一般原型工作流程邏輯如圖所示。
系統(tǒng)實施步驟可以分解為:
(1)收集用戶當(dāng)前業(yè)務(wù)系統(tǒng)需求進(jìn)行數(shù)據(jù)模型分析,建立系統(tǒng)原型及使用環(huán)境;
(2)對用戶當(dāng)前業(yè)務(wù)系統(tǒng)數(shù)據(jù)進(jìn)行智能數(shù)據(jù)分析,通過機(jī)器自學(xué)習(xí)識別出當(dāng)前業(yè)務(wù)系統(tǒng)敏感數(shù)據(jù),進(jìn)行自動聚類,提出敏感數(shù)據(jù)分類分級規(guī)則方案;
(3)對智能發(fā)現(xiàn)的敏感數(shù)據(jù)進(jìn)行關(guān)聯(lián)關(guān)系分析以及數(shù)據(jù)變形規(guī)則分析,同時對系統(tǒng)進(jìn)行分析;
(4)根據(jù)第3步的分析,對用戶權(quán)限、脫敏規(guī)則、脫敏數(shù)據(jù)表、脫敏函數(shù)、脫敏數(shù)據(jù)關(guān)聯(lián)關(guān)系及脫敏流程進(jìn)行配置,導(dǎo)入到系統(tǒng)原型;
(5)對敏感數(shù)據(jù)進(jìn)行數(shù)據(jù)的變形工作,包括脫敏函數(shù)庫的自定義、擴(kuò)展及豐富;
(6)進(jìn)行脫敏數(shù)據(jù)的分發(fā),包括數(shù)據(jù)加載到其他庫、 數(shù)據(jù)加載到本地庫、 數(shù)據(jù)在線脫敏使用;
(7)通過脫敏后的結(jié)果對系統(tǒng)原型支撐技術(shù)進(jìn)行驗證。
大數(shù)據(jù)智能化背景下的數(shù)據(jù)脫敏技術(shù)分析
基于人工智能的敏感數(shù)據(jù)自動分類和識別、機(jī)器學(xué)習(xí)的數(shù)據(jù)關(guān)聯(lián)關(guān)系識別和保持、用戶使用模型學(xué)習(xí)的智能自適應(yīng)脫敏算法等三個角度,本文對大數(shù)據(jù)背景下的數(shù)據(jù)脫敏進(jìn)行了技術(shù)分析。
典型案例實驗分析
文章以一個典型的運營商應(yīng)用業(yè)務(wù)場景中的數(shù)據(jù)脫敏作為案例進(jìn)行了實驗分析。該案例采用智能自適應(yīng)脫敏算法在海量運營商用戶中隨機(jī)抽取36萬個用戶的靜態(tài)屬性表、套餐開通數(shù)據(jù)表、Top10APP使用數(shù)據(jù)表,月流量語音使用數(shù)據(jù)表總共 31列的屬性中進(jìn)行智能自適應(yīng)脫敏。
討論
文章指出隨著目前大數(shù)據(jù)與人工智能的飛速發(fā)展,數(shù)據(jù)脫敏將面臨諸多挑戰(zhàn):
如何將數(shù)據(jù)安全脫敏技術(shù)與人工智能的自主學(xué)習(xí)和強(qiáng)大的數(shù)據(jù)分析能力有機(jī)結(jié)合;
如何利用大數(shù)據(jù)智能分析及人工智能建模算法從傳統(tǒng)的靜態(tài)脫敏方式到自適應(yīng)的動態(tài)脫敏模式轉(zhuǎn)變,有效滿足多模態(tài)數(shù)據(jù)交互流量的不斷增長和復(fù)雜多變的安全處理業(yè)務(wù)場景需求,例如在電力、運營商這種關(guān)乎國計民生的行業(yè)的應(yīng)用;
如何應(yīng)對大數(shù)據(jù)智能化場景下用戶信息透明導(dǎo)致的數(shù)據(jù)所有權(quán)及使用權(quán)的倫理問題,僅僅依賴智能化的技術(shù)是否能使數(shù)據(jù)脫敏評價機(jī)制的可靠性、敏感數(shù)據(jù)準(zhǔn)確識別方法多樣性及數(shù)據(jù)治理體系的全面性達(dá)到預(yù)期目標(biāo)。
結(jié)論
最后,文章從技術(shù)、需求和法治、管理機(jī)制方面提出了數(shù)據(jù)脫敏的3點思考和建議:
辯證地認(rèn)識數(shù)據(jù)脫敏安全問題;
多媒體數(shù)據(jù)的隱私保護(hù)與脫敏會成為未來數(shù)據(jù)脫敏領(lǐng)域的重點方向;
數(shù)據(jù)脫敏問題還需要與法律法規(guī)、管理機(jī)制等層面進(jìn)行聯(lián)動。
來源:科技導(dǎo)報