★尚文利,朱鵬程,王博文,曹忠,張曼,浣沙廣州大學電子與通信工程學院
摘要:隨著萬物互聯時代的到來,網絡空間的攻擊面不斷拓展延伸,安全問題日益凸顯。為應對復雜多變的網絡攻擊,構建威脅情報的知識圖譜是核心和基礎,利用威脅情報知識圖譜將專家知識與海量安全數據相結合,有助于推動網絡安全智能防御技術從感知智能邁向認知智能。本文提出了構建威脅情報知識圖譜的技術架構,設計了一種網絡安全知識本體,并總結了當前國內外實體識別技術與關系抽取技術的研究現狀,最后分析了威脅情報知識圖譜的未來研究發展方向及應用場景。
關鍵詞:網絡安全;知識圖譜;實體識別;關系抽取
1 引言
近年來,隨著5G、云計算、物聯網等新一代信息技術的飛速發展,萬物互聯(Internetof Everything,IoE)的時代即將到來,網絡空間規模持續擴張,將人類社會與工業物理系統緊密串聯。與此同時,網絡安全問題空前嚴峻,新型攻擊行為層出不窮,呈現出復雜多樣性、長期持續性、高隱蔽性的特點。尤其是頻發的高級持續性威脅(Advanced PersistentThreat,APT)事件,涉及關鍵信息基礎設施的破壞與公民信息的竊取,嚴重危害社會、經濟、政治安全,已上升至國家網絡空間安全戰略層面。
傳統的被動式網絡安全防御手段,如單純依賴網絡流量監測的入侵檢測系統等,難以應對系統性大規模復雜多變的網絡攻擊,而大數據、人工智能等技術的興起為網絡空間安全提供了新助力。各大網絡安全廠商、研究機構均已建立網絡安全論壇、漏洞信息庫、威脅情報中心等。如何有效管理和精準利用海量碎片化的威脅情報,挖掘出具有潛在價值的信息,將防御化被動轉為主動是當前面臨的主要問題之一。
威脅情報知識圖譜是第三代人工智能技術運用至網絡安全領域的產物,是融合先驗安全專家知識而形成的大規模安全語義網絡。該圖譜通過從海量零散分布的多源異構網絡安全數據中提取出安全類實體及實體間關系,以圖語言形式高效、直觀地表示。同時該圖譜模擬專家思維進行威脅分析,推理發現漏洞,制定最佳防御策略,全面提升風險防范的準確性、預見性及對威脅攻擊的反制速度。因此,構建威脅情報知識圖譜,是推動網絡安全智能防御技術從依賴數據驅動的感知智能,邁向融合知識驅動的認知智能的關鍵。
威脅情報知識圖譜的技術架構如圖1所示,關鍵技術主要包括三個層次:安全知識本體建模、安全信息抽取技術、知識圖譜存儲,構建過程環環相扣。
(1)在確定圖譜所屬專業領域后,對其知識本體進行建模。首先調研和收集安全領域內全部相關術語,因本體主要為解決知識共享問題,故優先考慮復用現有本體的可能性。對現有本體研究分析后,依據最新國際威脅情報共享標準手工構建,對其進一步改進拓展。(2)安全信息抽取主要分為實體識別技術與關系抽取技術。根據所設計知識本體以節點、邊、節點三元組形式從海量威脅情報中抽取實體及實體間關系。(3)最后依據應用場景,選擇不同類型數據庫對已抽取數據進行存儲。
圖1 威脅情報知識圖譜的技術架構構建圖
2 網絡安全知識本體建模
知識本體是以實體類型為節點,以實體間關系為邊,對知識抽象化表示所形成的完整關系鏈。本體構建方法通常有自頂向下和自底向上兩類。構建專業領域知識本體,往往需要對領域內知識的全覆蓋,且冗余較少。同時,良好的知識本體設計還應當兼顧圖譜,具備較好的“細粒程度”,以便圖譜后續進行更新、推理、消歧等技術的研究。圖譜節點概念太過泛化將導致可操作性差,而過度細化又將極易出現信息缺失問題。
本研究基于MITRE公司制定的結構化威脅情報共享標準2.0(StructuredThreatInformation eXpression2.0,STIX2.0),采取自頂向下的方式設計網絡安全知識本體。具體的網絡安全知識本體結構如圖2所示。該模型以黑客組織為核心建立其關系網狀結構,選擇定義了以下13類實體類型:黑客組織、攻擊、樣本文件、安全團隊、工具、時間、目的、區域、行業、組織、方式、漏洞、特征,同時定義了以下6類實體間關系:屬于、擁有、發起、防御、使用、利用。
圖2 網絡安全知識本體模型
3 網絡安全信息抽取
3.1 實體識別技術
(1)技術介紹
網絡安全實體識別技術本質是自然語言處理中特定領域的序列標注問題,主要任務是從海量的半結構化、非結構化安全數據中抽取預定義類別的實體,例如黑客組織、安全團隊、樣本文件、漏洞等類型安全實體。其目的是對海量多源異構安全數據進行細粒度的深度關聯分析和挖掘,對安全領域內專業詞匯進行確認和分類。安全實體識別也是構建威脅情報知識圖譜的基礎。
網絡安全實體識別技術相較于通用領域內的實體識別技術,由于關注的實體類別不同,存在以下難點[1]:
·安全實體類型多且變化頻率高,不斷涌現新實體導致OOV(OutofVocabulary)問題。
·安全實體結構復雜,存在大量嵌套、別名、縮略詞等多意現象,沒有嚴格的命名規則。
·威脅情報通常單句較長,句子中實體稀疏,鄰近實體標簽間的特征不足,更加依賴于遠距離特征的獲取。
·當前缺乏大規模高質量的網絡安全實體標注語料庫,嚴重依賴人工標注構建模型訓練集。
(2)國內外研究現狀
早期的安全實體識別基于安全專家制定的規則與詞典進行實體抽取。例如Liao等人于2016年提出使用正則表達式結合語法樹的方式,提取威脅情報中的失陷指標(Indicator of compromise,IOC)[2]。
該方式通過專家設定規則,基于正則表達式和詞典對網絡安全實體及關系所在的位置進行定位,然后使用語法樹相似度判斷定位范圍的內容是否包含實體及關系。此方式的優勢在于準確率高,但缺陷明顯,存在人工成本高和移植性差等問題,且由于領域的特殊性,此方式僅適用一些結構特征明顯的實體,例如通用漏洞披露(Common Vulnerabilities and Exposures,CVE)編號、郵箱地址、IP地址等。隨著大數據與人工智能技術的發展,深度學習技術被運用至安全實體識別領域。Qin等人于2019年,使用人工設計特征模板加深度學習的方式,提出FT-CNN-BiLSTM-CRF模型[3]。該方式利用人工設定的特征窗口提取上下文特征,與BiLSTM模型提取的序列語義特征結合,進行實體識別。李濤于2020年,提出基于多特征融合的威脅情報命名實體識別模型(MF-BiLSTM-LSTM)[4],開創性地通過融合實體的詞、字符和句法依存特征,使模型性能進一步提升。此方式降低了人工成本,同時提升了模型移植性,但模型效果嚴重依賴安全領域所缺少的大規模網絡安全實體標注訓練集。近年來,隨著大規模預訓練實體識別模型(BERT)的問世,研究者們逐漸將目光轉向了利用超大規模預訓練語料庫、基于雙向Transformer編碼器對未標記文本深度表示的預訓練模型。基于符合SIX2.0的DNRTI威脅情報實體識別數據集,Evangelatos等人于2021年,分別使用4個大規模預訓練模型進行對比試驗[5]。Zhou等人于2022年,設計出一種基于大規模預訓練的BERT-BiLSTMGRU-CRF模型[6],創新性地將GRU層與原BiLSTM相結合,有效降低了模型過擬合風險,提升了模型效果。Liu等人于2022年,在使用大規模預訓練模型的同時,對單詞的成分特征、形態特征和語音特征進行編碼和匯總,以融合多特征方式,提升了模型對上下文語義的表達能力[7]。
以上研究表明,添加大規模預訓練模型和融合多句法特征,將顯著增強實體識別模型對網絡安全文本的語義表達能力,可有效緩解OOV問題、一詞多義以及對訓練集的強依賴問題。
(3)實體識別技術新思路
解決當前安全實體識別所面臨的困境,關鍵是增強模型對威脅情報文本語義的表達能力。本文提出了以下幾種方法:①融合多個大規模預訓練模型對文本向量表示的輸出。由于預訓練模型包含了從大規模語料庫中學習到的上下文信息,串聯不同種類的預訓練模型有助于獲取更多異質性上下文,極大豐富模型對威脅情報文本的語義表達。②融合多個句法信息,例如詞性、語法成分、依賴關系等。添加新特征,增強模型對標簽的推理能力,緩解OOV問題。③添加全局注意力機制層,增強模型對遠距離特征的獲取能力,緩解實體稀疏問題。
3.2 關系抽取技術
(1)技術介紹
在網絡安全知識圖譜的構建過程中,當提取好網絡安全實體后,需利用關系將存在聯系的實體編織在一起,最終形成一個龐大的拓撲信息網。關系抽取同樣是網絡安全知識圖譜構建的核心任務,而關系抽取的本質,就是從非結構化文本語料中提取兩個實體之間存在的關系。
(2)國內外研究現狀
關系抽取的方法繁多,早期大部分的研究都是用基于規則的方法,該方法擁有準確率高、表示直觀等優點,但其成本過高、應用范圍狹窄。隨著人工智能的發展,基于深度學習的方法因靈活性高、應用范圍廣等特點受到了很多領域學者的爭先研究。不過由于其需要大量人工標注的數據來進行訓練,所以根據標注數據的精準程度又被分成基于監督學習的方法、基于遠程監督學習的方法等。Wang等人提出了一個融合語義特征和依賴特征的威脅情報關系抽取框架[8]。
該框架運用了一種新的剪枝策略(SDP-VP),大大降低了句法依賴樹中的噪聲枝影響,從而提升了模型效果,不過該模型對于句子本身語義信息的利用還不夠充分。Zhou等人針對關系抽取中實體的表示形式展開了一系列研究,將預處理語言模型(PLM)與實體類型嵌入改進得到了一個新的關系抽取基線模型[9]。該模型將實體類型嵌入到文本語句當中去增強實體對之間的聯系,但是其應用受實體提取結果影響較大。Tian等人提出了一種配備多種句法依賴信息的Bert+A-GCN模型[10]。該模型利用注意力機制智能裁剪權重較低、信息量較少的關系枝,降低了句法依存樹中的噪聲影響,并將配備依賴類型的局部與全局依賴信息結合生成結合鄰接矩陣,進一步加強了實體對之間依賴信息的影響,進而提升了模型的效果。
Takanobu等人提出了一種分層提取范式,通過分層強化學習來處理關系提取[11]。該范式將實體視為關系的參數,并將關系提取任務分解為兩個子任務的層次結構:高級關系指標檢測和低級實體提取,針對遠程監督噪聲較多的數據集,增強了其關系抽取的穩定性,降低了遠程監督數據集噪聲數據過多問題對實驗造成的影響,并且對于重疊關系的提取效果也得到了很大的提升。Li等人提出了一種基于全局和局部特征的感知網絡(GLFN)[12],增強了網絡模型對文本語料重要語義特征的理解,并通過殘差網絡動態降低了噪聲數據的影響。Chen等人提出了一種具有協同優化(KnowPrompt)的知識感知提示調整方法[13]。該方法中“提示調整”的核心思想是將文本片段(即模板)插入到輸入中,并將分類任務轉換為掩碼語言建模問題,專注于將關系標簽之間的知識整合到關系提取的提示調整中。該方法充分利用了關系標簽之間存在著的豐富的語義和先驗知識,不過其只適用于有標記數據的監督學習環境。Luo等人針對威脅情報領域關系抽取數據集問題提出新的關系提取框架[14]。該框架采用遠程監督進行數據標注,并采用神經網絡模型進行關系提取,大大降低了數據集標注的人力成本,為解決網絡安全領域關系抽取數據集缺乏的問題打開了一個新的思路,不過該方法最終得到的數據集噪聲數據過多且質量偏低。
(3)關系抽取技術新思路
安全關系抽取的關鍵在于實體對所在文本本身的語義信息和句法依賴信息以及模型的選取。為了能夠得到更高的安全關系抽取準確率,本文提出通過變換文本本身語義信息和句法依賴信息的獲取形式,加強實體對之間的聯系,以及選取更合適的預處理語言模型。同時由于現階段關系抽取技術大多基于流水線形式,關系抽取發生在實體抽取之后,容易造成錯誤積累,從而降低關系抽取的準確率。利用實體和關系聯合抽取的方式,是消除此類錯誤積累問題的解決辦法之一。
4 知識圖譜存儲
完成威脅情報的信息抽取后,對所得到的威脅情報實體及實體關系進行數據庫入庫。目前主要的知識圖譜存儲方式有兩種:(1)基于資源描述框架結構的存儲方式;(2)基于圖數據庫的存儲方式。資源描述框架(Resource Description Framework,RDF)是W3C制定的用于描述實體資源的標準數據模型,它通過三元組的方式存儲,優勢在于擁有強大的語義表達能力,同時具有良好的互通性,容易傳輸。RDF資源管理數據庫也是目前主流存儲知識圖譜的方式,但存在可讀性差、搜索效率低等缺陷。常見的資源描述框架結構數據庫有Protege、Owlready2等。近些年興起通過圖數據庫方式存儲知識圖譜,其優勢在于圖本身可天然表示圖譜結構等信息,容易管理,支持各類圖挖掘、推理算法,同時搜索效率高、速度快,尤其適用于多跳查詢。缺點是圖數據庫的分布式存儲實現代價高,數據更新慢。常見的圖數據庫有Neo4j、Tita、OrientDB等。
5 威脅情報知識圖譜應用場景
隨著知識圖譜相關技術的高速發展,威脅情報知識圖譜現已經廣泛地運用至各類網絡安全智能防御系統當中。例如:
(1)姿態感知和安全評估[15]。隨著部署在企業網絡的設備和服務的不斷迭代更新,其組合模式也變得越來越復雜,導致評估企業網絡整體安全性變成了一項極具挑戰的任務。企業網絡的安全管理員通過運用威脅情報圖譜,能充分掌握當前網絡空間資產及其暴露面,能更好地應對多階段、多主機的攻擊場景。
(2)APT威脅追蹤。近年來APT組織的網絡攻擊手段不斷升級,威脅情報知識圖譜可針對不同APT組織的行為特征,通過統一語言描述,構建APT組織畫像。利用威脅情報知識圖譜對攻擊行為進行分析,可實現對已知攻擊組織的追蹤和對未知攻擊團伙的識別。
(3)漏洞管理。漏洞是所有黑客組織入侵的關鍵所在,如何高效發現、監控和管理漏洞是網絡安全的重中之重。利用威脅情報知識圖譜技術可高效整合海量非結構化威脅情報來收集漏洞,以更加直觀的圖語言表示。同時利用圖譜推理能力,可獲取漏洞導致的潛在暴露面及其風險信息等。
6 總結
近幾年,人工智能技術在網絡安全上的運用受到學術界和工業界的廣泛關注。威脅情報知識圖譜是推動網絡安全智能防御技術從感知智能邁向認知智能的關鍵。然而,其圖譜構建技術與應用場景的研究仍處于早期階段。本文提出了構建威脅情報知識圖譜的技術架構,設計了基于STIX的安全知識本體,總結了當前國內外的網絡安全信息抽取技術并提出了新思路,為威脅情報的圖譜構建技術、圖譜推理技術、圖譜應用場景等研究提供了借鑒和思路。
作者簡介
尚文利(1974-),男,黑龍江北安人,教授,博士,現任教于廣州大學電子與通信工程學院,主要從事計算智能與機器學習、工業信息安全、邊緣計算方面的研究。
朱鵬程(1998-),男,碩士,江西南昌人,現就讀于廣州大學電子與通信工程學院,主要從事知識圖譜、車聯網威脅分析方面的研究。
王博文(1999-),男,湖南邵陽人,碩士,現就讀于廣州大學電子與通信工程學院,主要從事知識圖譜、車聯網威脅分析方面的研究。
曹 忠(1977-),男,安徽黃山人,講師,博士,現任教于廣州大學電子與通信工程學院,主要從事工業互聯網方面的研究。
張 曼(1984-),女,陜西西安人,講師,博士,現任教于廣州大學電子與通信工程學院,主要從事智能軟件工程及軟件體系結構領域的相關工作。
浣 沙(1984-),女,湖南長沙人,講師,博士,現任教于廣州大學電子與通信工程學院,研究方向為寬帶雷達通信一體化技術,以及此技術在毫米波多用戶場景下的應用、陣列雷達信號處理、抗干擾技術、前視雷達成像技術。
參考文獻:
[1] Xuren Wang, et al. APTNER: A Specific Dataset for NER Missions in Cyber Threat Intelligence Field[C]. 2022 IEEE 25th International Conference on Computer Supported Cooperative Work in Design (CSCWD), Hangzhou, China, 2022 : 1233 - 1238.
[2] Xiaojing Liao, Kan Yuan, Xiaofeng Wang, et al. Acing the IOC Game: Toward Automatic Discovery and Analysis of Open-Source Cyber Threat Intelligence[C]. Proceedings of the 2016 ACM SIGSAC Conference on Computer and Communications Security (2016).
[3] Ya Qin, Guowei Shen, Wenbo Zhao, Yanping Chen, Miao Yu, Xin Jin. A network security entity recognition method based on feature template and CNN BiLSTM-CRF[J]. Frontiers of Information Technology & Electronic Engineering 20 (2019) : 872 - 884.
[4] 李濤. 威脅情報知識圖譜構建與應用關鍵技術研究[D]. 戰略支援部隊信息工程大學, 2020.
[5] Pavlos Evangelatos, Christos lliou, Thanassis Mavropoulos, et al. Named Entity Recognition in Cyber Threat Intelligence Using Transformer-based Models[C]. 2021 IEEE International Conference on Cyber Security and Resilience (CSR), Rhodes, Greece, 2021, 348 - 353.
[6] Yinghai Zhou, Yi Tang, Ming Yi, Chuanyu Xi, Hai Lu. CTI View: APT Threat Intelligence Analysis System[J]. Secur. Commun. Networks 2022 (2022) : 1 - 15.
[7] Peipei Liu, Hong Li, Zuoguang Wang, et al. Multi-features based Semantic Augmentation Networks for Named Entity Recognition in Threat Intelligence[C], 2022 26th International Conference on Pattern Recognition (ICPR), Montreal, QC, Canada, 2022, 1557 - 1563.
[8] Xuren Wang, Xinpei Liu, Shengqin Ao, et al. FSSRE: Fusing Semantic Feature and Syntactic Dependencies Feature for Threat Intelligence Relation Extraction[J].
[9] Wenxuan Zhou, Muhao Chen. An Improved Baseline for Sentence-level Relation Extraction[C]. AACL, 2021.
[10] Yuanhe Tian, Guimin Chen, Yan Song, et al. Dependency-driven Relation Extraction with Attentive Graph Convolutional Networks[C]. Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers), 2021 : 4458 - 4471.
[11] Ryuichi Takanobu, Tianyang Zhang, Jiexi Liu, et al. A Hierarchical Framework for Relation Extraction with Reinforcement Learning[C]. Proceedings of the AAAI conference on artificial intelligence, 2019, 33 (01) : 7072 - 7079.
[12] Ping Li. Correlation temporal feature extraction network via residual network for English relation extraction[J]. EAI Endorsed Transactions on Scalable Information Systems, 2022, 9 (36).
[13] Xiang Chen, Ningyu Zhang, Xin Xie, et al. KnowPrompt : Knowledge-aware Prompt-tuning with Synergistic Optimization for Relation Extraction[C]. Proceedings of the ACM Web Conference 2022, 2022 : 2778 - 2788.
[14] Yali Luo, Shengqin Ao, Ning Luo, et al. Extracting threat intelligence relations using distant supervision and neural networks[C]. Advances in Digital Forensics XVII : 17th IFIP WG 11.9 International Conference, 2021 : 193 - 211.
[15] Kai Liu, Fei Wang, Zhaoyun Ding, et al. A review of knowledge graph application scenarios in cyber security[J/OL].
《自動化博覽》2023年1月刊暨《工業控制系統信息安全專刊(第九輯)》