一、引言
伴隨著大數據、云計算以及算法的發展,人工智能的浪潮從幾年前一直延續至今,并且廣泛應用于多個行業和領域,成為下一次科技革命的一個領軍技術。同樣,伴隨著數據量與數據來源的猛增,數據治理也成為了企業在充分挖掘利用數據價值過程中必不可少的環節,并逐漸發展為企業的核心業務之一。 由于數據治理的輸出是人工智能的輸入,即經過數據治理后的大數據,因此數據治理與人工智能的發展存在相輔相成的關系。一方面,數據治理為人工智能奠定基礎。通過數據治理,企業可以提升數據質量、增強數據合規性,從而為人工智能的應用提供高質量的合規數據。另一方面,人工智能對數據治理存在諸多優化作用。通過人工智能技術,數據治理工作中的數據模型管理、元數據管理、主數據管理、數據質量管理、數據安全管理等方面智能化水平得到提升。 二、人工智能與數據治理的發展現狀 (一)人工智能的發展現狀 人工智能也稱為機器智能,其概念最初是在20世紀50年代中期Dartmouth學會上提出,研究、開發用于模擬、延伸和擴展人的智能的理論、方法、技術及應用系統的一門新的技術科學。在目前的學科體系下,人工智能屬于計算機科學的一個分支。人工智能的目的是通過了解智能的實質來提升機器的智能水平,并生產出一種新的能以人類智能相似的方式做出反應的智能機器。人工智能的細分領域很多,例如機器人、語言識別、圖像識別、自然語言處理和專家系統等。 (1)在技術方面 以智能語音語義、計算機視覺等為代表的技術不斷取得突破,為賦能各行業打下了堅實的基礎。以智能語音語義為例,語音識別應用在純凈環境下表現趨近完美,機器翻譯聚焦神經網絡技術也實現了系統錯誤率60%的降低,在詞嵌入及對話系統得到了長足進步;以計算機視覺為例,圖像分類已全面超越人類水平,在目標檢測、語義分割、目標跟蹤等領域也實現了性能及精度的極大提升。 (2)在產業方面 近年來,以深度神經網絡為代表的人工智能技術及產業體系逐漸成型,正在深刻賦能各領域的應用落地。如圖1所示,人工智能產業技術體系以包含算法及軟硬件實現的底層技術為根基,以軟件框架為核心,通過基礎應用技術賦能上層應用。 (3)在應用方面 隨著人工智能在我國移動互聯網、智能家居等領域的發展,我國人工智能的應用持續高速成長。由于人工智能包含的環節較多,從基礎技術層的數據平臺、數據存儲以及數據挖掘等,人工智能技術層的語音識別、自然語言處理、圖像識別和生物識別等,到人工智能應用層的工業4.0、無人駕駛汽車、智能家居、智能金融、智慧醫療、智能營銷、智能教育以及智能農業等。隨著人機交互水平的不斷提升,智能音箱等新型人機交互產品迅速發展;隨著基礎應用的不斷成熟,人工智能技術對如制造業、醫療、金融等垂直行業領域也在產生緩慢而深遠的影響。 (二)數據治理的發展現狀 隨著大數據在各個行業領域應用的不斷深入,數據作為基礎性戰略資源的地位日益凸顯,數據標準化、數據確權、數據質量、數據安全、隱私保護、數據流通管控、數據共享開放等問題越來越受到國家、行業、企業各個層面的高度關注,這些內容都屬于數據治理的范疇。因此,數據治理的概念就越來越多地受到關注,成為目前大數據產業生態系統中的新熱點。 在20世紀80年代,隨著數據隨機存儲和數據庫技術的應用,產業界首次提出了數據管理的概念,這就是數據治理最早的起源。2009年,國際數據管理協會(DAMA)提出了DAMA數據管理理論框架模型,成為目前行業最權威的數據管理理論模型。DAMA數據管理理論框架模型包括10個活動職能,分別是數據治理、數據架構管理、數據開發、數據操作管理、數據安全管理、參考數據和主數據管理、數據倉庫和商務智能管理、文檔和內容管理、元數據管理和數據質量管理。 目前,企業數據治理已經形成了一套科學的管理范疇。從技術體系上來看,數據治理位于應用和底層平臺中間。數據治理包括兩個重要方面:一是數據治理的核心活動職能;二是確保這些活動職能落地實施的保障措施,包括組織架構、制度體系。數據治理在大數據應用體系中,處于承上啟下的重要地位。對上支持以價值挖掘為導向的數據應用開發,對下依托大數據平臺實現數據全生命周期的管理。 2018年5月,銀保監會印發《銀行業金融機構數據治理指引的通知》,開啟了行業數據治理的新趨勢,數據治理的概念從傳統的數據企業走向能源、金融、工業、政務等多種行業。近年來,國內各行業大型企業紛紛發起企業內部數據治理項目,制定數據治理規范,成立專業的數據管理實體團隊來開展企業數據治理工作。 三、數據治理為人工智能奠定基礎 大數據是不斷采集、沉淀、分類等的數據積累,而數據治理則為大數據的呈現提供了更為規范的模式。目前,大部分人工智能的形式需要通過大量的數據運算實現,因此離不開大數據和數據治理的支持。人工智能需要依賴大數據平臺和技術來幫助完成深度學習進化。 (1)數據治理為人工智能優化數據質量 以深度學習為代表的人工智能分為訓練(Training)和推斷(Inference)兩個環節。深度學習訓練算法的效果依賴于所輸入的數據質量的優劣,如果輸入的數據存在偏差,那么輸出的算法也將產生偏差,這可能將直接導致所得結果的不可用。數據治理在提升數據質量方面具有重要作用。通過定義數據質量需求、定義數據質量測量指標、定義數據質量業務規則、制定數據質量改善方案、設計并實施數據質量管理工具、監控數據質量管理操作程序和績效等數據質量管理環節,企業可以獲得干凈的、結構清晰的數據,為深度學習等人工智能技術提供可信的數據輸入。 (2)數據治理為人工智能保障數據隱私 當前人工智能發展中面臨的很大制約就是數據權屬和隱私保護問題。個人隱私數據之所以應該受到保護,就是因為這些數據的濫用有可能對個人造成巨大的財產甚至人身傷害。所謂隱私保護,其實就是對隱私數據的保護。最理想的情況是能夠在產權層面確立相關個人作為隱私數據的合法的唯一擁有者,或至少對隱私數據實際控制者的行為嚴加管束,做到合法合規,這就離不開數據治理。數據治理工具從技術工具和保障措施等方面設計了保護隱私數據的諸多環節,可為企業個人數據保護奠定基礎,從而實現人工智能應用的數據合規性。 四、人工智能在數據治理中的應用 (一)數據模型管理 數據模型是數據治理的基礎,一個完整的、可擴展的、穩定的數據模型可以清楚地表達企業內部各種業務主體之間的數據相關性,使不同部門的業務人員、應用開發人員和系統管理人員獲得關于企業業務數據的統一完整試圖。數據模型包括概念模型、邏輯模型和物理模型。其中,概念模型一定程度上等同于傳統數據庫理論中所涉及的ER圖(實體—聯系圖),反映了實體和實體之間的關系。 人工智能幫助實現概念模型與計算機模型的完美融合。ER圖只能幫助我們理解客觀世界的事物,并非計算機可以實現的模型,因此在建立概念模型以后,還需將其轉換為計算機模型。知識圖譜作為人工智能的重要產物之一,是以圖形(Graph)的方式展現實體、實體屬性以及實體間的關系。目前,知識圖譜普遍采用了語義網絡架構中RDF(Resource
Description
Framework,資源模式框架)模型表示數據,其基本數據模型包括資源(Resource)、謂詞(Predicate)和陳述(Statements)3個對象,用于構建包含主體、屬性和客體的知識圖譜數據集。 (二)元數據管理 元數據是描述數據產品特征的任何信息,以及與企業認為值得管理的其他數據產品的關系等。元數據也包含了許多主題領域,即業務分析(如報表、用戶、績效)、業務規則、數據整合(如數據源、數據轉換規則)等。 (1)人工智能實現對非結構化數據的采集和關鍵信息的提取 在傳統的元數據管理中,對于非結構化數據的元數據采集通常是通過創建非結構化數據的搜索索引的方式。語音識別、圖像識別、文本分析等技術幫助實現元數據的最初業務詞庫的構建,成為提取各類有價值的非結構化元數據的資源池。 (2)人工智能幫助維護元數據 企業將元數據視為數據的索引,因此元數據的質量至關重要。如果企業數據源存在不規則的數據并且這些不規則性可以利用元數據體現,那么元數據可以輔助用戶理解這些復雜的數據。同時,在元數據的遷移和整合過程中,管理好元數據的質量也至關重要。人工智能在元數據質量維護的過程中不是一個“管理者”的角色,而是一個輕量又關鍵的“技術者”的角色,它起到的作用同在數據治理中提升數據質量的作用類似,最終將消除在元數據存儲或數據字典中重復、不一致的元數據,并通過元數據質量規則設定,提出可靠的質疑閾值。 (3)人工智能幫助實現元數據的整合 元數據的整合是在企業范圍或在企業外部,采集相關的技術元數據和業務元數據,并將其存儲進元數據存儲庫的過程。此過程在定義存儲方式和跟蹤機制的基礎上,如果通過自動化實現將節約更多的人力成本,而人工智能在自動化中承擔關鍵節點和優化節點的作用,解決諸如質量控制和語義篩選方面的問題。 (三)主數據管理 主數據指企業核心業務實體的數據,是在整個價值鏈上被重復、共享應用于多個業務流程的、各個業務部門與各個系統之間共享的基礎數據,是各業務應用和各系統之間進行信息交互的基礎。但是在主數據管理的過程中,企業可能面臨如何在數量龐大的數據項中識別主數據、如何建立統一的主數據標準等問題。 (1)人工智能幫助企業識別主數據 確定主數據依賴于企業對于業務需求的理解和相應“黃金數據”的定義。通常來說,每個主數據主題域都有自己專用的記錄系統,并且分散在各個業務系統中。人工智能相關技術可以幫助我們在所有數據中篩選出頻繁出現或流動的數據,同時快速確定主數據的可靠與可信數據來源,構建完整的主數據試圖。 (2)人工智能幫助定義和維護數據匹配規則 主數據管理面臨的一個挑戰是在多個系統中對于同一數據項進行匹配和合并,解決該挑戰的一個方法是構建數據匹配規則,包括不同置信水平的匹配接受度。有些匹配需要極高的信任度,可以基于跨多個字段的準確數據匹配實現;有些匹配僅僅由于數據值的沖突,可以采用較低的信任度。機器學習、自然語言處理可幫助建立重復識別匹配規則和匹配鏈接規則,在識別字段重復的主數據之后不進行自動合并,并確定與主數據相關的記錄,建立交叉引用關系。 (四)數據質量管理 數據質量是保證數據應用的基礎。衡量數據質量的指標體系包括完整性(數據是否缺失)、規范性(數據是否按照要求的規則存儲)、一致性(數據的值是否存在信息含義上的沖突)、準確性(數據是否正確)、唯一性(數據是否是重復的)、時效性(數據是否及時反映客觀事實)。對于任何一個企業而言,在實施數據質量提升方案之前,需要依據不同的業務規則和業務期望選擇合適的數據質量指標體系,并進行數據的清洗。 人工智能定義轉換規則,提取數據質量評估維度。數據質量改善最理想的模式是從數據源頭剔除臟數據,但是這在現實中并不可行,其一是因為數據源眾多且難以控制數據源的數據質量,其二是直接從數據源頭達標付出的成本過大。因此,根據業務期望,應針對性地提升各個業務線上數據流的數據質量。機器學習(如分類學習、函數學習、回歸)將通過提取有效的數據質量評估指標,最大化實現該指標下的數據質量的提升。 同時,監督學習、深度學習也將實現對數據清洗和數據質量的效果評估,進而改善轉換規則和數據質量評估維度,并隨著數據量和業務期望的逐漸變化,使數據質量提升方案動態更新。 (五)數據安全 數據安全是指讓信息或信息系統免受未經授權的訪問、使用、披露、破壞、修改、銷毀的過程或狀態。而數據安全治理不僅僅是安全工具或解決方案,而是基于戰略、業務、應用、安全和風險管理的有機整體,從管理制度到工具支撐,從上層管理架構到下層技術實現,采取的一系列合適的措施。數據安全治理是人工智能在數據治理全過程中的重要應用環節。 人工智能促進安全保障體系完善。依托人工智能引擎,通過對業務數據的獲取、清洗、語義計算、數據挖掘、機器學習、知識圖譜、認知計算等技術,將快速促進數據安全保障體系完善。 人工智能推進數據分類分級。應用機器學習、自然語言處理和文本聚類分類技術,能對數據進行基于內容的實時精準分類分級,而數據的分類分級是數據安全治理的核心環節。例如,利用數據分類引擎在郵件內容過濾、保密文件管理、情報分析、反欺詐、數據防泄露等領域明顯提升了安全性。 (六)其他方面 當前數據治理成熟度模型是定性模型,人工智能可以從兩個方面實現對數據治理成熟度模型的改進,其一是結合企業自身的數據治理發展現狀與數據治理理論框架,其二是通過自定義的多維度評估規則,實現成熟度模型的量化,在更細的顆粒度上提供切實可行的改進實施方案。 五、結束語 人工智能對于提升數據治理的智能化水平具有關鍵作用,因此也成為數據治理發展的重要趨勢。未來,通過人工智能技術降低數據治理的門檻將成為數據治理發展的重要方向。人工智能與數據治理看起來是兩項必須專業人士才可以操作的技術,但是如若將它們的使用受限于懂技術的專家,缺少其他管理人員或業務人員的參與,將是一種對資源的浪費。因此,需要通過智能化嵌入手段不斷提升數據治理工具的易用性,使得數據治理的參與人員可以更為便捷地使用數據治理工具。自然語言問答、自然語言搜索、語音控制等人工智能技術的嵌入,將極大改善目前數據治理工作操作難的現狀。 隨著數據治理和人工智能兩個領域的各自快速發展,未來二者的融合將會有更多場景和商業模式。
來源:中國信息安全