(中國地質大學(北京)信息工程學院,北京 100083) 嚴紅平
(中國科學院自動化所模式識別國家重點實驗室,北京 100080) 潘春洪
嚴紅平
女,博士后,中國地質大學(北京)信息工程學院副教授,主要研究方向為模式識別、計算機圖形學、圖像處理。
1 序言
人們在觀察事物或現象的時候,常常要根據一定需求尋找觀察目標與其他事物或現象的相同或不同之處,并在此特定需求下將具有相同或相似之處的事物或現象組成一類。例如字母“A”、“B”、“a”、“b”,如果從大小寫上來分,會將“A”、“B”劃分為一類,“a”、“b”劃分為另一類;但是如果從英文字母發音上來分,則又將“A”、“a”劃分為一類,而 “B”、“b”則為另一類。另外,不同人寫的“A”、“B”、“a”、“b”都不同,但即使人們從未見過某個人寫的“A”、“B”、“a”、“b”,或者這些字符出現在混亂的背景里,或部分被遮蓋,人們也可以正確地區分出它們,并根據需要將它們進行準確歸類,當然,前提條件是人們需要對“A”、“B”、“a”、“b”一般的書寫格式、發音方式等有所了解。人腦的這種思維能力就構成了“模式識別”的概念。那么,什么是模式?什么是模式識別呢?
2 模式和模式識別
從以上的例子可以看出,對字符的準確識別首先需要在頭腦中對相應字符有個準確的認識。當人們看到某物或現象時,人們首先會收集該物體或現象的所有信息,然后將其行為特征與頭腦中已有的相關信息相比較,如果找到一個相同或相似的匹配,人們就可以將該物體或現象識別出來。因此,某物體或現象的相關信息,如空間信息、時間信息等,就構成了該物體或現象的模式。Watanabe[16]定義模式“與混沌相對立,是一個可以命名的模糊定義的實體”。比如,一個模式可以是指紋圖像、手寫草字、人臉、或語言符號等。“廣義的說,存在于時間和空間中可觀察的事物,如果我們可以區別他們是否相同或相似,都可以稱之為模式”[6]。而將觀察目標與已有模式相比較、配準,判斷其類屬的過程就是模式識別。模式以及模式識別是和類別(集合)的概念分不開的,只要認識某類事物或現象中的幾個,人們就可以識別該類中的許多事物或現象。為了強調能從具體的事物或現象中推斷出總體,“我們把通過對具體的個別事物進行觀測所得到的具有時間和空間分布的信息稱為模式,而把模式所屬的類別或同一類模式的總體稱為模式類(我們下面進行的模式識別的討論都是基于該定義的)。也有人習慣上把模式類稱為模式,把個別具體的模式稱為樣本”[6]。如“字符”、“植物”、“動物”等等都是模式,而“A”、“松樹”、“狗”則是相應模式中的一個樣本。在此意義上,人們可以認為把具體的樣本歸類到某一個模式,就叫做模式識別,或模式分類。
人類具有很強的模式識別能力。通過視覺信息識別文字、圖片和周圍的環境,通過聽覺信息識別與理解語言等。模式識別是人類的一種基本認知能力或智能,是人類智能的重要組成部分,在各種人類活動中都有著重要作用。在現實生活中,幾乎每個人都會在不經意間輕而易舉地完成模式識別的過程。但是,如果要讓機器做同樣的事情,恐怕決非這么輕松。文中,筆者將從人工智能的角度,更深層次地分析什么是模式識別,以及如何用機器進行模式識別。
要讓機器具有人的模式識別能力,人們首先需要研究人類的識別能力,因此模式識別是研究人類識別能力的數學模型,并借助于計算機技術讓計算機模擬人類識別行為的科學。換言之,模式識別是研究如何讓機器觀察周圍環境,學會從背景中識別感興趣的模式,并對該模式的類屬作出準確合理的判斷。模式識別研究主要集中在兩方面,即研究生物體(包括人)如何感知對象,以及研究在給定的任務下,如何用計算機實現模式識別的理論和方法。前者屬于認知科學的范疇,是生理學家、心理學家、生物學家和神經生理學家的研究內容,后者屬于信息科學的范疇,是數學家、信息學專家和計算機科學工作者的研究內容。識別行為可以分為兩大類:識別具體事物和識別抽象事物。具體事物的識別涉及到時空信息的識別。空間信息的例子,如指紋、氣象圖和照片等;時間信息的例子,如波形、信號等。抽象事物的識別涉及到某一問題解決辦法的識別、一個古老的話題或論點等。換言之,抽象事物的識別是識別那些不以物質形式存在的現象,屬于概念識別研究的范疇。筆者所指的模式識別主要是對具體事物的識別,如語音波形、地震波、心電圖、腦電圖、圖片、文字、符號、三位物體和景物以及各種可以用物理的、化學的、生物的傳感器進行測量的具體模式等。要識別的數據有:一維數據,如語音、心電圖、地震數據等;二維數據,如文字圖片、醫學圖像、衛星圖像等;三維數據,如圖像序列、結晶學或X像斷層攝影術等。
3 模式識別系統
一個完整的模式識別系統基本上由三大部分組成,即數據采集、數據處理和分類決策或模型匹配,如圖1所示。在設計模式識別系統時,需要注意模式類的定義、應用場合、模式表示、特征提取和選擇、聚類分析、分類器的設計和學習、訓練和測試樣本的選取、性能評價等。針對不同的應用目的,模式識別系統三部分的內容可以有很大的差異,特別是在數據處理和模式分類這兩部分,為了提高識別結果的可靠性往往需要加入知識庫(規則)以對可能產生的錯誤進行修正,或通過引入限制條件大大縮小待識別模式在模型庫中的搜索空間,以減少匹配計算量。在某些具體應用中,如機器視覺,除了要給出被識別對象是什么物體外,還要求出該物體所處的位置和姿態以引導機器人的工作。下面筆者分別簡單介紹模式識別系統這三部分的工作原理。
圖1 模式識別系統框架圖
(1) 數據采集
數據采集是指利用各種傳感器把被研究對象的各種信息轉換為計算機可以接受的數值或符號(串)集合。習慣上,稱這種數值或符號(串)所組成的空間為模式空間。這一步的關鍵是傳感器的選取。為了從這些數字或符號(串)中抽取出對識別有效的信息,必須進行數據處理,包括數字濾波和特征提取。
(2) 數據處理
數字濾波是為了消除輸入數據或信息中的噪聲,排除不相干的信號,只留下與被研究對象的性質和采用的識別方法密切相關的特征(如表征物體的形狀、周長、面積等等)。舉例來說,在進行指紋識別時,指紋掃描設備每次輸出的指紋圖像會隨著圖像的對比度、亮度或背景等的不同而不同,有時可能還會產生變形,而人們感興趣的僅僅是圖像中的指紋線、指紋分叉點、端點等,而不需要指紋的其它部分或背景。因此,需要采用合適的濾波算法,如基于塊方圖的方向濾波、二值濾波等,過濾掉指紋圖像中這些不必要的部分。
特征提取是指從濾波數據中衍生出有用的信息,從許多特征中尋找出最有效的特征,以降低后續處理過程的難度。比如,圖像識別時,提取的特征有灰度變化、紋理、形狀等。我們對濾波后的這些特征進行必要的計算(比如進行快速傅里葉變換以得到信號功率譜)后,通過特征選擇和提取或基元選擇形成模式的特征空間。那么,如何判別什么特征是最有效的呢?人類很容易獲取的特征,對于機器來說就很難獲取了,這就是模式識別中的特征選擇與提取的問題。特征選擇和提取是模式識別的一個關鍵問題。一般情況下,候選特征種類越多,得到的結果應該越好。但是,由此可能會引發維數災害,即特征維數過高,計算機難以求解。因此,數據處理階段的關鍵是濾波算法和特征提取方法的選取。不同的應用場合,采用的濾波算法和特征提取方法以及提取出來的特征也會不同。
(3) 分類決策或模型匹配
基于數據處理生成的模式特征空間,人們就可以進行模式識別的最后一部分:模式分類或模型匹配。該階段最后輸出的可能是對象所屬的類型,也可能是模型數據庫中與對象最相似的模式編號。模式分類或描述通常是基于已經得到分類或描述的模式集合而進行的。人們稱這個模式集合為訓練集,由此產生的學習策略稱為監督學習。學習也可以是非監督性學習,在此意義下產生的系統不需要提供模式類的先驗知識,而是基于模式的統計規律或模式的相似性學習判斷模式的類別。模式分類或模式匹配的方法有很多,主要是基于以下思想設計的:
成員表:即模板匹配。基于該思想,分類系統中會預先存儲屬于同一模式類的模式集,然后將輸入的未知模式與系統中已有的模式相比較,具有相同或相似匹配的模式類即為該未知模式的所屬類型。
一般特征:這里模式的一般特征被存儲在一個分類系統中,當有一個未知模式進入該系統時,系統會將其一般特征與系統中現有類的一般特征相比較,并將其歸入到與其有相似特征的類中。
聚類:文中筆者用實數向量來表示目標類的模式,這樣,利用其聚類特性,可以輕易地將未知模式進行分類。如果目標向量在幾何位置上相距很遠,就容易確定未知模式的類別。但是如果目標向量相距較近,或甚至有重疊,人們就需要采用比較復雜的算法來確定未知模式的類別。最小距離分類法就是一個基于聚類概念的簡單算法。該算法通過計算未知模式與希望的已知模式集之間的距離,來決定哪一個已知模式與該未知模式最近,并最終將該未知模式歸入到與其相距最短的已知模式類中。該算法對于目標向量在幾何位置上相距很遠的模式分類很有效。
神經元:上面的模式分類思想都是基于機器的直接計算,而直接計算則是基于數學相關的技術。仿生學是指將生物學知識應用到電子機器中。神經系統方法就是將生物知識應用于機器中來進行模式識別,從而引進了人工神經元網絡。
一個神經元網絡是一個信息處理系統,由大量簡單的數據處理單元組成,這些單元互相連接,協同工作,從而實現大規模并行分布處理。神經元網絡的設計和功能是模仿了生物的腦部和神經系統的功能而設計的。神經元網絡具有自適應學習、自組織和容錯力等優點。由于神經元網絡的這些突出特點,人們可以應用神經元網絡進行模式識別。一些最好的神經元網絡模型是后向傳播網絡、高階網絡、時延和周期性網絡。
通常,人們利用前向傳播網絡進行模式識別。前向傳播也就是沒有回到輸入端的反饋信息。與人類從錯誤中得到教訓相似,神經元網絡也能通過向輸入端反饋信息,從其錯誤中得到教訓。通過反饋可以重建輸入模式,避免產生錯誤,從而提高神經元網絡的性能。當然,構造這樣的神經元網非常復雜。這類神經元網絡要用到后向傳播算法(BP)。后向傳播算法的主要問題之一是局部極小問題。另外,神經元網絡在學習速度、結構選擇、特征表示、模塊性、縮放性等方面也都存在一些問題。雖然神經元網絡存在這樣那樣的問題和困難,但是其發展潛力還是巨大的。
基于上面的思想,形成了幾種常見的模式識別方法:模板匹配、統計(決策論)模式識別、句法(或結構)模式識別、模糊模式識別和神經元網絡模式識別。
4 模式識別方法
(1) 模板匹配
模板匹配是最早出現,也是最簡單的模式識別方法之一。匹配是模式識別的一種分類操作,主要是判斷同一類的兩個實體(如點、曲線、形狀等)之間的相似性。要進行模板匹配,首先需要存儲一些已知模板,然后考慮所有可能的變化,將待識別模板與已知模板相比較,從而得出二者之間的相似性度量。已知模板一般是通過訓練得到的。模板匹配方法在字符識別、人臉識別等領域有廣泛的應用,但是該方法計算量非常大,而且該方法的識別率嚴重依賴于已知模板。如果已知模板產生變形,會導致錯誤的識別,由此產生了可變形模板匹配方法。
(2) 統計模式識別
自上世紀60年代用統計決策理論求解模式識別問題以來,統計模式識別方法得到了迅速的發展,70年代前后出版了一系列反映統計模式識別理論和方法的專著[7][9][10][12][20]。到目前為止,統計模式識別的理論體系已經相當完善。統計模式識別,又稱決策理論識別方法,該方法根據模式的統計特征,用一個n維特征空間(特征集)來描述每個模式,然后基于概率論、數理統計以及矩陣理論和向量代數的知識,利用合適的判別函數(每個模式類的特征值分布函數),將這個n維特征空間劃分為m個區域,即類別。特征值分布函數可以通過指定或學習得到。比如,字符識別器確定一個模式的類別為“a”到“z”26類中的一個。同樣地,在進行簽名的有效性驗證時,人們將某一簽名確定為“真實”或“偽造”。統計模式識別技術對于解決分類問題非常有用。在統計模式識別中,貝葉斯決策規則[2]從理論上解決了最優分類器的設計問題,但其實施卻必須首先解決更困難的概率密度估計問題。
(3) 句法(結構)模式識別
1962年,R.Narasimahan提出了一種基于基元關系的句法模式識別方法,傅京孫在這個領域進行了卓有成效的工作,形成了句法模式識別的系統理論。句法(結構)模式識別主要是基于特征的結構相關性進行內部模式結構的描述。比如,圖像分析常常涉及到圖像的描述而不僅僅是分類。一個描述包括圖像基元的信息以及這些信息之間的關系。句法模式識別(結構模式識別的一種)利用句法、句法分析和自動推理機理論來描述和分析一個模式的結構,是相對較成熟的模式識別方法。一維字符串的語法分析可以在許多方面進行拓寬,從而應用于二維和三維模式的識別。錯誤信息和不確定信息的句法處理是目前的研究熱點。統計模式識別和句法模式識別是模式識別領域的兩大主流研究方向。
(4) 模糊模式識別
1965年L.A.Zadeh的《模糊集合論》(《Fuzzy Sets》)宣告了模糊數學的誕生,從那以來,有關模糊信息處理的理論和應用取得了重大進展,并由此產生了模糊模式識別方法。模糊模式識別是基于模糊數學的模式識別方法。現實世界中存在許多界限不分明、難以精確描述的事物或現象,而模糊數學則可以用數學的方法研究和處理這類具有“模糊性”的事物或現象。模糊數學的出現使得人們可以模擬人類神經系統的活動,描述模式屬于某類的程度,因此,模糊數學在模式識別中得到了很好的應用。模糊聚類分析是非監督模式識別的重要分支。1994年,Randas利用模糊聚類從原始數據中直接提取特征,并對提取出來的特征進行優選和降維操作,以免造成維數災害。馬少平在漢字的方向像素特征進行了模糊化描述,是特征變化比較平滑,提高了漢字特征描述的準確度。在模糊模式識別中,隸屬函數的選取是關鍵。
(5) 人工神經元網絡模式識別
上世紀50年代末,F.Rosenblatt[16]提出了一種簡化的模擬人腦進行識別的數學模型―感知機,初步實現了通過給定類別的各個樣本對識別系統進行訓練,使系統在學習完畢后具有對其他未知類別的模式進行正確分類的能力。80年代,J.Hopfield深刻揭示出人工神經元網絡所具有的聯想存儲和計算能力,為模式識別技術提出了一種新的途徑,短短幾年在很多方面就取得了顯著成果,從而形成了人工神經元網絡模式識別方法。神經元模式識別利用神經元網絡中出現的神經計算模式進行。大部分神經元網絡都有某種訓練規則,如基于現有模式調節連接權重。換句話說,神經元網絡直接對例子進行學習,得出其結構特征進行推廣,就像孩子從狗的例子中認識狗一樣。
人工神經元網絡可以超越傳統基于計算機的模式識別系統的能力。人們可以利用計算機或神經元網絡進行模式識別。計算機利用傳統的數學算法來檢測給定的模式是否跟現有模式相匹配。這是一個簡單易懂的方法。但是,該方法只能進行是或非的判斷,且不允許模式有噪聲。 另一方面,神經元網絡允許模式可以有噪聲,而且如果訓練得當,神經元網絡會對未知模式的類別做出正確的響應。雖然神經元網絡不能創造奇跡,但是如果采用合適的結構,對好的數據進行正確的訓練,不僅在模式識別領域,而且在其他科學或商業應用中,神經元網絡都可以給出令人驚異的結果。比如,BP神經網絡直接從觀測數據(訓練樣本)學習,非常簡便有效,因而獲得了廣泛應用,但它是一種啟發式技術,缺乏指定工程實踐的堅實理論基礎。
模糊模式識別和神經元網絡模式識別是新近發展起來的模式識別方法,是信息科學和人工智能的重要組成部分。在過去的幾十年里,人們對模糊數學、人工智能 和基于規則的專家系統的興趣高漲。在這些研究領域里,模式識別起著重要作用。
實際上,現在的專家系統和模式分析之間存在著許多交叉。而模式識別的核心,包括“學習技術”和“推理”在人工智能中也起著非常重要作用。模式識別中的視覺理解、情景分析、圖像理解對于機器人視覺也是絕對必要的。另一方面,人工智能中的方法,如知識表示、語義網絡和啟發式搜索算法,也能被用在許多模式識別問題中來改善模式描述和匹配,從而產生“聰明的”模式識別。此外,像語音或圖像這樣的感覺數據總被認為是人工智能領域的重要分支,同時它們也是模式識別的研究熱點。
表1對上面介紹的這幾種模式識別方法進行了簡單的歸納總結。實際上,上述模式識別方法并非完全獨立、互不相干的,這些方法互相滲透、互相補充。在許多新興的應用領域,沒有唯一最優的方法,必須同時使用幾種不同的模式識別方法。人們已經嘗試設計融合了許多識別方法的模式識別系統。
5 結語
隨著計算機軟硬件技術的快速發展,模式識別得到越來越多的關注,模式識別技術也越來越完善,并在越來越多的領域得到了成功應用,如數據挖掘、文獻分類、財政預測、多媒體數據庫的組織和檢索、生物(比如根據人的物理特征,如人臉、指紋等識別人)、醫學(醫學圖像分析)、地質、能源、氣象(天氣預報)、化工、冶金、航空(衛星航空圖片解釋)、工業產品檢測等領域。近年來發展最快的模式識別領域應屬于計算機視覺與聽覺領域,如手寫文字識別,生物特征識別(包括:指紋識別、虹膜識別、視網膜識別、掌紋識別、人臉識別、手掌靜脈分布識別等),印刷品版面分析識別,互聯網有害信息檢測,語音識別(語音輸入系統,語音應答系統)等。Picard[13]提出了模式識別的又一應用―情感計算,使得計算機可以像人類一樣識別和表達感情、對人類的情感做出睿智的響應,并可以利用情感機制進行決策。美國微軟公司主席比爾?蓋茨認為人類計算的未來就是要讓計算機會看、會聽、會說、會思考;美國總統信息技術顧問委員會PITAC(President