“一個小孩子還不會說話時,看到杯子就知道抓過來喝水。這說明他已學到很多視覺知識。”在日前舉辦的2021中國·寧波新一代人工智能學術峰會上,中國工程院院士、中國工程院原常務副院長潘云鶴解釋道。
以往的認知心理學研究認為,人類記憶的視覺知識要遠多于言語知識。為此,潘云鶴系統提出了“視覺知識”概念。
這些年,圖像識別技術的突破提高了計算機對人臉、文字、指紋、醫學圖片等識別的準確率,進而推動智能汽車、安全監控、機器人、無人機、智能制造等快速發展,形成人工智能(AI)對經濟社會發展的推動。
“但以往AI研究的一大弱點是對視覺知識研究不足,視覺知識研究與應用是AI邁向2.0的關鍵。”潘云鶴說。
在潘云鶴看來,視覺知識至少有五個基本問題,分別是視覺知識表達、視覺識別、視覺形象變化模擬、視覺知識學習和多重知識表達。其中,視覺知識表達和多重知識表達是關鍵所在。
對于第一個問題視覺知識表達,潘云鶴認為,認知心理學實驗表明,視覺知識具有不同于言語知識的特征,包括能表達對象的空間形狀、大小、色彩、紋理和空間關系,能表達對象的動作、速度及時間關系,能進行對象的時空變換、操作與推理等。
“計算機圖像學是表達幾何,而非表達視覺概念。”潘云鶴強調。他進一步解釋,視覺概念由典型和范疇構成,還有層次結構和動作結構;視覺命題表達視覺概念的空間關系和時間關系,前者表達為場景結構,后者表達為動態結構;最后形成由一組視覺命題構成的視覺述事。
對于第二個問題視覺識別,潘云鶴介紹,從AI早期開始,模式識別便作為一個重要研究領域,其中圖像和視頻識別是發展最快的方向。
使用基于數字圖像處理技術的圖像識別技術,是一種從局部特征綜合為整體的方法。近年來,深度學習提供了另一種方法,即用大量標識的圖像訓練出深度神經網絡模型(DNN)用以圖像識別,該方法已獲廣泛應用。他表示,DNN的優點是可以從標識的樣本數據中通過學習而自動獲得知識,也可以用于非符號數據的識別,如圖像與語音識別;但其缺點也同樣明顯,如不可解釋、不可推理,需要大量被標識的數據來訓練網絡等。
值得注意的是,人類進行視覺識別的方法,與DNN的方法不盡相同。它不僅分析視網膜傳入的短期記憶中的數據,而且動用了長期記憶中的視覺知識。正因為如此,人類的視覺識別往往只需少量的數據,且可以解釋、推理。
“因此,視覺識別不但要使用數據,而且要使用視覺知識,是視覺識別重要的研究方向。”潘云鶴說。
潘云鶴提出第三個問題是視覺形象變化模擬。形象變化是人類在設計創意和問題求解時重要的智能行為。而模擬形象變化,需要操作視覺形象的物理變化、生物變化、想象變化等。以想象變化為例,即在創意與設計新產品中的各種想象性操作,如阿凡達、獅子王、小飛象等。
實際上,視覺形象變化模擬在CAD、仿真模擬、計算機動畫、兒童教育和數字媒體創意等領域的應用十分廣泛。按照數字媒體的不同,可分為從字符生成視覺形象、從一種視覺形象變換為另一種形象、從視覺形象生成文本等。
潘云鶴判斷,計算機圖像學已儲備了很多基礎技術,但有待和AI打通。“做好了,有望形成新一代設計軟件的基礎。”
第四個問題是視覺知識學習。事實上,計算機視覺研究已注意到形體重構的重要性,并積累了很多成果,如3D掃描重構形體、多相機重構形體、基于video重構形體等。但視覺知識學習要將目標從形狀重構轉換為視覺知識概念和命題的重建,則需要對現有計算機視覺技術進一步研究。
“在此基礎上,有望發展出視覺知識的自動學習,當前的場景圖是此方向前進的一步。”潘云鶴表示,為此,當今AI、計算機圖像學和計算機視覺三個領域的研究者特別需要聯手,進一步研究視覺知識的自動學習。
最后一個問題是多重知識表達。研究發現,人腦中的知識是多重表達的。在潘云鶴看來,在AI 2.0中的知識也應有多重表達,如知識的言語表達、知識的深度神經學習網絡表達、知識的形象表達。
他強調,AI 2.0要使多種知識表達相通使用,就是多重知識表達,而它將形成跨媒體智能和大數據智能的技術基礎。
潘云鶴分析,從視覺知識的五大問題來看,視覺形象變化模擬、視覺識別、視覺知識學習的解決有較好的基礎,但視覺知識表達、多重知識表達尚需大力攻關。“這是一塊荒蕪而肥沃的‘北大荒’,也是一塊充滿希望且值得探索的‘無人區’。”
來源:《中國科學報》