12月13日,計算機視覺方向的三大頂級會議之一ICCV(國際計算機視覺大會)就要在智利圣地亞哥拉開帷幕了。
對業內人士來說,這是盛會。當然,非專業人士大概會問:這和我有什么關系?
其實,逐漸從學術界走向工業界的計算機視覺,已經在人們生活中存在很長時間了。
日前,科技日報采訪了計算機視覺底層技術領域專家戴宇榮教授。他此前在韓國科學技術院獲得終身教職,曾多次擔任ICCV領域主席。如今,戴宇榮離開學術界,加入專注計算機視覺的創業公司“商湯科技”。
難點:在一堆數字里找出一個人
戴宇榮教授一直在做的,就是教計算機學會怎么看。“計算機看到的,永遠只有0和1的數字。即使是圖像,在它們看來,照樣是0和1。”他向記者解釋,要理解研究者在計算機視覺上遇到的麻煩,就要先了解計算機處理訊息的方法。
想象一下,你現在面對一堆看似毫無規律可循的數字,然后你接到了任務——數字中間藏著一個人,來,把他找出來。這就是計算機要干的事情,它得在數字里找到規律,發現這個藏在數字當中的人,或者一只貓、一朵花。哦,對了,你還得先告訴計算機,長成這樣的是人,長成那樣的是貓,有著花瓣的這株植物叫“花”,也是夠費勁了。
在日常生活的真實場景中,這堆數字經常有缺陷:比如有待識別的物體被遮住了,光照條件不同了,拍攝角度變了……所有這些,都能改變數字的規律。
美圖秀秀、人臉識別,都是計算機視覺
那么,計算機的底層和高層視覺技術,又是什么呢?
底層視覺,可以幫計算機進行邊緣提取,進行區塊分隔,讓它看清圖像。其實,只要你曾用過Photoshop或者美圖秀秀,那么你已經感受過計算機底層視覺技術的魅力了——這些應用都采用了圖像增強和圖像處理技術。
而且,如果計算機遇到了不那么清晰的畫面,底層視覺技術就會對它進行預處理,豐富細節,提高清晰度;然后高層視覺技術就能對畫面進行更充分的特點提取,把圖像上的物體“認出來”。
至于高層視覺技術,目前最為人所知的應用,當屬人臉識別。
隨著人工智能、并行處理和神經元網絡等學科的發展,人臉識別也從實驗室走向了工業界。2015年,人臉識別的熱度一路高歌猛進:年初,馬云展示了一次“刷臉”支付技術;年末,人臉識別攪動娛樂圈,趙薇老公因司機騙過人臉識別“被賣房”……
不過,很多業內人士仍有疑問:計算機視覺在許多應用領域還是只充當輔助角色——有它挺好,沒它也無妨。而且,識別的穩定性仍有待提升。
戴宇榮覺得,這并不意味著計算機視覺應用的普及依然遙遠。“以計算機為例,上世紀八十年代之前,它笨重、巨大,使用復雜,處在一種不溫不火的狀態。然而,僅僅20年過去,計算機就成為家庭標配。”
到了大學教授去工業界發展的時候?
“深度學習技術將為計算機視覺帶來更大的突破。只要我們能夠找到合適的深度學習方法,計算機視覺在日常生活中的應用會更普及。”戴宇榮對自己傾心研究的技術很樂觀。
但是,如何找到這個方法?一些人的選擇是,離開高校,到公司去。“當研究成果到了比較成熟、可以在工業界產生應用的時候,便是大學教授到工業界發展的時候。”
戴宇榮覺得,現在到了這個時候。其實,許多計算機視覺領域的學界明星也已經“縱身一躍”,加入工業界:紐約大學的Yann LeCun去了Facebook 的人工智能研究院并擔任院長;NEC 資深科學家余凱進入百度的深度學習研究院……
“公司的產品可以獲得大量數據以便訓練更好的深度學習模型;它更大的計算機集群還可以加速深度學習模型的訓練。”戴宇榮強調,要將研究成果帶入工業界,需要多個部門通力合作,這不是簡單的申請專利或開放源代碼就能做到的。而且,公司的人才招聘著眼長遠,研究團隊彼此之間能夠長期合作。他認為,比起大學,一所科技類公司確實更能給科研人員提供資源和人才上的助力。
如今,計算機視覺技術已被廣泛應用到圖像搜索領域;它還可以在智能安防和智能家居上一展身手;再遠一些,計算機視覺將成為無人車和無人機的眼睛,助推無人貨運的普及……戴宇榮覺得,未來正在加速前來。
摘自 中國科技網