近日,由共青團北京市委員會、首都文明辦、市委網信辦等相關單位開展的“北京青年榜樣·時代楷模”評選結果揭曉,30位來自各行各業的青年榜樣獲此殊榮。在人工智能(AI)技術領域也有一位獲獎者——獲得“科創達人”稱號的百度深度學習技術平臺部總監馬艷軍。他所負責的PaddlePaddle是我國首個也是唯一一個功能完備的自研深度學習開源框架。
在國外已有成熟開源學習框架(如TensorFlow、Caffe等)的情況下,再做國產深度學習框架并開源開放給開發者,是一件吃力但不一定討好的事情。為什么還要專門做國產的深度學習框架?如何讓開發者喜歡上它?《中國科學報》日前對馬艷軍進行了獨家專訪,后者對于記者提出的上述問題進行了詳細解讀。
PaddlePaddle緣起:原是一套內部系統和工具
“其實百度做這個深度學習框架比較自然,原因就在于,百度很早就在研發和使用了深度學習技術。”馬艷軍舉例說,百度早在2012年就開始在語音、OCR場景使用深度學習相關技術,2013年又在搜索、推薦等產品上進行了應用。
經過幾年的積累,這套系統和工具,逐漸形成了深度學習框架的雛形。“我們這兒做一下,那兒完善一點,最終就把它抽象成為一套深度學習框架的系統了。”馬艷軍說,這套系統在2013年前后基本成型,并最終在2016年9月正式宣布開源開放給開發者。
選擇開源開放,馬艷軍對《中國科學報》說,緣于百度看到了深度學習技術給百度產品帶來的價值,看到了這項技術給各行各業帶來的巨大潛力。
在這一波人工智能浪潮中,深度學習和深度學習框架是基礎性的核心技術。其中,深度學習框架作為介于底層硬件和上層應用之間的基礎軟件能力(其意義相當于操作系統和編譯系統,編者注),不僅關乎相關產品和服務的開發,還直接影響到AI芯片指令集的設計。
也正基于此,百度開放了這一核心的基礎能力。馬艷軍對記者說,這也源于百度在AI大勢下開放共贏的理念:開放PaddlePaddle 深度學習框架,“Everyone Can AI”。
事實也正是如此。PaddlePaddle深度學習框架開放后,涌入大批開發者打開AI所帶來的各類想象。北京工業大學4位自動化專業的大學生基于該框架,開發了供桃農分揀桃子的“桃子選美機”,機器分桃準確率目前已超過90%,每年可幫助桃農節省一大筆雇工費;北京林業大學基于PaddlePaddle研發了面向信息素誘捕器的智能蟲情監測系統,該系統大幅降低了蟲情監測的人力成本,原本須一周的觀察時間一下子縮至30分鐘……馬艷軍說,諸如此類的例子不勝枚舉。
開放的底氣:PaddlePaddle的“幾招鮮”
馬艷軍告訴《中國科學報》,開源開放PaddlePaddle平臺的原因還在于,百度對在人工智能技術領域的積累“還是有底氣的”。“在百度內部,2013年左右就把深度學習技術用在許多核心產品上了,2015年百度翻譯進行升級,就上線了行業首個基于神經網絡的在線翻譯引擎。”
此外,馬艷軍舉例說,百度在大規模稀疏場景的推薦引擎、自然語言處理、計算機視覺、自動駕駛等方面的技術長期積累在業界有目共睹,這些技術能力也都沉淀到了PaddlePaddle,形成了在大規模深度學習并行技術、領先的算法模型庫、高速推理引擎幾個方面的技術優勢。
“有這幾招鮮,開發者就奔著來了。”馬艷軍說,比如百度在自然語言理解方面會發布一些預訓練模型,開發者或企業能夠在很高的起點繼續開發,從而取得更好的效果。迄今為止,百度已經先后開放多個領先的預訓練中文模型,并將多個在國際大賽中取得冠軍的算法模型公之于眾,這吸引了許多包括一些國外開發團隊在內的開發者使用PaddlePaddle框架。
馬艷軍告訴記者,如今國外開發團隊處理中文任務、研究中國市場的越來越多,加之百度在深度學習技術領域的“幾把刷子”被認可,因此一些國外企業或開發者團隊使用PaddlePaddle框架并不稀奇。他還看到過美國一家超市使用百度推出的Easy DL(Easy DL是基于PaddlePaddle 的零算法基礎定制化訓練和服務平臺,編者注)開發一款應用,來檢測購物車是否有夾帶未付款商品。
“我們的產品降低門檻以后,其實也不那么分國界。這個門檻降下去了,用的人自然就多了。”馬艷軍說。
應對深度學習人才荒:覆蓋10萬初學者
其實對于馬艷軍及其團隊而言,開源開放PaddlePaddle意味著很大的挑戰,開源開放把PaddlePaddle從內部工具變成了服務整個行業的開發套件。當它面對開發者時,開發者是否愿意用、喜歡用,還要不斷“大練內功”。
“我們的目標是真正把它做得讓開發者容易用,并且具備我們的技術特色,讓開發者喜歡用。”馬艷軍說,在PaddlePaddle剛開源的時候,的確在使用便利性上(如社區不夠完善、資料積累不夠豐富等)存在一些問題,但隨著PaddlePaddle官網的上線、文檔和社區資料的豐富和開發套件版本的不斷迭代(目前已升級為PaddlePaddle3.0),問題已經得到了“比較徹底的解決”。
不過,在馬艷軍看來,深度學習人才荒的問題才是真正的挑戰。據領英大數據顯示,全球AI人才整體供給在340萬人左右,其中深度學習人才僅9.5萬人,且流動性較大,進一步加大了缺口。
“真正懂深度學習、能夠把深度學習的基礎理論掌握得比較深入的人才、能夠看得懂深度學習框架底層設計進而做一些底層設計和開發的人才在國內還非常稀缺。所以培養和吸引人才來作深度學習開發、使用深度學習框架,一直是我們一個重點任務。”馬艷軍說。
基于PaddlePaddle平臺,百度也在做一些努力。馬艷軍說,目前,百度已經與國內逾百所高校合作,為其相應的課程提供基于PaddlePaddle的編程環境。“這些學校不必擔心沒有機器、沒有GPU,我們會提供一套AI Studio集成環境,讓學生直接在這個環境中學習深度學習的整套內容。”馬艷軍透露:“通過這種方式我們可以覆蓋至少10萬名學生。”
同時,馬艷軍告訴《中國科學報》,百度正在通過類似“黃埔計劃”(百度推出的“深度學習架構師培養計劃”)的方式,面對面讓大家去了解深度學習框架如何在企業中發揮作用。“該活動報名也是非常火爆,不少企業對這個培訓很感興趣,愿意來學習和應用。”馬艷軍說。
摘自《中國科學報》