4月20日,第十四屆中國電子信息技術年會上,“百度大腦核心技術及開放平臺”榮獲2018年度中國電子學會科學技術獎科技進步獎一等獎。評議認為,百度大腦突破了聽覺、視覺和語言一體化的多模態語義理解技術難題,成果支持零門檻深度學習定制化訓練和千億特征的神經網絡訓練,打造了一個完整的人工智能(AI)技術開放體系,并通過統一人工智能開放平臺向社會共享,帶動了互聯網行業技術創新,推動了傳統行業的智能化轉型。
中國電子學會科學技術獎是國內電子信息技術發展的風向標。作為新一輪科技革命和產業變革的重要驅動力量,人工智能正在給國家社會經濟發展、社會生產關系變革和普通大眾的日常生活帶來深遠影響。今年兩會《政府工作報告》中首提“智能+”戰略,各行各業也都掀起了運用人工智能技術推動創新發展的熱潮。作為國內最早布局人工智能的企業之一,百度不斷進行AI技術的研究探索和應用落地實踐,并通過開放賦能,為推動AI技術應用和創新積極貢獻力量。
百度大腦是百度AI技術多年積累的集大成,包含語音、視覺、自然語言處理、知識圖譜、深度學習等AI核心技術和AI開放平臺。從2016年百度世界大會上宣布百度大腦完成基礎能力搭建和核心技術初步開放,到2018年7月百度AI開發者大會發布百度大腦3.0,百度大腦已經構建起AI全棧技術布局,發展進入“多模態深度語義理解”階段。在應用層面,百度大腦在全面支持百度業務的同時,全方位對外開放,通過賦能開發者和合作伙伴,發展AI技術生態,加速 AI 技術落地應用并與實體經濟相融合,助力各行各業轉型升級。
百度從誕生之日就和AI息息相關,多年來持續大力投入AI技術研發,推動百度大腦不斷取得突破。截至目前,百度大腦已獲相關技術發明專利授權200余項,在國際期刊和學術會議上發表相關論文100多篇,多次在WebVision、ActivityNet、NIPS、SemEval等國際知名人工智能競賽或測試中奪得桂冠。百度連續三年上榜全球知名科技媒體《麻省理工科技評論》“全球十大突破性技術”榜單。國際期刊《自然》評價稱“百度已成長為以AI技術為重心的科技巨頭”。
百度大腦扎實領先的技術實力,也在通過開放賦能深入與實體經濟融合,服務各行各業和億萬用戶。百度大腦已對外開放了160多項領先的AI能力,廣泛應用于互聯網、交通、工業、醫療、零售、金融等諸多領域。比如,在醫療領域,基于百度大腦能力打造的百度靈醫,布局診療全流程,幫助提升診療效率,從而惠及更多患者;在農業領域,智能搖桿拍攝光譜可以借助圖像識別技術精準估算不同田地的農藥使用量,有針對性地施藥殺蟲,減少了用藥浪費的情況,也更符合環保需求;工業應用方面,基于百度深度學習平臺PaddlePaddle打造的智能零件分揀機,分揀精度可達到90%,預測速度較同類產品快20%。同時,百度大腦與政府合作,如與雄安新區管委打造智能城市、與天津市政府打造“天津智港”等,提升公共服務和城市管理能力,讓AI惠及大眾。
會上,百度高級副總裁、AI技術平臺體系(AIG)和基礎技術體系(TG)總負責人王海峰發表以《語言與智能》為題的主旨演講,結合語言與知識相關技術的發展變化,以及百度在相關技術領域創新和應用發展的經驗,闡釋語言與智能的關系及技術趨勢。
如何理解和運用自然語言,是人工智能需要解決的核心問題之一。當下,大數據、知識圖譜、機器學習、深度學習等技術快速發展,并與自然語言處理密切結合,推動語言智能持續發展和突破,并越來越多地應用于各個行業。
他提到,近年來深度學習的崛起及其與大數據的結合,使人工智能得到飛躍式的發展。在自然語言處理領域,深度學習模型具有比傳統機器學習模型更強的數據學習能力,使得基于深度學習的依存句法分析等自然語言處理系統準確率得到大幅提升。目前,深度學習領域主要有強化學習、監督學習、無/自監督學習三種學習范式,而無/自監督學習可以類比人類學習,是一種重要的學習方式。
自監督學習讓基于大規模無標記語料的語言模型得到了長足的發展。近期, 谷歌、百度分別提出了無監督文本的預訓練語言模型BERT、ERNIE,將自然語言處理任務的性能提升到新高度。百度提出的基于知識增強的ERNIE 模型,通過建模海量數據中的實體概念等先驗語義知識,學習真實世界的語義關系。相較于谷歌 BERT基于字單元的語義建模,ERNIE直接對先驗語義知識單元進行建模,并通過海量文本數據學習實體間的語義關系。這種融合知識的語義建模大幅增強了模型語義表示能力,在包括語言推斷、語義相似度、命名實體識別、情感分析、問答匹配等自然語言處理各類任務上的多個公開中文數據集上,ERNIE均取得了優于BERT的效果。
依托深度學習技術的發展,語音、圖像等感知技術取得了巨大進步,但認知技術的突破會越來越依賴知識,需要提升對知識和大規模知識圖譜的運用。在物理世界、人類社會和網絡空間中,匯聚了大量的多元、異構、多模態的數據,百度借助無標簽大數據開放域知識挖掘、知識體系自動擴展、知識整合等技術,基于海量數據構建起了超大規模知識圖譜。目前,百度擁有世界上最大的多元異構知識圖譜,除了包含數億實體、千億級事實,能夠滿足90%用戶需求的實體圖譜,針對不同的應用場景和知識形態,百度還建立起關注點圖譜、行業知識圖譜、POI圖譜、事件圖譜等多種知識圖譜。比如在醫療領域,能夠從病歷等原始文本中,抽取出實體及多元關系,并進行文本結構化,最終構建起醫療圖譜,同時結合醫療大數據、醫療認知計算,應用于醫療臨床輔助決策服務中。
多模態知識與語言、視覺等技術結合,發展進入“多模態深度語義理解”階段。例如,基于知識圖譜的視頻理解技術,能夠從視頻中抽取結構化語義知識,真正“看懂”視頻。
語言理解技術持續發展,并通過與知識圖譜、深度學習等技術融合,正不斷提高各種應用的智能化程度。王海峰在演講中介紹,百度創新地融合知識圖譜、自然語言處理及深度學習技術,研發了能夠深刻理解用戶意圖、精準滿足搜索需求、提供更豐富知識內容的智能搜索引擎,并結合語音、圖像、增強現實等感知技術能力,更便捷地與用戶交互,為用戶提供更精準高效的信息服務。
例如,用戶用自然語言搜索“林徽因的丈夫的父親是誰”,智能搜索引擎能夠理解用戶的意圖,并結合知識圖譜以圖文并茂的形式把答案“梁啟超”精準呈現給用戶。又如,用戶搜索“上面草字頭下面句子的句是什么字”,智能搜索引擎能夠為用戶提供“茍”的讀音、筆畫、釋義等豐富的信息。
除了智能搜索方面的應用,百度還基于語言理解和生成技術提供智能寫作等能力。智能寫作適用于財經、體育、天氣、熱點與娛樂事件等多領域的輔助與自動寫作,大幅提升創作效率。比如,基于結構化的股票數據,可以生成關于股市的快訊新聞。結合視覺技術的智能春聯,可通過刷臉檢測出人物性別、年齡、微笑程度、性格特征等,生成特征詞,然后基于神經網絡生成技術創作出應景的春聯,讓人工智能技術融入大眾的文化娛樂生活。
智能客服是結合自然語言處理、知識圖譜和語音等技術打造的行業解決方案。在智能客服場景中,基于語音語義一體化技術,百度大腦可以準確識別出用戶的話語,理解用戶意圖,進而通過行業知識圖譜的賦能理解業務流程,為用戶提供相應的服務。整個服務過程流暢自然,實現了與用戶無障礙溝通,提升業務效率并滿足用戶需求。
百度領先的語言與知識技術,不僅廣泛應用于智能搜索、深度問答、對話系統、智能寫作、機器翻譯等領域,為廣大用戶提供更智能的體驗,滿足用戶對信息和服務的需求,還通過百度大腦平臺全面開放,促進行業應用和創新。
當然,自然語言理解技術也面臨著數據稀疏、知識未被有效利用、結合場景的語用研究等挑戰。但王海峰表示:“隨著技術發展,我們會越來越深入地理解自然語言、掌握知識,推動人工智能發揮更大的價值,為人類社會發展提供更大的助力。”
在演講結束后,王海峰還參與了“技術引領+產業引領”高峰對話,與中國工程院院士樊邦奎、中國電子科技集團公司首席科學家陸軍、中科大信息科學技術學院執行院長吳楓教授、阿里巴巴技術委員會主席王堅等在內的學界、產業界人士,就人工智能技術如何推動和引領科技與產業發展進行了探討。他表示,未來,百度還將持續發力,推動AI技術創新,為國家創新驅動發展戰略和各行各業的智能化升級持續貢獻力量。
摘自《中國科學報》