走進深圳市北科瑞聲科技股份有限公司(以下簡稱“北科瑞聲”)的人工智能展廳,一件件智能語音產品引人注目。
“智能語音音頻技術應用十分廣泛,可以賦能許多場景。”北科瑞聲董事長劉軼說,公司通過與高速交通、智慧醫療、數字政務等行業深度融合,創新研發了一系列智能產品,并與多個國產主流平臺完成兼容性互認證,實現智能語音系統全鏈自主可控運行,持續推動智能語音技術應用研發及產業化。2022年,北科瑞聲營業收入突破億元,同比增速超過56%。
專注技術研發
2003年,劉軼從香港科技大學博士畢業留校任教,從事嵌入式智能語音識別技術研究。“自己研發的東西能夠實現應用,產生經濟效益、服務社會,這是每一個工科人的夢想。”帶著這樣的夢想,2008年,他與兩位合伙人來到深圳,創立北科瑞聲。
實現夢想的路上,需要不斷探索和創新。嵌入式智能語音識別技術通過將聲音轉換成文本和命令,能夠實現語音輸入、語音控制,可應用于多種應用系統、移動設備,大大改善人機交互方式。但是,要把這個技術落地實現產品化,并不是件容易的事。
“那時,人們對語音識別還沒什么概念,相關技術也不夠成熟,鮮有成功的商業化案例。風口沒到的時候,我們需要沉下心來,做好基礎性工作,錘煉好自己的本領。”劉軼說。
瞄準語音音頻交互核心技術,北科瑞聲組織研發團隊開展持續攻關,不斷突破技術瓶頸。“在人工智能和機器學習技術領域,有一大一小兩個難題。大難題是指超大規模預訓練模型,小難題是指芯片級神經網絡模型。”北科瑞聲總經理王昕介紹,針對兩個難題,公司研發了音頻信息感知、語音識別、人機交互系統等全鏈多模態人工智能技術,并將這些技術封裝在自研芯片上,打造存算一體芯片級小型神經網絡模型語音芯片,推出“云+端+芯”全鏈條、自主可控智能語音產品,實現從人工智能語音技術創新到產業應用的生態閉環。
“云+端+芯”即云、設備終端和芯片,三者鏈條打通之后,能夠實現對數據的存儲、處理、整理、分析和傳輸。“攻克這個技術并非易事,我們面臨許多挑戰。”王昕說,語音交互具有時變性。在溝通過程中,設備每一分鐘都要通過提取語音特征、參數,與后臺的模型進行大量比對計算,快速反饋語音內容。這不僅需要一個速度非常快的計算單元,還需要中央處理器的算力足夠快、存儲器容量足夠大。與此同時,還要實現低功耗,降低應用成本。
為了破解這一系列難題,北科瑞聲不斷提升數據、算法和算力能力,積累了超10萬小時語音音頻數據、TB級語言數據及語音音頻行業標桿級數據資源;研發出行業領先的中文復雜場景語音音頻交互技術,普通話語音識別準確度達99%,限定領域的意圖識別準確度達到95%。
語音交互技術好不好,不僅要看測試的識別準確率,還要看其在實際場景下的語義理解能力。“即便如今普通話普及程度越來越高,但由于每個人的經歷或生活環境不同,產生了很多‘不標準’的普通話發音。這個‘不標準’千變萬化,識別起來十分困難。而基于中文復雜場景的語音音頻交互技術,可以做到在無需事先指定口音類型的情況下,處理國內50多個地方的帶口音普通話。”劉軼說。
面對互聯網時代層出不窮且逐漸融入人們生活的網絡新詞,中文復雜場景語音音頻交互技術還能通過自進化能力,在30秒內對這些新詞進行全面學習、掌握,以快速跟上互聯網信息迭代速度。而原先的傳統技術若想識別新詞,一般需要數天甚至數周的技術訓練。
經過持續研發創新,北科瑞聲攻克了多項人工智能核心技術,實現了端云架構以及端到端一體化產品應用。目前,北科瑞聲擁有知識產權200多件,其中發明專利100多件,參與了智能語音識別和交互國家標準制定,獲得我國智能科學技術最高獎“吳文俊人工智能科學技術獎”、中國專利優秀獎以及多項廣東省科學技術獎等獎項,發展成為人工智能音頻領軍企業。
拓展應用場景
創新不能閉門造車,還需要根據市場需求將科研成果落地轉化。“通用產品僅僅將語音轉化為文字,無法滿足醫療、交通、政務等細分領域的需求。比如一些專業術語,如果我們的智能語音系統沒有與行業進行深度融合或者定制化處理,就達不到好的效果。”劉軼告訴記者,人工智能要想真正為市場所用,一定要與具體的行業應用結合起來,做深、做精,為行業發展賦能。
在探尋技術落地及差異化競爭路徑的過程中,北科瑞聲將目光首先聚焦于車載應用領域。
“支持語音交互是車載導航智能發展的必然趨勢,出于對安全駕駛的考慮,人們不能一邊開車一邊操作導航。我們嘗試將智能語音識別技術嵌入汽車車機,通過車機總線進行總控,可執行高達幾萬條的語音命令。”北科瑞聲總裁辦公室副總監王詩雨說,“車主只需說出路線需求,車機就能規劃合適的路線,實現無手化操作。”
車載應用成功落地讓北科瑞聲在智能語音應用領域摸索出一些經驗,隨后開始在數字政務、智慧醫療和高速交通等領域發力。
在數字政務智能語音解決方案中,北科瑞聲基于其智能語音核心能力開發出一套主要用于政企會議場景的智能語音會議系統。“會議記錄是政企日常工作中的重要部分,但傳統記錄方式效率較低。”劉軼說,智能語音會議系統提供基于私有云的語音轉文字、實時轉寫上屏顯示、離線語音轉寫、紀要成稿、會議記錄留存查詢等功能,避免了傳統人工整理記錄會議內容存在的時間長、易遺漏、準確率低等問題,從而提升會議交互體驗與辦公效率。目前,北科瑞聲智能語音會議系統已在深圳許多政企單位實現應用。
“數據不只是一種資源,更是一種能力,是企業的核心競爭力。”劉軼說,在高速交通領域,北科瑞聲通過運用云計算、大數據分析能力,提升人工智能認知能力,實現大交通領域用戶數據安全可靠。
ETC卡剛剛推行時,由于需求量不高,高速客服中心的線上客服配置并不多。隨著ETC熱潮的到來,2019年,粵通卡車主大幅上漲,給客服工作帶來了巨大壓力。基于數據、算法、算力三大要素技術積累,北科瑞聲結合高速交通業務場景及高速視頻云系統,打造出覆蓋互聯網渠道、電話通道及高速場景線下服務窗口的人工智能高速交通綜合信息服務平臺——全終端高速交通平臺。
這一平臺以智能外呼機器人替代人工客服,通過與粵高速客服中心電話線路集成,實現從流程設置、外呼呼叫到數據處理與匯總的全流程自動化處理。智能外呼機器人集成語音識別、自然語言理解、信息檢索、語音合成等智能技術,聽得懂、能理解、會說話,人機交互流暢自然,機器人單條電話線單日可完成外呼電話上千次,外呼數據同步轉寫生成保存。
“與傳統人工外呼相比,智能外呼機器人具備自動撥打、多輪對話、自動生產外呼數據等優勢,還可不間斷工作,有效提升了工作智能化、數字化水平。”王昕說,深圳具有良好的創新土壤,為企業積累場景應用經驗、促進技術迭代提供了舞臺。立足這個資源優勢,北科瑞聲在不斷拓展應用場景的同時,將繼續破解技術瓶頸,持續迭代產品,用人工智能技術賦能更多行業發展。
來源:《經濟日報》