5月6日,在華為昇騰AI開發(fā)者峰會上,中國科學院自動化研究所“紫東太初”大模型研究中心常務副主任、武漢人工智能研究院院長王金橋研究員介紹,基于華為全棧國產化軟硬件平臺昇騰AI,中國科學院自動化研究所和武漢人工智能研究院正在聯(lián)合打造“紫東太初”2.0全模態(tài)大模型,可實現(xiàn)文本、圖片、語音、視頻、3D點云、傳感信號等不同模態(tài)的統(tǒng)一表征和學習,助推通用人工智能時代加速到來。
超前布局,堅持以多模態(tài)技術探索通用人工智能
從嬰幼兒開始,人類的認知學習就建立在對現(xiàn)實世界圖像、聲音和文字等多種模態(tài)信息基礎之上。突破模態(tài)限制,實現(xiàn)圖、文、音等更多模態(tài)的通用大模型是人工智能融入現(xiàn)實世界的必然。
2019年開始,中科院自動化所在語音、文本、圖像等單模態(tài)大模型研究和應用基礎上,瞄準多模態(tài)大模型領域開始聯(lián)合攻關,并于2021年7月正式發(fā)布了全球首個千億參數(shù)多模態(tài)大模型“紫東太初”,以多模態(tài)技術探索通用人工智能發(fā)展道路。
區(qū)別于當前以文本為主的大部分語言大模型,“紫東太初”大模型在研發(fā)之初即堅持以多模態(tài)技術為核心,利用圖-音-文等更多類型數(shù)據(jù)進行跨模態(tài)的統(tǒng)一表征和學習,實現(xiàn)了圖像、文本、語音三模態(tài)數(shù)據(jù)間的“統(tǒng)一表示”與“相互生成”,使人工智能大模型的理解和生成能力更加接近人類,為貫通多模態(tài)人工智能行業(yè)應用提供了創(chuàng)新基礎,向通用人工智能邁出關鍵一步。
從感知到認知,面向數(shù)字物聯(lián)世界再上新臺階
世界已經進入了數(shù)字物聯(lián)時代。在“紫東太初”1.0應用推廣過程中,除了需要處理海量語音、圖像和文本等互聯(lián)網信息外,更需要處理多種傳感器、3D點云及視頻等物聯(lián)網海量數(shù)據(jù),才能滿足現(xiàn)實生產力的提高。針對數(shù)字物聯(lián)時代的新需求與新趨勢,中科院自動化所研究探索全模態(tài)大模型體系架構和基礎算法,持續(xù)推動“紫東太初”技術和應用發(fā)展。
在文本、圖片、音頻、視頻的基礎上,“紫東太初” 2.0可融入3D、視頻、傳感信號等更多模態(tài)數(shù)據(jù),并優(yōu)化語音、視頻和文本的融合認知以及常識計算等功能,進一步突破感知、認知和決策的交互屏障,讓人工智能從感知世界進化為認知世界,延伸出更加強大的通用能力。
打造全棧國產化通用人工智能底座
全棧國產化通用人工智能平臺的實踐對我國實現(xiàn)AI領域科技自立自強、占領科技創(chuàng)新高地具有重要的戰(zhàn)略意義。“紫東太初”大模型從立項開始,就以中科院自動化所自研算法為核心,以全棧國產化基礎軟硬件昇騰AI平臺為基礎,依托武漢人工智能計算中心算力支持,真正意義上實現(xiàn)了國產人工智能大模型的可控、可信、可用,有力地促進了國產全棧式基礎軟硬件的發(fā)展。
目前,由中科院自動化所牽頭打造的多模態(tài)人工智能產業(yè)聯(lián)合體已陸續(xù)吸納產學研各界近70家成員單位。圍繞多模態(tài)大模型技術及應用,“紫東太初”大模型已在手語教學、法律咨詢、交通出行、醫(yī)療機器人、醫(yī)學影像判讀等數(shù)十個行業(yè)場景領域已展現(xiàn)出廣闊的落地潛力。在華為昇騰AI開發(fā)者峰會,“紫東太初”大模型開源了基于昇騰昇思的3.8B圖像-文本-語音多模態(tài)模型并開放紫東太初大模型服務平臺。
從互聯(lián)網的圖音文多模態(tài)走向物聯(lián)網的全模態(tài),以打造國產化通用人工智能底座為目標,中科院自動化所將持續(xù)推進“紫東太初”大模型基礎理論、關鍵技術和應用生態(tài)的全鏈條自主創(chuàng)新,著力以自主可控基礎軟硬件建立開源開放的多模態(tài)產業(yè)生態(tài),不懈探索通用人工智能創(chuàng)新路徑。
來源:中國科學院自動化研究所