讓機(jī)器像人一樣思考,是很多人工智能(AI)從業(yè)者的美好愿景,也是不少投資人看好的賽道。
今年9月,由清華大學(xué)知識(shí)工程實(shí)驗(yàn)室(KEG)孵化的人工智能企業(yè)智譜AI宣布獲得數(shù)億元人民幣B輪融資。本次融資由君聯(lián)資本和啟明創(chuàng)投聯(lián)合領(lǐng)投,將被用來繼續(xù)投入打造高性能千億級(jí)普惠大模型。
啟明創(chuàng)投合伙人周志峰表示:“下一個(gè)十年,人工智能將走向認(rèn)知智能。預(yù)訓(xùn)練大模型是其核心技術(shù)推動(dòng)力和關(guān)鍵基礎(chǔ)設(shè)施,讓AI吸收更多的知識(shí)去理解和思考,最終實(shí)現(xiàn)接近人類水平的認(rèn)知。同時(shí),預(yù)訓(xùn)練大模型使得AI從依賴手工調(diào)參建模走向可大規(guī)模復(fù)制的工業(yè)化階段?!?/p>
最近,人工智能公司OpenAI發(fā)布的AI聊天機(jī)器人ChatGPT成功“破圈”,它可以按照要求寫詩、寫新聞稿甚至生成代碼,使得大模型的創(chuàng)新熱潮備受關(guān)注。這一賽道上的智譜AI也再次走進(jìn)了“聚光燈”下。
打造國產(chǎn)開源大模型
2020年6月,人工智能公司OpenAI發(fā)布了GPT-3語言模型,其千億參數(shù)的規(guī)模和強(qiáng)大的語言處理能力攪動(dòng)了AI領(lǐng)域的“一池春水”。今年年初,OpenAI將GPT-3微調(diào)為InstructGPT ,減少了不真實(shí)、有偏差的輸入。如今,OpenAI又將其進(jìn)一步升級(jí)為ChatGPT,并在線上測試中展現(xiàn)出驚人的語言能力。
遺憾的是,GPT-3 的模型參數(shù)不開源,僅以付費(fèi)API(應(yīng)用程序編程接口)的形式提供給海外用戶(中國地區(qū)不可用),這給研究者對(duì)模型的深入探索設(shè)立了壁壘。
當(dāng)前,雖然互聯(lián)網(wǎng)公司Meta開源了大模型OPT,AI創(chuàng)業(yè)公司Hugging Face開源了BLOOM,但用戶至少需要一臺(tái) A100(80G×8)服務(wù)器才能啟動(dòng)推理,大部分普通研究者仍然被擋在門檻之外。
與此相對(duì)的是,今年8月,由KEG與智譜AI共同研發(fā)的大規(guī)模中英文預(yù)訓(xùn)練語言模型GLM-130B正式發(fā)布,該模型以開源開放的形式供研究機(jī)構(gòu)或個(gè)人免費(fèi)下載使用。團(tuán)隊(duì)在模型量化方面做了大量嘗試,用戶可以在一臺(tái) A100(40G×8)或V100(32G×8)服務(wù)器上進(jìn)行推理。
不久前,美國斯坦福大學(xué)基礎(chǔ)模型研究中心負(fù)責(zé)人Percy Liang等開展了一項(xiàng)研究,對(duì)國際上眾多大模型進(jìn)行對(duì)比,其中GLM-130B模型在魯棒性和正確率方面均取得了較好的表現(xiàn),且該評(píng)測僅使用英文任務(wù),GLM-130B可同時(shí)支持中英雙語。
從2021年12月起,清華大學(xué)KEG、PACMAN(并行與分布式計(jì)算機(jī)系統(tǒng))、NLP(自然語言處理)等實(shí)驗(yàn)室開始了關(guān)于訓(xùn)練千億參數(shù)的稠密模型的討論。隨著工作的推進(jìn),研究團(tuán)隊(duì)一直沒有找到充足、穩(wěn)定的計(jì)算資源用于模型訓(xùn)練。
今年4月,在了解到清華大學(xué)KEG的千億參數(shù)GLM模型訓(xùn)練缺少計(jì)算資源的情況后,智譜AI決定為這一項(xiàng)目免費(fèi)提供模型訓(xùn)練所需的算力支持。
經(jīng)過多方的協(xié)調(diào)與努力,智譜AI最終租用了近百臺(tái)A100服務(wù)器,為KEG提供了模型訓(xùn)練所需的算力,并致力于將這一研究開源、開放,讓研究界和產(chǎn)業(yè)界都能以超低成本理解大模型和使用大模型。
“如此規(guī)模的算力、以月為單位的租用,其成本對(duì)于創(chuàng)業(yè)公司來說不是筆小數(shù)目,但公司還是毅然決定為項(xiàng)目提供支持?!敝亲VAI總裁王紹蘭表示,“我們希望通過這樣的方式,讓更多人直接用上大模型,帶動(dòng)更多人了解和認(rèn)可大模型。最終,讓大模型技術(shù)像云計(jì)算、大數(shù)據(jù)一樣成為信息化、智能化系統(tǒng)的基礎(chǔ)設(shè)施,為各行各業(yè)賦能?!?/p>
大模型賦能的數(shù)字人
連日來,第二十二屆世界杯足球賽正在卡塔爾進(jìn)行,在相關(guān)視頻App的世界杯轉(zhuǎn)播報(bào)道中,總會(huì)有一個(gè)熟悉的身影出現(xiàn)在視頻節(jié)目左下角。
她是智譜AI研發(fā)的AI手語數(shù)字人華同學(xué),可以為觀眾提供專業(yè)、準(zhǔn)確的手語體育賽事解說,向聽障人群傳遞足球場上的“聲音”。
早在北京冬奧會(huì)和冬殘奧會(huì)期間,華同學(xué)就曾服務(wù)于《北京您早》節(jié)目,對(duì)“冬奧賽事集錦”和“一起看冬奧”進(jìn)行手語播報(bào)。
“用數(shù)字人完成手語播報(bào),不僅降低了冬奧運(yùn)營成本,還彰顯了冬奧的科技創(chuàng)新力。”王紹蘭介紹,智譜AI研發(fā)的智慧手語系列產(chǎn)品,涵蓋手語播報(bào)、手語翻譯以及手語詞典三種應(yīng)用,滿足手語信息播報(bào)、實(shí)時(shí)翻譯交流、手語學(xué)習(xí)等多個(gè)場景的需求。
“大規(guī)模預(yù)訓(xùn)練模型賦能的數(shù)字人,體現(xiàn)了智譜AI的社會(huì)公益情懷,讓科技更有溫度。”王紹蘭表示,“以千億級(jí)預(yù)訓(xùn)練大模型為核心,我們的數(shù)字人已經(jīng)在AI虛擬面試官、虛擬主持人、智能客服、陪聊機(jī)器人等場景得到應(yīng)用。接下來,我們還將繼續(xù)拓展數(shù)字人的應(yīng)用場景,建立數(shù)字人生態(tài)合作,加快實(shí)現(xiàn)‘?dāng)?shù)智人’。”
《中國科學(xué)報(bào)》獲悉,智譜AI基于開源的千億雙語預(yù)訓(xùn)練模型GLM,推出了聊天機(jī)器人XDAI和chatGLM,讓機(jī)器模擬人類的思考模式,實(shí)現(xiàn)知識(shí)具象化的對(duì)話系統(tǒng)。
與此同時(shí),在大模型的技術(shù)基礎(chǔ)之上,智譜AI還提出了Model as a Service(MaaS)的市場理念,即提供模型共訓(xùn)服務(wù)、模型授權(quán)服務(wù),以及API開放平臺(tái)等,聯(lián)合上下游伙伴建設(shè)大模型生態(tài)。
在生態(tài)建設(shè)方面,智譜AI與中國計(jì)算機(jī)學(xué)會(huì)(CCF)聯(lián)合發(fā)起了CCF-智譜大模型基金,圍繞預(yù)訓(xùn)練大模型理論、算法、模型、應(yīng)用等相關(guān)研究提供資助,希望通過降低大模型研究的門檻,讓每一名計(jì)算機(jī)領(lǐng)域的科研工作者均有機(jī)會(huì)參與大模型的研究,推進(jìn)大模型技術(shù)和應(yīng)用的創(chuàng)新落地。
經(jīng)歷時(shí)間檢驗(yàn)的初心
沒有一次成功是偶然的,技術(shù)走出實(shí)驗(yàn)室并投入市場應(yīng)用更是如此。
智譜AI成立于2019年,由清華大學(xué)KEG的技術(shù)成果轉(zhuǎn)化而來。在智譜AI核心團(tuán)隊(duì)中,首席執(zhí)行官張鵬畢業(yè)于清華大學(xué)計(jì)算機(jī)系,董事長劉德兵是中國工程院院士高文的弟子,王紹蘭則是清華大學(xué)創(chuàng)新領(lǐng)軍博士。
早在2006年,清華大學(xué)KEG就啟動(dòng)了科技信息分析引擎ArnetMiner(以下簡稱AMiner)的相關(guān)研究,到真正實(shí)現(xiàn)產(chǎn)業(yè)化,即智譜AI成立的時(shí)候已經(jīng)過去十多年。當(dāng)年的研究團(tuán)隊(duì)先后獲得了國際頂級(jí)會(huì)議SIGKDD的十年最佳論文、國家科學(xué)進(jìn)步獎(jiǎng)二等獎(jiǎng)、北京市發(fā)明專利獎(jiǎng)一等獎(jiǎng)。
“技術(shù)要實(shí)現(xiàn)產(chǎn)業(yè)化還需要做到洞察市場需求、持續(xù)創(chuàng)新推廣、賦能產(chǎn)業(yè)生態(tài)?!蓖踅B蘭回憶,“當(dāng)時(shí)僅僅是為了抓取、清洗數(shù)據(jù),我們就在南京專門成立了分公司,共40多人,從一開始的手工標(biāo)注,到逐漸建立起技術(shù)規(guī)則,再到將AI算法靈活應(yīng)用于其中?!?/p>
在日復(fù)一日的打磨和探索下,如今的AMiner系統(tǒng)收錄了全球1億余位學(xué)者、38萬家機(jī)構(gòu)發(fā)表的3.3億篇論文、1.1億篇專利、280萬個(gè)科研項(xiàng)目,并構(gòu)建了億級(jí)高清知識(shí)圖譜,涵蓋40個(gè)學(xué)科800萬個(gè)知識(shí)概念和11億條關(guān)聯(lián)信息,每年吸引全球220個(gè)國家/地區(qū)的3000多萬獨(dú)立IP訪問。
這些年來,從實(shí)驗(yàn)室的技術(shù)出發(fā),智譜AI一直保持初心,努力學(xué)習(xí)。“實(shí)現(xiàn)知識(shí)與大模型的融合需要產(chǎn)學(xué)研強(qiáng)結(jié)合,需要打造研究生態(tài)、硬件生態(tài)、智算生態(tài)、應(yīng)用生態(tài)、組織生態(tài)。”王紹蘭向《中國科學(xué)報(bào)》透露,“我們希望通過打造支持不同場景、不同方向的智能應(yīng)用程序的底層人工智能架構(gòu),賦能千行百業(yè),‘讓機(jī)器像人一樣思考’將是可以觸及的未來。”
來源:《中國科學(xué)報(bào)》