近幾年,隨著人工智能技術的不斷發展,大模型的應用場景和效果也將不斷得到拓展和提升。而大模型的出現也為工業上的數字化轉型和高質量發展帶來很好的技術支撐。日前,中國工程院院士鄔賀銓發表《大模型上手,數智化進階》演講,為我們揭示了大模型的無限可能。
院士演講實錄
各位專家、各位領導,大家下午好,我的發言題目是《大模型上手,數智化進階》。明年4月份中國要迎來成功進入互聯網30周年,我們可以回顧一下30年來發生了非常大的變化,中國互聯網進入而立之年。
一個發現,我們整個互聯網移動化發展很快,特別是4G帶動了移動互聯網的迅速普及,現在5G 帶動工業互聯網的發展。
互聯網從最初的面向一般消費客戶的點到點的連接,現在變成了一個平臺,從點上平臺,云平臺,社交平臺,直播平臺,產業平臺,尤其是近幾年,我們人工智能的發展使得互聯網迅速地進入了智能化的時代。
剛才談到了大模型,實際上60多年前就有人工智能的研究,1956年的時候,那時候是學界里面的,沒有多少人知道。為大家所知道的是 1997年IBM深藍計算機戰勝了國際象棋大師,過了一段大家也沒有什么感覺了,2016年阿爾法戰勝圍棋高手,發現人類下棋下不過計算機了。
下棋這些還不是剛需,對社會生活也沒有太多影響。去年年底,一年前ChatGPT給大家眼睛一亮,當然ChatGPT還是一個基礎大模型,仍然還是第二代人工智能,我們希望將來是通用的,希望至少在三個方面:
第一,一個模型不能僅僅對一個任務,能夠適應多任務。
第二,不能只限于一種模態輸入,希望多模態輸入。
第三,在將來推理能夠非常精準。
大模型也有很多層,也有很多節點,我們開始在對應某一個任務,并不知道應該走哪個路徑是最準確的,但是可以通過大規模的訓練,反復迭代,試錯來可以知道哪一個節點,應該經過的全值概率是多少,這些就是參數。顯然參數越多,分解得越精細。我現在來看,從2018年 ChatGPT1到今年年初的ChatGPT4,參數已經增加了一萬倍,當然對應的訓練數據和調用 GPU卡數也相應地增加。
現在講大模型,剛才對話嘉賓也講到了,我們中國有188個大模型,這些大模型基本上都是互聯網公司,還有IT企業來研發的,這種基礎大模型門檻還是比較高的,現在垂直行業的企業還很少,大企業自己做大模型,做基礎大模型,剛才林院長說的,它沒有辦法用到工業上,基本的語料不是工業語料,工業上數據也沒有那么多,想找這么大量數據訓練也不容易。在節點上基礎大模型還落不了地,要落地怎么辦呢?必須跟行業合作,行業合作有兩種辦法,一種是把企業的數據送到基礎大模型提供方,然后讓他們幫助把行業數據加進去進行微調,這種企業會擔心,我的數據送出去會不會泄密。技術上要完全依賴于基礎大模型。
還有一種辦法把基礎大模型訓練好的模型給企業,企業自己加上自己的數據微調,這里面對企業技術水平要求比較高,另外基礎訓練的時候是一個老師教的,到企業訓練的時候是另外一個老師,這兩個老師會不會教起來有不一致的地方,那可能最后沒有辦法收了。
要跟行業合作還是有難題的,對于大多數中小企業更是了,本身就很難接入大模型,我們希望能不能把大模型變成一個簡約的模塊,放在云平臺 PAAS和SAAS之間,這樣一來我們就可以通過一個簡單的接口,企業可以接入到這個模型模塊里面。我們還要相應的配置一些低代碼的開發軟件,可以通過鼠標拖拉,為企業基礎場景接入和微調提供機會。真做到了這一點,我們將來就可以做到企業會上云,就會用這個模型了。我把中小企業,通過這種方法來做模型,我稱之為場景的大模型,他還是針對特定應用的。
大模型的出現會給我們工業上的數字化轉型和高質量發展帶來很好的技術支撐,現在難題還是我們做基礎大模型方怎么能夠跟我們行業更緊密地結合,我已經注意到,國內做大模型的幾個有名的單位,他們雖然有一些提供語料的對話,聊天,實際上純粹對話聊天絕對不是剛需,也很難形成一個商業模式。國內做一些大模型的單位,都瞄準了做工業,比如說百度要跟吉利合作做智能客服,跟國家電網合作,做分布式電網調度。百度還做MLA疫苗序列有效分析,在新冠疫情期間,中國大量使用的是滅活疫苗,美國是使用 MLA,這有很多序列,其中也不是所有序列都對新冠有效,要找出最好的序列,這還是有難度的。據說超算一秒鐘算一條要算一百億年,現在利用大模型可以優選出比較好的疫苗,當然不見得是最佳了,這個百度曾經發表在雜志上,也得到了認可。我認為從這些方面介入,這些方面都還沒有直接進入到制造業生產線上。
華為盤古大模型主要針對制造業,他瞄準制造業里面需求的理解,文檔的生成,工業軟件的編程,讀圖,以及我們供應鏈管理,也可以看到這些也是在生產線的外圍,真正在產業的核心部分還是沒有進去。
騰訊有一個微搭低代碼平臺,著重面向中小網站,做網站的開發等等。
阿里有一個通義千問,訓練參數也不少,可以支持8K向上文窗口,他可以做聊天對話,你輸入的長度也反映了大模型能力。阿里可以輸入8K左右。
針對制造業領域做大模型的是海爾,他本身是制造業,通過海爾本身家用電器的生產,他基本上掌握了家用電器里面的生產流程。海爾大模型在家用電器行業里面沒有推廣,為什么呢?其他都是他競爭對手,海爾大模型反而推廣到服裝行業,汽車行業,推廣到這些地方去了。
有了大模型,有初級人工智能發展,也給社會上更多的中小企業機會。這時候出來了一批面向更多中小企業的平臺企業。比如說廣州有一個企業做服裝設計的建模,服裝工廠的管理。大量的服裝廠只有一大批縫紉女工,沒有什么技術的,引入了廣州致景軟件,使生產管理上了一個很好的臺階。
山東的橙色云,這本來是一個設計工具軟件出租公司,很多企業用工具軟件,自己買太貴了,用時候也不多,用租,以租的辦法可以省錢。后來城市運營發展成為設計承接和轉包平臺,很多企業在那里發布一些需求,他把設計需求分解了,之后招標,最后把完成的結果通過它集成,現在已經面向五萬多家中小企業了。
深圳有一個云工科技,有一些企業需要訂貨,需要一些產品,不知道在哪訂,在哪里發布。還有很多企業就在這上面應標,半年能夠撮合100億的交易。
廣州有一個公司,主要是做女裝出口,他利用珠三角的服裝加工的能力,國際快速的物流能力,從品牌,設計,面料、采購、銷售、金融、保險等等一條龍,現在是世界上54個國家手機購物里面最重要一個環節,他即將上市,估值要超千億美元。江蘇有一個智云天工,這是一個虛擬工廠,三一重工是供應鏈管理平臺,三一重工作為龍頭,把供應鏈200多家上下游企業關聯起來,最重要做到零庫存或者說少庫存,大大提升了效率。
現在談大模型大部分在大智算中心,超算上面做。現在一個新的出來了,把大模型做到手機上,現在手機已經可以訓練超過100億參數的,作為推理運用,目前已經有人做到130億參數了。估計到明年150億也可能做進手機里。
有人說只有超過130億的參數,在手機上做有什么好處,將來大模型訓練可以離線,這樣成本低,不需要上智算,超算中心,時延也低。現在美國有一個公司,Aizip,要把大模型做到手機上需要做一些模型壓縮工作,手機芯片還要提檔。做模型壓縮工作要量化壓縮,要重新做一下。這個公司說從大模型可以復制出小模型,可以落到手機上。
同聲傳譯,我們打電話對方是老外,他講英文我這邊聽是中文,如果是視頻,還可以幫助你對口型。我們可以跟聾啞人,手語對話,盲文翻譯。歌曲創作,你哼幾段話,后來給你續譜。
搜索,過去要很精準,現在用不著精準,一個模糊的話也能夠把你希望想搜什么搞出來。當然你將來可以手機、平板、PC、電視互通。
給出一句話,一個32歲年輕女性自然保護者在叢林中探險,面帶親切的微笑,給你生出這個照片。中間的照片只拍了一點點,現在延伸了,可能你只有半身照,現在可能變成全身照。
我們現在手機有前拍有后拍,現在可以同時用上,把你前拍的照片嵌入到后面去,當然還要光線調整,這是自拍的合成。
這種大模型落地會催生新一輪創新,會降低用戶生成三維視頻門檻。我們很多年前手機一般一年半就換代了,這幾年換代沒有這個需求。將來起來了,更多的實際推廣是靠用戶產生內容,大模型落到手機上,可以為用戶產生內容提高一個檔次。我們不但是消費,還有健康、養老、監護、教育,最有價值的還是工業應用,你可以落在手機上,也可以落在機器人,工業模組上面,這些可以帶來新的飛躍。
IDC預測到2026年中國市場超過50%終端設備處理器會有AI引擎,我們認為會讓中國互聯網產業走出低谷,會迎來一次激動人心的井噴式發展。
數智經濟講了很多,實際上未來我們大模型為數字經濟增添了新的能力,我這里回顧了90年代全球市值最高的前十名,主要是日本的銀行,2000年主要都是紅色的是美國的IT企業,2010 年是能源,金融,2020年又回到互聯網主導了,中國的阿里、騰訊也在上面,到今年12月份,現在可以看到,除了有食藥公司以外,基本上還是IT和IC企業,我們說現在位居前列的是以數智化企業為主,是數據成為主要的生產要素。