国产欧美日韩精品a在线观看-国产欧美日韩精品一区二区三区-国产欧美日韩精品综合-国产欧美中文字幕-一区二区三区精品国产-一区二区三区精品国产欧美

ACS880-07C
關注中國自動化產業發展的先行者!
CAIAC 2025
2024
工業智能邊緣計算2024年會
2023年工業安全大會
OICT公益講堂
當前位置:首頁 >> 資訊 >> 行業資訊

資訊頻道

初識大模型
  • 點擊數:1126     發布時間:2023-10-25 21:21:17
  • 分享到:
專家認為,大模型將會是未來十年科技領域里面最重要的事情之一。大模型將開啟人工智能的“大一統時代”。
關鍵詞:

★中國自動化學會專家咨詢工作委員會 孫柏林

1 什么是大模型

大模型是指具有龐大規模和復雜結構的人工智能模型,它們具有數以億計的參數和深層次的神經網絡架構。這些模型通過海量數據的學習和深度神經網絡的優化,在各種任務上取得了令人矚目的成果。這些模型使用大量的多媒體數據資源作為輸入,并通過復雜的數學運算和優化算法來完成大規模的訓練,以學習和理解到輸入數據的模式和特征。這些模式和特征最終通過大模型中龐大的參數進行表征,以獲得與輸入數據和模型設計相匹配的能力,最終實現更復雜、更廣泛的任務,如語音識別、自然語言處理、計算機視覺等。

追尋大模型的起源,應該從那篇《Attention is All You Need》開始,大模型的發展大致走上了兩條路:

一條路是舍棄Decoder部分,僅僅使用Encoder作為編碼器的預訓練模型,其最出名的代表就是Bert家族。這些模型開始嘗試應用“無監督預訓練”的方式來更好地利用相較其他數據而言更容易獲得的大規模的自然語言數據,而“無監督”的方式就是Masked Language Model(MLM),通過Mask掉句子中的部分單詞,讓模型學習使用上下文去預測被Mask丟掉的單詞的能力。

另一條路,則是Bert的進路沒能突破Scale Law,而這一點則由當下大模型的主力軍,即通過舍棄Encoder部分而基于Decoder部分的GPT家族真正做到了。GPT家族的成功來源于一個研究人員驚異的發現:“擴大語言模型的規模可以顯著提高零樣本(zero-shot)與小樣本(few-shot)學習的能力”,這一點與基于微調的Bert家族有很大的區別,也是當下大規模語言模型神奇能力的來源。而從GPT-3開始,當下的ChatGPT、GPT-4、Bard以及PaLM、LLaMA百家爭鳴,帶來了當下的大模型盛世。

從模型發展來看,人工智能經歷了機器學習模型、深度學習模型、預訓練模型和大規模預訓練模型四個階段。

歸根結底,大模型的神奇能力是來源于GPT么?答案是否定的。GPT家族幾乎每一次能力的躍遷,都在預訓練數據的數量、質量、多樣性等方面做出了重要的提升。大模型的訓練數據包括書籍、文章、網站信息、代碼信息等,這些數據輸入到大模型中的目的,實質在于全面準確地反映“人類”這個東西,并通過告訴大模型單詞、語法、句法和語義的信息,讓模型獲得識別上下文并生成連貫響應的能力,以捕捉人類的知識、語言、文化等方面。

一般而言,面對許多NLP的任務,我們可以從數據標注信息的角度將其分類為零樣本、少樣本與多樣本。無疑,零樣本的任務LLMs是最合適的方法,幾乎沒有例外,大模型在零樣本任務上遙遙領先于其他的模型。同時,小樣本任務也十分適合大模型的應用,通過為大模型展示“問題-答案”的模式,可以增強大模型的表現性能,這種方式我們一般也稱為上下文學習(In-Context Learning)。而多樣本任務盡管大模型也可以去覆蓋,但是微調可能仍然是最好的方法,當然在一些如隱私、計算等約束條件下,大模型仍然有用武之地。

同時,微調的模型很有可能會面對訓練數據與測試數據分布變化的問題,微調的模型在OOD數據上一般表現都非常差。而相應的,LLMs由于并沒有一個顯式的擬合過程,因此表現要好許多。典型的ChatGPT基于人類反饋的強化學習(RLHF)在大部分分布外的分類與翻譯任務中都表現優異,在專為OOD評估設計的醫學診斷數據集DDXPlus上也表現出色。

從目前來看,不可能出現一家AI大模型一統天下的情況,因為AI大模型是否能夠得到廣泛使用,一方面要看技術能力,另一方面則要看應用場景和流量格局。

AI大模型百花齊放只是一個階段性現象。在演變的過程中,各家企業和機構會逐漸找到自己的定位,走向細分市場。

百度創始人、董事長兼首席執行官李彥宏曾在演講中分析了大模型在技術方面的演進:大模型之所以會改變人工智能,原因就在于大算力、大模型、大數據,導致了智能涌現。他解釋了何為“智能涌現”:過去的人工智能是想讓機器學會什么技能,就教它什么技能。大模型導致智能涌現后,以前沒教過的技能,機器也會了。同時他還表示,人工智能發生了方向性改變,從辨別式AI走向生成式AI。回到大模型本身的應用上,李彥宏在演講中表示,大模型會重新定義營銷和客服。“道理很簡單,就是誰擁有最佳的跟客戶溝通的方式,誰就會擁有這個客戶。”

當下,大模型密集發布,各大廠商紛紛加碼人工智能,這樣的大模型“狂”潮還會持續多久,發展方向是什么?針對業界關注的熱點問題,《人民郵電》報記者采訪了北京郵電大學經濟管理學院教授曾劍秋,他認為大模型帶來的顛覆性創新可以總結為:規模大、速度快、場景全。

首先,參數規模上,從GPT-1的1.17億參數到GPT-3的1750億參數,大模型的參數規模動輒上千億,能夠從海量數據和知識中學習,在不同領域和場景中“輕松”完成任務。

其次,得益于信息基礎設施穩步推進帶來的算力提升,大模型能夠在短時間內響應用戶并提供歸納整理后的內容,從聊天機器人轉變為數字助手。

其次,得益于信息基礎設施穩步推進帶來的算力提升,大模型能夠在短時間內響應用戶并提供歸納整理后的內容,從聊天機器人轉變為數字助手。

曾劍秋還認為,大模型是建立在網絡能力、數據能力和計算能力三者之上的創新應用。大模型需要在多個設備之間進行數據傳輸和參數同步,而堅實的網絡基礎為大模型提供了高效、穩定、可擴展的訓練和部署環境。數據能力對于大模型的訓練和應用至關重要,因為大模型需要從海量數據中學習和捕獲知識以提升泛化能力。在計算能力方面,大模型需要海量的計算資源來執行復雜運算和存儲巨量參數,需要使用高性能、低功耗、高度并行的計算設備和系統(如GPU)。可以說,算力是大模型訓練和人工智能發展的基礎設施。

曾劍秋談道,這三種能力是大模型發展、人工智能產業進步和信息技術創新應用的“沃土”。入局大模型的門檻主要包括基礎門檻、訓練門檻和應用門檻。基礎門檻包括網絡能力和數據處理能力,需要具備大模型訓練計算所需的高性能服務器、GPU設備、高速網絡等。訓練門檻是指大模型的“成長”迭代需要不斷訓練,需要提供符合一定標準的高質量訓練數據,因而需要花費時間和計算資源來對數據進行清洗和預處理,從而保障數據的質量和準確性。應用門檻是指大模型的落地需要與垂直行業需求深度融合,同時,對于企業來說需要權衡收益與研發成本。基于公有數據的大模型是通用底座,很難滿足專業場景的特定需求。

曾劍秋談到,如何打通大模型技術和產業應用的“最后一公里”,找到計算資源和產業應用效果之間的平衡,是需要關注的重點課題。大模型“熱”需要“冷”思考,要超前布局也要理性發展。曾劍秋表示,盲目跟風研發大模型不可取,當熱潮退去,留下的注定是推動人工智能技術革新、深耕垂直行業應用的數智實干家。同時,曾劍秋建議建立國家級的基礎大模型平臺,加強智算中心、超算中心等算力資源統籌,加強跨數據中心算力協同能力,從戰略高度著手,培育大模型發展基礎,構筑人工智能發展優勢。

當前通用與行業大模型研發呈爆發式增長。大模型對當前產業發展將起到怎樣的作用?

中國移動集團級首席科學家、IEEE Fellow馮俊蘭認為:

一是大模型帶來了人工智能技術范式的變革。正如牛頓定律之于物理學的意義一樣,大模型開啟了人工智能的“大一統時代”。

二是大模型帶來了人工智能研發模式的轉變,包括三個趨勢:第一,研發團隊由小到大,需要以企業為主體的創新模式。大模型的打造是一個集大算力、大數據、算法和應用于一體的系統工程,需要算法和工程兼備的專家型人才,具有高投入、高門檻和長周期特性,企業在大模型研發上更具優勢,這將催生以企業為主體的產學研合作的創新模式。第二,研發路徑由分方向、分領域到分層。傳統模型是面向特定場景、特定任務訓練得到的,而大模型是面向多種任務的通用模型。第三,大模型訓練推理需要將各要素統籌考慮,包括底層計算芯片、框架、算法、理論等在內,進行端到端優化。

三是大模型還將催生人工智能新的業務賦能模式。

四是大模型也將引發產業范式的變化,形成新的產業生態結構,推動人工智能產業鏈分工更清晰,整個生態的研發效率得到顯著提升,產業鏈更加成熟。

2 大模型的分類

AI大模型根據不同維度有不同的分類方式,如根據任務類型可分為監督學習模型、無監督學習模型和強化學習模型;根據模型結構可分為DNN深度神經網絡、CNN卷積神經網絡、RNN循環神經網絡;根據模型規模可分為大規模模型和中小規模模型。下面我們重點從模型數據類型、模型工作模式和模型開發模式來分析AI大模型的分類。

(1)按模型數據的媒體類型,AI大模型可以分為語言模型(Language Models)、圖像模型(Image Models)以及多模態模型(Multimodal Models);

(2)根據模型工作方式,AI大模型可以分為生成模型(GenerativeModels)和強化學習模型(Reinforcement Learning Models);

(3)根據模型開發模式,AI大模型可以分為開源大模型(Open Source Models)和在線大模型(Online Models)。

上述對AI大模型的分類只是一些常見的示例,實際上,大模型的分類可以更加細分,根據具體任務和應用領域的需求而定。

3 AI大模型的特點

AI大模型的特點如下:

一是大量的參數:大模型通常具有龐大的參數規模,這些參數可以存儲模型的知識和經驗。更多的參數意味著模型具有更強大的學習能力和表示能力,能夠更好地捕捉數據中的復雜模式和特征,以便進行推理和預測。

二是上下文理解和生成:大模型能夠理解和生成更具上下文和語義的內容,并通過注意力機制、上下文編碼器等關鍵技術來學習和訓練大量的語言、圖像等輸入數據,可以從復雜的真實場景中提取有用的信息。

三是強大的泛化能力:大模型通過在大規模數據上進行訓練,具有強大的泛化能力。它們從大量的數據中學習到廣泛的特征和模式,并且能夠在未學習過、未見過的數據上也同樣表現良好。對未學知識的泛化能力也是評估大模型的重要指標。

四是計算資源需求大:大模型對于數據和計算資源的需求非常大,需要強大的計算資源來進行參數優化和推理,這需要具備出色的并行計算能力的GPU、TPU處理器集群,這使得訓練和使用這些模型成為一項具有挑戰性的任務。

五是遷移學習能力:大模型在一個或多個領域上進行預訓練,并能夠將學到的知識遷移到新任務或新領域中。這種遷移學習能力使得模型在新任務上的學習速度更快,同時也提高了模型在未知領域中的性能。

六是預訓練與微調:大模型可以采用預訓練和微調兩階段策略。在預訓練階段,模型通過大規模無標簽數據進行學習,學習到一種通用表示。在微調階段,模型使用有標簽數據對模型進行細化訓練,以適應具體的任務和領域。這種在大規模數據上進行預訓練,再在具體任務上進行微調,能夠讓大模型適應不同的應用場景。

七是多領域應用:大模型應用領域廣泛,能夠解決多種任務,如自然語言處理、計算機視覺、語音識別等。大模型不僅在單一模態領域中有很強的表現,也能夠進行跨模態的任務處理。

4 大模型應用案例

當前人工智能領域涌現出了許多強大的AI大模型,下面列舉了一些目前備受矚目的AI大模型:

(1)OpenAI GPT大模型組

ChatGPT是OpenAI于2022年11月發布,它在自然語言的理解和生成上的卓越表現使得其在短短兩個月的時間用戶突破1億大關。它是基于GPT(Generative Pre-trained Transformer)架構開發的大型語言模型,為對話式交互提供了更好的支持和響應,并在社交對話、問題回答和一般性對話等場景中表現優秀。

(2)Google PaLM&PaLM 2大模型組

PaLM(Pretraining and Fine-tuning Language Model)是在2020年由Google Research團隊發布的一種用于自然語言處理任務的預訓練和微調模型,它的第二個版本,最新的大型語言模型PaLM 2于2023年5月在Google I/O開發者大會上推出。它支持谷歌AI聊天機器人Bard,并憑借改進的數學、邏輯和推理技能,可以幫助生成、解釋和調試20多種編程語言的代碼。且為了滿足更多的使用場景,PaLM2提供了4個模型:Gecko、Otter、Bison、Unicorn,其中最小的Gecko模型可以在移動端運行,并計劃在下一代Android系統中集成。

(3)百度文心大模型組

百度于2023年3月正式發布了AI大模型文心一言。這個基于百度智能云技術構建的大模型被廣泛集成到百度的所有業務中,并且提供了多樣化的大模型API服務,可通過零代碼調用大模型能力,自由探索大模型技術如何滿足用戶需求。隨后百度還推出了文心NLP大模型、文心CV大模型、文心跨模態大模型、文心生物計算大模型、文心行業大模型。

(4)訊飛星火認知大模型

科大訊飛于2023年5月正式發布了星火認知大模型,其具有7大核心能力,即文本生成、語言理解、知識問答、邏輯推理、數學能力、代碼能力、多模態能力。

(5)阿里通義大模型

阿里通義大模型覆蓋語言、聽覺、多模態等領域,致力于實現接近人類智慧的通用智能,讓AI從“單一感官”到“五官全開”,并分別在2023年4月和6月推出了通義千問和通義聽悟。

(6)清華開源大模型ChatGLM

GLM-130B是清華智譜AI開源項目,其目的是訓練出開源開放的高精度千億中英雙語模型,能夠讓更多研發者用上千億參數模型。在2023年3月,清華開源了更精簡的低門檻大模型ChatGLM-6B,這是一個具有62億參數的中英文雙語語言模型。在6月份,清華推出了二代開源模型ChatGLM2-6B,它具有更強大的性能、更長的上下文、更高效的推理(推理速度提升42%)和更開放的開源協議。

以上這些大模型只是當前眾多AI大模型中的一小部分,隨著技術的不斷進步和研究的不斷推進,我們可以期待更多更強大的AI大模型的涌現。

5 小結

盡管存在著諸多問題和挑戰,但AI大模型的蓬勃發展已經勢不可當。大模型必然是未來很長一段時間內我們工作生活的一部分,而對于這樣一個與我們生活高度同頻互動的“大家伙”,除了性能、效率、成本等問題外,大規模語言模型的安全問題幾乎是其面對的所有挑戰之中的重中之重。例如,機器幻覺是大模型目前還沒有極佳解決方案的主要問題,大模型輸出的有偏差或有害的幻覺將會對使用者造成嚴重后果。同時,隨著LLMs的“公信度”越來越高,用戶可能會過度依賴LLMs并相信它們能夠提供準確的信息,這點可以預見的趨勢增加了大模型的安全風險。

除了誤導性信息外,由于LLMs生成文本的高質量和低成本,它有可能被利用為進行仇恨、歧視、暴力、造謠等攻擊的工具。據報道,三星員工使用ChatGPT處理工作時意外泄露了最新程序的源代碼屬性、與硬件有關的內部會議記錄等絕密數據。

目前大模型主要面臨的挑戰可以被歸類如下:

實踐驗證:當前針對大模型的評估數據集往往是更像“玩具”的學術數據集,這些數據集無法完全反映現實世界中形形色色的問題與挑戰,因此亟需實際的數據集在多樣化、復雜的現實問題上對模型進行評估,確保模型可以應對現實世界的挑戰。

模型對齊:大模型的強大也引出了另一個問題:模型應該與人類的價值觀選擇進行對齊,確保模型行為符合預期,不會“強化”不良結果。作為一個高級的復雜系統,如果不認真處理這種道德問題,有可能會為人類醞釀一場災難。

安全隱患:大模型的研究要進一步強調安全問題、消除安全隱患,這需要具體的研究以確保大模型的安全研發,并需要更多地做好模型的可解釋性、監督管理工作。安全問題應該是模型開發的重要組成部分,而非錦上添花可有可無的裝飾。

模型未來:模型的性能還會隨著模型規模的增加而增長嗎?這個問題估計OpenAI也難以回答,我們對于大模型的神奇現象的了解仍然十分有限,針對大模型原理性的見解仍然十分珍貴。

作者簡介:

孫柏林(1936-),男,湖北黃陂人,軍事科學院研究員,少將軍銜,我國自動控制系統與軍事系統工程專家,中國自動化學會專家咨詢工作委員會名譽主任。

參考文獻:

[1] 齊旭. 大模型叩響工業大門[N]. 中國電子報, 2023.

[2] 趙熠如. "百模大戰"來了AI大模型市場百花齊放[N]. 中國商報, 2023.

[3] 盧岳. AI教育大模型落地詞典筆[N]. 消費日報, 2023.

[4] 楊子怡, 譚心琪. 大模型產業應用將成未來焦點[N]. 人民郵電, 2023.

[5] 羅錦釗, 孫玉龍, 錢增志, 等. 人工智能大模型綜述及展望[J]. 無線電工程, 2023.

摘自《自動化博覽》2023年10月刊

熱點新聞

推薦產品

x
  • 在線反饋
1.我有以下需求:



2.詳細的需求:
姓名:
單位:
電話:
郵件:
主站蜘蛛池模板: 国产色a | 国产高清在线观看视频手机版 | 一级毛片中文字幕 | 国产成人毛片视频不卡在线 | 久久院线| 韩国美女爽快一毛片免费 | 久久久久久久久综合 | 国产午夜精品理论片小yo奈 | 国产成人精品免费视频网页大全 | 国产成人高清在线观看播放 | 香蕉毛片 | 欧美日本视频一区 | 国产欧美精品一区二区三区 | 她也啪在线视频精品网站 | 不卡一区二区在线 | 农村寡妇偷毛片一级 | 国产成人精品女人不卡在线 | a级片一级片 | 一级特黄aaa大片在 一级特黄aaa大片在线观看 | 俺来也欧美亚洲a∨在线 | 6一10周岁毛片免费 6一12呦女精品 | 亚洲成a人在线观看 | 午夜日本一区二区三区 | 午夜性刺激免费视频观看不卡专区 | 激情视频一区 | 亚洲人成免费网站 | 国产精品日韩欧美在线第3页 | 成人亚洲国产精品久久 | 美国毛片毛片全部免费 | 日本三级2021最新理论在线观看 | 欧美日韩免费播放一区二区 | 日本高清不卡在线观看 | 波多野结衣aⅴ在线 | 欧美另类交视频 | 国产一区国产二区国产三区 | 日产毛片| 精品国产理论在线观看不卡 | 黄色毛片一级 | 亚洲在线影院 | 一区二区三区免费视频播放器 | 久久只有精品视频 |