生成式人工智能正以前所未有的速度發展,堪比手機和互聯網的快速演進。如今,人工智能模型的參數規模已達到數十億,甚至數百億,對計算能力的需求急劇上升。統計數據顯示,2015年全球生成的數據量約為10艾字節(EB)。到2025年,預計這一數字將飆升至175澤字節(ZB),而到2035年,可能會達到驚人的2432澤字節。
“依賴云端來處理所有這些數據顯然是不現實的,”Actions Technology 董事長兼首席執行官周正宇博士表示要使人工智能真正普及并發揮其全部潛力,計算任務必須在云服務器和邊緣設備(如個人電腦、智能手機、汽車和物聯網(IoT)設備)之間合理分配,而不是僅依賴云端。
這種云和邊緣人工智能協同工作的架構被稱為混合人工智能。業界普遍認為,這種架構將提供更強大、高效和優化的人工智能體驗。換句話說,要使人工智能真正觸手可及并無縫融入日常生活,部署邊緣人工智能至關重要。
然而,隨著邊緣人工智能的發展,它面臨著兩大挑戰。首先,我們需要在性能、功耗和成本之間找到平衡。在增強計算能力的同時,如何在不使功耗和成本超出合理范圍的情況下取得最佳結果,特別是在電池供電的低功耗設備中?其次,構建一個穩健的生態系統至關重要。類似于中央處理器(CPU)和圖形處理器(GPU)的發展,一個統一的生態系統是必要的,包括工具鏈、語言、兼容性和開發便捷性,以推動人工智能技術的普及和大規模應用。
邊緣人工智能部署的優勢
邊緣人工智能將機器學習無縫集成到物聯網設備中,減少了對云計算能力的依賴。即使在沒有網絡連接或網絡擁堵的情況下,它也能提供低延遲的人工智能體驗。此外,邊緣人工智能還具有顯著的優勢,包括低功耗、增強的數據隱私和更高的個性化。這些是部署邊緣人工智能的核心優勢。
周正宇博士指出,從邊緣人工智能到生成式人工智能,人工智能應用對計算能力的需求各不相同。許多邊緣人工智能應用是專門化的,并不需要大型模型或大量的計算能力。這在物聯網人工智能(AIoT)領域尤其如此,如語音交互、音頻處理、預測性維護和健康監測。因此,邊緣人工智能對于人工智能的廣泛應用至關重要,而將人工智能集成到電池供電的低能耗物聯網設備中是實現邊緣人工智能的關鍵。
據ABI Research預測,邊緣人工智能市場正在迅速擴張。到2028年,基于中小型模型的邊緣人工智能設備數量預計將達到40億臺,年復合增長率(CAGR)為32%。到2030年,預計75%的這些物聯網人工智能設備將使用高能效的專用硬件。
例如,主流的可穿戴產品,如耳機和智能手表,以及其他便攜式音頻設備,如藍牙音箱,平均功耗范圍從十幾毫瓦到幾十毫瓦不等,存儲容量低于10兆字節(MB)。這定義了低功耗邊緣人工智能,特別是在可穿戴設備中的資源預算。
為此,Actions Technology 最近推出了其“Actions Intelligence”戰略,以推動電池供電的低功耗音頻邊緣人工智能應用的發展,這些應用的模型參數低于1000萬個(10M)。該公司的目標是為低功耗物聯網人工智能設備提供0.1-1萬億次操作每秒(TOPS)的通用人工智能計算能力,且功耗預算范圍在10毫瓦至100毫瓦之間。
這意味著,作為一家致力于以毫瓦級功耗提供TOPS級人工智能計算能力的公司,以滿足物聯網設備的低功耗和高能效需求,Actions Technology 旨在通過其“Actions Intelligence”戰略實現10 TOPS/W至100 TOPS/W的人工智能計算效率。
克服馮·諾依曼架構中的瓶頸
現有的通用中央處理器(CPU)和數字信號處理器(DSP)在算法方面具有很大的靈活性,但它們的計算能力和能效不足以滿足既定目標。根本原因在于傳統的馮·諾依曼架構將內存和計算單元分離,導致了“內存墻”和“功耗墻”瓶頸,阻礙了計算能力和能效的提升。
“內存墻”指的是在馮·諾依曼架構中,計算單元必須先從內存中提取數據,然后在計算完成后再將結果寫入內存。然而,由于處理器和內存的設計工藝、封裝和要求不同,內存訪問速度無法跟上處理器的處理速度。結果,數據流受到限制,就像水流過狹窄的漏斗一樣。無論處理器發送多少數據,內存一次只能處理少量數據。這種狹窄的數據交換路徑和由此產生的高能耗在存儲和計算之間形成了“內存墻”。
此外,在傳統架構中,將數據從內存傳輸到計算單元所需的能量遠高于計算本身所需的能量。這意味著大部分能量和時間都消耗在數據傳輸上,而不是計算本身。內存和處理器之間頻繁的數據遷移導致了顯著的功耗,這被稱為“功耗墻”。例如,測試結果顯示,英特爾7nm的CPU大約有63%的功耗用于數據傳輸,而不是計算。
Arm和Cadence的公開數據顯示,使用28/22nm工藝的ARM A7 CPU,運行頻率為1.2 GHz,其理論計算能力為0.01 TOPS,但功耗為100 mW,理想能效僅為0.1 TOPS/W。類似地,運行頻率為600 MHz的HiFi4 DSP,其理論計算能力為0.01 TOPS,但功耗為40 mW,理想能效為0.25 TOPS/W。即使是Arm中國專門的神經處理單元(NPU)系列“周易”在能效方面也取得了顯著的改進,但其能效仍然只有2 TOPS/W。
周正宇博士認為,“解決‘內存墻’和‘功耗墻’的最佳方法是采用基于靜態隨機存取存儲器(SRAM)的內存計算(CIM)架構。”CIM的核心思想是將計算(部分或全部)轉移到內存中,以便內存單元可以直接執行計算。這消除了對單獨計算單元的需求,并使內存單元能夠同時處理存儲和計算,從而降低數據訪問和存儲延遲以及功耗。本質上,CIM集成了內存和計算。通過完全依賴內存進行計算,CIM能夠實現更細粒度的并行處理,從而顯著提高性能,尤其是在能效方面。
雖然實現“內存-計算集成”并非易事,但人工智能本質上是神經網絡,由無數個神經元協同工作形成復雜的計算模式。機器學習算法嚴重依賴矩陣運算,而矩陣運算非常適合分布式并行處理。因此,CIM是人工智能應用的理想解決方案。
知易行難。“邊緣AI部署需要創新。”
將計算集成到內存中,根本上取決于選擇合適的存儲介質,這對于成本和成功都至關重要。周正宇博士指出,公司旨在將低功耗邊緣AI和其他片上系統(SoC)模塊的計算能力集成到單個芯片中。這種方法排除了使用需要特殊工藝的DDR RAM和Flash。相反,采用互補金屬氧化物半導體(CMOS)工藝的SRAM,以及新興的非易失性隨機存取存儲器(NVRAM)技術,如電阻式隨機存取存儲器(RRAM)和磁阻式隨機存取存儲器(MRAM),更適合。
采用成熟工藝的SRAM可以進行升級以保持與先進工藝的兼容性。它具有快速的讀/寫速度、高能效和無限的讀/寫周期。其唯一的限制是內存密度低,但這足以滿足大多數邊緣AI應用的計算能力需求。短期內,SRAM是實現低功耗邊緣AI設備高能效的最佳解決方案。它確保快速部署,沒有大規模生產風險。
長期來看,諸如RRAM之類的NVRAM新興技術(其密度高于SRAM,讀功耗更低)可以集成到SoC中,為CIM架構開辟新的可能性。然而,RRAM技術仍處于早期階段,大規模生產存在風險,目前最先進的制造工藝僅限于22nm。此外,一個顯著的缺點是其寫入周期有限,超過此限制可能會造成永久性損壞。因此,周正宇博士設想了一種將SRAM和RRAM結合的混合技術,作為RRAM完全開發后的最佳解決方案。在這個方案中,基于SRAM的CIM將處理需要頻繁寫入的AI計算,而基于RRAM的CIM將用于寫入較少或不太頻繁的任務。這種混合解決方案有望提供更大的計算能力和更高的能效。
目前,業界實現基于SRAM的CIM電路主要有兩種方法。方法一使用數字電路在盡可能靠近SRAM的地方執行計算。然而,由于計算單元實際上不是SRAM陣列的一部分,因此該方法本質上是一種近內存技術。方法二需要利用SRAM介質中某些模擬器件的特性來執行模擬計算。雖然這種方法實現了真正的CIM,但它有很大的缺點。模擬計算的精度受到影響,一致性和可制造性可能無法保證。這意味著同一芯片在不同時間、不同條件下可能會產生不一致的結果。此外,這種方法需要模數轉換器(ADC)和數模轉換器(DAC)來交換基于模擬計算的CIM和其他數字模塊之間的數據。這限制了數據流管理和接口交互設計,阻礙了運行效率的提高。
為了解決這些問題,Actions Technology推出了其混合模式SRAM基CIM (MMSCIM)技術,該技術在SRAM介質中使用定制的模擬設計來實現數字計算電路。這一突破實現了真正的CIM,同時保持了計算精度,并確保了大規模生產的一致性。
周正宇博士強調了MMSCIM的幾個優點。首先,MMSCIM比純數字解決方案具有更高的能效,幾乎與全模擬系統的能效相匹配。其次,MMSCIM消除了對ADC/DAC的需求,確保了數字精度、高可靠性和大規模生產的一致性,這是數字技術的固有優勢。第三,MMSCIM能夠適應工藝升級,并且可以輕松地轉移到不同的半導體制造廠(FAB)。第四,MMSCIM可以輕松提高速度并優化性能、功耗和面積(PPA)。最后,MMSCIM對稀疏矩陣的適應性進一步提高了能效并降低了功耗。
對于高質量的音頻處理和語音應用,MMSCIM是未來低功耗邊緣AI音頻技術的最佳架構。通過消除內存和存儲之間數據傳輸的需要,MMSCIM顯著降低了延遲,提高了性能,并最大限度地減少了功耗和熱量產生。對于需要最大能效的電池供電的物聯網設備,Actions Technology的MMSCIM技術為將邊緣AI變為現實提供了理想的解決方案,在這些設備中,每一毫瓦都至關重要,用于優化AI計算能力。
根據Actions Technology公布的首個MMSCIM路線圖,GEN1 MMSCIM于2024年推出。GEN1 MMSCIM基于22nm工藝構建,每個內核的性能為100 GOPS,能效達到6.4 TOPS/W @INT8。由于其能夠適應稀疏矩陣,因此對于具有合理稀疏性的模型(即某些參數為零時),可以進一步優化能效。根據稀疏程度的不同,能效可能超過10 TOPS/W。
2025年,Actions Technology計劃發布GEN2 MMSCIM,同樣基于22nm工藝構建,性能比GEN1提高三倍。GEN2 MMSCIM的每個內核將提供300 GOPS的計算能力,支持transformer模型,并實現7.8 TOPS/W @INT8的能效。到2026年,將推出使用12nm工藝的GEN3 MMSCIM,每個內核將提供1 TOPS的計算能力,支持transformer模型,并實現高達15.6 TOPS/W @INT8的能效。
每一代MMSCIM技術都通過內核疊加來提高總計算能力。例如,每個內核具有300 GOPS的GEN2 MMSCIM,通過組合四個內核可以實現超過1 TOPS的計算能力。
下一代邊緣AI音頻芯片為何如此強大?
炬芯科技推出的基于MMSCIM的下一代邊緣AI音頻芯片包含三個系列:ATS323X系列專注于實現低延遲私有無線音頻傳輸,ATS286X系列則面向藍牙AI音頻應用領域,而ATS362X系列則致力于滿足AI DSP應用需求。
每個系列均采用異構架構設計,巧妙融合了CPU(ARM)、DSP(HiFi5)和NPU(MMSCIM)。炬芯科技通過創新技術,將MMSCIM與先進的HiFi5 DSP整合為“炬芯智能NPU(AI-NPU)”架構,這一架構通過協同計算,實現了高靈活性與高效能的完美結合。在此架構中,MMSCIM負責處理基礎且通用的AI算子,以低功耗提供強勁的計算能力。而隨著新興AI模型和算子的不斷涌現,HiFi5 DSP則補充支持MMSCIM未涵蓋的特殊算子,確保系統的全面性和前瞻性。
這些邊緣AI芯片支持最多達一百萬參數的片上AI模型,并可通過外部偽靜態隨機存取存儲器(PSRAM)輕松擴展至八百萬參數,滿足更廣泛的應用需求。此外,炬芯科技還開發了“ANDT”(Actions NPU Development Tools,炬芯NPU開發工具),這是一款專為AI-NPU架構量身打造的AI開發工具。該工具全面支持TensorFlow、HDF5、PyTorch和ONNX等標準AI開發工作流,讓開發者能夠更便捷地進行AI算法的開發和部署。ANDT能夠智能地在CIM和HiFi5 DSP之間分配AI算法任務,實現低功耗與高效能的平衡,助力低功耗邊緣音頻AI生態系統的快速發展。
周振宇博士分享了GEN1 MMSCIM與HiFi5 DSP的能效測試結果。在500兆赫茲頻率下,使用717K參數的卷積神經網絡(CNN)模型進行環境噪聲消除測試時,MMSCIM相比HiFi5 DSP降低了近98%的功耗,能效顯著提升了44倍。在另一項使用935K參數CNN模型進行語音識別的測試中,MMSCIM同樣表現出色,降低了93%的功耗,能效提升了14倍。
此外,在使用更復雜的網絡模型進行環境噪聲消除的測試中,GEN1 MMSCIM也展現出了卓越的性能。在運行深度循環神經網絡時,相比HiFi5 DSP降低了89%的功耗;在運行卷積循環神經網絡時,降低了88%的功耗;在運行卷積深度循環神經網絡時,降低了76%的功耗。在相同條件下,運行特定CNN-Con2D算子模型時,GEN1 MMSCIM的AI計算能力更是達到了HiFi5 DSP的16.1倍,充分展示了其強大的計算能力和能效優勢。
通往高質量音頻的道路
音頻處理既復雜又系統化。高質量音頻不僅僅依賴于硬件信號鏈(包括前置放大器、ADC/DAC、音頻處理、編解碼器和模擬放大器),還需要每個處理過程都滿足可量化的客觀指標,例如高信噪比、低噪聲底限、寬動態范圍和高線性度。同樣重要的是理解人類的聽覺偏好,并將電子科學和聲學無縫地融入設計中。
周正宇博士指出:“是的,尤其是在主觀方面。悅耳的聲音沒有普遍的定義;每個人都有自己的偏好,每個品牌都有自己的標志性風格。”憑借在音頻行業超過20年的經驗,周正宇博士將 Actions Technology 作為領先的國際品牌的主觀和客觀認可歸因于其“深厚的專業知識和豐富的經驗”。這使得公司研發團隊能夠理解什么是自然、清晰和悅耳的聲音,并進行必要的調整,將芯片、算法和聲學完美融合。
另一個關鍵趨勢是人工智能的快速發展,它為人工智能與音頻的集成開辟了新的可能性。人工智能正在通過語音識別、噪聲控制、語音翻譯、關鍵詞識別、語音增強和語音分離方面的創新來改變音頻行業。這些進步正在推動音頻設備和系統的創新和改進,為消費者提供更豐富、更個性化的體驗,無論是在家中、個人音樂欣賞還是商業應用中。
周正宇博士將人工智能視為一種新型計算,它使用基于神經網絡的深度學習計算來替代音頻領域的傳統符號邏輯計算,從而極大地增強了用戶體驗。他解釋說:“在我看來,每種音頻產品都應該使用人工智能進行改進,尤其是在與專業、低功耗、高效的硬件相結合時。這可以顯著提高模型效率。”
目前,無線家庭影院系統、游戲耳機和麥克風等低延遲、高質量音頻產品市場占據主導地位。周正宇博士預測,未來將涌現更多利基市場,例如更專業的直播麥克風和其他需要超低延遲的無線設備。對優先考慮完全沉浸式體驗的 7.1.4 聲道(即 12 聲道)環繞聲系統的需求將挑戰無線傳輸帶寬、采樣率和延遲。這將推動對高帶寬私有無線技術、人工智能音頻處理和新編解碼器技術的需求,以滿足對超低延遲和卓越音質的需求。
根據QYResearch的數據,全球無線音頻設備市場(包括條形音箱、耳機、麥克風和無線揚聲器)在2023年達到1996.28億元人民幣,其中中國市場占654.38億元人民幣。預計到2029年,這一數字將增長到5820.85億元人民幣,復合年增長率約為19.25%。主要市場包括商業、汽車、消費和家庭應用。
以智能眼鏡、智能耳機、智能手表和智能手環等產品為主導的可穿戴設備市場也顯示出巨大的潛力。IDC預測,2024年全球可穿戴設備出貨量將同比增長6.1%,達到5.379億臺,其中可聽戴設備占總量的57.7%。Canalys還報告稱,2024年第二季度,全球智能個人音頻出貨量達到1.1億臺,創下歷史最高第二季度出貨量,同比增長10.6%。
在這種情況下,人工智能技術的探索和應用無疑將成為各行業的熱門話題,釋放人工智能技術增強用戶體驗的巨大潛力。對于公司而言,從單一產品供應商轉變為提供系統解決方案將成為常態。企業將越來越需要通過開放平臺和工具構建獨特的AI生態系統,使客戶能夠基于基礎組件開發差異化解決方案,同時平衡性能、成本和功耗。
結論
從ChatGPT到Sora,從文本到文本、文本到圖像再到文本到視頻、圖像到文本以及視頻到文本的技術,基于云的大型模型不斷突破人工智能能力的邊界。然而,人工智能的發展之路仍然漫長。從云端向邊緣計算的轉變正成為一大趨勢。邊緣人工智能憑借其低延遲、個性化服務和增強的數據隱私等優勢,將在物聯網設備中發揮越來越重要的作用,為制造業、汽車業和消費品等行業帶來激動人心的新機遇。
來源: Filmsound.cn電影聲音網