機器學習處理器是專門為移動和相鄰市場(例如智能相機、AR/VR、無人機、醫(yī)療和消費性電子產(chǎn)品等)推出的全新設(shè)計,性能為 4.6TOP/s,能效為 3 TOPs/W。計算能力和內(nèi)存的進一步優(yōu)化大大提高了它們在不同網(wǎng)絡(luò)中的性能。
其架構(gòu)包括用于執(zhí)行卷積層的固定功能引擎以及用于執(zhí)行非卷積層和實現(xiàn)選定原語和算子的可編程層引擎。網(wǎng)絡(luò)控制單元管理網(wǎng)絡(luò)的整體執(zhí)行和網(wǎng)絡(luò)的遍歷,DMA 負責將數(shù)據(jù)移入、移出主內(nèi)存。板載內(nèi)存可以對重量和特征圖進行中央存儲,減少流入外部存儲器的流量,從而降低功耗。
有了固定功能和可編程引擎,機器學習處理器變得非常強大、高效和靈活,足以應對未來的挑戰(zhàn),不僅保留了原始性能,還具備多功能性,能夠有效運行各種神經(jīng)網(wǎng)絡(luò)。
為應對多個市場帶來的挑戰(zhàn),滿足不同的性能需求,從物聯(lián)網(wǎng)的每秒幾GOP到服務器的每秒數(shù)十 TOP,機器學習處理器采用了全新的可擴展架構(gòu)。
對于物聯(lián)網(wǎng)或嵌入式應用,該架構(gòu)的性能可降低至約每秒2 GOP,而對于 ADAS、5G或服務器型應用,性能可提高至每秒150 TOP。這些多重配置的效率可達到現(xiàn)有解決方案的數(shù)倍。
由于與現(xiàn)有的Arm CPU、GPU和其他IP兼容,且能提供完整的異構(gòu)系統(tǒng),該架構(gòu)還可通過 TensorFlow、TensorFlow Lite、Caffe 和 Caffe 2 等常用的機器學習框架來獲取。
隨著機器學習的工作負載不斷增大,計算需求將呈現(xiàn)出多種形式。Arm 已經(jīng)開始采用擁有不同性能和效率等級的增強型 CPU 和 GPU,運行多種機器學習用例。推出 Arm 機器學習平臺的目的在于擴大選擇范圍,提供異構(gòu)環(huán)境,滿足每種用例的選擇和靈活性需求,開發(fā)出邊緣智能系統(tǒng)。
摘自《自動化博覽》2018年增刊《邊緣計算2018專輯》