多核處理器環境下的編程挑戰
摩爾定律問世40余年來,人們業已看到半導體芯片制造工藝水平以一種令人目眩的速度在提高,Intel微處理器的最高主頻甚至超過了4G。雖然主頻的提升一定程度上提高了程序運行效率,但越來越多的問題也隨之出現,耗電、散熱都成為阻礙設計的瓶頸所在,芯片成本也相應提高。當單獨依靠提高主頻已不能實現性能的高效率時,雙核乃至多核成為了提高性能的唯一出路。隨著AMD率先打破摩爾定律、終結頻率游戲后,Intel和AMD都開始逐步推出了基于雙核、四核甚至八核的處理器,工程師們逐漸投入到基于多核處理器的新型應用開發中去時,大家開始發現,借助這些新的多核處理器,并在應用開發中利用并行編程技術,可以實現最佳的性能和最大的吞吐量,大大提高應用程序的運行效率。
然而,業界專家們也同時認識到,對于實際的編程應用,多核處理器的并行編程卻是一個巨大的挑戰。比爾蓋茨是這樣論述的:
“要想充分利用并行工作的處理器的威力,…軟件必須能夠處理并發性問題。但正如任何一位編寫過多線程代碼的開發者告訴你的那樣,這是編程領域最艱巨的任務之一。”
比如用C++寫一個多線程的程序,程序員必須要非常熟悉 C++,了解如何將C++程序分成多個線程和并在各個線程間進行任務調度,此外還要了解 Windows 多線程的機制,熟悉 Windows API 的調用方法和MFC 的架構等等。在 C++ 上調試多線程程序,更是被很多程序員視為噩夢。
所以,對于測試測量行業的工程師來說,在傳統開發環境下要想獲得多核下的效率提升意味著大量而復雜的多線程編程任務,而使得工程師脫離了自動化測試及其信號處理任務本身,于是,要想在當前的多核機器上充分利用其架構和并行運算的優勢,反而成為工程師們“不可能”完成的任務。
LabVIEW降低并行編程的復雜性,快速開發并行構架的信號處理應用
幸運的是,NI LabVIEW圖形化開發平臺為我們提供了一個理想的多核處理器編程環境。作為一種并行結構的編程語言,LabVIEW能將多個并列的程序分支自動分配成多個線程并分派到各個處理核上,讓一些計算量較大的數學運算或信號處理應用得以提高運行效率,并獲取最佳性能。
我們以自動化測試中最常見的多通道信號處理分析為例。由于多通道中的頻率分析是一項占用處理器資源較多的操作,如果能夠讓程序并行地將每個通道的信號處理任務分配至多個處理器核,對于提高程序執行速度來說,就顯得尤為重要。而目前,從LabVIEW編程人員的角度來看,要想獲得這一原本“不可能”的技術優勢,唯一需要改變的只是算法結構的細微調整,而并不需要復雜且耗時耗力的代碼重建工作。
以雙通道采樣為例,我們需要分別對高速數字化儀的兩個通道上的數據進行快速傅立葉變換(FFT)。假設我們采用的高速數字化儀的兩個通道均以100 MS/s采樣率采集信號并實時分析。首先,我們來看LabVIEW中對于這一操作的傳統順序編程模型。
圖1. 利用順序執行的LabVIEW代碼
和其他文本編程語言一樣,處理多通道信號的傳統方法是將各個通道信號按順序讀入并逐通道的進行分析,上面基于LabVIEW的順序編程模型很好的說明了這點,0、1兩通道的數據被按順序讀入后,整合為一路數組,并由一個FFT函數進行信號分析并輸出。雖然順序結構能夠順利地在多核機器上運行,但確不能使得CPU負擔得到有效的分攤,因為即使在雙核的機器上, FFT程序也只能在一個CPU上被執行,而此時另一個CPU卻被閑置了。
實際上,兩個通道的FFT運算相互獨立,如果程序能夠將兩個FFT自動分配到一臺雙核機器上的的兩個CPU上,那么理論上程序的運行效率將提高一倍。在LabVIEW的圖形化編程平臺上,情況正是如此,我們可以通過并行化處理這兩個通道來真正提高算法性能。圖2表示了一種采用并行結構的LabVIEW代碼,從圖形化編程的角度來看,僅僅是增加了一路并行的FFT函數而已。
圖2. 利用并行執行的LabVIEW代碼
由于數據量越大,信號處理運算在工程應用中所占的處理器時間就越長,所以通過簡單的程序改動將原來的信號處理程序并行化,可以改善程序性能,減少了總的執行時間。
圖3. 對于大于1M采樣(100 Hz精度帶寬)的數據塊,并行方式實現了80%或更高的性能增長。
圖3描述了性能隨采集數據塊大小(以采樣數為單位)增大而提高的精確百分比。事實上,對于更大的數據塊,并行算法方法確實實現了近2倍的性能改進。工程師們不需要創建特殊的代碼來支持多線程,在多核處理器環境下,只需通過最少的編程調整,利用LabVIEW自動分配每一個線程到多核處理器的特性,可以方便的實現信號處理能力的大幅度提升,從而達到了自動化測試應用的性能改進。
程序性能的進一步優化
LabVIEW并行的信號處理算法不僅幫助工程師提高程序性能,而且可以更清楚的劃分多個處理器核在項目中的不同用途。比如,將控制采樣輸入,顯示輸出和信號分析的模塊獨立分開。
以HIL(Hareware-in-the-loop)或在線信號處理應用為例。首先,使用高速數字化儀或高速數字I/O模塊來采集信號,并在軟件中執行數字信號處理算法。然后,通過另一個模塊化儀器生成結果。常見HIL應用包括在線數字信號處理(如濾波、插值等等)、傳感器仿真和定制組件模擬等等。
一般來說,HIL可以使用兩種基本的編程結構來完成,單循環結構和帶有隊列的流水線式多循環結構。單循環結構實現簡單,對于小數據塊具有較低時延,但單循環結構受限于各個環節的順序結構而無法實現并發性,例如,由于處理器只能執行一個函數,在處理數據的同時就無法執行儀器IO,所以單循環結構無法有效利用多核CPU的優勢。相比之下,多循環結構則能夠更好的利用到多核處理器,從而支持高得多的吞吐量。
對于一項多循環結構的HIL應用來說,可以通過三個獨立的while循環和兩個隊列結構,實現其間的數據傳遞。在此情況下,第一個循環從儀器采集數據,第二個循環專門執行信號處理分析,而第三個循環將數據寫入到另一臺儀器。這樣的處理方式,也被稱之為流水線式信號處理(pipeline)。
圖4.帶有多個循環與隊列結構的流水線式信號處理。
圖4中,最上面的循環是一個生產者(Producer)循環,它從一個高速數字化儀采集數據,并將其傳遞至第一個隊列結構(FIFO)。中間的循環同時作為生產者和消費者(Consumer)工作。每次迭代中,它從隊列結構中接收(消費)若干個數據集,并以流水線的方式獨立為四個不同數據塊的內容進行7階低通濾波的處理,同時中間的循環也作為一個生產者工作,將處理后的數據傳遞至第二個隊列結構。最后,最下面的循環將處理后的數據寫入至高速數字I/O模塊。于是,在多核的系統下, LabVIEW能夠自動地將上面的程序結構中獨立運行的的不同循環分配在不同的處理器上,同時,還可以根據CPU的運行情況將中間循環中四個數據塊的信號處理任務也分配在不同的處理器上,實現了在多核處理器環境下的性能改進。
并行處理算法改善了多核CPU的處理器利用率。事實上,總吞吐量取決于兩個因素,處理器利用率和總線傳輸速度。通常,CPU和數據總線在處理大數據塊時工作效率最高。而且,我們可以進一步使用具有更快傳輸速度的PXI(PCI) Express儀器,來減小數據傳輸時間。
利用NI強大的并行性計算的優勢以及PCIe高速數據流傳輸加上Intel的多核技術,在DELL的PowerEdge 2950八核處理器上,以10KHz(2.56MB/s)的速率同步采樣并處理128個通道的數據,NI幫助ASDEX Tokamak——德國最先進的核聚變裝置,完成了“不可能完成的任務”——為了保證Tokamak裝置中等離子體的高速穩定的運轉,將其裝置外壁上的88個磁感應器上的大量數據轉換成64*128個點格上的偏微分方程組,并同時在短短的1ms內完成了整個計算過程!
正如德國開發負責人Dr. Louis Giannone所說的:
“利用LabVIEW編程所完成的并行化應用控制,我們在8核機器上將速度提高了5倍,使得我們成功達到1ms閉環控制速率的要求!”。