AMD四核皓龍提升網格節點并行性處理
隨著多核X86處理器性能持續提升,價格不斷下降,使得以往只能做“定性”分析的許多領域和學科,現在都能夠以集群方式構建高性能計算平臺,對許多復雜的問題做精確的“定量”分析,大幅提升研究的效率。這也是為什么國內外許多學術機構、企業爭相建立自己的網格、集群,掀起了一股集群熱。正在籌建的南京大學高性能計算中心專家小組成員周會群教授認為,在理論科學與實驗科學之外,計算科學已經成為科研領域里的第三大支柱,起著理論研究的輔助工具和實驗研究的導航設備的作用。
南京大學作為我國的重點綜合性大學,許多領域的科研水平都居國內前列。數學、物理、天文、化學、計算機、生物及地質等學科都是國家一級重點學科,也是高性能計算的重點應用領域。目前,南京大學的專家小組正以建設計算能力名列國內高校前茅的高性能計算中心為目標,進行選型、測試等工作。籌建中的南京大學高性能計算中心將由一臺具有256核的共享內存并行計算機,以及不小于400個計算節點的集群組成。每個節點具有2路或4路的四核處理器。建成之后,該中心將主要用于物理學、化學與工程、生命科學與生物技術、天文學、大氣科學、地球科學與工程、材料科學與工程等領域的研究。
選型測試,四核皓龍并行效率出色
在選型測試中,專家們對基于不同架構的四核x86服務器做了測試,總的印象是目前主流的四核處理器各有其優點,對于緩存訪問密集型應用程序來說,基于AMD四核皓龍處理器的服務器并行效率比較出色。單臺計算服務器的并行效率是提升集群整體性能的關鍵因素之一。這也驗證了國外的高性能計算中心建設中,較多應用AMD皓龍處理器的情況。最具代表性的高性能計算項目是,美國德克薩斯高級計算中心(TACC)超級計算機項目,采用了1.6萬片AMD四核皓龍處理器,最終將實現每秒計算500萬億次計算能力的超級計算機,甚至超過了著名的IBM藍色基因/L超級計算機。
所謂并行效率,概括來說就是多核處理器的各個核之間,或者多路處理器的CPU之間的相互協作的能力。這種協作的能力往往決定了集群節點的整體性能。而并行效率高,則是AMD多核處理器先進架構所決定的。在并行效率高的背后,是AMD的真多核架構與超傳輸總線。
直連架構是領先的根源
從速龍64和皓龍開始,AMD摒棄了x86架構一貫追求更高主頻的做法,而借鑒了RISC處理器的CMP設計思路,將對更高帶寬的支持引入到x86架構中。通過獨創的直連架構和超傳輸總線技術,將CPU直接連接到內存、I/O,同時消除了傳統的前端總線瓶頸,降低內存訪問的延遲。正由于架構創新上的前瞻性,AMD在做單核的時候就考慮到了未來多核發展趨勢,因而在從單核到多核的過渡中比競爭對手顯得更自然順暢。這也是AMD始終強調自己的多核是“真多核”的根源。
在推出雙核皓龍處理器之后,實現四核最簡單的辦法就是做加法:2+2,將兩個雙核處理器拼裝到一個封裝上就可以直接實現四核處理器,在這種實現方法中兩個雙核處理器幾乎是獨立運行,甚少均衡負載的,在系統請求送達的時候CPU只需要簡單的安排向左走還是向右走即可。但顯然,這樣的四核架構并不能令四個核心達到最高運行效率和負載均衡,最終表現在整體性能上就是在多路多核的環境中并行性不佳。因此,在AMD四核皓龍處理器中,仍然采用CMP(單芯片多核心處理器)設計思路,不用2+2拼裝而是采用單一硅片上集成四個獨立核心:每個核心具備自己單獨的64KB的一級數據緩存、64KB的一級指令緩存,512KB的二級緩存,然后四個核心共享2MB(或者更大)的三級緩存。這樣每個處理器核心都能夠充分發揮自己的效能,使CPU整體性能達到最高。而使用兩個雙核拼裝的方式,每個雙核都要受到另一個的牽制,不能夠充分發揮作用。
從AMD四核皓龍處理器的結構圖中可以看出,每個CPU都擁有自己獨立的內存通道及對外通道,相互之間也能夠靈活通信,實現出色的并行性。AMD的每個處理器有自己獨立的一、二級緩存及共享的三級緩存,無需通過前端總線,避免了瓶頸。
超傳輸總線高速互連
超傳輸總線,也是AMD應用于速龍64及皓龍處理器中的互連技術,是實現AMD四核皓龍處理器良好并行性的另一重要基石。它是摒棄了傳統的前端總線之后的新一代互連技術。傳統的處理器與內存交換數據,是處理器-北橋-內存這樣的交換形式,而這種形式的弊端在于交換數據的延遲比較大,而AMD超傳輸技術正是解決這一問題的,即將原本集成在北橋里的內存控制器集成到CPU內部,這樣內存與處理器之間交換數據的延遲大大縮短。超傳輸總線是一種可變速率的串行接口,而傳統的方式則是使皓龍處理器具備每秒3.2 GB的帶寬,而且因為支持雙向同時傳輸,所以相當于每個超傳輸接口的總帶寬為每秒6.4 GB。串行接口的帶寬在設計時就具備一定的彈性。
隨著更多核心的加入,皓龍處理器可以增加超傳輸總線數量,另一方面超傳輸總線的頻率也可以不斷提升,保證有足夠的帶寬可用。CPU的核心越多,系統中CPU越多路,超傳輸總線就能夠提供越大帶寬,實現提高服務器運算性能,超傳輸總線的效果也就越明顯。通過HT總線進行數據傳輸,性能的提升大幅超過僅僅只是靠系統總線作為數據傳輸數據交換。在即將推出的代號為“上海”的45納米4核皓龍處理器上,超傳輸總線將從1.0版本跨越式升級到3.0版本,時鐘將從1000MHz提升到2.6MHz,超傳輸的帶寬也從8GB/秒躍進到16GB/秒,為CPU之間數據交換提供了通暢的渠道。
創新提升高性能計算平臺
四核直連架構和超傳輸總線集成內存控制器作為AMD多核處理器的兩項獨特創新,為快速提升處理器的性能,特別是處理器的并行性打下了堅實的基礎。兩項技術的共同特點是為多核處理器的核心性能充分發揮鋪好了高速通道,無論是核心之間還是CPU與外界的通信都游刃有余。而且這樣的高速通道具備高度可擴展性,能夠隨著多核處理器核心不斷增加而不斷拓寬,不會產生其它架構的瓶頸問題。周會群教授表示,這兩項技術也是AMD四核皓龍處理器在并行效率測試中取得較好成績的關鍵。好的并行效率,使得每個節點的CPU性能充分發揮,正是從根本上解決了提升集群與網格性能的關鍵性問題,實現高性能計算平臺整體性能提升。
關注我們


