天河一號A稱霸!超級計算未來屬于GPU
記者:像這種CPU+GPU異構計算架構的超級計算機,使用了很多顆GPU,同時也使用了更多的多核心CPU,他們都擁有龐大的運算能力,那么在其最終實際運算量當中,大概有百分之多少是GPU貢獻的,有多少是CPU貢獻的?
Andy Keane:不同的超級計算機,其互聯網絡和結構有所不同,但大概來看的話,CPU運算量占20%,GPU占到80%。
記者:那就是說,GPU的運算量要比CPU大很多,以后的比例會繼續提高嗎?是不是意味著以后不需要太強的CPU,只需要能夠管理的GPU就可以了?
Andy Keane:在系統的設計中,實際上是一個設計平衡的問題,一定要在各個環節里達到平衡,比如說你的GPU速度越快,就意味著你需要快速的CPU的速度,還有網絡的速度以及內存的大小,是需要達到一個平衡的。也就是說更快的GPU還是需要更快的CPU支持。
最新的中國超級計算機排行榜單
記者:我們今天看到中國的TOP100里面前三名都采用了Tesla的GPU,但是我們發現效率有很大的不同,第一名(天河一號A)最高,達到53%,第三名(中科院工程研究所)才達到18.5%,這個第三名也用到了GPU加速的互聯技術。從GPU采用角度來說,NVIDIA公司對混合計算的效率有什么看法,或者說對于未來采用混合技術的開發人員有什么忠告,采用什么樣的架構來保證混合計算體系架構的一個更高效率?
Andy Keane:系統的實際運行效率是由它所要運行的應用所決定的,你剛才提到的,效率比較低的第三套系統,它大多的工作就是處理分子動力學和離子仿真。它的應用就導致你需要對它的架構進行一些特殊的設計。新的天河一號A它主要面臨的應用,是希望能夠廣泛的應用,我們也需要進行不同系統的設計。所有超性能計算機會用于不同的終端,只是現在比較普遍的衡量他們性能的標準都是Linpack值。
謝強:我補充一下,高性能計算機設計體制結構的兩種方式:一種是有應用主導,然后設計計算機;第二種是我要設計一種通用的高性能計算機。所以大家設計計算體系結構的思想是不一樣的。比如中科院的方式,他們是先有了應用,先有了離子仿真和分子動力學的應用,完全是按照他們的應用,他們的應用在上面跑的效率最好。但是非常不幸的是,今天世界排名只用Linpack的測試軟件,中科院的系統設計不是為了跑Linpack設計的機器,他們是為了自己的分子動力學和離子仿真設計的機器,這樣就導致用同一個測試程序測試的時候,結果會有比較大的差異。但是天河這臺機器是為了不同的應用,它的設計更通用一些。
記者:看起來Tesla的效率是挺高的,但與純CPU系統的超級計算機70%-80%的效率相比還是有一定的差距。
謝強:他們自己(中科院工程研究所)的應用效率是非常高的,可能能達到70%、80%,甚至80%、90%,非常高的效率。為什么會有這樣的原因呢?分子動力學和他們那種計算模式,在不同的節點之間做計算的時候沒有節點之間的通訊,而Linpack的程序節點之間是有通訊的。應用不一樣,是造成這個問題最主要的原因。但是目前大家沒有更好的衡量高性能計算的方式,Linpack已經是不錯的了,大家默認Linpack測試了,不斷你是什么結構設計的機器,都用這個來測試,這樣大家都有一個排名了。
記者:我們知道“天河一號”去年發布的時候,它是中國TOP100的第一名,那時候他用的是AMD的HD4870X2,可能很多人會有疑問,到今年怎么都換成Tesla,我們也知道一些原因,想請NVIDIA具體給我們闡述一下,“天河一號A”基于什么樣的考慮讓他們最后把AMD的4870X2換成了Tesla?
Andy Keane:最主要的原因就是軟件,NVIDIA公司提供了一個范圍非常廣的編程環境,使開發人員的能力得到很大的加強,所以說,主要還是提供了非常良好的編程環境。人們一般情況下會更多的關注語言,就系統而言真正關注的有兩類人:一個是應用開發人員;另一類是對IT系統進行維護的人員。我們支持的ECC,首先它可以進行很好的SMI的管理,另外它也有一些軟件工具,幫我們更好的管理集群。一方面可以進行很好的應用開發,另一方面還可以管理集群,所以這兩者加在一起才使得系統表現的如此出色。一方面你要考慮這個系統是誰建造的,另外一方面還要考慮,是誰讓建好的系統能夠得以應用,這兩個因素缺一不可。
像“天河一號A”里面用了7000多個GPU,放到一個系統中,除了開發應用技術之外,還有管理、維護的大量工作,而我們正好有這樣管理、維護的技術,可以幫他們更好的管理。
關注我們



