最強(qiáng)超級(jí)計(jì)算機(jī)!天河一號(hào)A 內(nèi)部探秘
泡泡網(wǎng)顯卡頻道12月23日 北京時(shí)間12月22日下午,NVIDIA總裁黃仁勛先生在結(jié)束了“2010 GPU高性能計(jì)算峰會(huì)”之后,帶領(lǐng)NVIDIA公司眾多員工和媒體記者朋友們,共同參觀了位于天津?yàn)I海新區(qū)的國(guó)家超級(jí)計(jì)算機(jī)天津中心,目前世界上最快的超級(jí)計(jì)算機(jī)“天河一號(hào)A”就安裝在這里。
筆者有幸跟隨黃仁勛先生親眼目睹了世界最強(qiáng)超級(jí)計(jì)算機(jī)的尊容,并且在國(guó)家超級(jí)計(jì)算機(jī)天津中心工作人員的講解下,深入了解了有關(guān)天河一號(hào)A的相關(guān)技術(shù)特性和應(yīng)用。下面筆者就將本次天津之行的過(guò)程分享給泡泡網(wǎng)友們。
一進(jìn)入國(guó)家超級(jí)計(jì)算機(jī)中心,映入眼簾的就是國(guó)家主席胡錦濤親筆題寫(xiě)的“天河”兩個(gè)大字,以及鼓勵(lì)科研人員不斷進(jìn)取創(chuàng)新的發(fā)言。經(jīng)過(guò)三年的努力,“天河一號(hào)A”不負(fù)眾望終于拿下了TOP500世界靠前,為國(guó)爭(zhēng)光!
國(guó)務(wù)院總理溫家寶在得知“天河一號(hào)A”成為世界最強(qiáng)的超級(jí)計(jì)算機(jī)之后,第一時(shí)間來(lái)到了國(guó)家超級(jí)計(jì)算天津中心,參觀并慰問(wèn)了廣大科研工作者,并發(fā)表了重要講話。
現(xiàn)在,我們就沿著溫家寶總理的參觀路線,跟隨黃仁勛先生,一同揭開(kāi)天河一號(hào)A的廬山真面目。
在進(jìn)入天河一號(hào)A機(jī)房之前,我們可以看到這臺(tái)超級(jí)計(jì)算機(jī)所取得過(guò)的榮譽(yù)和獎(jiǎng)項(xiàng)。天河一號(hào)A是在天河一號(hào)的基礎(chǔ)上改進(jìn)而來(lái)的,而天河一號(hào)曾在去年一舉殺進(jìn)了TOP500前十名,而且是首次以CPU+GPU異構(gòu)計(jì)算的身份,因此備受矚目。
天河一號(hào)去年排行第七,今年成為了世界靠前
點(diǎn)擊查看視頻
超級(jí)計(jì)算機(jī)是由無(wú)數(shù)顆CPU和GPU以及互聯(lián)網(wǎng)絡(luò)組合而成的,因此我們可以看到天河一號(hào)A的真身就是一組組類(lèi)似于服務(wù)器的機(jī)柜,相信大家對(duì)其內(nèi)部結(jié)構(gòu)更加感興趣。
國(guó)家超級(jí)計(jì)算中心的工作人員知道大家對(duì)天河一號(hào)A的內(nèi)部結(jié)構(gòu)非常好奇,于是打開(kāi)機(jī)柜,將其中的一組加速模塊抽了出來(lái),展示給黃仁勛先生以及眾多記者朋友們。
這一組加速模塊就是由兩片Tesla M2050高性能計(jì)算卡組成的,天河一號(hào)A 70%左右的運(yùn)算能力都是由Tesla GPU所提供。Tesla能夠幫助天河一號(hào)A取得如此佳績(jī),黃總表示非常自豪。
在天河一號(hào)A的機(jī)柜上,我們看到了類(lèi)似于空調(diào)的冷卻系統(tǒng),光散熱就需要消耗8.3千瓦的功率。當(dāng)然這對(duì)于一臺(tái)超級(jí)計(jì)算機(jī)來(lái)說(shuō)并不夸張,據(jù)專(zhuān)家表示,如果單純使用傳統(tǒng)處理器的話,要達(dá)到同樣的性能需要至少50000顆CPU,同時(shí)系統(tǒng)功耗也會(huì)達(dá)到驚人的1200萬(wàn)瓦特,而現(xiàn)在使用混合架構(gòu)之后功耗僅為404萬(wàn)瓦特,節(jié)省下來(lái)的電力足夠5000多戶居民使用一年。
天河一號(hào)A機(jī)柜下方的地板原來(lái)是空的,里面就是冷卻系統(tǒng)的傳輸通道,20多萬(wàn)顆處理器核心在工作時(shí)發(fā)出的廢熱,就從這里導(dǎo)出到整個(gè)大樓之外。
對(duì)于正在運(yùn)行中的天河一號(hào)A系統(tǒng)來(lái)說(shuō),我們不能要求工作人員抽取更多的模塊來(lái)滿足大家的好奇心,所以還是來(lái)看看展示中的天河一號(hào)A主要配件吧。首先是最重要的處理器芯片:
天河一號(hào)A擁有14336顆Intel Xeon X5670 2.93GHz六核心處理器、7168塊NVIDIA Tesla M2050高性能計(jì)算卡,還有2048顆我國(guó)自主研發(fā)的飛騰FT-1000八核心處理器,總計(jì)20多萬(wàn)顆處理器核心,同時(shí)還更換為專(zhuān)有互聯(lián)網(wǎng)絡(luò)。
超級(jí)計(jì)算機(jī)恐怖的運(yùn)算能力,簡(jiǎn)單來(lái)說(shuō)就是靠堆CPU、GPU來(lái)實(shí)現(xiàn)的,但如何將龐大數(shù)量的處理器通過(guò)網(wǎng)絡(luò)和節(jié)點(diǎn)集合起來(lái)、讓它們高速并行的協(xié)同工作,這就是硬件方面最大的難點(diǎn)。“天河一號(hào)A”通過(guò)使用自主研發(fā)的處理器、網(wǎng)絡(luò)、互聯(lián)芯片,解決了這一難題,從而實(shí)現(xiàn)了不可思議的硬件規(guī)模和傲視群雄的運(yùn)算能力。
據(jù)悉,組成天河一號(hào)A的以上板卡和芯片,多為國(guó)產(chǎn)自主研發(fā)設(shè)計(jì)。正是因?yàn)樘旌右惶?hào)A擁有如此龐大而又高效的互聯(lián)網(wǎng)絡(luò)系統(tǒng),才使得CPU+GPU的異構(gòu)系統(tǒng)可以獲得50%以上的最大性能與峰值性能比值,堪稱(chēng)GPU加速系統(tǒng)中的佼佼者。
“天河一號(hào)”目前已在國(guó)家超級(jí)計(jì)算天津中心完成安裝部署,主要面向國(guó)內(nèi)外高性能計(jì)算市場(chǎng),為包括石油勘探數(shù)據(jù)處理、生物醫(yī)藥研究、航空航天裝備研制、衛(wèi)星遙感、基礎(chǔ)科學(xué)理論計(jì)算等領(lǐng)域內(nèi)的大規(guī)模計(jì)算提供服務(wù)。
以下為現(xiàn)場(chǎng)展示的天河一號(hào)A實(shí)際應(yīng)用案例:
超級(jí)計(jì)算機(jī)多用于計(jì)算密集的科學(xué)仿真,在能源、石油、地球物理、氣象、科學(xué)計(jì)算、生物信息、網(wǎng)游、金融等各種領(lǐng)域應(yīng)用廣泛。由于高性能計(jì)算在國(guó)防、軍事上至關(guān)重要,某種意義上也象征著一個(gè)國(guó)家的IT技術(shù)實(shí)力。但是,高性能計(jì)算由于造價(jià)高昂,編程困難,導(dǎo)致應(yīng)用門(mén)檻高,一直有“高處不勝寒”的問(wèn)題。
天河一號(hào)A所使用的CPU+GPU異構(gòu)計(jì)算系統(tǒng),在編程方面也遇到了很多困難,但在NVIDIA的鼎立協(xié)助下,依靠CUDA計(jì)算平臺(tái)在運(yùn)行效率方面取得了突破,在各行各業(yè)都得到了普遍的應(yīng)用,目前天河一號(hào)A已經(jīng)在高負(fù)荷商業(yè)運(yùn)行當(dāng)中,為國(guó)際國(guó)內(nèi)科研工作者提供超級(jí)計(jì)算服務(wù)。■<
關(guān)注我們



