X86架構(gòu)的GPU?解讀Larrabee規(guī)格特性
去年,我們感受到了3D領(lǐng)域的新成果。硬件方面,一方是NVIDIA的全新架構(gòu)——GT200,依舊是性能至上的設(shè)計(jì)模式,再通過閹割等手段推出不同定位顯卡;另一方面是AMD的全新設(shè)計(jì)理念,設(shè)計(jì)初衷就是中端理念,協(xié)調(diào)性能與價(jià)格之間的關(guān)系,高端領(lǐng)域通過“雙芯”設(shè)計(jì)這一捷徑完成。軟件方面,微軟的DX11也即將伴隨著windows 7而來,帶來全新的圖形體驗(yàn)。
雖然3D領(lǐng)域看似熱鬧非凡,但似乎少了什么,作為世界靠前芯片企業(yè)——Intel,雖然在全球顯卡市場(chǎng)占有率上占據(jù)絕對(duì)優(yōu)勢(shì),但實(shí)際上都?xì)w功于整合主板的的功勞(OEM廠商出量產(chǎn)品集成顯卡占絕對(duì)優(yōu)勢(shì)),在3D領(lǐng)域的前沿,獨(dú)立GPU并沒有什么作為。
對(duì)于一家以芯片技術(shù)見長的企業(yè),這種現(xiàn)狀是不能忍受的。造成這樣的情況要從十年前說起,當(dāng)時(shí),Intel草草推出了一款獨(dú)立顯卡i740,當(dāng)時(shí)的情況,可以說是顯卡領(lǐng)域群雄爭霸的黃金時(shí)代,除了兩家較大的公司NVIDIA和ATI外,Matrox的幻日Parhelia、3DLabs的Realizm,XGI的Volari以及奄奄一息的3DFX的巫毒,當(dāng)時(shí)可謂是群雄爭霸的年代,而GPU這種產(chǎn)品,需要持之以恒的大量物質(zhì)投資和人力資本,只有少數(shù)幾個(gè)大公司才能負(fù)擔(dān),而當(dāng)時(shí)的Intel,正和AMD爭斗GHz的桂冠,無暇顧及顯卡,所以只能飲恨轉(zhuǎn)型至集成領(lǐng)域。
時(shí)至今日,Intel依舊對(duì)larrabee猶抱琵琶半遮面,這其中的原因是復(fù)雜的。首先,GPU和CPU是有差異的,雖然Intel的開發(fā)實(shí)力不容置疑,但要想短期內(nèi)追趕上AMD和NVIDIA也是不現(xiàn)實(shí)的。其次,GPU研發(fā)需要大量資金做后盾,雖然Intel不差錢,但投資沒有產(chǎn)出的話,何必做呢?
現(xiàn)在的市場(chǎng)和十年前不同了,當(dāng)時(shí)市場(chǎng),還沒有統(tǒng)一的業(yè)界標(biāo)準(zhǔn),各方對(duì)GPU的重要性認(rèn)識(shí)不同,當(dāng)時(shí)的3Dfx, Nvidia, and PowerVR認(rèn)為GPU會(huì)成為未來PC的主旋律,而另一些GPU廠商Matrox, S3, and ATI則認(rèn)為GPU僅是的3D加速器而已。這種混亂的狀態(tài)也是促使Intel放棄獨(dú)立GPU的一個(gè)原因。
到現(xiàn)在,這個(gè)問題已經(jīng)十分明朗了,業(yè)界對(duì)GPU的看法較之前已經(jīng)很大的改變。在NVIDIA的推動(dòng)下,基于GPU類的通用計(jì)算已經(jīng)有了一些眉目,GPU不再是3D游戲的附屬品了。

GPU通用計(jì)算的應(yīng)用——蛋白質(zhì)分析
雖然我們?nèi)耘f在摩爾定律下生存,但不得不承認(rèn),現(xiàn)在PC換代升級(jí)后的性能提升感受已經(jīng)大不如前,以core2升級(jí)core i7為例,用戶實(shí)際性能感受并不明顯。其中的原因是多方面的,系統(tǒng)、CPU架構(gòu)改變難等。現(xiàn)在的PC系統(tǒng),CPU性能即使提升再多,也不是很明顯,從游戲來看,高端4核與中端雙核的表現(xiàn)相似,而游戲性能更多取自于GPU,從應(yīng)用來看,在多密集型運(yùn)算中,GPU較CPU有得天獨(dú)厚的優(yōu)勢(shì),這些都是促使Intel重返GPU領(lǐng)域的原因。
首先要說明的是,larrabee并不是傳統(tǒng)意義上的GPU,本質(zhì)上講,它就是CPU,由多顆X86架構(gòu)的CPU通過環(huán)形總線并行組成,接替?zhèn)鹘y(tǒng)GPU的功能。
從上圖我們可以看到,在Larrabee的內(nèi)部,每一個(gè)處理核心都可以發(fā)出2條指令,這種架構(gòu)是繼承了最初的奔騰處理器的設(shè)計(jì)。在老奔騰的基礎(chǔ)上,Intel的工程師們也作了許多修改和提升。首先讓老Pentium核心可以支持64bit指令處理,提升了x86指令集的處理,為處理核心加裝了更大容量的高速緩存。另外還支持4路SMT/Hyper Threading超線程和16路矢量ALU算數(shù)邏輯單元。
類似IBM的cell處理器,Intel吸取了一些經(jīng)驗(yàn)來設(shè)計(jì)Larrabee。為了避免高頻帶來的困擾,發(fā)熱量加大,功耗升高等,Larrabee的設(shè)計(jì)思路是多路并行,即通過多核心來提高性能。
通過上表我們可以比較Core2與Larrabee的數(shù)據(jù)吞吐量,理論上說明每個(gè)時(shí)鐘周期之內(nèi),多核心處理器可以處理更多的數(shù)據(jù)和指令。運(yùn)行一個(gè)單一的指令流,例如單指令的應(yīng)用程序,那么Core 2處理器每個(gè)時(shí)鐘周期可以執(zhí)行4次操作,每個(gè)時(shí)鐘周期可以發(fā)出4條指令,但是執(zhí)行單元無法在每個(gè)時(shí)鐘周期內(nèi)執(zhí)行4條指令。在10核心的架構(gòu)中,盡管它每個(gè)時(shí)鐘周期僅僅可以發(fā)出2條指令。在一個(gè)單指令流的程序中,它的峰值是每個(gè)時(shí)鐘周期2次操作。僅有Core 2處理器的一半。但Core 2處理器只有2個(gè)處理核心,每個(gè)核心在每個(gè)時(shí)鐘周期內(nèi)可以執(zhí)行4個(gè)SSE指令,那么Core 2總計(jì)每個(gè)時(shí)鐘周期可以進(jìn)行8次操作。但是具備10核心的Larrabee就大不一樣了。它每個(gè)時(shí)鐘周期可以執(zhí)行160次操作,這相當(dāng)于20倍Core 2的數(shù)據(jù)吞吐量。
架構(gòu)的東西設(shè)計(jì)的再好,沒有優(yōu)良的核心效率也是不行的。那么,larrabee的核心較“CPU”有什么變化呢?

以現(xiàn)在的GPU計(jì)算能力來看,使用類似奔騰架構(gòu)為核心larrabee,即使數(shù)量再多也不能占據(jù)性能優(yōu)勢(shì),因此Intel通過支持4路SMT/Hyper Threading超線程和16路矢量ALU算數(shù)邏輯單元,以及自己的拿手絕活——最大限度地添加L2緩存。加強(qiáng)了核心浮點(diǎn)運(yùn)算的能力。

并發(fā)超線程技術(shù),我們已經(jīng)在i7身上看到了其效能,在多路測(cè)試中表現(xiàn)出了搶眼的效果,而將這項(xiàng)技術(shù)運(yùn)用于基于并行運(yùn)算理念設(shè)計(jì)的GPU身上,無疑是如虎添翼。相信只要編譯器得到,larrabee的并行運(yùn)算效率至少不會(huì)比現(xiàn)有的GPU差。
對(duì)GPU來說,檢驗(yàn)其性能較好的測(cè)試莫過于實(shí)時(shí)演算了,這也是為什么各路廠商都樂于在3D mark上比拼得分了。在統(tǒng)一的測(cè)試環(huán)境下,得出相對(duì)公正的性能得分。
雖然我們暫時(shí)不能領(lǐng)略Larrabee的3D mark得分,但I(xiàn)ntel官方還是放出Larrabee的實(shí)時(shí)演算視頻:
看過以上介紹的larrabee規(guī)格,擁有強(qiáng)悍的通用性,以及豐富地市場(chǎng)定位,似乎Intel這輛藍(lán)色坦克要將GPU這塊失地重新奪取回自己手中。但即使這是Intel巨人說的,我們也要保持冷靜的頭腦。
任何產(chǎn)品,但凡僅是存在紙面上,那么對(duì)其就要打個(gè)問號(hào)!當(dāng)年的安騰,曾被認(rèn)為是未來處理器的發(fā)展方向,但結(jié)果呢?全新的架構(gòu)給操作系統(tǒng)帶來了難以逾越的考驗(yàn),與應(yīng)用存在一定距離,最后退出市場(chǎng)也不難理解了。
所以現(xiàn)在對(duì)larrabee進(jìn)行評(píng)價(jià)是不客觀的,盲目地接受或否定一項(xiàng)新技術(shù),都是不正確的。但不可否認(rèn)的是,larrabee對(duì)Intel來說,是迫切的產(chǎn)品,即使第一代產(chǎn)品的性能達(dá)不到理想程度,但趕上通用計(jì)算這趟列車,是最重要的。<
關(guān)注我們


