專訪黃仁勛:CUDA-X86效率遠勝多核CPU
泡泡網顯卡頻道9月25日 美國當地時間9月20日至23日,NVIDIA第二屆GTC2010 GPU技術大會在NVIDIA總部加利福尼亞州圣何塞市召開,NVIDIA公司首席執行官黃仁勛在臺上做了精彩的演講,我們也第一時間為大家獻上了現場報道。
GTC2010相關報道:都是物理學家!NV四代GPU架構代號解讀
GTC2010相關報道:探秘游戲之道!NVIDIA公司總部大揭密
GTC2010相關報道:NVIDIA發布CUDA-X86!跑CUDA無須顯卡
GPU技術大會結束后,出席會議的記者們有幸對NVIDIA創始人、總裁兼首席執行官黃仁勛先生進行了專訪,黃先生饒有興趣的為大家詳細解讀了NVIDIA的產品計劃和相關技術,并耐心的一一解答了來自世界各地的媒體編輯的問題。下面筆者就將專訪相關內容整理給大家:
記者:您是否考慮研發基于X86架構的CPU?
黃仁勛:我們在CPU領域的策略是Arm,我們已經在Tegra中集成了Arm處理器。我選擇Arm是因為Arm是目前世界上成長最快的CPU產品;我們選擇Arm是因為Arm是目前世界上最重要的操作系統所適合的CPU產品,這些操作系統包括Android等;我們選擇Arm是因為在Arm上集中了全球最多的應用編程人員;我們選擇Arm是因為Arm是代表未來的CPU產品,而不是代表過去的CPU。
X86是平緩的上升曲線,而Arm的成長是垂直提升。而我們應該選擇哪個與之合作呢?
記者:但是我們目前并沒有看到Arm在您業務中占有非常大的比重?
黃仁勛:你不能關注在目前的業務比重,而應該關注在未來的業務比重。當你前進的時候,一定要站在時代的前列,而不是人云亦云。
記者:您是否會考慮在GPU中集成X86的CPU?
黃仁勛:不會。我認為Tegra是我們成長最快的個人計算機業務。GeForce+Tegra的模式一定會成長。我不知道未來Windows未來會怎么發展,但是我注意到微軟已經通過了對Arm的授權。微軟是一個軟件公司,而未來世界上最大的軟件市場將會在哪里?——Arm!
我認為所有有遠見的公司都會在Arm進行投入,而不是在X86上進行投入。
記者:昨天我們看到了PGI發布了CUDA-X86編譯器,我們理解:面向x86平臺的PGI CUDA C編譯器(CUDA-x86)能讓開發人員在x86架構工作站、服務器、集群上編譯、優化和運行CUDA架構應用程序,有無NVIDIA GPU均可。從這個角度上說,CUDA X86編譯器的出現有何深遠意義?是希望將CUDA架構進行更進一步的推廣和普及,還是為了讓編程人員看到CPU在硬件架構上的不足而更青睞于進行GPU的編程方式?
另外,您也提到,PGI的CUDA-X86是商業項目,如果運行效率較低的情況下,您認為應該以何種方式進行推廣?
黃仁勛:多核心的CPU解決方案的是不可能與擁有核群GPU的解決方案在延展性達到一樣的執行效率的?,F實中很多應用中并不能對多核心并行運算進行非常好的擴展性支持。造成這種情況的原因與GPU擁有的高帶寬及運算連貫性有關,但是不止如此。
即使實際的性能表現并不像使用GPU的擴展性那么好,在CPU使用CUDA X86進行編程還是可以較大幅度提升應用運行的效率。如果CUDA可以在一個1000核心的CPU核心集群中運行,執行的速度仍然會得到提升,仍然會帶來很多的優勢。最重要的優勢是CUDA應用可以在任何配置下運行。
PGI將會努力提升CUDA X86的性能,我也會努力提升這個編譯器的性能,因為我希望CUDA可以成功,那CUDA一定要在保證應用在所有平臺上。
PhysX可以在沒有NVIDIA芯片的iPhone、Xbox 360,PSP都能運行,同樣PhysX也可以在X86和CUDA上運行,我們為PhysX在所有的平臺上進行優化,因為我們希望PhysX成功。
記者:最了解NVIDIA的是NVIDIA自己,在Tegra上,如果您能提供一個很好的硬件,但是軟件是交給別的人在做,您在未來是否會考慮自己開發Tegra的操作系統?
您怎么評價Intel的MeeGo,為什么?
您是否會像Apple簡歷自己的Apple Store一樣建立一個自己的CUDA Store。
黃仁勛:第一個問題的答案是:不會。
第二個問題的答案是:這不是個好主意。
第三個問題的答案是:有可能
第一個問題而言,首先,我們需要做一些對全世界有幫助,同時又是我們長項的事情。有很多的公司在開發操作系統這個領域上非常出色,例如API,Middle Ware,System Software等等。我們不會成為這個領域中的頂尖人物。下一個問題是,我們是否會對全世界有幫助,目前全世界已經有很多很好的操作系統,比如說蘋果的IOS、黑莓操作系統、Android、Symbian和Meego。
就第二個問題而言,為什么Intel要做一個全球第六的操作系統?在操作系統中不存在第六名,沒有軟件工程師愿意為排名第六的操作系統寫應用程序,你會愿意服務第五、第四嗎?不會!你會直接選擇第一或者是第二。那么為何Intel要開發一個Meego系統呢?問題是IOS、 Android、Symbian、Windows Mobile,所有這些操作系統都不知道X86架構。如果Intel不做Meego,他們就是排名0!所以Intel沒有其他的選擇。X86在移動市場上沒有未來,X86是企業級的應用。而NVIDIA更沒有必要去做排名第七的操作系統。
如果NVIDIA不做自己的操作系統,就可以去選擇用誰的CPU,我不容遲疑選擇了前五,也就是選擇了Arm的CPU。如果我選擇了對Tegra運行X86,那我就是第二個Intel了!X86是過去的操作系統。
CUDA Store,也許吧,可能。
Tegra 2整合了Arm架構的雙核CPU
記者:我們知道針對移動設備平臺的研發要比電腦要慢,那么您是否有計劃將CUDA引入Tegra?您是否準備在Tegra設備上引入3D立體?
黃仁勛:只要軟硬件準備完備,這將非常快。
3D立體這個想法非常好,我們將會有手持設備上的3D,并且是裸眼3D。非常完美。
記者:那您是否準備將基于Arm的產品作為臺式機替代品?
黃仁勛:盡管Arm是成長最快的CPU,但是Arm的性能對于處理日常工作而言還是太弱了。Arm的處理能力至少要提升2-4倍以上,才能達到這個要求。我們也需要針對Arm進行功能調整才能能將其裝入服務器等其他計算機。
我認為這事時間的問題:10年,肯定沒問問題;5年,有可能;1年,絕對不可能!
NVIDIA自己的Tegra平板電腦樣機
記者:你認為平板電腦替代普通臺式機的時間點在哪里?
黃仁勛:平板電腦沒有鍵盤,而PC(筆記本電腦)是在鍵盤之下的,這是因為筆記本電腦很熱,需要進行風道、熱管等方面的設計和散熱,在設計上需要更大的空間。
在未來,單片機(SOC)解決方案將會位于顯示屏之后,這意味著鍵盤下面什么都沒有,鍵盤只是個塑料片而已。所以在未來,SOC可能是筆記本的形式,也可能是平板電腦,也可能是一個外接的底座。
從時間上來說,我預計:5年后,在座的沒有人會帶著PC過來;3年后,大部分人不會帶PC,1年后,有些人不會帶PC了。5年,將是PC行業的全部壽命。
記者:我想請您預測一下采用CUDA的圖像處理在未來將會有什么發展的趨勢?
黃仁勛:圖像處理還是會非常重要。圖像處理是最重要的采用并行計算的民用應用。比如說,我們與Adobe的合作很成功,我們與Musemage在未來的Photoshop也十分成功。你也看到Adobe實驗室的可計算攝影功能,可計算攝影是攝影行業的未來!我認為這是一個很重要的領域,所以我們投入很大。
Musemage:完全基于GPU的圖像處理元件
記者:現在基于GPU的圖像處理軟件越來越多,而無論對于軟件開發者還是最終用戶而言,也都是希望開發的軟件既能夠面對AMD和NVIDIA都能達到支持,那么您認為應該如何影響普通消費者?
黃仁勛:我們希望先從游戲玩家開始進行影響。游戲玩家受到我們的影響。而普通消費者不同,他們會受到賣場促銷、OEM、朋友之類的影響,直接溝通游戲玩家更加直接。
NVIDIA的GPU云計算產品RealityServer
記者:您怎么看將GPU應用于云計算?
黃仁勛:這對我們來說是個絕好的機會,我認為將GPU應用于云計算,我們首先面對的問題是要解決云的提供者的解決方案。人們不能只買一片顯卡或者一個芯片,所以我們與IBM、HP、Dell有著合作伙伴關系。目前全球最大的三個服務器廠商均有Tesla的解決方案。現在Amazon可以買這樣的解決方案。
并且IBM、HP、Dell還發布了1U的刀片服務器,更加方便擴展。
記者:目前GPU的計算,目前主要應用于學術界,主要是出于什么優勢讓這些結構選用了GPU?
黃仁勛:人們選用GPGPU的原因,主要分為幾類,有些人需要更多的性能,而這個性能是目前CPU集群無法提供的,比如這個房間就是你的機房,你能達到的極限性能就是用CPU填滿這個房間能到的極限性能,而采用GPGPU可以讓你在這個面積上在并行計算中達到10,20甚至50倍的性能提升。
有些人需要移動性的需求,比如GE、西門子、東芝等,他們需要將整間房子的運算性能放進一個箱子里面,放在醫院或者醫生的辦公室里。這類用戶不需要性能提升,但是需要體積的減少。
還有一類客戶更加嚴格,他們既需要性能的提升,也需要體積的減小,比如帶上飛機。
還有一類客戶,需要擴展PC的性能,例如Adobe,他們可以用一個集群做可計算視覺效果,但是需要一個PC來剪輯視頻,這就是尺寸決定的。GPU也能可以滿足。
還有一類客戶,需要降低成本,目前的系統可以滿足他們的需求,但是他們需要將這個系統分給很多人用,成本限定了他們需求,而GeForce可以幫助他們解決這類問題。
原因多種多樣,但是總的來說GPGPU可以提升速度,降低成本!
記者:為何此次大會會要公布路線圖?
黃仁勛:因為人們很想知道。
NVIDIA下兩代GPU路線圖
記者:昨天在開場的Keynote演講上你提到了下一代產品Kepler以及更下一代的產品的Maxwell,并且您也提到了針對Tesla產品,最終Maxwell在雙精度運算每瓦特性能上將會有16倍以上的提升,那么您對未來的GPU在雙精度運算性能與功耗之間的平衡是怎么看?
黃仁勛:現在的問題越來越有針對性了??赡苁?:0.5,也許是2:3,也許是其他的比例。這些都是可能的答案,因為我還需要等待最終的設計完成。如果結論是1:0.5的比例的話,也許我將會在GPU中不知更多的SM單元,但是如果每個SM不能夠充分的被利用,我也可能會減少SM單元,但是每個SM單元的效能上進行提升。
再加上在制程以及顯存等方面的選擇,讓這個問題的答案更加復雜了。這個答案只有在打樣的一年到半年前左右才能夠真正揭曉。
記者:您談到Maxwell與Tesla的提升大約為16倍的性能功耗比,這個提升主要體現在性能上提升上還是功耗的控制上?
黃仁勛:不止16倍,Tesla到Fermi,大致提升3-4倍,Fermi到Kepler的提升大概3-4倍,Kepler到Maxwell的提升大致3-4倍。
這個提升主要體現在性能上,因為功耗一定的。對于整機而言,1000w是一個極限。我們的設計理念中不會過于強調晶體管的單個性能。這正是并行計算的優勢所在,隨著工藝的提升,晶體管的功耗會越來越低,我們就可以放入更多的晶體管,每個晶體管的性能會有提升,但是并不是
記者:未來會不會將IO加入到GPU的設計之中?
黃仁勛:這是個好主意,我們也正在進行相關的嘗試。最大的問題不是物理上的接口問題,而是邏輯接口的問題,目前IO都是直接與系統存儲相連,點用數據是需要從系統內存通過IO再到GPU,這個過程非常浪費。我認為PCI-E更為適合,PCI-E的貸款足夠進行大規模數據傳輸。主要的瓶頸還是系統內存。我希望在未來可以從DMA直接到內存,不通過CPU。性能提升不只一翻。
記者:和歐美游戲市場更重視對GPU性能要求較高的單機游戲不同,目前亞洲市場更傾向于對GPU性能要求不非常高的網絡游戲。對于這個情況,NVIDIA未來會不會在游戲項目合作開發商提供更多差異化的增值服務?
黃仁勛:我們在全球有游戲之道項目,前幾天我們在韓國與暴雪一起發布了星際二,在中國,我們所有主要游戲開發商建立了聯系,在美國,我們與暴雪保持緊密的溝通。我們創造了很多游戲開發商用得到的技術,例如PhysX就是其中之一。另外還有很多顯示相關的技術,像Tessellation等,之后游戲開發商憑借這些技術完美他們的游戲??偟膩碚f,我們并非只是做了游戲之道這個名稱,我們與游戲開發商一起推動這個產業。
記者:事實上,目前游戲和圖形硬件的研發都圍繞微軟DirectX來設計。那么在未來,您認為NVIDIA能夠從規則的執行者轉變為規則的制定者,從硬件上對游戲發展進行一定程度的規劃?
黃仁勛:我們研究DirectX,我們也要OpenGL,但是越來越多的,這只是一個底線,越來越多的游戲需要更為復雜的引擎,我們有3D立體幻鏡引擎、PhysX引擎還有iRay引擎。除了API之外,這些引擎也是非常復雜的,我們需要為游戲開發商開發這些引擎。
我們將支持大眾需要的API,如果DirectX不夠優秀了,還會有OpenCL,OpenGL以及CUDA等很多引擎。我們支持所有的這些API,讓游戲開發商自己選擇適合的API。但是在未來,中間件變得越來越重要。PhysX和iRay對游戲開發商而言都太過于復雜了,我們需要將這些中間件做好提供給游戲開發商。
記者:您認為GPU的幾何單元和曲面細分還能在哪些方面起作用?
黃仁勛:最大的需要視覺計算的領域恰恰是PhysX。PhysX是接下來最主要的應用。我們需要將PhysX變得簡單易用并且可擴展。還需要支持所有的物理效果。如果我們想讓游戲變得像電影一樣,那PhysX一定是必要的。
記者:請您談談GPGPU與APU之間的區別?
黃仁勛:APU是CPU和GPU的結合體,而GPGPU是一個GPU與一個CPU分開的。
集成不是個壞想法,但主要是針對降低成本的好辦法。集成之后就降低了創新的速度,所以一旦集成了,就面臨研發速度的下降。有些人需要非常好的CPU與非常好的GPU,但是一旦集成了,就會出問題。比如說Intel有很好的CPU,而AMD的GPU比Intel的要好,如果將Intel的CPU與AMD的GPU結合,那一定是一個不錯的APU!你需要很好的CPU和GPU,是因為你有需求,但是有些人不在乎。不過如果是不在乎CPU和GPU性能的人,我想他也一定不在乎APU。所以我認為在GPU和CPU密集的領域如游戲、高性能計算等方面,CPU和GPU還是獨立的。
直到技術發展到瓶頸了,才會出現集成的想法,但是你看現在我們的Tesla、Fermi、Kepler、Maxwell的發展趨勢,不需要集成。
并且APU的功耗很高,據稱有9w-25w,這在移動設備上幾乎就是個核電站,會非常熱!對于移動設備來說,最高的頂限是500mw,實在是太糟了!比太糟還要再糟十倍!■<
關注我們



