決戰性能之巔!NV雙芯旗艦GTX590評測
在競爭對手還在游戲性能方面苦苦追趕之時,NVIDIA已經在朝著更高的目標邁進了。3D和游戲當然是一個重要方面,是GPU的老本行,而并行計算則是GPU的未來,兩者不但不沖突而且是相輔相成的,NVIDIA的目的是游戲和計算同步發展。
10.2 適合科學計算的Fermi架構
在前文中筆者提到過,GF100是近年來GPU架構變化最大的一次,它不僅僅體現在圖形架構方面,其實他在并行計算架構方面的改進更徹底,現在要講的才是Fermi架構的精華部分。
G80是統一圖形及并行計算的雛形,而GT200是對G80在性能及功能性方面的擴展。而對于Fermi,NVIDIA利用了從之前兩款處理器以及為它們所編寫的應用程序所獲得的經驗,并采用了一種全新的方法而設計和創建了世界上第一款計算GPU。在為Fermi的研發開展準備工作時,NVIDIA聽取了自推出G80和GT200以來大量從事GPU計算的用戶的反饋,并將以下關鍵領域作為改進的重點:
1. 提高雙精度浮點運算的性能——高性能計算與科學計算很少用到單精度。
2. ECC支持——ECC使得GPU計算用戶在數據中心中可放心地部署大量的GPU,并確保數據敏感型應用程序如醫學影像及財務期權定價等不出現內存錯誤。
3. 真正的緩存層次——有些并行算法無法使用GPU的共用存儲器,用戶需要一個真正的緩存架構以提供幫助。
4. 更大的共用存儲空間——許多CUDA程序員需要超過16KB的共用存儲器來實現應用程序的加速。
5. 更快速的情境轉換——用戶需要在應用程序之間實現更快速的情境轉換,以及圖形與計算應用之間更快的互操作。
6. 更快速的原子操作——用戶需要為他們的并行算法實現更快速的“讀-修改-寫”原子操作。
針對以上的這些需求,Fermi工作小組設計了一款處理器,總計算能力得到了很大的提升,通過架構上的創新還大大增加了可編程性以及計算效率。Fermi在架構上的亮點體現在:
● 第三代流處理器簇(SM)
每個SM有32個CUDA核,是GT200的4倍
雙精度浮點運算的峰值性能是GT200的8倍
雙Warp調度器同時調度和分配來自兩個不同warp的指令
64KB的RAM,可配置為共享緩存+L1緩存
● 第二代并行線程執行ISA
統一尋址空間,提供完全的C++支持
針對OpenCL和DirectCompute做優化處理
完全的IEEE 754-2008 32-bit/64-bit精度支持
完全的32-bit整數路徑,64-bit擴展
內存存取指令支持向64-bit尋址的轉換
通過Predication提升性能
● 改進的內存子系統
并行DataCacheTM 層次,擁有可配置的L1和統一的L2緩存
第一款提供ECC內存支持的GPU
顯著提升原子內存操作性能
● NVIDIA TM引擎
應用程序情境切換性能10倍于上代產品
同時執行多個核心程序
線程塊亂序執行
雙重疊式內存傳輸引擎
關注我們



