決戰性能之巔!NV雙芯旗艦GTX590評測
GF100的每個SM都擁有4個紋理單元,這樣整顆核心總共就是4x16=64個紋理單元,數量居然僅與G92處在同一水平。要知道GTX480被屏蔽了一組SM之后紋理單元只剩下60個,而自家上代GTX285和對手HD5870都擁有80個紋理單元。難道說NVIDIA認為DX11時代紋理貼圖并不重要,因此在擴充流處理器規模的同時忽略了紋理?
9.5 精兵簡政的紋理單元
GT200的流處理器與紋理
G92的流處理器與紋理
在以往的GT200架構中,是三個SM共享一個紋理引擎,該引擎含有八個紋理定址單元和過濾單元。更早的G92則是兩個SM共享一個紋理引擎。
GF100的紋理單元確實是少了,但NVIDIA重新設計了紋理單元,通過改進效率來提升紋理性能,而不是以暴力擴充規模的方式實現,因為NVIDIA發現龐大規模的紋理單元也存在瓶頸,而且會浪費很多晶體管。
GF100的每組SM內部包含4個紋理單元
NVIDIA的方法聽起來很簡單,但做起來很復雜——就是將紋理單元從外圍模塊搬入到了SM之中,從而提升了紋理高速緩存的利用率、并達到了更高的時鐘頻率。道理就類似于AMD和Intel把內存控制器整合在了CPU內部,從而大幅提升了內存帶寬和延遲。
我們知道,N卡的流處理器工作頻率非常高,達到了核心頻率的兩倍甚至更高,而其包括紋理單元、光柵單元及周邊控制模塊在內的其它部分工作頻率比較低。現在NVIDIA將紋理單元轉移到了SM內部之后,大幅提高了工作頻率,全新的一級緩存將以1200-1400MHz的全速運行,紋理單元雖然還是以半速工作但也受益匪淺。
在GF100架構中,每個SM都擁有自己專用的紋理單元并共享一級紋理高速緩存,GF100專用的1級紋理高速緩存經過重新設計,可實現更高的效率。而且,通過配備統一的2級高速緩存,紋理可用的最大高速緩存容量達到了GT200的三倍,為紋理密集的著色器提升了命中率。
每個紋理單元在一個時鐘周期內能夠計算一個紋理地址并獲取四個紋理采樣。返回的結果可以是經過過濾的也可以是未過濾的。支持的模式包括雙線性、三線性以及各向異性過濾模式。
而且,紋理單元的內部架構還得到了大幅增強。在陰影貼圖、屏幕空間環境光遮蔽等實際使用情況中,凈效應就是所實現的紋理性能得到了大幅提升。
GF100的紋理單元還新增了對DirectX 11中BC6H與BC7紋理壓縮格式的支持,從而減少了HDR紋理與渲染器目標的存儲器占用。
紋理單元通過DirectX 11的Gather4特性,還支持抖動采樣。這樣一來,單一紋理指令就能夠從一個128×128的像素網格中獲取四個紋理像素。GF100在硬件上采用了DirectX 11四偏置點Gather4,大大加快了陰影貼圖、環境光遮蔽以及后期處理算法的速度。憑借抖動采樣,游戲就能夠高效地執行更加平滑的軟陰影或定制紋理過濾器。
關注我們



