Hatékonysági verseny - GF114 VS Cayman

Elemzés - 2011/03/26

Oldalak:     
Fórum
Bevezető
Eltérő architektúrák összehasonlítása mindig bőven szolgáltat alapot vitára - felmerül kérdésként, hogy melyik órajelet melyik órajellel vetjük össze, és miután legalább az egyik kártya gyári órajelein változtatunk, és a két összehasonlított kártya tuningpotenciálja nem feltétlen egyforma, az is vitatható, hogy vajon a két architektúra azonos órajelre van-e tervezve, vagy az egyik magasabb órajelre van kalibrálva, ami több tranzisztorba kerül. Ezért az utóbbi időben mi is óvatosabbak vagyunk az összehasonlításokkal, és igyekszünk úgy beállítani a versenyzőket, hogy a végeredmény reális legyen.
A Caymannek és a GF114-nek első ránézésre nem sok köze van egymáshoz - core órajel terén ugyan csak 7.3%-kal jár magasabban a Cayman, viszont a memória-órajele közel 40%-kal magasabb. Az első kérdés elintézhető annyival, hogy a két GPU vége core órajelben kb. ugyanott van, ezért itt nem jelent gondot az azonos órajel használata - a memória-sávszélesség viszont annyival nagyobb a Cayman esetében, hogy az biztosan extra tranzisztorok elfogasztásával jár. Ezt a kérdést viszont egyszer már megoldottunk a Cayman VS Barts tesztben - a GF114 ellenében két különböző órajeleken hajtott Cayman-"variánst" vetünk be, és így már elég jó képet fogunk kapni a két chip viszonyáról.

Miután a Cayman chip közel 10%-kal nagyobb, és több, mint 30%-kal több tranzisztort tartalmaz, nem kérdés, hogy egyenlő órajelek mellett melyik megoldás lesz gyorsabb. A teszt fő kérdését ezért nem is az adja, hogy melyik versenyző lépi először át a célvonalat, hanem az, hogy gyorsabb-e annyival a Cayman, amennyivel nagyobb a mérete (erre jó esély van), ill. gyorsabb-e annyival, mint amennyivel több tranzisztor van benne (ebben viszont már erősen kételkedünk). Lássuk akkor a medvét!
Előzetes teljesítmény-elemzés
Közismert táblázatunk a következőképpen fest:
VGA neve GF114
@900/1050
Cayman
@900/1050
Cayman
@880/1375
Cayman
vs GF114
HD6970
vs GF114
Core órajel 900 MHz 900 MHz 880 MHz
Shader órajel 1800 MHz 900 MHz 880 MHz
Memória-órajel 1050 MHz 1050 MHz 1375 MHz
Memória mennyisége 1024 MB 2048 MB 2048 MB
Tranzisztorok száma 1950M 2640M 2640M
Gyártástechnológia 40nm (TSMC) 40nm (TSMC) 40nm (TSMC)
Geometriai egységek 2 2 2
Scanline konverzió 16 Pix/clock 32 Pix/clock 32 Pix/clock
ALU egységek (SP-k) * 384 (scalar) 1536 (VLIW4) 1536 (VLIW4)
Textúrázó egységek 64 96 96
ROP egységek ** 32 32 32
Memóriabusz és típus 256-bit gDDR5 256-bit gDDR5 256-bit gDDR5
Triangle setup 1800 Mtri/sec 1800 Mtri/sec 1760 Mtri/sec 0% -2.3%
Scanline konverzió 14.4 GPix/sec 28.8 GPix/sec 28.2 GPix/sec 100% 95.6%
Számítási teljesítmény * 1382 GFlops 2765 GFlops 2703 GFlops
Texel fillrate, 32-bit (FP10) 57.6 GTex/sec 86.4 GTex/sec 84.5 GTex/sec 50.0% 46.7%
Pixel fillrate ** 28.8 GPix/sec 28.8 GPix/sec 28.2 GPix/sec 0% -2.3%
Z-only fillrate ** 115.2 GPix/sec 115.2 GPix/sec 112.6 GPix/sec 0% -2.3%
Memória-sávszélesség 134.4 GB/sec 134.4 GB/sec 176.0 GB/sec 0% 31%
*: a két chip számítási kapacitása nem hasonlítható közvetlenül össze, mert eltérő felépítésűek az ALU blokkok.
**: a Cayman chip ROP-jai INT16 és FP32 adattípusok használatakor a korábbi AMD chipekhez képest képest dupla sebességgel üzemelnek. Ennek gyakorlati jelentőségét egyelőre nem tudjuk felmérni.
Összefoglalva a különbségeket:
  • A két chip frontendje kapacitás terén hasonló (bár kicsit máshogy vannak drótozva) - az egyedüli különbség, hogy a Cayman duplaakkora raszterizáló teljesítménnyel rendelkezik, ami nagyobb felbontások használatakor akár komoly jelentőséggel is bírhat.
  • A számítási kapacitás összevetése mindig bonyolult az nVidia dupla sebességű skaláris SP-i és az AMD VLIW egységei között - a Cayman névleges dupla teljesítményéről természetesen szó sincs a gyakorlatban, de egy olyan 20-30% előnyt el tudunk képzelni az AMD oldalán.
  • Textúrázásban 50%-os előnye van a krokodilos GPU-nak - a gyakorlatban várhatóan ez sem számít ennyire sokat.
  • A GPU hátsó részére viszont elfogyott a Cayman előnye - a fillrate-ek egyformák, és a memória-sávszélességben is csak a gyári órajeleken üzemelő Cayman van előnyben.
Amikor a Barts és a Cayman chipeket vetettük össze, akkor kitűnően látszott, hogy a "lealacsonyított" memória-órajelű Cayman korántsem szenved annyira, mint várnánk - ennek az a legvalószínűbb magyarázata, hogy maguk a ROP-ok nem bírják az iramot a chip többi részével. Ha viszont ez így van, akkor hiába a hatalmas fölény a chip közepén, azonos órajelek mellett a Cayman nem lesz számottevően gyorsabb a GF114-nél - a kiegyensúlyozott esetekre helyes eredményt adó becslő algoritmusunk által előrejelzett 25-27%-nak pedig biztosan nem lesz a különbség a közelében sem.
Tesztkörnyezet
A konfiguráció elemei
Alaplap Gigabyte P45-DS3R, FSB @400MHz
CPU és órajel Intel Q9550 @Q9770 (3.2GHz, 8x400)
CPU hűtés Cooler Master HyperTX3
Memória 4x1GB Geil Ultra DDR2-8500
Memória beállítások 1066MHz (2.66x400), 5-5-5-15, tRD: 8
Tápegység Corsair TX650
Operációs rendszer Windows 7 x64
VGA Core clock Shader clock Memory clock Driver
Radeon HD6970 900 MHz 1050 MHz Catalyst 10.12a hotfix
GeForce GTX560 Ti 900 MHz 1800 MHz 1050 MHz ForceWare 266.66 WHQL
Radeon HD6970 880 MHz 1375 MHz Catalyst 10.12a hotfix
A GTX560 Ti-t a 2011. januári WHQL driverrel mértük, a HD6970-at pedig a 2010. decemberi Catalysttal, amely egyenértékű a 2011. januárival (ld. korábbi tesztünkben).
Az órajelek kiválasztásához adta magát, hogy a HD6970-nel 900/1050-en és a gyári órajeleken voltak tesztjeink - mivel a HD6870 gyári órajele a GTX560 Ti-nek is kényelmesen fekszik, semmi akadálya nem volt ezen mérések ismételt használatának.
Tesztmódszer, a tesztben résztvevő játékok
Tesztjeinkben minden játékhoz 3 beállítást használunk: Balanced, High és Max, sorban az alsó középkategóriás, a középkategóriás és a felső / csúcskategóriás kártyákkal szemben támasztható elvárásokhoz szabva. A Balanced és a High beállítást 1680x1050-es felbontásban vetjük be, az 1920x1080-as felbontásnál pedig szintén megjelenik a High beállítás, és szerepel a Max is - így lesz játékonként 4 tesztesetünk, amelyeket háromszor lemérünk, és a grafikonokra a mérések átlaga kerül.
Megjegyzés: architektúrával foglalkozó cikkeinkben előfordul, hogy csak a két 1920x1080 teszteset szerepel - ez a helyzet most is.
A játékokban vagy beépített benchmarkot használunk, vagy egy-egy kellően intenzív jelenetet játszunk le. Mindkét esetben a méréseket a fraps-szal végezzük - a grafikonokon szereplő átlag fps értékekhez a fraps számait használjuk, a minimum-fps-eket viszont egy egyéni statisztikai módszerrel állítjuk elő a mérés alatt megjelenített frame-ek kiszámolásához szükséges időkből. Az így kapott értékek lényegesen jobban jellemzik a játékokban tapasztalt folyamatosság-érzetet, mint az Internet-szerte használt abszolút minimum-érték.
A tesztekben használt játékok / benchmarkok:

Battlefield:
Bad Company 2
Crysis Warhead F1 2010 Just Cause 2 Lost Planet 2

Mafia II METRO 2033 S.T.A.L.K.E.R.:
Call of Pripyat
Unigine Heaven
Oldalak:     
Fórum