Bevezető
Eltérő architektúrák összehasonlítása mindig bőven szolgáltat alapot vitára - felmerül kérdésként,
hogy melyik órajelet melyik órajellel vetjük össze, és miután legalább az egyik kártya gyári órajelein változtatunk,
és a két összehasonlított kártya tuningpotenciálja nem feltétlen egyforma, az is vitatható, hogy vajon a két
architektúra azonos órajelre van-e tervezve, vagy az egyik magasabb órajelre van kalibrálva, ami több tranzisztorba
kerül. Ezért az utóbbi időben mi is óvatosabbak vagyunk az összehasonlításokkal, és igyekszünk úgy beállítani a
versenyzőket, hogy a végeredmény reális legyen.
A Caymannek és a GF114-nek első ránézésre nem sok köze van egymáshoz - core
órajel terén ugyan csak 7.3%-kal jár magasabban a Cayman, viszont a memória-órajele közel 40%-kal magasabb. Az
első kérdés elintézhető annyival, hogy a két GPU vége core órajelben kb. ugyanott van, ezért itt nem jelent
gondot az azonos órajel használata - a memória-sávszélesség viszont annyival nagyobb a Cayman esetében, hogy az biztosan
extra tranzisztorok elfogasztásával jár. Ezt a kérdést viszont egyszer már megoldottunk a
Cayman VS Barts tesztben - a GF114 ellenében két különböző órajeleken
hajtott Cayman-"variánst" vetünk be, és így már elég jó képet fogunk kapni a két chip viszonyáról.
Miután a Cayman chip közel 10%-kal nagyobb, és több, mint 30%-kal több tranzisztort
tartalmaz, nem kérdés, hogy egyenlő órajelek mellett melyik megoldás lesz gyorsabb. A teszt fő kérdését ezért
nem is az adja, hogy melyik versenyző lépi először át a célvonalat, hanem az, hogy gyorsabb-e annyival a
Cayman, amennyivel nagyobb a mérete (erre jó esély van), ill. gyorsabb-e annyival, mint amennyivel több
tranzisztor van benne (ebben viszont már erősen kételkedünk). Lássuk akkor a medvét!
Előzetes teljesítmény-elemzés
Közismert táblázatunk a következőképpen fest:
VGA neve | GF114 @900/1050 |
Cayman @900/1050 |
Cayman @880/1375 |
Cayman vs GF114 |
HD6970 vs GF114 |
Core órajel | 900 MHz | 900 MHz | 880 MHz | ||
Shader órajel | 1800 MHz | 900 MHz | 880 MHz | ||
Memória-órajel | 1050 MHz | 1050 MHz | 1375 MHz | ||
Memória mennyisége | 1024 MB | 2048 MB | 2048 MB | ||
Tranzisztorok száma | 1950M | 2640M | 2640M | ||
Gyártástechnológia | 40nm (TSMC) | 40nm (TSMC) | 40nm (TSMC) | ||
Geometriai egységek | 2 | 2 | 2 | ||
Scanline konverzió | 16 Pix/clock | 32 Pix/clock | 32 Pix/clock | ||
ALU egységek (SP-k) * | 384 (scalar) | 1536 (VLIW4) | 1536 (VLIW4) | ||
Textúrázó egységek | 64 | 96 | 96 | ||
ROP egységek ** | 32 | 32 | 32 | ||
Memóriabusz és típus | 256-bit gDDR5 | 256-bit gDDR5 | 256-bit gDDR5 | ||
Triangle setup | 1800 Mtri/sec | 1800 Mtri/sec | 1760 Mtri/sec | 0% | -2.3% |
Scanline konverzió | 14.4 GPix/sec | 28.8 GPix/sec | 28.2 GPix/sec | 100% | 95.6% |
Számítási teljesítmény * | 1382 GFlops | 2765 GFlops | 2703 GFlops | ||
Texel fillrate, 32-bit (FP10) | 57.6 GTex/sec | 86.4 GTex/sec | 84.5 GTex/sec | 50.0% | 46.7% |
Pixel fillrate ** | 28.8 GPix/sec | 28.8 GPix/sec | 28.2 GPix/sec | 0% | -2.3% |
Z-only fillrate ** | 115.2 GPix/sec | 115.2 GPix/sec | 112.6 GPix/sec | 0% | -2.3% |
Memória-sávszélesség | 134.4 GB/sec | 134.4 GB/sec | 176.0 GB/sec | 0% | 31% |
*: a két chip számítási kapacitása nem hasonlítható közvetlenül össze,
mert eltérő felépítésűek az ALU blokkok.
**: a Cayman chip ROP-jai INT16 és FP32 adattípusok használatakor
a korábbi AMD chipekhez képest képest dupla sebességgel üzemelnek. Ennek gyakorlati jelentőségét egyelőre nem
tudjuk felmérni.
Összefoglalva a különbségeket:
- A két chip frontendje kapacitás terén hasonló (bár kicsit máshogy vannak drótozva) - az egyedüli különbség, hogy a Cayman duplaakkora raszterizáló teljesítménnyel rendelkezik, ami nagyobb felbontások használatakor akár komoly jelentőséggel is bírhat.
- A számítási kapacitás összevetése mindig bonyolult az nVidia dupla sebességű skaláris SP-i és az AMD VLIW egységei között - a Cayman névleges dupla teljesítményéről természetesen szó sincs a gyakorlatban, de egy olyan 20-30% előnyt el tudunk képzelni az AMD oldalán.
- Textúrázásban 50%-os előnye van a krokodilos GPU-nak - a gyakorlatban várhatóan ez sem számít ennyire sokat.
- A GPU hátsó részére viszont elfogyott a Cayman előnye - a fillrate-ek egyformák, és a memória-sávszélességben is csak a gyári órajeleken üzemelő Cayman van előnyben.
Amikor a Barts és a Cayman chipeket vetettük össze,
akkor kitűnően látszott, hogy a "lealacsonyított" memória-órajelű Cayman korántsem szenved annyira, mint várnánk -
ennek az a legvalószínűbb magyarázata, hogy maguk a ROP-ok nem bírják az iramot a chip többi részével. Ha viszont
ez így van, akkor hiába a hatalmas fölény a chip közepén, azonos órajelek mellett a Cayman nem lesz
számottevően gyorsabb a GF114-nél - a kiegyensúlyozott esetekre helyes eredményt adó becslő algoritmusunk által
előrejelzett 25-27%-nak pedig biztosan nem lesz a különbség a közelében sem.
Tesztkörnyezet
A konfiguráció elemei | |
Alaplap | Gigabyte P45-DS3R, FSB @400MHz |
CPU és órajel | Intel Q9550 @Q9770 (3.2GHz, 8x400) |
CPU hűtés | Cooler Master HyperTX3 |
Memória | 4x1GB Geil Ultra DDR2-8500 |
Memória beállítások | 1066MHz (2.66x400), 5-5-5-15, tRD: 8 |
Tápegység | Corsair TX650 |
Operációs rendszer | Windows 7 x64 |
VGA | Core clock | Shader clock | Memory clock | Driver |
Radeon HD6970 | 900 MHz | 1050 MHz | Catalyst 10.12a hotfix | |
GeForce GTX560 Ti | 900 MHz | 1800 MHz | 1050 MHz | ForceWare 266.66 WHQL |
Radeon HD6970 | 880 MHz | 1375 MHz | Catalyst 10.12a hotfix |
A GTX560 Ti-t a 2011. januári WHQL driverrel mértük, a HD6970-at pedig a 2010.
decemberi Catalysttal, amely egyenértékű a 2011. januárival (ld. korábbi
tesztünkben).
Az órajelek kiválasztásához adta magát, hogy a HD6970-nel 900/1050-en és a gyári órajeleken voltak tesztjeink -
mivel a HD6870 gyári órajele a GTX560 Ti-nek is kényelmesen fekszik, semmi akadálya nem volt ezen mérések
ismételt használatának.
Tesztmódszer, a tesztben résztvevő játékok
Tesztjeinkben minden játékhoz 3 beállítást használunk: Balanced, High és Max, sorban
az alsó középkategóriás, a középkategóriás és a felső / csúcskategóriás kártyákkal szemben támasztható elvárásokhoz
szabva. A Balanced és a High beállítást 1680x1050-es felbontásban vetjük be, az 1920x1080-as
felbontásnál pedig szintén megjelenik a High beállítás, és szerepel a Max is - így lesz
játékonként 4 tesztesetünk, amelyeket háromszor lemérünk, és a grafikonokra a mérések átlaga kerül.
Megjegyzés: architektúrával foglalkozó cikkeinkben előfordul, hogy csak a két 1920x1080 teszteset
szerepel - ez a helyzet most is.
A játékokban vagy beépített benchmarkot használunk, vagy egy-egy kellően intenzív jelenetet
játszunk le. Mindkét esetben a méréseket a fraps-szal végezzük - a grafikonokon szereplő
átlag fps értékekhez a fraps számait használjuk, a minimum-fps-eket viszont egy egyéni statisztikai
módszerrel állítjuk elő a mérés alatt megjelenített frame-ek kiszámolásához szükséges időkből. Az így kapott
értékek lényegesen jobban jellemzik a játékokban tapasztalt folyamatosság-érzetet, mint az Internet-szerte
használt abszolút minimum-érték.
A tesztekben használt játékok / benchmarkok:
Battlefield: Bad Company 2 |
Crysis Warhead | F1 2010 | Just Cause 2 | Lost Planet 2 |
Mafia II | METRO 2033 | S.T.A.L.K.E.R.: Call of Pripyat |
Unigine Heaven |