Bevezető
A HD5830-as VGA-t boncolgató "cikksorozatunk" második, egyben befejező részéhez érkeztünk. Az
első részben megállapítottuk, hogy a HD5830 nem lenne egy rossz
kártya, ha egy kicsit gyorsabb lenne - a második részben a VGA helyett a GPU lesz a központban, és
a HD5830 eredményei alapján megpróbálunk néhány nagyralátó következtetést levonni az AMD Evergreen
GPU-családjával kapcsolatban.
De milyen aratásról van szó?
A HD5830-ban dolgozó GPU, amit a cikkben önkényesen Cypress LE-nek fogunk titulálni, fizikai paramétereit
tekintve egy teljes Cypress GPU - nem áll kevesebb tranziszorból, és nem kisebb a szilícium-lapkája sem, mint
a HD5870-ben dolgozó kollégájának. Az egyetlen különbség, hogy a Cypress LE-ben néhány (sőt, sok) funkcionális
egység le van tiltva - ezúton biztosítva azt, hogy a hibásan sikerült szilíciumlapok egy részéből működőképes
termék, azaz árbevétel keletkezhessen. Ezt az eljárást nevezik az AMD (korábban az ATI) berkein belül
harvestingnek, azaz aratásnak - az elnevezés nagyon találó, hiszen a chipgyártás termésének
minél nagyobb hatékonyságú betakarításának egy eszközéről beszélünk.
Előszeretettel élcelődtünk eddig is (és fogunk ezután is) a Cypress LE chippel - ennek oka az, hogy itt
egy kicsit eltúlozta a kaszálást az AMD. Az ALU és TEX egységeknek a 30%-a esett áldozatul (szemben
a szintén harvestelt HD5850 chipjével, ahol ez a szám 10%), ami ugyan sok, de nem borzalmas - emellett viszont
a ROP egységeknek a felét tiltották le az LE chip kiagyalói, ami a backendben amúgy sem káprázatosan erős
Cypress chip esetében némileg baljóslatúnak tűnik. Miért csinálta akkor ezt az AMD? Nos, feltehetőleg azért,
mert az Evergreen architektúrában nem áll a rendelkezésükre az a rugalmasság, amit pl. az nVidia a GTX460-nal
meg tudott tenni, nevezetesen, hogy a 4 ROP blokkból tetszőleges számú letiltható, ezáltal egynegyedenként
csökkentve a ROP-ok számát és a memória-sávszélességet. Így igazából az 5830-as versenyző előállítására
az ALU-k és a textúrázók realisztikus mértékű csökkenése mellett három lehetőségük volt:
- Megtartják a 4 ROP blokkot, és csökkentik az órajelet - ahhoz, hogy az eredményül kapott kártya ne legyen vészesen a HD5850 nyakán, le kellett volna menni 630-650MHz környékére;
- Kompletten kivégeznek két ROP blokkot, és marad a kártya 128-bites vezérlővel, 16 ROP-pal - ekkor a HD5770 alig-alig lett volna lassabb
- Élve az új memóriavezérlő adta lehetőséggel, csak a ROP-okat felezik, és a memória-vezérlő marad 256-bites - itt annyival jobb a helyzet, mint az előbb, hogy az LE chip nem lesz olyan sávszélesség-limitált, mint a Cypress és a Juniper, így ennyivel javulni fog a teljesítménye a HD5770-hez képest.
Teljesítmény tekintetében az első verzió lett volna a legjobb, hiszen az
órajellel tetszés szerint tudtak volna variálni - viszont akkor nem tudták volna azokat a chipeket felhasználni,
amelyeknél valamelyik ROP blokkban van gyártási hiba. Így lyukadtunk ki az erősen szuboptimális harmadik
megoldásnál - az alábbiakban megvizsgáljuk, milyen eredménnyel.
A chipek paraméterei, várható teljesítmény
Bár eredetileg csak a Cypress és a Cypress LE chipeket terveztük összevetni, a HD5830 gyári órajeles
eredményei alapján beválogattuk a Junipert is a mezőnybe.
Természetesen a chipeket akkor tudjuk a legjobban egymáshoz hasonlítani, ha azonos órajelen ketyegnek, ezért
egy, minden résztvevő kártya számára kényelmes órajelet választottunk, a HD5850-es 725/1000 MHz-ét. Így
festenek ezen órajelek mellett a versenyzők kapacitásai:
VGA neve | Juniper | Cypress LE | Cypress | Cypress LE vs Juniper |
Cypress vs Cypress LE |
Core órajel | 725 MHz | 725 MHz | 725 MHz | ||
Shader órajel | 725 MHz | 725 MHz | 725 MHz | ||
Memória-órajel | 1000 MHz | 1000 MHz | 1000 MHz | ||
Memória mennyisége | 1024 MB | 1024 MB | 1024 MB | ||
Geometriai egységek | 1 | 1 | 1 | 0% | 0% |
Scanline konverzió | 16 Pix/clock | 32 Pix/clock | 32 Pix/clock | 100% | 0% |
ALU egységek (SP-k) | 800 | 1120 | 1600 | 40.0% | 42.9% |
Textúrázó egységek | 40 | 56 | 80 | 40.0% | 42.9% |
ROP egységek | 16 | 16 | 32 | 0% | 100% |
Memóriabusz és típus | 128-bit gDDR5 | 256-bit gDDR5 | 256-bit gDDR5 | 100% | 0% |
Triangle setup | 725 Mtri/sec | 725 Mtri/sec | 725 Mtri/sec | 0% | 0% |
Scanline konverzió | 11.6 GPix/sec | 23.2 GPix/sec | 23.2 GPix/sec | 100% | 0% |
Számítási teljesítmény | 1160 GFlops | 1624 GFlops | 2320 GFlops | 40.0% | 42.9% |
Texel fillrate, 32-bit (FP10) | 29.0 GTex/sec | 40.6 GTex/sec | 58.0 GTex/sec | 40.0% | 42.9% |
Pixel fillrate | 11.6 GPix/sec | 11.6 GPix/sec | 23.2 GPix/sec | 0% | 100% |
Z-only fillrate | 46.4 GPix/sec | 46.4 GPix/sec | 92.8 GPix/sec | 0% | 100% |
Memória-sávszélesség | 64.0 GB/sec | 128.0 GB/sec | 128.0 GB/sec | 100% | 0% |
Nagyon vicces képet fest a táblázat - a Cypress chip ugye szinte mindenben
duplája a Junipernek, az Cypress LE pedig funkcionális területenként erősen máshová helyezkedik a kettő között.
Nézzük sorban:
- Míg a setup az egyetlen terület, ahol a három chip egyenértékű egymással, a még mindig a frontend terület részét képező scanline konverzió tekintetében már van különbség - a két Cypress duplaannyi háromszög -> pixel illesztést tud ciklusonként, mint a Juniper;
- Számítási kapacitás és textúrázási készségek terén többé-kevésbé félúton van a Cypress LE a kistestvér és a teljes értékű Cypress között;
- A backend részen már múltkor is láttuk, hogy a Cypress LE chip kissé elmebeteg módon van felépítve - míg ROP-kapacitás terén megegyezik a Juniperrel, memória-sávszélességben a rendes Cypress-szel egyenértékű. Miután a Cypress és a Juniper chipet is közepesen limitálja a némileg szűkös memória-sávszélesség, effektív backend-teljesítmény terén a Cypress LE erősebb lehet, mint a Juniper.
A fentiek szépen tisztán megmutatják, miért is lett olyan gyenge a HD5830 - még
ALU és TEX téren is kicsit közelebb van a Juniperhez, mint a teljes értékű Cypress-hez, backendben alig
jár a Juniper előtt, és a megduplázott scanline konverzió is csak kisebb előnyt hoz. Jól bevált paraméteres
becslési algoritmusunk szerint azonos órajelek mellett átlagosan 30-35%-kal
lesz gyorsabb a Cypress LE chip a Junipernél, viszont az ilyen becslések kiegyensúlyozott chipek esetén
adnak megbízható eredményt, ezért a valós különbség várhatóan kevesebb lesz. A teljes Cypress hasonló
megfontolások alapján chip 40-45%-kal fog a kasztrált LE verzió előtt járni.
Tesztkörnyezet
A konfiguráció elemei | |
Alaplap | Gigabyte P45-DS3R, FSB @400MHz |
CPU és órajel | Intel Q9550 @Q9770 (3.2GHz, 8x400) |
CPU hűtés | Cooler Master HyperTX2 |
Memória | 4x1GB Geil Ultra DDR2-8500 |
Memória beállítások | 1066MHz (2.66x400), 5-5-5-15, tRD: 8 |
Tápegység | Corsair TX650 |
Operációs rendszer | Windows 7 x64 |
VGA | Core clock | Shader clock | Memory clock | Driver |
Radeon HD5770 | 725 MHz | 1000 MHz | Catalyst 10.5 WHQL | |
Radeon HD5830 | 725 MHz | 1000 MHz | Catalyst 10.5 WHQL | |
Radeon HD5830 | 800 MHz | 1000 MHz | Catalyst 10.5 WHQL | |
Radeon HD5870 | 725 MHz | 1000 MHz | Catalyst 10.5 WHQL |
A sok 725/1000 MHz-es órajelű kártya között szinte kakukktojásként hat
a gyári órajeles HD5830 - azért tettük bele a tesztbe, mert szerettük volna azt is megnézni, hogy
a szükségesnél lényegesen nagyobb memória-sávszélesség ténylegesen érzéketlenné teszi-e a kártyát
a sávszélesség limitáló hatása iránt. Mivel a gyári core órajel 10.5%-kal magasabb a többi tesztalanynál
használt 725MHz-nél, azt várjuk, hogy az alulclockolt Cypress LE chipnél a gyári órajeles változat minimum
9%-kal gyorsabb lesz.
A tesztben résztvevő játékok
- Aliens VS Predator
- Battlefield: Bad Company 2
- Crysis Warhead
- Far Cry 2
- Just Cause 2
- METRO 2033
- STALKER: Call of Pripyat
- Unigine Heaven 2.0