A nagy Cypress aratás - a HD5830 chipje

Elemzés - 2010/08/29

Oldalak:     
Fórum
Bevezető
A HD5830-as VGA-t boncolgató "cikksorozatunk" második, egyben befejező részéhez érkeztünk. Az első részben megállapítottuk, hogy a HD5830 nem lenne egy rossz kártya, ha egy kicsit gyorsabb lenne - a második részben a VGA helyett a GPU lesz a központban, és a HD5830 eredményei alapján megpróbálunk néhány nagyralátó következtetést levonni az AMD Evergreen GPU-családjával kapcsolatban.
De milyen aratásról van szó?
A HD5830-ban dolgozó GPU, amit a cikkben önkényesen Cypress LE-nek fogunk titulálni, fizikai paramétereit tekintve egy teljes Cypress GPU - nem áll kevesebb tranziszorból, és nem kisebb a szilícium-lapkája sem, mint a HD5870-ben dolgozó kollégájának. Az egyetlen különbség, hogy a Cypress LE-ben néhány (sőt, sok) funkcionális egység le van tiltva - ezúton biztosítva azt, hogy a hibásan sikerült szilíciumlapok egy részéből működőképes termék, azaz árbevétel keletkezhessen. Ezt az eljárást nevezik az AMD (korábban az ATI) berkein belül harvestingnek, azaz aratásnak - az elnevezés nagyon találó, hiszen a chipgyártás termésének minél nagyobb hatékonyságú betakarításának egy eszközéről beszélünk.
Előszeretettel élcelődtünk eddig is (és fogunk ezután is) a Cypress LE chippel - ennek oka az, hogy itt egy kicsit eltúlozta a kaszálást az AMD. Az ALU és TEX egységeknek a 30%-a esett áldozatul (szemben a szintén harvestelt HD5850 chipjével, ahol ez a szám 10%), ami ugyan sok, de nem borzalmas - emellett viszont a ROP egységeknek a felét tiltották le az LE chip kiagyalói, ami a backendben amúgy sem káprázatosan erős Cypress chip esetében némileg baljóslatúnak tűnik. Miért csinálta akkor ezt az AMD? Nos, feltehetőleg azért, mert az Evergreen architektúrában nem áll a rendelkezésükre az a rugalmasság, amit pl. az nVidia a GTX460-nal meg tudott tenni, nevezetesen, hogy a 4 ROP blokkból tetszőleges számú letiltható, ezáltal egynegyedenként csökkentve a ROP-ok számát és a memória-sávszélességet. Így igazából az 5830-as versenyző előállítására az ALU-k és a textúrázók realisztikus mértékű csökkenése mellett három lehetőségük volt:
  • Megtartják a 4 ROP blokkot, és csökkentik az órajelet - ahhoz, hogy az eredményül kapott kártya ne legyen vészesen a HD5850 nyakán, le kellett volna menni 630-650MHz környékére;
  • Kompletten kivégeznek két ROP blokkot, és marad a kártya 128-bites vezérlővel, 16 ROP-pal - ekkor a HD5770 alig-alig lett volna lassabb
  • Élve az új memóriavezérlő adta lehetőséggel, csak a ROP-okat felezik, és a memória-vezérlő marad 256-bites - itt annyival jobb a helyzet, mint az előbb, hogy az LE chip nem lesz olyan sávszélesség-limitált, mint a Cypress és a Juniper, így ennyivel javulni fog a teljesítménye a HD5770-hez képest.
Teljesítmény tekintetében az első verzió lett volna a legjobb, hiszen az órajellel tetszés szerint tudtak volna variálni - viszont akkor nem tudták volna azokat a chipeket felhasználni, amelyeknél valamelyik ROP blokkban van gyártási hiba. Így lyukadtunk ki az erősen szuboptimális harmadik megoldásnál - az alábbiakban megvizsgáljuk, milyen eredménnyel.

A chipek paraméterei, várható teljesítmény
Bár eredetileg csak a Cypress és a Cypress LE chipeket terveztük összevetni, a HD5830 gyári órajeles eredményei alapján beválogattuk a Junipert is a mezőnybe.
Természetesen a chipeket akkor tudjuk a legjobban egymáshoz hasonlítani, ha azonos órajelen ketyegnek, ezért egy, minden résztvevő kártya számára kényelmes órajelet választottunk, a HD5850-es 725/1000 MHz-ét. Így festenek ezen órajelek mellett a versenyzők kapacitásai:
VGA neve Juniper Cypress LE Cypress Cypress LE
vs Juniper
Cypress vs
Cypress LE
Core órajel 725 MHz 725 MHz 725 MHz
Shader órajel 725 MHz 725 MHz 725 MHz
Memória-órajel 1000 MHz 1000 MHz 1000 MHz
Memória mennyisége 1024 MB 1024 MB 1024 MB
Geometriai egységek 1 1 1 0% 0%
Scanline konverzió 16 Pix/clock 32 Pix/clock 32 Pix/clock 100% 0%
ALU egységek (SP-k) 800 1120 1600 40.0% 42.9%
Textúrázó egységek 40 56 80 40.0% 42.9%
ROP egységek 16 16 32 0% 100%
Memóriabusz és típus 128-bit gDDR5 256-bit gDDR5 256-bit gDDR5 100% 0%
Triangle setup 725 Mtri/sec 725 Mtri/sec 725 Mtri/sec 0% 0%
Scanline konverzió 11.6 GPix/sec 23.2 GPix/sec 23.2 GPix/sec 100% 0%
Számítási teljesítmény 1160 GFlops 1624 GFlops 2320 GFlops 40.0% 42.9%
Texel fillrate, 32-bit (FP10) 29.0 GTex/sec 40.6 GTex/sec 58.0 GTex/sec 40.0% 42.9%
Pixel fillrate 11.6 GPix/sec 11.6 GPix/sec 23.2 GPix/sec 0% 100%
Z-only fillrate 46.4 GPix/sec 46.4 GPix/sec 92.8 GPix/sec 0% 100%
Memória-sávszélesség 64.0 GB/sec 128.0 GB/sec 128.0 GB/sec 100% 0%
Nagyon vicces képet fest a táblázat - a Cypress chip ugye szinte mindenben duplája a Junipernek, az Cypress LE pedig funkcionális területenként erősen máshová helyezkedik a kettő között. Nézzük sorban:
  • Míg a setup az egyetlen terület, ahol a három chip egyenértékű egymással, a még mindig a frontend terület részét képező scanline konverzió tekintetében már van különbség - a két Cypress duplaannyi háromszög -> pixel illesztést tud ciklusonként, mint a Juniper;
  • Számítási kapacitás és textúrázási készségek terén többé-kevésbé félúton van a Cypress LE a kistestvér és a teljes értékű Cypress között;
  • A backend részen már múltkor is láttuk, hogy a Cypress LE chip kissé elmebeteg módon van felépítve - míg ROP-kapacitás terén megegyezik a Juniperrel, memória-sávszélességben a rendes Cypress-szel egyenértékű. Miután a Cypress és a Juniper chipet is közepesen limitálja a némileg szűkös memória-sávszélesség, effektív backend-teljesítmény terén a Cypress LE erősebb lehet, mint a Juniper.
A fentiek szépen tisztán megmutatják, miért is lett olyan gyenge a HD5830 - még ALU és TEX téren is kicsit közelebb van a Juniperhez, mint a teljes értékű Cypress-hez, backendben alig jár a Juniper előtt, és a megduplázott scanline konverzió is csak kisebb előnyt hoz. Jól bevált paraméteres becslési algoritmusunk szerint azonos órajelek mellett átlagosan 30-35%-kal lesz gyorsabb a Cypress LE chip a Junipernél, viszont az ilyen becslések kiegyensúlyozott chipek esetén adnak megbízható eredményt, ezért a valós különbség várhatóan kevesebb lesz. A teljes Cypress hasonló megfontolások alapján chip 40-45%-kal fog a kasztrált LE verzió előtt járni.
Tesztkörnyezet
A konfiguráció elemei
Alaplap Gigabyte P45-DS3R, FSB @400MHz
CPU és órajel Intel Q9550 @Q9770 (3.2GHz, 8x400)
CPU hűtés Cooler Master HyperTX2
Memória 4x1GB Geil Ultra DDR2-8500
Memória beállítások 1066MHz (2.66x400), 5-5-5-15, tRD: 8
Tápegység Corsair TX650
Operációs rendszer Windows 7 x64
VGA Core clock Shader clock Memory clock Driver
Radeon HD5770 725 MHz 1000 MHz Catalyst 10.5 WHQL
Radeon HD5830 725 MHz 1000 MHz Catalyst 10.5 WHQL
Radeon HD5830 800 MHz 1000 MHz Catalyst 10.5 WHQL
Radeon HD5870 725 MHz 1000 MHz Catalyst 10.5 WHQL
A sok 725/1000 MHz-es órajelű kártya között szinte kakukktojásként hat a gyári órajeles HD5830 - azért tettük bele a tesztbe, mert szerettük volna azt is megnézni, hogy a szükségesnél lényegesen nagyobb memória-sávszélesség ténylegesen érzéketlenné teszi-e a kártyát a sávszélesség limitáló hatása iránt. Mivel a gyári core órajel 10.5%-kal magasabb a többi tesztalanynál használt 725MHz-nél, azt várjuk, hogy az alulclockolt Cypress LE chipnél a gyári órajeles változat minimum 9%-kal gyorsabb lesz.
A tesztben résztvevő játékok
  • Aliens VS Predator
  • Battlefield: Bad Company 2
  • Crysis Warhead
  • Far Cry 2
  • Just Cause 2
  • METRO 2033
  • STALKER: Call of Pripyat
  • Unigine Heaven 2.0
Oldalak:     
Fórum