GPU řady NVIDIA RTX 3000: Zde je co je nového

1. září 2020 představila společnost NVIDIA svou novou sérii grafických karet určených pro hraní her, a to řadu RTX 3000, která je postavena na architektuře Ampere. Podíváme se blíže na novinky, software s umělou inteligencí, který je s nimi dodáván, a všechny detaily, které dělají tuto generaci opravdu výjimečnou.

Představení grafických karet řady RTX 3000

Hlavním oznámením společnosti NVIDIA byly její zcela nové grafické procesory, všechny vyrobené pomocí zakázkového 8nm výrobního procesu. Tyto grafické karty přinášejí výrazné zlepšení jak v oblasti rasterizace, tak i ve výkonu ray-tracingu.

Na spodním konci této sestavy se nachází RTX 3070, která má cenovku 499 dolarů. I když je to na nejlevnější kartu představenou společností NVIDIA při prvním oznámení poněkud vysoká cena, ve skutečnosti jde o velmi výhodnou koupi. Zjistíte totiž, že překonává stávající špičkový model RTX 2080 Ti, který se běžně prodával za více než 1400 $. Po oznámení společnosti NVIDIA se však prodejní ceny třetích stran snížily, přičemž mnoho kusů bylo v panice prodáváno na eBay pod 600 dolarů.

Od oznámení nejsou k dispozici žádné spolehlivé benchmarky. Proto není zcela jasné, zda je karta skutečně objektivně "lepší" než 2080 Ti, nebo zda NVIDIA trochu zkresluje marketingové údaje. Spouštěné benchmarky byly prováděny ve 4K a pravděpodobně se zapnutým RTX. To může způsobit, že se rozdíl ve výkonu zdá větší, než jaký bude v čistě rasterizovaných hrách. Řada 3000, založená na Ampere, má totiž dvakrát lepší výkon při sledování paprsků než Turing. Nicméně, vzhledem k tomu, že ray tracing je nyní něco, co už tolik neovlivňuje výkon a je podporováno i v nejnovější generaci konzolí, je hlavním argumentem prodeje fakt, že běží stejně rychle jako vlajková loď minulé generace za téměř třetinovou cenu.

Není také jisté, zda se cena udrží na této úrovni. Modely třetích stran běžně navyšují cenu o minimálně 50 USD. A s ohledem na to, jak vysoká bude pravděpodobně poptávka, by nebylo překvapivé, kdyby se v říjnu 2020 prodávala i za 600 dolarů.

Těsně nad touto kartou se nachází RTX 3080 za 699 dolarů, která by měla být dvakrát rychlejší než RTX 2080 a o 25–30 % rychlejší než 3070.

A na samém vrcholu sestavy se nachází nová vlajková loď RTX 3090, která je komicky obrovská. Společnost NVIDIA si je toho dobře vědoma a označuje ji jako „BFGPU“, což má podle nich znamenat „Big Ferocious GPU“ (velká a dravá grafická karta).

Společnost NVIDIA neukázala žádné přímé metriky výkonu, ale prezentovala, že tato karta zvládá hry v 8K při 60 FPS, což je opravdu působivé. Je pravda, že NVIDIA téměř jistě využívá DLSS k dosažení tohoto výsledku, ale hraní v 8K je prostě hraní v 8K.

Samozřejmě, že časem se objeví i 3060 a další varianty levnějších karet, ale ty obvykle přicházejí později.

Aby společnost NVIDIA dokázala uchladit tyto karty, potřebovala přepracovaný design chladiče. Model 3080 má spotřebu 320 wattů, což je poměrně vysoká hodnota. Společnost NVIDIA se proto rozhodla pro konstrukci se dvěma ventilátory. Nicméně namísto umístění obou ventilátorů na spodní stranu, umístila NVIDIA jeden ventilátor na horní konec, kde se obvykle nachází zadní deska. Tento ventilátor směřuje vzduch nahoru směrem k chladiči CPU a horní části skříně.

Soudě podle toho, jak moc může být výkon ovlivněn špatným prouděním vzduchu v pouzdře, to dává dokonalý smysl. Nicméně, obvodová deska je z tohoto důvodu velmi stísněná, což pravděpodobně ovlivní prodejní ceny třetích stran.

DLSS: Softwarová výhoda

Ray tracing není jedinou výhodou těchto nových karet. Ve skutečnosti je to trochu podvod – řady RTX 2000 a 3000 nejsou o tolik lepší v provádění skutečného sledování paprsků ve srovnání se staršími generacemi karet. Ray tracing celé scény v 3D softwaru, jako je Blender, obvykle trvá několik sekund nebo dokonce minut na snímek, takže jeho hrubé vynucení pod 10 milisekund nepřipadá v úvahu.

Samozřejmostí je vyhrazený hardware pro spouštění paprskových výpočtů, nazývaný RT jádra. Z velké části se však společnost NVIDIA rozhodla pro jiný přístup. NVIDIA vylepšila odšumovací algoritmy, které umožňují GPU vykreslit velmi levný jednotlivý průchod, který vypadá hrozně. Následně – pomocí kouzel AI – z toho vytvoří něco, na co se hráč rád podívá. V kombinaci s tradičními technikami založenými na rasterizaci vytváří příjemný zážitek umocněný efekty ray tracingu.

Aby to však bylo rychlé, NVIDIA přidala procesorová jádra specifická pro AI nazývaná jádra Tensor. Ty zpracovávají veškerou matematiku potřebnou pro spouštění modelů strojového učení a dělají to velmi rychle. Jsou celkem zásadním zlomem pro AI v cloudových serverech, protože AI je široce využívána mnoha společnostmi.

Kromě odšumování se hlavní využití jader Tensor pro hráče nazývá DLSS neboli hluboké učení super vzorkování. Tato technologie vezme nekvalitní snímek a upscaluje jej do plné nativní kvality. To v podstatě znamená, že můžete hrát se snímkovou frekvencí na úrovni 1080p a přitom se dívat na obraz ve 4K.

To také dost pomáhá s výkonem ray-tracingu – benchmarky z PCMag ukazují, že RTX 2080 Super běžící Control v ultra kvalitě se všemi nastaveními sledování paprsků na maximum, dosahuje ve 4K pouze 19 FPS. Se zapnutým DLSS ale dosahuje mnohem lepších 54 FPS. DLSS je pro NVIDIA bezplatný výkon, který je umožněn jádry Tensor na Turing a Ampere. Každá hra, která to podporuje a je omezena na GPU, tak může zaznamenat výrazné zrychlení jen díky softwaru.

DLSS není žádnou novinkou, bylo představeno jako funkce už před dvěma lety, kdy byla uvedena řada RTX 2000. V té době ji podporovalo jen velmi málo her, protože vyžadovalo, aby NVIDIA trénovala a ladila model strojového učení pro každou jednotlivou hru.

Za tu dobu však NVIDIA tuto technologii zcela přepsala a novou verzi nazvala DLSS 2.0. Jedná se o API pro všeobecné použití, což znamená, že jej může implementovat každý vývojář a většina hlavních her už ho využívá. Místo jednoho snímku, technologie přebírá data pohybových vektorů z předchozího snímku, podobně jako TAA. Výsledkem je mnohem ostřejší obraz než u DLSS 1.0 a v některých případech vypadá lépe a ostřeji dokonce než nativní rozlišení. Proto není moc důvodů jej nezapínat.

Má to jeden háček – při úplném přepínání scén, například u cutscén, musí DLSS 2.0 vykreslit úplně první snímek v 50% kvalitě, zatímco čeká na data pohybového vektoru. To může mít za následek nepatrný pokles kvality na několik milisekund. Ale 99 % všeho, na co se díváte, bude vykresleno správně a většina lidí si toho v praxi nevšimne.

Architektura Ampere: Stvořena pro umělou inteligenci

Ampere je rychlá. Opravdu rychlá, zvláště při výpočtech umělé inteligence. Jádro RT je 1,7krát rychlejší než Turing a nové jádro Tensor je 2,7krát rychlejší než Turing. Kombinace těchto dvou technologií představuje skutečný generační skok ve výkonu ray tracingu.

Začátkem května NVIDIA vydala Ampere A100 GPU, grafický procesor pro datová centra navržený pro běh umělé inteligence. Společnost u této příležitosti podrobně popsala mnoho z toho, co dělá Ampere mnohem rychlejším. Pro datová centra a vysoce výkonné výpočetní úlohy je Ampere obecně přibližně 1,7krát rychlejší než Turing. Pro trénink umělé inteligence je až 6krát rychlejší.

S architekturou Ampere používá NVIDIA nový formát čísel navržený tak, aby v některých pracovních úlohách nahradil průmyslový standard „Floating-Point 32“ nebo FP32. V podstatě, každé číslo, které váš počítač zpracuje, zabírá v paměti předem definovaný počet bitů, ať už je to 8 bitů, 16 bitů, 32, 64 nebo dokonce více. Čísla, která jsou větší, se hůře zpracovávají, takže pokud můžete použít menší velikost, budete mít méně dat ke zpracování.

FP32 ukládá 32bitové dekadické číslo a využívá 8 bitů pro rozsah čísla (jak velké nebo malé může být) a 23 bitů pro přesnost. Společnost NVIDIA tvrdí, že těchto 23 přesných bitů není pro mnoho úloh s umělou inteligencí zcela nezbytných a že s pouhými 10 z nich můžete dosáhnout podobných výsledků a mnohem lepšího výkonu. Snížení velikosti na pouhých 19 bitů namísto 32 znamená velký rozdíl v mnoha výpočtech.

Tento nový formát se nazývá Tensor Float 32 a jádra Tensor v A100 jsou optimalizována tak, aby zvládala podivně velký formát. To je, kromě úbytků jader a zvýšení jejich počtu, způsob, jakým dosahují obrovského 6násobného zrychlení v tréninku AI.

Kromě nového číselného formátu dosahuje Ampere výrazného zvýšení výkonu ve specifických výpočtech, jako jsou FP32 a FP64. Pro běžného uživatele se to přímo neprojeví ve vyšším FPS, ale je to součást toho, co způsobuje, že je celkově téměř třikrát rychlejší při operacích Tensor.

Aby se výpočty ještě více urychlily, byl zaveden koncept jemnozrnné strukturované řídkosti, což je velmi efektní termín pro docela jednoduchý koncept. Neuronové sítě pracují s velkými seznamy čísel, nazývaných váhy, které ovlivňují konečný výstup. Čím více čísel je třeba zpracovat, tím pomaleji to bude probíhat.

Ne všechna tato čísla jsou však skutečně užitečná. Některá z nich jsou doslova nulová a lze je v podstatě vynechat. To vede k masivnímu zrychlení, když je možné zpracovávat více čísel současně. Řídkost v podstatě komprimuje čísla, což vyžaduje méně úsilí při provádění výpočtů. Nové jádro „Sparse Tensor Core“ je navrženo tak, aby pracovalo s komprimovanými daty.

Navzdory těmto změnám společnost NVIDIA tvrdí, že by to nemělo znatelně ovlivnit přesnost trénovaných modelů.

Pro výpočty Sparse INT8, jeden z nejmenších číselných formátů, je špičkový výkon jediného GPU A100 více než 1,25 PetaFLOPs, což je neuvěřitelně vysoké číslo. Samozřejmě, je to pouze při zpracování jednoho konkrétního druhu čísla, ale i tak je to působivé.