Преглед на видеокартата на AMD Radeon RX Vega 64

Графичните карти, базирани на GPU на Polaris, се представиха добре като достъпен основен продукт и помогнаха на графичното подразделение на AMD да си върне пазарната позиция, загубена от серията Radeon 300. AMD обаче първоначално даде да се разбере, че Polaris, за разлика от предишните архитектури, няма да еволюира към по-големи чипове като Хаваите и тогава Фиджи бяха в ерата на 28 nm.

В действителност, докато Polaris се е възползвал от енергийната ефективност от преминаването към 14nm FinFET, той все още споделя много прилики с по-старите продукти на AMD (Тонга и Фиджи), които са му попречили да се възползва толкова ефективно от технологията на прогресивния процес. И докато AMD отстрани ситуацията, като оптимизира производството на графични процесори и схемите във второто поколение Polaris, картите от серия Radeon RX 500 все още са с ограничен тактов потенциал и нямат архитектурни предимства, които биха могли да увеличат скоростта на инструкциите на тактова честота. Както микроархитектурата на GCN в основата на чиповете AMD, така и организацията на блокове в графичния процесор изискваха ревизия и тази задача падна върху предстоящото семейство Vega.

⇡ #Архитектура на AMD Vega

NCU - Изчислително устройство от следващо поколение

Основният градивен елемент в архитектурата Graphics Core Next е Compute Unit, който в този случай е съкратен като NCU (Compute Unit от следващо поколение). От първото внедряване на GCN преди повече от пет години, AMD не направи значителни промени в структурата на CU. Както в предишните итерации, Vega NCU все още съдържа 64 шейдърни ALU, които са способни да изпълняват 128 операции с единична прецизност (FP32) на такт. Размерът на кеша от първо ниво и споделената памет в NCU също остава непроменен от GCN 1.0. Независимо от това, ако в GCN версия 1.3, към която принадлежат чиповете Polaris, CU претърпя само оптимизации, които спомагат за повишаване на специфичната производителност в сравнение с CU в GCN 1.2 (Тонга и Фиджи), а двете версии на архитектурата дори останаха съвместими на ниво ISA, разработчиците Vega представиха много нови инструкции и формати за данни, поради което GCN от пето поколение може да се разглежда като най-дълбоката трансформация на микроархитектурата на шейдърите Graphics Core Next до момента.

Но най-важното е, че NCU във Vega е в състояние да комбинира операции с намалена битова дълбочина, като по този начин умножава производителността. Например вместо 128 FP32 операции за цикъл, изпълнявани от един NCU, могат да бъдат изпълнени 256 FP16 операции или 512 FP8 операции. Единственият друг графичен процесор, който е снабден с такива функции, е GP100 от NVIDIA днес. По този начин Vega, в допълнение към високоефективната игрална архитектура, е универсално решение за многоцелеви изчисления - във всичко с изключение на двойна точност, тъй като Пропускателната способност на FP64 е ограничена до 1/16 от FP32.

Облицовка на плочки и поддръжка на ниво 12_1 на функцията Direct3D

Следващата област, в която Vega направи голяма крачка напред, е в пикселната честотна лента. След NVIDIA, AMD използва изобразяване на плочки във Vega, технология, която се използва широко в мобилната графика, за да намали броя на обажданията към данни извън кеша на GPU. Растеризаторът Draw-Stream Binning Rasterizer (DSBR) във Vega работи по подобен начин.

Класическото изобразяване на плочки, широко разпространено в мобилните графични процесори, включва обработка на кадър в два прохода. Първо, драйверът разделя пространството на екрана на плочки (области с типичен размер 16x16 или 32x32 пиксела) и съставя индекс на полигоните в проекцията на всяка плочка. След това цялата процедура на рендиране се извършва последователно във всяка плочка - от трансформиране и пресичане на полигони до запълване на текстури и изпълнение на шейдъри - и крайният резултат от всички плочки се зашива в едно изображение. Предимството на този метод е, че всички междинни операции в рамките на плочка работят върху един масив от данни, който е изцяло поставен в кеша на GPU, и следователно честотата на обажданията към RAM намалява.

Независимо от това, необходимостта от два прохода на обработка на самата геометрия на сцената отнема честотна лента на RAM, тъй като графичният процесор трябва първо да запише във външна памет информация за полигоните, които попадат в определена плочка, и след това, извършвайки рендиране от плочка на плочка, да я извлече обратно . В резултат на това ефективността на изобразяването на плочки в крайна сметка зависи от това дали спестяванията в честотната лента в скоростта на запълване на пикселите надвишават загубата при двупроходната геометрична проекция. В мобилните приложения, които се различават по проста геометрия, изобразяването на плочки се отплаща, но за съвременните настолни игри стандартният метод за незабавно изобразяване е по-подходящ, при който последователно растеризиране на един полигон след друг се случва в едно екранно пространство.

Внедряването на изобразяване на плочки в чиповете Maxwell/Pascal и Vega е различно. NVIDIA няма стъпка за сортиране на полигони, тъй като преобразуването на геометрията се извършва за един проход. AMD, напротив, извършва сортиране, но консумацията на тактови цикли за тази операция се намалява чрез динамично избиране на размера на плочката и партидата примитиви в зависимост от сложността на конкретна сцена.

В допълнение, сортирането и групирането на примитиви в партида ви позволява най-ефективно да предотвратите налагането на пикселни шейдъри върху невидими пиксели, припокрити от полигони, най-близки до равнината на екрана. Vega поставя отделни проби от пиксели в опашка, което показва колко дълбоко са от екрана. тази опашка има краен размер, препоръчително е да използвате изобразяване на плочки, за да се побере в нейните граници в рамките на една плочка.