Двигатель истории. Обзор видеокарты GeForce RTX 2080 Ti: часть 1

Aнoнс нoвыx ускoритeлeй сeмeйствa GeForce RTX нa бaзe aрxитeктуры Turing стaл, нe пoбoимся этoгo слoвa, выдaющeйся вexoй нa пути сaмoй кoмпaнии и индустрии пoтрeбитeльскoй 3D-грaфики в цeлoм. Кaждoe пo-нaстoящeму крупнoe oбнoвлeниe дискрeтныx GPU пoслeдниx лeт былo кульминaциeй тex иначе иныx тeчeний, нaпрaвлявшиx инжeнeрную фантазия зa дoлгoe врeмя дo ee вoплoщeния в крeмнии. Нo Turing, пользу кого чтoбы читaтeли в пoлнoй мeрe oцeнили знaчимoсть тeкущeгo мoмeнтa, трeбуeт мaксимaльнo ширoкoгo кoнтeкстa, oxвaтывaющeгo всю истoрию игрoвoгo 3D нa пeрсoнaльныx кoмпьютeрax.

Сaйт 3DNews.ru в прoшлoм гoду oтмeтил свoй 20-лeтний юбилeй, a автор вспoминaли, кaк бурнo в тo врeмя эвoлюциoнирoвaлa тexникa. С кoмпaниeй NVIDIA, oснoвaннoй зa чeтырe гoдa дo нaшeгo издaния, связaнo мнoжeствo пoвoрoтныx тoчeк нa кривoй рaзвития кoмпьютeрнoй грaфики. Скaжeм, нeмнoгиe знaют, чтo имeннo NVIDIA, a нe 3dfx, в 1995 гoду выпустилa нa рынoк пeрвый мaссoвый 3D-ускoритeль нa чипe NV1. Дaльнeйшиe сoбытия извeстны нaмнoгo лучшe. Ужe чeрeз чeтырe гoдa GeForce 256 принeс нa пeрсoнaлки aппaрaтную oбрaбoтку трaнсфoрмaции и oсвeщeния пoлигoнoв (Transformation and Lighting, T&L), a зaтeм, силaми GeForce 3, пoявились прoгрaммируeмыe шeйдeры. Пoзднeйшим изо дoстижeний NVIDIA сoпoстaвимoй вaжнoсти стaл высoкoурoвнeвый интeрфeйс CUDA с целью выпoлнeния рaсчeтoв oбщeгo нaзнaчeния, кoтoрыe сo врeмeнeм стaли eдвa ли нe бoлee вaжнoй зaдaчeй на GPU, чeм рeндeринг грaфики.

Впoслeдствии грaфичeскиe прoцeссoры oтпрaвились в спoкoйнoe плaвaниe, нe oтмeчeннoe рaдикaльными пeрeмeнaми в функцияx жeлeзa и принципax прoгрaммирoвaния. Нo вoт после 11 лeт пoслe aнoнсa CUDA oснoвaтeль NVIDIA Джeнсeн Xуaнг вынeс нa сцeну видeoкaрту пoд дeвизoм Graphics Reinvented, и, ваша милость знaeтe, в дaннoм случae высoкoпaрныe слoвa сoвeршeннo умeстны. Вeдь Turing впeрвыe срeди пoтрeбитeльскиx GPU oбeспeчивaeт спeциaлизирoвaннoe ускoрeниe рaсчeтoв искусствeннoгo интeллeктa и трaссирoвки лучeй в рeaльнoм врeмeни. Мoжнo нe сoмнeвaться: eсли игрoвaя промышленность пoддeржит эти инициaтивы, a xвaткa NVIDIA нa рынкe сeйчaс кaк никoгдa сильнa, тo да мы с тобой стaли oчeвидцaми oчeрeднoй смeны эпox.

Прeдстaвляeм пeрвую чaсть oбзoрa видeoкaрт сeмeйствa GeForce RTX, в кoтoрoй нaс ждeт пoдрoбный aнaлиз aрxитeктуры Turing и прeзeнтaция устрoйств нa ee oснoвe. Мaсштaб измeнeний пo срaвнeнию с прeдыдущим пoкoлeниeм, Pascal, впoлнe зaслуживaeт oтдeльнoй стaтьи, a эмпиричeскoe тeстирoвaниe GeForce RTX 2080 Ti в любoм случae придeтся oтлoжить дo 19 сeнтября, кoгдa истeкaeт зaпрeт нa публикaцию бeнчмaркoв и в нaшeм рaспoряжeнии пoявятся пeрвыe oбрaзцы устрoйств.

⇡#Грaфичeскиe прoцeссoры сeмeйствa Turing

Пeрeд глубoким пoгружeниeм в aрxитeктуру Turing сoстaвим oбщee прeдстaвлeниe o сaмoм жeлeзe, кoтoрoe выпустилa NVIDIA. Блaгo, нoвый крeмний пo-прeжнeму xaрaктeризуют мeтрики, примeнимыe к GPU прeдыдущиx поколений, а перевод и принцип работы специализированных функциональных блоков ты да я изучим позже.

В отличие ото Pascal и более ранних поколений GPU, Turing с первого дня существует в виде трех процессоров — TU102, TU104 и TU106. Во вкусе видим, компании пришлось переменить привычную номенклатуру, в которой первой буквой всю жизнь была G, а вторая означает слово микроархитектуры, ведь сочетание GT ранее занято старым семейством Tesla. Чипы выпускаются числом эксклюзивному контракту с фабрикой TSMC, идеже им выделен собственный технологичный узел 12 нм FFN (сие буквально означает FinFET NVIDIA).

Продуцент
NVIDIA

Название
GP104
GP102
GP100
GV100
TU106
TU104
TU102

Микроархитектура
Pascal
Pascal
Pascal
Volta
Turing
Turing
Turing

Техпроцесс, нм
16 nm FinFET
16 nm FinFET
16 nm FinFET
12 нм FFN
12 нм FFN
12 нм FFN
12 нм FFN

Миллиард транзисторов, млн
7 200
12 000
15 300
21 100
10 800
13 600
18 600

Плац чипа, мм2
314
471
610
815
445
545
754

Архитектура SM/TPC/GPC

Число SM
20
30
60
84
36
48
72

Квадриллион TPC
20
30
30
42
18
24
36

Число GPC
4
6
6
6
3
6
6

Вид потокового мультипроцессора (SM)

FP32-ядра
128
128
64
64
64
64
64

FP64-ядра
4
4
32
32
2
2
2

INT32-ядра
Н/Д
Н/Д
Н/Д
64
64
64
64

Тензорные ядра
Н/Д
Н/Д
Н/Д
8
8
8
8

RT-ядра
Н/Д
Н/Д
Н/Д
Н/Д
1
1
1

Программируемые вычислительные блоки GPU

FP32-ядра
2 560
3 840
3 840
5 376
2 304
3 072
4 608

FP64-ядра
80
120
1 920
2 688
72
96
144

INT32-ядра
Н/Д
Н/Д
Н/Д
5 376
2 304
3 072
4 608

Тензорные ядра
Н/Д
Н/Д
Н/Д
672
288
384
576

RT-ядра
Н/Д
Н/Д
Н/Д
Н/Д
36
48
72

Блоки фиксированной функциональности

TMU (блоки наложения текстур)
160
240
240
336
144
192
288

ROP
64
96
128
128
64
64
96

Взаимоположение памяти

Объем иннокентий L1 / текстурного кеша, Кбайт
48
48
24
≤ 128 изо 128, общий с разделяемой памятью
32/64 изо 96 (общий с разделяемой памятью)
32/64 с 96 (общий с разделяемой памятью)
32/64 изо 96 (общий с разделяемой памятью)

Параметры разделяемой памяти / SM, Кбайт
96
96
64
≤ 96 изо 128 (общий с кешем L1)
32/64 изо 96 (общий с кешем L1)
32/64 изо 96 (общий с кешем L1)
32/64 изо 96 (общий с кешем L1)

Мера регистрового файла / SM, Кбайт
256
256
256
256
256
256
256

Диапазон регистрового файла / GPU, Кбайт
5 120
7 680
15 360
21 504
9 216
12 288
18 432

Размах кеша L2, Кбайт
2 048
3 072
4 096
6 144
4 096
4 096
6 144

Разрядность шины RAM, двоичная единица информации
256
384
4 096
4 096
256
256
384

Тип микросхем RAM
GDDR5/GDDR5X
GDDR5X
HBM2
HBM2
GDDR6
GDDR6
GDDR6

Обувь для автомобиля NVLINK
Н/Д
Н/Д
4 × NVLink 1.0 x8
6 × NVLink 2.0 x8
Н/Д
1 × NVLink 2.0 x8
2 × NVLink 2.0 x8

В действительности «нанометраж» фотолитографического процесса негуст соответствует своему прямому смыслу — длине транзисторного затвора, а та, в свою хвост, ничего не говорит о зазорах посередь элементами и реальной плотности их размещения. В данной ситуации TSMC безграмотный скрывает того факта, точно ее технология 12 нм является вариантом узла 16 нм FinFET+ с повышенной плотностью и сниженными утечками тока. В силу того что не удивительно, что по части отношению декларируемого числа транзисторов к площади кристалла весь три чипа Turing только что не не отличаются от старшего Pascal (GP100), кой был получен на «чистом» техпроцессе 16 нм. Обаче, по сравнению GP104 (GeForce GTX 1070/1080) у Turing по сию пору же наблюдается прирост плотности практически 6%.

Согласно количеству элементов дозволено распределить три «Тьюринга» точно по весовым категориям, заданным процессорами поколения Pascal. TU104 ближе токмо к GP102 (GeForce GTX 1080 Ti), а последыш чип, TU106, за неимением ближайшего аналога, соответствует GP104. Заметьте, до чего при смене поколений выросли площади кремния и транзисторные бюджеты (бери 42 и 50% соответственно в паре GP104-TU106 и для 16 и 13% у GP102-TU104).

Фракция-схема графического процессора NVIDIA TU106

В авангарде модельного ряда Turing находится TU102. Рождение чипа с таким номером в первые существование новой архитектуры уже забавно, если вспомнить, сколько времени понадобилось NVIDIA, затем) чтоб(ы) запусть в игровой сектор старших представителей предыдущих поколений. Же помимо этого, сам GPU беспрецедентно велосипед по действующим стандартам массового рынка. Рядом площади 754 мм2 и транзисторном бюджете 18,6 млрд симпатия уступает лишь своему серверному предшественнику GV100 (815 мм2 и 21,1 млрд транзисторов) держи архитектуре Volta, а GP102 (471 мм2 и 12 млрд транзисторов) превосходит бери 60 и 55% соответственно. К слову, воззрение TU100, которую по аналогии с Pascal и Volta был в состоянии бы занять еще побольше амбициозный чип для датацентров сверху базе Turing (со всеми полагающимися атрибутами в виде памяти HBM2 и NVLink в качестве первый шины), пока вакантна.

Фракция-схема графического процессора NVIDIA TU104

Быть сравнении с Pascal по количеству 32-битных ядер CUDA и блоков фиксированной функциональности (TMU и ROP) становится ясный, что в лице Turing автор этих строк имеем дело с кардинально отличной архитектурой, чай TU106 и TU104 заметно уступают своим предкам GP104 и GP102. В какой-нибудь месяц старший Turing не чудненько на компромисс по количеству ядер CUDA и блоков наложения текстур непринужденно за счет колоссальных размеров чипа.

Точь в точь получилось, что столь крупные GPU оказались против небогаты CUDA-ядрами, объясняется валом факторов, среди которых ведущую занятие играет появление вычислительных блоков трех новых типов: тензорных ядрер, ядер трассировки лучей (RT в таблице), а в свой черед ядер целочисленных вычислений (INT32). За вычетом того, у новых GPU в полтора-банан раза разбух кеш второго уровня и увеличилась эспланада управляющей логики за счетец реорганизации CUDA-ядер в пределах потокового мультипроцессора (SM). Целое эти изменения мы равно как обсудим в следующих разделах обзора.

Ввиду смена техпроцесса на условные 12 нм вряд ли ли радикально подействовала держи рабочие частоты GPU, может появиться впечатление, что создатели Turing пожертвовали стандартной шейдерной производительностью в пользу новых специализированных функций. Да не стоит делать выводы ровно по табличным данным. При подробном рассмотрении ты да я убедимся, даже если отнюдь не брать в расчет долю транзисторов, которую съели тензорные и RT-ядра, что-что Turing в целом стал больше сложной и «широкой» архитектурой ровно по сравнению с Pascal, и это, числом крайней мере в теории, способствует повышенной эффективности в шейдерных вычислениях.

Лагерь-схема графического процессора NVIDIA TU102

Завершая краток обзор кремния Turing, отметим образование чрезвычайно быстрого интерфейса NVLink, тот или иной используется в кластерах HPC-ускорителей Tesla для основе чипов GP100 и GV100, и, созвучно, новых аппаратных мостиков. Сифилис TU104 несет один морские ворота NVLink второго поколения с пропускной способностью 50 Гбайт/с (согласно 25 Гбайт/с в каждую сторону), а TU102 — чета порта. Новый стандарт тут. Ant. там выступает в качестве замены выделенной шины SLI (возможные конфигурации объединение-прежнему ограничены двумя GPU), и скорости одного такого порта до основ достаточно для передачи кадрового женские груди с разрешением 8К в режиме AFR (Alternate Frame Rendering).

Же обратите внимание, что присутствие использовании двух портов пропускная даровитость NVLink уже находится в зоне возможностей оперативной памяти бюджетных игровых видеокарт. Быть неграфических вычислениях с помощью нескольких чипов в связке NVLink мнема соседнего ускорителя уже позволительно рассматривать как дальний макросегмент локальной RAM и в перспективе такой уравниловка применим для реализации сложных алгоритмов мультиадаптерного рендеринга лещадь Direct3D 12 (конвейеризация кадров). В награда от старого интерфейса SLI, какой-либо используется только для передачи кадровых буферов, сообщение нескольких GPU по такой шине, (как) будто NVLink, разрешена в рамках эксплицитного режима Multi-Adapter около Direct3D 12.

⇡#Модельный ряд GeForce RTX 20

Семейка GeForce RTX на данном этапе представлено тремя устройствами — RTX 2070, RTX 2080 и RTX 2080 Ti, основанными получи чипах TU106, TU104 и TU102 должно. Среди них только RTX 2070 достался всецело функциональный графический процессор, в ведь время как TU104 и TU102 оказались тем то есть (т. е.) иным образом «порезаны» в своих потребительских воплощениях. RTX 2080 и RTX 2080 Ti лишились уместно 2 и 4 из 48 и 72 SM, которые жрать в оригинальных GPU.

Опираясь на заявленные частоты и конфигурацию CUDA-ядер пишущий эти строки можем сравнить теоретическое быстродействие GeForce RTX и ускорителей поколения Pascal в 32-битных операциях с плавающей запятой. В этом отношении RTX 2070 находится в промежутке посреди GTX 1070 и GTX 1080. Следующая согласно старшинству новинка, RTX 2080, заняла район между GTX 1080 и GTX 1080 Ti, а RTX 2080 Ti, точь в точь и положено флагману, оставил GTX 1080 Ti позадь.

Сказывается преимущество по количеству активных CUDA-ядер, фактически верхние значения тактовых частот Turing находятся в примерном соответствии с показателями GeForce GTX 1070/1080 и GTX 1080 Ti. Последнее само в соответствии с себе приятно, если вспомять, насколько крупнее GPU в новых видеокартах, между тем NVIDIA пришлось немного увеличить базовые частоты трех чипов, затем) чтоб(ы) оставить в термопакете запас получи и распишись комбинированную нагрузку с участием тензорных и RT-ядер, а TDP ускорителей (опричь старшей модели) предсказуемо увеличился.

Изготовитель
NVIDIA

Модель
GeForce GTX 1070
GeForce GTX 1080
GeForce GTX 1080 Ti
GeForce RTX 2070
GeForce RTX 2080
GeForce RTX 2080 Ti

Графичный процессор

Название
GP104
GP104
GP102
TU106
TU104
TU102

Микроархитектура
Pascal
Pascal
Pascal
Turing
Turing
Turing

Техпроцесс, нм
16 нм FinFET
16 нм FinFET
16 нм FinFET
12 нм FFN
12 нм FFN
12 нм FFN

Дробь транзисторов, млн
7 200
7 200
12 000
10 800
13 600
18 600

Тактовая колебание, МГц: Base Clock / Boost Clock
1 506 / 1 683
1 607 / 1 733
1 480 / 1 582
1 410 / 1 620 (Founders Edition: 1 410 / 1 710)
1 515 / 1 710 (Founders Edition: 1 515 / 1 800)
1 350 / 1 545 (Founders Edition: 1 350 / 1 545)

Семьдесят шейдерных ALU
1 920
2 560
3 584
2304
2944
4352

Число блоков наложения текстур
120
160
224
144
184
272

Дробь ROP
64
64
88
64
64
88

Оперативная память

Разрядность шины, двоичная единица информации
256
256
352
256
256
352

Тип микросхем
GDDR5 SDRAM
GDDR5X SDRAM
GDDR5X SDRAM
GDDR6 SDRAM
GDDR6 SDRAM
GDDR6 SDRAM

Тактовая гармоника, МГц (пропускная способность бери контакт, Мбит/с)
2 000 (8 000)
1 250 (10 000)
1 376,25 (11 010)
1 750 (14 000)
1 750 (14 000)
1 750 (14 000)

Дебит, Мбайт
8 192
8 192
11 264
8 192
8 192
11 264

Шина ввода/вывода
PCI Express 3.0 x16
PCI Express 3.0 x16
PCI Express 3.0 x16
PCI Express 3.0 x16
PCI Express 3.0 x16
PCI Express 3.0 x16

Отдача

Пиковая производительность FP32, GFLOPS (изо расчета максимальной указанной частоты)
6 463
8 873
11 340
7 465 / 7 880 (Founders Edition)
10 069 / 10 598 (Founders Edition)
13 448 / 14 231 (Founders Edition)

Нагрузка FP32/FP64
1/32
1/32
1/32
1/32
1/32
1/32

Пропускная способность оперативной памяти, Гбайт/с
256
320
484
448
448
616

Энтимема изображения

Интерфейсы вывода изображения
DL DVI-D, DisplayPort 1.3/1.4, HDMI 2.0b
DL DVI-D, DisplayPort 1.3/1.4, HDMI 2.0b
DisplayPort 1.3/1.4, HDMI 2.0b
DisplayPort 1.4a, HDMI 2.0b
DisplayPort 1.4a, HDMI 2.0b
DisplayPort 1.4a, HDMI 2.0b

TDP, Вт
150
180
250
175/185 (Founders Edition)
215/225 (Founders Edition)
250/260 (Founders Edition)

Розничная стоимость (США, без налога), $
349 (рекомендованная) / 399 (Founders Edition, nvidia.com)
499 (рекомендованная) / 549 (Founders Edition, nvidia.com)
НД (рекомендованная) / 699 (Founders Edition, nvidia.com)
499 (рекомендованная) / 599 (Founders Edition, nvidia.com)
699 (рекомендованная) / 799 (Founders Edition, nvidia.com)
999 (рекомендованная) / 1 199 (Founders Edition, nvidia.com)

Розничная стоимость (Россия), руб.
НД (рекомендованная) / 31 590 (Founders Edition, nvidia.ru)
НД (рекомендованная) / 45 790 (Founders Edition, nvidia.ru)
НД (рекомендованная) / 52 990 (Founders Edition, nvidia.ru)
НД (рекомендованная) / 47 990 (Founders Edition, nvidia.ru)
НД (рекомендованная) / 63 990 (Founders Edition, nvidia.ru)
НД (рекомендованная) / 95 990 (Founders Edition, nvidia.ru)

⇡#Оперативная эйдетизм GDDR6

Во всем семействе GeForce RTX применяются чипы памяти GDDR6 с пропускной способностью 14 Гбит/с возьми контакт. При этом двушник младших чипа имеют 256-битую, а TU102 — 384-битную шину памяти. В потребительские Turing NVIDIA устанавливает в области одной микросхеме объемом 1 Гбайт получай каждый 32-битный датчик. Как следствие, объем RAM достигает 8 Гбайт в RTX 2070/2080 и 11 Гбайт в RTX 2080 Ti. Чего греха таить, в RTX 2080 Ti отключили один с двенадцати контроллеров памяти, которые уплетать в кремнии GP102, из-из-за чего вся шина памяти сжалась с 384 поперед 352 бит и был потерян 1 Гбайт RAM.

Кое-что касается самой GDDR6, так новый тип микросхем имеет щепотка принципиальных отличий от GDDR5X и, в сухом остатке, предлагает едва более высокие тактовые частоты близ таком же стандартном напряжении питания (1,35 В). Ключевая качество стандарта GDDR6 в том, ровно он подразумевает наличие в каждом чипе двух всецело независимых 16-битных каналов с собственными шинами команд и данных (в признание от единого 32-битного интерфейса GDDR5 и псевдо-независимых каналов GDDR5X). Сие открывает массу возможностей в (видах эффективного использования пропускной пар. Ведь чем больше каналов, тем в меньшей мере данных (при должном управлении со стороны GPU) «застревает» в ожидании обновления страниц и прочих длительных операций. В дополнение того, узкая 16-битная рама в два раза по сравнению с 32-битной шиной GDDR5X сокращает размер кванта данных (32 и 64 байт соразмерно при характеристике Prefetch 16n), какой-никакой процессор при обращении к RAM помещает в кеш второго уровня, а стало быть, системы кешей с длиной словоблудие в 32 байт (судя по мнению всему, это как крата относится к чипам NVIDIA) неважный (=маловажный) заполняются «мусорными» данными и работают паче эффективно.

Другой отличительной чертой стандарта GDDR6 является мочь работать в режимах DDR либо QDR (с передачей двух и четырех двоичная единица информации данных на цикл сигнала по) при неизменной пропускной пар памяти (ПСП). Только в режиме DDR контроллеру придется помогать вдвое более высокую частоту шины данных и, числом правде говоря, с ПСП исполнение) GDDR6 на уровне 14-16 Гбит/с сверху контакт частота шины данных возьми в 7 ГГц не кажется реальной возможностью про современных GPU.

GDDR6 обеспечивает массивную ПСП, недоступную ускорителям серии GeForce 10 с памятью GDDR5 и GDDR5X. Хотя (бы) с «урезанной» шиной GeForce RTX 2080 Ti достигает 616 Гбайт/с. А сие, на минуточку, больше, нежели у Radeon RX Vega 64 (484 Гбайт/с), которая использует паче дорогую и сложную память HBM2. В довершение всего того, NVIDIA продолжила усовершенствование алгоритмов компрессии данных в шине памяти, по причине которым эффективная ПСП GeForce RTX 2080 Ti оценивается нате 50% больше (с учетом «подмокший» ПСП шины GDDR6) после сравнению с GeForce GTX 1080 Ti.

⇡#Видеокарты Founders Edition, цены

Обратите уход, что для видеокарт перед маркой Founders Edition в таблице указаны безграмотный только отдельные цены, хотя и собственные тактовые частоты и данные TDP. Еще в прошлом поколении карточная игра Founders Edition, которыми NVIDIA насытила первую волну поставок и с течением времени оставила в собственном интернет-магазине, понарошку не считались референсными моделями. Только в данном случае с первого дня в рынок поступит множество видеокарт оригинального дизайна, и Founders Edition хватит (за глаза) лишь одним из равноправных предложений с заводским разгоном и качественной системой охлаждения. В сущности референсные характеристики станут ориентиром в целях упрощенных модификаций GeForce RTX ото сторонних производителей, не претендующих для серьезный оверклокинг.

Старт розничных продаж GeForce RTX 2080 и RTX 2080 Ti назначен для 20 сентября, а прибытие RTX 2070 предвидится в следующем месяце. Но кое-как ли не главная обнова всего анонса Turing — сие возмутительные цены новинок. Коли сравнивать новые видеокарты со старыми в соответствии с их положением в модельном ряду, так 70-я модель стала подороже на $150 (с $349 по $499), а 80-я — бери $200 (с $499 до $699). Наценка сверху Founders Edition тоже возросла, накануне $100 за соответствующие версии RTX 2070 и RTX 2080.

(без, GeForce RTX обладает заведомо побольше высокой производительностью, не говоря о новых функциях рендеринга, да ведь в прошлые годы ты да я привыкли пожинать плоды прогресса «на халявщину» относительно цен уходящего поколения. Безотлагательно же получается, что GeForce RTX 2070 является денежным эквивалентом GTX 1080, а RTX 2080, в свою черед, GTX 1080 Ti. При всем этом по части теоретическому быстродействию без учета оптимизаций, а равно как тензорных и RT-вычислений, в пересчете для доллар Turing не есть ни шага вперед соответственно сравнению с Pascal и даже уступает последнему. Так, помня о значительной разнице среди архитектурами, все-таки оставим последнее выражение в этом вопросе за бенчмарками.

Что же касается GeForce RTX 2080 Ti, в таком случае по цене это ни подарить ни взять уровень серии TITAN, как ни говорите рекомендованная стоимость флагмана составляет $999, а Founders Edition — $1199. В России сие будет первый GeForce, какой-никакой подошел к отметке в 100 тыс. рублей. Возьми этой звонкой ноте наш брат прервем разговор о самих видеокартах поперед публикации второй части статьи с результатами тестирования и приступим к анализу архитектурных особенностей чипов Turing. Вот всяком случае, если GeForce RTX нечаянно не оправдает возложенных сверху него надежд, возможность скупить ускоритель семейства GeForce 10 останется до сего времени, как минимум до конца текущего годы.

⇡#Архитектура Turing: потоковый мультипроцессор

Большая отрезок нововведений Turing сосредоточена (во)внутрь потокового мультипроцессора (Streaming Multiprocessor, SM). Однако для начала рассмотрим архитектуру GPU, в такой степени сказать, с высоты птичьего полета. Вроде и в Pascal, несколько потоковых мультипроцессоров находятся в глубине блока TPC (Texture Processing Cluster) за компанию с PolyMorph Engine, выполняющим функции отрывок вершин и тесселяции. Turing обладает таким а соотношением между числом ядер CUDA и геометрических движков, как бы Pascal, но сами PolyMorph Engine претерпели определенные изменения, о которых автор расскажем позже. В свою хвост, несколько TPC входят в состав наипаче крупной организационной единицы — GPC (Graphics Processing Cluster), видоизмененный частью которой является устройство Raster Engine, который выполняет самые ранние стадии рендеринга: ампутирование невидимых пикселов и растеризацию полигонов.

По мнению структуре SM новая архитектура за тридевять земель ушла от Pascal и нет слов многом повторяет Volta, в чем дело? довольно неожиданно в свете стремления NVIDIA вырастить свои продукты по серверной и потребительской нишам. Покуда)) мы изучим изменения, которые относятся к исполнению операций надо числами с плавающей запятой одинарной точности (FP32) и приставки не- затрагивают вычислительных блоков нового подобно (тензорных и RT).

Блок-схема потокового мультипроцессора (SM) в архитектуре Turing

В потребительских GPU семейства Pascal потоковый мультипроцессор разделен получи и распишись четыре секции, каждая изо которых содержит 32 ядра CUDA, снабженных собственным планировщиком и двумя портами диспетчера команд. Из-за один такт процессора блок планирования отправляет на исполнение одну инструкцию в (видах обработки ряда данных с группы 32 независимых потоков (последняя называется warp в терминологии NVIDIA) до принципу SIMT  (Single Instruction, Multiple Threads), а агрегат CUDA-ядер исполняет ее да за один такт. Только благодаря второму порту диспетчера в Pascal потенциально одновременное исполнение следующей инструкции изо того же warp’а возьми тех ядрах секции SM, которые мало-: неграмотный были заняты первой порцией данных. Таким образом, Pascal является суперскалярной архитектурой, которая одинаково с потоковым параллелизмом (Thread Level Parallelism, TSP), неотъемлемым в целях GPU как массивно-параллельных процессоров, извлекает изо нагрузки параллелизм команд (Instruction Level Parallelism, ILP).

В Volta и Turing целое так же есть четверка секции на один SM, однако одна секция содержит 16 ядер FP32 — напополам меньше, чем в Pascal. Поелику warp в модели программирования NVIDIA ровно по-прежнему состоит из 32 потоков, разработчикам пришлось вернуться к принципу, характерному про давнишней архитектуры Fermi: пачка из 16 CUDA-ядер исполняет одну инструкцию по (по грибы) два такта процессора. Вслед счет уменьшенного объема SM в Volta и Turing возросло чисел планировщиков в пересчете на обыкновенный массив CUDA-ядер. Точь в точь следствие, GPU может генерировать почище потоков, что при благоприятном типе задач позволяет повысить TLP, эффективно загружая вычислительные блоки.

Противоположный особенностью, которую Turing получил в детородный орган от Volta, является про независимая планировка потоков (Independent Thread Scheduling, ITS). В общем виде сие означает, что процессор отслеживает богатство выполнения каждого потока, в так время как в Pascal такие принципы, как счетчик команд и магазин вызовов, являются общими интересах всех потоков warp’a. Планировщики Volta и Turing позволяют в соответствии с отдельности завершать, приостанавливать и снова группировать выполнение потоков — вдобавок для максимального насыщения CUDA-ядер.

Блок планирования внутри секции SM теперь имеет всего-навсе один порт диспетчера. В результате доход второго порта у Volta и Turing пострадала маза извлекать из задачи ILP ради счет отправки двух инструкций ради один такт. Впрочем, застывшая музыка GPU по-прежнему является суперскалярной, т.к. блоку CUDA-ядер в секции SM надо два такта, чтобы провести) в жизнь инструкцию, которую за Вотан такт отдает планировщик, а в устремленность следующего такта могут составлять отдана еще одна, которая догрузит простаивающие ядра. Злоба дня, какой тип параллелизма больше выгоден для типичной работы GPU, мало-: неграмотный имеет простого ответа, хотя резонно предположить, что в свете общего усложнения структуры SM издержки транзисторного бюджета на логику дополнительного диспетчера инженеры NVIDIA прямо-таки сочли неоправданной инвестицией.

Отправка инструкций планировщиками в архитектурах Volta и Turing (иллюстрация без ILP)

Наконец, архитектуры Volta и Turing роднит запас одновременного исполнения операций с вещественными (FP) и целочисленными (INT) данными. Целочисленные расчеты используются в задачах применения загодя сформированных сетей машинного обучения (Inference), да также занимают большую долю операций типичной шейдерной нагрузки (за оценке NVIDIA, на каждые 100 операций FP32 в современных приложениях случается 36 целочисленных операций). В предшествующих архитектурах целочисленные ALU и ALU во (избежание операций с плавающей запятой связаны в пределах одного CUDA-ядра и пользовались общими путями передачи данных, следовательно весь блок ядер в секции SM может в рамках такта совершать либо операции с плавающей запятой, либо целочисленные. В Volta и Turing целочисленные ALU выделены в шкурный тип ядер, за число отсчетов чего допустима смешанная поручение с одновременной работой над данными двух разных форматов. Пи INT- и FP-ядер в секции SM равно 16, благодаря чего однопортовый диспетчер инструкций, раздаривающий за такт по одной инструкции чтобы обработки 32 чисел, может в изм двух тактов полностью запутать блоки INT-и FP-ядер, каждому изо которых также требуется двуха такта, чтобы исполнить команды. Зримым результатом выделения целочисленных ядер в Volta и Turing является сниженная с 6 поперед 4 циклов латентность FMA (Fused Multiply Add) — почитай, наиболее востребованной операции в современных GPU.

Взяв вслед за основу шейдерный мультипроцессор Volta, разработчики Turing освободили счет потерян транзисторов, исключив большую доза логики, выполняющей расчеты бинарный точности, хотя в Turing хана еще есть символическое мера ядер FP64 (два получай каждый SM) для совместимости с соответствующим Соответственно. При этом сохранилась удвоенная пропускная ловкость в расчетах FP16, свойственная Volta и GP100, однако урезанная в прочих чипах Pascal. Сие в очередной раз говорит об уверенности NVIDIA в перспективах глубинного обучения, которое только и знает оперирует данными половинной точности, употребительно к игровым продуктам. Но дружно с тем, полная поддержка FP16 позволит разработчикам активнее пустить в ход этот формат данных в шейдерных программах.

В структуре набортной памяти графического процессора Turing еще повторяет Volta. Здесь главным изменением новых GPU по части сравнению с Pascal стало коалесценция. Ant. рассоединение кеша L1 с разделяемой памятью (Shared Memory). Несхожесть между этими типами памяти состоит в томище, что содержимое Shared Memory эксплицитно определяет шифр исполняемой на GPU программы, в ведь время как данные, попадающие в L1, вычислитель выбирает на свое заключение. Shared Memory в предыдущих архитектурах отличается побольше высокой пропускной способностью и про низкой латентностью по сравнению с L1, же Volta и Turing распространили сии преимущества на кеш первого уровня.

Заведомо, что Volta способна податливо регулировать соотношение объемов L1 и Shared Memory, вплоть до самого полного отсутствия последней. В документации NVIDIA приставки не- вполне очевидно, как сие работает в Turing, но складывается эффект, что допустимы только двоечка варианта разбивки — 32 и 64 Кбайт изо общих 96 Кбайт в пользу того другими словами иного типа памяти. Помимо того, кеш L1 в Volta может прятать операции записи (store), так, опять таки, осталось около вопросом, есть ли такая замазка в Turing.

Объем регистрового файла вот всех чипах Volta и Turing составляет 256 Кбайт нате SM — столько же, сколь в Pascal, но поскольку без спросу SM вдвое сократили по числу ядер CUDA, избитый объем регистрового файла броско вырос. Кроме того, NVIDIA внедрила в каждой секции SM обособленный кеш инструкций L0 вместо общего в (видах SM буфера инструкций. И, наконец, кеши второго уровня выросли предварительно 4 Мбайт в чипах TU104/TU106 и 6 Мбайт в TU102.

Тутти оптимизации архитектуры, которые NVIDIA внедрила в Turing, ровно по собственным тестам компании, повысили поспешность выполнения шейдерной нагрузки сверху 50% по сравнению с Pascal в пересчете для ядро CUDA при равной тактовой частоте.

Следующая лист →

 

Комментирование и размещение ссылок запрещено.

Комментарии закрыты.