Кажется, что совсем недавно была представлена новая версия API DirectX 10 и вместе с ней представлены революционные графические адаптеры с новой архитектурой. Но развитие технологий никогда не застаивается и спустя несколько лет мир увидел DirectX 11. А вместе с новой API разработчики графических процессоров представляют совершенно новые видеокарты с полной поддержкой новейших технологий включенных в состав Microsoft DirectX 11. Первыми, кто представил свои новые графические процессоры с полной поддержкой DirectX11, стала компания AMD, выпустившая видеокарту
, построенную на чипе . Давайте рассмотрим, какие же изменения AMD внесла в новое поколение графических процессоров и насколько они отличаются от своих предшественников , которые построены на чипе .Чип AMD ATI RV870 (
)Начиная с самого низкого уровня SPU, добавились несколько новейших аппаратных инструкций, и возросла скорость реализации прежних. Это было сделано как для увеличения производительности, так и для соответствия чипа стандартам разных API последних версий. Ускорение работы достигнуто за счет того, что отдельные инструкции, требующие ранее некоторое количество циклов для исполнения, отныне могут быть рассчитаны за один заход. Поддержка нужных для DirectX 11 команд, таких как count, insert и extract, была прибавлена как раз на этом уровне. Отдельное внимание было уделено обсчету поднормалей, которые в настоящий момент производятся без потери производительности.
Выполнение инструкций за один такт
Наверно, одной из самых любопытных добавленных инструкций стала сумма модулей разности – Sum of Absolute Differences (SAD). Она особенно часто используется при кодировании видео и анализе графических данных, так как в геометрическом плане с ее поддержкой легко оценивать движение. В случае с RV770 аппаратная поддержка SAD просто-напросто отсутствовала, а для ее эмуляции требовалась цепочка примерно из 12 инструкций. С добавлением SAD в SPU исполнение инструкции занимает один единственный такт, и, по словам AMD, это должно более чем в два раза ускорить кодирование видео силами GPU. Несколько расстраивает, что SAD не является неизбежной частью DirectX 11 или OpenCL, а это означает, что написанные под DirectX программы не могут вызывать ее. То же справедливо и для OpenCL, но для этого API хотя бы имеется необходимая библиотека. Впрочем, эти API не ограничивают жестко поведение GPU, поэтому динамический компилятор AMD может на лету распознать возможности оптимизаций (например – упомянутую выше цепь из 12 инструкций) и подменить нужные части общего кода на более действенные для данной конкретной архитектуры. То есть, даже если программист и не вызывал какие-либо необходимые функции вручную, интеллектуальные алгоритмы смогут возмещать это упущение самостоятельно.
Список инструкций, которые блок
может осуществлять за один такт:Переходим к SIMD-блокам. Кроме совершенствований в SP, текстурный кэш L1, размещенный здесь, получил значительную прибавку к производительности. Хотя его размер не видоизменился (у каждого SIMD в наличии по 16 КБ L1), скорость работы с данными увеличилась до впечатляющих 1 ТБ/с. Помимо этого, в дополнение к имеющемуся текстурному кэшу, было добавлено 8 КБ для сохранения промежуточных подсчетов SIMD. Наконец, вдвое выросло (до 32 КБ) локальное хранилище данных, подключенное к каждому модулю.
Строение SIMD блоков практически идентичное
Также были переработаны текстурные модули. Первое из внесенных видоизменений – добавленная возможность чтения сжатых AA цветовых буферов для более разумного применения пропускной способности. Второе – в AMD задались целью поднять скорость интерполяции, и осуществили это довольно любопытным способом. Текстурные модули просто-напросто лишили этой способности, вынеся ее в обязанности SP (часть спецификаций DirectX 11). Это позволило значительно увеличить скорость выполнения операций данного типа. В результате этого текстурные модули RV870 имеют более высокую скорость закраски (филрейта), чем у RV770. AMD утверждает, что чип способен в совокупности добиваться показателя в 68 миллиардов билинейно отфильтрованных текселей в секунду, что является последствием переброски интерполяции на SP и выполненных оптимизаций для эффективного использования пропускной способности. Снова делая шаг вверх по лестнице архитектурных уровней, добираемся до основной причины перевеса в производительности RV870 над своим предшественником. AMD удвоила число блоков SIMD с 10 до 20 штук. Это обозначает двукратное количественное превосходство по всему, начиная от SP и кончая текстурными модулями. Это достаточно банальное изменение, в отличие от добавления новых низкоуровневых команд или переработки кэшей, но как мы видим, наиболее результативное.
Строение ядра RV870
Непосредственно, чтобы предельно эффективно загружать работой такое количество потоковых процессоров, были внесены и доработки в алгоритмы распределяющего диспетчера Ultra-Threaded Processor, объем 4-х блоков кэш-памяти L2 был удвоен с 64 до 128 КБ, причем в то же время они обрели ускорение в работе. Раньше они были объединены со сверхбыстрой памятью первого уровня на скорости до 384 ГБ/с, теперь – 435 ГБ/с. В конце концов, общий буфер данных был увеличен в 4 раза, до 64 КБ. Мы видим, что AMD не только удвоила все исполнительные блоки и расширила их функциональность, но и побеспокоилась об отсутствии вероятных узких мест.
Такой вид имел общий буфер в RV770
А так общий буфер выглядит в RV870
Для того чтобы обработать все то, что рассчитывают SIMD-процессоры, удвоили и блоки ROP. Это значит, что их количество в
увеличилось до 32 штук. Сами ROP также подверглись косметической переделке, вследствие чего их производительность также немного возросла. Теперь блоки растеризации могут проводить быструю цветовую очистку, ведь согласно исследованиям AMD, многие игры проводят сотни таких операций между кадрами. Также ROP ответственны и за отдельные стадии нового метода сглаживания SSAA, представленного ATI вместе с 5000-й линейкой своих видеокарт.AMD Graphics Engine
Блок аппаратной тесселяции внесли еще в RV770, однако, невзирая на свои обширные возможности, разработчики игр практически не применяли его, обходя стороной. В DirectX 11 появилось требование неизбежного наличия такого блока в GPU, и имеющийся в RV770 был улучшен для соответствия спецификациям DX11. Причем если в RV770 такой модуль был один, для наилучшего баланса и равномерности загрузки массива из 20 SIMD, в RV870 добавили второй.
Так выглядит эталонная видеокарта R
Как мы видим, архитектура AMD ATI
перетерпела множество изменений по сравнению с RV770, однако некоторые элементы остались не тронуты. Инженеры из AMD не стали изобретать что-то совсем новое, они просто-напросто хорошо модернизировали видеочип прошлого поколения.
|
Radeon HD 4870 |
Radeon HD 4890 |
Radeon HD 5870 |
Кодовое имя |
RV770 |
RV790 |
RV870 |
Площадь чипа, кв. мм. |
263 |
263 |
334 |
Техпроцесс, нм |
55 |
55 |
40 |
Кол-во транзисторов, млрд. шт. |
0,956 |
0,959 |
2,15 |
Частота ядра, МГц |
750 |
850 |
850 |
Частота памяти (эффективная QDR), МГц |
900 |
975 |
1200 |
Текстурных блоков, шт. |
40 |
40 |
80 |
Шейдерных процессоров, шт. |
800 |
800 |
1600 |
Блоков ROPs, шт. |
16 |
16 |
32 |
Объем памяти, МБ |
512/1024 |
1024 |
1024 |
Поддерживаемые API |
DirectX 10.1 |
DirectX 10.1 |
DirectX 11 |
Поддержка Eyefinity |
Нет |
Нет |
Есть |
Но насколько видеокарты на
стали производительней своих предшественников в лице ускорителей на Radeon HD 4870 и Radeon HD 4890, смогут нам ответить только результаты тестирования в игровых приложениях и синтетических тестах. Поэтому этот обзор будет посвящен одному из первых решений на AMD , которое попало в нашу тестовую лабораторию - .
Модель |
GIGABYTE Radeon HD 5870 (GV-R587D5-1GD-B) |
Графическое ядро |
(AMD) ATI Radeon HD 5870 (RV870 PRO) |
Конвейера |
1600 унифицированных потоковых |
Поддерживаемые API |
DirectX 11 (Shader Model 5.0) |
Частота ядра, МГц |
850 |
Объем (тип) памяти, МБ |
1024 (GDDR5) |
Частота памяти (эффективная), МГц |
1200 (4800) |
Шина памяти, бит |
256 |
Стандарт шины |
PCI Express X16 2.0 |
Максимальное разрешение |
До 2560x1600 (Dual-link DVI) или 1920x1200 (Single-link DVI) |
Выходы |
2x DVI-I (HDMI/VGA через переходники) |
Поддержка HDCP |
Есть |
Драйверы |
|
Сайт производителя |
Не трудно заметить, что характеристики видеокарты очень схожи с рекомендованными производителем GPU, поэтому в плане производительности ускоритель описывает возможности любого «референсного» решения на
.Видеокарта поставляется в достаточно габаритной картонной упаковке. Внешний вид и оформление коробки напоминает таковое для последних решений компании с пассивными системами охлаждения. Основной акцент сделан на графическом процессоре ATI
, который лежит в основе ускорителя, а также на наличии выхода DisplayPort.На обратной стороне упаковки описываются особенности графического ускорителя и акцентируется внимание на поддержке Microsoft DirectX 11 и технологии ATI Eyefinity, которая через DisplayPort позволяет использовать для визуализации игры несколько мониторов.
Комплект поставки розничной версии
достаточно сложно оценить, так как в коробке вместе с тестовым семплом мы обнаружили только:Как минимум мы не увидели в комплекте диска с драйверами и утилитами, а также хотя бы краткой инструкций по установке видеокарты, но, наверняка, с купленным в магазине ускорителем эти компоненты будут.
Внешне видеокарта
очень похожа на эталонный ускоритель, копией которого, судя по всему, она и является. Но, все же, внешний вид системы охлаждения и фирменные надписи выделяют видеокарту.По габаритам новая видеокарта оказалась достаточно большой, например, она примерно на сантиметр длиннее двухчипового ускорителя от NVIDIA. Такие габариты могут создать некоторые проблемы при установке новых ускорителей в некоторые корпуса.
Обратная сторона ускорителя почти полностью скрыта под металлической пластиной, которая в основном увеличивает жесткость конструкции и обеспечивает более надежное крепление системы охлаждения.
В правой части верхнего торца ускорителя находятся два 6-контактных разъема дополнительного питания, что говорит о не самом высоком уровне энергопотребления. Последнее позволяет надеяться на то, что стандартной турбины будет достаточно для охлаждения без необходимости раскручивать турбину до очень высокой скорости, что будет создавать много шума. Кстати, интересно выглядят два «сопла» в торце кожуха кулера, которые по идее должны улучшить циркуляцию воздуха.
Слева вверху видеокарты находятся два разъема для мостиков CrossFire, что является хорошим заделом на будущее и подспорьем для желающих получить бескомпромиссно быструю игровую станцию.
Благодаря двухслотовому дизайну системы охлаждения на ускорителе реализовано много видеовыходов: два универсальных выхода DVI, мультимедийные выходы HDMI и DisplayPort. Для подключения аналогового монитора необходимо будет воспользоваться переходником из комплекта поставки.
Лицевая сторона печатной платы достаточно насыщена различными элементами: кроме самого GPU здесь расположились все чипы видеопамяти и все основные узлы стабилизатора питания.
Обратная сторона платы несет только некоторую часть мелких согласующих элементов.
Видеопамять общим объемом 1 ГБ набрана восемью микросхемами стандарта GDDR5 производства SAMSUNG (K4G10325FE-HC04) со временем доступа 0,4 нс, что позволяет им работать на эффективной частоте до 5000 МГц. Поскольку результирующая частота работы чипов памяти на видеокарте немного ниже и составляет 4800 МГц, то остается узенький частотный коридор про запас.
Частота работы графического процессора соответствует рекомендованному значению 850 МГц. Как уже описывалось ранее, сам чип RV870 выполнен по 40 нм техпроцессу, что обуславливает его относительно небольшое энергопотребление, несмотря на то, что в него входят 2154 млн. транзисторов. Количество унифицированных шейдерных процессоров увеличено до 1600, текстурных блоков до 80, а количество ROP равно 32.
При отсутствии нагрузки частота работы чипа снижается до 157 МГц, а видеопамять замедляется до 300 МГц (эффективная частота 1200 МГц). При этом уменьшается и напряжение питания, что обеспечивает заметное снижение энергопотребления и температуры.
Теперь рассмотрим систему охлаждения видеокарты. Основная турбина состоит из металлической основы, которая является радиатором для чипов памяти и компонентов стабилизатора питания, прилегая к ним через термопрокладки, а также радиаторного блока из медного теплосъемника, четырех тепловых трубок и алюминиевых ребер.
Для увеличения эффективности контакт между тепловыми трубками и алюминиевыми пластинами качественно пропаян. Продувает всю эту конструкцию, скрытую под пластиковым кожухом, вполне обычная на вид турбина.
Для оценки эффективности системы охлаждения мы использовали утилиту
, а детальный мониторинг осуществлялся при помощи GPU-Z. Работая на штатных частотах и управляя скоростью вращения турбины автоматически, графический процессор прогрелся до 85°С, хотя один из дополнительных термодатчиков засвидетельствовал температуру на 6,5 градусов выше. Учитывая что при этом скорость вращения турбины была только 37% от максимальной и весь кулер оставался очень тихим, мы можем говорить о не очень большом тепловыделении ускорителя и отличной работе системы охлаждения.При тестировании использовался Стенд для тестирования Видеокарт №2 (конфигурация не претерпевала изменений с 01-12-2008).
Процессор | Intel Core 2 Quad Q9550 (LGA775, 2,83 ГГц, L2 12 МБ) @3,8 ГГц |
Материнские платы | ZOTAC NForce 790i-Supreme (LGA775, nForce 790i Ultra SLI, DDR3, ATX) GIGABYTE GA-EP45T-DS3R (LGA775, Intel P45, DDR3, ATX) |
Кулеры | Noctua NH-U12P (LGA775, 54,33 CFM, 12,6-19,8 дБ) Thermalright SI-128 (LGA775) + VIZO Starlet UVLED120 (62,7 CFM, 31,1 дБ) |
Дополнительное охлаждение | VIZO Propeller PCL-201 (+1 slot, 16,0-28,3 CFM, 20 дБ) |
Оперативная память | 2x DDR3-1333 1024 MБ Transcend PC3-10600 |
Жесткие диски | Hitachi Deskstar HDS721616PLA380 (160 ГБ, 16 МБ, SATA-300) |
Блоки питания | CHIEFTEC CFT-850G-DF (850 Вт, 140+80 мм, 25 дБ) Seasonic SS-650JT (650 Вт, 120 мм, 39,1 дБ) |
Корпус | Spire SwordFin SP9007B (Full Tower) + Coolink SWiF 1202 (120x120x25, 53 CFM, 24 дБ) |
Монитор | Samsung SyncMaster 757MB (DynaFlat, 2048x1536@60 Гц, MPR II, TCO''''''''''''''''99) |
Производительность нового «топового» графического процессора Radeon HD 5870 прямо скажем впечатляет. Превосходство над одночиповыми решениями предыдущего поколения обоих производителей составляет до 50 и более процентов при таком же или даже меньшем уровне энергопотребления, а также технологическом превосходстве. Конечно, пока нельзя говорить «Гоп!», т.к. компания NVIDIA еще не представила свой ответ для поддержки DirectX 11, но при комплектации новой производительной игровой системы уже сегодня и не большом стеснении в средствах выбор пока остается очевидным.
К сожалению, пока рано говорить о производительности ускорителя в режиме DirectX 11, поскольку, во-первых, пока практически нет игр и бэнчмарков с поддержкой этого API, а, во-вторых, пока отсутствуют оппоненты. Но уже сейчас можно сказать, что включение тесселяции не проходит незаметно для быстродействия. На примере Unigine Heaven Demo v1.0 при разрешении 1280х1024, 4-кратном полноэкранном сглаживании и 16-кратной анизотропной фильтрации текстур можно говорить о почти двукратном падении быстродействия при включении тесселяции – с 65,1 кадров в секунду до 37,4.
Пока не появилось множество утилит для разгона видеокарт с поддержкой новых графических процессоров мы решили воспользоваться гарантированно доступным инструментом, который поставляется вместе с драйверами – ATI Overdrive.
Видеокарта даже без ручного ускорения турбины смогла стабильно функционировать на предельно доступных в этой вкладке частотах: 900 МГц для графического ядра (+5,9%) и 1300 МГц (+8,3%) для видеопамяти, что обеспечило ее функционирование на эффективной частоте 5200 МГц. Это достаточно хороший и вселяющий надежду результат.
Тестовый пакет |
Стандартные частоты |
Разогнанная видеокарта |
Прирост производительности, % |
|
Futuremark 3DMark''''''''''''''''06 |
3DMark Score |
21262 |
21353 |
0,43 |
SM2.0 Score |
8292 |
8301 |
0,11 |
|
HDR/SM3.0 Score |
10513 |
10770 |
2,44 |
|
Futuremark 3DMark Vantage |
Performance |
15873 |
16478 |
3,81 |
Serious Sam 2, Maximum Quality, AA4x/AF16x, fps |
1600x1200 |
166,0 |
174,2 |
4,94 |
2048x1536 |
124,6 |
131,1 |
5,22 |
|
Prey, Maximum Quality, AA4x/AF16x, fps |
1600x1200 |
163,0 |
166,1 |
1,90 |
2048x1536 |
154,3 |
155,4 |
0,71 |
|
Call Of Juarez, Maximum Quality, NO AA/AF, fps |
1280x1024 |
177,20 |
190,00 |
7,22 |
1600x1200 |
147,81 |
156,21 |
5,68 |
|
2048x1536 |
108,37 |
114,89 |
6,02 |
|
Crysis, Maximum Quality, NO AA/AF, fps |
1280x1024 |
95,70 |
100,29 |
4,80 |
1600x1200 |
75,95 |
80,02 |
5,36 |
|
2048x1536 |
53,92 |
56,83 |
5,40 |
|
Crysis, Maximum Quality, AA4x/AF16x, fps |
1280x1024 |
88,40 |
92,31 |
4,42 |
1600x1200 |
70,19 |
74,13 |
5,61 |
|
2048x1536 |
49,48 |
52,44 |
5,98 |
|
Crisys Warhead, Maximum Quality, NO AA/AF, fps |
1280x1024 |
67,61 |
71,59 |
5,89 |
1600x1200 |
53,71 |
56,85 |
5,85 |
|
Crisys Warhead, Maximum Quality, AA4x/AF16x, fps |
1280x1024 |
64,23 |
67,58 |
5,22 |
1600x1200 |
51,09 |
53,29 |
4,31 |
|
Far Cry 2, Maximum Quality, NO AA/AF, fps |
1280x1024 |
95,06 |
95,90 |
0,88 |
1600x1200 |
90,06 |
92,20 |
2,38 |
|
2048x1536 |
77,63 |
80,30 |
3,44 |
|
Far Cry 2, Maximum Quality, AA4x/AF16x, fps |
1280x1024 |
88,08 |
89,67 |
1,81 |
1600x1200 |
75,46 |
79,34 |
5,14 |
|
2048x1536 |
58,41 |
61,73 |
5,68 |
Прирост производительности от разгона составил в наиболее тяжелых режимах примерно 6-7%, что вполне сопоставимо повышению тактовых частот и станет приятным бонусом для владельца, хотя и останется в большинстве случаев заметным лишь во время тестов.
Как видим, графические ускорители на Radeon HD 5870 даже при работе на номинальных тактовых частотах имеют очень большую по современным меркам производительность, а при некотором разгоне будут еще быстрее. Но в современном мире достаточно много внимания уделяется и энергопотреблению, т.к. лишние «съеденные» ватты электроэнергии это и чуть больший счет за электроэнергию и косвенный вклад в загрязнение окружающей среды.
Чтобы оценить соотношение производительности и энергопотребления мы замерили потребности в энергии для всего тестового стенда, создавая нагрузку на видеокарту с помощью утилиты FurMark.
Видеокарта |
Режим простоя, Вт |
При максимальной нагрузке, Вт |
ASUS GeForce 210 512 МБ DDR2 |
122 |
154 |
ASUS Radeon HD 4770 512 МБ GDDR3 |
152 |
218 |
ASUS Radeon HD 4870 512 MБ GDDR5 |
191 |
305 |
ZOTAC GeForce GTX 285 1 ГБ GDDR3 |
143 |
314 |
В режиме простоя новое производительное и технологичное решение характеризуется относительно низким энергопотреблением, являясь даже менее «прожорливым» чем некоторые ускорители среднего уровня. При высокой нагрузке энергопотребление заметно возрастает, но оно находится на уровне с другими одночиповыми ускорителями предыдущего поколения, которые, как было показано выше, имеют заметно меньшую производительность. Таким образом, видеокарты на Radeon HD 5870 обеспечивают новый уровень быстродействия на ватт потребленной электроэнергии.
Выпустив графический процессор ATI RV870, он же Radeon HD 5870, компания AMD представила миру возможность получить заметно большую производительность в играх, поддержку нового графического API DirectX 11, а также некоторых дополнительных фирменных технологий при том же, а в режиме простоя даже меньшем, уровне энергопотребления. Пока можно говорить только о переходе видеокарт на новый уровень производительности на ватт потребленной электроэнергии, т.к. вполне ожидаемо, что «топовое» решение нового поколения окажется заметно производительнее предыдущих моделей, но сравнить с такими же по функциональности решениями от NVIDIA пока возможности нет.
Таким образом, если собирать уже сегодня действительно производительный игровой компьютер, который позволит играть во все современные и будет полноценно поддерживать все новые игры, то альтернатив нет – видеокарта должна быть на новом GPU от AMD. Однако однозначно рекомендовать именно GIGABYTE Radeon HD 5870
(GV-R587D5-1GD-B) нельзя, т.к. эта видеокарта полностью повторяет эталонный дизайн, а значит по возможностям аналогична многим другим «референсным клонам» - решающими факторами станут наличие, цена и, в некотором роде, комплектация.Достоинства:
Недостатки
ПРИОБРЕСТИ ТОВАР МОЖНО В НАШЕМ МАГАЗИНЕ