Nvidia Tegra 4: первые тесты производительности

   Автор статьи: Юрий Стрельченко

… показали, что новый мобильный процессор отстает от кристалла A6X в составе iPad четвертого поколений.

В базе данных бенчмарка GLBenchmark появилась запись, свидетельствующая об испытаниях Dalmore, одного из двух тестовых проектов, которые Nvidia раздала разработчикам для обкатки приложений под Tegra 4. Вычислительная система, работающая под управлением Android 4.2.1 на максимуме тактовой частоты в 1,8 ГГц с гаком, обратилась к дисплею с разрешением 1920 на 1128 пикселей.

Как можно заметить, Tegra 4 хорошо себя показывает под видеографической нагрузкой, однако превзойти iPad 4 и его кристалл A6X не смогла. Так, например, если первая выбивает 32,6 кадров/с в тесте Egypt HD при 1080p-выводе за пределами дисплея, то последняя демонстрирует 49,6 кадров/с.

Понятно, результаты предварительные, тем более они получены не на конечном оборудовании, которое при должной оптимизации выдаст более интересные результаты.

Nvidia Tegra 4 строится в рамках 28-нм технологического процесса — Tegra 3 шла на 40-нм базе. Кристалл по-прежнему включает четыре основных вычислительных ядра плюс одно маломощное вспомогательное. Все ядра построены на микроархитектуре ARM Cortex-15: основные трудятся на тактовых частотах до 1,9 ГГц, ядро-компаньон работает с существенно меньшей мощностью — в пределах 700-800 МГц.

Видеографическая подсистема собрана из 72 ядер, и ее общая производительность, как заявлено, почти в шесть раз выше таковой для Tegra 3. Большим разочарованием стал тот факт, что шейдерная архитектура не универсальная, впрочем, она, по словам Nvidia, наилучшим образом приспособлена под готовящийся для Tegra 4 игровой контент. Кроме того, чип не полностью поддерживает стандарт OpenGL ES 3.0.

Если говорить детально, в состав Nvidia Tegra 4 включен графический сопроцессор, который компания называет GeForce ULP (Ultra Low Power). Он располагает стандартной раздельной архитектурой, когда за работу вершинных и пиксельных шейдеров (отдельных графических подпрограмм) отвечают разные части оборудования — арифметико-логические устройства; в Nvidia их нарекли ядрами.

Всего в Tegra 4 собрано 24 ядра для 32-разрядных шейдеров вершин и 48 ядер для 20-разрядных шейдеров пикселей — всего 72 ядра. Ядра сгруппированы по четыре штуки, формируя отдельные Vec4-модули. Итого получилось 6 вертексных и 4 трехуровневых пиксельных — фактически всего 18 Vec4-модулей. Вот почему Nvidia заявила о шестикратном приросте видеографической производительности Tegra 4 по отношению к Tegra 3, который составлен из трех Vec4-модулей.

Каждое ядро способно выполнить одну инструкцию (умножение плюс сложение) за тактовый импульс процессора, соответственно, каждый модуль выдает 4 инструкции, а все 18 исполняют 72 инструкции за такт. Если принять максимум тактовой частоты в 520 МГц (столько же, сколько в Tegra 3), видеографическая производительность Tegra 4 составит 74,8 гигафлопс (считая, что умножение плюс сложение — это две операции).

«Система на кристалле» Apple A6X интегрирует видеографический сопроцессор Imagination Technologies PowerVR SGX554MP4, несущий четыре ядра. Каждое из них содержит 8 арифметико-логических устройств, здесь называемых универсальными масштабируемыми шейдерными обработчиками (USSE2). Каждый USSE2-модуль способен выполнить 4 инструкции за такт, значит всего PowerVR SGX554MP4, располагающий 32 модулями, справляется с 128-ю инструкциями за такт. При частоте в 300 МГц мы имеем дело с производительностью на уровне 76,8 гигафлопс. Но в данном случае частота понижена до 280 МГц, поэтому следует говорить о 71,6 гигафлопс.

Как видим, чтобы добраться до видеографики Apple-чипа Nvidia пришлось сделать ставку на высокие тактовые частоты GeForce ULP.

В теоретических гигафлопсах Tegra 4 опережает A6X, но на практике такого не случится по причине отсутствия в первой универсальной шейдерной архитектуры. Если бы таковая была, одно и то же оборудование могло бы обрабатывать код равно как вершинных, так и пиксельных шейдеров, то есть итоговая производительность при пиковых нагрузках с обилием кода вершин и пикселей оказалась бы выше, чем у раздельной архитектуры, ведь A6X не нужно заботиться о балансе 1:2 между ними так, как это происходит с Tegra 4.


© СОТОВИК

Новости за день

[an error occurred while processing this directive]
Авторизация


Регистрация
Восстановление пароля