Исследование возможностей GPU в высокопроизводительных вычислениях

КУЛИКОВ В.А.

3. Гейн А.Г. Земля Информатика: пособие для учителей. № 43.

- М.: Первое сентября. Информатика, 1996. 36 с. Ершов А.П. О предмете информатики // Избранные труды. - Новосибирск: Наука, 1994. С. 30-40.

4. Примерная основная образовательная программа образовательного учреждения. Основная школа / [Сост. Е.С. Савинов].

- М.: Просвещение, 2011. 342 с.

5. Федеральный государственный образовательный стандарт основного общего образования [Электронный ресурс] // Сайт

- Министерство образования науки РФ - httpV/минобрнауки. рф/документы/938 (дата обращения: 1.11.2014).

6. Фундаментальное ядро содержания общего образования: проект / Под ред. В.В. Козлова, А.М. Кондакова. - М.: Просвещение, 2009. 48 с.

исследование возможностей GPU в высокопроизводительных вычислениях

куликов в.А.

РКК ЭНЕРГИЯ, Королев, Российская Федерация

research of capabilities of GPU in high-performance computing

Kulikov V.A.

RSC ENERGIA, Korolev, Russian Federation

Статья посвящена исследованию вопроса эффективности в высокопроизводительном гибридном вычислительном кластере на основе графических процессоров (GPU). Автор обращает особое внимание на формирование программно-математического окружения для проведения исследования в направлении производительности кластера параллельных вычислений с помощью теста Linpack, раскрывающего зависимость производительности кластера от увеличения расчетной нагрузки. Приведенные в статье результаты исследования используются в построении входных данных при подготовке моделей Ansys, Capvidia FlowVision.

Ключевые слова: графический процессор, кластер, эффективная производительность, высокопроизводительные вычисления, размерность задачи, гибридный узел, флопс.

The article research the question of efficiency in high-performance hybrid computing cluster based on graphics processors (GPU). The author focus special attention to the formation of mathematical programming environment for conducting research into the performance of parallel computing cluster using test Linpack, revealing the dependence of the performance of the cluster with increasing computational load. The results obtained by the research are used in the construction of the input data with pre-processing models Ansys, Capvidia FlowVision.

Keywords: GPU, cluster, effective performance, high-performance computing, problem size, hybrid node, flops.

Параллельные вычисления - современная многогранная область вычислительных наук, бурно развивающаяся и являющаяся наиболее актуальной в ближайшие десятилетия. Актуальность данной области складывается из множества факторов, и в первую очередь, исходя из потребности в больших вычислительных ресурсах для решения расчетных задач при создании полного электронного описания изделия, прикладных задач моделирования процессов в физике, биофизике, химии и др. В то же время технологический прорыв в области создания средств межпроцессорных и межкомпьютерных коммуникаций позволяет реализовать одно из ключевых звеньев параллелизма - эффективное управление в распределении вычислений по различным компонентам интегрированной вычислительной установки. Одно из эффективных направлений в параллельных вычислениях - использование параллельных вычислительных кластеров на основе Графических процессоров (GPU), что на порядок повышает вычислительные возможности и минимизирует архитектуру и энергопотребление. Определяющей величиной производительности высокопроизводительного кластера параллельных вычислений (HPC cluster) является ФЛОПС (flops) - внесистемная единица, используемая для измерения производительности компьютеров, показывающая, сколько операций с плавающей запятой в секунду выполняет данная вычислительная система (FLoating-point Operations Per Second). Как и большинство других показателей производительности, данная величина определяется путём запуска на испытуемом HPC кластере тестовой программы, которая решает задачу с известным количеством операций и подсчитывает время, за которое она была решена. Наиболее популярным

тестом производительности на сегодняшний день является программа Linpack. Одним из важнейших достоинств показателя ФЛОПС является то, что он до некоторых пределов может быть истолкован как абсолютная величина и вычислен теоретически, в то время как большинство других популярных мер являются относительными и позволяют оценить испытуемую систему лишь в сравнении с рядом других. Эта особенность даёт возможность использовать для оценки результаты работы различных алгоритмов, а также оценить производительность вычислительных систем, которые ещё не существуют или находятся в разработке.

Цель исследования

Эффективность теста Linpack особенно показательна в случае сравнения производительности на одних и тех же узлах кластера, с выполнением его только на CPU и с запуском подготовленной версии теста Linpack на GPU. Получаемая зависимость производительности кластера от увеличения расчетной нагрузки является определяющей в выборе математического вычислителя, в построении входных данных при подготовке моделей Ansys [1], Capvidia FlowVision [4], при постановке задачи построения кластера параллельных вычислений с определённой заказчиком производительностью.

описание экспериментальной установки

При проведении теста для получения данной зависимости в качестве экспериментальной установки использовался HPC кластер производства ОАО «Т-Платформы» на основе шасси V5000. Шасси V5000 обладает следующими основными характеристика-

ми: форм-фактор 5U, для установки в стандартные девятнадцатидюймовые стойки (с глубиной от 1070 мм или более); максимальное количество устанавливаемых вычислительных модулей составляет: 10 двухпроцессорных вычислительных модулей в стандартном корпусе (S, «slim»), 5 двупроцессорных модулей c установленными ускорителями GPGPU в корпусе двойной толщины (F, «fat»); возможность выбора вычислительных модулей с тремя разными типами процессоров: шестнадцатиядерными процессорами AMD Opteron™ 6200 («Interlagos»), двенадцатиядерными процессорами AMD Opteron™ 6100 («Magny Cours») или восьми-ядерными процессорами Intel® Xeon® E5 2600 («SandyBridge»); использование ускорителей GPGPU; возможность установки смешанных конфигураций вычислительных модулей; системное управление: встроенный коммутатор Fast Ethernet с двумя внешними портами GbE для удаленного мониторинга и управления шасси и узлами; система охлаждения: 3 модуля охлаждения (N+1) с функцией горячей замены; система электропитания: 3-4 блока питания (N+1) c функцией горячей замены по 1600 Вт каждый (для сети 180-230В); пиковое энергопотребление 5100 Вт. Шасси V5000 поддерживает единообразные или смешанные конфигурации вычислительных модулей S и F вне зависимости от марки/ семейства платформы и микропроцессора. Возможна установка в шасси разных типов вычислительных модулей в произвольном порядке. Шасси V5000 может содержать до 20 шестнадца-тиядерных процессоров AMD Opteron™ 6200 «Interlagos», до 20 двенадцатиядерных процессоров AMD Opteron™ 6100 («Magny Cours») или до 20 восьмиядерных процессоров Intel® Xeon® E5 2600 «SandyBridge» и до 2,56 ТБ памяти для всех версий вы-

числительных модулей. Можно также выбрать высокочастотные конфигурации с небольшим количеством ядер, обладающие повышенной пропускной способностью памяти (в расчете на ядро) и смешивать внутри одного шасси вычислительные модули разных типов. Полностью заполненная 42U стойка может содержать до 8 шасси с 2560 процессорными ядрами AMD Opteron™, обеспечивая до 24,5 терафлопс пиковой производительности (x86). Шасси V5000 поддерживает однотипные и смешанные конфигурации вычислительных модулей с литерой S и F вне зависимости от используемой микропроцессорной платформы. Можно устанавливать разные вычислительные модули в любой последовательности. Система управления определяет присутствие и тип вычислительного модуля для правильного отображения системы в интерфейсе IMU и в высокоуровневых консолях управления. В качестве состава вычислительных модулей используется смешанная конфигурация. В качестве хранилища данных использовался Panasas ReadyStorage ActiveStor объемом 45 Tb, подключенный к кластеру через 10 Gb Ethernet порт к порту 10 GbE через порт QSFP (10 GbE VPI) к управляющему модулю кластера. Состав системного математического программного обеспечения кластера: операционная система Linux CentOS 6.4 х64; менеджер очереди Torque 4.2.5+Maui; интерфейс передачи сообщений Open MPI 1.6.4; система мониторинга кластера Ganglia 3.6.0; система развёртывания и управления кластером xCat 2.8.1.

описание теста

Производительность кластера можно оценить при помощи теста Linpack, который представляет из себя задачу решения си-

стемы линейных уравнений методом LU-разложения. Результат теста выражается в GFLOPS (миллиардов операций с плавающей точкой в секунду). Тест Linpack используется для составления Top500 - рейтинга 500 самых производительных компьютерных систем мира. Тест Linpack, впервые был опубликован в 1979 г. и первоначально являлся дополнением к одноименной библиотеке численных методов, содержащей набор процедур для решения систем линейных алгебраических уравнений (СЛАУ) и предназначался для оценки времени решения той или иной системы с помощью этой библиотеки. Linpack является классическим примером теста-ядра (причем, поскольку к решению тех или иных СЛАУ сводятся очень многие реальные расчетные задачи -измеренные им характеристики являются в высокой степени репрезентативными). Автором теста является Джек Донгарра (J. Jack Dongarra) из Университета штата Теннесси (до этого он сотрудничал с Аргоннской национальной лабораторией, где и была сформирована концепция тестов Linpack). Тест состоит в решении системы линейных арифметических уравнений вида: Ax = f методом LU-факторизации c выбором ведущего элемента столбца, где A - плотно заполненная матрица размерности N (первоначальный, «классический» вариант Linpack решал задачу размерности 100). Производительность в тесте Linpack измеряется в количестве производимых операций с плавающей запятой в секунду. Единицей измерения является 1 флопс, то есть одна така

Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.

научная статья по теме Исследование возможностей GPU в высокопроизводительных вычислениях Биология

Текст научной статьи на тему «Исследование возможностей GPU в высокопроизводительных вычислениях»