научная статья по теме МОДЕЛИРОВАНИЕ ЗАДАЧ ГАЗОВОЙ ДИНАМИКИ И АЭРОАКУСТИКИ С ИСПОЛЬЗОВАНИЕМ РЕСУРСОВ СУПЕРКОМПЬЮТЕРА МВС-100К Математика

Текст научной статьи на тему «МОДЕЛИРОВАНИЕ ЗАДАЧ ГАЗОВОЙ ДИНАМИКИ И АЭРОАКУСТИКИ С ИСПОЛЬЗОВАНИЕМ РЕСУРСОВ СУПЕРКОМПЬЮТЕРА МВС-100К»

ДОКЛАДЫ АКАДЕМИИ НАУК, 200S, том 423, № 3, с. 312-315

- ИНФОРМАТИКА

УДК 519.6

МОДЕЛИРОВАНИЕ ЗАДАЧ ГАЗОВОЙ ДИНАМИКИ И АЭРОАКУСТИКИ С ИСПОЛЬЗОВАНИЕМ РЕСУРСОВ СУПЕРКОМПЬЮТЕРА МВС-100К

© 2008 г. Академик РАН Г. И. Савин, член-корреспондент РАН Б. Н. Четверушкин, А. В. Горобец, Т. К. Козубская, С. А. Суков, О. И. Вдовикин, Б. М. Шабанов

Поступило 17.07.2008 г.

Тенденции развития современных кластерных вычислительных систем таковы, что рост производительности узлов достигается в первую очередь за счет увеличения числа процессорных ядер. Обычной практикой стало использование при построении высокопроизводительных систем четырехядерных процессоров. При этом производители аппаратного обеспечения планируют в скором времени существенное увеличение числа процессорных ядер. Появившийся в последние месяцы опыт использования систем сверхвысокой производительности показывает, что многоядерная архитектура процессоров в ряде случаев является причиной возникновения дополнительных трудностей при распараллеливании вычислений. В частности, это касается снижения эффективности существующих параллельных алгоритмов и программ моделирования задач механики сплошной среды, созданных на основе модели передачи сообщений. Поэтому основной целью данной работы было определение характерных проблем распараллеливания вычислений на многоядерных архитектурах для данного класса задач на примере решения актуальных задач аэроакустики и газовой динамики с использованием ресурсов суперкомпьютера МВС-100К. Другой целью работы было проведение серии вычислительных экспериментов для оценки эффективности разработанных в ИММ РАН комплексов программ, в том числе программного обеспечения для распределенной обработки больших объемов сеточных данных (сетки, содержащие более 1 ■ 109 тетраэдров), а также проверки эффективности и устойчивости работы аппаратных ресурсов системы МВС-100К.

Суперкомпьютер МВС-100К, установленный в Межведомственном суперкомпьютерном цен-

тре РАН, представляет собой кластер, состоящий в настоящее время из 470 вычислительных модулей, каждый из которых содержит два четырехядерных микропроцессора Intel Xeon X5365, работающих на частоте 3 ГГц, не менее 4 гигабайт оперативной памяти и не менее 36 гигабайт на жёстких дисках, а также два адаптера сети Gigabit Ethernet и один адаптер InfiniBand. Каждое из ядер микропроцессора способно выполнять до четырех операций с вещественными числами двойной точности за такт.

Коммуникационная сеть InfiniBand, объединяющая вычислительные модули в единое решающее поле, построена с использованием высокопроизводительных коммутаторов и обеспечивает не более чем 50%-ную блокировку при попарных обменах.

Пиковая производительность СК в операциях над вещественными числами двойной точности составляет 45120 гигафлопс (Gflops), а производительность, достигнутая на тесте Linpack, составила 33885.1 гигафлопс. В ноябре 2007 г. этот результат позволил занять 33-е место в рейтинге 500 крупнейших суперкомпьютеров мира. Технические и проектные решения позволяют модернизировать кластер и довести его пиковую производительность до 100-120 терафлопс (TFlops).

Вычислительные модули суперкомпьютера работают под управлением ОС Linux. Прикладное программное обеспечение включает оптимизирующие компиляторы языков С/С++, Фортран 77/90, две реализации среды параллельного программирования MPI, оптимизированные математические библиотеки. На суперкомпьютере используется система управления прохождением параллельных задач, разработанная в ИПМ РАН и предназначенная для удобного и эффективного использования вычислительных ресурсов кластера при большом количестве пользователей.

Моделирование задач резонансного звукопоглощения в импедансной трубе и газодинамического обтекания кузова автомобиля выполнялось с использованием разработанных в ИММ РАН

Межведомственный суперкомпьютерный центр Российской Академии наук, Москва Институт математического моделирования Российской Академии наук, Москва

Рис. 1. Возмущения плотности в районе горла резонатора.

комплексов программ NOISEtte 2D/3D и Wombat 3D [1, 2], предназначенных для расчета задач газовой динамики и аэроакустики на тетраэдральных сетках. Реализованные в комплексах алгоритмы построены на основе явных методов повышенной точности (до 6-го порядка включительно). При моделировании задач аэроакустики использование численных алгоритмов повышенного порядка точности является необходимым условием, обеспечивающим минимальное численное затухание и искажение звуковых волн. Распараллеливание вычислений в обоих комплексах программ может выполняться как в рамках модели передачи сообщений (MPI), так и в рамках гибридной модели параллелизма (MPI + OpenMP), но с различными направлениями оптимизации вычислений. В частности, пакет программ Wombat 3D ориентирован на обработку тетраэдральных сеток, содержащих 108 и более тетраэдров. Оба алгоритма являются хорошо масштабируемыми и могут эффективно использоваться на большом числе процессоров, что дает возможность оценить производительность коммуникационной инфраструктуры и устойчивость работы суперкомпьютера в целом.

На рис. 1 показана картина получившегося в результате расчета сжимаемого турбулентного течения в импедансной трубе. Расчет выполнялся на тетраэдральной сетке, содержащей порядка 1 ■ 106 узлов и 7 ■ 106 тетраэдров.

В процессе выполнения расчетов при общем числе параллельных процессов, равном 40, сравнивалась производительность программного обеспечения при запуске 1, 2, 4 и 8 процессов на один мо-

дуль системы. Эффективность вычислений оценивалась по формуле

Е = - • 100, (1)

К

где 1п - время счета задачи при запуске п параллельных процессов на модуль (п = 1, 2, 4, 8). Полученные результаты приведены в табл. 1. Видно, что при запуске восьми процессов на модуль производительность падает на 42%. С учетом специфики используемого параллельного алгоритма это может означать, что пропускная способность оперативной памяти недостаточна для одновременной эффективной работы восьми ядер в случае интенсивного использования оперативной памяти модуля. Это иллюстрирует одну из основных проблем распараллеливания вычислений на многоядерных архитектурах.

Кроме того, для оценки производительности коммуникационной системы суперкомпьютера был проведен тест на предельное ускорение вычислений. Параллельная программа запускалась

Таблица 1. Эффективность использования вычислительных модулей

Число параллельных процессов на модуль Число вычислительных модулей Эффективность вычислений, %

1 40 100

2 20 95

4 10 88

8 5 58

314

САВИН и др.

Рис. 2. Мгновенные траектории отмеченных частиц для задачи невязкого обтекания кузова автомобиля.

в двух режимах загрузки модулей: гибридное распараллеливание (четыре МР1-процесса на модуль, две ОрепМР нити на МР1-процесс) и полная загрузка модуля в рамках модели передачи сообщений (восемь МР1-процессов). Число задействованных в расчетах модулей системы увеличивалось до наступления существенного падения эффективности распараллеливания вычислений. По результатам проведенных расчетов можно сказать, что эффективность параллельных вычисле-

Число модулей

Рис. 3. Зависимость времени выполнения задачи от числа используемых модулей.

ний в обоих случаях остается высокой вплоть до использования 160 модулей (92% относительно запуска на двух модулях). Учитывая сравнительно малый размер расчетной сетки, можно сделать вывод о высокой производительности коммуникационной инфраструктуры суперкомпьютера МВС-100К.

Моделирование невязкого обтекания кузова автомобиля (число Маха М = 0.12) проводилось с использованием тетраэдральной сетки, содержащей 209 028 730 узлов и 1 244 316 672 тетраэдра. Геометрическая модель кузова автомобиля построена с соблюдением пропорций кузова автомобиля ВАЗ-21099. На рис. 2 показаны мгновенные траектории отмеченных частиц, построенные по результатам расчета.

Запуск задачи осуществлялся на различном числе модулей системы в двух вариантах: с запуском двух или четырех МР1-процессов на каждом из модулей. Эффективность распараллеливания вычислений оценивалась относительно соответствующего варианта запуска на минимальном числе модулей (рис. 3). Кроме того, при запуске программы на 437 модулях по четыре процесса на модуль с дополнительным порождением двух нитей ОрепМР (3496 параллельных процессов, 93% вычислительной мощности системы) время выполнения программы снижается на 20%. Продолжительные сеансы расчета данной задачи с использованием всех ресурсов системы МВС-100К показали высокую стабильность работы ее программного и аппаратного обеспечения.

Использование ресурсов системы МВС-100К для расчета описанных задач позволило опреде-

лить узкие места и усовершенствовать методы распараллеливания вычислений и распределенной обработки сеточных данных большого объема, повысив тем самым эффективность соответствующего программного обеспечения. В частности, одним из направлений оптимизации стало изменение алгоритмов файловых обменов с целью максимального эффективного использования хранилищ данных, входящих в состав системы МВС-100К.

По результатам выполненных экспериментов удалось выделить особенности распараллеливания вычислений при использовании систем, построенных на основе многоядерных процессоров, определить основные направления развития и модификации существующих параллельных алгоритмов и математического обеспечения с учетом существующих тенденций развития элементной базы супер-ЭВМ.

Результаты проведенных исследований показали возможность использования системы МВС-100К для расчета задач, требующих привлечения ресурсов вычислительных систем сверхвысокой производительности.

СПИСОК ЛИТЕРАТУРЫ

1. Gorobets A.V., Abalakin I.V., Kozubskaya T.K. Technology of Parallelization for 2D and 3D CFD/CAA Codes Based on High-Accuracy Explicit Methods on Unstructured Meshes. In: Parallel Computational Fluid Dynamics. Antalya: Elsevier, 2007.

2. Четверушкин Б.Н., Гасилов В.А., Поляков СВ., Якобовский М.В., Карташева ЕЛ, Абалакин ИВ, Бобков В.Г., Болдарев А.С., Болдырев С.Н, Дьяченко С В., Кринов П.С., Минкин А.С., Нестеров И.А., Ольхов

Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.

Показать целиком