Представляет Нижегородский государственный технический университет им. Р. Е. Алексеева
УДК 681.323.66.012.46
МНОГОПРОЦЕССОРНЫЕ МОДУЛИ
ДЛЯ ВЫСОКОПРОИЗВОДИТЕЛЬНОМ ЦИФРОВОМ
ОБРАБОТКИ СИГНАЛОВ
1
MULTI-PROCESSOR MODULES FOR HIGHLY PRODUCTIVE DIGITAL SIGNAL PROCESSING
Букварев Евгений Александрович
ст. преподаватель E-mail: bukvarev@rambler.ru
Кузин Алексей Александрович
вед. электроник
E-mail: kuzin_alex@nntu.nnov.ru
Плужников Анатолий Дмитриевич
д-р техн. наук, профессор E-mail: pluzhnikov@nntu.nnov.ru
Буров Владимир Николаевич
мл. научн. сотрудник E-mail: v.n.burov@bk.ru
Нижегородский государственный технический университет им. Р. Е. Алексеева, Нижний Новгород
Аннотация: Приведены результаты разработки и сравнительного анализа вариантов построения многопроцессорных модулей, реализуемых на основе высокопроизводительных отечественных процессоров цифровой обработки сигналов. Ключевые слова: многопроцессорный модуль, цифровая обработка сигналов, сигнальный процессор, системная шина, пропускная способность.
Bukvarev Evgeny A.
Senior Lecturer
E-mail: bukvarev@rambler.ru
Kuzin Alexey A.
Senior Electronic Engineer E-mail: kuzin_alex@nntu.nnov.ru
Pluzhnikov Anatoly D.
D. Sc. (Tech.), Professor E-mail: pluzhnikov@nntu.nnov.ru
Burov Vladimir N.
Associate Scientist E-mail: v.n.burov@bk.ru
Nizhny Novgorod State Technical University n. a. R. E. Alekseev, Nizhny Novgorod
Abstract: The results of the development and comparative analysis of options for building multi-processor modules implemented on the basis of a domestic high-performance digital signal processors.
Keywords: multiple-processor module, digital signal processing, signaling processor, system bus, transmission capacity.
ВВЕДЕНИЕ
В современных системах цифровой обработки сигналов широко применяются высокопроизводительные сигнальные процессоры. Аппаратура на их
1 Работа выполнена при поддержке Министерства образования и науки РФ в рамках договора № 02.G25.31.0061 от 12 февраля 2013 года (в соответствии с Постановлением Правительства Российской Федерации от 9 апреля 2010 г. № 218).
основе используется при цифровой обработке изображений в реальном времени, цифровой обработке речевых сигналов, в системах радиосвязи, системах дистанционного зондирования атмосферы, цифровой измерительной аппаратуре, находит широкое применение в системах управления транспортными, авиационно-космическими и энергетическими комплексами. При этом достижение требу-
емых технических характеристик упомянутых систем приводит к необходимости реализации многопроцессорных (мультипроцессорных) схем.
ПОСТАНОВКА ЗАДАЧИ
Целью статьи является сравнительный анализ вариантов построения многопроцессорных модулей (МПМ), реализуемых на основе отечественных высокопроизводительных процессо-
Рис. 1. Вариант I построения МПМ
ров цифровой обработки сигналов (ВПЦОС) — продукции ЗАО "ПКК Миландр" [1]. Модули должны иметь возможность объединения в вычислительную систему с целью увеличения производительности. Для загрузки исполняемых программ, а также для загрузки данных на обработку и выгрузки результатов вычислений модули должны обеспечивать связь с инструментальным компьютером при помощи стандартных интерфейсов, в качестве которых используются PCI-Express и Ethernet.
СРАВНИТЕЛЬНЫЙ АНАЛИЗ ВАРИАНТОВ ПОСТРОЕНИЯ МНОГОПРОЦЕССОРНЫХ МОДУЛЕЙ
Проектируемые структуры многопроцессорных модулей (МПМ) базируются на двух основных свойствах [2, 3] применяемого процессора: мультипроцессорном интерфейсе и скоростных портах обмена данными (LINK-портах). Мультипроцессорный интерфейс имеет встроенный арбитраж и позволяет объединять на общей шине до четырех процессоров без дополнительных логических схем. Четыре полнодуплексных LINK-порта обеспечивают межпроцессорные соединения типа точка-точка.
Первый вариант построения МПМ (вариант I) основан на рекомендациях [2] и предполагает применение четырехпроцессор-ного кластера — мультипроцессорной системы с разделяемой общей шиной. На рис. 1 показана обобщенная структура такого кластера, в состав которой входят:
— четыре процессора обработки сигналов ВПЦОСО— ВПЦОС3;
— блок синхронной динамической памяти SDRAM объемом 256 Мбайт;
— постоянное запоминающее устройство FLASH объемом 64 Мбайта;
— контроллер системной шины HOST, выполненный на базе микросхемы FPGA Virtex-6 фирмы Xilinx XC6VLX130T;
— температурный монитор Thermo monitor на базе двух микросхем TMP422 (или TMP423) фирмы Texas Instruments;
— опорный генератор синхронизации GEN с частотой 20 МГц;
— умножитель на 5 частоты опорного генератора CLOCKx5.
Процессоры ВПЦОС, динамическая память, постоянная память и контроллер подключены к системной шине кластера SYSTEM BUS разрядностью данных 64 бита. Два LINK-порта каждого процессора используются для организации кольцевой связи (сплошные линии на рис. 1) и по одному — для организации возможных перекрест-
ных связей (штриховые линии на рис. 1). По одному LINK-порту каждого процессора выводится на внешние разъемы. HOST-контроллер обеспечивает доступ к системной шине процессорного кластера через внешние интерфейсы Ethernet и PCIExpress.
Термодатчики процессоров подключены к температурным мониторам и образуют подсистему термоконтроля, доступную HOST-контроллеру по интерфейсу SPI. Отладочный интерфейс JTAG (JTAG-цепочка) охватывает последовательно все процессоры кластера.
Оценим пропускную способность системной шины кластера. Она определяется тактовой частотой, разрядностью шины данных и количеством тактов синхронизации, необходимых для передачи одного слова.
Рассмотрим случай наиболее "медленного" функционирования, когда процессоры кластера поочередно обращаются к разным банкам динамической памяти. В этом случае передача одного слова требует четырех тактов синхронизации, а SDRAM
Рис. 2. Вариант II построения МПМ
выполняет последовательность команд, называемую Alternating Bank Read (Write) Accesses. Арбитраж системной шины в случае множественного доступа процессоров использует один такт (период) синхронизации, в результате чего передача одного 64-разрядного слова данных выполняется за пять периодов синхронизации. В результате при тактовой частоте системной шины 100 МГц имеем ее минимальную пропускную способность 160 Мбайт/с, что является вполне достаточным для решения многих практических задач.
Пропускная способность LINK-портов зависит от разрядности данных (один или четыре бита) и частоты синхронизации порта [2]. Частота синхронизации LINK-порта определяется тактовой частотой ядра процессора и программируемым делителем в управляющем регистре порта, который может принимать значения 1; 1,5; 2 и 4.
Учитывая, что LINK-порт работает в режиме DDR (пере-
дача по одной линии двух бит за такт синхронизации), получаем пропускную способность порта, приведенную в табл. 1.
В рассматриваемом первом варианте кластера разделяемая системная шина способна значительно понизить общую производительность МПМ при интенсивном межпроцессорном обмене. В связи с этим проанализируем другие варианты.
Второй вариант построения МПМ (вариант II) предполагает разделение четырехпроцессор-ной системы на два кластера (по два процессора в каждом) и взаимодействие между двумя процессорными кластерами по LINK-портам, что иллюстриру-
ет рис. 2 с обозначениями, соответствующими пояснениям на рис. 1.
Контроллер HOST-интер-фейса здесь управляет двумя кластерами на основе шин SYSTEM BUS A и SYSTEM BUS B. Два LINK-порта каждого процессора используются для организации кольцевой связи (сплошные линии на рис. 2) и по одному LINK-порту — для организации возможных перекрестных связей (штриховые линии на рис. 2). По одному LINK-порту каждого процессора выводится на внешние разъемы. Количество компонентов в сравнении с вариантом I увеличилось на пять микросхем памяти.
Вариант четырехпроцессор-ного кластера с диспетчером пакетов (вариант III). Два предыдущих варианта предполагали, что загрузка программного обеспечения процессоров производится из Flash-памяти, а обмен данными между кластером и внешней системой выполняется через HOST-контроллер по системной шине. При такой организации кластера имеется возможность чтения/записи как динамической памяти, так и внутренней памяти любого процессора. При записи в память данные для обработки становятся доступными сразу для всех процессоров. Существенным недостатком такого подхода явля-
Таблица 1
Пропускная способность LINK-порта
Разрядность данных, бит Пропускная способность LINK-порта, Мбайт/с (частота ядра 300 МГц)
Делитель 1 Делитель 1,5 Делитель 2 Делитель 4
1 75 50 37,5 18,75
4 300 200 150 75
Рис. 3. Четырехпроцессорный кластер с диспетчером пакетов. Вариант III
Memory Interface
Рис. 4. Диспетчер пакетов
ется то, что внешний обмен данными занимает время системной шины, предназначенной, в основном, для обменов между процессорами.
Вариант III предполагает построение кластера с внешним обменом данными (исходными данными и результатами обработки) через LINK-порты процессоров. При этом системная шина освобождается и используется только для межпроцессорных передач. Обмен по LINK-портам организуется специальным узлом в FPGA — диспетчером пакетов, структура и логика работы которого описываются ниже.
На рис. 3 показана обобщенная структура четырехпроцес-сорного кластера, построенного согласно варианту III. В его состав введены:
— объединенные контроллер системной шины HOST и диспетчер пакетов Dispatch, которые выполнены на микросхеме FPGA Virtex-6 фирмы Xilinx XC6VLX130T;
— дополнительная микросхема SSRAM синхронной статической DDR-памяти CY7C1393KV18 фирмы Cypress.
Дополнительная статическая память используется для буферизации данных и подключена непосредственно к диспетчеру пакетов. Последовательные LINK-порты, используемые для перекрестных межпроцессорных связей, в этом варианте тоже подключаются к диспетчеру пакетов.
Диспетчер пакетов Dispatch предназначен для организации двустороннего информационного обмена данными и командами. Обмен между внешними интерфейсами кластера и процессорами осуществляется по
LINK-портам посредст
Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.