научная статья по теме ФОРМАЛИЗАЦИЯ ПРОЦЕССА АДАПТАЦИИ ЭЛЕКТРОННЫХ ИНФОРМАЦИОННЫХ РЕСУРСОВ Общие и комплексные проблемы естественных и точных наук

Текст научной статьи на тему «ФОРМАЛИЗАЦИЯ ПРОЦЕССА АДАПТАЦИИ ЭЛЕКТРОННЫХ ИНФОРМАЦИОННЫХ РЕСУРСОВ»

Каратыгин С.А., кандидат технических наук, доцент Пожидаев А.А., аспирант (Московский государственный институт электронной техники)

АНАЛИЗ МОДЕЛЕЙ ПРОИЗВОДИТЕЛЬНОСТИ РАСПРЕДЕЛЕННЫХ СИСТЕМ

Требования информационной поддержки бизнеса современных компаний, функционирующих на географически удаленных объектах, обуславливают широкое распространение распределенных систем (РС). При создании РС возникает задача по реализации автоматического обмена между удаленными базами данных (БД), который осуществляется репликацией данных. На текущий момент реляционные системы управления базами данных (СУБД) ведущих поставщиков (Oracle, Microsoft, IBM, Sybase) поддерживают репликацию данных с различными механизмами реализации.

Репликация (тиражирование) обеспечивает механизм управления тиражированием данных. Понятие «управление тиражированием» заключается в решении вопросов: когда и где разместить физические копии фрагментов логических данных (расположение копий или replica placement); а также — когда и как производить обновление тиражируемых данных (контроль обновлений или replica control). В литературе приведено множество различных алгоритмов по расположению копий и контролю над их обновлениями. Современные тенденции развития репликации заключаются в увеличении доступности данных в пределах узла или сетевых отказов, а также снижении стоимости локального доступа к данным. При проектировании РС как и любой другой системы, необходимо произвести аналитическую оценку конечных параметров. При этом первоначально следует определить, что понимать под производительностью РС, производительностью распределенной БД, как аналитически их определить и использовать результаты на практике.

В данной статье проведен анализ наиболее распространенных подходов к построению моделей производительности РС, оценке их параметров таких моделей, определению критериев производительности и способов их расчета.

Наиболее общими критериями производительности распределенных систем являются время отклика и пропускная способность, которые присутствуют в большинстве аналитических моделей. Эти параметры представляют собой, так называемые, внешние критерии производительности. Внутренние критерии обуславливаются целями, поставленными авторами при создании конкретной модели.

Для численного расчета критериев может быть использовано как аналитическое [1, 4, 6, 9, 12], так и имитационное [46, 10, 11] моделирование. Преимущество имитационного моделирования заключается в возможности оценки с его помощью сложных системных моделей, получение аналитических соотношений связано со значительными трудностями, Однако такие модели являются дорогостоящими и требуют больших вычислительных мощностей. При получении аналитических моделей используются более сильные ограничения, но результаты моделирования оказываются очень эффективными, т.к. позволяет отследить «узкие» места.

Структурированный анализ существующих моделей ориентирован на следующие компоненты:

• общие концепции моделирования узлов-БД;

• варианты рассмотрения взаимодействия между БД;

• подмодели для расчётов показателей репликации;

• предположения, касающиеся методов доступа к данным;

• модели обработки транзакций;

• взаимозависимости между всеми вышеперечисленными аспектами, которые описаны (или нет) в существующих моделях.

Математическая модель распределённой реплицированной БД представляет собой комплекс моделей её основных компонентов. Узлы системы (базы данных) моделируются системами массового обслуживания (СМО) различных видов с различными параметрами [1]. Обычно варьируется наиболее важный параметр — распределение поступления заявок, выбор распределния зависит от конкретной задачи. По загрузке на узлы БД можно выделить модели следующих типов:

— M/M/m — многоканальная система массового обслуживания с пуассоновским входящим потоком и экспоненциальным распределением времени обслуживания[5];

— M/M/1 — простейшая СМО с Марковскими процессами поступления и обслуживания заявок с непрерывным временем и одним ОА. Дисциплина обслуживания — бесприоритетная (в порядке очереди) [6];

— M/G/1 — одноканальная система массового обслуживания с пуассоновским входящим потоком и произвольным распределением времени обслуживания. [1,4].

Не менее важным компонентом является модель связи между узлами, которая также обычно моделируется СМО, имитирующей задержку в сети и работу основных её элементов. По модели взаимодействия между узлами [1]:

— с фикированной задержкой и неограниченной емкостью каналов связи (M/D/ж);

— с нефиксированной задержкой, неограниченная емкость каналов связи (M/M/ro);

— задержка распределена по экспоненциальному распределению, ограниченная емкость каналов связи (M/M/1) [1, 4];

— общая задержка, ограниченная емкость каналов.

В большинстве моделей РС учитывается модель репликации / качество репликации (качество выбор данных для реплицирования) [8]:

— без репликации;

— полная репликация (all-objects-to-all-sites);

— частичная одномерная репликация (some-objects-to-all-sites или all-objects-to-some-sites);

— частичная двумерная репликация (some-objects-to-some-sites).

По доступу к данным:

— произвольный;

— Локальная модель доступа к данным;

— Модели горячего доступа к данным (т.н. hot spot);

— Модели, совмещающие локальность и горячий доступ к данным.

По способу обработки транзакций [1]:

— Только запросы.

— Только обновления.

— И запросы и обновления.

— Более двух типов транзакций.

Ранние модели распределенных систем, основанные на моделях массового обслуживания, учитывают полностью реплицируемые базы данных, состоящие из m узлов, основанных на M/M/m/FCFS модели взаимодействия между узлами с учетом блокировки данных [5]. Чтение транзакций в таких моделях осуществляется m серверами параллельно, а при записи информации блокируются все m серверов. Главный недостаток данной модели — отсутствие учета взаимодействия между узлами, а также использование всеми узлами единственной очереди для входящих транзакций.

Исправить эти недостатки можно, используя сети массового обслуживания, а именно сети с M/M/1 системой обслуживания заявок [6]. Однако, подобный подход, устранив основ-

ные недостатки M/M/m/FCFS, имеет собственные — все транзакции имеют одинаковое экспоненциально распределенное время обслуживания.

Более общий подход [12] — использовать M/G/1 модель распределения заявок между узлами. Данная модель распределения заявок гарантирует произвольно-распределенное время обслуживания. В тоже время использование M/H2/1 с двухфазной гипер-экспоненционально распределенным временем обслуживания заявок обеспечивает распределение времен обслуживания по различным экспоненциальным распределениям для транзакций различных типов (например, только на чтение и обновлений). Однако, такие модели не позволяют оценивать реальные системы с больше чем двумя типами транзакций.

Второй аспект, который необходимо учитывать при моделировании распределенных систем — особенности коммуникации между узлами. В приведенных выше моделях считается, что каждый узел принимает бесконечный поток заявок, при отправке-приемке заявки существует константная задержка, независимая от размера транзакции и пропускной способности сети. Поэтому при использовании данных моделей производительности никогда не может быть выявлено узкое место в сетевых коммуникациях распределенной системы. Существует небольшое количество моделей производительности, которые подробно учитывают и сетевую составляющую и составляющую баз данных [1,4,9]. Таким образом, существует множество составляющих, для которых необходимо определить уровень детализации, причем здесь приведены далеко не полный список параметров, влияющих на функционирование реальной РС.

Как правило, модели фокусирются либо на проблемах БД, либо на проблемах взаимодействия (коммуникации) баз данных, при акценте на какой-либо из этих проблем другая обычно упрощается либо на неё накладываются ограничения. В реальности указанные составляющие неразрывно связаны. Поэтому с практической точки зрения особенно интересны модели, учитывающие оба аспекта производительности распределенных систем. Наиболее универсальной, является модель 2RC (2-dimensional Replication model with integrated Communication) — аналитическая модель, учитывающая как внутренние аспекты РБД, так и коммуникации между узлами.2RC представляет собой аналитическую модель производительности РС, использующую двумерную модель репликации. На рис. 1 приведена структурная схема зависимостей различных компонентов модели.

2RC учитывает взаимодействие между репликацией и коммуникацией и представляет сбалансированную модель как БД, так и модели коммуникационной части реплицированной и распределённой БД.

В модели 2RC реализована модель обработки транзакций «primary copy», т. к эта модель оценивается как более выгодная по сравнению с другими концепциями обработки транзакций, также данная модель реализована во многих коммерческих СУБД таких как Sybase и Oracle. В модели 2RC предполагается, что изменение данных асинхронно распространяется на другие копии данных. Система считается однородной (т.е. все узлы идентичны, каналы связи между узлами тоже одинаковые). В таблице 1 приведены основне характеристики 2RC.

Таблица 1

Компоненты 2RC

Характеристика Значение в 2RC

Загрузка узлов базы данных СМО из m M/G/1 систем

Модель взаимодействия Общая задержка, ограниченная емкость каналов связи, (M/G/1)

Модель репликации Частичная, двумерная

Качество репликации Диктуется и расположением и выборкой данных для репликации

Доступ к данным Локальная модель доступа к данным

Загрузка транзакций Более 2-х типов транзакций

Контроль конкурирующих транзакций Игнорируется

Основой 2RC является двумерная схема репликации данных, которая заключается в репликации части данных лишь на некоторые узлы (some objects to some sites). Это оказывает прямое влияние на качество репликации, интенсивности входных потоков, загрузку сети и оказывает значительное влияние на все последующие выводы и результаты. т-типы транзакций (транзакции с различными интенсивностями входного потока и

Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.

Показать целиком