научная статья по теме МОДЕЛИРОВАНИЕ И ОПТИМИЗАЦИЯ ПРОЦЕССОВ ФУНКЦИОНИРОВАНИЯ ИНФОРМАЦИОННОГО WEB-ПОРТАЛА Математика

Текст научной статьи на тему «МОДЕЛИРОВАНИЕ И ОПТИМИЗАЦИЯ ПРОЦЕССОВ ФУНКЦИОНИРОВАНИЯ ИНФОРМАЦИОННОГО WEB-ПОРТАЛА»

ПРОГРАММИРОВАНИЕ, 2009, No 6, с. 53-66

- СЕТЕВЫЕ ТЕХНОЛОГИИ

УДК 004.92+004.94

МОДЕЛИРОВАНИЕ И ОПТИМИЗАЦИЯ ПРОЦЕССОВ ФУНКЦИОНИРОВАНИЯ ИНФОРМАЦИОННОГО WEB-ПОРТАЛА

© 2009 г. А. В. Босов

Институт проблем информатики РАН 119333 Москва, ул. Вавилова, 44

E-mail: AVBosov@ipiran.ru Поступила в редакцию 20.04.2009 г.

Рассматриваются задачи оценивания двух показателей функционирования web-портала - показателя эффективности информационных источников и показателя пользовательской активности. Для анализа показателей сформулированы и решены задачи оценивания состояний динамических систем наблюдения, описывающих эволюцию показателей функционирования. Предложенные математические модели применяются для оптимизации работы основного интеграционного компонента web-портала. Обсуждается методика определения параметров моделей.

1. ВВЕДЕНИЕ

Одна из актуальных задач, решаемых сегодня разработчиками крупных информационных систем, - задача интеграции разнородных ресурсов и сервисов. Для ее решения в распределенной федеративной среде, формируемой множеством взаимодействующих информационных систем, применяются разные инструменты, обладающие той или иной степенью универсальности. Наряду с другими к таким инструментам относятся и '№вЬ-порталы [1, 2]. Портальной тематике свойственен довольно неформальный стиль: имеется много несогласующихся определений и требований, по-разному понимается функциональное назначение, отсутствует четкая классификация продуктов и т.д. Детали такого рода разноголосицы для целей данной работы не важны, так как предметом представленного далее исследования является конкретный программный продукт - Информационный '№вЬ-портал [3]. На первом плане для этого портала - его функциональное назначение, состоящее именно в создании среды для интеграции разнородных информационных систем ("внешних" информационных источников). При разработке портала акцент был поставлен на инструментальный ха-

рактер решения, претендующего на применение в качестве средства для создания некоторого центрального узла в распределенной среде, объединяющей на федеративной основе разнородные источники информации на базе протоколов и технологий Интернет.

В архитектуре Информационного '№вЬ-порта-ла [4], естественно, присутствуют традиционные для '№вЬ-систем элементы, такие, как подсистема управления содержанием [5], подсистема безопасности [6], подсистема доступа к данным [7]. Ключевым же элементом, обеспечивающим базовую функциональность в задаче интеграции, является подсистема интеграции и поиска [8]. Данная подсистема не только отвечает за поддержку ключевой портальной функциональности, но и является тем элементом, от функционирования которого зависит в наибольшей степени общая оценка качества всего программного решения в целом. Более того, оказывается, что алгоритм работы именно этой подсистемы является наиболее вариативным - допускает различные формы настройки, изменения параметров и проч., поэтому оптимизации его работы и уделяется наибольшее внимание.

Аппарат, который может быть применен с указанной целью, может основываться на ис-

пользовании разных математических методов. Для выбора подходящего математического аппарата следует учесть, что рассматриваемая '№вЬ-система, хотя и определена довольно формально, и работает по фиксированным (детерминированным) алгоритмам, однако, пребывает в окружении не просто неизвестных или неконтролируемых факторов, а входит в состав довольно сложной конструкции - распределенной аппаратно-программной среды, обслуживающей множество функциональных запросов множества пользователей. Для портала эта среда выглядит, по меньшей мере, не вполне определенной. Так, например, средствами портала не могут контролироваться состояния информационных источников, с которыми он взаимодействует, текущая нагрузка на телекоммуникационную составляющую, которая используется не только портальными приложениями, но и массой других. Наибольший вклад в упомянутую неопределенность вносит поведение пользователей, которые меняют интенсивность работы в зависимости от своих текущих задач, меняют интересы и степень востребованности элементов доступного через портал контента и т.п. Таким образом, для описания функционирования портала требуется предложить адекватную математическую модель, учитывающую свойственные системе неопределенности. Описывать же потребности пользователей, как и прочие неконтролируемые порталом, но влияющие на его эффективность факторы, детерминированным образом не представляется возможным. Эта причина обосновывает применение в данном случае математического аппарата теории стохастических систем [9]. Возможности моделирования, доступные в рамках этой теории, достаточно богаты, а развитость аппарата позволяет получать окончательные решения для широкого класса задач оптимизации.

Постановки задач оптимизации процессов функционирования Информационного '№вЬ-пор-тала, в частности, рассматриваемых далее задач оптимального оценивания показателей эффективности взаимодействующих с порталом информационных источников и показателей пользовательской активности, опираются на некоторый общий подход к моделированию этих про-

цессов. Состоит этот подход в следующем. В разных случаях для решения конкретной задачи оптимизации используется некоторый показатель функционирования портала. Это могут быть временные и объемные характеристики взаимодействия портала с "внешними" информационными источниками или собственным хранилищем, численность активных пользователей, характеристики выделяемых и/или требующихся вычислительных ресурсов и т.п. Предложить модель непосредственно из физического смысла показателя, как правило, оказывается затруднительным, поэтому модель следует идентифицировать. Использование традиционных линейных моделей идентификации [10] представляется малоперспективным: как правило, в динамике рассматриваемых показателей легко просматриваются черты нелинейных систем, такие, как зависимость возмущений от текущих значений показателя, цикличность процессов, скачкообразные изменения характеристик и проч. Для учета таких явлений, с одной стороны, и для возможности использования в решениях полезных свойств линейных систем, с другой, предлагается подход на основе классификации возможных состояний изучаемого показателя. Пространство значений показателя разбивается на области, и предполагается, что для значений показателя внутри области его динамика описывается простейшими линейными уравнениями, а при выходе показателя за границы области модель изменяется. Как правило, значения рассматриваемого показателя прямым измерениям недоступны, поэтому формулируется задача оценивания показателя по результатам косвенных наблюдений. Решение задачи оценивания используется далее для выработки обоснованного управляющего воздействия, зависящего от значений моделируемого показателя.

Алгоритм работы подсистемы интеграции и поиска Информационного '№вЬ-портала, как уже упоминалось, зависит от нескольких таких показателей. В данной работе рассмотрены два ключевых - показатель эффективности взаимодействия информационных источников портала и показатель пользовательской активности.

2. МОДЕЛИ ОПИСАНИЯ И ЗАДАЧИ ОПТИМИЗАЦИИ ФУНКЦИОНИРОВАНИЯ ПОРТАЛА

2.1. Описание задачи управления пулом запросов

Возможность оптимизации работы подсистемы интеграции и поиска изыскивается в самом алгоритме ее работы при обработке пользовательского запроса, направляемого для выполнения несколькими информационными источниками, подключенными к порталу. Данный алгоритм состоит в выполнении следующих действий:

1. пользователь выбирает тип ресурса для поиска, заполняет поля поисковой формы, устанавливает иные атрибуты поиска;

2. пользовательский запрос, ассоциированный с поисковой командой (под командой понимается формальное описание критериев отбора и перечень информационных источников, которым должен быть отправлен запрос), описание которой имеется в схеме портала, принимает подсистема управления содержанием, опознает команду и передает ее на выполнение подсистеме интеграции и поиска;

3. выполняется анализ метаданных подключенных источников и выявляются источники, поддерживающие данный тип ресурса; вместе с этим извлекаются описание команды и иная служебная информация, необходимая для формирования запросов в терминах схем источников и активизации их адаптеров;

4. полученное множество запросов (число запросов равно числу источников, поддерживающих выбранный пользователем тип с учетом возможных указаний пользователя опрашивать не все источники) направляется компоненту выполнения запросов; данный компонент распределяет запросы по нитям из поддерживаемого им пула запросов;

5. информация, полученная из источников, консолидируется по мере выполнения запро-

сов; после получения результата выполнения последнего запроса окончательный результат направляется подсистеме представления, обеспечивающей доведение результатов до пользователя (имеется также принципиальная возможность направлять пользователю результаты по мере их поступления, но окончательный результат все равно оформится только по получении последнего ответа).

Для наглядности описанный процесс проиллюстрирован на рисунке.

Местом для оптимизации является шаг 4, на котором выполняется распределение подготовленных Ьи запросов (в общем случае максимальное число запросов совпадает с числом источников; так происходит, например, если пользователем задана команда на полнотекстовой поиск без ограничения участвующих источников, а каждый из источников поддерживает такую функцию) по имеющемуся у компонента выполнения пулу. Пул представляет собой набор заранее инициализированных нитей (здесь будем считать, что размер пула определяется при настройке портала и не меняется в процессе работы, а из общего числа Ьц нитей пула на выполнение текущей команды выделено Ьнп нитей), каждой нитью поддерживается очередь, в которую направляются запросы и необходимая служебная информация для активизации адаптера соответствующего источника. В каждой исполняемой параллельно нити выбирается очередной запрос из очереди, определяется нужный адаптер, выполняется е

Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.

Показать целиком