научная статья по теме ЛОКАЛЬНО-ОПТИМАЛЬНЫИ МЕТОД ЦИКЛИЧЕСКОГО ВЫРАВНИВАНИЯ ДЛЯ ОБНАРУЖЕНИЯ СКРЫТОЙ ПЕРИОДИЧНОСТИ ГЕНЕТИЧЕСКИХ ТЕКСТОВ. NAD-СВЯЗЫВАЮЩИЕ САЙТЫ БЕЛКОВ Биология

Текст научной статьи на тему «ЛОКАЛЬНО-ОПТИМАЛЬНЫИ МЕТОД ЦИКЛИЧЕСКОГО ВЫРАВНИВАНИЯ ДЛЯ ОБНАРУЖЕНИЯ СКРЫТОЙ ПЕРИОДИЧНОСТИ ГЕНЕТИЧЕСКИХ ТЕКСТОВ. NAD-СВЯЗЫВАЮЩИЕ САЙТЫ БЕЛКОВ»

МОЛЕКУЛЯРНАЯ БИОЛОГИЯ, 2003, том 37, № 4, с. 663-673

БИОИНФОРМАТИКА

УДК 577.212.2

ЛОКАЛЬНО-ОПТИМАЛЬНЫЙ МЕТОД ЦИКЛИЧЕСКОГО ВЫРАВНИВАНИЯ ДЛЯ ОБНАРУЖЕНИЯ СКРЫТОЙ ПЕРИОДИЧНОСТИ ГЕНЕТИЧЕСКИХ ТЕКСТОВ. ^Б-СВЯЗЫВАЮЩИЕ САЙТЫ БЕЛКОВ

© 2003 г. А. А. Ласкин12, Е. В. Короткое1'2'*, М. Б. Чалей12, Н. А. Кудряшов2

1Центр "Биоинженерия" Российской академии наук, Москва, 117312 2Московский инженерно-физический институт, Москва, 115409 Поступила в редакцию 12.10.2002 г.

Разработан программный комплекс для поиска тандемных повторов любого заранее заданного вида в банках первичных структур. Примененный в нем алгоритм локально-оптимального циклического выравнивания способен выделять подпоследовательности, обладающие конкретным, заданным с помощью профиля, типом периодичности при отсутствии заметной гомологии между периодами и при наличии вставок и делеций. При этом профиль может быть настроен для поиска структурно и функционально обусловленных типов периодичности. Проведен анализ банка Б'шзз-Рго{ на наличие периодичностей, не выявленных ранее, связанных с закономерностями построения вторичной и супервторичной структуры КАБ-связывающих сайтов. В частности, значимая периодичность в 24 оказалась характерной для абсолютного большинства доменов с укладкой Россмана либо структурно близких к ней, имеющих очевидную регулярность в их вторичной структуре, но не выявляемую ранее на уровне их первичных структур.

Ключевые слова: периодичность, повторы, выравнивание, структурно функциональная взаимосвязь, динамическое программирование, КАБ-связывающий домен, укладка Россмана, профильный анализ, информационное разложение.

Поиск древних эволюционных взаимосвязей между белками и последовательностями ДНК способствовал введению понятия расширенного подобия [1] и скрытой периодичности [2, 3] в аминокислотных и нуклеотидных последовательностях. Расширенное подобие основано на информационно-статистической метрике, зависящей от частоты появления различных пар символов в двух сравниваемых последовательностях. При этом гомология последовательностей выявляется в случае появления пар только идентичных символов. Скрытую периодичность в символьной последовательности можно понимать как ее статистически значимое расширенное подобие с некоторой искусственной последовательностью, обладающей совершенной периодичностью. Ранее мы нашли скрытую периодичность примерно в 10% последовательностей из банка данных Swiss-Prot [4, 5]. При этом во многих случаях выявлены периодические закономерности в последовательностях, в которых традиционные, основанные на гомологии методы [6-12] не обнаружили никаких повторов.

Как мы полагаем, основной причиной этого является то, что традиционные методы концент-

* Эл. почта: katrin22@mtu-net.ru

рируются на поиске отдельных повторов, т.е. для начала их работы необходимо наличие в исследуемой последовательности как минимум двух подпоследовательностей со значимым уровнем гомологии. В последующем профильном анализе, где используется профиль, созданный по результатам первого выравнивания, все вновь находимые повторы также должны быть статистически значимыми. В работе [11] эта ситуация несколько корректируется использованием статистики субоптимальных выравниваний, однако первые находимые повторы все же должны иметь достаточно высокую гомологию. В то же время в символьной последовательности может существовать периодичность, которую можно выявить путем сравнения только трех или более отдельных периодов. Поэтому наш подход к поиску повторов в белках использует интегральную оценку статистической значимости наличия периодической структуры в последовательности аминокислот. У многих белков мы нашли периодичность таких участков, которые ранее не предполагались состоящими из повторов или дупликаций, и сделали предположение, что подобные закономерности могут отражать слабые отголоски эволюции белков, которые сохранились в основном только на уровне их пространственных структур.

В настоящее время повторы в белках принято разделять на три категории [13]. Первая - это цепь последовательно дуплицировавшихся независимых функциональных и структурных единиц, все еще способных функционировать независимо друг от друга, таких как домены, устроенные по принципу цинковых "пальцев". Ко второй категории относят хорошо заметные повторы, которые составляют единую функциональную субъединицу, но по отдельности - не функциональны. Хорошим примером является известный "Р-баррель"-паттерн длиной 6 аминокислотных остатков (иногда его считают имеющим длину 18, поскольку 18 остатков формируют один виток, к тому же сходство между последовательными фрагментами длины 18 лучше, нежели между их субфрагментами длины 6). "Р-баррель"-паттерны формируют структуру, которую можно назвать левозакру-ченной 0-спиралью или равносторонней трехгранной призмой, где каждый повтор образует Р-слой, составляющий часть ее грани. Существуют примеры образования подобных структур для повторов и с большей длиной периода [11].

Для первых двух категорий повторов в белках нет сомнений в их происхождении путем дупликаций соответствующих последовательностей ДНК. Так, например, каждый домен, организованный по принципу цинкового пальца, кодируется отдельным экзоном. Последняя, менее всего исследованная категория повторов, до сих пор не имеет прямых доказательств подобной истории своего возникновения и не имеет значимой внутренней гомологии. Обычно можно установить закономерность только в положении отдельного остатка, как в случае лейцинового остатка в лейциновой "застежке" [14], или в распределении по позициям периода аминокислотных остатков, обладающих общими свойствами, например, гидрофильнос-тью или гидрофобностью. Исследование скрытой периодичности, возможно, придаст этому классу повторов структурный или функциональный смысл, так как выявление скрытой периодичности позволяет увидеть следы древних дупликаций там, где их ранее было невозможно распознать.

В настоящее время считают, что повторы в белках возникают скорее в результате рекомбинации, нежели дуплексного плавления или формирования ДНК-шпильки [13]. Обычно наблюдаются повторяющиеся последовательности, содержащие небольшие по размеру и растворимые в воде аминокислоты. Эти последовательности быстро эволюционируют, приобретая и теряя отдельные повторы, поскольку все тот же механизм, который ответствен за их возникновение, способствует дальнейшим ошибкам репликации на данном месте. Также предполагается, что такие районы гипермутабельны и эволюционируют намного быстрее, чем другие участки этой же

белковой последовательности. Гипермутабель-ность может с легкостью привести к разнообразию в предпочтении и силе связывания с субстратом, как это происходит в случае С2-доменов иммуноглобулинов. Поэтому можно сказать, что подобный механизм ответствен за формирование значительной части связывающих субстрат либо коферменты доменов, которые затем расселялись по геномам и сливались во многих вариантах, образовав многочисленные белковые семейства. Уровень гомологии повторов внутри доменов несомненно зависит от эволюционного времени их существования. Сходство сравнительно недавно образовавшихся повторов очевидно, но длительное время жизни фундаментальных типов ферментов, скорее всего, сделало повторы в их последовательностях скрытыми, незаметными для традиционных методов поиска.

В данной работе предлагается метод поиска скрытых повторов в последовательностях аминокислот и нуклеотидов путем выравнивания анализируемой последовательности относительно профиля, описывающего заранее известный тип скрытой периодичности, в цилиндрическом координатном пространстве. Такой подход учитывает как сильную эволюционную дивергенцию позиций повторов в последовательностях белков, так и возможные вставки и делеции аминокислотных остатков. Основываясь на исходном профиле выявленных скрытых периодических последовательностей в белках [4, 5], метод позволяет искать скрытую периодичность некоего заданного типа, и на ее основе идентифицировать единую функционально подобную группу доменов или сайтов в белках. Предлагаемый нами метод может быть назван локально-оптимальным методом циклического выравнивания. Этот метод в сущности является развитием одновременно профильного анализа подобия последовательностей, в качестве профиля здесь используется позицион-но-весовая матрица [15], и известного метода выравнивания с циклически продолженным паттерном [16], конкретизированного для поиска локального оптимального выравнивания. В данной работе метод локально-оптимального циклического выравнивания успешно использован для выявления характерного типа скрытой периодичности в 24 аминокислотных остатка у КАБ-связыва-ющих сайтов белков из банка данных Swiss-Prot.

МЕТОДЫ

Циклическое выравнивание. В общем виде задача поиска характерной периодичности в белках может быть решена путем поиска статистически значимых участков, обладающих периодичностью в соответствии с заданной позиционно-весо-вой матрицей, описывающей распределение частот встречаемости аминокислот в каждом сайте

периода, и последующей оптимизацией такой матрицы, для которой число найденных участков с периодичностью было бы максимальным при сохранении специфичности идентификации интересующих нас участков.

Наш подход к решению данной задачи представляет собой реализацию метода динамического программирования применительно к поиску периодических последовательностей. Алгоритм для проведения выравнивания с циклически продолженным паттерном впервые предложен в работе [16], в которой он определен как нахождение асимптотических значений элементов матрицы сходства. Такой подход не позволил корректно сформулировать понятие локально-оптимального выравнивания, поиск которого важен во многих случаях, когда скрытая периодичность присутствует лишь в части исследуемой последовательности, например, в домене белка. Развитие данного подхода в работах [17, 18] позволило устранить зависимость результатов идентификации периодов разной длины от циклических перестановок в исходном циклическом паттерне, что важно, если нам не известно, какая позиция в нем явл

Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.

Показать целиком