научная статья по теме ПРЕДСКАЗАНИЕ И КОМПЬЮТЕРНЫЙ АНАЛИЗ ЭКЗОН-ИНТРОННОЙ СТРУКТУРЫ ГЕНОВ ЧЕЛОВЕКА Биология

Текст научной статьи на тему «ПРЕДСКАЗАНИЕ И КОМПЬЮТЕРНЫЙ АНАЛИЗ ЭКЗОН-ИНТРОННОЙ СТРУКТУРЫ ГЕНОВ ЧЕЛОВЕКА»

МОЛЕКУЛЯРНАЯ БИОЛОГИЯ, 2004, том 38, № 1, с. 82-91

== КОМПЬЮТЕРНАЯ ГЕНОМИКА ^

УДК 577.2.08:681.3

ПРЕДСКАЗАНИЕ И КОМПЬЮТЕРНЫЙ АНАЛИЗ ЭКЗОН-ИНТРОННОЙ

СТРУКТУРЫ ГЕНОВ ЧЕЛОВЕКА

© 2004 г. А. А. Миронов*, М. С. Гельфанд

Государственный научный центр "ГосНИИгенетика", Москва, 113545 Поступила в редакцию 03.09.2003 г.

Представлен обзор работ авторов по компьютерному анализу генома человека. Работа состоит из двух частей - одна посвящена разработке методов предсказания экзон-интронной структуры генов, а вторая - исследованию альтернативного сплайсинга. В первой части работы описаны идеи методов предсказания структуры генов с использованием информации о гомологии продукта гена с известным белком, или геномной последовательности с последовательностью гомологичного гена из другого организма. Тестирование предложенных методов показало их высокую эффективность. С использованием разработанных методов и баз данных EST был проведен анализ сплайсинга генов человека. Нами было впервые показано, что количество альтернативно сплайсируемых генов составляет не менее 35% от общего числа генов. Далее, проведено сравнение альтернативного сплайсинга в геномах человека и мыши. Было показано, что 50% альтернативно сплайсируемых генов (25% от общего числа генов) имеют специфические изоформы, представленные в одном организме и не представленные в другом.

Ключевые слова: экзон-интронная структура генов, альтернативный сплайсинг.

ПРЕДСКАЗАНИЕ КОДИРУЮЩИХ ОБЛАСТЕЙ В ГЕНОМАХ

Одной из важнейших целей секвенирования геномов является определение набора генов генома. Распознавание белоккодирующих областей в прокариотических геномах - задача давно известная и, в общем, решенная, хотя и там остаются проблемы (например, точное картирование стартов генов). Поиск же кодирующих областей в эукариотических генах - задача куда более сложная, поскольку в этих организмах кодирующие области разорваны "бессмысленными" последовательностями - интронами, длина которых часто в десятки раз превосходит "осмысленные" -экзоны. Поэтому предсказание кодирующих областей - это, прежде всего, задача предсказания экзон-интронной структуры. Основные методы предсказания экзон-интронной структуры представлены в работах [1-3]. Следуя традиции, в дальнейшем для краткости изложения будем называть экзонами только кодирующую часть геномной последовательности.

Обычно система предсказания экзон-интрон-ной структуры базируется на следующих соображениях. Во-первых, в подавляющем большинстве случаев интроны начинаются и заканчиваются консервативными динуклеотидами: вТ - в начале интрона и Ав - в его конце. Во-вторых, в областях, прилегающих к экзон-интронным границам,

* Эл. почта: aa_mironov@pochtamt.ru

есть определенное предпочтение нуклеотидов в других позициях, что позволяет строить разного рода профили (весовые матрицы) для распознавания границ. Однако построенные таким образом распознающие правила все еще достаточно слабы. В-третьих, если нас интересует только кодирующая часть гена, то для более четкого выбора сайтов сплайсинга можно использовать соображение, что на том, что получится после вырезания интронов, не должно быть стоп-кодонов. Но и это не позволяет надежно определять структуру генов. Можно применить статистику кодо-нов и тем самым значительно улучшить качество предсказания (до 70%). Использование статистик дикодонов, статистических свойств интронов и слабых корреляций нуклеотидов в сайтах сплайсинга позволяет еще увеличить качество предсказания экзон-интронных структур генов (до 85%). Впервые комплексный статистический подход, учитывающий локальные (сайты сплайсинга) и глобальные (статистика белоккодирующих областей) свойства последовательностей, предложен в работе [4]. В настоящее время наиболее популярная техника решения задачи поиска белоккодирующих областей основана на использовании скрытых Марковских цепей [5], учитывающих все перечисленные соображения.

Тем не менее, применение статистических методов предсказания структуры генов при анализе больших геномных фрагментов имеет несколько трудно преодолимых недостатков. Во-первых, нет возможности локализовать границы генов и

предсказания часто объединяют несколько генов, закодированных в последовательности, в один очень большой ген, или, напротив, расщепляют гены на два и более. Во-вторых, применение этих методов затруднительно при наличии ошибок в геномной последовательности. Особенно они чувствительны к сдвигу рамки. Наконец, в-третьих, эти методы позволяют предсказывать только одну изоформу, игнорируя альтернативный сплайсинг.

С 1994 г. используют идеи о применении гомо-логий для определения структуры генов [6-8]. Такой подход не всегда применим, поскольку не всегда можно найти достаточно надежного гомолога, но в тех случаях, когда это можно сделать (~70% случаев), надежность предсказания можно существенно увеличить, часто до 100%. Пусть нам дана геномная последовательность, для простоты, содержащая один ген. Применив программу BLAST [9], мы можем найти в банке данных (например, в GenBank) белки, которые гомологичны белку, закодированному в данной последовательности. Используя наивный подход, мы можем просто разложить полученный список выравниваний на геномную последовательность и объявить их экзонами. Однако практика показывает, что такой подход дает качество предсказания, сравнимое со статистическим предсказанием структуры гена ab initio - примерно 85% . Проблема в том, что выравнивания, предъявленные программой BLAST, зачастую не согласованы с сайтами сплайсинга. Кроме того, этот подход заведомо теряет сравнительно короткие экзоны. Поэтому нами был предложен новый подход - сплайсиро-ванное выравнивание. Можно поставить несколько разных, с математической точки зрения, задач, связанных с предсказанием структуры генов на основе сходства.

Сайтовая задача. Пусть нам известны потенциальные сайты сплайсинга и последовательность гомологичного белка или кДНК. Надо найти такую экзон-интронную структуру, которая обеспечит наилучшее выравнивание сплайсиро-ванной последовательности с целевым белком или кДНК. Такой подход требует достаточно высокой гомологии гена и целевого белка и не позволяет использовать такое мощное средство, как статистика кодонов. С другой стороны, этот подход может быть применен в случае, когда последовательность гена прочитана не достаточно чисто и содержит в себе ошибки. Эта задача решается с помощью динамического программирования наподобие метода Смита-Ватермана [10], но с добавленными делециями специального вида (ин-тронами) [11].

Блочная задача. Эта задача возникает тогда, когда нам известны не только сайты сплайсинга, но также и потенциальные экзоны, которых мо-

жет быть очень много. Потенциальные экзоны могут быть предсказаны с помощью, например, статистики кодонов и сайтов сплайсинга. Этот метод позволяет использовать гораздо более удаленные гомологи.

Геномная задача. Существует также третья задача, когда нам известны две гомологичные (в смысле кодируемого белка) геномные последовательности из разных организмов. В этом случае можно определить структуру гена, опираясь на то, что экзоны кодируют белок и поэтому находятся под более строгим давлением отбора, в то время как интроны гораздо менее консервативны.

АЛГОРИТМЫ ПРЕДСКАЗАНИЯ ЭКЗОН-ИНТРОННОЙ СТРУКТУРЫ ГЕНОВ

Исторически сначала мы разработали алгоритм для решения более сложной блочной задачи. В настоящее время этот подход известен под названием алгоритм Прокруст (Procrustes, [1]). Пусть нам известны геномная последовательность, последовательность гомологичного белка и набор потенциальных экзонов. При этом потенциальных экзонов может быть достаточно много, и они могут перекрываться друг с другом. Задача заключается в том, чтобы построить цепочку экзонов, которая наилучшим способом выравнивается с данным белком. Наивный алгоритм поиска такой цепочки предполагает независимое выравнивание каждого из потенциальных экзонов с белком и затем построение оптимальной цепочки. Нетрудно оценить ожидаемое количество операций для этой задачи. Оно будет примерно равно O(Xlexn * lprot), где Xlexn - суммарная длина всех потенциальных экзонов, lprot - длина аминокислотной последовательности. Однако потенциальные экзоны могут перекрываться. В этом случае представляется лишним много раз производить выравнивание одного и того же участка геномной последовательности (представленной в разных экзонах) с аминокислотной последовательностью. Поэтому предложена усовершенствованная схема, при которой каждый участок геномной последовательности или просматривается один раз, если он покрыт хоть одним потенциальным экзоном, или ни разу, если он не покрыт ни одним потенциальным экзоном. В этом случае время работы алгоритма оценивается как O(Klgene * lprot), где к - покрытие геномной последовательности потенциальными экзонами, lgene - длина геномной последовательности. Надо отметить, что алгоритм Прокруст был не только первым алгоритмом предсказания экзон-интронной структуры генов на основе сходства, но также и первым подходом, позволившим комбинировать гомологию и статистическое предсказание структуры генов. Исследование свойств алгоритма Прокруст [12] показало, что качество предсказания зависит от

качества полученного выравнивания и при сходстве, превышающем 35%, предсказания можно считать достаточно надежными. В частности, в ряде случаев для предсказания структуры генов человека можно использовать даже последовательности прокариотических белков.

При определении нуклеотидных последовательностей неизбежно возникают ошибки, в том числе ошибки типа сбоя рамки и ошибки в сайтах сплайсинга. Уровень ошибок особенно высок на первых этапах секвенирования. Например, если уровень ошибок равен 1% (что характерно для однократного прочтения), то 2% сайтов сплайсинга будут содержать критические ошибки и 4% экзонов будет определено неправильно. Кроме того, в экзонах с заметной частотой будут появляться паразитные стоп-кодоны, не говоря уже о возможных сдвигах рамки. В таких условиях никакой алгоритм, основанный на статистике кодо-нов и сайтов сплайсинга, не сможет дать р

Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.

Показать целиком