научная статья по теме ПОИСК АЛЬТЕРНАТИВНЫХ ВТОРИЧНЫХ СТРУКТУР РНК, РЕГУЛИРУЮЩИХ ЭКСПРЕССИЮ БАКТЕРИАЛЬНЫХ ГЕНОВ Биология

Текст научной статьи на тему «ПОИСК АЛЬТЕРНАТИВНЫХ ВТОРИЧНЫХ СТРУКТУР РНК, РЕГУЛИРУЮЩИХ ЭКСПРЕССИЮ БАКТЕРИАЛЬНЫХ ГЕНОВ»

МОЛЕКУЛЯРНАЯ БИОЛОГИЯ, 2003, том 37, № 5, с. 834-842

БИОИНФОРМАТИКА

УДК 577.1

ПОИСК АЛЬТЕРНАТИВНЫХ ВТОРИЧНЫХ СТРУКТУР РНК, РЕГУЛИРУЮЩИХ ЭКСПРЕССИЮ БАКТЕРИАЛЬНЫХ ГЕНОВ

© 2003 г. Е. В. Лшбецкая*, Л. А. Леонтьев, М. С. Гельфанд1, В. А. Лшбецкий*

Институт проблем передачи информации Российской академии наук, Москва, 101447 Федеральное государственное унитарное предприятие "ГосНИИгенетика", Москва, 113545

Поступила в редакцию 18.02.2003 г.

Экспрессия многих генов бактерий регулируется посредством образования альтернативных вторичных структур в лидерной области мРНК. Приведены результаты применения разработанного нами алгоритма поиска (по одной нуклеотидной последовательности) таких структур РНК для анализа оперонов биосинтеза аминокислот альфа- и гамма-протеобактерий. Предсказаны аттенюаторы этих оперонов в геномах малоизученных гамма-протеобактерий, в том числе БНвм/апвиа рМте/ас1ет, и аттенюаторы триптофанового оперона ряда альфа-протеобактерий.

Ключевые слова: аттенюаторная структура, протеобактерии, регуляция экспрессии, алгоритм поиска.

ПОСТАНОВКА ЗАДАЧИ И МЕТОД ПОИСКА

Регуляция экспрессии многих бактериальных генов осуществляется на уровне трансляции или в результате взаимодействия процессов трансляции и транскрипции. В большинстве случаев в рассматриваемой области РНК образуются альтернативные вторичные структуры, которые служат основным регуляторным сигналом. В качестве примера можно привести аттенюаторы оперонов синтеза аминокислот [1] и регулятор-ные структуры некоторых оперонов рибосомных белков Escherichia coli [2].

Стандартный подход к поиску таких регуля-торных сигналов состоит в построении вторичных структур для новых геномов с помощью шаблонов (распознающих правил), основанных на уже известных подобных структурах из хорошо изученных геномов. В частности, такой метод применен в работах [1, 2]. Однако он имеет естественное ограничение: позволяя переносить известные данные о регуляции экспрессии на новые геномы, он не дает возможности изучать новые системы регуляции. В то же время среди многочисленных групп бактерий существуют и такие, которые не содержат хорошо изученных видов. Более того, не исключена возможность, что даже известные геномы обладают новыми регулятор-ными системами.

Поэтому возникает задача поиска регулятор-ных структур в РНК без использования подобных шаблонов. В общем виде эта задача, по-видимому, не может быть решена, так как число вторичных структур, потенциально способных возник-

* Эл. почта: lin@iitp.ru; lyubetsk@iitp.ru

нуть даже в относительно коротких фрагментах РНК, велико и неясно, как выделить среди них ре-гуляторные. Однако можно воспользоваться тем, что многие регуляторные взаимодействия основаны на образовании альтернативных структур. Поэтому при наличии соответствующей компьютерной программы поиск альтернативных структур в РНК может производиться на следующей основе:

(1) сканируют достаточно протяженные участки, расположенные перед генами, и в них ищут потенциальные альтернативные вторичные структуры;

(2) если найденная структура настолько "хороша" (включает протяженные сильно и "правильно" перекрывающиеся спирали), что ее случайное появление кажется невозможным, то она подлежит экспериментальной проверке;

(3) если же предсказание альтернативной структуры менее надежно (т.е. неясен точный вид альтернативных спиралей или структура содержит короткие или несовершенные спирали), то следует анализировать возможность образования аналогичной (в некотором неформальном смысле) структуры перед тем же геном в ряде родственных геномов. При этом предполагается, что истинные вторичные структуры консервативны даже при изменении нуклеотидной последовательности (это предположение выполняется во многих случаях [1, 2]). Анализ производят сначала с помощью алгоритма, а затем вручную, поскольку нет четко сформулированного критерия консервативности.

Механизм регуляции биосинтеза некоторых аминокислот и аминоацил-тРНК-синтетаз в про-

теобактериях основан на соотношении скоростей транскрипции и трансляции. Он экспериментально показан для таких оперонов, как trp, his, ilvGMEDA, ilvBN, phe, thr, leu в E. coli и Salmonella typhimurium [2]. В этой регуляции роль посредника выполняет рибосома.

На рис. 1 схематически показана такая регуляция: изображены две альтернативные конформа-ции вторичной структуры лидерной (некодирую-щей) части мРНК, расположенной на 5'-конце перед генами биосинтеза аминокислот. Цифрами обозначены различные участки мРНК, вовлеченные в формирование вторичной структуры. Первая конформация (обозначенная 1 : 2 и 3 : 4) называется терминирующей, вторая (обозначенная 2 : 3) - ан-титерминирующей.

В случае укладки мРНК в антитерминирую-щую конформацию РНК-полимераза синтезирует весь транскрипт; если же мРНК приобретает терминирующую конформацию, то транскрипция преждевременно обрывается, не доходя до структурных генов оперона. Как видно из рис. 1, спираль, называемая антитерминатором, складывается из частей "паузной" спирали и терминатора. Показанная вторичная структура мРНК (т.е. антитерминатор или терминатор вместе с паузной спиралью) альтернативны друг другу. Аттенюаторы транскрипции оперонов биосинтеза ароматических аминокислот (trp, pheA, pheST) нескольких гамма-протеобактерий предсказаны ранее с помощью сравнительного анализа [1].

Нами разработан алгоритм и реализующая его компьютерная программа [3], которая позволяет отобрать для последующего ручного анализа набор попарно наиболее сходных вторичных структур (и составляющих их спиралей) по данному набору регуляторных областей гомологичных оперонов в родственных геномах. Конечно, критерии "хорошести" (пункт 2) и "аналогичности" (пункт 3), использованные при поиске альтернативных структур, по необходимости приблизительны, и относительно них "наилучшая" и "наиболее консервативная" (т.е. даже оптимальные по соответствующим критериям) альтернативные структуры являются лишь предположительными. Для их подтверждения требуется экспериментальная проверка либо использование дополнительных соображений, таких так наличие последовательности, кодирующей сигнальный пептид.

Принципиальная особенность подхода, примененного в настоящей работе, состоит в том, что мы проверяли впервые предложенный нами алгоритм решения задачи из пункта 1, который работает на одной исходной последовательности. Набор родственных регуляторных областей из пункта 3 привлекается только для последующего анализа и оценки результатов работы этого алго-

5'

5'

3'

Рис. 1. Альтернативные вторичные структуры мРНК, составляющие типичный аттенюатор транскрипции.

ритма, при этом используются самостоятельные алгоритмы из [3].

В этом состоит основное отличие предлагаемого здесь подхода от тех, которые опубликованы, в частности, в [4-7]. В этих работах либо используется сравнение с уже известным шаблоном, либо с помощью анализа компенсаторных замен в выравненных нуклеотидных последова-тельстях строится консервативная вторичная структура.

Напомним стандартные определения. Вторичная структура состоит из спиралей, а спираль состоит из двух упорядоченных - левого и правого -наборов (каждый из одинакового числа) отрезков нуклеотидов. В каждом наборе соседние отрезки разделены какими-то промежутками, которые либо не имеют пары в другом наборе (тогда этот промежуток называется выпячиванием), либо имеют такую пару (и тогда эта пара промежутков называется внутренней петлей). Промежуток между самими наборами называется внешней петлей. Каждый г-ый отрезок от начала левого набора должен быть комплементарным г-ому отрезку от конца правого набора. Эти отрезки удобно нумеровать комплементарными парами, начиная от внешней петли. Такая нумерация связана с представлением о том, что первые от внешней петли отрезки (точнее, пары таких комплементарных отрезков) обычно определяются алгоритмами более точно, а за ними идет "лапша" - гораздо менее точно определяемые пары отрезков.

3

Опероны биосинтеза аминокислот гамма-протеобактерий и предсказанные аттенюаторы

Организм Оперон, ген

Escherichia coli **trpEDCBA **pheST **pheA **hisGDCBHAFI **thrABC **leuABCD **ilvGMEDA **ЦуБК

Salmonella typhi **trpED #trpCBA **pheST **pheA *hisGDCBHAFI *thrABC *leuABCDxx *ilvGMEDA *ЦуБК

Yersinia pestis **trpEGDCBA *pheST **pheA1 **pheA2 *hisGDCBAHAFI *thrABC *leuABCD *ilvGMEDA *ЦуБК

Vibrio cholerae **trpEGDCBA #pheST **pheA *hisGDCBHAFI *thrABC *leuABCDx *ilvGMEDA Нет гена

Haemophilus influenzae #trpEGDC #trpBA #pheST #pheA *hisGDCBHAFI *thrABC *leuABCD Нет гена #ЦуБК

Shewanella putrefaciens *trpEGDCBA #pheST *pheA *hisGDCBHAFI *thrABC *leuABCD *ilvGDA Нет гена

Actinobacillus actinomycet- emcomitans #trpEG #trpD #trpFC #trpxBA #pheST #pheA #hisGDC #hisBH #hisF *thrAB #thrCx Нет гена #ilvGE #ЦуБК

Pasteurella multocida #trpEG #trpDC #trpBA #pheSTxx #pheA *hisG #hisDCBxHAFxA *thrABCxxxx *leuABCD *ilvGMxDA Нет гена

Klebsiella pneumoniae #trpEDC #trpB *pheS pheT *pheA #hisD #hisBHA #hisFI #thrABC #leuA #leuC *ilvGxEDA *ЦуБК

Pseudomonas aeruginosa #trpE #pheST #pheA #hisGDC #BH #hisAF #thrA #thrC #leuA #leuB #leuC #leuD Нет гена #ЦуБК

Xanthomonas axonopodis #trpExGxDCx #trpB #trpA #pheST #pheA #xhisGDCBHAFI *thrAB #thrC Нет гена *ilvCGMxleuA Нет гена

Erwinia carotovora *trpEGDCBA *pheST *pheA *hisGDCBHA *thrABC *leuABCD *ilvGED #ЦуБК

Xylella fastidiosa #trpEGDC #trpBAx #pheST #pheA #xhisGDCBHAFI #thrABC Нет гена *xilvGAxleuA Нет гена

* Потенциальные кандидаты с лидерными пептидами, предсказанные нашим алгоритмом на роль регуляторных структур. ** Известные структуры с лидерными пептидами, найденные нашим алгоритмом и приведенные в [6, 7].

# Наш алгоритм не дал предсказание, так как не выполняется одно из следующих условий: нет лидерного пептида при хорошей альтернативной структуре, нет хорошей альтернативной структуры, нет потенциального терминатора (ро1уТ), слишком короткая область перед первым геном оперона.

Здесь "первые" отрезки - это обычно один-три отрезка (считая от внешней петли).

Обозначим концы левого набора А и В, а концы правого набора - С и Э (нумерация нуклеоти-д

Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.

Показать целиком