МОЛЕКУЛЯРНАЯ БИОЛОГИЯ, 2003, том 37, № 5, с. 843-849
БИОИНФОРМАТИКА
УДК 577.1
КОМПЬЮТЕРНЫЙ АНАЛИЗ РЕГУЛЯЦИИ МЕТАБОЛИЗМА ГЛИЦЕРОЛ-3-ФОСФАТА В ГЕНОМАХ ПРОТЕОБАКТЕРИЙ
© 2003 г. Л. В. Данилова*, М. С. Гельфанд1, В. А. Любецкий, О. Н. Лайкова1
Институт проблем передачи информации, Москва, 101447 Федеральное государственное унитарное предприятие "ГосНИИгенетика", Москва, 113545
Поступила в редакцию 01.04.2003 г.
Проведен сравнительный компьютерный анализ потенциальных GlpR-регулонов, отвечающих за метаболизм глицерола и глицерол-3-фосфата (Г3Ф), в геномах а-, в- и у-протеобактерий. Идентифицированы новые потенциальные палиндромные сигналы связывания GlpR в у-протеобактериях с консенсусом TGTTCGATAACGAACA для семейства Enterobacteriaceae, wTTTTCGTATACGAAAAw для семейства Pseudomonadaceae, AATGCTCGATCGAGCATT для семейства Vibrionaceae, а также сигналы в а- и Р-протеобактериях, состоящие из 3-4 прямых повторов слова TTTCGTT через 3-4 пары нуклеотидов.
Ключевые слова: GlpR, тандемные повторы, компьютерный анализ, оперонная структура, а-, Р-, у-протеобактерии.
GlpR, принадлежащий к семейству регуляторов DeoR, контролирует экспрессию генов метаболизма глицерола и глицерол-3-фосфата (Г3Ф). Хорошо изучен GlpR-регулон в Escherichia coli [13] и частично - в Pseudomonas aeruginosa [4].
Глицерол поступает извне в цитоплазму путем облегченной диффузии, обеспечиваемой продуктом гена glpF, а Г3Ф активно транспортируется продуктом гена glpT. Внутриклеточный глицерол фосфорилируется глицеролкиназой (glpK), давая Г3Ф. Г3Ф затем может быть превращен в дигид-роксиацетонфосфат под действием одной из двух имеющихся у E. coli Г3Ф-дегидрогеназ - аэробной (glpD) или анаэробной (glpA). Кроме того, к GlpR регулону E.coli относится ген glpQ, кодирующий периплазматическую глицерофосфодиэстеразу, гидролизующую глицерофосфодиэфиры с высвобождением Г3Ф, гены glpB и glpC, кодирующие дополнительные структурные компоненты анаэробной Г3Ф-дегидрогеназы, а также гены glpE, glpG и glpX, функции которых неясны. Названные гены собраны в три локуса на хромосоме E. coli: glpTQ/glpABC, glpEGR/glpD и glpFKX (косая линия разделяет опероны, ориентированные в разные стороны). GlpR имеет наибольшее сродство к регуляторной области glpD. Истинным индуктором GlpR-регулона является Г3Ф.
Целью данной работы было определение состава GlpR-регулонов и сигналов связывания GlpR в геномах протеобактерий.
* Эл. почта: dlv2k@mail.ru
REU
Рис. 1. Филогенетическое дерево гомологов репрес-сора GlpR в a-, ß-, у-протеобактериях. Сокращения: EC - E. coli, TY - S. typhi, SY - S. typhimurium, KP -K. pneumoniae, YP - Y. pestis, YE - Y. enterocolitica, EO -E. carotovora, VC - V. cholerae, VV - V. vulnificus, VFI -V. fischeri, HI - H. influenzae, DU - H. ducrey, HS - Haemophilus somnus, VK - P. multocida, PQ - P. haemolytica, AB - A. actinomycetemconitans, PA - P. aeruginosa, PP -P. putida, PU - P. fluorescens, PY - P. syringae, BU -B. fungorum, BPS - B. pseudomallei, BCE - B. cepacia, XAC - Xanthomonas axonopodis, XCC - Xanhtomonas campestris, BPA - B. parapertussis, REU - R. eutropha, RSO - R. solanacearum, RL - R. leguminosarum, AGR -
A. tumefaciens, SM - S. meliloti, ML - M. loti, BME -
B. melitensis, RPA - R. palustris, RS - R. sphaeroides.
EC ~glpQ. ,"glpT 4476 glpAglpBglpC
ФЯФО glpE 5.43 glpD
glpX glpK glpF 5.00 4.20
<=l<!=1 <=' • 12
YE <glpQ<glpl^ 434 476 glp^glp^glpC^ glpR glpG glpE 3.79
cß^cß^cß^ О . D
4.9 glpD
о ■=>
^glpF 3.91
<^=l О
KP ^pQ 500gp^ gp^glpC^
glpR glpG 5.11 glpD
<=■<=■ О
4.00 5.00 glpF glpK
О о ■=>■=>
TY SY
glpQ glpT 4412 glpA glpS glpC„
<1=I <J 1 4j6==^> 1 ^ 1 ^
glpD 5.43 glpE glpG glpR
<=■ О !=C> l=i>l=C>
5.43
4.034.204.49 glpF gP^ glpX_
ООО |=>1=> |=>
4.03 4.205.00
glpC glpB glpA 4.74 4.16 glpT
glpR glpG - 1
4.29 5.21 glpD
=> О О
4Д9 glpFglpX glpX ^
YP <glPQ<glEL^443
^pR^pGglpE
4.90 glpD
О >=>
glpX glpK glpF 4.363.95 4.03
<=i<=i<^=iO о о
VC
5.58 glpA glpß .g^ О 1 1 U^" 1
4.90 glpD
О
<glpQ<glpTi 4467 <=l=K<;=l=Ei
VF/
5.91 glpA glpB glpC
Ol=>l=^>l=^>
.4 glpD 5.66 glpR , „1 О "Sr;
glpT
О
VV 5558 glpA> glpB> glpC> 4.99 glpT glpQ
о [===>•[==£>
glpD 5.41 glpR glpK glpF 5.66
PA 5.66 glpT • ■=> 5.43 glpF • 1-> glpR 5.115.64 glpD => 0 • ■=>
PP glpD 5.52 glpK glpF 5.42
PY glpD 5.49 <-'O glpT 4.96 <gpR glpK glpF 5.61
PU 5.03 glpT 5.43 glpF 0 ■=> glpR 5.39 glpD ■=> о ■=>
AGR, SM, RPA, MLO, BME, RL glpR glpD „.
=>0 ■=>
14.30 10.56 10.18 10.8
10.96 11.61
SM 14d3gpK>
10.61 glpD AGR О ■=>
BPS, BCE, BU , -g^ ,-glpD „ ,
10.40 10.40 9.02 ^ ' ^ 'O
Рис. 2. Оперонная структура С1рК-регулонов в а-, Р-, у-протеобактериях. Закрашенными кружочками отмечены известные сайты, а незакрашенными - предсказанные, с их весами. Сокращения как на рис. 1.
МАТЕРИАЛЫ И МЕТОДЫ
Исследуемые геномы: Escherichia coli [5], Salmonella typhi [6], S. typhimurium [7], Klebsiella pneumoniae [8], Erwinia carotovora, Yersinia pestis [9], Y. enterocolitica [9], Vibrio cholerae [10], V. vulnificus [9] V. fischeri, Pasteurella multocida [11], P. haemolytica, Haemophilus influenzae [12], H. ducrey, Actinobacillus actinomycetemcomitans [16], Pseudomonas aeruginosa [13], P. fluorescens [14], P. putida [9], P. syringae [15], Burkholderia fungorum, B. pseudomallei, B. ce-pacia, Bordetella parapertussis, Ralstonia eutropha, R. solanacearum [9], Mesorhizobium loti [9], Sinorhizo-bium meliloti [9], Rhizobium leguminosarum, Agro-bacterium tumefaciens [9], Brucella melitensis [9], Rhodopseudomonas palustris. Близкие гомологи GlpR обнаружены во многих геномах, построено дерево (рис. 1), и все эти геномы исследованы.
Выравнивание последовательностей белков проводили при помощи программы ClustalW [17], а построение дерева генов - при помощи программы proml пакета Phylip [18].
Обозначения генов, данные в статье, соответствуют их ортологам в E. coli.
Для поиска сайтов и построения обучающей выборки и матриц позиционных весов использовали программы GenomeExplorer [19], SignalX [19] и IRSA [20].
Матрицу позиционных весов определяли по формуле:
W(b, k) =
= 0.25 ^ log [(N(b, k) + 0.5)/(N(i, k) + 0.5)],
i = A, T, C, G
где Щ(Ъ, к) - количество появлений нуклеотида Ъ в позиции к. Вес потенциального сигнала определяется как сумма позиционных весов составляющих его нуклеотидов. Основание логарифма выбирается таким образом, что веса случайных олиго-нуклеотидов распределены по нормальному закону с нулевым средним и дисперсией, равной единице.
Все матрицы позиционных весов применялись к геномам для поиска новых сайтов в областях -400...+50 п.н. относительно начала гена.
В тех случаях, когда оперонная структура данного фрагмента ДНК неизвестна, гены относили к одному потенциальному оперону, если они имели одинаковое направления считывания, а расстояние между ними не превышало 100 п.н.. За начало такого потенциального оперона принимали ген, перед которым найден в1рЯ-сайт (см. рис. 2).
РЕЗУЛЬТАТЫ И ОБСУЖДЕНИЕ
Во всех исследованных геномах были определены ортологи генов GlpR-регулона. Области перед этими генами составили обучающую выборку, к которой были применены программы выделения сигнала. Основные таксономические группы, соответствующие ветвям дерева белков GlpR, рассмотрены отдельно.
у-Протеобактерии, семейство Vibrionaceae.
В этом семействе из трех геномов: V. cholerae, V. vulnificus, V. fischeri - удалось выделить палин-дромный сигнал длиной 18 п.н. с консенсусом AATGCTCGATCGAGCATT (рис. 36). Найденные сайты и матрица позиционных весов представлены в табл. 16 и табл. 26 соответственно. При сканировании геномов с использованием этой матрицы новых потенциальных сайтов обнаружено не было.
у-Протеобактерии, семейство Pseudomona-daceae. Далее рассмотрены четыре генома из семейства Pseudomonadaceae и в регуляторных областях найден палиндромный сигнал wTTTTCG-TATACGAAAAw длиной 18 п.н. (рис. 3в), включающий ранее предсказанные сайты у P. aeruginosa [4] (табл. 1в); построена позиционная матрица (табл. 2в). С помощью этой матрицы с порогом 4.9 были найдены новые потенциальные сайты связывания GlpR, указанные в табл. 1в.
а-, Р-Протеобактерии. При исследовании геномов а-протеобактерий найдены 3-4 тандемных повтора TTTCGTT (рис. 3г), идущих друг за другом через 3-4 нуклеотида (табл. 1г), и построена позиционная матрица (табл. 2г). При дальнейшем исследовании в A. tumefaciens обнаружено два ор-толога гена glpD, которые имеют в регуляторных областях тандемные повторы. Аналогичные повторы обнаружены в геномах бактерий рода
bits 4 -|
32-1
1-о\
4 3 2 1 0
I I 111
I I
ncNco^in^oi^oo^o^cNco^in^o
II
ii III I 1
1 I
1 00
J
jX X X X
Рис. 3. Матрицы позиционных весов сигнала GlpR представлены в графическом виде, построенном с помощью описанной процедуры [23], для организмов: а - E. coli, E. carotovora, Y. enterocolitica, K. pneumoniae; б - V. cholerae, V. vulnificus, V. fischeri; в - P. aeruginosa, P. syringae, P. fluorescens, P. putida; „ - B. melitensis, M. loti, A. tumefaciens, S. meliloti, R. palustris.
Burkholderia из группы ß-протеобактерии (см. табл. 1„).
у-протеобактерии, семейство Enterobacteriaceae.
Сначала рассматривали регуляторные области из четырех геномов - E. coli, E. carotovora, Y. enterocolitica, K. pneumoniae - и по ним составлена обучающая выборка, включающая уже известные сайты E. coli (табл. 1а) с консенсусом TGTTC GATAACGAACA (рис. 3а). По этой выборке построена матрица позиционных весов (табл. 2а) для поиска палиндромных сайтов длиной 16 п.н.. С помощью этой матрицы исследованы геномы Y. pestis, S. typhimurium, S. typhi с порогом 4.1. Найденные сайты представлены в табл. 1а.
Снижение порога при исследовании геномов из семейства Enterobacteriaceae приводит к сильному "перепредсказанию", но при этом обнаруживаются относительно слабые сайты перед генами, входящими в Г3Ф регулон (табл. 1„). В то же время даже при низком пороге не во всех об-
а
Таблица 1. Сайты перед генами, входящими в Г3Ф-регулон в геномах указанных организмов
Геном Ген Вес сайта Сайт
a - семейство Enterobacteriaceae
E. coli glpD 5.41 TGTTCG
Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.