научная статья по теме КОМПЬЮТЕРНЫЙ АНАЛИЗ РЕГУЛЯЦИИ МЕТАБОЛИЗМА ГЛИЦЕРОЛ-3-ФОСФАТА В ГЕНОМАХ ПРОТЕОБАКТЕРИЙ Биология

Текст научной статьи на тему «КОМПЬЮТЕРНЫЙ АНАЛИЗ РЕГУЛЯЦИИ МЕТАБОЛИЗМА ГЛИЦЕРОЛ-3-ФОСФАТА В ГЕНОМАХ ПРОТЕОБАКТЕРИЙ»

МОЛЕКУЛЯРНАЯ БИОЛОГИЯ, 2003, том 37, № 5, с. 843-849

БИОИНФОРМАТИКА

УДК 577.1

КОМПЬЮТЕРНЫЙ АНАЛИЗ РЕГУЛЯЦИИ МЕТАБОЛИЗМА ГЛИЦЕРОЛ-3-ФОСФАТА В ГЕНОМАХ ПРОТЕОБАКТЕРИЙ

© 2003 г. Л. В. Данилова*, М. С. Гельфанд1, В. А. Любецкий, О. Н. Лайкова1

Институт проблем передачи информации, Москва, 101447 Федеральное государственное унитарное предприятие "ГосНИИгенетика", Москва, 113545

Поступила в редакцию 01.04.2003 г.

Проведен сравнительный компьютерный анализ потенциальных GlpR-регулонов, отвечающих за метаболизм глицерола и глицерол-3-фосфата (Г3Ф), в геномах а-, в- и у-протеобактерий. Идентифицированы новые потенциальные палиндромные сигналы связывания GlpR в у-протеобактериях с консенсусом TGTTCGATAACGAACA для семейства Enterobacteriaceae, wTTTTCGTATACGAAAAw для семейства Pseudomonadaceae, AATGCTCGATCGAGCATT для семейства Vibrionaceae, а также сигналы в а- и Р-протеобактериях, состоящие из 3-4 прямых повторов слова TTTCGTT через 3-4 пары нуклеотидов.

Ключевые слова: GlpR, тандемные повторы, компьютерный анализ, оперонная структура, а-, Р-, у-протеобактерии.

GlpR, принадлежащий к семейству регуляторов DeoR, контролирует экспрессию генов метаболизма глицерола и глицерол-3-фосфата (Г3Ф). Хорошо изучен GlpR-регулон в Escherichia coli [13] и частично - в Pseudomonas aeruginosa [4].

Глицерол поступает извне в цитоплазму путем облегченной диффузии, обеспечиваемой продуктом гена glpF, а Г3Ф активно транспортируется продуктом гена glpT. Внутриклеточный глицерол фосфорилируется глицеролкиназой (glpK), давая Г3Ф. Г3Ф затем может быть превращен в дигид-роксиацетонфосфат под действием одной из двух имеющихся у E. coli Г3Ф-дегидрогеназ - аэробной (glpD) или анаэробной (glpA). Кроме того, к GlpR регулону E.coli относится ген glpQ, кодирующий периплазматическую глицерофосфодиэстеразу, гидролизующую глицерофосфодиэфиры с высвобождением Г3Ф, гены glpB и glpC, кодирующие дополнительные структурные компоненты анаэробной Г3Ф-дегидрогеназы, а также гены glpE, glpG и glpX, функции которых неясны. Названные гены собраны в три локуса на хромосоме E. coli: glpTQ/glpABC, glpEGR/glpD и glpFKX (косая линия разделяет опероны, ориентированные в разные стороны). GlpR имеет наибольшее сродство к регуляторной области glpD. Истинным индуктором GlpR-регулона является Г3Ф.

Целью данной работы было определение состава GlpR-регулонов и сигналов связывания GlpR в геномах протеобактерий.

* Эл. почта: dlv2k@mail.ru

REU

Рис. 1. Филогенетическое дерево гомологов репрес-сора GlpR в a-, ß-, у-протеобактериях. Сокращения: EC - E. coli, TY - S. typhi, SY - S. typhimurium, KP -K. pneumoniae, YP - Y. pestis, YE - Y. enterocolitica, EO -E. carotovora, VC - V. cholerae, VV - V. vulnificus, VFI -V. fischeri, HI - H. influenzae, DU - H. ducrey, HS - Haemophilus somnus, VK - P. multocida, PQ - P. haemolytica, AB - A. actinomycetemconitans, PA - P. aeruginosa, PP -P. putida, PU - P. fluorescens, PY - P. syringae, BU -B. fungorum, BPS - B. pseudomallei, BCE - B. cepacia, XAC - Xanthomonas axonopodis, XCC - Xanhtomonas campestris, BPA - B. parapertussis, REU - R. eutropha, RSO - R. solanacearum, RL - R. leguminosarum, AGR -

A. tumefaciens, SM - S. meliloti, ML - M. loti, BME -

B. melitensis, RPA - R. palustris, RS - R. sphaeroides.

EC ~glpQ. ,"glpT 4476 glpAglpBglpC

ФЯФО glpE 5.43 glpD

glpX glpK glpF 5.00 4.20

<=l<!=1 <=' • 12

YE <glpQ<glpl^ 434 476 glp^glp^glpC^ glpR glpG glpE 3.79

cß^cß^cß^ О . D

4.9 glpD

о ■=>

^glpF 3.91

<^=l О

KP ^pQ 500gp^ gp^glpC^

glpR glpG 5.11 glpD

<=■<=■ О

4.00 5.00 glpF glpK

О о ■=>■=>

TY SY

glpQ glpT 4412 glpA glpS glpC„

<1=I <J 1 4j6==^> 1 ^ 1 ^

glpD 5.43 glpE glpG glpR

<=■ О !=C> l=i>l=C>

5.43

4.034.204.49 glpF gP^ glpX_

ООО |=>1=> |=>

4.03 4.205.00

glpC glpB glpA 4.74 4.16 glpT

glpR glpG - 1

4.29 5.21 glpD

=> О О

4Д9 glpFglpX glpX ^

YP <glPQ<glEL^443

^pR^pGglpE

4.90 glpD

О >=>

glpX glpK glpF 4.363.95 4.03

<=i<=i<^=iO о о

VC

5.58 glpA glpß .g^ О 1 1 U^" 1

4.90 glpD

О

<glpQ<glpTi 4467 <=l=K<;=l=Ei

VF/

5.91 glpA glpB glpC

Ol=>l=^>l=^>

.4 glpD 5.66 glpR , „1 О "Sr;

glpT

О

VV 5558 glpA> glpB> glpC> 4.99 glpT glpQ

о [===>•[==£>

glpD 5.41 glpR glpK glpF 5.66

PA 5.66 glpT • ■=> 5.43 glpF • 1-> glpR 5.115.64 glpD => 0 • ■=>

PP glpD 5.52 glpK glpF 5.42

PY glpD 5.49 <-'O glpT 4.96 <gpR glpK glpF 5.61

PU 5.03 glpT 5.43 glpF 0 ■=> glpR 5.39 glpD ■=> о ■=>

AGR, SM, RPA, MLO, BME, RL glpR glpD „.

=>0 ■=>

14.30 10.56 10.18 10.8

10.96 11.61

SM 14d3gpK>

10.61 glpD AGR О ■=>

BPS, BCE, BU , -g^ ,-glpD „ ,

10.40 10.40 9.02 ^ ' ^ 'O

Рис. 2. Оперонная структура С1рК-регулонов в а-, Р-, у-протеобактериях. Закрашенными кружочками отмечены известные сайты, а незакрашенными - предсказанные, с их весами. Сокращения как на рис. 1.

МАТЕРИАЛЫ И МЕТОДЫ

Исследуемые геномы: Escherichia coli [5], Salmonella typhi [6], S. typhimurium [7], Klebsiella pneumoniae [8], Erwinia carotovora, Yersinia pestis [9], Y. enterocolitica [9], Vibrio cholerae [10], V. vulnificus [9] V. fischeri, Pasteurella multocida [11], P. haemolytica, Haemophilus influenzae [12], H. ducrey, Actinobacillus actinomycetemcomitans [16], Pseudomonas aeruginosa [13], P. fluorescens [14], P. putida [9], P. syringae [15], Burkholderia fungorum, B. pseudomallei, B. ce-pacia, Bordetella parapertussis, Ralstonia eutropha, R. solanacearum [9], Mesorhizobium loti [9], Sinorhizo-bium meliloti [9], Rhizobium leguminosarum, Agro-bacterium tumefaciens [9], Brucella melitensis [9], Rhodopseudomonas palustris. Близкие гомологи GlpR обнаружены во многих геномах, построено дерево (рис. 1), и все эти геномы исследованы.

Выравнивание последовательностей белков проводили при помощи программы ClustalW [17], а построение дерева генов - при помощи программы proml пакета Phylip [18].

Обозначения генов, данные в статье, соответствуют их ортологам в E. coli.

Для поиска сайтов и построения обучающей выборки и матриц позиционных весов использовали программы GenomeExplorer [19], SignalX [19] и IRSA [20].

Матрицу позиционных весов определяли по формуле:

W(b, k) =

= 0.25 ^ log [(N(b, k) + 0.5)/(N(i, k) + 0.5)],

i = A, T, C, G

где Щ(Ъ, к) - количество появлений нуклеотида Ъ в позиции к. Вес потенциального сигнала определяется как сумма позиционных весов составляющих его нуклеотидов. Основание логарифма выбирается таким образом, что веса случайных олиго-нуклеотидов распределены по нормальному закону с нулевым средним и дисперсией, равной единице.

Все матрицы позиционных весов применялись к геномам для поиска новых сайтов в областях -400...+50 п.н. относительно начала гена.

В тех случаях, когда оперонная структура данного фрагмента ДНК неизвестна, гены относили к одному потенциальному оперону, если они имели одинаковое направления считывания, а расстояние между ними не превышало 100 п.н.. За начало такого потенциального оперона принимали ген, перед которым найден в1рЯ-сайт (см. рис. 2).

РЕЗУЛЬТАТЫ И ОБСУЖДЕНИЕ

Во всех исследованных геномах были определены ортологи генов GlpR-регулона. Области перед этими генами составили обучающую выборку, к которой были применены программы выделения сигнала. Основные таксономические группы, соответствующие ветвям дерева белков GlpR, рассмотрены отдельно.

у-Протеобактерии, семейство Vibrionaceae.

В этом семействе из трех геномов: V. cholerae, V. vulnificus, V. fischeri - удалось выделить палин-дромный сигнал длиной 18 п.н. с консенсусом AATGCTCGATCGAGCATT (рис. 36). Найденные сайты и матрица позиционных весов представлены в табл. 16 и табл. 26 соответственно. При сканировании геномов с использованием этой матрицы новых потенциальных сайтов обнаружено не было.

у-Протеобактерии, семейство Pseudomona-daceae. Далее рассмотрены четыре генома из семейства Pseudomonadaceae и в регуляторных областях найден палиндромный сигнал wTTTTCG-TATACGAAAAw длиной 18 п.н. (рис. 3в), включающий ранее предсказанные сайты у P. aeruginosa [4] (табл. 1в); построена позиционная матрица (табл. 2в). С помощью этой матрицы с порогом 4.9 были найдены новые потенциальные сайты связывания GlpR, указанные в табл. 1в.

а-, Р-Протеобактерии. При исследовании геномов а-протеобактерий найдены 3-4 тандемных повтора TTTCGTT (рис. 3г), идущих друг за другом через 3-4 нуклеотида (табл. 1г), и построена позиционная матрица (табл. 2г). При дальнейшем исследовании в A. tumefaciens обнаружено два ор-толога гена glpD, которые имеют в регуляторных областях тандемные повторы. Аналогичные повторы обнаружены в геномах бактерий рода

bits 4 -|

32-1

1-о\

4 3 2 1 0

I I 111

I I

ncNco^in^oi^oo^o^cNco^in^o

II

ii III I 1

1 I

1 00

J

jX X X X

Рис. 3. Матрицы позиционных весов сигнала GlpR представлены в графическом виде, построенном с помощью описанной процедуры [23], для организмов: а - E. coli, E. carotovora, Y. enterocolitica, K. pneumoniae; б - V. cholerae, V. vulnificus, V. fischeri; в - P. aeruginosa, P. syringae, P. fluorescens, P. putida; „ - B. melitensis, M. loti, A. tumefaciens, S. meliloti, R. palustris.

Burkholderia из группы ß-протеобактерии (см. табл. 1„).

у-протеобактерии, семейство Enterobacteriaceae.

Сначала рассматривали регуляторные области из четырех геномов - E. coli, E. carotovora, Y. enterocolitica, K. pneumoniae - и по ним составлена обучающая выборка, включающая уже известные сайты E. coli (табл. 1а) с консенсусом TGTTC GATAACGAACA (рис. 3а). По этой выборке построена матрица позиционных весов (табл. 2а) для поиска палиндромных сайтов длиной 16 п.н.. С помощью этой матрицы исследованы геномы Y. pestis, S. typhimurium, S. typhi с порогом 4.1. Найденные сайты представлены в табл. 1а.

Снижение порога при исследовании геномов из семейства Enterobacteriaceae приводит к сильному "перепредсказанию", но при этом обнаруживаются относительно слабые сайты перед генами, входящими в Г3Ф регулон (табл. 1„). В то же время даже при низком пороге не во всех об-

а

Таблица 1. Сайты перед генами, входящими в Г3Ф-регулон в геномах указанных организмов

Геном Ген Вес сайта Сайт

a - семейство Enterobacteriaceae

E. coli glpD 5.41 TGTTCG

Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.

Показать целиком