МОЛЕКУЛЯРНАЯ БИОЛОГИЯ, 2003, том 37, № 4, с. 674-687
БИОИНФОРМАТИКА
УДК 577.2.08:681.31:575.852
ИДЕНТИФИКАЦИЯ ГОРИЗОНТАЛЬНО ПЕРЕНЕСЕННЫХ ГЕНОВ НА ОСНОВЕ ФИЛОГЕНЕТИЧЕСКИХ ДАННЫХ
© 2003 г. В. В. Вьшгин*, М. С. Гельфанд1, В. А. Лшбецкий
Институт проблем передачи информации Российской академии наук, Москва, 101447 1 Федеральное государственное унитарное предприятие "ГосНИИгенетика", Москва, 113545
Поступила в редакцию 29.10.2002 г.
Предлагается способ для поиска генов, в истории которых имел место горизонтальный перенос. Такой поиск основан на учете различия в топологиях между деревьями эволюции групп генов (белков) и соответствующих им видов. Эта рассогласованность измеряется с помощью введенных в работе численных характеристик. Предлагаемая методика применялась к генам из 40 геномов прокариот, объединенным в 132 кластера ортологов. В результате выделен список генов, относительно которых гипотеза о событиях горизонтального переноса в ходе их эволюционной истории представляется правдоподобной.
Ключевые слова: горизонтальный перенос генов, эволюционное событие, статистика поиска эволюционных событий, филогенетическое дерево видов, филогенетическое дерево белков, согласование деревьев, квадратичная сложность.
Известно, что филогенетические деревья различных семейств белков из одних и тех же организмов часто не совпадают друг с другом, а также с известными из эволюционной биологии деревьями эволюции видов (организмов), содержащих эти белки. Причиной этого могут быть как неточности в построении деревьев эволюции белков (генов), вызванные, например, различиями в скорости эволюции одного гена в разных филети-ческих линиях, так и тот принципиальный факт, что деревья генов могут отличаться от дерева видов из-за событий, происходивших на молекулярном уровне в истории геномов и не связанных с дивергенцией видов. К таким событиям относятся, в частности, дупликации и потери генов, а также горизонтальный перенос генов. Подробнее деревья эволюции белков, генов, видов и события дупликации и потери генов обсуждаются, например, в наших работах [1, 2].
Нашей целью является разработка методов получения информации о таких эволюционных событиях на основе филогенетических данных. В этой работе мы предлагаем новый подход для отбора генов, подозреваемых участников горизонтального переноса, в ходе их эволюционной истории, на основе вызываемой ими рассогласованности между деревьями групп генов и видов.
Горизонтальный перенос между геномами бактерий происходит систематически. Бактерия может получить ген в свою хромосому непосредственно из окружающей среды, в результате фа-
* Эл. почта: vyugin@iitp.ru
говой инфекции, от другой бактерии посредством плазмид [3-5]. Для медицины важное значение горизонтального переноса определяется тем, что многие плазмиды переносят гены устойчивости к антибиотикам или содержат островки вирулентности, включающие гены токсинов, белков инвазии и другие факторы патогенности. Некоторые авторы считают, что горизонтальный перенос генов является одним из основных факторов эволюции микроорганизмов [6-9]. Геном Escherichia coli содержит до 18% горизонтально перенесенных генов [10]. В геноме Thermotoga maritima 25% генов более родственны генам архебактерий, чем бактерий, и предполагают, что они попали в этот геном в результате горизонтального переноса [3, 11]. Еще раньше аналогичные результаты были получены при исследовании генома другой бактерии, Aquifex aeolicus [12].
Постановка задачи компьютерного поиска горизонтально перенесенных генов на основе филогенетических данных рассматривалась ранее [13, 14]. Однако в этих работах не были предложены какие-либо методы ее решения. В нашей работе предлагается метод отбора генов - кандидатов на горизонтальный перенос. Соответствующая компьютерная программа составляет списки генов, послуживших причиной значительной рассогласованности деревьев эволюции групп соответствующих генов и видов. Конечно, дальнейший отбор должен производиться экспертным путем на основе анализа функций отобранных генов, а также их сходства с другими генами организма, в котором они сейчас находятся, и организ-
Bsu
Рис. 1. Дерево S* эволюции 40 микроорганизмов из выборки Ф.
ма, откуда в свое время, как можно предположить, осуществился горизонтальный перенос.
Когда эта статья уже прошла окончательное рецензирование, появилась публикация [19], к которой мы даем следующий краткий комментарий. В работе [19] предлагается алгоритм для наиболее экономичного вложения филогенетического паттерна (множества геномов, содержащих данный ген) в дерево видов. В качестве элементарных операций в ней рассматриваются также потери гена, дупликации и горизонтальные переносы гена. Показано, что частота горизонтальных переносов в ходе бактериальной эволюции сравнима с частотой потерь генов. При этом не рассматриваются перестройки дерева генов вследствие горизонтальных переносов, так как основная задача этой работы - это восстановление набора генов последнего общего предка рассматриваемых геномов. Тем самым, подход работы [19], в определенном смысле, дополнителен к нашему.
ИСХОДНЫЕ ДАННЫЕ
Предлагаемый метод применяют к списку (который будем обозначать Ф), состоящему из 40 микроорганизмов из 13 групп организмов.
Археи: (Afu) Archaeoglobus fulgidus; (Hbs) Halo-bacterium sp. NRC-1; (Mja) Methanococcus jann-aschii; (Mth) Methanobacterium thermoautotrophi-
cum; (Tac) Thermoplasma acidophilum; (Tvo) Thermoplasma volcanium; (Pho) Pyrococcus horikoshii; (Pab) Pyrococcus abyssi; (Ape) Aeropyrum pernix; (Sso) Sulfolobus solfataricus.
raMMa-npoTeoßaKTepHHi (Eco) Escherichia coli; (Buc) Buchnera sp.; (Pae) Pseudomonas aeruginosa; (Vch) Vibrio cholerae; (Hin) Haemophilus influenzae; (Pmu) Pasteurella multocida; (Xfa) Xylella fastidiosa.
BeTa-npoTeo6aKTepHHi (Nme) Neisseria meningitidis MC58.
A^b^a-npoTeoßaKTepHHi (Mlo) Mesorhizobium loti; (Ccr) Caulobacter crescentus; (Rpr) Rickettsia prowazekii.
3ncH^oH-npoTeo6aKTepHHi (Hpy) Helicobacter pylori; (Cje) Campylobacter jejuni.
TpaMno^oMHTe^bHbie ßaKTepaa (Firmicutes n
Mollicutes): (Spy) Streptococcus pyogenes; (Bsu) Bacillus subtilis; (Bha) Bacillus halodurans; (Lla) Lacto-coccus lactis; (Sau) Staphylococcus aureus; (Uur) Ure-aplasma urealyticum; (Mpn) Mycoplasma pneumoni-ae; (Mge) Mycoplasma genitalium.
X.i;imh,ihh: (Ctr) Chlamydia trachomatis; (Cpn) Chlamydia pneumoniae.
CnapoxeTbi: (Tpa) Treponema pallidum; (Bbu) Borrelia burgdorferi.
Tpynna DMS: (Dra) Deinococcus radiodurans; (Mtu) Mycobacterium tuberculosis; (Syn) Synechocystis.
Термотога и аквифекс: (Aae) Aquifex aeolicus; (Tma) Thermotoga maritima.
Расчеты проводили с использованием базы COG, содержащей кластеры ортологичных генов (http://www.ncbi.nlm.nih.gov / COG/). Каждый кластер (сокращенно КОГ) содержит группу генов и соответствующих им белков, имеющих общее происхождение и ответственных за единую функцию. Каждому КОГу также соответствует множественное выравнивание его белковых последовательностей, по которому разными методами можно построить филогенетическое дерево генов (белков) этого кластера. Эти выравнивания и деревья любезно предоставлены Ю. Вульфом и Е. Куниным (Национальный центр биотехнологической информации США). Деревья построены с помощью комбинации дистанционного метода и метода максимального правдоподобия, в результате чего строилось филогенетическое дерево генов, составляющих этот КОГ, таким образом, что расстояния по дереву отражали степень сходства белков [15].
Каждое из 132 полученных таким образом деревьев имеет на каждом своем ребре число, отражающее предположительное эволюционное время между событиями, приписанными концам этого ребра.
Дерево видов S строилось нами с помощью нашего алгоритма согласования деревьев генов [2] как дерево, наиболее близкое к этим 132 деревьям генов G, (где i меняется от 1 до 132; в соответствии с описанием задачи 1 ниже). Так полученное дерево видов S* (рис. 1) практически совпадает с деревом видов, которое строится на основе пятого метода из работы Вульфа и др. [16]. Оно также любезно передано нам авторами последней работы; именно дерево видов S* использовалось нами для получения результатов по идентификации горизонтальных переносов, которые далее приводятся.
Графические изображения дерева видов S*, а также филогенетических деревьев генов для тех КОГов, которые специально обсуждаются в разделе "Результаты", приведены ниже. В таблице содержатся все гены, отобранные нашим методом как подозреваемые участники горизонтального переноса.
МЕТОДЫ
Филогенетические деревья и их вложения
Рассматриваются деревья G, G1, ..., Gn, S, каждое с каким-то своим числом m концевых вершин. Деревья, обозначаемые G (с индексом или без), понимаются как филогенетические деревья белков (генов), а обозначаемые S (с индексом или без), - как филогенетические деревья видов (кластеров, организмов). Существуют разные естественные способы измерения степени (цены) отличия каких-то двух деревьев G и S; цена отличия
двух деревьев (синоним: цена вложения G в S) обозначается c(G, S). Отличие какого-то набора деревьев G1, ..., Gn от какого-то дерева S тогда естественно измеряется как
п
^ G1,..., Gn, S) = £ c (Gi, S).
i = 1
Функционал, подобный такому F, будем называть ценой отличия (синоним: качество согласования) данного набора деревьев G1, ..., Gn. Дерево S, минимизирующее этот функционал, называется результатом согласования соответствующего набора деревьев (синоним: их консенсусом).
Пример определения цены отличия c(G, S) двух деревьев G и S таков. Определяется вложение а: G —- S как тождественное на концевых вершинах и равное
а( x и у ) = а( x )иа( у ),
где знак и обозначает супремум (наименьшую точную верхнюю грань множества {а(х), а(у)}, т.е. множества из двух слагаемых в правой части равенства). Нужно различать понятия "отец" и "супремум", что поясняется на следующем примере (примере 1):
A
Е
Здесь А - отец В, Е, но супремум А, В, С, Б, Е; В -отец С и Б, но супремум В, С, Б.
Точнее, термин "тождественное" означает здесь следующее. Если в каждом организме берется по одном
Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.