научная статья по теме ИДЕНТИФИКАЦИЯ ГОРИЗОНТАЛЬНО ПЕРЕНЕСЕННЫХ ГЕНОВ НА ОСНОВЕ ФИЛОГЕНЕТИЧЕСКИХ ДАННЫХ Биология

Текст научной статьи на тему «ИДЕНТИФИКАЦИЯ ГОРИЗОНТАЛЬНО ПЕРЕНЕСЕННЫХ ГЕНОВ НА ОСНОВЕ ФИЛОГЕНЕТИЧЕСКИХ ДАННЫХ»

МОЛЕКУЛЯРНАЯ БИОЛОГИЯ, 2003, том 37, № 4, с. 674-687

БИОИНФОРМАТИКА

УДК 577.2.08:681.31:575.852

ИДЕНТИФИКАЦИЯ ГОРИЗОНТАЛЬНО ПЕРЕНЕСЕННЫХ ГЕНОВ НА ОСНОВЕ ФИЛОГЕНЕТИЧЕСКИХ ДАННЫХ

© 2003 г. В. В. Вьшгин*, М. С. Гельфанд1, В. А. Лшбецкий

Институт проблем передачи информации Российской академии наук, Москва, 101447 1 Федеральное государственное унитарное предприятие "ГосНИИгенетика", Москва, 113545

Поступила в редакцию 29.10.2002 г.

Предлагается способ для поиска генов, в истории которых имел место горизонтальный перенос. Такой поиск основан на учете различия в топологиях между деревьями эволюции групп генов (белков) и соответствующих им видов. Эта рассогласованность измеряется с помощью введенных в работе численных характеристик. Предлагаемая методика применялась к генам из 40 геномов прокариот, объединенным в 132 кластера ортологов. В результате выделен список генов, относительно которых гипотеза о событиях горизонтального переноса в ходе их эволюционной истории представляется правдоподобной.

Ключевые слова: горизонтальный перенос генов, эволюционное событие, статистика поиска эволюционных событий, филогенетическое дерево видов, филогенетическое дерево белков, согласование деревьев, квадратичная сложность.

Известно, что филогенетические деревья различных семейств белков из одних и тех же организмов часто не совпадают друг с другом, а также с известными из эволюционной биологии деревьями эволюции видов (организмов), содержащих эти белки. Причиной этого могут быть как неточности в построении деревьев эволюции белков (генов), вызванные, например, различиями в скорости эволюции одного гена в разных филети-ческих линиях, так и тот принципиальный факт, что деревья генов могут отличаться от дерева видов из-за событий, происходивших на молекулярном уровне в истории геномов и не связанных с дивергенцией видов. К таким событиям относятся, в частности, дупликации и потери генов, а также горизонтальный перенос генов. Подробнее деревья эволюции белков, генов, видов и события дупликации и потери генов обсуждаются, например, в наших работах [1, 2].

Нашей целью является разработка методов получения информации о таких эволюционных событиях на основе филогенетических данных. В этой работе мы предлагаем новый подход для отбора генов, подозреваемых участников горизонтального переноса, в ходе их эволюционной истории, на основе вызываемой ими рассогласованности между деревьями групп генов и видов.

Горизонтальный перенос между геномами бактерий происходит систематически. Бактерия может получить ген в свою хромосому непосредственно из окружающей среды, в результате фа-

* Эл. почта: vyugin@iitp.ru

говой инфекции, от другой бактерии посредством плазмид [3-5]. Для медицины важное значение горизонтального переноса определяется тем, что многие плазмиды переносят гены устойчивости к антибиотикам или содержат островки вирулентности, включающие гены токсинов, белков инвазии и другие факторы патогенности. Некоторые авторы считают, что горизонтальный перенос генов является одним из основных факторов эволюции микроорганизмов [6-9]. Геном Escherichia coli содержит до 18% горизонтально перенесенных генов [10]. В геноме Thermotoga maritima 25% генов более родственны генам архебактерий, чем бактерий, и предполагают, что они попали в этот геном в результате горизонтального переноса [3, 11]. Еще раньше аналогичные результаты были получены при исследовании генома другой бактерии, Aquifex aeolicus [12].

Постановка задачи компьютерного поиска горизонтально перенесенных генов на основе филогенетических данных рассматривалась ранее [13, 14]. Однако в этих работах не были предложены какие-либо методы ее решения. В нашей работе предлагается метод отбора генов - кандидатов на горизонтальный перенос. Соответствующая компьютерная программа составляет списки генов, послуживших причиной значительной рассогласованности деревьев эволюции групп соответствующих генов и видов. Конечно, дальнейший отбор должен производиться экспертным путем на основе анализа функций отобранных генов, а также их сходства с другими генами организма, в котором они сейчас находятся, и организ-

Bsu

Рис. 1. Дерево S* эволюции 40 микроорганизмов из выборки Ф.

ма, откуда в свое время, как можно предположить, осуществился горизонтальный перенос.

Когда эта статья уже прошла окончательное рецензирование, появилась публикация [19], к которой мы даем следующий краткий комментарий. В работе [19] предлагается алгоритм для наиболее экономичного вложения филогенетического паттерна (множества геномов, содержащих данный ген) в дерево видов. В качестве элементарных операций в ней рассматриваются также потери гена, дупликации и горизонтальные переносы гена. Показано, что частота горизонтальных переносов в ходе бактериальной эволюции сравнима с частотой потерь генов. При этом не рассматриваются перестройки дерева генов вследствие горизонтальных переносов, так как основная задача этой работы - это восстановление набора генов последнего общего предка рассматриваемых геномов. Тем самым, подход работы [19], в определенном смысле, дополнителен к нашему.

ИСХОДНЫЕ ДАННЫЕ

Предлагаемый метод применяют к списку (который будем обозначать Ф), состоящему из 40 микроорганизмов из 13 групп организмов.

Археи: (Afu) Archaeoglobus fulgidus; (Hbs) Halo-bacterium sp. NRC-1; (Mja) Methanococcus jann-aschii; (Mth) Methanobacterium thermoautotrophi-

cum; (Tac) Thermoplasma acidophilum; (Tvo) Thermoplasma volcanium; (Pho) Pyrococcus horikoshii; (Pab) Pyrococcus abyssi; (Ape) Aeropyrum pernix; (Sso) Sulfolobus solfataricus.

raMMa-npoTeoßaKTepHHi (Eco) Escherichia coli; (Buc) Buchnera sp.; (Pae) Pseudomonas aeruginosa; (Vch) Vibrio cholerae; (Hin) Haemophilus influenzae; (Pmu) Pasteurella multocida; (Xfa) Xylella fastidiosa.

BeTa-npoTeo6aKTepHHi (Nme) Neisseria meningitidis MC58.

A^b^a-npoTeoßaKTepHHi (Mlo) Mesorhizobium loti; (Ccr) Caulobacter crescentus; (Rpr) Rickettsia prowazekii.

3ncH^oH-npoTeo6aKTepHHi (Hpy) Helicobacter pylori; (Cje) Campylobacter jejuni.

TpaMno^oMHTe^bHbie ßaKTepaa (Firmicutes n

Mollicutes): (Spy) Streptococcus pyogenes; (Bsu) Bacillus subtilis; (Bha) Bacillus halodurans; (Lla) Lacto-coccus lactis; (Sau) Staphylococcus aureus; (Uur) Ure-aplasma urealyticum; (Mpn) Mycoplasma pneumoni-ae; (Mge) Mycoplasma genitalium.

X.i;imh,ihh: (Ctr) Chlamydia trachomatis; (Cpn) Chlamydia pneumoniae.

CnapoxeTbi: (Tpa) Treponema pallidum; (Bbu) Borrelia burgdorferi.

Tpynna DMS: (Dra) Deinococcus radiodurans; (Mtu) Mycobacterium tuberculosis; (Syn) Synechocystis.

Термотога и аквифекс: (Aae) Aquifex aeolicus; (Tma) Thermotoga maritima.

Расчеты проводили с использованием базы COG, содержащей кластеры ортологичных генов (http://www.ncbi.nlm.nih.gov / COG/). Каждый кластер (сокращенно КОГ) содержит группу генов и соответствующих им белков, имеющих общее происхождение и ответственных за единую функцию. Каждому КОГу также соответствует множественное выравнивание его белковых последовательностей, по которому разными методами можно построить филогенетическое дерево генов (белков) этого кластера. Эти выравнивания и деревья любезно предоставлены Ю. Вульфом и Е. Куниным (Национальный центр биотехнологической информации США). Деревья построены с помощью комбинации дистанционного метода и метода максимального правдоподобия, в результате чего строилось филогенетическое дерево генов, составляющих этот КОГ, таким образом, что расстояния по дереву отражали степень сходства белков [15].

Каждое из 132 полученных таким образом деревьев имеет на каждом своем ребре число, отражающее предположительное эволюционное время между событиями, приписанными концам этого ребра.

Дерево видов S строилось нами с помощью нашего алгоритма согласования деревьев генов [2] как дерево, наиболее близкое к этим 132 деревьям генов G, (где i меняется от 1 до 132; в соответствии с описанием задачи 1 ниже). Так полученное дерево видов S* (рис. 1) практически совпадает с деревом видов, которое строится на основе пятого метода из работы Вульфа и др. [16]. Оно также любезно передано нам авторами последней работы; именно дерево видов S* использовалось нами для получения результатов по идентификации горизонтальных переносов, которые далее приводятся.

Графические изображения дерева видов S*, а также филогенетических деревьев генов для тех КОГов, которые специально обсуждаются в разделе "Результаты", приведены ниже. В таблице содержатся все гены, отобранные нашим методом как подозреваемые участники горизонтального переноса.

МЕТОДЫ

Филогенетические деревья и их вложения

Рассматриваются деревья G, G1, ..., Gn, S, каждое с каким-то своим числом m концевых вершин. Деревья, обозначаемые G (с индексом или без), понимаются как филогенетические деревья белков (генов), а обозначаемые S (с индексом или без), - как филогенетические деревья видов (кластеров, организмов). Существуют разные естественные способы измерения степени (цены) отличия каких-то двух деревьев G и S; цена отличия

двух деревьев (синоним: цена вложения G в S) обозначается c(G, S). Отличие какого-то набора деревьев G1, ..., Gn от какого-то дерева S тогда естественно измеряется как

п

^ G1,..., Gn, S) = £ c (Gi, S).

i = 1

Функционал, подобный такому F, будем называть ценой отличия (синоним: качество согласования) данного набора деревьев G1, ..., Gn. Дерево S, минимизирующее этот функционал, называется результатом согласования соответствующего набора деревьев (синоним: их консенсусом).

Пример определения цены отличия c(G, S) двух деревьев G и S таков. Определяется вложение а: G —- S как тождественное на концевых вершинах и равное

а( x и у ) = а( x )иа( у ),

где знак и обозначает супремум (наименьшую точную верхнюю грань множества {а(х), а(у)}, т.е. множества из двух слагаемых в правой части равенства). Нужно различать понятия "отец" и "супремум", что поясняется на следующем примере (примере 1):

A

Е

Здесь А - отец В, Е, но супремум А, В, С, Б, Е; В -отец С и Б, но супремум В, С, Б.

Точнее, термин "тождественное" означает здесь следующее. Если в каждом организме берется по одном

Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.

Показать целиком