научная статья по теме ИНТЕГРИРОВАННАЯ КОМПЬЮТЕРНАЯ СИСТЕМА ПО РЕГУЛЯЦИИ ЭКСПРЕССИИ ГЕНОВ ЭУКАРИОТ Биология

Текст научной статьи на тему «ИНТЕГРИРОВАННАЯ КОМПЬЮТЕРНАЯ СИСТЕМА ПО РЕГУЛЯЦИИ ЭКСПРЕССИИ ГЕНОВ ЭУКАРИОТ»

МОЛЕКУЛЯРНАЯ БИОЛОГИЯ, 2004, том 38, № 1, с. 69-81

== КОМПЬЮТЕРНАЯ ГЕНОМИКА =

УДК 577.121:577.214:57.087:681.3

ИНТЕГРИРОВАННАЯ КОМПЬЮТЕРНАЯ СИСТЕМА ПО РЕГУЛЯЦИИ ЭКСПРЕССИИ ГЕНОВ ЭУКАРИОТ

© 2004 г. Н. А. Колчанов*, О. А. Подколодная, Е. А. Ананько, Д. А. Афонников, О. В. Вишневский, Д. Г. Воробьев, Е. В. Игнатьева, В. Г. Левицкий, В. А. Лихошвай, Н. А. Омельянчук, Н. Л. Подколодный, А. В. Ратушный, В. В. Суслов

Институт цитологии и генетики Сибирского отделения Российской академии наук, Новосибирск, 630090

Поступила в редакцию 20.08.2003 г.

Описан ряд модулей интегрированной компьютерной системы по регуляции экспрессии генов эука-риот - GeneExpress. Рассмотрены подходы к представлению в базах данных результатов экспериментальных исследований. Приведены примеры использования GeneExpress для компьютерного анализа и моделирования различных особенностей организации и функционирования молекулярно-генетических систем. Система GeneExpress доступна через Интернет по адресу http://wwwmgs.bionet.nsc.ru/mgs/gnw/.

Ключевые слова: базы данных, экспрессия генов, регуляция транскрипции, генные сети, математическое моделирование, электронная клетка.

Массовая расшифровка геномов обеспечила накопление огромных объемов информации об их структурно-функциональной организации, локализации генов и идентификации их функций. Центральной задачей постгеномной молекулярной биологии и генетики стало изучение принципов организации и функционирования молекулярно-гене-тических систем, обеспечивающих формирование фенотипических (биохимических, физиологических, морфологических, поведенческих и т.д.) признаков у человека, животных, растений и микроорганизмов.

Эти исследования носят комплексный междисциплинарный характер, так как анализ беспрецедентных объемов экспериментальных данных, отражающих сложные процессы функционирования молекулярно-генетических систем, абсолютно невозможен без использования современных информационных технологий, эффективных математических методов анализа и моделирования биологических систем и процессов.

Для интеграции информационных и программных ресурсов, затрагивающих различные стороны функционирования генома, нами разрабатывается компьютерная система GeneExpress [1, 2].

В системе GeneExpress представлено большое количество разработанных в Институте цитологии и генетики СО РАН баз данных и программ их анализа. Эта система содержит средства автоматического поиска закономерностей структурно-функциональной организации ДНК, РНК и белков (анализ нуклеосомной упаковки ДНК;

* Эл. почта: kol@bionet.nsc.ru

распознавание сайтов связывания транскрипционных факторов и промоторов; предсказание вторичной структуры РНК, обнаружение и анализ координированно эволюционирующих позиций в структуре белков), средства автоматической визуализации экспериментальных данных и результатов анализа структурно-функциональной организации ДНК, РНК, белков, а также математического моделирования динамики генных сетей.

Описан ряд модулей системы GeneExpress, рассмотрены подходы к представлению в базах данных результатов экспериментальных исследований, приведены примеры использования системы GeneExpress для компьютерного анализа и моделирования организации и функционирования мо-лекулярно-генетических систем. Более детальное описание системы GeneExpress приведено в [119], а также доступно через Интернет по адресу http ://wwwmgs .bionet. nsc .ru/mgs/gnw/.

Разработка интегрированной системы GeneExpress была инициирована и в течение многих лет поддерживались Российской Государственной научно-технической программой "Геном человека".

РЕГУЛЯЦИЯ ТРАНСКРИПЦИИ ГЕНОВ ЭУКАРИОТ: БАЗА ДАННЫХ TRRD

Один из наиболее важных компонентов системы GeneExpress - база данных TRRD (Transcription Regulatory Region Database) [3-7].

База данных TRRD развивается и поддерживается в ИЦиГ СО РАН с 1993 г. Эта база данных предназначена для накопления и систематизации

NF-kB*

Область промотора (-1481/+40)

Рис. 1. Схема регуляторных районов 5'-фланкирую-щей области гена ¡Ь-8 человека, построенная на основе информации, представленной в базе данных TRRD. ST - участок инициации транскрипции; прямоугольники - сайты связывания факторов транскрипции; серым цветом разной интенсивности выделены сайты, образующие три композиционных элемента; звездочками отмечены сайты, образующие функциональную группу.

экспериментальных данных о регуляторных элементах, контролирующих транскрипцию - промоторах, энхансерах, сайленсерах, участках связывания транскрипционных факторов и т.д., факторах транскрипции, взаимодействующих с регуляторными элементами, и особенностях экспрессии генов.

База данных TRRD содержит крупнейшую в мире коллекцию экспериментально выявленных промоторов, энхансеров, сайленсеров и участков связывания факторов транскрипции позвоночных.

Наполнение базы осуществляется только на основе аннотирования публикаций, содержащих экспериментальные данные по регуляции транскрипции. Формат представления данных в базе TRRD, включающий 88 информационных полей, позволяет описывать как структурные, так и функциональные характеристики регуляторных областей генов [4-6]. Ниже приведены основные типы информации, накапливаемой в базе данных TRRD.

• Информация для идентификации гена (название, синонимы, положение гена на хромосоме; ссылки на базы SWISS-PROT, GeneCard, MGI, GDB и др.).

• Структура регуляторных районов гена (5'- и З'-фланкирующие районы, интроны).

• Сайты инициации транскрипции (с информацией о множественных участках инициации).

• Нуклеотидные последовательности регуляторных единиц (промоторов, энхансеров, сайленсеров), взаимное расположение этих единиц, функции, тканевая специфичность, индуцибель-ность.

• Композиционные элементы, образованные группами синергично работающих сайтов.

• Сайты, входящие в состав регуляторных единиц, их нуклеотидные последовательности. Нук-леотиды, важные для функционирования сайта.

• Фактор, связывающийся с сайтом.

• Влияние фактора, связывающегося с сайтом, на транскрипцию.

• Характер экспрессии гена.

• Регуляторные единицы и сайты, ответственные за определенный характер экспрессии гена.

Следует отметить, что в TRRD указана локализация регуляторных элементов в нуклеотид-ных последовательностях, депонированных в базы данных EMBL/GenBank. Это позволяет пользователю формировать выборки регуляторных элементов всех уровней (промоторов, энхансеров, сайленсеров, сайтов связывания факторов транскрипции) с включением фланкирующих участков.

Для контроля качества вводимой в базу TRRD информации и ее стандартизации используются 33 словаря, содержащих более 4000 слов: названия факторов транскрипции, морфологические термины, названия стадий развития организмов, индукторов. Словари морфологических терминов (органы, ткани, клетки), индукторов и транскрипционных факторов организованы иерархически, в виде тезаурусов, что позволяет использовать их при построении системы сложных запросов [7].

В настоящее время в TRRD представлены данные о регуляторных областях примерно 2200 генов эукариот (главным образом позвоночных), включающие описание 3254 регуляторных единиц (промоторов, энхансеров, сайленсеров), 9480 сайтов связывания транскрипционных факторов, 13173 паттернов экспрессии описываемых генов. Эта информация получена при аннотировании более 7300 научных публикаций. С версией SRS базы данных TRRD можно ознакомиться по адресу: http://www.bionet.nsc.ru/trrd/.

Рассмотрим конкретный пример описания регуляторных районов и экспрессии генов в базе данных TRRD. На рис. 1 представлена схема регуляторных районов 5'-фланкирующей области гена интерлейкина IL-8 человека (номер доступа A00038), построенная на основе информации из базы TRRD. Продукция IL-8 быстро индуцируется широким кругом внешних стимулов, таких как IL-1, IL-2, фактор некроза опухолей (TNF), липо-полисахариды (LPS), продукты клеточного стресса и др. Экспрессия гена IL-8 в значительной степени регулируется на уровне транскрипции. Информация о гене IL-8, внесенная в базу TRRD, получена при аннотировании 152 публикаций. В базе TRRD этот ген идентифицируется 24 синонимичными названиями. Описано 365 паттернов экспрессии гена IL-8, изученных в 12 типах клеток и 84 клеточных линиях. В базе представлено

описание влияния на экспрессию гена ¡Ь-8 более 130 внешних факторов.

В данном районе выявлены три регуляторных единицы: сайленсерная область, которая находится на расстоянии более 6000 п.н. от участка инициации транскрипции (не приведена на рис. 1), промотор и индуцибельный район. В двух регуляторных единицах локализованы 16 сайтов связывания факторов транскрипции. Представлена информация о влиянии 12 из них на уровень транскрипции гена ¡Ь-8. Идентифицированы факторы, связывающиеся с 10 сайтами. Шесть из описанных сайтов образуют три композиционных элемента (на рис. 1 выделены серым цветом различной интенсивности). В базу внесена также информация о 90 паттернах экспрессии гена ¡Ь-8, для реализации которых необходимо функционирование пяти различных групп сайтов или отдельных сайтов. Большая часть таких сайтов находится в индуцибельном районе гена. На рис. 1 звездочками отмечены сайты AP-1 и №-кБ, образующие такую функциональную группу. Одновременное присутствие этих сайтов необходимо для активации транскрипции гена ¡Ь-8 различными стимулами, в частности, TNF-a, гипоксией, ацидозом, хлоридом кадмия. Таким образом, можно отметить, что в ограниченной по размеру области промотора гена ¡Ь-8 находится достаточно большое количество сайтов связывания транскрипционных факторов, различные комбинации которых обеспечивают многообразие вариантов экспрессии этого гена. Следует подчеркнуть, что данные, представленные в базе TRRD, могут быть привлечены для решения широкого круга задач молекулярной биологии и биотехнологии.

КОМПЬЮТЕРНЫЙ АНАЛИЗ И РАСПОЗНАВАНИЕ ПРОМОТОРОВ ПОЗВОНОЧНЫХ

Современные методы распознавания промоторов эукариот основаны, как правило, на анализе закономерностей расположения потенциальных сайтов связывания транскрипционных факторов [8, 20], а также на учете распределения олигонуклеотидных сигнал

Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.

Показать целиком