научная статья по теме РЕГУЛЯТОРНАЯ ГЕНОМИКА – ЭКСПЕРИМЕНТАЛЬНО-КОМПЬЮТЕРНЫЕ ПОДХОДЫ Биология

Текст научной статьи на тему «РЕГУЛЯТОРНАЯ ГЕНОМИКА – ЭКСПЕРИМЕНТАЛЬНО-КОМПЬЮТЕРНЫЕ ПОДХОДЫ»

УДК 575.113

РЕГУЛЯТОРНАЯ ГЕНОМИКА -ЭКСПЕРИМЕНТАЛЬНО-КОМПЬЮТЕРНЫЕ ПОДХОДЫ

© 2015 г. Е. В. Игнатьева1, 2, О. А. Подколодная1, Ю. Л. Орлов1, 2, Г. В. Васильев1, Н. А. Колчанов1, 2

Институт цитологии и генетики Сибирского отделения Российской академии наук, Новосибирск 630090 2Новосибирский национальный исследовательский государственный университет, Новосибирск 630090

e-mail: eignat@bionet.nsc.ru Поступила в редакцию 20.10.2014 г.

Настоящий обзор посвящен описанию экспериментально-компьютерных подходов к исследованию механизмов регуляции транскрипции и организации регуляторных районов генов эукариот, включая: а) изучение факторов, определяющих величину аффинности взаимодействия ТАТА-бок-сов к TBP (TATA-binding protein); б) исследование закономерностей распределения маркеров хроматина и их вклада в уровень экспрессии генов; в) изучение трехмерной структуры хроматина; г) анализ влияния нуклеотидных замен на экспрессию генов с использованием методов ChIP-seq и DNase-seq в рамках полногеномных экспериментов. Показано, что именно экспериментально-компьютерным подходам принадлежит ключевая роль в формировании современных представлений о механизмах регуляции транскрипции и структурно-функциональной организации регулятор-ных районов, контролирующих этот процесс.

DOI: 10.7868/S0016675815040062

В последнее десятилетие в геномных исследованиях произошла технологическая революция. Стремительно снижается стоимость расшифровки геномов на основе технологий секвенирова-ния нового поколения (NGS), что привело к расшифровке десятков тысяч геномов различных видов эукариот и бактерий [1, 2]. NGS технологии широко применяются также для изучения изменчивости генома человека: на их основе реализован такой крупномасштабный проект как "1000 геномов", в рамках которого выявлено ~20 млн новых однонуклеотидных замен, ~1 млн коротких деле-ций/инсерций, ~7000 крупных делеций [3].

На смену методам анализа транскриптома с помощью экспрессионных микрочипов приходят методы секвенирования полных транскриптомов клеток и тканей (RNA-Seq), дающие существенно более точные оценки уровня экспрессии тран-скриптов. Растет количество данных, полученных с использованием новых высокопроизводительных методов: CAGE, SAGE, RNA-PET и RNA-Seq для идентификации стартов транскрипции; ChIP-seq (хроматин-иммунопреципитация) для анализа модификаций гистонов и связывания хроматина с транскрипционными факторами; DNase-seq для выявления сайтов гиперчувствительности, соответствующих открытому хроматину, и др.

Эти и другие методы получения качественно новых знаний о транскрипционном уровне регуляции активности генов способствовали бурному

развитию исследований в области регуляторной геномики и накоплению огромных объемов экспериментальных данных высокой сложности, понимание которых возможно только при тесной интеграции экспериментальных и биоинформа-тических подходов, новых информационных технологий, методов компьютерного анализа и математического моделирования.

Постоянно растущий интерес к изучению механизмов транскрипционного контроля экспрессии генов объясняется тем, что транскрипция является ключевым событием, инициирующим сложный многостадийный процесс экспрессии генов эукариот, включающий помимо транскрипции такие этапы, как процессинг РНК, трансляция, посттрансляционная модификация белка и т.д.

Настоящий обзор посвящен описанию экспериментально-компьютерных подходов к исследованию механизмов регуляции транскрипции, а также организации регуляторных районов генов эукариот. Будут рассмотрены результаты экспериментально-компьютерных работ в различных областях регуляторной геномики, включая: а) исследование характеристик ТАТА-боксов, определяющих величину аффинности TBP (TATA-binding protein), инициирующего сборку прединициа-ционного транскрипционного комплекса (ПИК); б) изучение закономерностей распределения маркеров хроматина и их вклада в уровень экспрессии генов; в) экспериментальные и теорети-

2

409

ческие подходы к исследованию трехмерной структуры хроматина; г) анализ влияния нуклео-тидных замен на экспрессию генов с использованием методов ChIP-seq и DNase-seq в рамках полногеномных экспериментов. Как будет показано в обзоре, именно экспериментально-компьютерным подходам принадлежит ключевая роль в формировании новых представлений о механизмах регуляции транскрипции и структурно-функциональной организации регуляторных районов, контролирующих этот процесс.

МЕТОДЫ ИССЛЕДОВАНИЯ РЕГУЛЯТОРНЫХ РАЙОНОВ, КОНТРОЛИРУЮЩИХ ТРАНСКРИПЦИЮ, ОСНОВАННЫЕ НА ВЫСОКОПРОИЗВОДИТЕЛЬНОМ СЕКВЕНИРОВАНИИ

Все современные подходы, применяемые для решения задач регуляторной геномики, опираются на технологии высокопроизводительного секвени-рования ДНК второго либо третьего поколения. Радикально снизив стоимость ресеквенирования геномов, эти технологии дали возможность перевода в полногеномный формат методов изучения регу-ляторных геномных последовательностей, контролирующих процессы транскрипции генов.

Метилирование ДНК

Основным инструментом исследования статуса метилирования ДНК, играющего важную роль в регуляции транскрипции и эпигенетическом программировании геномов, является бисуль-фитное секвенирование, заключающееся в обработке ДНК бисульфитом натрия с последующим секвенированием геномного материала и компьютерным выравниванием полученных последовательностей на референсный геном [4]. Метод позволяет различать метилированные и немети-лированные цитозины, зачастую давая заметный разброс в оценке экспериментальных данных [5]. Поэтому находят применение и другие методы, основанные на использовании рестрикционных ферментов, чувствительных к метилированным цитозинам [6], либо антител, специфичных к метилированной ДНК [7]. Представляет интерес комбинирование методов бисульфитного секве-нирования и иммунопреципитации хроматина (ChIP-seq) [8].

Иммунопреципитация хроматина

Иммунопреципитация хроматина (ChIP-seq — Chromatin Immuno Precipitation) с последующим секвенированием — распространенный метод выявления ДНК-белковых взаимодействий в хроматине, основанный на обработке клеток формаль-

дегидом, приводящей к образованию ковалент-ных сшивок между ДНК и белками [9]. Обработанный ядерный хроматин дробится на фрагменты длиной 250—500 пн (рис. 1). Затем с помощью антител, специфичных к целевым белкам, выделяются сшитые ДНК-белковые комплексы; далее ДНК выделяется из комплексов и секвенируется.

Существенной частью этого подхода является компьютерный анализ результатов секвенирова-ния (рис. 1). Компьютерное картирование секве-нированных последовательностей ДНК на геном представляет собой достаточно объемную задачу биоинформатики, требующую соответствующих вычислительных ресурсов [10], использования различных форматов платформ секвенирования, в том числе форматов цветовой кодировки SOLiD [11].

Однозначность картирования представляет отдельную проблему анализа данных. Пример затруднений — картирование фрагментов ДНК в генах, для которых известны псевдогены. Существует понятие "картируемости" (mappablity) как свойства нуклеотидных последовательностей хромосом в геноме, определяемое однозначностью расположения коротких последовательностей заданной длины [12]. Для каждой длины последовательности ДНК существует своя "уникома" — например, для фрагментов размером 50 нуклеотидов некартируемых участков гораздо меньше, чем для фрагментов длиной 25 нуклеотидов. Существуют готовые разметки — профили "уникальности" для нескольких референсных геномов, в частности геномов человека и мыши [12].

Используя координаты секвенированных фрагментов ДНК на хромосомах референсного генома, строится численный профиль ChIP-seq, определяются его пики. Высота пика измеряется количеством выравниваний секвенированных фрагментов ДНК в соответствующей точке генома. Качество сигнала связывания белка с ДНК в профиле ChIP-seq оценивается через отношение числа специфичных фрагментов ДНК (связанных с белком) в рассматриваемой точке генома к числу неспецифичных фрагментов, полученных в контрольном эксперименте ChIP-seq с использованием в качестве антител иммуноглобулина IgG или GFP, не имеющих специфического связывания с ДНК [13].

Выделение пиков в профиле ChIP-seq требует специализированных компьютерных программ, ориентированных на конкретную задачу, в зависимости от а) технологий секвенирования (коррекция на специфические ошибки), б) размера и особенностей эукариотического генома (наличие повторенных последовательностей, детали аннотации). Секвенирование фрагментов ДНК может выполняться не только с одного, но и с двух концов (с использованием технологии PET — Paired

Фиксация формальдегидом

Ядро клетки

Дефрагментация хроматина

Ч

'ГТтГр

Иммунопреципитация антителами связанных фрагментов ДНК

¿J

/7

Удаление белковой фракции, секвенирование

ÎT

Ф

Картирование на референсный геном

Определение положения фрагментов ДНК на хромосоме

5'

Расчет ChIP профиля, определение пиков Пики профиля

Поиск мотивов связывания в нуклеотидных последовательностях пиков

GGAGCACGTGGTT

TGCCACGTGGTT

Рис. 1. Схема эксперимента ChIP-seq и анализа геномных профилей.

End Tags), позволяя более точно картировать сайты связывания транскрипционных факторов (ТФ) [14, 15], что требует специальных программ для одновременного картирования пар прочтений [16].

Для оценки качества сигнала связывания в профиле ChIP-seq и выделения набора пиков с использованием контрольных профилей разработан ряд компьютерных программ: GLITR, MACS, HPeak, PeakFinder, GLITR, QuEST, CisGe-nome, USeq и PICS [13, 17].

Программа MACS [17] использует фрагменты ("риды") в противоположных ориентациях, чтобы определить так называемый размер сдвига — близость между "ридами", содержащими сайты связывания. Преимуществом MACS является локальное моделирование "шумового" или контрольного секвенирования с помощью распределения Пуассона по участкам хромосом.

Для картирования фрагментов ДНК на геном используются программы MAQ (Mapping and Assembly with Quality), SOAP (Short Oligonucleotide

Alignment Packet) [18], ELAND. Программа ELAND ориентирована на стандарт данных, пол

Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.

Показать целиком