научная статья по теме CPАВНИТЕЛЬНЫЙ АНАЛИЗ УЧАCТКОВ CВЯЗЫВАНИЯ БЕЛКОВ-PЕГУЛЯТОPОВ ТPАНCКPИПЦИИ В PАННЕМ PАЗВИТИИ DROSOPHILA MELANOGASTER, ОПPЕДЕЛЕННЫX МЕТОДОМ CHIP-CHIP, И ВЫЧИCЛИТЕЛЬНО ПPЕДCКАЗАННЫX КЛАCТЕPОВ CАЙТОВ CВЯЗЫВАНИЯ ЭТИX БЕЛКОВ Биология

Текст научной статьи на тему «CPАВНИТЕЛЬНЫЙ АНАЛИЗ УЧАCТКОВ CВЯЗЫВАНИЯ БЕЛКОВ-PЕГУЛЯТОPОВ ТPАНCКPИПЦИИ В PАННЕМ PАЗВИТИИ DROSOPHILA MELANOGASTER, ОПPЕДЕЛЕННЫX МЕТОДОМ CHIP-CHIP, И ВЫЧИCЛИТЕЛЬНО ПPЕДCКАЗАННЫX КЛАCТЕPОВ CАЙТОВ CВЯЗЫВАНИЯ ЭТИX БЕЛКОВ»

БИОФИЗИКА, 2008, том 53, вып.5, c.754-757

МОЛЕКУЛЯР НАЯ БИОФИЗИКА =

УДК 577.3

CP АВНИТЕЛЬНЫЙ АНАЛИЗ УЧАСТКОВ СВЯЗЫВАНИЯ БЕЛКОВ-РЕГУЛЯТОРОВ ТРАНСКРИПЦИИ В РАННЕМ РАЗВИТИИ Drosophila melanogaster, ОПРЕДЕЛЕННЫХ МЕТОДОМ СЫР-chip, И ВЫЧИ СЛИТЕЛЬНО ПР ЕДСКАЗАННЫХ КЛАСТЕР ОВ САЙТОВ

СВЯЗЫВАНИЯ ЭТИХ БЕЛКОВ

© 2008 г. М .С. Полищук, А. Хайнцель*, А.В. Фаворов**, Ю.В. Макеев**

Институт молекулярной биологии РАН, Москва, 119991, ул. Вавилова, 32;

*Technical Universität Hagenberg, Hagenberg, Austria;

**Государственный научный центр ГосНИИГенетика, Москва, 117545, 1-й Дорожный пр., 1.

E-m ail: р1. m aya@gm ail. сот Поступила в p едакцию

Для шести белков-регуляторов транскрипции pаннего эмбрионального pазвития Drosophila melanogaster рассмотрены сегменты ДНК, в которых было отмечено значимое связывание этих белков методом иммунопреципитации хроматина с последующим о саждением на матрице (ChlP-сЫр). В этих участках р ассмотрены районы повышенной плотности теор етически пр ед-сказанных сайтов связывания этих белков ДНК. Такое сопоставление экспериментальных и теоретических данных проведено для всевозможных попарных комбинаций упомянутых факторов. Показано, что в хр омосоме 2R интенсивность данных, полученных методом ChIP-сЫр, достовер но различается вне и внутр и идентифицированных кластер ов. Сравнение экспериментальных данных во всевозможных попарных комбинациях факторов показало, что несмотря на сложности, связанные с большим шумом в сигнале ChlP-сЫр, во многих случаях удается выявить сильную тенденцию определенных групп факторов к связыванию в одних и тех же областях ДНК, что хорошо согласуется с данными об их функциональной связи. Таким обр азом, сравнение данных ChlP-сЫр с анализом последовательностей может позволить выделять функционально связанные регулято рные подсистемы даже в случае существенно менее изученных систем, чем система раннего эмбрионального развития D. melanogaster.

Ключевые слова: ChIP-сЫр, PatternClust, кластер, Drosophila melanogaster, тест Манна-Уитни.

Система ранней регуляции раннего эмбрионального развития Drosophila melanogaster является классической системой для изучения комбинаторной регуляцией экспрессии генов высших эукариот [1]. Особенно удобна регулятор-ная подсистема, управляющая формированием парасегментов развивающейся личинки насекомого [2]. Для этой системы характерно малое число взаимодействующих фактор ов [2], сложность регуляторных районов генов, включающих по нескольку цис-регулятор ных элементов [3], а также сложную картину переключения экспрессии генов в зависимости от концентр а-ции регуляторных факторов в окрестностях данного клеточного ядра [1]. В результате небольшое число взаимодействующих регуляторных факторов оказывается в состоянии создать

Cокpащения: ЦРМ - цис-регуляторные модули, ФРТ -факторы регуляции транскрипции, CФPТ - сайты связывания Ф РТ.

сложную кар тину сегментации р азвивающейся личинки.

Изучение этой системы показало, что цис-регуляторные модули (ЦРМ), отвечающие на наличие опр еделенных фактор ов р егуляции тр анскрипции (Ф РТ), обычно содержат большое количество коротких (7-10 пар о снований) сайтов связывания этих Ф РТ (СФ РТ) [3-5], что позволило достаточно успешно предсказывать местонахождение этих ЦРМ биоинформатиче-скими методами [6]. В то же время недавно было закончено исследование по полногеномному опр еделению СФ РТ этих факторов методами иммунопр еципитации хр оматина с последующей гибридизацией на микрочипах [7]. Поскольку считается, что сигнал иммунопреципитации усиливается при наличии большого количества возможных СФРТ в пределах одного фрагмента соницированной ДНК [8], представляется р азумным, что кластер ы СФ РТ в пределах ЦРМ будут давать сильные сигналы в

ChIp-chip эксперименте, и таким образом цис-регуляторные модули, зависимые от конкретного фактора регуляции транскрипции, будут непоср едственно выявляться экспериментально. Ряд очень показательных пр имеров такого рода приведен в работе [7]. Однако в этой работе не было проведено непосредственного сравнения сегментов ДНК, выявленных в результате анализа ChIP-сЫр данных с кластерами СФ РТ для соответствующих фактор ов р егуляции транскрипции. Данная работа была предпринята, чтобы восполнить этот пробел.

МАТЕРИАЛЫ И МЕТОДЫ

Были рассмотрены данные по связыванию шести белков-регуляторов: Вс<1, Cad, Gt, Hb, Kni, Kr на хромосоме 2R D. melanogaster, содержащей большое число энхансеров, зависящих от этих фактор ов согласно [9]. Для каждого из этих белков известны наборы сайтов связывания факторов регуляции транскр ипции, распознаваемые ими в последовательности ДНК [3]. По этим набор ам были построены матрицы позиционных частот согласно [10]. С помощью матрицы позиционных частот СФ РТ были размечены на последовательности хромосомы [http://flybase.bio.indiana.edu/annot/dmel-release4. html] и собраны в кластеры использованием пр ограммы PatternClust [11]. Алгоритм, реализованный в PatternClust, маркирует в качестве кластер ов СФ РТ участки, на которых было обнаружено статистически маловероятное количество сайтов связывания. Для оценки статистической значимости участки хромосомы, содержащие конкретное число сайтов связывания, сравниваются по длине со случайными последовательностями, подчиняющимися случайному пуассоновскому процессу с дискретным временем. Длина таких последовательностей распределена в соответствии с кумулятивным обр атным биномиальным распределением вероятностей. Последовательности с наименьшими вероятностями длин отбираются в качестве искомых кластер ов. В настоящем исследовании PatternClust запуска с априорной вероятностью сайта связывания 0,001 для всех шести факторов.

Данные результатов ChIP-сЫр были взяты из базы данных Berkeley Drosophila TransCTip-tion Network Projert (BDNTP), согласно [7]. Из различных вариантов статистической обработки результатов гибридизации был выбран стандартный вариант с 1% FDR log(S/R) отношения в окне 675 пар о снований.

Затем проводилось сравнение среднего уровня тех сигналов, которые находятся внутри

кластер ов, найденных PatternClust [11], и тех, которые о стались вне кластеров. Для каждого сочетания разметки кластеров и данных ChlP-chip последние классифицировались на две выборки: сигналы вне и внутри кластер ов. Эти выборки сравнивались, и значимость нулевой гипотезы о том, что обе выборки были порождены из одного распределения, оценивалась с помощью U-теста Манна-Уитни. И сходный код для реализации этого статистического кр и-терия был взят из «Библиотеки алгоритмов» [12]. Pазличие уровней сигнала считалось значимым, если U-тест показывал р < 0,002 для двухсторонней статистики. Такой уровень значимости позволяет при необходимости внести поправку Бонферрони на 36 гипотез, оставаясь в диапазоне разумных значений P-value.

РЕЗУЛЬТАТЫ

Полученные результаты пр едставлены в таблице. Достоверные различия уровня сигнала вне и внутри кластеров наблюдались для многих пар «теор етический профиль-р езультат ChIP-сЫр». Неожиданно оказалось, что наивно ожидаемый результат : «одноименные пары дают достоверный положительный эффект, а эффект для остальных, перекрестных пар слабее или отсутствует вовсе» - очень далек от наблюдаемого. Вычислительно идентифицир ованные кластеры сайта Bcd достоверно выделяют области более сильного сигнала ChIP-сЫр по всем шести фактор ам. Почти так же ведет себя разметка кластер ов К r, кроме того, что она не коррелированна с результатами ChIP-сЫр по Kni и по самому К r. Кластеры же Kni коррелированны достоверно только с результатами ChIP-сЫр по К r. Cad и Н b ведут себя примерно, как можно ожидать «из наивных соображений», разве что корреляция кластеров Нb с результатами экспер имента по Bcd не хуже, чем для собственно Н b. Кластеры Gt дают достоверную антикорреляцию с результатами ChIP-сЫр по Gt и положительную, хотя и несколько более слабую, - с Kni.

ОБCУЖДЕНИЕ PЕЗУЛЬТАТОВ

Мы представили здесь только результаты по хромосоме 2R. Pезультаты были получены и по всем другим хромосомам, они не противоречат полученным на хромосоме 2R, но их статистическая значимость недостаточна. Возможно, это связано с меньшим количеством регуляторных энхансеров, зависящих от исследуемых факторов, расположенных на других хромосомах. Возможно также, что использованное сочетание пар аметров для предсказания

756

ПОЛИЩУК и др.

Достовер ность по и-тесту Манна-Уитни и знак различия ср еднего экспериментального сигнала в данных СЫР-сЫр по шести различным факторам вне и внутр и кластер ов, вычислительно размеченных на хромосоме 2Я др озофилы по позиционно-весовым матрицам, описывающих ДНК-сайты связывания этих же фактор ов

Хромосома 2R Белок, связывавшийся в эксперименте ^Ш-сЫр

PWM для

поиска Bcd Cad Gt НЬ Kni

кластеров

Bcd < 0,0001 < 0,0001 < 0,0001 < 0,0001 < 0,0001 < 0,0001

Ccd 0,11 < 0,0001 < 0,00016 < 0,0001 0,00015 0,0015

Gt 0,90 inv 0,047 inv < 0,0001 inv 0,38 inv 0,00047 0,029 inv

НЬ < 0,0001 0,00039 0,049 < 0,0001 0,85 inv 0,0025

Kni 0,26 inv 0,13 inv 0,32 inv 0,97 0,35 inv < 0,0001

Кг < 0,0001 < 0,0001 < 0,0001 < 0,0001 0,27 0,0049

Примечания. Данные, приведенные в строках, соответствуют профилям, которые были использованы для разметки сайтов при поиске кластеров. Данные в столбцах соответствуют различным факторам и, соответственно, различным СЫ1Р-сЫр данным. В каждой ячейке показан р-уа1ие нулевой гипотезы. Метка «ту» означает обратный эффект (среднее значение сигнала вне кластеров оказалось выше, чем внутри). Для общности, мы показываем независимо от значимости эффекта. Числа, набранные полужирным шрифтом, означают, что различие недостоверно (р > 0,001).

кластер ов дает менее удачные результаты на других хромосомах. К роме того, возможно, что качество экспер иментальных данных ChIP-сЫр варьир ует от хр омосомы к хр омосоме. Впрочем, введение поправки Бонферрони на число хр о-мосом (т. е. утвер ждение, что нам просто случайно повезло с хромосомой) оставляет представленные результаты значимыми.

Как известно, все изученные факторы регуляции транскрипции часто встречаются в пределах одних и тех же

Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.

Показать целиком