научная статья по теме ДИЗАЙН МЕТОДА БИСУЛЬФИТНОГО СЕКВЕНИРОВАНИЯ ОГРАНИЧЕННЫХ НАБОРОВ ГЕНОМНЫХ ЛОКУСОВ (RRBS) ДЛЯ АНАЛИЗА МЕТИЛИРОВАНИЯ CPG-ОСТРОВКОВ ЧЕЛОВЕКА В БОЛЬШИХ ВЫБОРКАХ Биология

Текст научной статьи на тему «ДИЗАЙН МЕТОДА БИСУЛЬФИТНОГО СЕКВЕНИРОВАНИЯ ОГРАНИЧЕННЫХ НАБОРОВ ГЕНОМНЫХ ЛОКУСОВ (RRBS) ДЛЯ АНАЛИЗА МЕТИЛИРОВАНИЯ CPG-ОСТРОВКОВ ЧЕЛОВЕКА В БОЛЬШИХ ВЫБОРКАХ»

БИОИНФОРМАТИКА

УДК 577.2.08

ДИЗАЙН МЕТОДА БИСУЛЬФИТНОГО СЕКВЕНИРОВАНИЯ ОГРАНИЧЕННЫХ НАБОРОВ ГЕНОМНЫХ ЛОКУСОВ (RRBS) ДЛЯ АНАЛИЗА МЕТИЛИРОВАНИЯ CpG-ОСТРОВКОВ ЧЕЛОВЕКА

В БОЛЬШИХ ВЫБОРКАХ

© 2015 г. А. С. Танас1' 2, 3, Е. Б. Кузнецова1, 2, М. Э. Борисова4, В. В. Руденко1, 2, Д. В. Залетаев1' 2' 3, В. В. Стрельников1' 2, 3*

Медико-генетический научный центр, Москва, 115478 2Первый Московский государственный медицинский университет им. И.М. Сеченова Министерства здравоохранения Российской Федерации, Москва, 119991 3Российский национальный исследовательский медицинский университет им. Н.И. Пирогова Министерства

здравоохранения Российской Федерации, Москва, 117997 4Institute of Molecular Biology in Mainz, 55128 Germany Поступила в редакцию 30.10.2014 г.

Принята к печати 12.01.2015 г.

Метод бисульфитного секвенирования ограниченных наборов геномных локусов (RRBS) разработан для анализа метилирования геномов и основан на высокопроизводительном параллельном секвенирова-нии геномных библиотек, обработанных бисульфитом натрия. В отличие от полногеномного подхода, для подготовки библиотек RRBS использованы специфические рестрикционные эндонуклеазы, формирующие пулы CpG-богатых фрагментов ДНК. Оригинальная технология RRBS, основанная на использовании библиотек MspI, позволяет повысить относительную представленность CpG-островков в се-квенируемых пулах геномных фрагментов в сравнении с полногеномным бисульфитным секвенировани-ем. Тем не менее, широкого распространения эта технология не получила вследствие высокой себестоимости относительно бисульфитного анализа метилирования на гибридизационных микрочипах и значительного остаточного объема данных, представленных последовательностями геномных повторов, которые осложняют картирование и не представляют особого интереса с точки зрения разработки маркеров метилирования ДНК, что зачастую является основной целью биомедицинских исследований. Нами разработан алгоритм оценки принадлежности сайтов узнавания эндонуклеаз рестрикции последовательностям CpG-островков и предложен способ эффективного сокращения размера библиотеки RRBS без значительной потери CpG-островков, основанный на использовании для подготовки библиотек эндонуклеазы XmaI. In silico определено, что оптимальный спектр длин фрагментов для подготовки библиотеки XmaI-RRBS находится в пределах 110—200 п.н. При секвенировании такой библиотеки возможно получение данных о состоянии более 125000 CpG-пар, из которых более 90000 находятся в составе CpG-островков.

Ключевые слова: метилирование ДНК, бисульфитное секвенирование, геномное секвенирование, RRBS.

REDUCED REPRESENTATION BISULFITE SEQUENCING (RRBS) DESIGN FOR THE ASSESSMENT OF HUMAN CpG ISLANDS METHYLATION IN LARGE SAMPLES, by A. S. Tanas1' 2 3, E. B. Kuznetsova1'2, M. E. Borisova4, V. V. Rudenko1'2, D. V. Zaletayev1'2'3, V. V. Strelnikov1'2'3* (1 Research Centre for Medical Genetics, Moscow, 115478 Russia; 2Sechenov First Moscow State Medical University, Moscow, 119991 Russia, *e-mail: vstrel@mail.ru; 3 Pirogov Russian National Research Medical University, 117997 Russia; 4 Institute of Molecular Biology in Mainz, 55128 Germany). The reduced representation bisulfite sequencing (RRBS) method has been developed for the high-throughput analysis of DNA methylation based on the sequencing of genomic libraries treated with sodium bisulfite by next-generation approaches. In contrast to the whole genome sequencing the RRBS approach elaborates specific endonucleases for the preparation of the libraries, in order to produce pools of CpG-rich DNA fragments. The original RRBS technology, based on the use of the MspI libraries, allows increasing relative number of CpG-islands in the pools of genomic fragments as compared to the whole genome bisulfite sequencing. Nevertheless, this technology is rarely used

* Эл. почта: vstrel@list.ru

11

689

due to the high cost in comparison with bisulfite methylation analysis with hybridization microarrays and significant residual amount of data represented by the sequences of genomic repeats that complicates the alignment and is not of particular interest for developing DNA methylation markers, which is often the main goal of the biomedical research. We have developed an algorithm to estimate the likelihood of the restriction endonucleases recognition sites to be represented in the CpG islands and present a method of reducing the effective size of the RRBS library without a significant loss of the CpG islands, based on the use of the Xmal endonuclease for the library preparation. In silico analysis demonstrates that the optimum range of the Xmal-RRBS fragment lengths is 110—200 base pairs. Sequencing of such a library provides assessment of the methylation status of over 125000 CpG dinucleotides, of which over 90000 belong to the CpG islands.

Keywords: DNA methylation, bisulfite sequencing, next generation sequencing, RRBS. DOI: 10.7868/S0026898415040187

Современные методы изучения метилирования ДНК на уровне генома предполагают использование одной из двух технологических платформ высокопроизводительного анализа нуклеотид-ных последовательностей — гибридизации ДНК на микрочипах, либо параллельного клонального секвенирования ДНК. Вследствие причин исторического характера, гибридизационные микрочипы остаются наиболее популярной платформой геномного анализа метилирования ДНК. Знакомые пользователям протоколы гибридизации на микрочипах, простая система анализа данных, а также сравнительно низкие затраты по сравнению с секвенированием позиционировали микрочипы как инструмент, удобный для изучения дифференциально метилированных областей на основе анализа статуса метилирования известных CpG сайтов генома человека. Тем не менее гибридизационной платформе присущ целый ряд внутренних проблем и ограничений, которые снижают достоверность результатов и требуют подтверждения данных с использованием альтернативных методов [1].

В настоящее время наиболее популярны ги-бридизационные платформы для геномного анализа метилирования ДНК Illumina Infinium Human Methylation27 BeadChip (НМ27) и Illumina Infinium Human Methylation450 BeadChip (НМ450). Платформа НМ450 рассчитана на анализ состояния метилирования 482421 CpG-динуклеотидов и покрывает 99% генов RefSeq (в среднем по 17 CpG-динуклеотидов на ген), HM27 содержит зонды для анализа 27578 CpG-динуклеотидов. Анализ результатов, полученных при использовании платформ НМ27 и НМ450 в рамках комплексного проекта по молекулярному профилированию рака молочной железы [2], выявил значительные расхождения, связанные как с групповым эффектом, так и с техническими различиями платформ. В исследовании рассмотрены только зонды, представленные в обеих платформах (N = 25014). Из этого списка удалены зонды, результаты экспериментов по которым нельзя было проанализировать (около

20%). Из оставшихся половину отсеяли в связи с выраженным групповым эффектом (batch effect), затем 90% — на основании расхождений результатов в разных платформах. В итоге эффективное количество CpG-динуклеотидов в работе составило 574 [2].

Результаты исследований, опубликованные в 2013 г. [3, 4], указывают на необходимость осторожной интерпретации результатов анализа дифференциального метилирования ДНК, полученных с использованием гибридизационных чипов, в частности Illumina Infinium HumanMethylation 450 BeadChip. В то же время растет технологическая и ценовая доступность методов высокопроизводительного секвенирования, которые открывают новые возможности в области эпигеномного анализа. В отличие от гибридизации на микрочипах, секвенирование позволяет исследовать метилирование ДНК любых организмов, для которых известны референсные геномные последовательности. Оно способно одновременно выявлять как генетические мутации, так и эпигенетические модификации и не ограничено рамками заранее определенных геномных локусов, что в совокупности может превратить его в предпочитаемый метод, несмотря на все еще более низкую стоимость гибридизационных подходов [1].

Для повышения информативности и надежности анализа метилирования ДНК высокопроизводительным параллельным секвенированием разработан метод бисульфитного секвенирова-ния ограниченных наборов локусов (Reduced Representation Bisulfite Sequencing — RRBS) [5]. В отличие от полногеномного подхода, для подготовки библиотек RRBS используются специфические эндонуклеазы рестрикции, формирующие пул CpG-богатых фрагментов ДНК, что позволяет значительно сократить секвенируемую фракцию генома и обогатить ее наиболее информативными последовательностями ДНК. В оригинальном варианте метода в качестве такой эндонуклеазы используют нечувствительный к метилированию CpG-динуклеотида фермент MspI (сайт узнавания

Рис. 1. Рассматриваемые программой ReMark последовательности в случае неоднозначного сайта ARYG (R = A или G; Y = T или C).

CACGG). Такой подход позволяет обогатить библиотеку CpG-богатыми фрагментами геномной ДНК [5]. Теоретически, метод RRBS, по сравнению с полногеномным бисульфитным секвени-рованием [6], более приемлем для масштабного изучения маркеров дифференциального метилирования ДНК, характеризующих эпигенетические процессы в организме в норме и при патологии. Перспектива использования RRBS наиболее очевидна при разработке маркеров диагностики злокачественных новообразований, поскольку аномальное метилирование ДНК — один из важнейших классов молекулярно-генетической патологии при раке [7, 8]. В то же время для проведения такого рода исследований на больших выборках клинического материала необходима разработка экономичного подхода, который обеспечил бы эффективное сокращение размера библиотеки RRBS при максимальном сохранении информативности, без значительной потери CpG-островков.

ЭКСПЕРИМЕНТАЛЬНАЯ ЧАСТЬ

Нуклеотидные последовательности генома человека. В качестве материала для компьютерного моделирования экспериментов RRBS использована последовательность генома человека hg19, GRCh37 Genome Reference Consortium в файлах формата FASTA [9]. Разметка повторяющихся последовательностей генома и CpG-островков заг

Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.

Показать целиком