научная статья по теме RANDTRAN: ГЕНЕРАТОР НАБОРОВ СЛУЧАЙНЫХ ТРАНСКРИПТОВ, УЧИТЫВАЮЩИЙ ОСОБЕННОСТИ СТРОЕНИЯ МРНК В ТРАНСКРИПТОМАХ ЭУКАРИОТ Биология

Текст научной статьи на тему «RANDTRAN: ГЕНЕРАТОР НАБОРОВ СЛУЧАЙНЫХ ТРАНСКРИПТОВ, УЧИТЫВАЮЩИЙ ОСОБЕННОСТИ СТРОЕНИЯ МРНК В ТРАНСКРИПТОМАХ ЭУКАРИОТ»

МОЛЕКУЛЯРНАЯ БИОЛОГИЯ, 2014, том 48, № 5, с. 859-867

БИОИНФОРМАТИКА

УДК 577.2.0

RANDTRAN: ГЕНЕРАТОР НАБОРОВ СЛУЧАЙНЫХ ТРАНСКРИПТОВ, УЧИТЫВАЮЩИЙ ОСОБЕННОСТИ СТРОЕНИЯ мРНК В ТРАНСКРИПТОМАХ ЭУКАРИОТ

© 2014 г. Е. А. Борзов1*, А. В. Марахонов1, М. В. Иванов2, П. Б. Дроздова3, А. В. Баранова1, 24*, М. Ю. Скоблов125

Медико-генетический научный центр, Российская академия медицинских наук, Москва, 115478 Россия 2Московский физико-технический институт (государственный университет), Долгопрудный, 141700 Россия 3Кафедра генетики и биотехнологии Санкт-Петербургского государственного университета,

Санкт-Петербург, 199034 Россия 4School of Systems Biology, College of Science, George Mason University, Fairfax, VA 22030 USA 5Московский государственный медико-стоматологический университет", Москва, 127473 Россия

Поступила в редакцию 13.03.2014 г.

Принята к печати 09.04.2014 г.

Создание случайных и псевдослучайных контрольных последовательностей — важная проблема вычислительной биологии. Доступные генераторы случайных последовательностей используют те или иные вероятностные модели, об отличительных особенностях которых пользователь зачастую и не подозревает. В зависимости от выбранной модели, созданные наборы случайных последовательностей могут существенно отличаться друг от друга, а значит приводят к различиям в оценках теоретических частот встречаемости нуклеотидных мотивов. Кроме того, современные задачи компьютерной биологии часто требуют использования контрольных наборов последовательностей, по частоте встречаемости каждой последовательности и по своему строению не отличающихся от видо- или тканеспецифичных тран-скриптомов, где каждая последовательность содержит открытую рамку считывания, 5'- и З'-нетрансли-руемые области или представляет собой некодирующий транскрипт. В данной работе мы представляем RANDTRAN — принципиально новый инструмент для генерации случайных последовательностей, учитывающий как распределение длин 5'- и З'-нетранслируемых областей в изучаемом транскриптоме, так и видоспецифичный ди- и тринуклеотидный состав транслируемых и нетранслируемых участков. Наборы контрольных последовательностей, созданные с помощью RANDTRAN, представлены в формате, совместимом с геномным браузером UCSC. Перечисленные особенности RANDTRAN могут быть полезны при создании наборов контрольных последовательностей для компьютерного анализа мотивов в наборах последовательностей РНК. Свободный доступ к программе RANDTRAN предоставлен на странице http://www.generesearch.ru/images/Randtran.rar.

Ключевые слова: генерация случайных последовательностей, вероятностные модели, транскриптоми-ка, мотивы нуклетидных последовательностей.

RANDTRAN: RANDOM TRANSCRIPTOME SEQUENCE GENERATOR THAT ACCOUNTS FOR PARTITION SPECIFIC FEATURES IN EUKARYOTIC mRNA DATASETS, by E. A. Borzov1*, A. V. Marakhonov1, M. V. Ivanov2, P. B. Drozdova3, A. V. Baranova1'2 4*, M. Yu. Skoblov1'2 -^Research Centre for Medical Genetics, Russian Academy of Medical Sciences, Moscow, 115478 Russia, *e-mail: eborzov@generesearch.ru; abaranov@gmu.edu; 2Moscow Institute of Physics and Technology (State University), Dolgoprudny, Moscow Region, 141700 Russia; 'Department of Genetics and Biotechnology, St. Petersburg State University, St. Petersburg, 199 034 Russia; 4School of Systems Biology, College of Science, George Mason University, Fairfax, VA 22030 USA; 5Moscow State Medical and Dental University, Moscow, 127473 Russia).The generation of true random and pseudorandom control sequences is an important problem of computational biology. Available random sequence generators differ in underlying probabilistic models that often remain undisclosed to users. Random sequences produced by differing probabilistic models substantially differ in their outputs commonly used as baselines for evaluations of the motif frequencies. Moreover, modern bioinformatics studies often require generation of matching control transcriptome with emulated partitions into ORFs, 5'- and 3'-UTRs as well as the proportion of non-coding RNAs within model transcriptome rather than relatively simple continuous

* Эл. почта: eborzov@generesearch.ru; abaranov@gmu.edu

control sequences. Here we describe novel random sequence generating tool RANDTRAN that accounts for the length distribution of 5' and 3' non-translated regions in given transcriptome and the partition-specific di- and trinucleotide compositions in translated and non-translated regions. RANDRAN presents matching control transcriptomes in ready-to-use UCSC genome browser-compatible input files. These features may be useful for generating of control sequence sets for common types of computational analysis of various sequence motifs within various sets of RNA. RANDTRAN is available for free download at http://www.generesearch.ru/images/Randtran.rar.

Keywords: random sequence generation, probabilistic models, transcriptome, sequence motifs.

DOI: 10.7868/S0026898414050024

ВВЕДЕНИЕ

Одна из основных проблем компьютерного анализа транскриптомов, например исследований сайтов связывания регуляторов транскрипции, — большое число ложноположительных ответов [1]. Надежность предсказания обычно проверяют с помощью контрольного набора транскриптов, структурно соответствующих изучаемому тран-скриптому, но содержащих случайные последовательности нуклеотидов. Как правило, пользователи программ, создающих случайные последовательности, не получают информации о том, какой именно вероятностный алгоритм лежит в основе данной программы.

Простейший способ создания случайного набора транскриптов основан на генерации последовательностей с такой же частотой встречаемости каждого нуклеотида, как и в анализируемых последовательностях. Этот подход использован в программе RANDNA [2], в основе которой лежит генератор псевдослучайных чисел. Данная программа позволяет создавать относительно простые последовательности, в которых состав каждого динуклеотида определяется на основе частот отдельных нуклеотидов в исследуемой последовательности. Описанный подход не принимает во внимание отклонения в частотах динуклеотидов, например обеднение CpG [3]. Другой тип вероятностных алгоритмов основан на использовании цепей Маркова, которые позволяют создавать нуклеотидные последовательности, отражающие вероятность появления конкретного нуклеотида в каждом положении. В этом случае для каждого следующего положения вероятность появления конкретного нуклеотида зависит от нуклеотида или нуклеотидов, находящихся в предшествующих положениях. Применение Марковских моделей к задачам генерации случайных последовательностей стало значительным шагом вперед в улучшении общего качества предсказаний сайтов связывания белковых молекул в составе ДНК. Например, повторный расчет ожидаемых значений (re-values) встречаемости позиционных матриц весов (PWMs), рассчитанных для сайтов связывания транскрипционных факторов на основе данных по встречаемости динуклеотидов в гено-

мах позвоночных позволил выявить немало случаев, в которых корректно рассчитанные re-values значительно отличались от представленных в справочной таблице Matlnspector [4].

Другой пример подобного рода — модуль в составе пакета RSAT [5], позволяющий пользователю выбрать в качестве основы для генерации контрольного транскриптома набор последовательностей 5'-нетранслируемых областей для нужного организма и даже порядок марковской цепи (от 0 до 7). Последняя версия этого программного продукта, RSAT 2011, позволяет использовать модели Маркова или Бернулли, определяет статистическую значимость предсказаний и позволяет пользователю создавать наборы последовательностей для положительного контроля путем вставки сайтов связывания транскрипционных факторов в случайных положениях как в реальные, так и в случайные контрольные последовательности [6]. RSAT 2011 также позволяет пользователю работать с собственными моделями, представленными в формате так называемого олиго-анализа [7], но не предоставляет возможность использования уже готовых транскриптомов, по своей структуре и частоте встречаемости соответствующих последовательностям, составляющим исследуемый тран-скриптом. Последняя задача особенно важна, поскольку современные требования к анализу транскриптомов требуют контрольных наборов РНК, в которых каждая искусственная последовательность содержит открытую рамку считывания и 5'- и 3'-об-ласти заранее заданной длины, а не просто набор контрольных последовательностей, соответствующих каждому из этих участков мРНК по отдельности.

Разработанный нами RANDTRAN — новый инструмент для генерации случайных последовательностей, учитывает сложную структуру эукариотиче-ских транскриптов, в частности, отличия нуклео-тидного состава транслируемых и нетранслируемых областей. RANDTRAN принимает во внимание, что в процессе эволюции геномов некодирующие (5'-UTR, 3'-UTR, ncRNA) и кодирующие (CDS) участки молекул РНК подвергались отбору разной силы, что привело к различиям ди- и тринук-леотидного состава этих участков РНК. Кроме то-

го, RANDTRAN создает наборы случайных последовательностей в соответствии с распределением длин мРНК в транскриптоме, предоставленном пользователем. Эта особенность программы RANTRAN позволяет учесть наблюдение, что для каждого вида живых организмов и каждой ткани наборы мРНК имеют специфичные распределения длин молекул. Указанные возможности программы RANTRAN полезны для создания контрольных наборов последовательностей, необходимых для решения современных задач компьютерной биологии.

МАТЕРИАЛЫ И МЕТОДЫ

Наборы последовательностей и сравнительный анализ существующих алгоритмов генерации случайных последовательностей. Данные о последовательностях промоторов Saccharomyces cerevisiae получены с помощью RSAT [6]. Промоторные участки в виде фрагментов, прилегающих к стартовым кодонам генов дрожжей и имеющих размер 300 п.н.; для остальных параметров сохранены значения по умолчанию. Профили сайтов связывания транскрипционных факторов S. cerevisiae получены из базы данных JAS PAR [8]. F-значения, соответствующие частотам встречаемости сайтов

Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.

Показать целиком