научная статья по теме ВЕБ-СЕРВЕР ДЛЯ ПРЕДСКАЗАНИЯ MIРНК, ИХ ПРЕДШЕСТВЕННИКОВ И САЙТОВ СВЯЗЫВАНИЯ Биология

Текст научной статьи на тему «ВЕБ-СЕРВЕР ДЛЯ ПРЕДСКАЗАНИЯ MIРНК, ИХ ПРЕДШЕСТВЕННИКОВ И САЙТОВ СВЯЗЫВАНИЯ»

МОЛЕКУЛЯРНАЯ БИОЛОГИЯ, 2015, том 49, № 5, с. 846-853

БИОИНФОРМАТИКА

УДК 577.2

ВЕБ-СЕРВЕР ДЛЯ ПРЕДСКАЗАНИЯ ш1РНК, ИХ ПРЕДШЕСТВЕННИКОВ И САЙТОВ СВЯЗЫВАНИЯ

© 2015 г. П. С. Ворожейкин1, И. И. Титов12

Новосибирский национальный исследовательский государственный университет, Новосибирск, Россия, 630090 2Институт цитологии и генетики Сибирского отделения Российской академии наук, Новосибирск, Россия, 630090

Поступила в редакцию 27.12.2014 г.

Принята к печати 27.02.2015 г.

ш1РНК — это некодирующие регуляторные РНК длиной около 22 н. В работе описан веб-сервер для предсказания ш1РНК, их предшественников и сайтов связывания. Предсказание основано на использовании сходства последовательностей с известными ш1РНК 223 организмов или контекстно-структурных скрытых марковских моделей. Показано, что представленные методы предсказания ш1РНК и рге-ш1РНК человека превосходят по точности существующие аналоги. В среднем точность определения 5'-границ ш1РНК человека составляет 3.13 н. для случая предсказания одной пары комплементарных ш1РНК (дуплекса ш1РНК-ш1РНК*). Полезной возможностью нашей программы является предсказание дополнительной пары: в этом случае пара, которая находится ближе к реальным ш1РНК, отклоняется от них в среднем на 1.61 н. Предложенный метод также показывает хорошие результаты предсказания ш1РНК мыши. Чтобы найти сайты связывания ш1РНК, реализованы два известных подхода на основе комплементарное™ и термодинамической стабильности дуплекса ш1РНК-мРНК и один новый подход, который учитывает конкуренцию между ш1РНК за сайт. Также рассмотрена роль вторичной структуры в процессинге ш1РНК. Веб-сервер доступен по адресу http://wwwшgs.bionet.nsc.гu/шgs/pгogгaшs/гnaanalys/.

Ключевые слова: miРНК, pгe-miРНК, сайт связывания, вторичная структура, скрытая марковская модель, статистическая сумма.

WEB SERVER FOR THE PREDICTION OF miRNAs, THEIR PRECURSORS AND BINDING SITES, by P. S. Vorozheykin1,1.1. Titov1'2 * ^Novosibirsk State University, Novosibirsk, 630090 Russia; 2 Institute of Cytology and Genetics, Siberian Divison, Russian Academy of Sciences, Novosibirsk, 630090 Russia, *e-mail: titov@bionet.nsc.ru). MicroRNAs are non-coding regulatory RNAs about 22 nucleotides in length. In this paper we describe a web server for the prediction of miRNAs, their precursors and binding sites. Our prediction is based either on sequence similarity to the known miRNAs of 223 organisms or on the context-stTuc-tural hidden Markov models. For the human miRNAs and pre-miRNAs we show that our methods outperform in accuracy the existing ones. The average deviation of the predicted 5'-ends of the human miRNAs from the real ones is 3.13 nt for the case of one complementary pair of miRNAs (miRNA-miRNA* duplex). The useful feature of our program is the prediction of an additional miRNA pair: for a predicted pair, which is closest to the real one, the average deviation is 1.61 nt. The proposed method also shows good performance on the mouse miRNAs. To search for miRNA binding sites we have implemented two well-known approaches based on complementarity and thermodynamical stability of the miRNA-mRNA duplex and a new approach which takes into account the miRNA competition for the binding site. Finally we consider the role of secondary structure in the miRNA's processing. The web server is available at http://wwwmgs.bionet.nsc.ru/mgs/programs/rnaanalys/.

Keywords: miRNA, microRNA, pre-miRNA, binding site, secondary structure, hidden Markov model, partition function.

DOI: 10.7868/S0026898415050195

Ы1РНК — малые (около 22 н.) РНК, регулирующие экспрессию мРНК на посттранскрипционном уровне [1, 2]. Число аннотированных ш1РНК и количество методов поиска новых ш1РНК, их

предшественников и сайтов связывания продолжают расти.

Простейшие вычислительные методы поиска ш1РНК и их предшественников основаны на вы-

Принятые сокращения: ОНП - однонуклеотидный полиморфизм.

* Эл. почта: titov@bionet.nsc.ru

явлении сходства кандидатов с известными последовательностями [3, 4]. Дополнительно используют консерватизм вторичных структур pre-miРНК и характеристики первичной и вторичной структур (программы MiRscan [5], miRseeker [6], miRAlign [7], Vmir [8], miRPara [9], miRNAFold [10] и другие).

Поиск ah initio Ш1РНК и pre-miРНК, в основном, проходит по двум подходам. Во-первых, это методы на основе опорных векторов или деревьев принятия решений, которые распознают тРНК и pre-miРНК по наборам признаков первичной и вторичной структур (miR-abela [11], Triplet-SVM [12], RNAmicro [13], MiRFinder [14], microPred [15], Virgo [16], MaturePred [17], MiRmat [18] и другие). Во-вторых, строят вероятностные модели Ш1РНК или pre-miРНК на основе наивных байесовских классификаторов (BayesMiRNAfind [19], mature Bayes [20] и другие), стохастических контекстно-свободных грамматик (CID-miRNA

[21]) или скрытых марковских моделей (ProMiR

[22], miRRim [23], SSCprofiler [24] и другие). При этом используют информацию о расположении Ш1РНК в предшественнике и статистику последовательностей и их вторичных структур.

Самые простые методы предсказания сайтов связывания Ш1РНК с мРНК основаны на компле-ментарности 5'-края тРНК к своей мРНК-ми-шени и на расчете стабильности дуплекса РНК-РНК ([25], Diana-microT [26], RNAhybrid [27], [28] и другие). Точность предсказания увеличивают, учитывая консервативность последовательностей кандидатов в сайты, локальную вторичную структуру мРНК и нуклеотидный состав дуплекса (miRanda [29], TargetScan [30] и другие [31, 32]). Существуют также подходы с машинным обучением, которые используют последовательности известных сайтов тРНК различных организмов. Программы miTarget [33], MirTarget2 [34], miREE [35] и другие основаны на методе опорных векторов и характеристиках известных дуплексов ш!РНК-мРНК. Физико-химический подход для вычисления равновесной степени связывания Ш1РНК с сайтом предложен в работе [36].

С помощью перечисленных выше методов предсказано большое число новых Ш1РНК, их предшественников и сайтов связывания для различных организмов; результаты представлены в виде общедоступных баз данных [34, 37-41].

В данной работе мы представляем веб-сервер для анализа Ш1РНК: предсказания pre-miРНК, Ш1РНК и их сайтов связывания. Сервер состоит из трех компьютерных программ. Первая из них осуществляет поиск последовательностей, которые сходны с известными тРНК 223 организмов. Вторая программа предсказывает ah initio Ш1РНК и pre-miРНК человека на основе вероятностных моделей и закономерностей вторичной

структуры предшественников Ш1РНК. Третья программа ищет сайты связывания Ш1РНК на основе полной комплементарности позиций № 2-8 5'-края Ш1РНК к сайту связывания и/или термодинамических характеристик дуплекса Ш1РНК-мРНК, в том числе с учетом конкуренции Ш1РНК за сайт.

В сравнении с существующими методами предложенный подход имеет более высокое качество предсказания Ш1РНК и их предшественников у человека. В среднем точность определения 5'-гра-ниц Ш1РНК человека составляет 3.13 н. для случая предсказания одного дуплекса Ш1РНК-Ш1РНК*. Иногда предсказанная пара Ш1РНК-Ш1РНК* расположена далеко от реальных Ш1РНК, поэтому мы реализовали возможность находить дополнительную пару. Эта опция позволяет уменьшить ошибку предсказания 5'-границ лучшей из предсказанных пар от реальных ш^РНК до 1.61 н. Предложенный метод также может успешно применяться для предсказания Ш1РНК мыши.

Роль вторичной структуры pre-miРНК в распознавании и созревании Ш1РНК рассмотрена в завершении работы.

ЭКСПЕРИМЕНТАЛЬНАЯ ЧАСТЬ

Данные. Расчет вторичных структур pre-Ш1РНК и вычисление их энергий осуществляли с помощью программы GArna [42]. Использовали РНК-последовательности из базы miRBase (релиз 21.0) [43, 44] для обучения и тестирования скрытых марковских моделей и поиска Ш1РНК по гомологии. Ошибку перепредсказания pre-miРНК оценивали с помощью негативной выборки из работы [12]. При сравнении с существующими методами предсказания pre-miРНК человека использовали две тестовые последовательности [10]. С этой же целью сравнение с существующими методами предсказания Ш1РНК проводили по тестовой и обучающей выборке pre-miРНК человека [17].

Структура веб-сервера. Представленный в этой работе веб-сервер реализован в виде трех расчетных программ. Первая из них предназначена для поиска ab initio pre-miРНК человека и предсказания дуплексов miРНК-miРНК* на основе скрытых марковских моделей. Другая программа ищет последовательности, сходные с miPHK, из базы экспериментальных данных. Последняя программа предназначена для расчета сайтов связывания miPHK с мРНК тремя различными методами.

Веб-сервер доступен по адресу http://www-mgs.bionet.nsc.ru/mgs/programs/rnaanalys/. На вебсервере также представлено подробное описание реализованных моделей и алгоритмов.

Входные и выходные данные. Вводимые нуклео-тидные последовательности должны содержать только символы A(a), C(c), G(g), U(u) или T(t).

Чтобы найти гомологи ш^РНК, пользователь вводит ее последовательность или выбирает предложенную из списка, включающего известные ш^РНК 223 организмов. Предсказывая ab initio Ш1РНК, он выбирает число вариантов пар Ш1РНК (один или два) и дополнительные параметры фильтрации pre-miPHK — содержание G+C нуклеоти-дов, порог для скрытой марковской модели, характеристику нуклеотидного состава е^соге(формула расчета представлена на веб-сервере) и величину свободной энергии. При поиске сайтов связывания необходимо задать метод и параметры поиска - порог свободной энергии дуплекса РНК-РНК по энергии связывания или параметр концентрации для построения вероятностного профиля.

Программа поиска ш^РНК и их предшественников выводит вторичную структуру найденной рге-ш^РНК и последовательности предсказанных дуплексов ш^РНК-ш^РНК*. Программа поиска гомологов Ш1РНК выводит последовательность гомолога и начальный номер его позиции в последовательности РНК. Программа поиска сайтов связывания выводит график вероятности связывания выбранной ш^РНК с заданной мРНК или нуклеотидные последовательности сайтов связывания и начальный номер их позиц

Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.

Показать целиком

Пoхожие научные работыпо теме «Биология»