научная статья по теме БАЗЫ ДАННЫХ КАК ИНСТРУМЕНТ АНАЛИЗА БОЛЬШИХ МАССИВОВ ДАННЫХ О ВЗАИМОДЕЙСТВИЯХ МОЛЕКУЛЯРНО-БИОЛОГИЧЕСКИХ ОБЪЕКТОВ Биология

Текст научной статьи на тему «БАЗЫ ДАННЫХ КАК ИНСТРУМЕНТ АНАЛИЗА БОЛЬШИХ МАССИВОВ ДАННЫХ О ВЗАИМОДЕЙСТВИЯХ МОЛЕКУЛЯРНО-БИОЛОГИЧЕСКИХ ОБЪЕКТОВ»

ИЗВЕСТИЯ РАН. СЕРИЯ БИОЛОГИЧЕСКАЯ, 2013, № 3, с. 261-272

ТЕОРЕТИЧЕСКАЯ И ЭВОЛЮЦИОННАЯ БИОЛОГИЯ

УДК 573:57.02:001.57

БАЗЫ ДАННЫХ КАК ИНСТРУМЕНТ АНАЛИЗА БОЛЬШИХ МАССИВОВ ДАННЫХ О ВЗАИМОДЕЙСТВИЯХ МОЛЕКУЛЯРНО-БИОЛОГИЧЕСКИХ ОБЪЕКТОВ

© 2013 г. С. Ю. Сорокина*, В. Н. Купцов*, Ю. Н. Урбан**, А. В. Фокин*, С. В. Поярков*, М. Ю. Иванков*, А. И. Мельников*, А. М. Куликов*

* Институт биологии развития им. Н.К. Кольцова РАН, 119334 Москва, ул. Вавилова, 26 ** Московский научно-исследовательский институт эпидемиологии и микробиологии им. Г.Н. Габричевского, 125212 Москва, ул. Адмирала Макарова, 10 E-mail: amkulikov@gmail.com Поступила в редакцию 21.11.2012 г.

Рассмотрены наиболее известные и доступные информационные ресурсы, обобщающие данные о взаимодействиях молекулярно-биологических объектов, с точки зрения полноты и надежности представленной в них информации, а также возможности анализа экспериментальных данных и удобства визуализации результатов. Приведены некоторые метрики, применяемые для оценки результатов анализа, и алгоритмы проведения такого анализа на основе баз данных разного типа.

DOI: 10.7868/S0002332913030090

Через десять лет после прочтения первичной последовательности генома человека для понимания работы генома стала очевидной необходимость построения моделей с участием всех генов и их продуктов. Важным этапом стало внедрение высокопродуктивных технологий (high-throughput technology), предоставивших возможность анализировать структурные и функциональные изменения в масштабах всего генома. Стремительное нарастание массивов данных о составе и структуре геномов, разнообразию типов регуляций, белков, РНК и метаболитов живой клетки привело к формированию понятия omic, в свою очередь включающего в себя понятия "метабол омика", "протеомика", "транскриптомика", "геномика" и "интерактомика". Интерактом — интегрирующее понятие, определяющее все типы взаимодействий между молекулярно-биологиче-скими объектами, составляющими остальные понятия omic (Lievens et al, 2010).

Эффективным способом анализа интерактома является построение сигнальных сетей. Сигнальная сеть — это вероятностная модель передачи потока биологической информации в клетке и между клетками, тканями и органами посредством взаимодействий клеточных агентов разного происхождения. Такими агентами могут быть как "элементарные" составляющие (белки, разные типы РНК, последовательности ДНК, метаболиты, ионы), так и более сложные структуры (комплексы, компоненты и органеллы клетки, сами клетки). Структурный элемент сигнальной сети — бинарное взаимодействие между двумя элементарными объектами. Компонент более высокого

уровня — сигнальный каскад или путь, представленный набором последовательных взаимодействий молекул-партнеров от входящего сигнала до финальной реакции, связанной с инициацией определенного биологического процесса: активацией экспрессии группы генов, открытием ионных каналов, сборкой/разборкой и сокращениями ци-тоскелета клетки, делением, апоптозом и т.п.

КЛАССИФИКАЦИЯ БАЗ ДАННЫХ О

ВЗАИМОДЕЙСТВИЯХ МОЛЕКУЛЯРНО-БИОЛОГИЧЕСКИХ ОБЪЕКТОВ

В связи с необходимостью выбора оптимальной стратегии анализа массивов данных важно оценить доступность и качество имеющихся биоинформационных ресурсов, представляющих разные типы связей молекулярно-биологических объектов (МБО). Задача стандартизации хранения и передачи информации, содержащейся в базах данных (БД) о взаимодействиях МБО, фактически только поставлена. Поэтому доступные БД о взаимодействиях МБО различаются по разным критериям. Помимо полноты представленных в базах взаимодействий и надежности данных, оцениваемой по спискам методов, на основании которых выявлена данная связь, могут учитываться клеточная и тканевая локализация объектов и их взаимодействий, видовая специфичность взаимодействий, связи с ксенобиотиками (лекарственными препаратами), болезнями, структурное сходство и другие параметры. БД о взаимодействиях МБО, где связями являются взаимодействия (прямые или опосредованные) между физическими объекта-

Классификация баз данных по типу объектов, участвующих во взаимодействиях.

ми, служат основой для организации БД более сложного уровня (физиом, динамическое моделирование, модели клетки и пр.). Таким образом, от их качества во многом зависит релевантность результатов анализа и правомерность выводов (рисунок).

ВИЗУАЛИЗАЦИЯ ДАННЫХ, ПРЕДОСТАВЛЯЕМЫХ БАЗАМИ ДАННЫХ О ВЗАИМОДЕЙСТВИЯХ МОЛЕКУЛЯРНО-БИОЛОГИЧЕСКИХ ОБЪЕКТОВ

Важным моментом для исследователя, использующего БД о взаимодействиях МБО, являются возможности визуализации интерактомных данных. Большинство БД по существу — базы знаний, хранящие и отображающие информацию в виде таблиц или списков. К таким ресурсам относятся, например, БД о мишенях микроРНК или транскрипционных факторов, где ключевые объекты базы (микроРНК или транскрипционные факторы) связаны "веером" одношаговых

бинарных взаимодействий со своими мишенями. Задача таких ресурсов — предоставление максимально полной информации о мишенях интересующих пользователя объектов, но не воспроизведение многошаговых путей передачи сигнальной информации.

В случаях метаболических и регуляторных генных сетей, где задачей является анализ путей прохождения сигнала (особенно в условиях переизбытка информации), инструменты визуализации играют немаловажную роль. На данный момент существуют два принципиально разных подхода к визуализации интерактомных данных. В первом случае информация о сигнальных каскадах или метаболических путях представлена на интерактивных картах в виде модулей, как правило, с указанием клеточной локализации, тканевой и даже видовой специфики (например, KEGG, ВюСаг-1а). Во втором случае информация отображается в виде сетей взаимодействий.

Многие инструменты визуализации позволяют представить данные о взаимодействиях МБО в

виде обычных прямых связей (force directed layouts). В итоге исследователь получает набор так называемых волосяных шаров (hairballs), представляющих собой один узел, имеющий много связей с другими. Во многих случаях такая визуализация ухудшает отображение взаимодействий между промежуточными узлами графа до такой степени, что он становится нечитаемым. Второй популярный шаблон — радиальное или круговое представление информации. Этот метод имеет множество вариаций, позволяющих подобрать наиболее удобную визуализацию для каждого конкретного случая.

Среди основных провайдеров данных о межмолекулярных взаимодействиях самым популярным ресурсом для визуализации стал Cytoscape (Shannon et al., 2003), использующий формат данных SIF (Simple Interaction Format). Cytoscape был разработан как инструмент визуализации данных именно для биологов. К достоинствам Cytoscape можно добавить то, что он активно развивается и поддерживается мировым сообществом биоин-форматиков. Существует версия программы для web — Cytoscape Web, которая является программным обеспечением с открытым исходным кодом (по лицензии LGPL 2.1). Данное средство визуализации используется (как правило, через специ-алные плагины экспорта данных) в таких крупные БД о взаимодействиях МБО, как BioGRID, DIP, MatrixDB, INTACT, а также на сайтах Gene-MANIA и IMEX.

Альтернативой Cytoscape на данный момент являются программы NAVIGaTOR (Brown et al., 2009) и VisANT (Hu et al., 2009). VisANT - многофункциональный инструмент визуального анализа биологических сетей и сигнальных путей, совместимый с большинством браузеров. Его основные достоинства связаны с наличием собственных алгоритмов, основанных на анализе насыщенности взаимодействий конкретной генной сети в сопоставлении с Gene Onthology. NAVIGaTOR -программа, устанавливаемая на персональных компьютерах, которая также имеет алгоритмы для анализа генной сети, позволяет их редактировать, скрывая малозначимые узлы и выделяя значимые подграфы, и визуализировать сети в 2D- и 3D-форматах.

Многие БД о взаимодействиях МБО не имеют инструментов визуализации либо используют свои собственные программы, написанные на языке Java, например Mint Viewer в БД MINT.

БАЗЫ ДАННЫХ О БЕЛОК-БЕЛКОВЫХ ВЗАИМОДЕЙСТВИЯХ

Одним из наиболее важных и наиболее развитых классов существующих БД являются БД, направленные на сбор и анализ информации о белок-белковых взаимодействиях. Несмотря на то что типы объектов взаимодействий (белки) для

них общие, БД (в зависимости от цели) могут существенно различаться по характеру представленных взаимодействий. В одних БД акцентируется внимание на прямых физических взаимодействиях (BIND, Bader et al., 2003), в других учитываются функциональные (KinaseDB — Kinase Pathway Database, http://kinasedb.ontolo-gy.hgc.jp:8081), Phospho.ELM — Post-translational phosphorilation database (Dinkel et al., 2011), KEA — коллекция взаимодействий киназ с их субстратами (Lachmann, Ma'ayan, 2009)). Кроме того, есть БД, отражающие только факты влияния одних объектов на активность других, причем с учетом опосредованных взаимодействий наравне с прямыми (BioGRID (Stark et al., 2006), SignaLink (Korcsma-ros et al., 2010)). Направленность связи также не является обязательным атрибутом взаимодействия. Таким образом, некоторые базы позволяют построить сети ненаправленных взаимодействий и проследить внутренние взаимосвязи между различными клеточными процессами, в то время как другие, напротив, выделяют нисходящие каскады поэтапного прохождения сигнала от внешнего фактора к эффектору.

Одним из ключевых отличий БД о взаимодействиях МБО является способ сбора информации. Естественно, наиболее ценными и качественными могут считаться данные, собранные экспертами вручную (manually curated). Однако немногие базы такого типа характеризуются достаточной полнотой покрытия интерактома. Кроме того, как правило, такие базы не имеют открытого доступа. Альтернативой такому способу являются различные варианты полностью автоматизированного машинного анализа (семантический поиск) текстовых источников на базе системы автоматизированной экстракции информации — NLP (natural language processing). Естественно, недостаток этого способа — избыточность информации и чрезмерная доля "шума" (ложных взаимодейств

Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.

Показать целиком