научная статья по теме ИНФОРМАЦИОННАЯ БАЗА ПО БИОЛОГИИ ЧЕЛОВЕКА “HUMBIO”: ДВА ГОДА В ИНТЕРНЕТЕ Биология

Текст научной статьи на тему «ИНФОРМАЦИОННАЯ БАЗА ПО БИОЛОГИИ ЧЕЛОВЕКА “HUMBIO”: ДВА ГОДА В ИНТЕРНЕТЕ»

УСПЕХИ СОВРЕМЕННОЙ БИОЛОГИИ, 2004, том 124, № 4, с. 397-398

ХРОНИКА

ИНФОРМАЦИОННАЯ БАЗА ПО БИОЛОГИИ ЧЕЛОВЕКА "НиМВЮ":

ДВА ГОДА В ИНТЕРНЕТЕ

В конце 90-х гг создана и непрерывно пополняется гипертекстовая информационная база HUMBIO, интегрирующая знания по биологии человека (от физиологического до молекулярного уровня) с данными, представленными в компьютерных сетях и множестве международных баз данных по молекулярной биологии. В системе наиболее детально представлена информация, касающаяся человека, дан широкий обзор по различным аспектам современной молекулярной и клеточной биологии, генетике, биохимии. База HUMBIO является образовательной системой широкого профиля, связывающей медицину и современную молекулярную биологию.

Программное обеспечение компьютерной энциклопедии разработано с расчетом на распространение системы в компьютерных сетях и ее неограниченное пополнение.

Современные базы данных молекулярно-био-логической информации стали важнейшим инструментом исследователей биологов [1-3]. Однако в базы данных включается ничтожная часть опубликованной в литературе информации. Это обусловлено трудностями, связанными с формализацией данных. В базы данных вводится легко-формализуемая информация, т.е. информация, которую можно представить в виде таблиц.

Полная формализация информации о сложных биологических системах практически неосуществима в связи с тем, что знания в области молекулярной биологии динамично развиваются, вследствие чего их очень трудно описать в какой-либо заранее спроектированной жесткой системе.

Нами была разработана концепция глобальной интеграции биологических знаний и баз данных на основе гипертекстовой технологии, представленная на Мировом конгрессе по численным данным (CODATA) в 1990 г. [4], в соответствии с которой в течение 1995-1999 гг создана информационная база по биологии человека (HUMBIO), интегрирующая знания по биологии человека (от физиологического до молекулярного уровня) с данными, представленными в компьютерных сетях и множестве международных баз данных по молекулярной биологии. В настоящее время информационная база (HUMBIO) представлена в Интернете на сервере Отдела биоинформатики ИМГ РАН по адресу http://OBI.IMG. RAS. RU [5, 6].

ОСНОВНЫЕ ПРИНЦИПЫ СТРУКТУРЫ И ФУНКЦИОНИРОВАНИЯ БАЗЫ HUMBIO

Объектами базы HUMBIO являются логические элементы знаний о биологии человека в контексте современных общебиологических представлений. Это могут быть белки, гены, клеточные, биохимические и молекулярно-генетические системы и процессы, физиологические системы и т.д. Информация о каждом объекте заключена в элементарной структурной единице записи, которая может содержать ссылки на другие записи (объекты). Записи могут быть различных типов -текстовые, каталоги, таблицы, графические и специальные. Сложные объекты формируются как комбинация более простых. Связи между объектами базы отражают реальные взаимодействия структурных элементов и процессов в организме и природе.

Особенности структуры базы HUMBIO позволили обеспечить:

1) возможность "погружения в знания" от простого к сложному;

2) легкость навигации и ориентации в базе;

3) возможность перехода по ссылкам в другие интернет-ресурсы, в частности, в международные биологические базы данных.

Пополнение базы HUMBIO происходит постоянно, по мере подготовки материала. В базу вводятся предварительно подготовленные на базе текущей литературы гипертекстовые обзоры, в которых выделены все ключевые термины и понятия в виде нормальных или "пустых записей". Записи нового обзора сливаются с существующими в базе записями и таким образом происходит его интеграция. После этого производится индексация всей базы и она выставляется в интернет.

Программное обеспечение системы удовлетворяет следующим требованиям:

1) объем системы практически неограничен;

2) система достаточно гибкая, что обеспечивает возможность перестройки по мере заполнения;

3) система работает в среде гипермедиа, поддерживающей не только стандартные мультимедиа форматы, но и ряд специальных форматов (пространственные структуры молекул, химические структурные формулы и др.);

4) эксплуатация и пополнение системы доступны через компьютерные сети пользователям, не

398

АЛЕКСАНДРОВ и др.

имеющим компьютерной подготовки (биологи, медики).

Окна всех программ системы связаны drag and drop технологией, что существенно облегчает создание и эксплуатацию базы.

Для облегчения работы пользователей дизайн базы HUMBIO построен по аналогии со структурой печатных источников.

Основным входом в систему являются подробные оглавления - по физиологии, клеточной биологии, биохимии, молекулярной биологии, иммунологии, патологии и др. Войдя в нужный раздел по оглавлению, пользователь осуществляет навигацию по сети взаимосвязанных записей (гипертекстовой сети), выбирая необходимую информацию.

Возможен также прямой поиск записей по имени или включению слов в имя записи в каталогах. При реализованном подходе скорость поиска практически не зависит от количества записей.

Существует возможность вводить в базу данных и соединять с другими не только текстовые и стандартные мультимедиа, но и различные объекты в специальных форматах, например, записи из международных баз данных. Для их изображения разработаны специальные программы, используемые как встраиваемые компоненты броузера.

Независимые друг от друга записи из международных баз данных объединяются в группы и классифицируются посредством установления связей с определенными разделами компьютерной энциклопедии. Таким образом, гипертекст используется для интеграции и структурирования огромного количества разнообразной информации по биологии человека, представленной в литературе и компьютерных базах данных и сетях. Организован доступ к базам данных последовательностей нуклеиновых кислот (базы данных EMBL и Genbank), базе данных последовательностей белков (SWISSPROT), базе данных трехмерных структур белков (PDB Брукхевенская база данных), базе данных наследственных заболеваний (OMIM) и др. Компьютерная энциклопедия состоит из разделов, соответствующих основным направлениям науки о человеке - физиология, клеточная биология, генетика, биохимия, молекулярная биология, патология. Записи всех разделов компьютерной энциклопедии связаны контекстными ссылками и образуют единую гипертекстовую сеть. Система содержит около 100 тыс. файлов общим объемом около 400 Мб текста в формате .txt, (без учета записей международных баз данных и записей из Интернета). По количе-

ству файлов наш сайт находится в десятке крупнейших в мире. В системе описано около 8000 генов, около 3000 белков и их функциональных связей, около 20 интерактивных метаболических карт, более 15 тыс. библиографических ссылок, около 1000 рисунков.

Тщательные поиски в Интернете показали, что база HUMBIO является уникальной системой по степени интеграции биологической информации. Это единственная система, где дано связное описание функционирования биологических систем человека от физиологического до молекулярного уровня организации.

За первый год в Интернете базу HUMBIO посетило 50 тыс. человек, к концу второго года около 200 тысяч. Из них примерно 70% из России, 15% - из стран бывшего СССР и 15% из стран Евросоюза и США. С помощью системы электронного голосования был исследован состав аудитории базы HUMBIO. В процентном отношении он следующий: исследователи - 20, преподаватели -9, медики - 14, студенты - 30, школьники - 17, прочие - 10%.

По рейтингу SpyloG база HUMBIO входит в первую пятерку среди примерно 350 сайтов в разделе Наука/Биология. Ожидаемое число посетителей на 2003 г. - около 100 тыс.

Таким образом, и посещаемость и состав аудитории показывают, что база знаний по биологии человека за короткий срок стала достаточно популярным инструментом для исследователей с высшим образованием (научные сотрудники, врачи, преподаватели) и важным средством образования.

СПИСОК ЛИТЕРАТУРЫ

1. Александров A.A., Сницаръ Р.В., Дроздов-Тихомиров Л.Н., Скурида Г.И., Шепелев В.А., Чарико-ва Е.В., Волкова Л.И., Федосеева В.Б., Казачен-ко К.Ю., Крупенко М.А., Ревкова Н.В., Ковалев П.В. // Молекуляр. биология. 1999. Т. 33. С. 80.

2. Казаченко К.Ю., Александров A.A. // Молекуляр. биология. 1997. Т. 31. С. 1098.

3. Alexandrov A.A. // Data for Discovery. Proceedings of the Twelfth International CODATA Conference. 1990. P. 400.

4. Bairoch A. // Nucleic Acids Res. 1994. V. 22. P. 3626.

5. Holm L., Sander C. // Proteins. 1994. V. 19. P. 256.

6. Wallace J.C., HenikoffS. // CABIOS. 1992. V. 8. P. 249.

A.A Александров, Л.Н. Дроздов-Тихомиров, В.А. Шепелев, В.Б. Федосеева, А.Г. Бучацкий, К.Ю. Казаченко, М.А. Крупенко, П.В. Ковалев, Е.В. Чарикова, Н.В. Ревкова

УСПЕХИ СОВРЕМЕННОЙ БИОЛОГИИ том 124 < 4 2004

Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.

Показать целиком