научная статья по теме ЭПИСТЕМИЧЕСКИЙ СТАТУС ЦИФРОВЫХ ДАННЫХ В СОВРЕМЕННЫХ НАУЧНЫХ ИССЛЕДОВАНИЯХ Философия

Текст научной статьи на тему «ЭПИСТЕМИЧЕСКИЙ СТАТУС ЦИФРОВЫХ ДАННЫХ В СОВРЕМЕННЫХ НАУЧНЫХ ИССЛЕДОВАНИЯХ»

ФИЛОСОФИЯ И НАУКА

Эпистемический статус цифровых данных в современных научных исследованиях

Е. Ю. ЖУРАВЛЁВА

В статье анализируется каким образом цифровые данные становятся неотъемлемой частью современной научно-исследовательской деятельности. Для этого рассматриваются не только определение, виды и объемы цифровых данных, но и производные от цифровых данных понятия "поток данных" и "поток метаданных", их влияние на структуру научного познания и продукты научной деятельности. В качестве иллюстрации в работе приведены примеры использования цифровых данных в научных проектах. Особое внимание уделено описанию "Четвертой парадигмы" и ее практическому воплощению в виде моделей, ориентированных на данные: Х-инфор-матика, наука, ориентированная на данные, наука управления данными, наука, преобразующая огромные объемы данных. А также научно-исследовательским программам: "наука интенсивных данных" (Европа) и "вычисления и данные, дополняющие науку и технику" (США).

This paper analyses in which way digital data becomes an integral part of modern scientific research. To this end, we consider not only the definition, types and volume of digital data, but the notion of "data deluge" and "metadata deluge" derived from the digital data, their influence on the structure of scientific knowledge and the products of scientific activity. As an illustration, in this article there are examples of the use of digital data in research projects. Particular attention is being paid to the "fourth paradigm" and its practical implementation in the form of data-centric models: X-informatics, data oriented science, data driver science, petascale science. As well as research programs: "Data intensive Science" (Europe) and "Computational and Data-Enabled Science and Engineering" (USA).

КЛЮЧЕВЫЕ СЛОВА: цифровые данные, поток данных, поток метаданных, "Третья парадигма", вычислительное мышление, "Четвертая парадигма", Х-информатика, наука, ориентированная на данные, наука управления данными, наука, преобразующая огромные объемы данных, наука интенсивных данных, "вычисления и данные, дополняющие науку и технику".

© Журавлёва Е.Ю., 2012 г.

KEY WORDS: digital data, data deluge, metadata deluge, "third paradigm", computational thinking, "fourth paradigm", X-informatics, data oriented science, data driver science, Petascale Science, data intensive science, Computational and Data-Enabled Science and Engineering.

Where is the Life we have lost in living?

Where is the wisdom we have lost in knowledge?

Where is the knowledge we have lost in information?

T.S. Eliot, "Choruses from 'The Rock' "1

Цитату из Т.С. Элиота, вынесенную в эпиграф статьи, в настоящее время в связи с прогрессивным развитием информационно-коммуникационных технологий можно продолжить строкой "Где информация, которую мы потеряли в потоках данных?". Во многом благодаря тому, что первоначальный фокус современных информационно-коммуникационных технологий более всего направлен на первую часть спектра "данные-информация-знание-мудрость-предвидение2".

В мае 2010 г. были опубликованы результаты исследования "Десятилетие цифровой Вселенной: готовы ли Вы?", в котором оценивается общий объем цифровых данных в мире. Согласно отчету в 2009 г. объем цифровых данных вырос на 62 процента по сравнению с 2008 г. до 800 миллиардов гигабайт или 0,8 зеттабайт. Объем цифровых данных, созданных на начало 2010 г. равен 1,2 зеттабайт. К 2011 г. объем цифровых данных предполагается равным 1,8 зеттабайт. Большая часть цифрового контента не уникальна - почти 75% всего объема цифрового мира являются копиями. К 2020 г. количество данных вырастет 44-кратно, в 35 триллионов гигабайт и достигнет 35 зеттабайт3.

Точками роста данных, как прогнозируются, будут являться все основные виды средств массовой информации и коммуникации - ТВ, радио, печать, интернет, мобильные сети. Например, в 2008 г. компанией Google зафиксирован 1 триллион уникальных URL-адресов в Интернете4. YouTube отмечает, что каждую минуту на сайт загружается 24 часа нового видео5.

Для оценки масштаба объемов цифровых данных P. Уильямс составил таблицу соответствия между единицами измерения данных и привычными для человеческого восприятия объектами, переведенными в цифровую форму. К примеру, 2 килобайта занимает машинописная страница, а 5 мегабайт полное собрание сочинений У. Шекспира, 700 мегабайт это уже объем CD-ROM, 20 гигабайт занимает музыкальная коллекция произведений Бетховена. Переходя к терабайтам, петабайтам, экзабайтам появляются следующие сравнения: 2 терабайта - объем данных одной академической библиотеки США, 10 терабайт является количеством информации, которое человек накапливает за свою жизнь, 2 пета-байта это объем данных всех научных библиотек США, 200 Петабайт объем всех напечатанных материалов в мире, а 5 экзабайт составляет объем всех слов, которые произносятся людьми мира6. Единицы измерения зеттабайт и йотабайт введены в 1991 г. К 2010 г. объем всех созданных в мире цифровых данных составляет 1,2 зеттабайт, что можно представить как стопку DVD-дисков от Земли до Луны и обратно. По поводу такой единицы как йотабайт метод аналогии уже не работает, в журнале "Экономист" есть существенное замечание о том, что йотабайт является слишком большим количеством данных для человеческого представления [Все также много 2010, 3].

Понятие "данные" является более специфическим, чем понятие "информация", но при этом во многих контекстах их используют как взаимозаменяемые. По мнению К. Бор-гман, понятие "данные" имеет более ограниченное число определений и одновременно являющееся субъектом многих различных толкований [Боргман 2007, 119].

Согласно определению, данные это повторно поддающиеся толкованию представления информации в формализованном виде для последующей их передачи, интерпретации или обработки [Описание модели для открытой архивной информационной системы 2002, 9]. Примеры данных включают в себя последовательности битов, таблицы чисел, оригиналы web-страниц, звуковые записи и т.п. Выделяют четыре категории данных в зависимости от их источников: данные наблюдений, вычислительные и экспериментальные

данные, записи7. К данным наблюдения относятся данные, которые регулярно поступают в результате прямого наблюдения, например, за температурой океана, данные о мнениях избирателей накануне выборов или фотографии сверхновой звезды. Данные наблюдения связаны со специальным местом и временем или включают в себя описание множеств пространств и времен (поперечные и лонгитюдные исследования). Результаты выполнения компьютерных моделей и симуляций виртуальной реальности находят свое отражение в понятии "вычислительные данные". "Экспериментальные данные" включают в себя результаты лабораторных исследований, таких как измерение систем генных изменений, данные о протекании химических реакций, данные об испытаниях двигателей. Записи, полученные в процессе управления, ведения бизнеса, публичной и частной жизни также в свою очередь, являются данными для исследований.

Интернет стал одним из средств для сбора данных из-за его способности получить доступ к миллионам пользователей, возможности исследования массива данных и удобства технологических процедур. Данные в интернете имеют уникальные особенности и, подчеркивая эти особенности, используется понятие "интернет-данные". В целом, интернет можно рассматривать как источник новых данных, и в этом случае будет уместно ввести понятие "интернет-данные", и как новый источник для уже имеющихся данных (такие данные называются цифровыми). Л. Манович обозначает подобные понятия "рожденные цифровыми" и "оцифрованные данные"8. В данной статье подобное разграничение не подчеркивается, и данные разного происхождения называют цифровыми.

По степени соответствия определенному формату цифровые данные можно разделить на структурированные, полуструктурированные и неструктурированные. В структурированных данных отражаются отдельные факты предметной области (это основная форма представления данных в системах управления базами данных). Именно структурированные данные имеют наибольший интерес, так как они связаны с другими данными и представляют информационную ценность с точки зрения количества информации. Использование в научной деятельности баз данных изменяет процесс получения знаний. В современности базы данных применяются как крупномасштабное средство коммуникации исследователей и, лишь в меньшей степени в качестве инструмента познания, замечает К. Хине [Хине 2006, 269].

Полуструктурированные данные это данные, которые имеют характеристики схем и метаданных. Понятие "метаданные" многозначно, оно может означать информацию о данных, или структурированные данные, представляющие собой характеристики описываемых сущностей для целей их идентификации, поиска, оценки, управления ими, а также данные из более общей формальной системы, описывающей заданную систему данных. Метаданные весьма значимы по причине необходимости обеспечения поиска полезной информации среди огромного количества доступной. Метаданные, созданные вручную, имеют большую ценность, поскольку это гарантирует их осмысленность.

Под неструктурированными данными понимаются произвольные по форме текстовые документы (тексты естественного языка), электронные таблицы, сообщения электронной почты, графика, музыка, видео и т.д. Эта форма представления данных широко используется в виде отклика предоставляемому пользователю поисковыми системами. По современным оценкам более 95% цифровой среды состоит из неструктурированных данных. Многие исследователи работают с неструктурированными и слабо структурированными данными, совокупность которых называют пространствами данных.

Г. Эрбах считает, что подход, ориентированный на данные, имеет специальный статус из-за первенства данных в научных исследованиях по причине того, что анализ, интерпретация, моделирование и понимание множества наблюдаемых фактов и составляет большую часть научной деятельности. Комплексы научных данных могут принимать различные формы для многообразных областей исследования: потоки данных, получе

Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.

Показать целиком