научная статья по теме ONLINE BIG DATA КАК ИСТОЧНИК АНАЛИТИЧЕСКОЙ ИНФОРМАЦИИ В ONLINE-ИССЛЕДОВАНИЯХ Социология

Текст научной статьи на тему «ONLINE BIG DATA КАК ИСТОЧНИК АНАЛИТИЧЕСКОЙ ИНФОРМАЦИИ В ONLINE-ИССЛЕДОВАНИЯХ»

© 2015 г.

Н.В. КОРЫТНИКОВА

ONLINE BIG DATA КАК ИСТОЧНИК АНАЛИТИЧЕСКОЙ ИНФОРМАЦИИ В ОНЛАЙН-ИССЛЕДОВАНИЯХ

КОРЫТНИКОВА Надежда Владимировна - кандидат социологических наук, доцент Харьковского национального университета им. В.Н. Каразина (E-mail: kort-nadeshda@yandex.ru).

Аннотация. Online Big Data (OBD) в социологических исследованиях рассматривается как количественная информация о посетителях веб-сайтов, их интернет-активности, индивидуальных предпочтениях и интересах. В статье обобщены возможности аналитических платформ для сбора, обработки и хранения big data (больших данных), представлена система их показателей, используемых для социологического анализа. С учетом того, что методология анализа больших данных находится в стадии разработки, предлагается внедрить концептуально-методологическую схему анализа OBD, мониторинг метаданных для реализации технических принципов оперирования и регулярного внесения необходимых корректив, автоматизацию работы с большими текстовыми массивами, стандартизацию веб-измерений.

Ключевые слова: Big Data (большие данные) • Online Big Data • счетчики • лог-анализаторы • блог-анализаторы • классификация показателей OBD • мониторинг метаданных • стандартизация веб-измерений

Процесс информатизации привел к созданию особых форм социальных отношений к информационным технологиям, к образованию социальных групп, основанных на связях через Интернет, к применению новых средств формирования общественного мнения посредством социальных медиа. Интернет стал не только индикатором общественных процессов, но и электронным банком данных о социальной жизни в ее разнообразных проявлениях. Интернет является архивом социальной жизни, собранным массивом данных, доступных для анализа автоматизированными методами [Павлова, Кольцова, 2013]. Владея сведениями о функционировании и развитии интернет-среды, социологам необходимо разрабатывать алгоритмы извлечения "цифровых следов".

Бесплатный и массовый доступ интернет-пользователей к информационным, коммуникативным и другим интернет-ресурсам ведет к накоплению большого объема данных о любых действиях интернет-пользователей. Для современной науки было бы странным не воспользоваться таким вспомогательным источником аналитической информации, как Online Big Data (OBD). Появление новых автоматизированных методов изучения общества открывает перспективы для более масштабных и детальных исследований.

Усложнение форм организации социальных действий в сети делает востребованными специальные онлайн-методы исследования виртуального пространства. В социологии уже существует ряд подходов к изучению онлайн-сообществ: массовые веб-опросы на основе математически обоснованных выборочных методов (напр., RDS по типу "снежного кома") [Chang, Krosnick, 2009; Мавлетова, 2010], метод визуализации социальных сетей [Давыдов, 2008; Андреева, 2012], изучение больших текстовых массивов в Интернете на основе контент-анализа, онлайн-интервью в асинхронном (по типу форума) или синхронном (по типу видеоконференции) формате [Messer, Dillman, 2011; Malhotra, 2008; Couper, 2008; Девятко, 2010].

С появлением и развитием компьютерной техники и глобальных компьютерных сетей утрачивают актуальность традиционные (ручные, неопосредованные) инструменты сбора и обработки эмпирической информации и набирают силу электронные средства фиксации эмпирических фактов. И.Ф. Девятко представляет самые общие контуры возможной классификации методов онлайн-исследований в социальных и поведенческих науках, включающей в себя в качестве центрального признака дихотомию "реактивный - нереактивный" (или "заметный - незаметный" для изучаемых субъектов и, соответственно, вызывающий их реакцию либо нет) [Девятко, 2012].

В качестве основной группы количественных методов онлайн-исследований в социологии чаще всего рассматривают вариации методик онлайн-опросов, которые стали объектом активного методического экспериментирования с оценкой источников угроз валидности данных и т.п., что позволило сформулировать некоторые выводы и практические рекомендации (см., например, [Smyth, Dillman, Christian, Mcbride, 2009; Toepoel, Couper, 2011]). Реже такие исследования можно наблюдать на основе анализа данных, фиксируемых техническими средствами интернет-сервисов. Однако сопоставимого систематического знания в области концептуализации и оценки качества нереактивных онлайн-измерений в социальных науках пока не получено [Девятко, 2012]. Следовательно, привлечение социологов к интенсивному их использованию делает востребованным создание и обсуждение специальной методологии эмпирических исследований для группы нереактивных методов онлайн-исследований. В этой связи в научной литературе развернулась дискуссия о том, в каких случаях и каким образом следует применять нереактивные онлайн-методы сбора данных. Одни говорят о них как о единственном шансе преодолеть кризис опросных методов, другие сомневаются в их целесообразности. Радикальность указанных подходов пагубна: в первом случае закрываются глаза на недостаточную методическую обоснованность их использования, во втором - существует риск остаться без актуальной социологической информации или заплатить за нее гораздо большую цену.

Объект данного обзора - "цифровые следы", т.е. количественная информация о посетителях веб-сайтов, их интернет-активности, а также потенциальные данные об индивидуальных предпочтениях, убеждениях пользователей. Предмет - Online Big Data как инструмент сбора, обобщения и анализа количественных данных об интернет-поведении и социальных явлениях в виртуальной среде. Цель статьи - обобщение возможностей аналитических платформ для оптимизации использования OBD в социологических исследованиях. Для реализации цели решены следующие задачи: 1) определено понятие и сущность OBD; 2)указано на особенности программного обеспечения для сбора, обработки и хранения больших данных; 3) представлена система показателей больших данных, используемых для социологического анализа; 4)обозначены преимущества и трудности автоматизированных методов онлайн-ис-следований.

Понятие и сущность OBD. В методах анализа, прогностической аналитике, интеллектуальном анализе данных (data mining) термин "большие данные" (BD, big data) используется для актуализации работы с качественно большими объемами информации, где постоянно происходит увеличение скорости потока данных в исследовательский процесс. Неоднозначность выражения "большие данные" приводит к вопросу о том, какие данные считать большими? В научной литературе понятие Big Data описывают как данные объема в порядках терабайт (см. табл. 1) [Революция Big Data]. Для сравнения, обычный массив данных социологического опроса ISSP составляет не более 20 Мб, массив World Value Survey - 300 Мб. Таким образом, стандартный пакет данных по одному социологическому исследованию не превышает 1 Гб, т.е. не относится к категории больших данных. Но если мы имеем дело с архивом социологических данных, то их объемы могут достигать нескольких терабайт.

На современном этапе существуют отрасли, в которых данные собираются и накапливаются интенсивно. В частности, в производственной сфере непрерывный

Таблица 1

Классификация объемов больших данных

Большие наборы данных Огромные наборы данных Big Data

Extremely Big Data

от 1000 мегабайт (1 гигабайт) до сотен гигабайт от 1000 гигабайт (1терабайт) до нескольких терабайт от нескольких терабайт до сотен терабайт от 1000 до 10000 терабайт = от 1 до 10 петабайт

поток данных генерируется иногда для десятков тысяч параметров. Например, на электростанции внедряются технологии, позволяющие коммунальным службам измерять потребление электроэнергии отдельными домохозяйствами каждую минуту или каждую секунду. Для такого рода приложений накопленная информация может храниться годами и представляет собой колоссальные объемы, поэтому она классифицируется как Extremely Big Data [Революция Big Data]. Но ценность больших данных вовсе не в количестве байтов, а в новых подходах к аналитике.

Признаками больших данных следует считать: объемность - размер зависит от доступных ресурсов для их хранения и обработки; неструктурированность - слабо структурированные и разнородные; оперативность - обрабатывать, анализировать и выдавать результаты надо быстро. Отсюда вытекают методологические задачи, которые предстоит решать аналитикам при работе с Big Data: как организовать их хранение и обработку с помощью специальных программных средств, как закодировать и систематизировать тексты, видео, изображения, как анализировать неструктурированную информацию, как составлять шаблонные отчеты и строить углубленные прогностические модели.

В социологических исследованиях большие данные интересны для наблюдения за поведением людей, например, в Интернете, при пользовании мобильными телефонами, платежными системами, совершении покупок в супермаркетах и т.д. - все эти действия "оставляют следы", формирующие массивы информации. В данной работе сделан акцент на "цифровых следах", оставленных пользователями во время активности в Интернете, а именно Online Big Data. OBD рассматриваются как инструменты отслеживания, сбора и анализа "цифровых следов" с их дальнейшим представлением в обобщенном виде, удобном для качественного и количественного анализа интернет-аудитории. В программное обеспечение встроены автоматические алгоритмы аккумулирования и агрегирования фактов о практически любых действиях в Интернете в виде числовых значений интересующих показателей в режиме реального времени. Следовательно, OBD представляют собой ежедневный мониторинг работы интернет-ресурсов с целью изучения поведения посетителей сайтов, выявления конкретного сетевого сообщества, определения ключевых слов и контекстов, выливающихся в особое видение мира виртуальной личностью или группой. Всё это необходимо для социальной экспертизы, проектирования, управления и принятия решений относительно перспектив дальнейшего развития и расширения возможностей веб-ресурсов.

Большие данные воплощают в себе реализацию концепции информационного хранилища (data warehouse) в сфере виртуального пр

Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.

Показать целиком