научная статья по теме СОЦИОЛОГИЯ И КОМПЬЮТЕРНЫЕ ТЕХНОЛОГИИ Социология

Текст научной статьи на тему «СОЦИОЛОГИЯ И КОМПЬЮТЕРНЫЕ ТЕХНОЛОГИИ»

К XVII Харчевским чтениям

© 2015 г.

Ю.Н. ТОЛСТОВА

СОЦИОЛОГИЯ И КОМПЬЮТЕРНЫЕ ТЕХНОЛОГИИ

ТОЛСТОВА Юлиана Николаевна - доктор социологических наук, ординарный профессор НИУ ВШЭ (E-mail: untolstova@mail.ru).

Аннотация. В рамках информационных технологий разработаны компьютерные приёмы решения социологических задач1, остающиеся неизвестными большинству социологов. Стремления хотя бы приблизительно ознакомиться с достижениями компьютерной науки не наблюдается. Главная причина этого: социологи не знают соответствующих методов. В статье кратко описаны перспективные для социологии технологии, показана их полезность. Описание дано в контексте обсуждения проблемы использования в социологии математических методов, лежащих в корне любой компьютерной технологии.

Ключевые слова: информационные технологии • анализ данных • интеллектуальный анализ данных • большие данные • цифровые гуманитарные науки • наука о данных • знание

Роль компьютера в социологии. Анализ данных. Использовать математические методы социология начала задолго до компьютерной эпохи. Кондорсе и Кетле призывали решать социологические задачи с помощью теории вероятностей [Толстова, 20096], получали с помощью математических методов интересные социологические результаты. Во второй половине ХХ в. возможности математического аппарата социологии резко расширились. Родилось понятие анализ данных (АД), которому ниже уделено внимание.

Два вводных замечания. 1. В совокупность методов АД обычно включают методы математической статистики, хотя эти группы методов различны. Математическая статистика - строгая ветвь математики (если не считать, что в процессе её применения используется субъективно заданный уровень значимости оценки параметра или проверяемой статистической гипотезы). Собственно АД - наполовину математика, наполовину содержательная ветвь науки, поскольку элементы соответствующих алгоритмов выбираются из содержательных соображений, алгоритмы часто эвристичны по характеру и т.д. [Толстова, 2000]. 2. Вместе с методами АД развивались методы измерения. Это разные методные ветви, но их часто трудно чётко отделить друг от друга [Толстова, 2009а]. К концу XX в. было разработано много методов измерения и АД.

Вычислительная техника доступна практически каждому социологу, плюсы чего очевидны. Главный в том, что развитие 1Т позволило преодолеть отторжение

1 Мы не пользуемся термином "эмпирическая социология", считая порочным делить социологию на эмпирическую и теоретическую. Эти её стороны должны опираться на достижения друг друга. В частности, при проведении эмпирических исследований социолог должен использовать огромное количество предположений, которые иначе, как теоретическими, назвать нельзя [Толстова, 2013].

социологом сложных формул, да и простых при обилии данных. Компьютер рассчитает любую формулу, любой алгоритм данных, которые ему "поставляет" социолог. Использование компьютера стимулировало разработки новых методов; расширен круг применяемых социологами подходов к измерению и анализу данных2. Однако компьютер в работе социолога играет и отрицательную роль. Легкость использования компьютерных технологий гасит бдительность при проверке пригодности конкретного метода для конкретной содержательной задачи. О возможном несоответствии заложенной в методе модели изучаемой социологом ситуации, последний, как правило, не думает. «Знай, нажимай кнопки компьютера и получишь "красивые" классификации, латентные переменные, структуры связей и т.д.», - типично рассуждает средне-статистический коллега; отсюда ложные результаты.

Назову проблему сопряжения заложенной в методе модели с содержанием решаемой социологической задачи первой проблемой АД. Заметим: одна из часто используемых социологом моделей связана с совокупностью предположений о ста-тистическом3 характере изучаемого явления. А если такие предположения несостоятельны (что нередко встречается; в частности, не статистическими являются многие методы интеллектуального анализа данных, о которых речь ниже), то использование методов статистического анализа приводит к бессмысленности.

Вторая проблема АД - репрезентативность изучаемой выборки объектов. В социологии нередко невозможно проверить репрезентативность выборки. Расчет её объема по математико-статистическим формулам может быть бессмыслен в силу ряда причин [Толстова, 2007: 90-92]. И эти формулы теряют смысл при отказе от статистичности изучаемой ситуации. Сформулированные проблемы должны грамотно решаться в любом социологическом исследовании, при использовании любых компьютерных технологий.

Человеческая мысль расширяет круг методов (и постановок задач!), глубже изучает закономерности природы и общества. Бурно развивающиеся компьютерная наука и методы измерения и анализа данных (пригодных, в том числе, и для социологии) дают возможность исследователю эффективнее решать задачи в привычных (со второй половины XX в.) постановках, ставить и решать новые классы задач. Опишу четыре компьютерных технологии (подхода), развивающихся в настоящее время и полезных социологу: Data mining (DM); Большие данные, Big data (BD); цифровые компьютерные науки, Digital Humanity (DH); Наука о данных, Data science (DS)4.

Современные компьютерные технологии (DM, BD, DH, DS) и расширение возможностей социолога. Строгих определений названных технологий нет. Ни о какой унификации терминологии речи не идёт (какую-то роль могут играть разные области генезиса методов). Примеры синонимов: "искусственный интеллект", "интеллектуальный анализ", "бизнес-аналитика, "бизнес-интеллект". Четкого состава алгоритмов ни для одной технологии не определено (вариантов огромное количество). Рассматриваемые технологии взаимосвязаны, их трудно отделить друг от друга, они переплетены. Но каждой всё же отвечает ядро, отражающее её сущность, фокус соответствующих разработок. Каждое ядро может реализоваться по-разному в разных технологиях, но в рамках отвечающей ему технологии оно реализуется наиболее развернуто.

Иногда совокупность технологий, методов, концентрирующихся вокруг одного ядра, называют парадигмой, что, представляется, имеет право на существование.

2 Нельзя сказать, что традиционные методы измерения и анализа данных в настоящее время используются социологами в масштабах, которые отвечают их полезности для социологии.

3 Для нас термин "статистический" эквивалент термина "математико-статистический".

4 Подобных технологий много. Краткое описание их см.: [Давыдов, 2005; 2009]. Указанный автор долго и тщетно пытался привлечь внимание к ним социологов.

Мы будем называть рассматриваемые компьютерные технологии также системами и парадигмами. Опишем ядра рассматриваемых парадигм.

(1) для DM - это алгоритмы анализа данных, рассчитанного на более "слабые" и в большей мере соответствующие мышлению человека (относимые к области искусственного интеллекта и отвечающие современному пониманию категории "знание"5) модели, требующие меньших предположений относительно анализируемой исследователем ситуации, чем традиционные методы анализа данных; естественно, такие алгоритмы облегчают решение нашей первой проблемы АД;

(2) для BD - элементы компьютерной науки, позволяющие виртуозно работать с поиском и формированием сложных, больших, разбросанных, меняющихся массивов (баз) данных. Предполагается также, что данные могут быть структурированы и неструктурированы6; возможность творческой работы с большими и разнообразными данными значительно облегчает решение второй проблемы АД;

(3) для DH - это умение превращать неструктурированные данные в структурированные путем оцифровки или моделирования посредством графа (сети);

(4) для DS - такая работа с данными, в которой делается упор на понимание последних как носителей скрытых закономерностей, нового знания.

Интеллектуальный анализ данных (Data mining, DM). Подход известен у нас в стране довольно давно, имеются учебники, например [Дюк, 2001; Чубукова, 2006]. Термин введен Пятецким-Шапиро в 1989 г. Иногда его заменяют термином Knowledge Discovery In Databases (KDD). Как уже сказано, наряду с традиционными методами анализа данных и математической статистики, рассматриваемая технология содержит алгоритмы, приближенные к логике человека, "вручную" анализирующего данные.

Подобные алгоритмы относят обычно к области искусственного интеллекта. Они требуют относительно мало условий для реализации (методы классификации, основанные на применении ассоциативных правил, деревьев решений, генетических алгоритмов, искусственных нейронных сетей и т.д.). Поэтому как синоним выражения "Data mining' часто употребляется выражение "Интеллектуальный анализ данных". Хотя традиционные методы анализа данных и математической статистики обычно тоже включают в состав технологии DM, надо помнить: заложенные в них модели в большей мере нагружены содержанием и поэтому гораздо менее пригодны для решения задач, на которые рассчитан DM (см. ниже).

За счет того, что методы искусственного интеллекта опираются на более слабые модели реальности, при их использовании будет легче осуществляться соблюдение требуемого соответствия формализма содержательным представлениям социолога об изучаемой социологической ситуации. Вероятность того, что формализм будет адекватным для произвольной совокупности данных больше, чем аналогичная вероятность для моделей, предусматриваемых для традиционных методов АД и математической статистики. Именно указанное ослабление моделей и дает возможность по-новому ставить задачи. И эта новая постановка обычно считается основной особенностью DM. Опишем её и покажем актуальность такой постановки для социолога.

Новая постановка задач предполагает три момента.

1. Исследователь ставит перед собой в качестве цели не решение конкретной задачи (например, построения типологии респондентов, входящих в изучаемую социологом выборку), а выявление того, можно ли в имеющихся у него данных найти какие-то потенциально интересные для социологии закономерности (типологии, структуры

5 Разработке понятия "знание" в литературе уделяется много внимания. Мы не будем определять этот термин.

6 Опре

Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.

Показать целиком