научная статья по теме ПРИМЕНЕНИЕ МЕТОДОВ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ТЕКСТОВОЙ ИНФОРМАЦИИ ДЛЯ ПРЕДОТВРАЩЕНИЯ УТЕЧЕК ДАННЫХ Математика

Текст научной статьи на тему «ПРИМЕНЕНИЕ МЕТОДОВ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ТЕКСТОВОЙ ИНФОРМАЦИИ ДЛЯ ПРЕДОТВРАЩЕНИЯ УТЕЧЕК ДАННЫХ»

БЕЗОПАСНОСТЬ И ЗАЩИТА

У л :

ПРИМЕНЕНИЕ МЕТОДОВ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ТЕКСТОВОЙ ИНФОРМАЦИИ ДЛЯ ПРЕДОТВРАЩЕНИЯ

УТЕЧЕК ДАННЫХ *

© 2015 г. И.В. Машечкин, М.И. Петровский, Д.В. Царёв МГУ им. М.В. Ломоносова, факультет вычислительной математики и кибернетики 119991 Москва, ГСП-1, Ленинские горы, МГУ, д. 1, стр. 52 E-mail: ma.sh@cs.msu.su, michael@cs.msu.su, tsarev@mlab.cs.msu.su Поступила в редакцию 07.09.2014

В настоящее время наибольшие риски для информационной безопасности организаций представляют не внешние, а внутренние угрозы. Для минимизации рисков, связанных с внутренними угрозами, используются DLP-системы. Основной функционал DLP-систем направлен на предотвращение утечки конфиденциальных данных, однако, в современных реалиях при сравнении DLP-систем на первое место начинают выходить их возможности по анализу перехваченной информации и удобстве проведения ретроспективных расследований. В статье представлен новый подход ретроспективного анализа работы корпоративного пользователя с текстовой информацией. Идея предлагаемого подхода состоит в тематическом анализе сложившихся в прошлом тенденций работы пользователя с текстовым контентом различных категорий, в том числе конфиденциальных, и прогнозировании его дальнейшего поведения. Тематический анализ работы пользователя предполагает определение основных тематик его текстового контента и соответствующие им веса в заданные интервалы времени. На основе отклонений поведения в работе пользователя с контентом от прогнозируемого можно выявить интервалы времени, когда работа с документами той или иной категории отличается от обычной (исторической) и когда велась работа с документами несвойственных категорий. Экспериментальные исследования предложенного подхода были проведены на примере реальной корпоративной переписки пользователей, сформированной из тестового набора данных Enron.

1. ВВЕДЕНИЕ

По различным экспертным оценкам в настоящее время наибольшие риски для информационной безопасности представляют не внешние, а внутренние угрозы [1, 2]. Так, по данным 1п£о\^ЫсЬ, 77% руководителей и 85% сотрудников ИТ- и ИБ-служб считают, что опасность для бизнеса их работодателей связана с внутренними угрозами [1].

Огромное количество случаев, когда бизнесу был нанесен непоправимый вред, связано с действиями собственных сотрудников компаний или иными лицами, имеющими легитимный доступ к

* Работы выполнены при финансовой поддержке Мин-обрнаукп России (Соглашение № 14.604.21.0056 о предоставлении субсидии, Уникальный идентификатор прикладных научных исследований 11РМЕР160414Х0056).

информационной системе. Хищение и продажа конфиденциальной информации, распространение информации ограниченного доступа, нецелевые действия с использованием инфраструктуры компании, сговоры, саботаж - вот лишь небольшой перечень ИБ-инцидентов, напрямую связанных с внутренними угрозами [1].

Для минимизации рисков, связанных с внутренними угрозами, используются DLP-системы. Аббревиатуру DLP в англоязычных источниках, как правило, расшифровывают как Data Loss Prevention (предотвращение потери данных) [3], но в русскоязычной литературе для этого термина используется перевод "предотвращение утечки данных", что больше соответствует Data Leak Prevention. Согласно Gartner [3], предотвращение утечек данных включает:

1. набор технологий классификации кон-тентной информации (например, данные, содержащиеся в файлах, электронных письмах, хранилищах данных), которая может находится в трех состояниях: хранимые данные (англ. data at rest), используемые/обрабатываемые данные (англ. data in use), передаваемые данные (англ. data in motion);

2. контролирующие техники для применения политик безопасности к контентным данным: ведение журнала событий (дотирование), уведомление, перемещение (карантин), шифрование, маркеровка (англ. tagging) и др.

Из определения следует, что технологии классификации информации составляют ядро DLP-систем, особенно учитывая схожесть основных элементов архитектуры DLP-системы: модули контроля информации для ее состояний, модуль управления инцидентами безопасности. Стандартными подходами классификации данных в DLP-решениях являются: цифровые отпечатки (англ. digital fingerprint), анализ шаблонов (англ. templates analvsis). Однако производители современных DLP-систем помимо стандартных подходов предлагают свои уникальные технологии классификации данных, например: технология Vector Machine Learning (Symantec [4]), технология "База кон-тентной фильтрации" (InfoWatch [5]) и др. Кроме того, современные DLP-системы помимо основной задачи выявления и/или блокировки несанкционированной передачи / использования конфиденциальной информации вмещают в себя функции обнаружения информации (англ. eDiscoverv), шифрования (англ. Encrvption), а также контроля действий персонала и повышения его производительности (англ. Emplovee Management Software и Productivitv Control) [5].

Таким образом, в современных реалиях при сравнении DLP-систем на первое место начинают выходить их возможности по анализу перехваченной информации и удобстве проведения ретроспективных расследований [6]. В данной статье предлагается новаторский подход по ретроспективному анализу работы пользователя с контентной информации. Идея предлагаемо-

го подхода состоит в тематическом анализе сложившихся в прошлом тенденций работы пользователя с текстовым контентом различных категорий, в том числе конфиденциальных, и прогнозировании его дальнейшего поведения. Тематический анализ работы пользователя предполагает определение основных тематик его текстового контента и соответствующие им веса в заданные интервалы времени. На основе отклонений поведения в работе пользователя с контентом от прогноза можно выявить интервалы времени, когда:

1. велась работа с документами несвойственных категорий;

2. работа с документами той или иной категории отличается от обычной (исторической).

Настоящая статья имеет следующую структуру. В разделе 2 приведено подробное описание методов тематического моделирования и прогнозирования временных рядов, используемых для реализации предлагаемого подхода по ретроспективному анализу работы пользователя с текстовой информацией. Раздел 3 посвящен экспериментальному исследованию предложенного подхода на примере реальной корпоративной переписки пользователей сформированной из набора данных Enron. В разделе 4 делаются основные выводы и заключения статьи.

2. ПРЕДЛАГАЕМЫЙ ПОДХОД

В основе предлагаемого подхода ретроспективного анализа работы пользователя с текстовой информацией лежит тематическое моделирование текстовых данных, с которыми работал пользователь за заданное модельное время. Модельное время разбивается на временные интервалы с постоянным шагом, в качестве шага может быть выбран час, день и т.п. (рис. 1). С помощью тематического моделирования выделяются основные тематики текстового контента пользователя и соответствующие им веса в каждом временном интервале модельного времени.

Веса тематик во временном интервале характеризуют тематическую направленность пользователя, на их основе формируются временные ряды изменения его тематической направленности для каждой из тематик. Далее по сформированным временным рядам строятся прогно-

Модельное время -у- Время прогноза

Временной интервал 1 Временной интервал 2 Временной интервал 3 Временной интервал 4 Временной интервал 5 Временной интервал 7 Временной интервал 8 Временной интервал 9

г М г м Г =^1 г _1М Г 1 м м Г м

02.06.2014 03.06.2014 04.06.2014 05.06.2014 06.06.2014 09.06.2014 10.06.2014 11.06.2014

Понедельник Вторник Среда Четверг Пятница Понедельник Вторник Среда

Тематика 1 о---. -П ""---О

Тематика 2,^-'

Рые. 1. Формирование временных рядов тематической направленности пользователя.

зы (рис. 1). На основе значений отклонений тематической направленности от спрогнозированных данных определяются временные интервалы с несвойственной активностью пользователя с контентом.

В данном разделе приведены подробные описания используемых при реализации предложенного подхода методов тематического моделирования и прогнозирования временных рядов.

2.1. Методы 'тематического моделирования

Исходя из предыдущих работ авторов [8-11] в качестве методов тематического моделирования были выбраны методы, основанные па неотрицательной матричной факторизации. Методы неотрицательной матричной факторизации работают с векторным представлением текста типа ''мешок слов" (англ. "Ьай-01-\¥0гс15") [12]. В пашем случае в качестве текстов выступают текстовые данные каждого временного интервала. Далее под термином "временной интервал" в зависимости от контекста будет пониматься либо совокупность текстовых данных анализируемого пользователя за рассматриваемый временной интервал, либо непосредственно интервал времени.

Формально опишем модель построения тематических временных рядов для п временных интервалов модельного времени. Каждый временной интервал ](1 < ] < п) отображается в числовой вектор Аj = [а\,з,й2,],..., ат^]т фикси-

рованной размерности т, оде т - число признаков текстовых данных за модельное время, а г-ая компонента вектора определяет вес г-го признака в j-oш временном интервале.

В качестве признаков в модели "мешка слов" используются лексемы, входящие в текст, а размерность признакового пространства равна размерности словаря лексем. Под лексемами в общем случае понимаются все различные слова текста. Однако обычно применяются некоторые меры по предварительной обработке текста с целью получения более "информативного" признакового пространства [12]: удаление стоп-слов, приведение слов к нормализованной форме (стемминг) и т.д. Цель предварительной обработки текста - оставить только те признаки, которые наиболее информативны, т.е. наиболее сильно характеризуют текст. К тому же уменьшение анализируемых признаков приводит к уменьшению использования вычислительных ресурсов. В интеллектуальном анализе текстовых данных для обозначения признака текста принято использовать термин "терм".

Вес г-го терма в векторном представлении ^'-го временного ин

Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.

Показать целиком