научная статья по теме АВТОМАТИЗАЦИЯ ПРОЦЕССА НОРМАЛИЗАЦИИ ИНФОРМАЦИИ ПРИ ВНЕДРЕНИИ СИСТЕМ УПРАВЛЕНИЯ ОСНОВНЫМИ ДАННЫМИ Математика

Текст научной статьи на тему «АВТОМАТИЗАЦИЯ ПРОЦЕССА НОРМАЛИЗАЦИИ ИНФОРМАЦИИ ПРИ ВНЕДРЕНИИ СИСТЕМ УПРАВЛЕНИЯ ОСНОВНЫМИ ДАННЫМИ»

ПРОГРАММИРОВАНИЕ, 2013, No 3, с. 3-14

- БАЗЫ ДАННЫХ И БАЗЫ ЗНАНИЙ -

УДК 681.3.06

АВТОМАТИЗАЦИЯ ПРОЦЕССА НОРМАЛИЗАЦИИ ИНФОРМАЦИИ ПРИ ВНЕДРЕНИИ СИСТЕМ УПРАВЛЕНИЯ

ОСНОВНЫМИ ДАННЫМИ *

© 2013 г. Я.Р. Недумов1, Д.Ю. Турдаков1, В.Д. Майоров1, П.Е. Овчинников2

1 Институт системного программирования РАН 109004 Москва, ул. А. Солженицына, 25

2

115184 Москва, Климентовский пер., д. 1, стр. 2 E-mail: turdakov@ispras.ru. Поступила в редакцию 01.11.2012

Нормализация информации является трудоемким и дорогостоящим процессом, возникающим при внедрении на предприятии программных комплексов для управления основными данными. В статье проводится анализ подзадач, возникающих при выполнении нормализации, и предлагается подход к автоматизации наиболее трудоемких из них. Также описывается программная система, реализующая предложенный подход и автоматически обучающаяся действиям эксперта.

1. ВВЕДЕНИЕ

Основные данные представляют собой общие бизнес-объекты, распределенные между операционными и аналитическими системами, включающие информацию о клиентах, поставщиках, организационных подразделениях, а также нормативно-справочную информацию (НСИ), необходимую для функционирования предприятия [8]. Главная сложность в управлении основными данными состоит в обеспечении их полноты, согласованности и непротиворечивости.

Крупные производители программного обеспечения предлагают собственные решения для управления основными данными. Наиболее известными продуктами в данной области являются SAP NetWeaver M DM. Oracle Master Data Management Suite, IBM MDM Server for PIM, 1C:MDM, Informática MDM. Внедрение таких систем позволяет существенно повысить эффективность работы предприятия.

* Работа выполнена совместно с фирмой 1С и Лабораторией инноватики МФТИ в ходе реализации проекта по Постановлению Правительства России от 9 апреля 2010 г. №218.

Тем не менее, многие предприятия, в особенности средние и малые, недооценивают потенциальный эффект от использования в своей работе систем управления основными данными, заключающийся в возможности значительного снижения трансакционных издержек [6, 11]. Серьезным препятствием для использования является высокая стоимость внедрения таких систем и привлечения к работе высоковалифицированных экспертов, оцениваемая приблизительно в 3-5 долларов на одну запись основных данных. Однако потенциальный положительный экономический эффект, который может достигать нескольких порядков относительно затрат, заставляет искать новые пути решения этой проблемы.

Для существующих программных решений разрабатываются инструменты, позволяющие упростить работу эксперта, но уровень автоматизации этого процесса остается крайне низким. Для того, чтобы понять трудности, возникающие при интеграции основных данных, рассмотрим этот процесс более подробно.

Для многих предприятий характерно ведение различными подразделениями собственных баз данных. Причем эти базы данных часто содер-

жат информацию об одних и тех же бизнес-объектах, но схема данных различается. Так, например, для финансового подразделения при ведении базы материально-технических ресурсов могут быть важны название и стоимость объекта, а для подразделения, занимающегося логистикой, - название, ГОСТ и поставщики объекта. Названия одних и тех же объектов в этих базах могут пересекаться только частично или полностью не совпадать. Кроме того, данные часто содержат опечатки, неточности в описаниях, пропущенные и устаревшие значения. Учитывая, что на крупных предприятиях базы данных содержат сотни тысяч записей, поддержка их в согласованном состоянии является трудоемкой операцией, которая на практике никогда не выполняется.

Наиболее сложным для согласования ресурсом являются хранилища нормативно-справочной информации. В состав НСИ входят словари, справочники и классификаторы, данные из которых используются при формировании новых документов. Таким образом, НСИ составляет одну из основ корпоративной информации.

Нормализацией нормативно-справочной

информации называется процесс "вычистки" записей справочника НСИ, в результате которого

• устраняются ошибки, неполнота и некорректность данных;

ции;

дится унификация наименований элементов справочников.

Правила, по которым должны выполняться все эти действия описываются методикой, создаваемой для каждого предприятия отдельно. Методика пишется на естественном языке и не формализует процесс нормализации досконально, а дает рекомендации эксперту, как проводить нормализацию в тех или иных случаях. Применяя методику, эксперт опирается на собственные знания в предметной области.

Методики, применяемые при нормализации НСИ, различаются в зависимости от программ-

ного решения и организации, занимающейся внедрением, однако можно выделить общие шаги, возникающие независимо от системного интегратора и используемого программного решения.

Так, процесс нормализации предполагает от эксперта выполнения следующих подзадач:

1) классификация объектов;

2) выявление дубликатов и их объединение;

3) определение значений характеристик;

4) установка связей с другими справочниками.

При недостатке информации эксперт может признать запись ненормализуемой.

Для автоматизации решения задачи нормализации требуется формально описать следующее:

1) методику нормализации;

2) модель предметной области для данного предприятия;

3) общие экспертные знания о предметной области.

Создание формального описания для первых двух пунктов трудоемко и экономически нецелесообразно, так как результаты этой работы будут применимы только к одному предприятию. По этой причине экспертам предоставляются более общезначимые, но по этой причине достаточно низкоуровневые средства автоматизации.

Например, основным инструментом экспертов при решении задачи классификации объектов НСИ является поиск по ключевым словам. Конкретный набор ключевых слов зависит от номенклатуры и качества описания позиций справочника (наличие синонимов, опечаток и т. п.) С учетом этих факторов эксперт по НСИ опытным путем формирует необходимые запросы. Например, эксперт, специализирующийся в подшипниках, для отбора соответствующих позиций должен формировать запрос, содержащий в наименовании "Подшипник", "подш", "щипник'^ "подш-ник", "падтипник"^ "подшибник" и т. п.

Компаниями, занимающимися внедрением средств управления основными данными, так же предоставляются средства формализации

общих знаний о предметной области и инструменты работы с ними. Так, компания "Акселот" предлагает набор отраслевых классификаторов, позволяющих упростить внедрение системы 1С MDM. Классификатор представляет собой иерархию классов, описывающих основные бизнес-объекты отрасли. Сопоставляя описания объектов НСИ и поля классификатора, эксперт может понять, какие характеристики имеет тот или иной объект, найти дубликаты и заполнить значения недостающих характеристик. Аналогичные инструменты для SAP MDM, Oracle MDM и IBM InfoSphere MDM предлагает компания "Интертех". Использование формальных описаний отрасли позволяет несколько понизить требования к квалификации экспертов, занимающихся нормализацией.

Построение значений характеристик - самая трудоемкая задача, требующая высококвалифицированных экспертов, обладающих глубокими знаниями в предметной области. Это связано в первую очередь с тем, что для решения этой задачи необходимо идентифицировать объект НСИ по его наименованию, которое, как правило, неполно и, возможно, содержит ошибки. После этого эксперт должен заполнить значения требуемых характеристик, что может потребовать дополнительных данных. Поиск этих данных требует от эксперта большого опыта работы и широких познаний в предметной области.

Из описанных выше проблем становится очевидна невозможность автоматической нормализации НСИ, так как в своей работе эксперты часто руководствуются неформальными знаниями, полученными, например, путем общения с руководством и сотрудниками предприятия. Выходом из данной ситуации может послужить создание систем автоматически обучающихся шаблонным действиям экспертов. В следующих разделах данной статьи мы приводим описание задач, возникающих при создании таких систем, и подходов к их решению.

2. СУЩЕСТВУЮЩИЕ РЕШЕНИЯ

Несмотря на то, что проблема интеграции данных существует несколько десятков лет, инструменты для ее решения стали появляться только в последнее десятилетие. Это связно с тем,

что, исторически в области баз данных и хранилищ данных предполагалось разделение данных и контекста, то есть знаний о природе данных [2]. В частности, поэтому во многих работах по созданию хранилищ данных не уделялось должного внимания разработке автоматических средств интеграции и очистки данных, а проблема поиска и обработки дублирующих позиций перекладывалась на пользователя. Вместо этого предлагалось использовать метауровень, предоставляющий единый интерфейс к различным хранилищам, а интеграция данных должна была происходить на стороне клиента на лету [14].

В последнее десятилетие разработчики корпоративных баз данных осознали необходимость перехода от данных к информации. В связи с этим стали появляться инструменты, позволяющие анализировать данные, извлекать информацию и использовать ее для очистки данных.

Некоторые крупные корпорации предоставляют продукты, позволяющие производить автоматическую нормализацию данных, для которых заранее известна семантика, таких как имена людей и адреса [15].

Однако наиболее распространенным подходом для решения данной задачи является написание правил синтаксического разбора и трансформации [7]. Такой подход обязательно требует вложений средств в обучение персонала. Для смягчения требований к навыкам программирования были предложены системы автоматического вывода правил из неструктурированных текстов [5].

Частные подзадачи нормализации решались в других областях. Так, задача классификации является одной из ключевых задач анализа данных и машинного обучения. В рамках данной работы нас интересовали методы классификации, способные к интерактивному обучению [13].

Задача выделения значений характеристик объектов предполагает анализ текста. С одной ст

Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.

Показать целиком