Построение модели в нотации Питера Чена на основе грамматического анализа текста

ГАРКУША Н.А.; ГРИГОРЬЕВ М.В.; ЮСУПОВА А.А.

8. Zhen Ming Jiang, Automated analysis of load testing results // IS-STA '10 Proceedings of the 19th international symposium on Software testing and analysis. Pp. 143-146.

9. Haroon Malik, A Methodology to Support Load Test Analysis // ICSE '10 Proceedings of the 32nd ACM/IEEE International Conference on Software Engineering. Volume 2. Pp. 421-424.

10. Ермыкин А.А. Разработка метода построения комплекса нагрузочного тестирования распределенной информационной системы: дис. ... канд. тех. наук: 05.13.13. - СПб., 2005. 147 л.

11. Бородин А.А. Исследование нагрузочных способностей компьютерных систем // Научно-технические ведомости СПбГПУ. Информатика. Телекоммуникации. Управление. 2014. №3(198). C. 19-27.

12. TCPdump [Электронный ресурс] / URL: https://ru.wikipedia. org/wiki/Tcpdump (дата обращения 29.08.2014).

построение модели в нотации питера чена на основе грамматического анализа текста

гаркуша н.А., Григорьев М.в., Юсупова А.А.

Тюменский государственный университет, Тюмень, Россия

ENTITY-RELATIONSHIP MODELING IN PETER CHEN'S NOTATION THROUGH GRAMMATICAL ANALYSIS OF TEXTS

Garkusha N.A., Grigoriev M.V., Yusupova A.A.

Tyumen State University, Tyumen, Russia

В данной статье, в качестве подхода для построения моделей в нотации Питера Чена, американского профессора компьютерных наук (англ. Peter Pin-Shen Chen), используется грамматический анализ текста. При выполнении анализа производится выборка фрагмента текста из требований, предъявляемых к исследуемым организациям, в котором выделяются именные и глагольные группы. Далее, на основе отношений между именными группами, описываемыми глагольными группами, строится диаграмма Питера Чена для исходного фрагмента текста.

ключевые слова: модель, нотация, анализ, именные группы, глагольные группы, диаграмма, сущность, нотация Чена.

Grammatical analysis of a text as an approach for entity-relationship modeling in Peter Chen's notation is used. In carrying out the analysis, nominal and verbal groups are allocated in text fragments selected from the requirements for organizations under study. Further, based on the relationship between nominal groups described by verbal phrases, Peter Chen's diagram is built for the text fragment.

Keywords: model, notation, analysis, noun phrase, verb phrase, diagram, entity, Peter Chen notation.

Актуальность исследования обусловлена следующими факторами. При проектировании любой информационной системы необходимо сформировать понятия о предметах, фактах и событиях, которыми будет оперировать данная система. Для того чтобы привести эти понятия к той или иной модели данных, необходимо заменить их информационными представлениями. Одним из наиболее удобных инструментов унифицированного представления данных, независимого от реализующего его программного обеспечения, является модель «сущность-связь» (entity - relationship model, ER - model), позволяющая описывать концептуальные схемы.

Модель «сущность-связь» была предложена в 1976 г. американским профессором компьютерных наук Питером Пин-Шен Ченом (англ. Peter Pin-Shen Chen) [11].

ER-модель основывается на некой семантической информации о реальном мире и предназначена для логического представления данных. Она определяет значения данных в контексте их взаимосвязи с другими данными. Важным является тот факт, что из модели «сущность-связь» могут быть порождены все существующие модели данных (иерархическая, сетевая, реляционная, объектная), поэтому она является наиболее общей.

Моделирование предметной области базируется на использовании графических диаграмм, включающих небольшое число разнородных компонентов. Любой фрагмент предметной области может быть представлен как множество сущностей, между которыми существует некоторое множество связей.

В связи с наглядностью представления концептуальных схем баз данных ER-модели получили широкое распространение.

В литературе предложено несколько нотаций для построения ER-моделей, а именно: нотация Питера Чена [11], Crow's Foot (предложена Гордоном Эверестом), Bachman notation, EXPRESS, IDEFlx, Martin notation, Нотация Баркера [6].

Однако среди множества инструментов для работы с ER-моделями, таких как ARIS, ERwin, Microsoft Visio и др., не существует инструментов для создания модели в нотации Питера Чена, в том числе с использованием грамматического анализа текста. Этим и определяется новизна данного исследования.

Объектом исследования является процесс создания концептуальной модели данных в нотации Питера Чена.

Методология исследования включает математический аппарат формальных языков и грамматик, а также формализованные методы работы с текстами на естественном языке.

Подходы к анализу текста

В деятельности архитектора баз данных процесс анализа для идентификации объектов и классов объектов признан одним из самых сложных областей объектно-ориентированной разработки. Существует ряд различных подходов, предлагаемых исследователями к распознаванию объектов, в том числе:

• использование грамматического анализа для описания системы на естественном языке (Abbott, 1983; Robinson, 1992 и т.д.);

• использование значимых элементов предметной области (Shlaer и Mellor, 1988, Coad и Yourdon, 1990, Wirfs-Brock и др., 1990);

• использование поведенческого подхода (Rubin и Goldberg, 1992);

• использование анализа на основе сценариев (Beck и Cunningham, 1989).

Основные принципы текстового анализа были разработаны Расселом Дж. Абботом в статье «Разработка программы посредством неформального описания на английском языке» («Program Design by Informai English Descriptions») [12].

По мнению Г. Буча, Аббот предложил «чрезвычайно простой метод», основанный на текстовом описании.

Аббот представил идею о том, как выделить типы данных, переменные, операторы и управляющие структуры из текста на естественном языке для разработки программ на языке программирования Ада. В своей статье он пишет: «Мы определяем типы данных, объекты, операторы и управляющие структуры, глядя на английские слова и фразы в неформальной стратегии» [12, 884].

Согласно методу Аббота необходимо описать задачу или ее часть на простом английском языке, а потом подчеркнуть существительные и глаголы. Существительные - кандидаты на роль классов, глаголы могут стать именами операций [3, 128].

Среди выделяемых подходов к анализу описаний и спецификаций предметных областей в деятельности архитектора баз данных следует отметить подход, основанный на использовании грамматического анализа для описания системы на естественном языке. Данный подход предполагает проведение текстового анализа на основе выделения существительных и глаголов.

Для построения концептуальной модели, описывающей особенности предметной области, следует использовать модель «сущность-связь», разработанную Питером Ченом, в которой предлагается извлекать именные и глагольные группы для построения моделей данных.

Согласно нотации Питера Чена, предметная область состоит из отдельных объектов, находящихся друг с другом в определенных связях, отношениях. Объекты, описываются различными параметрами или атрибутами; однотипные объекты описываются одним и тем же набором параметров и объединяются в множества или классы; такие классы называются сущностями. Конкретные объекты, составляющие класс, называются экземплярами соответствующей сущности. Между сущностями специфицируются взаимосвязи различного вида: один к одному, один ко многим и др. Отношение в самом общем виде представляет собой связь между двумя и более сущностями. Именование отношения осуществляется с помощью грамматического оборота глагола.

Алгоритм построения концептуальной модели данных в нотации Питера Чена

Для построения модели в нотации Питера Чена необходимо провести анализ текста. Анализ существительное/глагол - очень простой способ анализа текста с целью выявления классов, атрибутов и обязанностей. По сути, существительные и именные группы, встречающиеся в тексте, указывают на обязанности или атрибуты класса, а глаголы и глагольные группы указывают на ответственности и операции класса.

Анализ существительное/глагол успешно применяется в течение многих лет, поскольку основывается на прямом анализе языка предметной области. Однако необходимо помнить о синонимах и омонимах, поскольку они могут стать причиной появления ложных классов.

В ходе исследования был разработан алгоритм построения концептуальной модели данных в нотации Питера Чена:

1. Исходный текст для построения диаграммы анализируется по предложениям.

2. Берем S предложение.

3. Выделяем все существительные (^ и именные группы (ОТ):

N (ОТ) - вопрос кто?, что?

N (№) - функции синтаксических актантов предиката - подлежащее и дополнение.

N (КР) - падежные окончания.

4. Выделяем все глаголы (V) и глагольные группы (УР):

V (УР) - вопрос что делать?

V (УР) - функция сказуемого.

V (УР) - личные окончания.

5. N (КР) указывают на сущность и атрибуты и обводятся прямоугольником.

6. V ^Р) служат признаком связи и обводятся ромбами.

7. Строится диаграмма Питера Чена «сущность-связь».

8. Разбираем остальные предложения в тексте и для каждого строим диаграмму.

9. Когда все предложения разобраны, диаграммы каждого предложения собираем в одну (2 и более одинаковые существительные становятся одним прямоугольником и все ромбы исходят от него).

10. В итоге получаем диаграмму Чена для исходного текста.

Одним из критериев выделения именных и глагольных групп в тексте является падежные окончания у существительных и личные окончания глаголов. Существительные и именные группы, встречающиеся в тексте, указывают на сущности и атрибуты класса, а глаголы и глагольные группы указывают на соответствующие связи между сущностями класса.

Для построения диаграммы Питера Чена был выбран фрагмент текста из требований, предъявляемых к проектным организациям, в котором были выделены именные и глагольные группы.

Диаграмма Питера Чена для исходного текста

Фрагмент текста из требований, предъявляемых к проектным организациям:

«Проектные организации при проектировании предприятий, зданий и сооружений должны обеспечивать высок

Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.

научная статья по теме Построение модели в нотации Питера Чена на основе грамматического анализа текста Биология

Текст научной статьи на тему «Построение модели в нотации Питера Чена на основе грамматического анализа текста»