научная статья по теме К ПРОБЛЕМЕ ОЦЕНКИ КАЧЕСТВА ИНФОРМАЦИИ, ИСПОЛЬЗУЕМОЙ В ЭКОЛОГИЧЕСКИХ ИССЛЕДОВАНИЯХ Биология

Текст научной статьи на тему «К ПРОБЛЕМЕ ОЦЕНКИ КАЧЕСТВА ИНФОРМАЦИИ, ИСПОЛЬЗУЕМОЙ В ЭКОЛОГИЧЕСКИХ ИССЛЕДОВАНИЯХ»

УДК 504.06

К ПРОБЛЕМЕ ОЦЕНКИ КАЧЕСТВА ИНФОРМАЦИИ, ИСПОЛЬЗУЕМОЙ В ЭКОЛОГИЧЕСКИХ ИССЛЕДОВАНИЯХ

И. Л. Манжуров, заведующий лабораторией, Федеральное государственное бюджетное учреждение науки Институт промышленной экологии УрО РАН, mandzurov@mail.ru,

В. С. Казанцев, старший научный сотрудник, Уральский научно-практический центр медико-социальных и экономических проблем здравоохранения, kvs222@yandex.ru,

В. Л. Лежнин, заведующий лабораторией,

Федеральное государственное

бюджетное учреждение науки

Институт промышленной экологии УрО РАН,

Lezhnin@ecko.uran.ru

Процесс сбора первичной информации для экологических исследований вне зависимости от ее источника является, как правило, сложным и многоступенчатым, что создает высокую вероятность искажения некоторой части данных под влиянием «человеческого» фактора и различных причин технического характера. В связи с этим, процессу обработки и анализа собранного материала обязательно должна предшествовать процедура оценки его качества.

В статье рассмотрены методические подходы к оценке качества информации, используемой в экологических исследованиях. Показано, что наиболее распространенными являются локальные алгоритмы предсказания отдельных числовых значений таблиц на основе специальным образом формируемых матриц. С их помощью возможно успешно заполнять пробелы в таблицах наблюдений, а также проводить оценку достоверности содержащихся в них данных. Представлены конкретные результаты оценки качества информации, использованной в исследовании по оценке влияния комплекса экологических, демографических, медико-организационных и социально-экономических факторов на онкологическую заболеваемость населения территориальных образований Ямало-Ненецкого автономного округа, проведенной с помощью программы SPACE.

The process of primary data collection, regardless of their source, for ecological studies is usually complex and multi-stage. This fact accounts for high probability of distortion of some part of data under the influence of a «human» factor and various technical reasons. This is why the processing and analysis of collected data should be preceded by the procedure of quality assessment.

The article describes methodological approaches to assessing the quality of information used in ecological studies. It is shown that the most effective ones are local algorithms of predicting separate numerical data in the tables using specially created matrices. They help fill in blank spaces in the tables and to estimate reliability of available data. The specific results of assessing the quality of information used for the analysis of effects of ecological, demographic, medico-organizational and socioeconomic factors on cancer incidence rates in towns of the Yamalo-Nenets Autonomous District are presented. The data quality wasassessed by the SPACE software.

Ключевые слова: экологические исследования, качество информации, многофакторный анализ.

Keywords: ecological studies, data quality, a multifactor analysis.

Оценка влияния загрязнения окружающей среды на здоровье населения является актуальной задачей для многих регионов Российской Федерации. Для ее решения существуют различные подходы. Большинство исследователей использует однофакторные статистические методы, одним из которых является методика «risk assessment», разработанная Агентством по охране окружающей среды США и рекомендованная для применения международными организациями ВОЗ и UNEP. Она применяется в разных странах, в том числе и в России, хотя, из-за слабых методологических предпосылок и большого числа неопределенностей полученные с ее помощью результаты, в ряде случаев, оказываются недостаточно объективными, а это, в свою очередь, может приводить к неверным выводам.

Несмотря на то, что в большинстве проводимых в настоящее время исследований в области экологической медицины используются однофакторные схемы, нельзя не отметить возрастания интереса к многофакторным методам. Преимущество системного подхода обосновано тем, что общественное здоровье формируется под влиянием многих факторов, среди которых наряду с экологическими имеют значение и связанные с социально-экономическими условиями жизни на территориях, состоянием системы здравоохранения, климатом, демографией и т. д. Поскольку конечной целью таких исследований обычно является разработка практических мер, направленных на улучшение здоровья населения, задача состоит в том, чтобы выявить систему ведущих факторов, влияющих на заболеваемость людей на конкретной территории, и оценить относительный вклад каждого из них.

Из всего многообразия математических методов наиболее подходящими для исследования многофакторных зависимостей являются дисперсионный

анализ, множественный регрессионный анализ, распознавание образов и искусственные нейронные сети (нейросетевые методы). Данные, подлежащие обработке с использованием методов многофакторного анализа, обычно организуются в виде таблиц типа «объект—признак», в которых строки соответствуют наблюдаемым объектам, а столбцы — различным их свойствам. Природа объектов может быть любой. Так, если ставится задача оценки влияния различных факторов на здоровье населения в некотором регионе, то в качестве изучаемых объектов используются муниципальные образования, расположенные на его территории, а в качестве признаков могут служить показатели, характеризующие половозрастную структуру населения, уровень социально-экономического развития, ресурсный потенциал здравоохранения, санитарно-гигиеническую и экологическую обстановку.

Сбор необходимых данных для таких исследований может осуществляться как по системе государственной статистики, так и с использованием других доступных каналов информации. Процесс сбора информации вне зависимости от ее источника является, как правило, сложным и многоступенчатым, что создает высокую вероятность искажения некоторой части данных под влиянием «человеческого» фактора и различных причин технического характера. В связи с этим процессу обработки и анализа собранного материала обязательно должна предшествовать процедура оценки его качества.

Исследование влияния экологических факторов на здоровье людей может проводиться и на индивидуальном уровне. В этом случае объектами наблюдения являются отдельные люди, а в качестве признаков используются такие данные как пол, возраст, наличие вредных привычек (курение, употребление алкоголя), характеристики условий работы и места проживания и т. д. Для сбора информации используют анкетирование, анализ медицинских документов, данные обследования производственных условий и среды в местах проживания. Естественно, уровень неопределенности этих данных также может быть высоким, что обуславливает необходимость предварительного анализа их качества.

Часто встречающейся проблемой при проведении исследований, связанных с оценкой влияния экологических и других факторов на здоровье людей как на индивидуальном, так и на популяционном уровне, является наличие

пропусков в собранных базах данных. Причины пропусков могут быть различными. Иногда отсутствие значения некоторого показателя связано с тем, что он не имеет отношения к соответствующему объекту, а потому любое его значение на месте пропуска бессмысленно. В ряде случаев пробел в таблице обусловлен тем, что соответствующее явление для данного объекта не выявлено. Такой пробел может быть заменен нулем. Однако часто пропуски в таблице действительно указывают на отсутствующие по тем или иным причинам значения, и это обстоятельство требует принятия соответствующих решений по дальнейшей обработке данных.

В некоторых случаях наличие пропусков не является критичным для дальнейшей математической обработки, например, если задача состоит в расчете средних значений. Однако большинство известных методов анализа данных не рассчитано на обработку таблиц с пропусками. Так, в частности, методы построения дискриминантных функций в многомерном пространстве требуют, чтобы векторы, образующие обучающее множество, не содержали пропусков. Наиболее простым путем решения проблемы может быть удаление из таблицы строк или столбцов, содержащих пропуски, однако такой подход ведет к потере информации и не всегда возможен. В качестве альтернативы используются методы прогнозирования или восстановления пропущенных значений в таблицах наблюдений. Вместе с тем, сами методы, а также точность прогнозирования с их помощью, весьма различны, поэтому правильнее говорить не о восстановлении пропущенных значений, а о заполнении пропусков. Рассмотрим кратко основные принципы некоторых наиболее часто применяемых методов.

1. Заполнение пропуска значением соответствующего признака из соседней строки. В этом случае задача решается просто — пропуск заполняется хоть каким-то правдоподобным значением показателя.

2. Заполнение пропуска средним по выборке значением, то есть средним значением величин, присутствующих в соответствующем столбце базы данных.

3. Заполнение пропуска методом ближайшего соседа. Суть этого метода состоит в том, что среди строк таблицы ищется ближайшая к содержащей заполняемый пробел. В качестве меры близости строк таблицы обычно используют евклидово расстояние между ними в

пространстве используемых признаков. Пробел заполняется значением соответствующего признака из ближайшей строки.

4. Заполнение пропуска методом к ближайших соседей. Задача решается аналогично, с той разницей, что в качестве замещающего значения берется среднее арифметическое значение признака по к (к > 1) ближайших строк. При усреднении могут использоваться веса (множители), обратно пропорциональные расстояниям от строки с пробелом до выбранных ближайших строк.

5. Заполнение пропуска методом многомерной линейной регрессии. Для предсказания пропущенного значения в данном случае используется линейная регрессионная модель зависимости признака-столбца, содержащего данный пробел, от значений остальных признаков-столбцов или некоторых из них.

Существуют и более сложные способы заполнения пропусков, использующие регрессионный, корреляционный и кластерный анализ [1], лингвистические [2] и н

Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.

Показать целиком