научная статья по теме СРАВНЕНИЕ СТАТИСТИЧЕСКОГО И НЕЙРОСЕТЕВОГО ПОДХОДОВ КЛАССИФИКАЦИИ РАСТИТЕЛЬНОСТИ ПО ДАННЫМ СПУТНИКА LANDSAT 5 Космические исследования

Текст научной статьи на тему «СРАВНЕНИЕ СТАТИСТИЧЕСКОГО И НЕЙРОСЕТЕВОГО ПОДХОДОВ КЛАССИФИКАЦИИ РАСТИТЕЛЬНОСТИ ПО ДАННЫМ СПУТНИКА LANDSAT 5»

МЕТОДЫ И СРЕДСТВА ОБРАБОТКИ И ИНТЕРПРЕТАЦИИ КОСМИЧЕСКОЙ ИНФОРМАЦИИ

СРАВНЕНИЕ СТАТИСТИЧЕСКОГО И НЕЙРОСЕТЕВОГО ПОДХОДОВ КЛАССИФИКАЦИИ РАСТИТЕЛЬНОСТИ ПО ДАННЫМ СПУТНИКА LANDSAT 5 © 2012 г. А. А. Романов*, К. А. Рубанов

Сибирский федеральный университет, Красноярск *E-mail: arom_work@yahoo.com Поступила в редакцию 06.03.2012 г.

Цель данного исследования — изучение эффективности применения нейронных сетей (НС) в задачах классификации данных дистанционного зондирования Земли (ДЗЗ). В работе приводится описание традиционных методов распознавания, дается характеристика нейросетевого подхода. Представляется ретроспектива применения НС для решения различных задач по обработке данных ДЗЗ. Помимо этого, в данной работе приводятся результаты исследования применимости НС на примере классификации реальных данных ДЗЗ, характеризующих территорию высокой степени гетерогенности. Точность распознавания типов растительного покрова, полученная с помощью нейросетевого классификатора, составила 91%, что превосходит показатели других методов: максимального правдоподобия (82%), расстояния Махаланобиса (78%), минимальных расстояний (64%). Результаты исследования показывают, что присущий гетерогенным данным закон нормального распределения не всегда обеспечивает статистическим алгоритмам преимущества в точности классификации. Предложен формат нейросетевого классификатора для обработки данных ДЗЗ, характеризующихся высокой степенью гетерогенности.

Ключевые слова: дистанционное зондирование, управляемая классификация, нейронные сети, статистические алгоритмы, Landsat 5, тематическое дешифрирование

ВВЕДЕНИЕ

Дистанционное зондирование Земли (ДЗЗ) является одной из наиболее значимых и динамично развивающихся областей современной науки и техники. Достижения последних десятилетий в сфере создания и развития космических систем, технологий обработки, хранения, интерпретации, а также практического использования получаемых данных значительно расширили круг и масштаб задач, решаемых на основе данных ДЗЗ. Постоянно увеличивается число потребителей, а получаемая таким способом информация широко используется как в научных, так и в производственных целях.

Важными этапами использования данных ДЗЗ являются предварительная и тематическая обработка. Первую категорию представляют методы геометрической, радиометрической и атмосферной коррекции, а также процедуры фильтрации и восстановления пропущенных пикселов. Тематическая обработка выполняется после предварительной и направлена на решение определенных задач — извлечение конкретной информации в той или иной области наук о Земле. Основным подходом при тематической обработке является использование аппарата распознавания образов.

Для классификации данных ДЗЗ наиболее часто применяют статистические методы распознавания. Это объясняется тем, что вследствие нерегулярного характера протекания природных явлений результаты ДЗ часто подвержены случайным изменениям, маскирующим характерные различия между классами. Статистический анализ позволяет учесть эти изменения, потенциально уменьшить их отрицательное влияние на точность классификации. Помимо этого, исследуемые классы могут перекрываться в пространстве измерений: некоторые измерения одного класса могут быть неотличимы от измерений других классов. В большинстве этих случаев методы статистического распознавания образов позволяют производить классификацию высокой точности (Кашкин, Сухинин, 2001).

Традиционные методы распознавания образов весьма хороши с точки зрения обеспечения требуемой точности результатов классификации, но при этом требуют достаточно подробной априорной информации о статическом распределении данных. К тому же, широкое распространение данных сверхвысокого пространственного разрешения и гиперспектральных изображений заставляет задумываться о разработке новых методов распознавания.

МЕТОДЫ НЕУПРАВЛЯЕМОЙ КЛАССИФИКАЦИИ

Методы классификации подразделяются на управляемые и неуправляемые. В первом случае аналитик самостоятельно определяет требуемые классы, во втором — лишь указывает их количество.

Методы неуправляемой классификации основаны на процедуре кластеризации, суть которой состоит в определении местоположения центров векторов признаков внутри однородной выборки пикселов. Эти выборки, называемые кластерами, выполняют функцию представителей классов, содержащихся в изображении. Полученные в результате классификации области необходимо идентифицировать и определить, представляют ли они интерес для аналитика. Этот метод оказывается полезным в случае недостатка априорной обучающей информации о данных ДЗЗ. К примеру, неуправляемая кластеризация часто используется для получения обзорных вегетационных карт (карт растительности) (Memarsadeghi et al., 2003).

Одним из наиболее популярных методов кластеризации является алгоритм K-средних. В начале работы алгоритма произвольным образом задается начальное математическое ожидание вектора для каждого из кластеров. Затем каждый пиксел обучающего набора данных назначается классу, чье математическое ожидание вектора признаков наиболее близко к вектору пиксела. Таким способом формируется первый набор границ решения. Затем вычисляется новый набор векторов математических ожиданий кластера, а пикселы соответствующим образом переназначаются. Итерации продолжаются до тех пор, пока в переопределении пикселов на двух последовательных итерациях не будет наблюдаться существенного изменения, определяемого некоторым абсолютным значением (Шовенгердт, 2010).

Одним из наиболее популярных и широко используемых способов кластеризации в ДЗ является ISODATA (Jain, Dubes, 1988; Jensen, 2004). Этот алгоритм является модификацией метода K-сред-них, его важное преимущество заключается в том, что аналитику требуется обеспечить только начальную оценку числа классов, а затем, базируясь на широкой эвристике, алгоритм может оптимизировать количество кластеров, удаляя малоразмерные, объединяя ближайшие или разделяя гетерогенные области (Memarsadeghi, 2003).

На практике методы неуправляемой классификации часто используются для предварительного распознавания исследуемой территории, что помогает снизить сложность подробной тематической обработки, выполняемой на следующем этапе.

СТАТИСТИЧЕСКИЕ МЕТОДЫ УПРАВЛЯЕМОЙ КЛАССИФИКАЦИИ

Метод максимального правдоподобия (ММП) является наиболее часто используемым способом управляемой классификации данных ДЗЗ (Richards, Jia, 2006), в задаче определения класса, к которому принадлежит соответствующий пиксел, особый интерес представляют условные вероятности р(ю/, |х), i = 1, ... M, где ю/ — спектральное представление класса ю/, i = 1, ... M. Вектор измерений х — набор яркостных характеристик пиксела. Такое описание представляет пиксел как точку в мультиспектральном пространстве с координатами, определенными яркостью. Вероятность р(ю/, X) определяет принадлежность конкретного пиксела, характеризуемого вектором х, к одному из заданных классов. Классификация выполняется по следующему правилу:

х е юг, если р(юг,|х) > p(a>j,|х) для всех j Ф i. (1)

Таким образом, пиксел х принадлежит классу ю/, если вероятностьр(ю/, |х) выше. Приведенное решающее правило представляет собой особый случай более общего правила, основанного на статистических закономерностях.

Нужно отметить, что большинство применяемых методов управляемой классификации, основанных на статистических закономерностях, используют в качестве основы Байесовский классификатор (Richards, Jia, 2006).

Несмотря на простоту метода, описываемого в формуле (1), вероятность р(ю/, |х) является неизвестной. Однако предполагается наличие обучающих данных, характеризующих каждый тип распознаваемой поверхности. Эта информация используется для оценки распределения вероятностей каждого вида покрытия, которая описывает возможность принадлежности пиксела х соответствующего классу ю/, Имеющаяся статистическая информация представляется в виде вероятности р(х|ю/). Другими словами, для каждого пиксела, занимающего положение х в спектральном пространстве признаков, рассчитывается набор вероятностей, на основании которых строится гипотеза о принадлежности пиксела к тому или иному классу.

Требуемые вероятности р(ю/, |х) в формуле (1) и имеющиеся р(х|ю/), получаемые из набора обучающих данных, связаны с теоремой Байеса:

р(юi, |х) = р^юг^^, (2)

Р (х)

где р(ю/, |х) — апостериорная вероятность (вероятность того, что пиксел х принадлежит классу ю/); р(ю/) — априорная вероятность (вероятность того, что класс ю/ встречается на изображении); р(х) — вероятность принадлежности пиксела х к любому классу.

Используя (2), можно представить классификационное правило в виде

х е ю/, еслир(х|ю/)р(ю/) >р(х|ю/)р(ю/) для всех/Ф/..

Метод минимальных расстояний (МР) представляет собой значительное упрощение метода максимального правдоподобия, в котором решение о принадлежности пиксела определенному классу принимается на основании сравнения метрики расстояния между яркостью пиксела и средними значениями яркостей классов в муль-тиспектральном пространстве

^ \ (fijm №km) ,

где/и ц — векторы признаков; m — номер спектрального канала; n — общее число каналов; i и j — координаты пиксела; к — метка класса. Пиксел ставится в соответствие тому классу, для которого

значение параметра rk минимально. Это простой и быстрый метод классификации, он требует минимальных сведений о классах, но проигрывает ММП в точности, так как не учитывает окружения пиксела. Вследствие этого данный алгоритм распознавания, как правило, уступает и методам кластерного анализа, и процедурам сегментации по наращиванию областей и выделению границ. Достоинством классификатора МР является то, что он может рассматриваться безотносительно к нормальному закону распределения (Кашкин, Сухинин, 2001).

Преобразовав одну из дискриминантных функций, используемых в методе максимального правдоподобия, ее можно рассматривать как квадратичную меру расстояния

-1

d(x, m) = lni| + (x - mi)(x - mi), (3)

i

и классифицировать пикселы, используя в качестве параметра, оценивая его значение подобно евклидовой метрики для метода минимальных

Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.

Показать целиком