<<
>>

Общие аналитические операции и методы пространственно-временного моделирования

Несмотря на то что хранящиеся в ГИС сведения представляют собой основную ценность, они приносят реальную пользу только при их использовании для решения прикладных задач. Каждая ГИС наряду с модулями для ввода и вывода данных обязательно имеет средства, предназначенные для выполнения общих функций пространственного анализа и средства для решения специфических задач пользователя.

Эти средства зависят от моделей данных, поддерживаемых ГИС и используемых для решения задач пользователя. В результате конкурентной борьбы между коммерческими ГИС к настоящему времени сложился перечень функций, наличие которых практически обязательно для таких ГИС. Это, прежде всего, функции организации выбора объектов по тем или иным условиям, функции редактирования структуры и информации в базах данных, функции картографической визуализации, картометрические функции, функции построения буферных зон, анализа наложений, функции сетевого анализа и др.

Широкий круг операций поддерживается в той или иной мере многими геоинформационными системами. Это процедуры кластеризации и классификации, построения изолиний, проверки статистических зависимостей (факторный и корреляционный анализы), геометрических и проекционных преобразований геометрических данных. Рассмотрим перечисленные возможности более подробно.

Пространственный анализ чаще всего проводится в целях выявления следующих отношений: закономерностей в структуре или особенностей распределения объектов, а также их характеристик в пространстве; наличия и вида взаимосвязей в пространственном распределении нескольких классов объектов или отдельных характеристик; тенденций развития явлений в пространстве и во времени.

Еще одной задачей пространственного анализа является выбор

решения с учетом пространственных характеристик (расстановка антенн и определение их характеристик для обеспечения непрерывной радиосвязью поездов в процессе движения, выбор оптимального маршрута проезда по Москве с учетом ограничений и прогнозируемой скорости движения по улицам города и др.).

При проведении пространственного анализа можно использовать только те представления объектов реального мира, которые возможно реализовать с помощью моделей данных, заложенных в систему. Как уже было отмечено ранее, в ГИС используется два основных подхода к описанию пространства: подход, основанный на структурировании пространства, т.е. выделении пространственных объектов, указании характера их локализации в пространстве, границ и в некоторых'случаях взаимосвязей с другими объектами; подход, основанный на неструктурированном представлении пространства. В этом случае все изучаемое пространство, как правило, представляется множеством ячеек заданного размера и формы, в которых определены усредненные параметры или характеристики, соответствующие этой части пространства. Это могут быть характеристики, которые принимают любые значения из заданного интервала (температура, соленость, количество осадков) или характеристики из заданного перечня (лес, озеро, луг, пашня и т.д.). Несмотря на то, что в этом случае используются названия объектов, фактически они не существуют, не определен характер их локализации, не заданы границы, без выполнения процедуры структуризации невозможно подсчитать количество объектов и т.д.

Определяя основные задачи анализа, мы говорили о свойствах и характеристиках объектов или точек пространства. Следует учесть, что они также совсем не однородны. Прежде всего необходимо разделить все характеристики на качественные и количественные. С количественными характеристиками можно выполнять различные операции, качественные характеристики можно главным образом сравнивать. Сравнивая, мы обычно пытаемся ответить на два вопроса: совпадают ли сравниваемые характеристики или объекты? Можно ли определить порядок этих характеристик или объектов?

Если удается ответить только на первый вопрос, то говорят, что объекты описаны в номинальной шкале или шкале категорий, если мы можем ответить и на второй вопрос, то объекты описаны в ранговой шкале.

Функции работы с базами данных.

Функции анализа в этом случае включают в себя: изменения структуры баз данных (добавление или удаление полей, изменение их типов); ввод новых данных и редактирование имеющихся, в том числе в автоматическом режиме и посредством выполнения специальных процедур анализа, таких, как вычисление площадей или определение соседей; простой поиск сведений; поиск необходимых данных с использованием запросов типа SQL (см. 2.1) либо QBE с одновременным выделением выбранных объектов как в таблицах баз данных, так и на картах; вычисление (калькуляцию) новых значений поля по характеристикам других полей базы данных или других баз; создание производных баз данных путем объединения (классификации) записей исходной базы или выбором части полей исходной базы; объединение баз по общему (ключевому) полю и др. Эти функции значительно чаще других используются при анализе данных в ГИС. Их реализация в разных системах различна. В некоторых из них результаты любого запроса становятся самостоятельным элементом (GeoMedia Professional, Maplnfo Professional), с которым можно обращаться так же, как и с любым другим (классом объектов, таблицей и т.п.), т.е давать ему имя, настраивать его визуализацию, конструировать к нему новые запросы, использовать его в других операциях. Иногда результат запроса можно сохранять как самостоятельный элемент (тема в ArcView GIS), а можно использовать на последующих этапах анализа без сохранения. Например, в ArcView GIS выбранные объекты одной темы могут быть использованы для выбора из другой темы объектов, удовлетворяющих определенным геометрическим условиям (находятся полностью внутри, полностью содержат, имеют своим центром, содержат центр, пересекаются, отстоят от центра) и др.

Формирование и редактирование пространственных данных. Во всех полнофункциональных ГИС есть средства формирования и редактирования пространственных данных. С точки зрения анализа нас интересуют такие средства, в которых при формировании или редактировании одних данных используются другие.

Так, в системе ArcView GIS присутствуют следующие операции ввода/редактирования: разбиение полигонов линиями; слияние полигонов; создание полигона с дыркой, задаваемой вторым полигоном; удаление области перекрытия между полигонами (вычитание одного полигона из другого); получение пересечения полигонов.

При выполнении указанных операций можно задать способ вычисления значения каждого поля вновь созданных объектов.

Среди функций редактирования данных для систем, не поддерживающих топологические модели данных, есть функции, позволяющие из любых данных создавать топологически корректные структуры, т.е. структуры, не имеющие самопересечений, пустот и перекрытий между полигонами, перехлестов и недоводов для линейных объектов.

Так, при удалении перекрытий в системе Maplnfo Professional участок перекрытия будет присоединен к тому полигону, площадь которого больше, и удален из полигонов с меньшей площадью. При удалении пустот между полигонами задается максимальная площадь, которую может иметь удаляемая пустота. Пустотная область присоединяется к тому из соседних с ней полигонов, площадь которого больше.

Для обеспечения топологической корректности информации в Maplnfo Professional предусмотрены также операции «Совмещение и генерализация». Три главные функции этой группы операций: совмещение узлов разных объектов; разреживание узлов/генерализация; удаление избыточных полигонов.

При выполнении этих операций необходимо настроить некоторые параметры: допуски расстояний до конечных и промежуточных узлов в первой функции, расстояния между узлами, величины коллинеарных отклонений (стрела прогиба для трех точек) — во второй, максимальная площадь — для третьей.

Геокодирование. Большое внимание в современных ГИС отводится геокодированию — привязке к карте объектов, расположение которых в пространстве задается сведениями из таблиц баз данных. Эта информация может быть представлена следующим образом: координатами объектов — прямоугольными или географическими, например точки привязки шурфов в геологических или почвенных исследованиях, координаты которых получены приемниками глобальной системы позиционирования Глонасс или Навстар; адресами объектов в адресной системе урбанизированных территорий, например при привязке баз данных паспортной службы или налоговой инспекции; почтовыми индексами, например в случае анализа деятельности почтовых террористов; расстоянием от начала линейных маршрутов, например при привязке данных об авариях на нефтепроводах или аварийно-опасном приближении растительности к воздушным линиям электропередач.

Функции геокодирования позволяют «привязывать» базы данных, которые ведет большинство ведомств, обслуживающих урбанизированные территории и население, на них проживающее, к картам территорий.

Картометрические функции. К картометрическим функциям, реализованным в большинстве ГИС, относятся расчеты площадей, длин, периметров, площадей реальных поверхностей, объемов, заключенных между поверхностями.

К. этой категории можно отнести и функции вычисления вторичных характеристик поверхностей — углов наклона, экспозиций склонов, зон видимости и др.

В некоторых системах при определении перечисленных характеристик учитываются свойства картографических проекций, с одной стороны, а также реальный рельеф — с другой.

Расстояния между двумя точками на плане или в проекции Гаусса-Крюгера могут быть вычислены по теореме Пифагора

D = J(X2-Xiy+(Y2-Yl)2.              (2.7)

При вычислении того же расстояния между удаленными точками на сфере придется воспользоваться формулами сферической тригонометрии

D = Д5;              (2.8)

cos5 = sinlt;p|Sinlt;p2 + coslt;plcoslt;p2cos(X2 - A.,).              (2.9)

Для полигона, заданного прямоугольными координатами на плане, площадь может быть вычислена по довольно простой формуле:

^=0,5Еад+.-^-.)gt;              (2.Ю)

где сумма вычисляется для всех п вершин полигона, при этом для первого слагаемого Ai_i = Х0 — это Л'-координата п-й вершины

полигона, а для последнего слагаемого Хп+{ — это ^-координата первой вершины.              -

Полученное значение плошали имеет положительный знак (для правой системы координат) при ее обходе по часовой стрелке и минус — в противном случае.

При использовании карты в любой проекции, включая равновеликие, необходимо вводить поправки за искажение площадей (для равновеликих вычислять масштаб площадей).

Масштаб площадей может быть вычислен в результате деления известной площади некоторого участка на поверхности эллипсоида на площадь его проекции на карте.

Таким участком может быть сфероидическая трапеция, заключенная между параллелями и меридианами.

Площадь трапеции на поверхности эллипсоида равна

S = lt;^(1 - е2)( Я.2 - X|)((sinlt;p2 - sinlt;pi) + 2/3e2((sin3lt;р2 - sin3lt;pi) + '

+ 3/5e4(sin5lt;p2-sin5lt;p|))],              (2.11)

где Я.2 и A.| — долготы меридианов; lt;p2 и lt;pi — широты параллелей, ограничивающих трапецию; а — большая полуось; е — эксцентриситет эллипсоида.

Площадь на карте зависит от вида проекции и может быть вычислена как площадь полигона, интерполирующего положение параллелей и меридианов в пределах трапеции.

Для вычисления объема тела, ограниченного двумя поверхностями, например при оценке объемов земляных работ, и цилиндрической поверхностью, имеющей в качестве образующей заданный полигон в плоскости карты, можно воспользоваться представлением поверхностей в виде TIN или GRID моделей.

Объем призмы, имеющей основанием треугольник, может быть вычислен по формуле />v= ^осн(Л. + Л2 + Лз)/3,              (2.12)

где — площадь основания; hx, h2 и h} — отметки в вершинах треугольника.

Создание моделей поверхностей и анализ растровых изображений. К этому классу относятся модели, построенные по регулярным и нерегулярным точкам, а также модели двух- и трехмерной визуализации, например построение панорамы водосборного бассейна в аксонометрической или иной проекции. Расчет моделей производится по содержащимся в базах данных численным характеристикам. Моделироваться может как действительный рельеф или непрерывное поле (современное или с учетом динамических изменений), так и воображаемые поверхности, построенные по одному или нескольким показателям, например поверхность углов наклона, плотность дорожной сети или водных объектов и т.п.

В модуле для анализа и трехмерного отображения данных «Поверхность», появившемся в Maplnfo 5.5 и предназначенном для работы с моделями типа «поверхность», реализованы следующие задачи: построение поверхности (матрицы высот) по триангуляционной сети методом Делоне; построение двойственной к триангуляции системы планарного разбиения — на базе многоугольников Вороного; построение изолиний по поверхностям (изолинии строятся как в виде линий, так и в виде полигонов); визуализация данных о значении в узлах поверхности; отсечение части поверхности (позволяет отсечь объектом типа «полигон» ненужную часть поверхности); построение профилей по поверхности; построение профилей по таблице изолиний и точно по точкам пересечения профиля с изолиниями; эта функция позволяет построить профили сразу по нескольким поверхностям; вычисление углов наклона к поверхности относимости для

каждой точки поверхности;              ' расчет зон прямой видимости методами «Из точки наблюдения» и «В точку наблюдения»; трехмерная визуализация поверхности, а также по значениям вертикальной компоненты картографических объектов (точек, линий, полилиний и полигонов). Функции настройки вида поверхности: выбор угла наклона, масштаба, способа отрисовки — отмывка, в виде «сеточной модели», рендеринг, настройка цвета и палитры, свойств отображения — коэффициентов рассеивания, отражения и прозрачности, определение точки фокуса, точки наблюдения и угла для отображения поверхности В перспективе; арифметические операции с поверхностями. Эта функция позволяет выполнить простейшие операции над таблицами типа «поверхность», которые можно описать следующим образом:

GR = G1 {+, -, *, /} G2,

где Gl = kl {+, -, *, /} FG1; G2 = k2 {+, -, *, /) FG2; kl и k2 - коэффициенты; FG1 и FG2 — значения в ячейках таблиц исходных поверхностей (одна из поверхностей может отсутствовать). Результат арифметической операции — новая таблица поверхности со значениями GR в ячейках.

Аналогичный модуль для работы с полями (Грид-темами) в системе ArcView GIS называется Spatial Analyst.

Прежде всего он позволяет преобразовывать любую из векторных тем ArcView GIS (включая темы в формате CAD) в растровый формат 1рид-темы, а затем использовать все доступные аналитические возможности грид-анализа: создание поверхностей по этим темам, буферизация пространственных объектов, расчет близости точек пространства к тем или иным объектам и др. Грид-темы могут быть также созданы из растровых изображений стандартных форматов.

Функции расстояний включают расчет как расстояния в метрике географического пространства, так и мер близости в других метриках (расстояние по дорогам, время движения, стоимость перевозок).

По значениям мер близости пространство разделяется на отдельные зоны тяготения к тому или иному центру: например зоны обслуживания населения поликлиниками. Расчет расстояний от одной точки до другой можно осуществить с учетом стоимости передвижения в пространстве. Так, например, свое влияние в оценку расстояний могут вносить характеристики грунтов, почв, рельефа, что позволяет оценить затраты на прокладку дороги или других линейных сооружений. Поверхности «стоимостей» по отдельным показателям могут быть объединены в суммарную поверхность оценки стоимости выполнения работ для выбора оптимальной (наиболее дешевой) стратегии.

Модуль позволяет моделировать поверхность по отдельным точечным данным, интерполировать изолинии, рассчитывая уклоны наклона и экспозиции склонов полученной поверхности.

Функции построения изолиний позволяют интерполировать поверхность и строить изолинии по значениям в отдельных точках с использованием одного из четырех предлагаемых в ArcView GIS методов интерполяции: ОВР — обратно взвешенных расстояний (средневзвешенных значений соседних точек по заданному числу соседей или в пределах указанного радиуса); сплайн — создание поверхности с минимальной кривизной; тренд — подбор наилучшей в смысле некоторого критерия функции с использованием всех входных точек из заданного класса функций, например полиномов заданного порядка. Обычно в качестве критерия выбора используется минимизация суммы квадратов отклонений построенной функции от исходных значений; кригинг — многоступенчатый подбор математической функции для заданного числа точек или для точек в пределах заданного радиуса для распространения зависимостей на все точки.

В модуль включены разнообразные функции вычислений и анализа по грид-поверхностям. Функции этой группы позволяют проводить вычисления: уклонов, экспозиции склона, освещенности рельефа при регулируемых азимуте и высоте взгляда (отмывки), кривизны поверхности, а также определять зоны видимости из одной или нескольких точек наблюдения.

Любая из грид-тем может быть представлена в более удобном виде с помощью возможности классификации и переклассифика-

ции грид-тем. Для растровых слоев существует два типа классификации: равноинтервальная или по стандартному отклонению от среднего. Количество классов задается пользователем. Можно провести переклассификацию в грид-теме или присвоение новых значений.              -

Любая из грид-тем может визуально получить объем за счет использования значений другой грид-темы (например, рельефа), в качестве показателя, который определяет высоту ячейки. Это полезно для наглядного отображения зависимостей между данными двух тем.

Особую группу представляют функции статистического анализа грид-тем. Например, можно получить сведения о максимальном и минимальном значениях, а также о стандартном отклонении, что весьма полезно при выборе типа классификации и количества классов.

Для сравнения нескольких грид-тем имеются функции поэлементных арифметических, логических операций и операций отношения, которые позволяют определить минимум, максимум, среднее, преобладающее значения.              '

Функции картографической алгебры позволяют производить расчеты значений ячеек по одной или нескольким грид-темам. Математические операторы включают четыре группы: арифметические (сложение, вычитание, умножение, деление значений грид- тем), логические (проверка значений на соответствие ИСТИНА или ЛОЖЬ), сравнительные (соответствие условию сравнения), бинарные (вычисления бинарных значений) действия. Кроме того, доступны логарифмические, специальные математические (абсолютное значение, целочисленная часть и т.п.), тригонометрические (синус, косинус, тангенс и т.д.) и степенные функции. С помощью этих функций можно, например, определять наиболее подходящие местоположения для различных объектов по сумме факторов, производить прогноз развития процессов, изменяющихся по установленным закономерностям.

Имеются функции пространственного анализа грид-тем, например, можно построить гистограммы распределения значений по ячейкам как по всей теме, так и в пределах произвольно обозначенного на карте района или по определенным зонам другого покрытия. Например, можно подсчитать количество ячеек зоны затопления (или их общую площадь), попадающих в различные виды землепользования (селитебная зона, сельскохозяйственные угодья, транспортные магистрали и т.д.), или проанализировать распределение ячеек разной загрязненности в селитебной или производственной зоне.

В модуле реализованы функции, позволяющие выполнять простые гидрологические расчеты, например, определение направления потока воды, попадающей в ячейку, выделение водосборов и построение дренажной сети разного порядка. Эти функции полезны, например, при оценке распространения загрязнения с поверхностными водами, оценке запасов вод и опасности наводнений.

В этом же модуле реализованы функции геометрической трансформации, предоставляющие возможности как простого смещения и поворота снимка, так и устранения некоторых по1решностей снимка путем полиномиальной трансформации. С помощью этих функций соседние снимки, например, могут быть подогнаны друг к другу и объединены в единый снимок с учетом зон перекрытия.

Построение буферных зон. Буферные зоны — полигоны, границы которых отстоят на определенное расстояние от границ исходных объектов. Например, при расширении зоны, занятой трубопроводом, для прокладки новой линии, функциями ГИС может быть создана зона отчуждения вокруг реконструированного трубопровода. Буферные зоны могут создаваться для точечных, линейных и площадных объектов. Во многих случаях расстояние от 1раницы объекта до полигона может зависеть от атрибутивных данных, например, длины реки или численности населения города. В некоторых случаях в ГИС предусмотрено построение сразу нескольких буферных зон разных радиусов.

Так, Мастер построения буферных зон в ArcView GIS позволяет выполнить настройку следующих параметров: темы, для объектов которой строятся буферные зоны; объектов (всех или выделенных), для которых выполняется построение; варианта построения (заданного радиуса, радиус определяется заданным полем таблицы данных, несколько зон или колец заданных радиусов); характеристик выбранного варианта; размерности характеристик; вида соединения зон для отдельных объектов (без объединения, с объединением); способа отображения буферных зон (показывать в активном виде, создать новый вид); пути и имени файлов для сохранения результатов.

В Мастере системы Maplnfo Professional дополнительно указывается, какое расстояние следует использовать (на сфере или на плоскости), а также каким многоугольником интерполировать окружности буферной зоны, например, двенадцатиугольником.

Оверлейные операции. Суть этого достаточно мощного средства анализа множества разноименных и разнотипных по характеру локализации объектов состоит в наложении двух разноименных слоев (или множества слоев, большего двух, при многократном повторении операции попарного наложения) с генерацией производных объектов, возникающих при их геометрическом наслоении и наследованием их семантики (атрибутов). Наиболее пракги- чески важен и распространен случай оверлея двух полигональных слоев. Возникающие при этом вычислительные трудности связаны с большими затратами машинного времени на поиск координат всех пересечений, образующих полигоны линейных сегментов (возрастающих экспоненциально при росте числа полигонов), восстановление топологии полученной производной полигональной сети при так называемом топологическом оверлее и присвоения им атрибутов с вполне очевидной разницей в «механике» наследования атрибутов качественного (символьного) или количественного (числового) типов. Причем в алгоритмах операции наложения могут присутствовать логические операции типа AND, OR, XOR (исключающее «или») и NOT.

Сетевой анализ. Сетевой анализ позволяет пользователю решать различные задачи на пространственных сетях связных линейных объектов (реки, дороги, трубопроводы, линии электропередач и т.п.). В описании каждого вида сетей наблюдается много общего, но имеются и некоторые различия. Транспортные сети представляют собой различные классы дорог, объединенные вместе перекрестками. Авиалинии и пути движения судов похожи на дорожные сети, однако их положение не имеет строгой координатной привязки к поверхности. Электрические сети, прежде всего, характеризуются наличием в них различных типов кабелей, а сети трубопроводов для поставок воды, нефти или газа — диапазоном диаметров труб, типами станций и т. п.

В классическом представлении сеть считается набранной из линий, которые могут иметь не более двух общих точек с другими линиями — начала и конца. Точку соединения принято называть узлом. Однако далеко не всегда такое представление является естественным, часто оно затрудняет общее представление и анализ. Так, например, в сетях водопроводов труба большого диаметра с серией труб малого диаметра, отходящих от нее, будет представлена как серия секций трубы большого диаметра, разделенных узлами в местах соединения с трубами малого диаметра. В то же время ее удобнее было бы трактовать как единое целое, и, наконец, при незначительной длине трубу большого диаметра можно считать узлом, из которого выходят трубы малого диаметра. В зависимости от трактовки результаты анализа могут значительно различаться.

Другим важным фактором, определяющим сеть, является способ соединения ее элементов. Во всех типах сетей встречаются два типа соединений — «из/в» и «из/через».

Первый тип соединения относительно прост и встречается чаще. Он характерен, например, для водных потоков различных порядков.

Второй тип означает, что объект А соединяется с В через промежуточный С. Такой тип соединения характерен для электрических сетей. Например, серия кабелей подходит к узлу, серия кабелей выходит из него, однако не все кабели соединяются со всеми. Этот тип соединения нельзя описать конструкциями первого типа.

Учет типов сетей и особенностей их соединений обязателен при проведении анализа, иначе трудно правильно интерпретировать полученные результаты.

Математически сети описываются теорией графов, а решение многих сетевых задач дает линейное программирование.

Обычно сетевой анализ служит для нахождения ближайшего, наиболее выгодного пути определения уровней нагрузки на сеть, для установления зон влияния на объекты сети других объектов. Типичной задачей может быть, например, составление перечня улиц, жители которых отправляют своих детей в одну из наиболее близко расположенных школ. Критериями, позволяющими определить зоны влияния в этом случае, могут служить расстояние до школы, безопасность пути, интенсивность движения транспортных средств, количество школьников, которых школа может вместить, и т.п.

С участками сети обычно связывают понятие направления движения, данные о котором хранятся в БД, связанной с сетью. Другими данными, относящимися к сети, могут быть интенсивность потока, его временные интервалы и т. п.

Обычно функции сетевого анализа реализуются в дополнительных к полнофункциональным ГИС-модулях. Для системы ArcView GIS это модуль Network Analyst, для GeoMedia Professional — GeoMedia Network.

Модуль Network Analyst предлагает дополнительные функции к ArcView GIS для анализа линейных сетевых тем, таких, как дороги, линии коммуникаций, городские улицы, реки и др.

Среди решаемых задач можно выделить следующие: поиск ближайшего пункта обслуживания (центра, предоставляющего определенные услуги); разработка кратчайшего маршрута (с учетом направлений движения, ограничения передвижения по дорогам и другие правила дорожного движения); подготовка маршрутного листа передвижения (маршрут может быть разработан как для проезда из одной точки в другую, так и для посещения нескольких мест — задача коммивояжера. Подготовленный маршрутный лист может быть сохранен в обычном текстовом файле и при необходимости выведен на печать. Маршрутный лист передвижения может включать названия начального и конечного пунктов, длину или время перемещения по каждой из улиц, подробное описание ориентиров, полное или краткое название улиц или дорог); определение зон обслуживания (доступности) позволяет найти ареалы зон, равноотстоящих от любых пунктов или центров, расположенных на сети. Равноотстояние может определяться расстоянием или временем перемещения.

Для правильной работы с сетями они должны быть снабжены дополнительной информацией: об одностороннем движении вдоль дорог, наличии или отсутствии запретов поворотов и съездов с автострад, участках дорог в тоннелях и на мостах и т. п. Если пункты движения будут указываться адресами, то линейная сеть должна быть подготовлена к геокодированию, т.е. улицы иметь названия, начальные и конечные номера домов по четной и нечетной сторонам.

На сетях решаются и другие транспортные задачи, например задачи диспетчеризации или контроля и управления движением нескольких подвижных объектов. Как правило, положение объектов в этом случае определяется с помощью приемников систем глобального позиционирования, которыми оснащены подвижные объекты. Информация о местоположении передается по телекоммуникационным каналам на диспетчерский пункт, где обрабатывается и используется для принятия управленческих решений. Такими пунктами оснащены службы спасения, службы инкассации, службы контроля за рыболовецкими судами и даже служба контроля за работой зерноуборочных комбайнов, например при губернаторе Ульяновской области.

Штурманские навигационные системы устанавливаются не только на морских судах и самолетах, но и в большинстве современных элитных автомобилей.

Агрегирование данных. Агрегирование данных предполагает переход к собирательным, обобщенным характеристикам объектов, сгруппированным по различным критериям.

Первый способ группировки — объединение объектов одной темы в соответствии с их размещением внутри полигональных объектов другой темы.

В системе Maplnfo Professional из таких агрегированных данных могут быть созданы новые типы объектов — Группы точек и Коллекции. Группы точек объединяют точечные объекты.

Объект «Коллекция» может включать объекты разных типов локализации — точечных, линейных и площадных, которые становятся одним объектом. Например, так могут быть объединены в один все водные объекты Карельского перешейка — ключи, реки и озера, которые образуют систему Вуокса.

Второй способ группировки — объединение объектов по равенству значений определенного атрибута. Например, если выполнена оценка состояния инженерных коммуникаций в микрорайонах города, то можно составить карту районирования территории по этому показателю, выполнив агрегирование данных. Если два соседних микрорайона имеют один уровень состояния, то они будут объединены, а общая граница между ними удалена. Атрибутивная

информация объединяемых районов также агрегируется — в зависимости от вида атрибута может вычисляться суммарное значение, среднее или средневзвешенное, максимальное или минимальное.

Одним из вариантов агрегирования является функция Maplnfo Professional «Оконтуривание объектов». Эта функция создает выпуклую оболочку вокруг выделенного объекта или объектов. Атрибутивные данные при этой процедуре не объединяются. Выпуклая оболочка может быть одна для всех выделенных объектов или для каждого объекта своя.

Зонирование. Основное назначение функций этой группы состоит в построении новых объектов — зон, т.е. участков территорий однородных в смысле выбранного критерия или группы критериев. Границы зон могут либо совпадать с границами ранее существовавших объектов (задача определения (нарезки) избирательных округов по сетке квартального деления), либо строиться в результате различных видов моделирования (зоны экологического риска). Типичные задачи этого типа — выделение зон различной степени проходимости, экологического риска, зонирование урбанизированных территорий по транспортной доступности, построение зон обслуживания поликлиник и т.д. Работа может проводиться как с растровыми, так и с векторными моделями. Расчеты осуществляются как по одной, так и по группе характеристик и могут быть обобщены по заданным пользователем критериям.

Операция построения районов может выполняться и полностью вручную (например, в Maplnfo Professional). Эта функция позволяет создавать новые районы, перепланировать существующие и т.д. Например, можно осуществить построение избирательных округов или зон обслуживания поликлиник из единиц административного деления. При выполнении этой операции автоматически пересчитываются обобщенные числовые характеристики для всех районов, например число избирателей или детей школьного возраста. Это позволяет учесть множество сложно формализуемых критериев.

Операции зонирования могут быть основаны на формальных методах кластерного анализа в пространстве признаков и перенесении результатов кластеризации в географическое пространство (см. 2.2.2). Например, в результате раскопок скифских курганов археологами было найдено значительное число кинжалов, которые отличались по размеру и пропорциям отдельных частей. Кластеризация с использованием алгоритма с условным названием «Плесень» позволила, с одной стороны, вьшелить устойчивые группы объектов в пространстве признаков, а с другой — проследить слияние этих групп при изменении параметра, определяющего близость объектов. Перенесенные на карту результаты кластеризации позволили подтвердить гипотезу археологов о связях отдельных племен.

Специализированный анализ. Далеко не все ГИС снабжены возможностями специализированного анализа, например, ориентированного на вопросы собственно экологии, геологии или географии. Связано это с тем, что четкой схемы проведения таких работ не существует и организации, занимающиеся ими, предпочитают производить анализ по собственным методикам и правилам. Работа со специфическими данными является характерной чертой этого типа анализа. Кроме того, нельзя не учитывать, что взгляды на приемы его ведения могут меняться с течением времени. Поэтому такие возможности в ГИС зачастую дополняются средствами создания приложений самими пользователями. Однако некоторые фирмы, такие, как Intergraph Согр., ESRI, Inc., предоставляют пользователям возможность укомплектовать систему фирменными модулями, реализующими специализированные анализы, в частности геологический и геофизический, гидрогеологический, экологический и др. В пакет фирмы Intergraph Согр., посвященный геологическому анализу, входят: работа с сейсмическими данными, анализ геологического разреза, интерпретация геофизических данных и т.п.

Рассмотрим методы пространственного анализа, применяемые в науках о Земле, которые пользователь ГИС в настоящее время не сможет реализовать, используя средства известных ГИС. Их набор нельзя определить однозначно. Исследователи обычно сами, в зависимости от целей, отбирают свою группу методов, система которых, на их взгляд, дает достаточно полную реализацию целей пространственного анализа. В целом же наиболее широко используются разработки, базирующиеся на математической статистике. На них приходится не менее 80 % всех специализированных алгоритмов. Вначале специалистам, занимающимся наукой о Земле и обществе, — экологам, географам, геологам, почвоведам, экономистам и другим, было достаточно простого статистического анализа пространственно-распределенных данных — вычисление средних квадратических отклонений, дисперсии, коэффициентов вариации, оценки согласия распределений с помощью критериев Пирсона (х2), А. Н. Колмогорова, расчеты прямолинейной и нелинейной корреляции, корреляционных отношений, различных видов регрессий и др. Несколько позднее они обратились к дисперсионному и дискриминантному анализу, а также к анализу временных рядов.

Но особенно широкое распространение получили статистические модели снижения размерности многомерных массивов географических данных — факторный анализ и метод главных компонент. Например, только в книге В. М. Жуковской и И. Б. Мучника [ 1976] приводятся десятки направлений применения данных методов. Не менее популярны алгоритмы классификации географических объектов на основе комплексов характеризующих их показателей, которые будут рассмотрены в следующем подразделе.

Среди всего многообразия алгоритмов встречаются как неконтролируемые (называемые также автоматичеокими, или «без учителя»), так и контролируемые («с учителем») классификации, которые позволяют «обучать ЭВМ» на отобранных эталонах любым принципам группировки изучаемых объектов с последующей дифференциацией всей их совокупности по тем же критериям, которые могут быть даже интуитивными, неформализованными. В географии все модели классификации (как неконтролируемые, так и контролируемые) разделяются на подвиды. Так, для типологии географических объектов по комплексу показателей пригодны модели, учитывающие гомогенность объединяемых в одну группу территориальных единиц. Для оценочной классификации наряду с условием гомогенности необходима иерархическая упорядоченность между собой формируемых групп.

В некоторых случаях типологические, или оценочные, характеристики служат основой для районирования. «Районирование отличается от географической дифференциации тем, что оно означает “разбиение” целого на целостные же части, объединяемые взаимными связями... В отличие от ареала район внутренне неоднороден, так как для него всегда характерна та или иная внутренняя территориальная организация, тогда как для ареала типично лишь состояние внутренней однородности» [Ю.Г.Саушкин, 1973. — С. 415]. Районирование до последнего времени выполнялось вручную на уровне логических обобщений, формализовать весь комплекс которых пока не представляется возможным, но отдельные требования легко выполнимы. Так, уже давно созданы алгоритмы, выполняющие условия выделения территориально нерасчлененных группировок территориальных единиц с использованием матриц соседства.

Достаточно широко распространилось имитационное моделирование. Хорошим и простым примером может служить имитация развития системы населенных мест (И.С.Матлин, 1971]. В основу эксперимента закладывались правила развития системы и на ЭВМ «проигрывались» пути их реализации с помощью алгоритма статистических испытаний (метода Монте-Карло). Результат, полученный И. С. Матлиным, не только имитирует сеть поселений, но и подчеркивает их иерархию, связанную с основным положением теории центральных мест.

Можно привести ряд других примеров, связанных с имитацией пространственного распространения болезней, эпидемий и т.п. Для этих целей применяются различные модели: от имитации эпидемии простыми гравитационными моделями, созданными по аналогии с моделями тяготения Ньютона [В.С.Тикунов, 1981, 1997], до использования систем обыкновенных дифференциальных уравнений, имитирующих пространственно-временное распространение эпидемий. Однако наиболее часто для этих целей применяется метод Монте-Карло.

Метод Монте-Карло заключается в следующем. Исследуемое явление представляется как некая абстрактная система, которая может находиться в нескольких различных состояниях. При этом считается, что нахождение системы в каком-либо из состояний случайно и вероятность этого факта подчиняется определенному закону распределения, который характеризует как саму систему, так и связи между различными, ее состояниями. С помощью таблиц случайных чисел или датчиков псевдослучайных величин моделируются конкретные реализации состояний для исследуемой системы. Обрабатывая полученную таким образом информацию о системе методами математической статистики, получают требуемые численные результаты.

Широко используются оптимизационные модели. Часто применяется транспортная задача линейного протраммирования. В этом случае решается проблема минимизации издержек по перевозке продукции из множества источников в ряд мест назначения. Также широко применяются модели для оптимизации размещения производства, сетей школ и т.д., велик круг примеров оптимизации трасс перемещений между центрами (см., например, [П.Хаггет, 1968]).

Последним, на что следует обратить внимание, является разработка так называемой географизированной математики. В этой перспективной области исследований также прежде всего стали разрабатываться проекты «пространственной статистики» [Ж. Матерой, 1968; Л. И. Василевский, П.М. Полян, 1977; D.S.Neft, 1966; A. Griffith, 1987], учитывая неприспособленность традиционной статистики для учета взаиморасположения явлений в пространстве.              .

Можно привести еще ряд методов, перспективных для экологических и географических исследований. Здесь рассмотрим лишь пять таких методов, каждый из которых обладает широкими возможностями в области формализации и моделирования. Метод размытых (нечетких) множеств — метод «размытой» классификации, в которой каждый из показателей характеризуется различной степенью принадлежности ко всем классам. В широком смысле применим для моделирования процессов взаимодействия в условиях размытости географического пространства. Метод нейронных сетей — самообучающая система, позволяющая классифицировать многомерные явления при недостаточной, а в ряде случаев и искаженной информации. Метод позволяет выделить и моделировать различные ситуации, оценивать время их «жизни» и давать прогностическую картину развития. Метод теории хаоса — позволяет определить, насколько хаотичное поведение отдельных звеньев пространственных структур способно повлиять на пределы нормальных вариаций их параметров. Метод теории катастроф — один из основных для изучения прерывных изменений, качественных скачков, позволяет оценить не только стабильность форм, но и их появление, развитие и исчезновение. Метод фрактального анализа — удобный инструмент для описания и моделирования географических процессов и явлений, порождающих структуры, обладающие в полной мере свойствами самоподобия и представляющие сходные закономерности в различных пространственных и временных масштабах.

Рассмотрим перечисленные методы более подробно.

Размытые (нечеткие) множества. Оперирование понятием размытого множества открывает широкий и общий подход к анализу и решению задач, в том числе задач принятия решений. Прежде всего, это задачи классификации, в которых основным является понятие размытого отношения сходства. В географической и экологической литературе неоднократно указывалось на целесообразность применения классификаций с использованием методов теории нечетких множеств. Эта теория, предложенная Л. А. Заде [L.A.Zadeh, 1965] и развитая другими авторами, предполагает возможность относить территориальные единицы не просто к одному из классов (как стандартные алгоритмы многомерных классификаций), а одновременно к нескольким классам с различными функциями принадлежности (в случае переходного характера единиц). Такая классификация целесообразна, когда в действительности границы между классами имеют нечеткий, переходный характер, что должно учитываться при математическом моделировании и соответствующим образом отражаться на картах. Размытость границ иногда рассматривается как их общее свойство [А. М. Трофимов, Н.М.Солодухо, 1986; С. Rolland-May, 1987].

Отметим, что нечеткость может проявляться и без явного использования теории нечетких множеств, в рамках существующих традиционных для экологии и географии подходов. Нечеткость системы может проявляться при: ее описании в процессе постановки задач и целей классификации; выборе системы показателей, ее характеризующей; подборе алгоритмов классификации; выборе результатов многовариантной классификации; подборе способов представления конечного результата; оценке степени соответствия полученного результата поставленной цели и интерпретации полученных выводов [В.С.Тику- нов, 1989].

Другого рода задачи возникают при определении рациональных схем размещения производства. Эти оптимизационные по своему характеру задачи в ряде случаев удается свести к задачам так называемой условной классификации, в которых классы выделяются с учетом предварительно сформулированных требований. Этот принцип классификации близок к «ядерному»; его особенность в том, что «ядра» (либо операционно-территориальные единицы — ОТЕ) задаются как некоторые абстракции, как комбинация условий. Характерным при решении этого типа задач является оперирование понятием размытых множеств, описывающих условия производства и размещения. Как размытая классификация может быть сформулирована также задача измерения соответствия факторов производства реально сложившейся ее структуре.

Наибольшие возможности размытый анализ представляет при решении задач поиска компромиссных состояний пространственно-координированных систем. К этому типу можно свести все задачи, так или иначе связанные с согласованием несовпадающих интересов элементов геосистем, что определяет весьма широкий диапазон возможностей размытого анализа: процессы взаимодействия природы и общества, комплексного прогнозирования, регулирование развития городов, систем расселения и т. д.

Методы теории размытых множеств представляются в настоящее время одним из многообещающих инструментов пространственного анализа и решения прикладных задач [А. М. Трофимов,

Н.М.Солодухо, 1986; С.Rolland-May, 1987; В.С.Тикунов, 1989 и др.). Это обусловлено, прежде всего, спецификой пространственных систем; по всем критериям — это некорректно определенные системы с размытыми, как правило, границами и нечетким характером многих отношений, реализуемых на множестве элементов. Именно поэтому возможности строгих формальных методов для решения многих таких задач весьма ограничены и на передний план выступает полуформальный аппарат, в котором содержательные аспекты анализа часто оказываются доминирующими по сравнению с вычислительными приемами и способами.

Приведем в качестве примера одну из возможных нечетких постановок задачи оптимального развития и размещения отрасли [Р.Г.Хузеев, 1988].

Пример. Пусть: U — множество всех возможных пунктов размещения предприятий отрасли;

А,              — нечеткое множество пунктов, обладающих благоприятными транспортными условиями;

А2 — нечеткое множество пунктов, удобно расположенных по отношению к источникам сырья;

А3 — нечеткое множество пунктов, в которых размещение новых предприятий желательно (например, в целях увеличения занятости населения), и т.д.

Подобным образом можно учесть практически все условия и факторы, влияющие на территориальную организацию рассматриваемой отрасли: наличие трудовых ресурсов и их структуру, возможности привлечения их со стороны, условия энерго- и водоснабжения, климатические условия, экологические требования и т. п.

Каждое из множеств А, характеризуется функцией принадлежности \iA,(U) с областью значений [0,1]. Эти значения указывают на степень принадлежности элемента нечеткому множеству Ah Существенно то, что элементы нечетких множеств в общем случае принадлежат или не принадлежат им только частично, т.е. функция \ia,{U) может принимать не только значения 0 или 1, но и все дробные значения из интервала [0,1].

Пусть, далее, известна функция

f(Z) : U- V,

описывающая результат выбора конкретного элемента (или группы элементов Z) из 0’ где V — множество всех возможных исходов.

Одной из наиболее простых интерпретаций функции /является величина затрат, связанных с размещением новых и реконструкцией существующих предприятий в выбранных пунктах.

Пусть нечеткое множество В описывает требование удовлетворения спроса на продукцию отрасли, а С — есть нечеткое множество «не очень больших затрат» на строительство и реконструкцию предприятий отрасли. Множество С фактически описывает цель задачи.

Тогда, как следует из работы Л.Заде [1976], решение задачи есть нечеткое множество с функцией принадлежности:

щП ДПГЧС),

где А * А, П А2 П... П А„; /"' — функция, обратная к/

Приведенная нечеткая постановка задачи не является единственно возможной. Это лишь иллюстрация. Цель и условия постановки задачи могут быть описаны и другими нечеткими множествами.

По аналогичному принципу можно сформулировать также нечеткие задачи развития и размещения сельскохозяйственного производства, оптимизации территориальных систем обслуживания и другие задачи социальной, экономической и комплексной географии.

Более широким приложением аппарата нечетких множеств является исследование процессов взаимодействия в географических системах. Процессы эти сложны и недостаточно изучены. Существуют также сложности при описании процессов и получении их количественных характеристик. Другой предпосылкой использования нечеткого подхода для анализа взаимодействий (особенно социально-экономических) объектов является то, что они, как и связанные с ними процессы функционирования, часто непредсказуемы в полной мере, так как сильно зависят от решений, принимаемых человеком.

Одним из подходов к моделированию функционирования и взаимодействия в системе может быть следующий [Р. Г. Хузеев, 1979].

Функция системы разлагается на элементарные функции. Под элементарной понимается функция, описываемая одной лингвистической переменной, т.е. переменной, значениями которой являются отдельные слова или выражения, которые, в свою очередь, можно интерпретировать как нечеткие переменные. Нечеткая переменная характерна тем, что областью ее изменения является нечеткое множество. Тогда любой элемент изучаемой территориальной системы может быть описан набором векторов. Каждый из этих векторов соответствует некоторой элементарной функции, выполняемой элементом, а компонентами являются значения нечетких переменных, соответствующих этой функции.

По такому же принципу можно описать и взаимодействие элементов между собой. В результате будет получено описание функционирования элементов и их взаимодействия в процессе этого функционирования, т.е. будет получено описание функционирования системы в целом.

Математическое описание метода и его интерпретацию в рамках задач приложения можно найти в работе Л. Заде [1976].

Нейронные сети. Каждая точка пространства имеет собственные, нередко уникальные характеристики. Это зачастую приводит к определенным сложностям в выработке региональной политики регулирования и управления. Она должна бьггь направлена на сглаживание территориальных, социальных, экономических, экологических и других противоречий.

Одним из наиболее перспективных подходов к построению реальной дифференцированной региональной политики является ситуационный подход, позволяющий выделить на территории региона участки, имеющие на данный момент сходные комплексные характеристики — географические ситуации, или геоситуации.

Геоситуационный анализ — особый сложный и комплексный вид исследования [А. М.Трофимов, Е. И. Игонин, 2001]. Это многомерный анализ, учитывающий историческую ретроспективу, современное состояние взаимосвязи и взаимодействия множества факторов — природных, экономических, социальных, экологических, политических, национальных и т. п. Ни один из существующих методов не в состоянии формализованно описать структуру, логику и приемы этого анализа. Только мощное развитие вычислительной техники позволило вывести из небытия адекватный метод поддержки геоситуационной концепции — метод нейронных сетей (его активному развитию в свое время мешало отсутствие быстродействующей вычислительной техники с большими базами данных).

Основы теории нейронных сетей были заложены в 60-е годы XX в. Свое название получили из-за сходства принципов функционирования с устройством простейших форм восприятия у человека.

При начальной разработке нейронных сетей были использованы труды крупнейшего психолога XIX в. Н. Н. Ланге, который подробно описал процесс восприятия человеком явлений внешнего мира.

Нейронные сети были созданы таким образом, что имитировали человеческий процесс восприятия, удовлетворяя при этом двум основным условиям: 1) наличию строго упорядоченной системы признаков относительно порядка их восприятия и 2) возможности специфического усиления признаков любой ступени восприятия.

Основным препятствием к активному использованию нейросетей, как уже отмечалось, было недостаточное развитие электронно-вычислительных средств и несовершенные алгоритмы «обучения». Ситуация изменилась лишь в 80-е годы в связи с появлением принципов «обучения» нейросетей.

В общем случае нейронная сеть G (X, F) состоит из множества узлов (нейронов) (X), которые являются носителями сети, а также множества связей между ними (F).

Узел (нейрон) Xh который является элементом множества нейронных узлов, имеет выход и множество входов, определяющих величину потенциала U-, на выходе узла (нейрона) Xh Связи соединяют выход одного узла (нейрона) со входом других нейронов и характеризуются весовыми коэффициентами Witj, имеющими смысл проводимости от /-го узла к у'-му.

Если              gt; 0, то связь называется возбуждающей, а если Wu lt; 0 —

тормозной [А. И. Казаков, 1979].

Главным отличием метода нейронных сетей от других статистических методов классификации является большое количество степеней свободы, позволяющее получать очень точные расчеты, а также способность к самообучению. Эта способность выражается в том, что все нейронные сети имеют свойство корректировать собственную структуру и процессы вычисления с учетом поступающих новых данных. Достоинством метода является его способность к построению удовлетворительных моделей по сильно искаженным и неполным данным.

В основе метода нейросетей лежит самоорганизующийся алгоритм, выполняющий проекцию в субпространство, покрытое разрозненной решеткой формальных нейронов. Алгоритм устанавливает соответствие между исходными данными и состоянием нейронной сети. Эта процедура обеспечивает нелинейное выравнивание и двухмерную версию вводного пространства [Н. Ritter, 1988].

Самоорганизующийся алгоритм состоит из двух шагов, многочисленные итерации которых приводят к упорядочиванию входных данных:              . Для входного вектора (К) отыскивается нейрон, чья активность максимальна. Для каждого нейрона вводится понятие окрестности, введенное Кохоненом [T.Kohonen, 1984]. Размер окрестности (количество входящих в нее нейронов) изменяется, уменьшаясь в процессе обучения. Данное свойство является наиболее существенным для данного алгоритма, отличая его от традиционных методов классификации. В окрестности нейрона, чья активность максимальна, весовые векторы (W) двигаются в направлении вектора ввода (У) согласно уравнению:

wt(t+/) =              + avxm- wm если / € [vhm,

либо

WAt + 0 = ЩО, если / * [Vh/(/)].              (2.13)

В приведенных уравнениях функция [ Vh /(0) контролирует размер окрестности нейронов, a a(t) устанавливает амплитуду весовых изменений. Обе эти функции уменьшаются во времени (/).

Многочисленные итерации этих двух шагов создают организованную сеть, где веса упорядочены и входное пространство представлено количественно.

Когда алгоритм сойдется, каждый объект классификации (ОТЕ), представленный вектором признаков Y(k), адресуется к нейросети и нейрон, чья активность максимальна, сопоставляется данному объекту (ОТЕ).

В качестве обучающего набора метод нейронных сетей использует те признаки объекта, по которым необходимо провести классификацию. Число признаков (переменных) теоретически может быть велико, но при решении практических задач обычно не превышает 15—20 переменных.

Процесс классификации объектов на основе метода нейронных сетей включает ряд этапов.

Первый этап — этап предпроцесса — состоит в нормировании переменных «обучающего» набора. При операции нормирования используются стандартные показатели и их статистические характеристики. Данная процедура означает, что для каждой нормированной переменной показатель средней арифметической равен нулю, а показатель вариации близок к единице. Этап предпроцесса важен для выравнивания значимости (нагрузки) переменных.

На втором этапе осуществляется нормирование базы данных, состоящей из признаков изучаемых объектов. В результате получают нормированную матрицу показателей.

Третий этап заключается в непосредственном применении метода нейронных сетей к нормированной матрице. Результатом этапа служит разбиение объектов на классы, количество которых обычно задается заранее.

Последним этапом исследования является содержательная интерпретация полученных результатов. Это наиболее ответственный этап [F.Blayo, 1997].

В силу особенностей метода и его разрешающей способности нейронные сети широко стали использоваться в географических исследованиях по функциональной классификации городов [M.Buscema, 1996], для выделения экономических ситуаций глобального масштаба [F. Blayo, 1997], для средств геоситуационного моделирования [А. М.Трофимов, О.В.Пьянова, 1998), для территориального выделения социально-экономических ситуаций [О. В. Пьянова, 1998] и для решения многих других многомерных задач большой сложности. Вопросы интеллектуализации ГИС на основе нейронных сетей будут рассмотрены в 4.2.

Теория хаоса. В рамках пространственного анализа важное место занимает теория хаоса. Однако она находится еще в стадии разработки, появляются лишь отдельные аспекты теории; методическое обоснование также разработано недостаточно.

В настоящее время экология и география располагают лишь концептуальными наработками в этой области, ибо теория хаоса, разрабатываемая в строгих, формализованных науках, не отличается идентичностью по отношению к многогранным, многомерным, многомасштабным комплексным наукам — экологии и географии. Однако именно с этой теорией, как предполагают исследователи, связаны узловые методологические проблемы, такие, как однородность — неоднородность, устойчивость — неустойчивость, иерархичность — неиерархичность, саморазвитие — ориентированное развитие и т.п.

Эти фундаментальные проблемы имеют самое прямое отношение к экологии и географии. В этой связи экологи и географы стали проявлять интерес к понятию хаоса; особенно в связи со стремлением описать и понять организацию пространства на многофакторном уровне.

Применение понятия хаоса наиболее подробно рассмотрено в типологии пространственных конфигураций. Однако необходимо иметь в виду ряд ограничений эвристической ценности понятия хаоса: во многих динамических моделях не проявляются хаотические ситуации.

Один из наиболее известных специалистов в этой области Дж. Филлипс [J.D. Phillips, 1992) пришел к выводу о том, что для многих физико-географических процессов характерны сложность, нелинейность и нестабильность. Однако в процессах, происходящих на земной поверхности, признаки хаоса обнаруживаются только в исключительных случаях. А в климатологии, геофизике они не редкость и особенно характерны для социально-экономических явлений.

Математическая теория хаоса может быть эффективно использована в сфере исследования динамики связей геофизических объектов. Важной проблемой является выяснение того, насколько хаотичное поведение отдельных звеньев территориальных структур способно повлиять на пределы нормальных вариаций их параметров. Заслуживают внимания также поиски средств избежания хаотических отклонений в функционировании больших систем, что может быть обусловлено ошибками и задержками в ходе передачи информации.

Хаос — скопление элементов без динамических связей; возможны лишь контакты соседства, в том числе хаос блоков.

Хаос — неотъемлемое фундаментальное свойство материи. В социально-экономических системах динамическое развитие всегда включает «островки хаоса». Хаос и упорядоченность — два крайних полярных состояния организации среды. Частным случаем проявления хаотического режима является кризис или кризисное состояние, приводящее порой к катастрофе. Исходной базой их развития (а также и хаоса в целом) является состояние риска.

В настоящее время существуют два основных подхода к изучению сущности риска. В первом случае риск понимается как вероятность опасных природных воздействий на человека и (или) техносферу. Это так называемый природный риск. Во втором случае риск рассматривается как вероятность необратимых неблагополучных последствий антропогенной деятельности для окружающей среды.

Существующий подход обеспечения абсолютной безопасности человека, связанный с введением пределов допустимых концентраций вредных веществ на основе представлений о пороговом характере их действий, имеет слабые стороны (например, несовершенство представлений о пороговом характере взаимодействия и, следовательно, невозможности достижения полной безопасности и др.). По этой причине концепция абсолютного риска заменяется концепцией приемлемого риска, т.е. такого его уровня, который мог бы быть оправдан с позиции экономических, социальных, экологических и иных факторов. Порог хаотичности в этом случае повышается.

Согласно современным представлениям, развитие окружающего мира исходит из положения, что в «глубинах природы господствует хаос, имеющий поистине фундаментальный характер, в то время как порядок царит лишь поверх хаоса — как его ограничение» [Г.Дж.Сариев, 1986. — С. 155]. Поэтому общую ориентацию развития окружающей среды определяет ограничение, запрет.

Всеобщим явлением в пространстве, подчеркивающим целостность геообразований, является наличие связей, взаимодействий. Через них и проявляется принцип запретов. Дело в том, что взаимодействие есть ограничение на возможное разнообразие поведения геобъектов. Однако, запрещая одни типы поведения, взаимодействие может оставлять возможным целый спектр линий поведения. Этим объясняется многообразие форм реализации. Окружающая среда — это пространство, в котором действует множество запретов. Чтобы в нем произошло некоторое определенное событие, необходимо (и достаточно), чтобы оно не нарушило ни один из существующих запретов.

Таким образом, явления хаоса и запретов сложно взаимосвязаны. Прямой связи здесь нет; нет и соответствия между рядом запретов и формой (формами) проявления хаоса. Оно может быть очень сложным: протекание процесса и форма его реализации в пространстве не однозначны. Поэтому существенной проблемой в теории хаоса является моделирование этой сложной взаимосвязи в рамках пространственного анализа.

Если рассматривать проблему хаоса в глобальном масштабе, то необходимо отметить, что сама история человечества отмечена веками хаоса. По мнению О.Долпфуса [O.Dollfus, 1990], хаос в процессе своего развития заполняет пространство, ограниченное рубежами государства (в системе принципов запретов — это внешний запрет). Возникает так называемый «ограниченный хаос». Эти ситуации хаоса, хоть и частично, но тем не менее связаны с функционированием мировой системы. Ограниченный хаос 80-х годов имел место в государствах ограниченных размеров. Возможно, что в первых десятилетиях XXI в. в условиях хаоса будет проживать от 1 до 3 млрд чел., если эти ситуации распространятся на наиболее населенные страны мира.

Теория катастроф. Теория катастроф возникла на базе исследований Р.Тома в области топологии и дифференциального анализа, а позднее была дополнена работами X. Уинти по теории особенностей гладких отображений, а также А. Пуанкаре и А. Андропова по теории бифуркации динамических систем.

Появление ее было оценено как «революция» в математике, так как теория давала общий метод для изучения прерывных изменений, качественных скачков. В ее поле зрения попали такие катастрофы, при которых непрерывное изменение в причинах порождало резкое (прерывное) изменение в результатах.

Теория катастроф использует математический аппарат, однако не является частью собственно математики, так как претендует на осмысление сущностных характеристик реальности. В программу теории входят разработки математических моделей, позволяющих оценить не только стабильность форм, но и их появление, развитие и исчезновение. Морфологические процессы исследуются, не прибегая к специальным свойствам субстрата форм или к природе действующих сил. Эта теория развивается как феноменология: она интерпретирует данные морфологии такими, какими они являются, не сводя их к элементарным процессам. Теоретическое основание универсальности теории катастроф — принцип независимости формы по отношению к субстрату. Она ориентирована на понимание реальности: раскрывает динамические ситуации, управляющие эволюцией естественных явлений, человека и общества.

Математическое обоснование теории доступно изложено в работе В. И. Арнольда [1990]. Другое дело, что для пространственного анализа важнейшим является ее модификация для задач территориального аспекта, что можно связать с общим понятием территориальных катастроф. Важнейшим здесь выступают особенности самого процесса, где необходимым является комплексный подход и моделирование.

Основываясь на представлении о территориальной катастрофе как очень сложном процессе, предполагается подход к концептуальному обоснованию математического и связанного с ним компьютерного моделирования катастроф. В основе этого подхода лежит представление о-территориальной катастрофе как динамическом процессе, порожденным взаимодействием динамически изменяющихся распределений вещества, энергии и информации по территории, которые в процессе своего взаимодействия приходят в такое состояние, после которого распределение резко изменяется, порождая ряд новых распределений последствий катастроф.

Устойчивая структура геосистем характеризуется распределенной неоднородностью, и в основе своей содержит локальные неоднородности — геоситуации. Именно им принадлежит исходная роль преобразования структуры. Они несут в себе разрушительный заряд, который может быть весьма значительным.

Рассматривая функции (то, что задается системе свыше, т.е. то, что она должна выполнять по заданию свыше, более высокой по уровню иерархии системой) и интересы (то, что система может выполнить, исходя из своих имманентных возможностей) геосистем в самом общем смысле, можно отметить, что они не всегда совпадают. Чем меньше совпадают между собой функции и интересы, тем выше напряженность складывающейся структуры. Если эта напряженность ниже некоторого критического уровня, существующие структуры функционируют более или менее успешно и являются некоторым компромиссом между носителями противоречивых интересов. Однако когда уровень напряженности достигает критических значений и прежний компромисс становится неприемлемым, происходит смена одних структур другими. Если эта смена приобретает характер быстрого и неуправляемого разрушения прежних структур, при котором интересы природных и социально-экономических образований могут пострадать сколь угодно сильно, то процесс можно квалифицировать как катастрофу.

Говоря о критическом пороге напряженности структур, за которым следует катастрофа, необходимо отметить следующее. Поскольку именно определенный уровень напряженности структуры выступает в качестве пускового механизма катастрофы, логично считать, что каждая структура даже самая благополучная несет в себе «зародыш» катастрофы. Дело в том, что любая структура, являясь результатом компромисса между несовпадающими интересами, обладает определенным, но всегда ненулевым уровнем напряженности, способным по тем или иным причинам достигать критических значений. Рост напряженности может происходить с различной скоростью, но всегда в течение некоторого периода, что дает основание говорить о существовании кризисных ситуаций, которые можно рассматривать в качестве «размытых» временных границ между катастрофами и «некатастрофами».

Катастрофы отличаются от равномерного развития быстротой реализации, ограниченностью распространения'в пространстве, непредсказуемостью траектории процесса и положения области будущего равновесия и др. Ю. Г. Пузаченко [1992] считает, что катастрофы или неравновесные нестационарные процессы являются необходимыми для функционирования любой сложной системы. Поэтому можно говорить о смене во времени и в пространстве двух типов процессов — равновесных и неравновесных. Социальные системы, которые сами пытаются осознать собственную деятельность, могут быть уверены в неизбежности собственной катастрофы, но не могут с необходимостью для надежного управления однозначно предсказать их исходы.

Комплексное решение всех поставленных проблем означало бы формирование теории пространственных катастроф, цели которой состоят в разработке теоретических основ, принципов и методов предотвращения территориально оформленных (т.е. имеющих пространственные границы) экологических или географических катастроф, а также способов оценки и смягчения их последствий в случае, когда они все же произошли.

Фрактальный анализ. Исследователями было обращено внимание на тот факт, что очень часто выводы, полученные на основании одного масштаба, оказываются действенными и при другом. Попытки решения проблемы оценки сохранности инвариацион- ных характеристик при переходе от одного масштаба к другому предпринял П.Хаггет [1968J.

Для оценивания этих представлений существенное значение имеет феномен фрактальности, выражающий результат постоянного (регулярного) процесса, порождающего нерегулярные формы. Фрактальность выражается в отсутствие масштабной независимости результатов измерения.

Большинство пространственных процессов характеризуется устойчиво-неустойчивым динамическим состоянием. В представлении о разномасштабности регулярно-нерегулярных форм проявления при их фиксации в процессе перехода из одного масштаба в другой хаотические проявления приобретают некоторый особый содержательно-информационный смысл; он не может быть проанализирован и изучен с помощью только традиционных методов анализа. При картографировании эти хаотические формы приобретают особый топологический смысл, описываемый с помощью фрактальной геометрии.

По определению Б. Мандельброта (В. В. Mandelbrot, 1983], объект будет являться фрактальным, если его размерность по Хаусдор- фу—Бэзиковичу, т.е. фрактальная размерность превышает топологическую размерность, являясь, таким образом, нецелым числом.

Термин «фрактал» образован от латинского fractus, а соответствующий глагол означает прерывать, создавать нерегулярные дробления.

«Фрактальное множество» — это математическое понятие, а «естественный фрактал» — это природный феномен, который может быть представлен фронтальным множеством.

Методический аспект проблемы изложен в работе Л. Н. Васильева [1992].              •

Фрактальный анализ уже нашел широкое применение в метеорологии и климатологии; были показаны проявления самоподобия в картографии, при изображении рельефа, в структурах информационных систем. Им пользуются градостроители для анализа различных сторон городских структур и т. п. Все большее значение он начал завоевывать в социально-экономическом аспекте пространственного анализа, т.е. его адекватными задачами являются: собственно пространственный анализ (в его самом широком понимании), моделирование пространственно-временных структур, уточнение границ (при переходах к разным масштабам), поиск устойчивых и неустойчивых областей и зон, генерализация.

Фракталы — это математические объекты, имеющие дробную размерность, в отличие от традиционных фигур целой размерности. Многие структуры обладают фундаментальным свойством геометрической регулярности, известной как инвариантность по отношению к масштабу, или самоподобие. Если рассматривать эти объекты в различном масштабе, то постоянно обнаруживаются одни и те же фундаментальные элементы, которые определяют дробную или фрактальную размерность структуры.

Фрактальная геометрия описывает пространственные формы точнее и лучше, чем евклидова геометрия, позволяя учитывать фактор случайности, хаотичности, непредсказуемости при моделировании. Фрактальность представляет собой удобный инструмент для описания и моделирования процессов и явлений, порождающих структуры, обладающие в полной мере свойствами самоподобия и представляющие сходные закономерности в различных пространственных и временных масштабах.

В основе фрактального анализа лежат два главных критерия его применимости к изучаемым объектам: самоподобие, или инвариантность по отношению к масштабу, и наличие фрактальной размерности.

Центральным показателем аппарата фрактального анализа является фрактальная размерность объекта исследования. Существует много способов определения фрактальной размерности, применение которых обусловливается спецификой поставленной задачи. Все они основываются на уже имеющихся методах, принадлежащих другим наукам, но определяющим те или иные черты пространственно-временной структуры объекта исследования. В частности, для географических работ социально-экономической ориентации приемлем метод определения фрактальной размерности с помощью вариаограммного анализа [Е. М. Пудовик, 1997].

Таким образом, фрактальный анализ может быть использован как метод выделения важных структурных особенностей исследуемых систем. Фракгальность дает единицу измерения для характеристики всех типов иерархически организованных систем и позволяет перейти к динамике, когда модели роста фракталов используются для имитации развития структурных объектов.

Контрольные вопросы Перечислите группы функций, присутствующих в большинстве коммерческих ГИС. Назовите два основных подхода к описанию пространственной информации в ГИС. На какие вопросы позволяет ответить представление качественных характеристик в номинальной шкале? В ранговой шкале? Перечислите основные операции при работе в ГИС с базами данных атрибутивной информации. Какие пространственные операторы можно использовать в Мастере построения запросов в системе GeoMedia Professional? Какие методы перехода к дискретной шкале количественных признаков предлагаются в Мастере тематического картографирования ArcView GIS? Настройка каких способов картографического изображения реализована в Мастерах тематического картографирования в системах ArcView GIS и Maplnfo Professional? Какие операции ввода и редактирования объектов реализованы в ArcView GIS? Как вычисляются атрибуты создаваемых объектов при выполнении операций редактирования? Какие операции системы Maplnfo Professional позволяют создавать топологически корректную информацию? Что понимается под операцией геокодирования в ГИС? Каково назначение операции построения буферных зон? Какими параметрами буферных зон позволяет управлять Мастер построения буферных зон системы ArcView GIS? Какие объекты в ГИС представляются сетями? Какие задачи чаще всего решаются в ГИС при сетевом анализе? В чем разница между двумя сетевыми задачами: «Нахождение кратчайшего маршрута» и «Нахождение оптимального маршрута»? Какие формальные процедуры могут быть использованы при решении задач зонирования и районирования в ГИС? Перечислите функции картографической алгебры. В решении каких задач используют цифровые модели рельефа? Какие геометрические условия определяют основные свойства аффинного и проективного преобразований? В чем основные отличия локальных и глобальных преобразований? Какой подход позволяет уменьшить количество реализованных алгоритмов при создании блока, выполняющего все возможные пересчеты из проекции в проекцию для перечня проекций, используемых в ПО ГИС? К каким проблемам приводит использование различных эллипсоидов при создании карт? Как эти проблемы разрешаются в ГИС? Классификации

Ранее мы уже касались вопросов классификации. Учитывая их важность во всех науках о Земле, в том числе экологии и географии, в этом подразделе рассмотрим методы классификации более подробно.

Объектом классификации, как правило, являются ОТЕ — операционно-территориальные единицы [А. М. Трофимов и др., 1985. —

С.              13]. В качестве ОТЕ могут выступать, например, административно-территориальные единицы, населенные пункты, ячейки регулярной или нерегулярной сетки, наложенной на исследуемую территорию, ячейки растра (см. 3.1). Обозначим все множество ОТЕ символом О = {0|,..., oN), где о, — /-я ОТЕ; N — количество ОТЕ.

Целью классификаций является получение некоторого заранее заданного или незаданного количества групп ОТЕ (классов ОТЕ). В пределах каждого класса ОТЕ должны быть максимально «похожи» друг на друга в некотором смысле, однородны, а ОТЕ из разных классов — максимально «отличаться». Синонимами группы и класса являются также понятия кластера и таксона, а методы получения классов называют методами классификации, кластер-анализа (кластерного анализа), числовой таксономии или распознавания образов.

В пространственном отношении ОТЕ описываются различными показателями и метриками, основными из которых можно считать способы расчета расстояния между ОТЕ (т.е. коэффициентов «сходства» или «отличия» ОТЕ). Помимо географического пространства, исследуемая совокупность ОТЕ фиксирована и в пространстве М атрибутивных показателей (или в пространстве М атрибутивных признаков). В этом пространстве ОТЕ теряют свою геогра- фичность и независимо от своей первоначальной природы становятся М-мерными точками.

Результатом нахождения ОТЕ в каждом признаковом пространстве является одно из двух представлений. Представление исходных ОТЕ в виде матрицы ОТЕ-признак, отражающей измерение М признаков на N ОТЕ и содержащей N строк и М столбцов:

... о\л

... о\М))

Ч ^

о?

... Оlt;'gt;

... 0lt;"gt;

X =

...

= (оlt;‘),...,оlt;"gt;) =

...

... ...

... ...

K°N j

-

п(М) ... oNA

...

ЛМ)

... oN у

где о, = (оlt;'gt;,..., о}М)) — /-я ОТЕ в M-мерном пространстве признаков; 0U) — j-й признак; ои) = (о,(у),..., о^)1; о}л — значение У-го признака на /-й ОТЕ; / е {1,..., N), j е {1,..., М).

альных единиц, ландшафтов) типов на практике используют следующие виды расстояний.              ' ОТЕ точечного типа. Кратчайшее расстояние g,* между двумя точками в двумерном евклидовом пространстве. Кратчайшее расстояние g\ между точками, вычисленное по графу (или нескольким графам) дорожной сети (автомобильные и железные дороги, морские и воздушные пути) с учетом стоимости перемещения по каждому виду дорожной сети и каждому ее участку.

Географическая смежность точек gj. Для формирования расстояния типа смежности для ОТЕ точечного типа необходимо задаться некоторым порогом с eR* = (0, +да) и, например, расстоянием типа g,*:

ОТЕ полигонального типа.

Любой вид расстояния между двумя представительными точками ОТЕ-полигона (например, столица региона, геометрический центр региона и т.д.), т.е.

Кратчайшее расстояние g$ между ОТЕ-полигонами (т.е. минимальное евклидово расстояние между любыми двумя точками ОТЕ-полигонов). Географическая смежность полигонов.

Расчет расстояний между ОТЕ в признаковом пространстве. Расстояние между ОТЕ в пространстве показателей характеризует сходство или различие ОТЕ между собой [С. А. Айвазян и др., 1989. — С. 147]. Каждому типу шкал, в котором измерены признаки, соответствует свой способ расчета расстояния.

Для расчета расстояния на М количественных признаках существует наиболее общее соотношение, называемое метрикой маха- лонобисского типа. Частными случаями расстояния махалонобис- ского типа являются:

• обычное евклидово расстояние              •

(2.16)

• манхэттенское расстояние

(2.17)

В качестве меры близости ОТЕ в пространстве числовых признаков может также использоваться коэффициент корреляции, вычисленный для ОТЕ.

Расстояния между ОТЕ, помещенными в пространство с порядковыми признаками, чаще всего основаны на различных коэффициентах ранговой корреляции. Главными из них являются коэффициенты ранговой корреляции Спирмена и Кендалла.

Расстояние между ОТЕ, характеризующимися номинальными признаками, обычно рассчитывают как количество совпадений или несовпадений значений признаков для двух ОТЕ:

Для получения расширенного перечня способов задания расстояний между объектами в признаковом пространстве можно обратиться к специальной литературе по методам анализа данных [например, С.А.Айвазян и др., 1985; 1989].

Расчет расстояний между классами в географическом и признаковом пространствах. Способы вычисления степени «близости» классов (расстояния между классами D) иногда называются стратегиями объединения классов и обычно рассчитываются в признаковом пространстве. Они особенно важны в иерархических процедурах классификации, всегда основываются на расстоянии d между отдельными ОТЕ двух классов и могут определяться различным образом. Пусть

D.SxS R — функция расстояния между классами, определенная на всех парах классов из S;

Sj = {о, |,о,N } — /-й класс, Dj — число ОТЕ в /-м классе, /е{1, ...,*}.              '

Ниже приведены наиболее известные виды расстояния между классами (способы задания функции D).

1. Метод ближнего соседа. Расстояние между двумя классами рассчитывается как расстояние между двумя ближайшими ОТЕ этих двух классов:

(2.19)

В качестве недостатка метода можно отметить тот факт, что при наличии в выборке из NOTE аномальных наблюдений (т.е. таких, которые существенно отличаются по своим значениям показателей от остальных ОТЕ) они будут помещены в отдельные классы. Основная же группа ОТЕ «сольется» в один большой класс.

Метод дальнего соседа. Расстояние между двумя классами рассчитывается как расстояние между двумя самими дальними ОТЕ этих классов:

alt="" />(2.20)

Данный метод более устойчив к аномальным наблюдениям при использовании в агломеративном алгоритме. Кроме того, получаемые с его помощью классы обычно соразмерны (т.е. число ОТЕ в них примерно одинаково). Центроццный метод. Расстояние между двумя классами рассчитывается как расстояние между центрами классов:

где Метод группового среднего (средней связи). Расстояние между двумя классами рассчитывается как среднее расстояние между ОТЕ двух классов:

(2.22)

Функционалы качества классификации. Функционал качества классификации — отображение множества всех возможных систем классов на действительную прямую:

Функционалы качества разбиения исходного множества ОТЕ на классы используются, в частности: для оценки объективного количества классов; для сравнения схем классификаций, полученных с использованием различных алгоритмов, и выбора наилучшей из них; для непосредственного использования в иерархических процедурах классификации в качестве расстояний.

Наиболее часто применяются следующие два способа расчета качества классификации (при заданном числе классов К). Сумма попарных внутриклассовых расстояний:

(2.23)

Данный функционал идентичен функционалу суммы попарных межклассовых расстояний

(2.24)

так как суммирование межклассовых и внутриклассовых расстояний дает сумму расстояний между всеми парами ОТЕ:

(2.25)

Отличие в использовании 6i и Q2 заключается в том, что Q, необходимо минимизировать (т.е. добиваться максимального сходства ОТЕ в пределах класса), a (?2 — максимизировать (т.е. добиваться максимального различия классов между собой). Кроме того, иногда величины Q, и Q2 нормируют их суммой, получая таким образом безразмерные или процентные величины:

Переход к процентному представлению значений функционала качества позволяет сравнивать на предмет лучше-хуже схемы классификации для разных групп ОТЕ или для различных периодов времени.

2. Сумма внутриклассовых квадратов отклонений ОТЕ от средних

Поскольку функционал Q3 означает сумму квадратов разбросов ОТЕ, естественно стремиться к его минимизации, а при переходе к безразмерным величинам нормировать общей суммой квадратов разбросов:

где


Краткая характеристика методов классификации. Все возможные типы методов классификации можно подразделить по различным основаниям на некоторые группы. Основаниями для систематизации методов классификаций в экологии и географии чаще всего являются цель классификации, определение класса, наличие обучающей выборки, использование географического пространства, наличие априорной информации о статистических свойствах классов, способ подачи ОТЕ на вход классификатора.

По цели чаще всего выделяют оценочные и типологические классификации. Оценочные классификации необходимы для анализа и сравнения ОТЕ в терминах хорошо-плохо и лучше-хуже, типологические — для выделения некоторых устойчивых типов ОТЕ.

По степени учета географического пространства методы классификации подразделяются на использующие и не использующие его в собственно математических процедурах.

По определению класса методы классификаций бывают обычные и нечеткие. Методы нечеткой классификации определяют вероятность принадлежности ОТЕ к каждому из классов, а не относят ОТЕ однозначно к одному из них.

По наличию обучающей выборки методы классификации подразделяются на методы контролируемой и неконтролируемой классификации, также называемые классификациями «с учителем» и «без учителя» (автоматические классификации).

По наличию априорной информации о статистических свойствах классов возможны параметрические и непараметрические методы классификации. Целью параметрических методов является отыскание неизвестных параметров известных функций распределения ОТЕ в пределах каждого класса и вероятностей появления этих классов. Непараметрические методы обычно разделяют на иерархические и неиерархические, а последние — на эвристические и оптимизационные. Иерархические методы формируют нужное количество классов путем последовательного объединения отдельных ОТЕ или разбиения единственного класса, содержащего все ОТЕ. Эвристические процедуры основаны на интуитивном представлении исследователя о конечной цели классификации. Оптимизационные алгоритмы производят разбиение таким образом, чтобы обратить в максимум выбранный функционал качества.

По способу подачи ОТЕ на вход анализа различают последовательные и параллельные методы классификации.

Последовательные методы просматривают по очереди все ОТЕ один раз, начиная с о{ и заканчивая oN. Параллельные процедуры требуют подачи на вход классификатора сразу всех ОТЕ.

Оценочные и типологические классификации. Оценочные классификации используют для получения нескольких классов St, ..., S/c, для которых можно сказать, лучше или хуже представители одного класса представителей другого (а иногда и насколько лучше или хуже). Всегда считается, что классы ОТЕ, полученные в результате проведения оценочной классификации, упорядочены специальным образом, т.е.

Под обозначением 51, lt; Sj понимается, что любая ОТЕ /-го класса лучше ОТЕ у-го класса по комплексу показателей. Считается также, что в пределах каждого класса ОТЕ приблизительно одинаково хороши или одинаково плохи (в разрезе проблемы, описываемой показателями).

Обязательным этапом в оценочных классификациях является переход к единственному признаку. Результирующий показатель получают таким образом, чтобы классы ОТЕ с его минимальными значениями могли интерпретироваться как «плохие», а с максимальными как «хорошие», или наоборот. Например, пусть в качестве ОТЕ выступают земельные участки, а в качестве показателей — тип почв, удаленность от водных ресурсов, близость к транспортной сети и т. д. Тогда целевым признаком может быть степень целесообразности постройки жилого дома. В зависимости от значений целевого признака ОТЕ могут разбиваться на три класса: «непригодные для строительства», «приемлемые» и «наилучшие для строительства».

Целью типологических классификаций является получение устойчивых групп ОТЕ в АГ-мерном признаковом пространстве, т.е. возможных «типов» ОТЕ. В отличие от оценочных классификаций, показатели редко интерпретируются как «хорошие» или «плохие», а результирующие классы могут содержать ОТЕ с «хорошими» значениями по одному показателю и «плохими» по другому. Примером типологической классификации может служить выявление закономерности сочетания тяжелых металлов (свинца, меди, цинка, железа) в культурном лессовом слое городища средневекового Самарканда по четырем этапам VII—VIII, IX—X, XI—XIII и XX вв. н.э. (А. К.Евдокимова и др., 1988]. После проведения типологической классификации специалистами по теме исследования всегда дается содержательная интерпретация каждому классу-типу, т.е. выделяются диапазоны изменения каждого показателя на ОТЕ этого класса.

Нечеткие классификации. Иногда ставится более широкая (по сравнению с уже описанной канонической) задача нечеткой (раз-

мытой) классификации. Этот тип классификации должен применяться, если границы классов имеют размытый; переходной характер. Например, в работе [А. М. Трофимов, Н. М. Солодухо, 1986] отмечено, что «... исходя из принципа комплексности взаимодействия в пространстве частей различной природы, в принципе можно считать, что размытость границы — это ее естественное состояние, тогда как границы ясной и четкой линейной или полосной выраженности представляют собой лишь частный случай проявления граничности геосистем».

Основное отличие нечеткой классификации от канонической состоит в получении не номеров классов для всех ОТЕ, а вероятностей принадлежности ОТЕ к каждому из классов. При необходимости однозначного отнесения ОТЕ к одному из классов (т.е. сведения результатов нечеткой классификации к каноническому случаю) находится тот класс, в котором появление ОТЕ наиболее вероятно.

Использование географического пространства при классификациях. Формирование классов при проведении многих классификаций происходит в общем случае на основе и географического, и атрибутивного признакового пространств. Однако, исходя из степени использования географического пространства, возможны следующие варианты (либо их комбинации, за исключением первого): географическое пространство при классификации не используется; географическое пространство используется перед проведением классификации при формировании признаков атрибутивного пространства (соответствующие примеры были приведены при обсуждении представления атрибутивного пространства в виде таблицы ОТЕ-признак); географическое пространство используется при визуализации хода и результатов классификации (т.е. ход и результаты анализа картографируются); географическое пространство представлено матрицей близостей вида ОТЕ-ОТЕ, которая используется алгоритмом классификации вместе с матрицей, представляющей атрибутивное признаковое пространство.

Обозначим, как это было и ранее, матрицы ОТЕ-признак и ОТЕ-ОТЕ для атрибутивного признакового пространства символами X и А соответственно, матрицу ОТЕ-ОТЕ географического пространства — символом G.

Примером географических классификаций является группирование регионов (ОТЕ) по силе связей (наиболее часто — экономических). Целью такой классификации является получение групп, связи между ОТЕ которых максимальны. Географические расстояния здесь задаются отдельной таблицей и являются одним из видов связей, поскольку могут отражать, например, стоимость перемещения товара из одной ОТЕ в другую.

Еще один вид классификации с использованием матриц сразу двух пространств (причем матрица вида ОТЕ-ОТЕ, представляющая географическое пространство, бинарная) — районирование. Под районированием понимается деление территории на множество непересекающихся целостных районов, представляющих собой компактные сгущения ОТЕ как в географическом, так и в признаковом пространствах (В. И. Блануца, 1993. — С. 3). В классическом географическом понимании это разделение территории по принципу их различия, непохожести. Матрица расстояний G в данном классе методов представлена таблицей смежности. В терминах районирования синонимом класса с ограничением на его пространственную нерасчлененность является понятие района.

В основе постановки задачи районирования лежит необходимость территориального управления ОТЕ. Ограничением районирования, помимо пространственной нерасчлененности классов, являются также целостность получаемых классов-районов, а возможно и учет прежней административно-территориальной сетки (например, экономических районов, федеральных округов).

Обучающая выборка. При проведении классификаций очень важно максимально использовать при анализе априорную информацию о классах, которые необходимо сформировать. Такой информацией в первую очередь является так называемая обучающая выборка, т.е. множество ОТЕ, для каждой из которых известна ее принадлежность одному из классов.

Обладание обучающей выборкой в большинстве случаев облегчает проведение классификаций и повышает их качество. Она может использоваться для настройки математических моделей — выбора метрики d и показателя качества классификации Q, определения числа классов К, их ядер и т.д. Например, при проведении классификации стран мира по уровню социально-экономического развития, как это описано в работе [В.С.Тикунов, 1997], обучающая выборка состояла из нескольких наиболее типичных стран- представителей каждого класса, что позволило осмысленно с точки зрения географии сформировать классы.

Оценивание истинною количества классов. Очень часто при проведении классификаций необходимо оценивать количество классов, которые необходимо сформировать. Для определения истинного количества классов /Гист существует достаточно простой, но широко используемый подход. Этот подход основан на использовании значений функционала качества классификации 0{К), рассчитанного для количества классов К €              ..., АГтах]. Истинное значе

ние АТист лежит сразу после последнего резкого скачка функционала качества Q(K). Это означает, что увеличение количества классов не дает затем существенного прироста в качестве классификации.

При решении конкретной задачи целесообразно задаваться минимально и максимально возможными количествами классов А',™ и Кплх (например, Amin = 2 и Ктах = 10). Чем больше диапазон, тем легче находить Аист и тем больше вычислений придется произвести.

Предварительная обработка данных. Важным этапом классификации ОТЕ является их предварительная обработка, часто включающая нормировку, взвешивание, снижение размерности и агрегирование.

Нормировка показателей. На практике при проведении классификаций очень редко встречаются ситуации, когда анализируемые показатели представлены в одинаковых единицах измерения и масштабе. Существуют специальные термины для обозначения соизмеримых и несоизмеримых систем показателей (моноструктурные и полиструктурные соответственно). Примером моноструктурной системы показателей является процент занятых по разным отраслям промышленности.

Наиболее часто используются следующие виды нормировки. Нормировка по заданному показателю.

В социально-экономической географии чаще всего нормирующим показателем является общая численность населения ОТЕ или площадь занимаемой ОТЕ территории.

Пусть

00) _ исходный признак, j € {1,..., М),

0п°пч — нормирующий признак.

Тогда нормировка заключается в пересчете

(2.27)

Примеры нормировки по заданному показателю: показатель плотности населения (нормировка численности населения ОТЕ площадью, занимаемой ОТЕ);. процент голосов, отданный на выборах за какую-либо политическую партию (нормировка числа проголосовавших за партию в данной ОТЕ общим числом избирателей); валовой внутренний продукт страны (ВВП) на душу населения (нормировка ВВП общим числом граждан; в качестве ОТЕ выступают страны мира). Нормировка по заданным значениям осуществляется по общей формуле

(2.28)

В качестве А, в числителе выступает число, отклонения от которого наиболее интересны; Д2 представляет величину разброса значений ОТЕ по заданному показателю. Ниже приведены наиболее

известные разновидности нормировки по заданным значениям (случаи 2.1 и 2.2).

2.1. Нормировка по дисперсиям и математическим ожиданиям.

Целью данной нормировки является приведение каждого показателя к стандартному виду (в результате математическое ожидание любого показателя становится равным нулю, а дисперсия — единице).

Пусть

т.е.

(2.29)

2.2. Нормировка по наилучшим или наихудшим значениям [В.С.Тикунов, 1985).

Целью данной нормировки является перевод показателя в проценты отклонений от заданного наилучшего или наихудшего значения с. Пусть


Часто (не всегда) в качестве с берут максимальные или минимальные значенияу-го показателя или о^п. Допустим, максимальное значение показателя до нормировки соответствовало наилучшей ситуации в ОТЕ (например, ожидаемой продолжительности жизни). Если нормировать показатель по максимальному значению, то нулю будет соответствовать наилучшее значение, единице — наихудшее.

Полученные в результате нормировки по наилучшим или наихудшим значениям о\п ограничены отрезком [0,1]. Иногда в формулу нормировки вводят умножение на 100, изменяя диапазон значений на отрезке [0,100].

В ряде случаев требуется нормировать показатели по наилучшим или наихудшим условным значениям. Например, для оценок заболеваемости теоретически наилучшее значение — нуль, т.е. можно положить с = 0 «[о^п, 0^2x1 • При этом следует изменить знаменатель в формуле нормировки:

(2.31)

Взвешивание показателей. Процесс получения весов для показателей необходим для корректного проведения классификаций. Зачастую, по аналогии с различными единицами измерения показателей, различны и их вклады, значимость для данной предметной области. Исследователь, например, может включить в число показателей анализа первостепенные и второстепенные, а для различия степени их влияния на конечный результат уменьшить влияние второстепенных показателей, «взвешивая» их. Такое взвешивание может заключаться в делении уже нормированного показателя j € {1              М\ на какое-либо число t е R, т.е. присвоении

показателю.

При типологических классификациях знак веса никак не влияет на результат анализа, поскольку исходный показатель можно умножать на -1. В случае использования показателей для проведения оценочных классификаций их знаки могут оказаться решающими. Так, взвешивание может заключаться только в домножении некоторых показателей на -1, чтобы увеличение значений любого из них сигнализировало бы или об улучшении, или об ухудшении ситуации в рассматриваемой ОТЕ.

Способы получения объективных весов для показателей различны. Наиболее часто используется экспертный метод, при котором специалист или их группа в конкретной предметной области оценивает важность каждого показателя. Существуют также и так называемые аналитические методы. Проблема взвешивания показателей в географических исследованиях обсуждается в работе (В.С.Тикунов, 1997).

После нахождения вектора весов и = (И|,...,ш#) он применяется либо к матрице ОТЕ-признак, либо используется при расчете расстояний между ОТЕ в признаковом пространстве.

Анализ главных компонент. Анализ главных компонент, или компонентный анализ, — один из наиболее часто используемых методов снижения размерности. Данным методом решается задача отыскания на основе существующей системы атрибутивных признаков, описывающих ОТЕ, новой системы со следующими свойствами: признаки новой системы являются линейными комбинациями признаков исходной системы; количество признаков в новой системе в общем случае не больше, а на практике всегда меньше числа признаков в исходной системе; признаки новой системы ортогональны, т.е. не коррелиро- ваны; признаки новой системы упорядочены в порядке убывания дисперсии; признаки новой системы несут столько же информации (или наперед заданный процент информации, например 90 %) об изменчивости объектов, сколько и исходные признаки. Под информацией понимается дисперсия признаков.

Метод главных компонент следует применять для исправления искаженного взаимными корреляциями исходного пространства признаков, снижения объемов хранящихся данных без потери существенной части информации об ОТЕ, визуализации ОТЕ в пространстве признаков (что достигается, например, изображением ОТЕ в виде точек на плоскости первых двух главных компонент) и выявления латентных (т.е. скрытых, не наблюдаемых в явном виде) показателей, отражающих суть процесса или явления.

В матричной форме результат работы метода главных компонент записывается в следующем виде:

Z = XL или ZNxm = XNxMLUxm,              (2.32)

где М — количество исходных признаков; т — количество полученных главных компонент, т lt; М; Z = Zjv*m = (z(l),..., z(m)) — матрица новых признаков (как и в исходной матрице, признаки расположены по столбцам); X = XNxM = (о(|),..., о(М)) — исходная матрица ОТЕ-признак; L = LMxm =(/(|),...,/lt;т)) — вычисленная матрица компонентных нагрузок.

Наиболее просто воспринимается геометрическая интерпретация метода главных компонент. В многомерном пространстве признаков ОТЕ рассматриваются как точки, геометрическая структура облака которых в случае нормального распределения напоминает ^/-мерный эллипсоид. За новые признаки принимаются главные оси воображаемого эллипсоида, отсортированные в порядке уменьшения дисперсий ОТЕ по осям.

Применение метода главных компонент в качестве предварительного этапа классификации описано в подразд. 3.1 «ГИС и дис-

танционное зондирование». Компонентный анализ является не единственным методом снижения размерности. В качестве примеров других распространенных методов снижения размерности можно отметить факторный анализ, многомерное шкалирование и метод экстремальной группировки признаков.

Агрегирование. Агрегирование в наиболее простой интерпретации является одним из методов перехода от множества исходных показателей к единственному, по которому следует различать ОТЕ. В общем случае методы агрегирования оперируют показателями, измеренными в различных шкалах, и служат для получения иерархии признаков.

Агрегирование очень часто используется в географических и экологических исследованиях, поскольку позволяет получать оценочные классификации по многим показателям. Чаще всего результирующий показатель получают таким образом, чтобы ОТЕ с его минимальными значениями могли интерпретироваться как «плохие», а с максимальными — как «хорошие» (в разрезе проблемы, описываемой показателями), или наоборот.

Ограничимся рассмотрением двух наиболее часто используемых методов, которые позволяют получить единственный результирующий признакпутем: суммирования значений предварительно нормированных и взвешенных показателей, т.е.

расчета расстояний до наилучшей или наихудшей (возможно условной) ОТЕ о', т.е.

В первом случае нормировка показателей может производиться и по дисперсиям, и по наилучшим (наихудшим) значениям. Важно, чтобы после нормировки большие (меньшие) значения всех показателей указывали на лучшую (худшую) ситуацию в ОТЕ, или наоборот. Если нормировка производилась по дисперсиям (и соответственно направление признаков не учтено), необходимо домножить, например, группу негативных признаков на -1. Метод главных компонент для «исправления кривизны» признакового пространства здесь применяться не может, так как полученные главные компоненты могут не быть в общем случае интерпретируемыми в терминах хорошо-плохо.

Второй метод подразумевает образования (УУ+1)-й условной ОТЕ о', показатели которой являются наилучшими (наихудшими). Вектор о' = (о',, ...,о'м) покоординатно необходимо дописать в матрицу ОТЕ-признак. Далее показатели можно (и нужно) нормировать, взвешивать, проводить компонентный анализ. После этого и

рассчитываются расстояния от (7V+l)-ft условной ОТЕ о' до всех остальных ОТЕ и формируется новый признак. Большие значения этого признака сигнализируют о худшей (лучшей) ситуации в ОТЕ по комплексу исходных показателей.

Можно заметить,- что второй метод сводится к первому при нормировке по наилучшим (наихудшим) значениям, без применения метода главных компонент, и использовании манхэттенского расстояния d(т.е. первый метод — частный случай второго).

Методы классификации, основанные на описании классов ядрами. «Ядерные» методы нацелены на выявление сгущений ОТЕ в признаковом пространстве и ранее носили чисто эвристический характер, так как понятие компактности ОТЕ в признаковом пространстве не было формализовано. Для ряда эвристических процедур с развитием теории были найдены функционалы качества разбиения на группы и тем самым формализовано соответствующее им понятие компактности [С. А. Айвазян и др., 1989. — С. 217]. В соответствии с этим алгоритмы классификации, основанные на описании классов ядрами, подразделяют на эвристические и оптимизационные. Кроме того, методы можно разделить по способу подачи ОТЕ на вход алгоритма. Если ОТЕ подаются по одному (последовательно), то соответствующие процедуры называются последовательными. Если на вход алгоритмов подаются сразу все ОТЕ, то они называются параллельными. Преимуществом последовательных процедур является высокая скорость работы, параллельных — независимость получаемой классификации от порядка ОТЕ в исходном множестве О.

Под ядром класса подразумевается некоторая реально существующая или условная наиболее «представительная» ОТЕ, весь комплекс характеристик которой является эталоном данного класса. Часто алгоритмы, основанные на описании классов ядрами, используют процедуру классификации ОТЕ к ядрам по минимальности расстояний: задаться метрикой d; найти ядра классов; классифицировать все ОТЕ к ядрам по минимальности расстояния до них.

Для нахождения ядер обычно используют обучающую выборку, по которой находят геометрические центры классов, или применяют специальные формальные процедуры.

Некоторые эвристические подходы к выбору ядер. Некоторые эвристические формализованные процедуры выбора ядер классов известны уже более двух десятков лет [В.С.Тикунов, 1978].

Во-первых, отыскивать ядра классов можно исходя из принципа их максимальной гетерогенности. Например, в качестве первых двух ядер можно выбрать две ОТЕ, наиболее отличающиеся между собой по комплексу показателей. Далее, если уже имеется (А1-!)

ядер, в качестве К-то ядра выбирается ОТЕ, наиболее отличающаяся от (АЧ) ядер.

Другой принцип формирования ядер основывается на выделении максимально гомогенных классов ОТЕ. При выборе ядер классов необходимо, чтобы при отнесении к ним оставшихся ОТЕ по минимальности расстояния (и получении таким образом системы классов) используемый функционал качества классификации Q достигал своего экстремума (максимума или минимума, в зависимости от интерпретации функционала качества).

Еще одним «ядерным» эвристическим алгоритмом является метод последовательного выделения ядер. В основе этого метода лежит предположение о том, что классы находятся друг от друга на некотором расстоянии с, превышающем внутриклассовые расстояния между ОТЕ. Алгоритм начинает свою работу с формирования первого ядра, которым становится о(. Далее, на каждом следующем шаге алгоритма рассматривается очередная ОТЕ о,.

Если существует у-е ядро, расстояние от которого до о,- меньше порога с, о, относится ку'-му классу. В противном случае о, формирует новый класс и становится его ядром.

Недостатками алгоритма являются: необходимость выбора порогового значения с и зависимость результатов от последовательности поступлений ОТЕ на вход классификатора (т.е. на одном и том же наборе ОТЕ могут быть получены разные варианты классификации, в зависимости от их нумерации). Второй недостаток является общим для всех последовательных процедур.

Метод k-средних. Метод fc-средних является одним из самых известных параллельных оптимизационных алгоритмов классификации данных, основанных на описании классов ядрами. Идея алгоритма заключается в постоянном пересчете ядер классов, что позволяет в процессе его работы выйти на реальную структуру сгущений ОТЕ в признаковом пространстве. С формальной точки зрения алгоритм минимизирует суммарный разброс ОТЕ вокруг ядер.

Несомненным преимуществом алгоритма является лучшее, нежели без пересчета ядер классов, качество классификации, способность находить истинные ядра и скопления ОТЕ в признаковом пространстве. Недостаток алгоритма — большое количество вычислений.

Параметрические методы классификации, основанные на модели смеси распределений. Модель смеси распределений в наиболее простом случае конечного числа классов М и однотипности компонент записывается в виде

/lt;gt;(*) = ?/gt;,/(*, ОД              (2.33)

(=1

гдеУо(х) — плотность генеральной совокупности; М — число компонент смеси; р, — вероятность появления /-Й компоненты смеси;

f(x, 9, ) — плотность i-й компоненты смеси; 9, — вектор параметров для /-й компоненты смеси (например, для одномерного нормального распределения 9, = (ц,,а,)).

Модель смеси распределений применительно к задачам классификации подразумевает, что /-й класс полностью характеризуется /-й компонентой смеси и вероятностью ее появления. Задача классификации ОТЕ состоит в определении, в рамках какого из классов появление данной ОТЕ наиболее вероятно.

Самым сложным этапом при классификации на основе модели смеси распределений является процедура идентификации смеси, т.е. алгоритм получения числа классов М и оценок для /gt;, и 9„ которые необходимы для построения решающего правила. Не все смеси идентифицируемы, т.е. не для всех типов распределений можно найти единственные оценки М, р, и 9,. Например, смесь нормальных распределений идентифицируема, а смесь равномерных — нет.

Существуют различные подходы к оцениванию по множеству ОТЕ параметров смеси, наиболее распространенным из которых является ЕМ-алгоритм.

Название ЕМ-алгоритм происходит от сокращений английских терминов Estimation (оценивание) и Maximization (максимизация).

Этот метод для фиксированного числа классов (элементов смеси) К позволяет определять оценки параметров смеси р, и 9„ / е {1,..., К) путем многократного нахождения очередных приближений к оценкам (шаг Estimation) и максимизации с учетом приближений функции правдоподобия (шаг Maximization).

Иерархические методы классификации. Иерархические методы классификации нацелены либо на последовательное объединение исходных ОТЕ в заранее заданное или незацанное меньшее количество классов, либо, наоборот, на расчленение одного или нескольких классов до нужной степени детализации. Процедуры первого типа носят название иерархических агломеративных алгоритмов классификации, второго — иерархических дивизимных алгоритмов классификации.

Исходной информацией для проведения иерархической классификации обычно служит матрица близостей вида ОТЕ-ОТЕ. Исключением является, например, дивизимный алгоритм на основе метода 2-средних (т.е. метода ^-средних при к= 2).

Преимуществами иерархических алгоритмов являются возможности их применения без наличия априорной информации о свойствах классов (например, ядер классов или обучающих выборок), модификации для целей географического районирования, применения при неизвестном числе классов и наглядной визуализации хода и результатов классификации на специальном графике, который называется дендрограммой:


На оси х этого графика изображаются ОТЕ (в том порядке, в котором они объединялись или разъединялись), по оси у — либо шаг алгоритма, либо расстояние между вновь объединяемыми или разделяемыми классами. Два объединяемых или разъединяемых класса соединяются П-образной линией. Ее нижние концы упираются в середины двух классов, а длины вертикальных отрезков равны расстоянию между классами.

К недостаткам иерархических процедур следует отнести большую вычислительную стоимость их реализации. Данный недостаток частично компенсируется существованием так называемых «быстрых» (или «пороговых») иерархических алгоритмов.

Агломеративные алгоритмы. Классический агломеративный алгоритм иерархической классификации начинает свою работу с формирования К\ = N классов (при этом каждая ОТЕ на нулевом шаге представляет отдельный класс) и проводит в общем случае /= N-1 итерацию. На каждом шаге алгоритма происходит объединение двух «ближайших» классов в один, т.е. К„- 1 = К„+1. Последний (ЛМ)-й шаг алгоритма характеризуется объединением двух сформированных на предыдущих этапах классов в один класс, включающий в себя все имеющиеся (поступившие на вход анализа) ОТЕ. Выбор расстояния настолько влияет на результат классификации, что зачастую оно вносится в название алгоритма (например, «агломеративный алгоритм средней связи»).

Если число классов К, которое нужно получить, известно заранее, достаточно провести /= N- К итераций, в результате которых и будет сформировано ровно К классов. Если количество классов заранее неизвестно, то анализируются либо значения функционала качества разбиения для К е {2,..., ¦?„*„}, либо применяются другие методы (см., например, метод анализа сложности группи- ровочного дерева в работе В. И. Блануца, 1993. — С. 94). Информацию о количестве классов может дать и визуальный анализ дендрограммы.

Необходимо отметить существование так называемых «быстрых» агломеративных алгоритмов. Они основаны на использовании некоторой заранее задаваемой или настраиваемой в процессе клас-

сификации последовательности пороговых значений ct,.... с, (при этом вполне возможно, что с, = с = const V/j е {1,/}).

На очередной итерации алгоритма п е {!,...,/} объединяются те классы, расстояния между которыми не превышают заданного порога с-,. Таким образом, на каждом шаге не требуется искать минимальный элемент в матрице расстояний. При верном выборе пороговых значений такой подход повышает скорость работы алгоритма без потери качества классификации.

Детальное описание процедур агломеративных иерархических классификаций можно найти в работе [М.Жамбю, 1989].

Дивизимный алгоритм. Дивизимный алгоритм иерархической классификации начинает свою работу с формирования единственного класса, содержащего все ОТЕ, и проводит в общем случае /= = N-1 итерацию. На каждом шаге алгоритма происходит последовательное разделение одного из классов на два таким образом, чтобы качество получаемой классификации было максимальным. Последний шаг работы алгоритма делит единственный оставшийся нерасчлененный класс, состоящий из двух ОТЕ, на два класса (по одной ОТЕ в каждом).

Дивизимный алгоритм на основе расчленения графа близостей.

Дивизимный алгоритм расчленения графа, по аналогии с «быстрым» агломеративным алгоритмом, требует задания последовательности пороговых значений сь ..., с,. На каждой итерации алгоритма п € {1,..., /} происходит исключение из графа ребер с большими значениями, после чего проверяется, на сколько подграфов (компонент связности) распался исходный граф. Каждый подграф представляет собой отдельный класс.

Методы районирования. Алгоритмы формального районирования направлены на получение территориально нерасчлененных районов, выделяемых по критерию их несхожести в признаковом пространстве с учетом выбранной метрики или матрицы близостей ОТЕ- ОТЕ. Районирование является классической задачей географии, где оно выполняется по логическим правилам и кроме признака несхожести и территориальной нерасчлененности районов зачастую, как, например, в социально-экономической географии, требуется дополнительно наличие ядра районообразования, районообразующих связей и др. Рад алгоритмов формального районирования, с одной стороны, практически полностью дублирует алгоритмы классификации с добавлением дополнительной процедуры проверки условия на наличие смежности у объединяемых в районы территориальных единиц. С другой стороны, существуют специфические алгоритмы районирования, для которых отсутствуют аналоги в классификации (например, метод барьеров максимальных различий, классические примеры физико-географического районирования).

Для систематизации методов районирования, по аналогии с обычными классификациями, используют несколько оснований.

По сфере применения выделяют природное и социально-экономическое районирование. Именно в Этих сферах важна территориальная нерасчлененность районов. Природные признаки априорно распределены непрерывно по территории, а социальноэкономическая география является основой территориального управления.

По интерпретации расстояний между объектами в пространстве признаков многие авторы выделяют узловое и однородное районирование. Узловое районирование позволяет формировать районы на основе силы связей между ОТЕ, однородное — на основе «похожести» значений их показателей. С содержательной точки зрения это разные группы методов. С математической точки зрения разница между ними сводится только к различию способов выбора метрики и функционалов расстояний и качества.

По степени охвата районирование можно подразделить на интегральное и отраслевое [В. И. Блануца, 1993. — С. 3]. Например, в случае экологического интегрального районирования оценивается экологическая ситуация в целом, а в случае отраслевого экологического районирования — какой-либо аспект экологической ситуации (состояние воздушной среды, почв, растительного покрова и т.д.). Отраслевое районирование отличается от интегрального только подбором признаков и способом их предварительной обработки.

По динамике изменения характеристик классов ОТЕ в одном из пространств методы районирования подразделяются на нацеленные на выявление районов с разными трендами атрибутивных признаков и на определение тенденции изменения сетки районов.

Методы районирования, основанные на описании районов ядрами. Основной проблемой этого класса методов является выбор ядер районов, которые обязаны быть реальными ОТЕ. После того как ядра районообразования получены, начинается последовательное присоединение к ним максимально «похожих» смежных ОТЕ.

В экологических и географических исследованиях часто применяют для районирования стандартные методы классификации, а после получения классов анализируют их пространственную структуру. Затем, выделив в каждом классе несколько ОТЕ, образующих пространственно-целостный район, полагают их ядрами районов. После этого выделенные ядра расширяются путем доклассификации оставшихся ОТЕ по приведенному выше алгоритму.

Методы районирования, основанные на модели смеси распределений. Параметрические методы классификации на основе модели смеси распределений играют важнейшую роль в прикладной статистике. На основе этих методов разработаны эффективные алгоритмы, которые могут применяться для классификации и экологических, и географических данных.

В работе [C.Ambroise, G.Govaert, 1996] описана модификация ЕМ-алгоритма, которую авторы назвали NEM-алгоритмом (Neighborhood ЕМ-алгоритм). Этот метод позволяет учитывать помимо атрибутивного признакового пространства и любое другое пространство, заданное матрицей близостей ОТЕ-ОТЕ. В данном случае дополнительным пространством будет географическое, а матрица близостей может быть как бинарной таблицей смежности, так и заданной пространственными расстояниями между парами ОТЕ.

По аналогии с ЕМ-алгоритмом, NEM-алгоритм итерационно находит оценки всех параметров, на каждом шаге улучшая их. Оценки апостериорных вероятностей р(р используются для районирования (или нечеткого районирования) точно так же, как и в классическом ЕМ-алгоритме. Недостатком алгоритма является необходимость подбора параметра веса пространства, от значений которого сильно зависит результат районирования.

Иерархические методы районирования. Отличие агломеративных алгоритмов районирования от соответствующих алгоритмов классификации состоит в формировании матрицы пространственной смежности и проверке на каждом шаге граничности объединяемых районов. При этом классические агломеративные алгоритмы классификации можно использовать для районирования при условии, что минимум расстояния между районами (или максимум функции качества при объединении) ищется только для пространственно-смежных районов.

Быстрый агломеративный алгоритм районирования полностью соответствует быстрому агломеративному алгоритму классификации с добавлением этапа проверки на шаге п граничности объединяемых районов, расстояния между которыми в признаковом пространстве меньше константы с„.

Большинство дивизимных алгоритмов районирования, по аналогии с «ядерными» и агломеративными, получается путем естественной модификации классических методов классификации. Дивизимному алгоритму классификации, основанному на методе 2-средних, соответствует полностью повторяющий его метод районирования на основе алгоритма 2-медоидов. Дивизимному алгоритму, основанному на расчленении графа, соответствует давно описанный в стандартной литературе по прикладной статистике [С. А. Айвазян и др., 1989] метод классификации при ограничениях. Ограничения накладываются на используемую в дивизимном алгоритме матрицу близостей А признакового пространства матрицей пространственной смежности G в соответствии с формулой

(2.34)

Это условие соответствует удалению из графа расстояний признакового атрибутивного пространства (соответствующего матрице А) ребер, соединяющих пространственно несмежные ОТЕ. После удаления ребер к полученному графу применяют дивизимный алгоритм на основе расчленения графа, описанный выше.

Помимо стандартных методов разработаны и широко используются специализированные для экологии и географии процедуры районирования, для которых отсутствуют аналоги в классификации. Речь в первую очередь идет о методе барьеров максимальных различий, предложенном М.С.Монмонье [М. S. Monmonier, 1973]. Этот метод применим только к ОТЕ полигонального типа.

Значением барьера для заданного района (содержащего более одной ОТЕ) будем называть максимальное расстояние между двумя пространственно смежными ОТЕ этого района в пространстве показателей, барьером — границу между двумя соответствующими ОТЕ. Обозначать значение барьера /-го района будем символом

ту.

B(Si) = max {d(oix, oiy) \ oix, oiy e S„g(oix, oiy) = 1}.              (2.35)

Для районирования методом барьеров максимальных различий вычисляются расстояния только между пространственно смежными ОТЕ, а все ОТЕ при инициализации алгоритма относятся к одному единственному району. После этого на каждом шаге происходит деление одного из полученных районов на два (необязательно равных по площади) района. Начинается деление с определения в каждом из уже полученных районов по одному значению барьеров, среди которых отыскивается максимальный. Район, имеющий в своем составе барьер с максимальным значением, подлежит делению. По обе стороны от барьера итеративно проводится граница — до тех пор, пока она не разделит текущий район. Очередная итерация расширяет границу за счет присоединения следующего барьера (который вычисляется без учета пар ОТЕ, уже поучаствовавших в образовании предыдущих барьеров), примыкающего к границе.

Можно ограничить количество итераций алгоритма, либо заранее задавая искомое число классов К, либо вводя некоторый порог с. Поскольку значения барьера максимальных различий уменьшаются с каждым шагом алгоритма, критерием о(;тановки алгоритма является условие

B(SJ) = таx{B(Sp) | / е 1,..., п} lt; с, j е {1,.... п].

Большое разнообразие примеров и методик классификации в экологии и географии, среди которых типологические, оценочные и комплексные классификации, классификации «нечетких» систем, проблемы взвешивания показателей, оценка надежности классификаций и другие можно найти в книге [В.С.Тикунов, 1997].

Контрольные вопросы Какие методы расчета расстояний применяют в географии? Охарактеризуйте показатели качества классификаций. В чем различие оценочных и типологических классификаций? В чем различие методов контролируемой и неконтролируемой классификации? В чем смысл «нечетких» классификаций? Для чего нужны нормировки показателей? Что позволяет улучшить «взвешивание» показателей? Охарактеризуйте методы классификации, основанные на описании классов ядрами. Опишите смысл параметрических методов классификации, основанных на моделях смеси распределений. Охарактеризуйте иерархические методы классификации. Перечислите основные методы, применяемые для районирования. 

<< | >>
Источник: Е. Г. Капралов,  А. В. Кошкарев, В. С. Тикунов. Геоинформатика: Учеб, для студ. вузов. 2005

Еще по теме Общие аналитические операции и методы пространственно-временного моделирования:

  1. ГЛАВА VI. Пространственные и временные структуры (X — XIII вв.)
  2. 1.4 Общие подходы к моделированию процесса сушки.
  3. 10.4. Методы аналитической работы
  4. 2 АНАЛИТИЧЕСКИЙ МЕТОД ОПРЕДЕЛЕНИЯ ЗАБОЙНОГО ДАВЛЕНИЯ ПРИ ЦИРКУЛЯЦИИ БУРОВОГО РАСТВОРА
  5. ОБЩИЕ ВЫВОДЫ ПО МАДРИДСКОЙ ОПЕРАЦИИ ОКТЯБРЯ—НОЯБРЯ 1936 ГОДА 1.
  6. 22.3. Специальные методы исследования трудовых операций и деятельности
  7. 2. Методика расчета энергетических затрат и затрат машинного времени при сиуско-иодьемных операциях за цикл бурения скважины
  8. Общие характеристики методов
  9. 22.2. Общие методы исследования отдельных движений и действий
  10. 20.1. Общие сведения о системе биографических методов