Способ обработки изображений дистанционного зондирования земли с помощью нейронной сети со штрафом на точность границы сегментации

Изобретение относится к способу способ обработки геопространственных спутниковых данных. Технический результат заключается в повышении качества обработки спутниковых снимков. В способе получают спутниковые снимки и сохраняют их в базе данных, далее снимки нормализуют, сегментируют и обрабатывают посредством нейронной сети, обученной с помощью финальной функции потерь, представленной как линейная сумма трех слагаемых: бинарной кросс-энтропии, функции потерь, основанной на метрике Intersection over Union, и функции потерь, основанной на дифференцируемом аналоге метрики оценивания качества граничной F-меры, получаемой следующим образом: получают карты границ сегментов, на основании которых получают карты границ большей толщины, далее получают показатели точности и полноты, посредством попиксельного произведения полученных сегментационных карт, на основании которых получают дифференцируемый аналог метрики оценивания качества граничной F-меры; на выходе нейронной сети получают снимки, где значение каждого пикселя является вероятностью принадлежности пикселя к определенному классу объектов; значения пикселей округляют по пороговому значению, и соединяют полученные сегменты, образуя сегментационную карту спутникового снимка. 3 з.п. ф-лы, 4 ил.

 

ОБЛАСТЬ ТЕХНИКИ

Настоящее техническое решение относится к области дистанционного зондирования Земли (ДЗЗ), в частности, к компьютерно-реализованному способу обработки геопространственных спутниковых данных с помощью компьютерного зрения.

УРОВЕНЬ ТЕХНИКИ

Благодаря тому что данные ДЗЗ становятся доступны все с большим пространственным и спектральным разрешением, подходы объектного анализа изображения набирают все больший вес. Сравнивая с традиционными подходами, ориентированными на отдельные пиксели в изображении, объектные методы анализа используют области или, как их по-другому называют в цифровой обработке изображений, сегменты изображения, как базовые единицы. Ключевым этапом в объектно-ориентированном анализе является сегментация изображений. Целью сегментации является упрощение и/или изменение представления графической информации во что-то более значимое и простое для последующего анализа.

Семантическая сегментация спутниковых изображений земной поверхности является ключевым шагом в процессе анализа изображения, целью которого является получение карты соответствия каждого пикселя определенному классу. Применения этому существуют в мониторинге окружающей среды, планировании городского строительства и развития, мониторинге лесов и с/х территорий и др.

Применение предлагаемого метода главным образом направлено на сегментацию зданий. Как правило, снимки городской застройки представлены в высоком разрешении. Более высокое разрешение вносит множество мелких деталей и структур на изображение.

Впоследствии полученные сегментированные снимки используются для оценки высотности зданий, предсказания численности населения и экономических прогнозов. Для большинства задач необходимо, чтобы сегменты, соответствующие близстоящим зданиям, были разделены границей, поэтому требуется создание способа, повышающего внимание нейронной сети к краям сегментов соседствующих объектов. Достигнуть этого можно с помощью вычисления специальной функции потерь, которая способна выделять границы сегментов из предсказания нейронной сети и накладывать штраф на области, где предсказанные границы сегментов не совпадают с границами идеально сегментированного изображения.

Из уровня техники известен источник информации RU 2656708 C1, 06.06.2018, который раскрывает способ разделения иллюстраций, содержащий этапы получения данных, сегментации данных, нормализации, а в качестве функции потерь используется средняя абсолютная ошибка в процентах.

Однако использование в качестве функции потери средней абсолютной ошибки в процентах, не принесет получение сегментов высокого качества, а также не получится определение высокой точности сегментации вблизи границ сегментов.

Наиболее близким аналогом является источник информации CN110428432 A, 08.11.2019, в котором создается шаблон набора данных, строится модель сегментационной сети. Сеть состоит из интенсивных свёрточных нейронных сетей и усовершенствованной U-Net, а интенсивные свёрточные нейронные сети используются для извлечения информации на изображении. В качестве функции потерь используют сумму метрики IoU и функции фокальных потерь (Focal Loss), которая является BF1, для решения задачи сегментации контуров, потому что существует серьезный дисбаланс класса в профиле и фоновом пикселе, чтобы повысить точность сегментации профиля, здесь используется функция фокальных потерь, которая может эффективно улучшить характеристики точечного среза.

Однако в данной работе функция потерь нейронной сети не выделяет границы настоящего и предсказанного сегмента автоматически, а требует заранее подготовленной разметки. Также в предлагаемом нами техническом решении присутствует третье слагаемое, соответствующее бинарной кросс-энтропии. Его необходимость обусловлена тем, что спутниковые снимки являются более сложными и разнообразными по сравнению с медицинскими снимками, а кросс-энтропия помогает уменьшить расстояние между истинным и предсказанным распределением масок сегментов.

СУЩНОСТЬ ИЗОБРЕТЕНИЯ

Технической проблемой, на решение которой направлено заявленное техническое решение, является создание компьютерно-реализуемого способа обработки геопространственных спутниковых данных с помощью компьютерного зрения, который охарактеризован в независимом пункте формулы. Дополнительные варианты реализации настоящего изобретения представлены в зависимых пунктах изобретения.

Технический результат заключается в получение высокой точности сегментации вблизи границ сегментов.

В предпочтительном варианте реализации заявлен компьютерно-реализованный способ обработки геопространственных спутниковых данных с помощью компьютерного зрения, включающий этапы, на которых:

- получают спутниковые снимки и сохраняют их в базе данных;

- в модуле предобработки сохраненные снимки нормализуют и сегментируют;

- предобработанные снимки поступают на вход нейронной сети, которая обучена с помощью финальной функции потерь, представленной как линейная сумма трех слагаемых, а именно: бинарной кросс-энтропии, функции потерь, основанной на дифференцируемом аналоге метрики оценивания качества BF1 и функции потерь, основанной на метрике IoU;

- на выходе нейронной сети получают снимки, значение пикселей которых, является вероятностью принадлежности пикселя к определенному классу объектов;

- в модуле постобработки значения пикселей округляют по пороговому значению, после чего полученные сегменты соединяют, образуя сегментационную карту спутникового снимка.

В частном варианте, результатом расчета бинарной кросс-энтропии является вероятность соответствия целевой метке пикселя и предсказанной метке пикселя.

В другом частном варианте, результатом функции потерь, основанной на дифференцируемом аналоге метрики оценивания качества BF1, является выделение границ целевого и предсказанного сегмента, расширенных границ целевого и предсказанного сегмента и попиксельное произведение сегментационных карт.

В другом частном варианте результатом функции потерь, основанной на метрике IoU, является определение количества совпадений предсказанных пикселей с реальными пикселями.

ОПИСАНИЕ ЧЕРТЕЖЕЙ

Реализация изобретения будет описана в дальнейшем в соответствии с прилагаемыми чертежами, которые представлены для пояснения сути изобретения и никоим образом не ограничивают область изобретения. К заявке прилагаются следующие чертежи:

Фиг. 1 иллюстрирует общую схему обработки данных спутникового изображения.

Фиг. 2 иллюстрирует сегментацию данных изображений на участки для подачи данных на вход нейронной сети.

Фиг. 3 иллюстрирует пример матриц значений на каждом шаге вычисления функции потерь.

Фиг. 4 иллюстрирует блок-схему вычислительного устройства.

ДЕТАЛЬНОЕ ОПИСАНИЕ ИЗОБРЕТЕНИЯ

В приведённом ниже подробном описании реализации изобретения приведены многочисленные детали реализации, призванные обеспечить отчётливое понимание настоящего изобретения. Однако квалифицированному в предметной области специалисту будет очевидно, каким образом можно использовать настоящее изобретение как с данными деталями реализации, так и без них. В других случаях хорошо известные методы, процедуры и компоненты не были описаны подробно, чтобы не затруднять понимание особенностей настоящего изобретения.

Кроме того, из приведенного изложения будет ясно, что изобретение не ограничивается приведенной реализацией. Многочисленные возможные модификации, изменения, вариации и замены, сохраняющие суть и форму настоящего изобретения, будут очевидными для квалифицированных в предметной области специалистов.

Настоящее изобретение направлено на обеспечение компьютерно-реализованного способа обработки геопространственных спутниковых данных с помощью компьютерного зрения.

Полученные изображения земной поверхности с помощью спутниковой фотосъемки, используются для получения карт сегментации, где сегментами выступают объекты на снимках (здания). Для оценивания качества сегментации используются метрики оценивания. Заявленный способ обработки геопространственных спутниковых данных с помощью компьютерного зрения, направлен на применение метрики оценивания в обучении нейронной сегментационной сети, а именно использование метрики в качестве функции потерь.

В данном техническом решении такой метрикой выступает граничная F мера (BF1). F-мера является хорошим кандидатом на формальную метрику оценки качества классификатора. Она сводит к одному числу две другие основополагающие метрики: точность и полноту. Чтобы использовать данную метрику как функцию потерь, получен дифференцируемый аналог метрики, или суррогат. Данная функция выделяет границы сегментов на изображениях, полученных на выходе нейронной сети и идеально сегментированного изображения, а затем по этим границам считается само значение метрики с помощью дифференцируемых операций. Важным свойством суррогата является возможность настраивать толщину выделяемой границы, что особенно важно для изображений с плотной застройкой зданий.

На фигуре 1 показаны шаги способа, которые осуществляется с помощью вычислительного устройства. Провайдеры спутниковых данных (101) предоставляют спутниковые трехканальные (RGB) снимки земной поверхности с разрешением не менее 0.3 м, для их последующей обработки. К каждому снимку также прилагается эталонное одноканальное изображение того же размера с бинарной разметкой сегментов класса зданий. Данные одноканальные изображения получают при помощи специальных программных обеспечений, например QGIS или AeroNet, в которых размечают спутниковые снимки, а именно присваивают значение 1 пикселю, который соответствует классу зданий и 0 если пиксель соответствует фону. Данные одноканальные снимки необходимы для обучения нейронной сети и представляют собой идеально сегментированную разметку. Далее снимки сохраняются в базе данных (102).

На этапе предобработки (103), спутниковые трехканальные изображения проходят этап нормализации, выравнивание гистограммы изображения. Более подробно, изображение y, представленное тремя матрицами целых значений [0, 255] yR,yG,yB нормализуется к диапазону значений [0, 1]: y, norm=y/255. Далее три канала yR,yG,yB подаются на вход операции выравнивания гистограммы (opencv). Также все снимки сегментируются на участки размером 512×512 пикселей и подаются на вход нейронной сети (104), вместе с эталонными одноканальными изображениями, для ее обучения на этапе построения сегментационной модели с оригинальной функцией потерь, (показано на Фиг. 2), величина перекрытия между соседними участками 128 пикселей.

Обучение нейронной сети является итеративным, то есть, когда происходит предсказание, нейронная сеть выдает предсказанное одноканальное изображение. Данное предсказанное изображение сравнивается с эталонным одноканальным изображением, путем вычисления финальной функции потерь, которая способна выделить границы сегментов из предсказания нейронной сети и наложить штраф на области, где предсказанные границы сегментов не совпадают с границами идеально сегментированного изображения.

Штрафом называется ошибка в определении, которая является значением вычисленной функции потерь, чем оно выше, тем больше ошибка. Выходом нейронной сети являются одноканальные изображения размером 512×512 для каждого поданного на вход участка. Значениями пикселей полученного изображения являются вероятности принадлежности пикселя к классу зданий. Каждому пикселю присвоено одно из двух значений, из которых первое принадлежит классу зданий, а второе фону.

В модуле постобработки (105) все вероятности округляются по пороговому значению, здесь пороговое значение равно 0.5. Все значения в выходном изображении нейронной сети меньше 0.5 округляются до значения 0, а большие или равные этого значения округляются до значения 1. После этого участки размером 512×512 соединяются обратно в соответствии со схемой сегментации и получается одноканальное изображение того же размера.

В качестве нейронной сети выбрана модель семейства UNet. В качестве схемы компоновки внутренних слоев нейронной сети выбраны архитектуры ResNet и Inception-ResNet-v2.

Высокое качество получаемых сегментов возможно благодаря обучению сегментационной модели нейронной сети с помощью предлагаемой финальной функции потерь, которая является линейной комбинацией трех слагаемых:

- BCE (Binary Cross Entropy) – бинарная кросс-энтропия;

- функция потерь, основанная на суррогате метрики оценивания качества BF1 (Boundary F1);

- функция потерь, основанная на метрике IoU.

Обозначим следующие наборы данных: ygt - целевая сегментационная карта зданий соответствующая спутниковому изображению, ypd - сегментационная карта зданий, предсказанная нейронной сетью, - целевая сегментационная карта границ сегментов определенной толщины в пикселях, - предсказанная сегментационная карта границ зданий, sum() - сумма значений пикселей, N - количество пикселей на изображении. Картами здесь являются матрицы значений размером равным размерам входных изображений, для конкретного пикселя i, ygt,i принимает значение 0 и 1, ypd,i принимает значение на отрезке [0, 1].

Первым слагаемым функции потерь является бинарная кросс-энтропия (между картами применяются попиксельные операции):

Бинарная кросс-энтропия - статистическая метрика, пропорциональная расстоянию Кульбака-Лейблера между истинным распределением данных и предсказанным. Вероятностно данная метрика может быть проинтерпретирована, как вероятность соответствия правильной метки пикселя ygt,i и предсказанной метки ypd,i, где с помощью индекса i обозначен рассматриваемый пиксель.

Вторым слагаемым функции потерь является суррогат метрики оценивания качества BF1. Для данной модели суррогат строится поэтапно, сначала с помощью операции MaxPooling (далее - pool) выделяются границы сегментов:

Здесь параметром θ0 обозначен размер окна операции pool, оптимальное значение - 3. Далее из полученных карт границ необходимо получить карты границ большей толщины, утолщение границы регулируется параметром θ, максимальное значение которого рекомендуется устанавливать величиной минимального расстояния между соседними сегментами изображения.

После этого рассчитываются значения Precision (P) и Recall (R):

где операция ° обозначает попиксельное умножение сегментационных карт. В итоге получаем дифференцируемый суррогат метрики и соответствующую функцию потерь:

На Фиг. 3 можно увидеть примеры матриц значений на каждом шаге вычисления функции потерь: (a) - оригинальное изображение; (b) - целевой сегмент ygt; (c) - предсказанный сегмент ypd; (d) - граница целевого сегмента ; (e) - граница предсказанного сегмента ; (f) - расширенная граница целевого сегмента ; (g) - расширенная граница предсказанного сегмента ; (h) - попиксельное умножение (d) и (g), карта Precision; попиксельное умножение (e) и (f), карта Recall.

Последним слагаемым является функция потерь, основанная на метрике IoU, рассчитанная на сегментационных картах:

Intersection-over-Union (индекс Жаккарда) - наиболее распространенная метрика для задач сегментации. Выделив два множества целевого класса: предсказанное и истинное, метрика выражает отношение пересечения этих множеств к их объединению Данная метрика прекрасно справляется с проблемой несбалансированных классов, которая явно присутствует в области спутниковых снимков, где количество пикселей, соответствующих зданиям, много меньше количества пикселей фона. Тем не менее данная метрика оценивает лишь количество правильно классифицированных пикселей, не учитывая точность предсказания границ, которые, по сути, задают сегмент.

Благодаря финальной функции, обеспечивается возможность получения сегментов изображения более высокого качества, а также повышение внимания нейронной сети к краям сегментов соседствующих объектов.

На Фиг. 4 далее будет представлена общая схема вычислительного устройства (200), обеспечивающего обработку данных, необходимую для реализации заявленного решения.

В общем случае устройство (200) содержит такие компоненты, как: один или более процессоров (201), по меньшей мере одну память (202), средство хранения данных (203), интерфейсы ввода/вывода (204), средство В/В (205), средства сетевого взаимодействия (206).

Процессор (201) устройства выполняет основные вычислительные операции, необходимые для функционирования устройства (200) или функциональности одного или более его компонентов. Процессор (201) исполняет необходимые машиночитаемые команды, содержащиеся в оперативной памяти (202).

Память (202), как правило, выполнена в виде ОЗУ и содержит необходимую программную логику, обеспечивающую требуемый функционал.

Средство хранения данных (203) может выполняться в виде HDD, SSD дисков, рейд массива, сетевого хранилища, флэш-памяти, оптических накопителей информации (CD, DVD, MD, Blue-Ray дисков) и т.п. Средство (203) позволяет выполнять долгосрочное хранение различного вида информации, например, вышеупомянутых файлов с наборами данных пользователей, базы данных, содержащих записи измеренных для каждого пользователя временных интервалов, идентификаторов пользователей и т.п.

Интерфейсы (204) представляют собой стандартные средства для подключения и работы с серверной частью, например, USB, RS232, RJ45, LPT, COM, HDMI, PS/2, Lightning, FireWire и т.п.

Выбор интерфейсов (204) зависит от конкретного исполнения устройства (200), которое может представлять собой персональный компьютер, мейнфрейм, серверный кластер, тонкий клиент, смартфон, ноутбук и т.п.

В качестве средств В/В данных (205) в любом воплощении системы, реализующей описываемый способ, должна использоваться клавиатура. Аппаратное исполнение клавиатуры может быть любым известным: это может быть, как встроенная клавиатура, используемая на ноутбуке или нетбуке, так и обособленное устройство, подключенное к настольному компьютеру, серверу или иному компьютерному устройству. Подключение при этом может быть, как проводным, при котором соединительный кабель клавиатуры подключен к порту PS/2 или USB, расположенному на системном блоке настольного компьютера, так и беспроводным, при котором клавиатура осуществляет обмен данными по каналу беспроводной связи, например, радиоканалу, с базовой станцией, которая, в свою очередь, непосредственно подключена к системному блоку, например, к одному из USB-портов. Помимо клавиатуры, в составе средств В/В данных также может использоваться: джойстик, дисплей (сенсорный дисплей), проектор, тачпад, манипулятор мышь, трекбол, световое перо, динамики, микрофон и т.п.

Средства сетевого взаимодействия (206) выбираются из устройства, обеспечивающий сетевой прием и передачу данных, например, Ethernet карту, WLAN/Wi-Fi модуль, Bluetooth модуль, BLE модуль, NFC модуль, IrDa, RFID модуль, GSM модем и т.п. С помощью средств (205) обеспечивается организация обмена данными по проводному или беспроводному каналу передачи данных, например, WAN, PAN, ЛВС (LAN), Интранет, Интернет, WLAN, WMAN или GSM.

Компоненты устройства (200) сопряжены посредством общей шины передачи данных (210).

В настоящих материалах заявки было представлено предпочтительное раскрытие осуществление заявленного технического решения, которое не должно использоваться как ограничивающее иные, частные воплощения его реализации, которые не выходят за рамки испрашиваемого объема правовой охраны и являются очевидными для специалистов в соответствующей области техники.

1. Компьютерно-реализованный способ обработки геопространственных спутниковых данных с помощью компьютерного зрения, включающий этапы, на которых:

- получают спутниковые снимки и сохраняют их в базе данных;

- в модуле предобработки, сохраненные спутниковые снимки нормализуют и сегментируют;

- предобработанные снимки поступают на вход нейронной сети, которая обучена с помощью финальной функции потерь, представленной как линейная сумма трех слагаемых, а именно: бинарной кросс-энтропии, функции потерь, основанной на дифференцируемом аналоге метрики оценивания качества граничной F-меры, и функции потерь, основанной на метрике Intersection over Union, причем дифференцируемый аналог метрики оценивания качества граничной F-меры получают следующим образом: получают карты границ сегментов, на основании которых получают карты границ большей толщины, далее получают показатели точности и полноты, посредством попиксельного произведения полученных сегментационных карт, после чего получают дифференцируемый аналог метрики оценивания качества граничной F-меры на основании полученных показателей точности и полноты;

- на выходе нейронной сети получают снимки, где значение каждого пикселя является вероятностью принадлежности пикселя к определенному классу объектов;

- в модуле постобработки, значения пикселей округляют по пороговому значению, после чего полученные сегменты соединяют, образуя сегментационную карту спутникового снимка.

2. Способ по п.1, отличающийся тем, что результатом расчета бинарной кросс-энтропии является вероятность соответствия предсказанной метки пикселя целевой метке пикселя.

3. Способ по п.1, отличающийся тем, что результатом функции потерь, основанной на дифференцируемом аналоге метрики оценивания качества граничной F-меры, является выделение границ целевого и предсказанного сегмента, расширенных границ целевого и предсказанного сегмента и попиксельное произведение сегментационных карт.

4. Способ по п.1, отличающийся тем, что результатом функции потерь, основанной на метрике Intersection over Union, является определение количества совпадений предсказанных пикселей с реальными пикселями.



 

Похожие патенты:

Изобретение относится к средствам для автоматизированного определения, было ли изображение модифицировано. Технический результат заключается в повышении точности определения, было ли изображение модифицировано.

Группа изобретений относится к медицине. Предложены системы и способы распознавания ультразвуковых изображений, а также созданные с искусственным интеллектом обучаемые сети для таких систем и способов.

Изобретение относится к системам подтверждения подлинности. Технический результат заключается в обеспечении возможности подтверждения подлинности декоративного устройства, содержащего бриллианты без необходимости хранения данных.

Изобретение относится к вычислительной технике. Технический результат заключается в обеспечении распознавания геометрических фигур методом контурного анализа формы объекта.

Изобретение относится к области информационно-измерительных систем, в частности систем технического зрения, и предназначается для решения задач автоматизации поиска соответствий на двух и более цифровых изображениях.

Группа изобретений относится к медицине и представляет собой ультразвуковую систему и способ обнаружения скольжения легкого на основе временной последовательности кадров ультразвуковых данных первой представляющей интерес области.

Изобретение относится к области информационных технологий, а именно к биомедицинским инженерным технологиям, в частности к способу и системе для маркировки клеток костного мозга.

Изобретение относится к информационной технике. Технический результат - обеспечение сопоставления реального изделия и его 3D-модели в процессе контроля технологического процесса с применением технологии дополненной реальности.

Изобретение относится к области вычислительной техники для обработки изображений. Технический результат заключается в улучшении аннотирования объектов в изображении за счет алгоритма машинного обучения.

Изобретение относится к области вычислительной техники. Технический результат заключается в повышении точности оценочных параметров в алгоритме оценки.

Изобретение относится к способу и серверу для селективного представления блоков рекомендаций контента в браузерном приложении электронного устройства. Техническим результатом является повышение эффективности представления блока рекомендаций пользователю путем определения того, следует ли отображать или не отображать дополнительный контент пользователю в процессе просмотра контента пользователем.
Наверх