Способ определения балла общей облачности по цветным цифровым широкоугольным снимкам видимой полусферы неба на основе статистических методов обработки данных
Владельцы патента RU 2777493:
Федеральное государственное бюджетное учреждение науки Институт океанологии им. П.П. Ширшова РАН (RU)
Изобретение относится к области метеорологии и может быть использовано для определения балла общей облачности. Сущность: цифровой фотоснимок видимой полусферы неба преобразовывают в вектор значений, называемый признаковым описанием, содержащий статистические характеристики цветовых каналов, яркости, цветового тона и насыщенности цветового тона точек изображения. К полученному вектору значений применяют статистическую модель класса машинного обучения для получения значения балла общей облачности. Технический результат: повышение точности определения балла общей облачности. 3 з.п. ф-лы, 1 табл., 3 ил.
Изобретение относится к области метеорологии и касается способа определения метеорологических характеристик, а именно определения балла общей облачности. Указанные характеристики определяют по данным цифровой широкоугольной оптической полутоновой фотографии видимой полусферы небосвода. Фотография преобразуется в вектор значений - признаковое описание, содержащий статистические характеристики цветовых каналов, яркости, цветового тона и насыщенности цветового тона точек изображения, называемых признаковым описанием снимка. Для определения балла общей облачности применяются статистические методы обработки данных, представленных в виде признакового описания. Метод включает в себя три этапа. На первом этапе проводится сбор снимков с известными значениями балла общей облачности; вычисление признакового описания для полученных снимков; а также фильтрация выбросов с применением кластерного анализа и оценки плотности распределения значений признаков признакового описания фотографий. На втором этапе формулируется статистическая модель из класса моделей машинного обучения, предназначенная для решения задачи классификации снимков по классам балла общей облачности. Сформулированную модель настраивают по данным собранной на первом этапе выборки. На третьем этапе для вновь получаемых фотографий видимой полусферы неба вычисляют признаковое описание. К полученному признаковому описанию применяют статистическую модель, настроенную на определение балла общей облачности. Изобретение позволяет повысить точность определения балла общей облачности.
Облачность является основной характеристикой состояния атмосферы, ограничивающей потоки коротковолновой и длинноволновой солнечной радиации на поверхность океана и суши. Одна из ключевых характеристик облачности в метеорологических наблюдениях - балл общей облачности. Наблюдение характеристик облачного покрова является важнейшей задачей океанологии и метеорологии.
При этом наблюдения облачности - один из самых сложных и субъективных процессов в метеорологии. Это связано с большим разнообразием типов облачности, с изменчивостью облачного покрытия во времени, а также с сильной неоднородностью оптических характеристик облаков. В процессе трансформации во времени облака одного типа могут переходить в другие, оптическая плотность может меняться, могут возникать новые облачные структуры и исчезать существующие. Эти обстоятельства сильно затрудняют и замедляют идентификацию облаков.
Настоящий метод относится к области метеорологии и касается способа определения балла общей облачности по данным цветных широкоугольных снимков видимой полусферы небосвода, с применением современных статистических методов обработки данных.
В настоящий момент известно несколько методов определения балла общей облачности (далее БОО) по цветным цифровым широкоугольным снимкам видимой полусферы небосвода [1-10]. В частности, известны три способа, описываемые в патентах №№2331853 «Устройство распознавания форм облачности», 2525625 «Способ определения балла облачности» и 2589463 «Устройство для определения общего балла облачности на основе прямых цифровых широкоугольных снимков видимой полусферы неба». Все упомянутые методы заключаются в преобразовании исходного оптического цифрового широкоугольного снимка видимого небосвода в бинарное изображение, в каждой точке которого формируется признак отнесения этой точки к классу «ОБЛАКО» или «ЯСНОЕ НЕБО». В каждом описанном способе преобразование производится по-разному, однако ни один из перечисленных методов не позволяет определять БОО с достаточной точностью. Проведенная в рамках исследования [11] оценка качества существующих методов показывает, что стандартное отклонение оценок БОО в перечисленных методах не ниже 2 баллов [11] по 8-бальной шкале (где 0 баллов соответствует ясному небу, 8 баллов соответствует небу, полностью закрытому облачностью). При этом доля снимков, классифицированных с ошибкой не более чем 1 балл, не превышает 62%, а доля верно классифицированных снимков не превышает 30%.
Предлагаемый метод определения балла общей облачности отличается от существующих применением современных статистических многопараметрических и непараметрических методов для обработки снимков видимой полусферы небосвода. Техническим результатом изобретения является существенное увеличение точности определения балла общей облачности. В частности, доля снимков, классифицированных с ошибкой не более чем 1 балл, составляет 39%, в то время как доля верно классифицированных снимков составляет 74,5%.
В данном описании используются следующие термины:
Снимок - цифровой цветной широкоугольный снимок видимой полусферы небосвода, получаемый специальной оптической камерой, например, описываемой в [4], [5], [7] или [11]. Предполагается, что снимки производятся в светлое время суток, когда изображение отражает визуальную сцену с наблюдаемыми на ней облаками. Примеры снимков приведены на Фиг. 1.
Облачная камера - специальная оптическая камера, например, подобная описываемым в [4], [5], [7] или [11], предоставляющая возможность проводить оптическую цифровую съемку видимой полусферы небосвода; Балл общей облачности (БОО) - характеристика наблюдаемой облачной ситуации, оцениваемая согласно рекомендациям Всемирной Метеорологической Организации [12] как доля небосвода, занятая облаками, в баллах от 0 до 8, где 0 баллов соответствует ясному небу, 8 баллов - небу, полностью закрытому облаками;
Пиксель – трехкомпонентный элемент матрицы, численно описывающей снимок, размером w × h × d, где D=3 - количество цветовых каналов изображения, w - ширина изображения в пикселях, h - высота изображения в пикселях; каждый пиксель в этой матрице находится по адресу, характеризуемому строкой и столбцом [14];
Цветовые каналы - компоненты числового описания цвета пикселя: три цветовых компоненты характеризуют яркость красного (R), синего (В) и зеленого (G) цветов в цветовой модели RGB [14]; альтернативно цветовым каналом снимка называют совокупность значений соответствующего цветового канала для всех пикселей снимка, представляющих таким образом матрицу размером w × h; Яркость, цветовой тон, насыщенность цветового тона - компоненты числового описания цвета пикселя в цветовой модели HSV [14]. Компонента яркости характеризует визуальное ощущение яркости точки изображения; яркость далее обозначается символом Y; альтернативно яркостью называют совокупность значений яркости всех пикселей снимка, представляющих таким образом матрицу размером W × Н. Компонента цветового тона (Н) характеризует радиально закодированный цветовой тон в пространстве цветовой модели HSV; компонента насыщенности цветового тона (5) характеризует насыщенность цветового тона, меняющуюся от минимальной (отсутствие цветового тона, серый цвет) до максимальной (максимальная насыщенность, хорошо различимый цветовой тон).
Признаковое описание снимка - набор статистик снимка, вычисляемых по матрицам цветовых каналов R (red, красный канал), G (green, зеленый канал), В (blue, синий канал) снимка, матрицы яркости снимка Y, матриц значений цветового тона H и насыщенности цветового тона S снимка. В качестве статистик вычисляются следующие величины для каждой из матриц (записано для любой из перечисленных матриц, условно обозначенной X, элементы которой условно обозначены как xi; N - общее количество элементов матрицы X):
• минимальное значение
• максимальное значение
• среднее арифметическое, вычисляемое по формуле:
• дисперсия, вычисляемая по формуле:
• среднеквадратическое отклонение, вычисляемое по формуле:
• коэффициент асимметрии распределения значений X, вычисляемый по формуле:
• коэффициент эксцесса распределения значений X, вычисляемый по формуле:
• перцентили распределения значений X уровня от 4 до 99 включительно, оцениваемые эмпирически и обозначаемые как рα(Х), где α - уровень перцентиля;
• среднее квадратическое значений X, вычисляемое по формуле:
Для вышеупомянутых матриц R, G, B, Y, H, S вычисляются описанные статистические признаки, в результате признаковое описание составлено из 624 действительных чисел, что соответствует вектору в пространстве R624. Приведенный список статистических признаков матриц не является завершенным и приводится в качестве примера. Существуют варианты настоящего изобретения, в которых представленный набор статистических признаков сокращен или дополнен другими статистиками; в этом случае размерность пространства признакового описания отличается от 624. Некоторые признаки при этом могут не быть действительными: они могут быть целыми, комплексными, бинарными, категориальными, текстовыми и другими.
Классификация - математическая задача, в которой определенному объекту (снимку) следует присвоить метку одного из заранее известных классов. С точки зрения этого определения настоящим методом решается задача классификации снимков видимой полусферы небосвода по классам балла общей облачности (БОО).
Машинное обучение - множество статистических методик, позволяющий оценивать неизвестные величины, делать выводы или проводить классификацию объектов, описываемых с помощью признакового описания. Описанные в литературе и упомянутые ниже методы машинного обучения обладают свойством обобщения закономерностей, согласно которым следует проводить классификацию вновь поступающих объектов (снимков), в противовес экспертным системам и базам данных, которые предназначены для однозначного и детерминированного сопоставления признакового описания объекта его классу. Такие системы и базы данных бесполезны в задаче определения БОО, поскольку признаковое описание представляет собой точку в пространстве R624, которое невозможно отобразить на конечное множество классов БОО с помощью конечного набора правил сопоставления, которыми являются базы данных и экспертные системы.
Обучающая выборка - набор данных, представляющий собой признаковое описание объектов (снимков) и соответствующие им известные значения меток классов (БОО), на которых настраиваются параметры или правила классификации используемого метода машинного обучения;
Применение метода машинного обучения - вычисление значения метки класса (БОО) для объектов (снимков), для которых эти метки классов заранее неизвестны. Кластерный анализ - статистическая процедура, класс методов машинного обучения, выполняющий обобщение данных выборки объектов, например, обучающей выборки, и затем группирующий эти объекты по принципу схожести согласно выбранной мере близости. Может применяться для фильтрации статистических выбросов в обучающей выборке.
Пользуясь свойством статистических методов машинного обучения обобщать закономерности сопоставления признакового описания меткам классов БОО, настоящее изобретение имеет целью предложить способ определения БОО без классификации каждого пикселя снимка на классы «ОБЛАКО» и «ЧИСТОЕ НЕБО». Это позволяет существенно повысить точность определения БОО по цифровому оптическому цветному снимку видимой полусферы небосвода, что и является решаемой технической задачей.
В настоящем изобретении могут применяться любые методы машинного обучения, предназначенные для выполнения задачи классификации на множество классов. В частности, но не ограничиваясь, могут быть применены следующие методы:
• многослойный перцептрон [18]
• случайные леса [17]
• градиентный бустинг над решающими деревьями [16]
• линейный дискриминантный анализ [15]
• метод опорных векторов и его нелинейные вариации [19].
Метод определения балла общей облачности для облачной ситуации, зарегистрированной на снимке, состоит из нескольких этапов.
Этап 1. Сбор и обработка статистических данных об известных случаях наблюдаемых облачных ситуаций.
На этом этапе в процессе полевых экспедиционных исследований проводится унифицированная съемка видимой полусферы небосвода облачной камерой при различных состояниях атмосферы. Съемка производится в автоматическом режиме с высокой частотой, вплоть до 1 снимка в секунду, для каждого снимка регистрируются дата и время съемки. Параллельно с этим наблюдатель-эксперт регистрирует наблюдаемые характеристики - значения БОО, согласно расписанию экспедиционных наблюдений. Также наблюдатель регистрирует дату и время наблюдения.
Для БОО показания наблюдателя считаются соответствующими сфотографированной облачной ситуации в пределах 5 минут от его временной метки. В соответствии с этим правилом каждый снимок, полученный в процессе полевых экспедиционных исследований, представляет собой объект выборки, для которого вычисляется признаковое описание и присваивается класс БОО. На этом же этапе получаемая выборка фильтруется с применением кластерного анализа для выявления объектов, являющихся статистическими выбросами. В результате первого этапа формируется обучающая выборка.
Этап 2. Настройка моделей машинного обучения.
Выбирается вид метода машинного обучения. Формулируется модель машинного обучения для каждой из задач: определение БОО. При этом целевой переменной является метка класса БОО. В обоих случаях сформулированная модель настраивается согласно описанию соответствующего метода. При этом основой для настройки и извлечения статистических закономерностей, связывающих признаковое описание объектов (снимков), является обучающая выборка, сформированная на Этапе 1.
Этап 3.
Для определения БОО производится съемка видимой полусферы небосвода облачной камерой. При этом присутствие эксперта необязательно. Снимок обрабатывается с применением формул, приведенных в определении «Признаковое описание снимка», для получения признакового описания. Для вновь поступающих снимков видимой полусферы небосвода с помощью настроенной на Этапе 2 модели машинного обучения оценивается вероятность отнесения этого снимка ко всем классам БОО. Решение технической задачи определения БОО получают, выбирая класс, вероятность отнесения к которому для снимка максимальна.
Промышленная применимость.
Предлагаемый способ определения БОО на основе статистических методов обработки данных снимков видимой полусферы небосвода может быть осуществлен на практике метеорологом или другим исследователем или специалистом и при осуществлении обеспечивает реализацию заявленного назначения. На базе исследовательской лаборатории авторов изобретения предлагаемый способ многократно осуществлен в различных морских экспедиционных исследованиях, что позволяет сделать вывод о соответствии критерию «промышленная применимость» для изобретения. Описанный способ определения БОО на основе статистических методов обработки данных снимков видимой полусферы небосвода реализуется на базе существующих подходов и технологий, и возможность его осуществления не связана с какими-либо дополнительными техническими проблемами.
В соответствии с предложенным изобретением авторами было реализовано применение метода определения БОО на практике.
Ниже приведены результаты соответствующих этапов метода.
Этап 1. Сбор и обработка статистических данных об известных случаях наблюдаемых облачных ситуаций. Фильтрация выбросов.
В результате полевых экспедиционных исследований была собрана обучающая выборка, состоящая более чем из 100'000 снимков и соответствующих им регистраций эксперта-наблюдателя относительно классов БОО. К этой выборке был применен метод кластерного анализа на основе оценки плотности распределений значений признакового описания. По результату оценки плотности были отсеяны объекты, считающиеся статистическими выбросами. На Фиг. 2 приведены такие снимки.
Объемы отфильтрованных таким образом обучающих выборок для определения БОО приведены в таблице 1.
Для каждого снимка из полученной выборки были рассчитано признаковое описание согласно приведенным формулам.
Этап 2. Выбор и настройка моделей машинного обучения для определения БОО. В описываемой реализации изобретения в качестве статистической модели, обобщающей данные обучающей выборки, был использован многослойный перцептрон. Настройка моделей многослойного перцептрона производилась с применением стохастического градиентного спуска, при котором градиент вычислялся согласно методике обратного распространения ошибки. Это стандартный метод настройки искусственной нейронной сети, частным случаем которой является многослойный перцептрон.
Для каждого снимка из массива обучающих данных было вычислено признаковое описание согласно приведенным формулам. С применением полученного признакового описания была настроена модель многослойного перцептрона для определения БОО.
Этап 3. Определение БОО.
На этом этапе настроенная модель применялись к вновь получаемым снимкам. Для каждого снимка вычислялось признаковое описание согласно приведенным формулам. Далее из этих снимков исключались статистические выбросы, которые определялись на основании проведенного на Этапе 1 кластерного анализа. К полученному признаковому описанию снимков была применена модель, настроенная на Этапе 2 на определение классов БОО. Промежуточным результатом Этапа 3 являются вероятности отнесения снимков к каждому из классов БОО. Техническим результатом Этапа 3 и изобретения является метка класса БОО для каждого снимка, определенная как метка класса, для которой вероятность, определяемая моделью БОО, максимальна.
Таким образом показана применимость изобретения.
На Фиг. 3 приведена матрица ошибок при определении БОО на вновь получаемых снимках. Всего в проверочной выборке в задаче определения БОО было представлено 85200 снимков.
Доля верно определенных классов БОО предложенным в изобретении способом определения БОО составляет 39%. При этом стандартное отклонение определенного БОО составляет 0,83 балла, а доля снимков, для которых БОО определен с ошибкой не более чем на 1 балл, составляет 74,5%. Такие показатели существенно превышают показатели всех существующих методов определения БОО, основанных на бинаризации снимка в каждом отдельном пикселе [1-10].
Заключение.
Пример реализации предложенного изобретения демонстрирует показывает преимущество описанного метода перед существующими методами. Это преимущество достигается за счет:
• использования полного набора статистик цветовых каналов, яркости, цветового тона и насыщенности цветового тона точек снимка снимка в противовес вычислению одного индекса;
• применения статистических методов обработки данных, позволяющих извлекать закономерности из обучающей выборки, и применять эти закономерности на вновь поступающих снимках;
• автоматизации сбора данных в полевых экспедиционных исследованиях, позволяющих собрать большой объем статистической информации (обучающую выборку)
За счет указанных характеристик обеспечивается достигаемый технический результат, а именно: повышение точности определения балла общей облачности по широкоугольным цифровым оптическим снимкам видимой полусферы неба.
Краткое описание чертежей, диаграмм и фигур.
Фиг. 1 - Примеры цифровых цветных оптических широкоугольных снимков видимой полусферы небосвода.
Фиг. 2 - Примеры снимков, исключаемых из обучающей выборки в соответствии с результатами оценки плотности распределений значений признакового описания. См. описание Этапа 1 (сбор и обработка статистических данных об известных случаях наблюдаемых облачных ситуаций. Фильтрация выбросов).
Фиг. 3 - Матрица ошибок метода на Этапе 3 (определение БОО).
Использованные источники
1. Артюхов А.В., Третьяков Н.Д., Якименко И.В. "Определение балла и формы облачности на основе векторов признаков" // Математическая морфология. Электронный математический и медико-биологический журнал. Т.9. - Вып. 2, 2010.
2. Устройство распознавания форм облачности: Патент на изобретение №2331853, Россия, G01J 3/06.
3. Способ определения балла облачности: Патент на изобретение №2525625, Россия, G01W 1/04.
4. Устройство для определения общего балла облачности на основе прямых цифровых широкоугольных снимков видимой полусферы неба: Патент на изобретение №2589463, Россия, G01W 1/00.
5. Long C.N. et al. Retrieving Cloud Characteristics from Ground-Based Daytime Color All-Sky Images // Journal of Atmospheric and Oceanic Technology - 2006. - T. 23 - №5 - C. 633-652.
6. Kalisch J., Macke A. Estimation of the total cloud cover with high temporal resolution and parametrization of short-term fluctuations of sea surface insolation // Meteorologische Zeitschrift - 2008. - T. 17 - №5 - C. 603-611.
7. Yamashita M., Yoshimura M., Nakashizuka T. Cloud cover estimation using multitemporal hemisphere imageries // International Archives of Photogrammetry Remote Sensing and Spatial Information Sciences - 2004. - T. 35 - №7 - C. 826-829.
8. Yamashita M. and Yoshimura M. Ground-based cloud observation for satellite-based cloud discrimination and its validation // International Archives of the Photogrammetry, Remote Sensing and Spatial Information Sciences - 2012. - T. 39 - №8 - C. 137-140.
9. Heinle A. et al. Automatic cloud classification of whole sky images // Atmospheric Measurement Techniques - 2010. - T. 3 - №3 - C. 557-567.
10. Kazantzidis A. et al. Cloud detection and classification with the use of whole-sky ground-based images // Atmospheric Research - 2012. - T. 113 - C. 80-88.
11. Криницкий M.A. Аппаратный комплекс и алгоритмы, основанные на методах машинного обучения, для измерения характеристик облачности над океаном. Автореферат дис. кандидата технических наук: 25.00.28 / [Место защиты: Ин-т океанологии им. П.П. Ширшова РАН].
12. Guide to meteorological instruments and methods of observation, Chapter 15 "Observations on clouds", 15.2 "Estimation and observation of cloud amount, height and type" / Chairperson - Geneva: Publications Board, 2008. – 716 c.
13. РД 52.04.562-96. Наставление гидрометеорологическим станциям и постам. Выпуск 5 «Актинометрические наблюдения на станциях», часть I «Метеорологические параметры и оптические характеристики атмосферы, определяемые при выполнении актинометрических наблюдений» // Москва: Росгидромет, 1996. С. 15-17.
14. Гонсалес Р. и Вудс Р. Цифровая обработка изображений - Москва: Техносфера, 2012. - 1105 с.
15. Fisher R.A. The use of multiple measurements in taxonomic problems / Fisher R.A. // Annals of human genetics -1936. - T. 7 - №2 - C. 179-188.
16. Breiman L Bagging predictors / Breiman L // Machine learning - 1996. - T. 24 - №2 - C. 123-140.
17. Breiman L. Random forests / Breiman L. // Machine learning - 2001. - T. 45 - №1 - C. 5-32.
18. Минский M. Персептроны, Глава 13/Минский M., Пейперт-Москва: Мир, 1971. - С. 226-231.
19. Boser В.Е., Guyon I.М., Vapnik V.N. A training algorithm for optimal margin classifiers //Proceedings of the fifth annual workshop on Computational learning theory. - ACM, 1992. - C. 144-152.
1. Способ определения балла общей облачности по цветным оптическим цифровым широкоугольным снимкам видимой полусферы неба на основе статистических методов обработки данных, заключающийся в применении статистических методов обработки данных к данным фотоснимка видимой полусферы неба, отличающийся тем, что цифровой фотоснимок видимой полусферы неба преобразовывают в вектор значений, называемый признаковым описанием, содержащий статистические характеристики цветовых каналов, яркости, цветового тона и насыщенности цветового тона точек изображения, к которому применяют статистическую модель класса машинного обучения для получения значения балла общей облачности.
2. Способ по п. 1, отличающийся тем, что статистическая модель класса машинного обучения предназначена для решения общей задачи классификации.
3. Способ по п. 1, отличающийся тем, что статистическая модель класса машинного обучения по п. 2 настраивается на основе предварительно собранного набора цифровых широкоугольных оптических снимков видимой полусферы неба с соответствующими показаниями эксперта относительно наблюдаемого балла общей облачности.
4. Способ по п. 1, отличающийся тем, что определение балла общей облачности производится применением настроенной статистической модели класса машинного обучения к признаковому описанию фотоснимка видимой полусферы неба, результатом чего является метка класса балла общей облачности, являющаяся величиной балла общей облачности.