Способ формирования каталога небесных объектов из больших массивов астрономических изображений

Изобретение относится к области формирования системы хранения, обработки и интеллектуального анализа больших массивов данных астрономических наблюдений. Техническим результатом является обеспечение возможности повышения эффективности статистической обработки, а также инкрементальной обработки данных. Раскрыт способ формирования электронного каталога небесных объектов из больших массивов астрономических изображений, включающий следующие этапы: а) определение целевого фрагмента изображения неба с последующим его разбиением внахлест на прямоугольные клетки равной площади, содержащие изображения частей целевого фрагмента неба в заданных картографических проекциях, при этом размеры клетки и величину нахлеста, тип и параметры картографической проекции для каждой клетки предварительно задают в качестве входных параметров, а при разбиении каждой клетке присваивают уникальный идентификатор, представляющий собой координату клетки в целевом фрагменте неба; б) получение первичных данных наблюдений, представляющих собой массив необработанных астрономических изображений и их калибровок; сохранение их в распределенной файловой системе; в) обработку массива астрономических изображений с использованием модели вычислений Отображение-Свертка; д) формирование каталога небесных объектов целевого фрагмента неба посредством детектирования небесных объектов на итоговых изображениях, удаления артефактов и измерения значений атрибутов небесных объектов, с присвоением координат детектированному небесному объекту и уникального идентификатора с использованием шага Отображения; е) сохранение в распределенной файловой системе сформированного каталога, содержащего значения атрибутов небесных объектов, в поколоночном формате, обеспечивающем возможность статистической обработки большого числа атрибутов небесных объектов с использованием модели вычислений Отображение-Свертка; при этом этапы а)-е) повторяют многократно для каждого целевого фрагмента неба и каждого спектрального диапазона, после чего осуществляют кросс-отождествление небесных объектов в сформированных каталогах с использованием шага Свертка и формирование сводного каталога, содержащего для каждого небесного объекта объединенный перечень значений атрибутов из разных каталогов, сформированных на этапе д) для целевых фрагментов неба и спектральных диапазонов или полученных из внешних источников. 2 н. и 5 з.п. ф-лы, 7 ил.

 

Область техники

Изобретение относится к области вычислительной техники, в частности, к формированию системы хранения, обработки и интеллектуального анализа больших массивов данных астрономических наблюдений.

Способ предназначен для использования коллективами астрофизиков в научной деятельности в качестве ключевого инструмента для решения задач, требующих:

- массовой обработки с помощью специализированных алгоритмов сырых данных наблюдений, включая данные, полученные из нескольких проектов цифровых небесных обзоров, данные наблюдений в разных спектральных диапазонах;

- использования методов машинного обучения, таких как обучение с и без учителя для больших выборок небесных объектов.

Уровень техники

Процесс обработки данных современных небесных обзоров состоит из следующих традиционных этапов:

1. Базовая обработка сырых данных наблюдений - изображений: калибровка изображений, удаление артефактов и фоновой компоненты, проецирование изображений в единую систему координат, заданную параметрами картографической проекции выбранного фрагмента неба.

2. Сложение повторных снимков перекрывающихся участков неба.

3. Детектирование объектов на сложенных изображениях.

4. Измерение характеристик небесных объектов и формирование каталогов небесных объектов.

5. Отождествление объектов сформированного каталога с объектами каталогов других небесных обзоров.

Заявляемый способ интегрирует в этот процесс этапы применения методов интеллектуального анализа данных и статистического анализа, регламентирует методику применения на вычислительном кластере модели вычислений Отображение-Свертка для обработки и распределенной файловой системы для надежного хранения данных наблюдений. За счет предложенной архитектуры достигается возможность реализации горизонтально масштабируемых сценариев настраиваемой обработки и интеллектуального анализа больших массивов сырых данных наблюдений, включающих любые шаги обработки: от алгоритмов анализа изображений до применения методов машинного обучения и статистического анализа результатов. Предложенная архитектура обеспечивает высокий уровень сохранности данных и возможность продолжения вычислений после выхода из строя части вычислительных узлов кластера.

Существующие средства обработки астрономических данных, находящиеся в открытом доступе, автоматизируют лишь часть этапов обработки и анализа данных или не предоставляют возможности горизонтального масштабирования вычислений. Например, система Montage [1] реализует только этап сложения откалиброванных изображений на базе интерфейса передачи сообщений (англ., Message Passing Interface, MPI) с планированием запуска заданий на стандартном диспетчере грид-ресурсов. Система TOPCAT/STILTS [2] обеспечивает возможность кросс-отождествления объектов из нескольких каталогов на одном вычислителе. Система Large Survey Database (LSD) [3] реализует ограниченные возможности кросс-отождествления и фильтрации объектов из нескольких каталогов на мультипроцессорной системе с общей памятью. Система AstroML [4] реализует алгоритмы машинного обучения для обработки данных наблюдений, но не является масштабируемой.

В патенте US 8995789 описан способ объединения изображений на параллельных вычислителях путем оптимизации расходования ресурсов за счет выполнения части операций в оперативной памяти отдельных вычислителей.

Кроме того, из уровня техники известны технические решения, направленные на использование средств MapReduce при обработке больших объемов данных, в том числе и больших массивов астрономических данных.

Так, известен патент US 8799269 «Optimizing map/reduce searches by using synthetic events», раскрывающий использование алгоритма MapReduce при выполнении поиска документов среди большого массива данных альтернативно использованию структурированного языка запросов SQL и стандартному поиску по базе данных.

Известен патент CN 102768675 «Parallel astronomical cross identification method», раскрывающий техническое решение, основанное на применении алгоритма MapReduce при кросс-отождествлении астрономических объектов. В рамках технического решения авторами предлагается разделить таблицы астрономических каталогов на части, соответствующие клеткам в сферической системе координат с углами RA и DEC (0<RA<360, -90<DEC<90), и распределить данные клеток по узлам кластера. Кросс-отождествление объектов внутри каждой клетки делается независимо на своем узле кластера, затем результаты собираются вместе. Серьезным недостатком данного подхода является игнорирование авторами патента проблемы кросс-идентификации объектов расположенных на границах клеток, что делает предложенный метод кросс-отождествления каталогов неполным. Далее, авторы предлагают разделение на клетки в плоскости RA, DEC - площадь соответствующих таким клеткам областей на сфере оказывается разной вблизи полюсов (DEC=-90, +90) и у экватора (DEC=0), что приводит к неравномерному распределению объектов по клеткам, что в свою очередь, может порождать несбалансированную нагрузку на узлы кластера при выполнении кросс-идентификации каталогов.

Раскрытие сущности изобретения

Задачей заявляемого изобретения является создание способа обработки и анализа больших массивов данных астрономических наблюдений для поддержки автоматизации научных исследований в наблюдательной астрофизике.

Технический результат, достигаемый при использовании заявляемого изобретения, заключается в обеспечении возможности повышения эффективности статистической обработки, а также инкрементальной обработки данных.

Отличительной особенностью построения способа является архитектура, основанная на модели вычислений Отображение-Свертка (англ. MapReduce) и использование распределенной файловой системы, обеспечивающих возможность горизонтального масштабирования производительности всех этапов обработки и интеллектуального анализа данных астрономических наблюдений.

Технический результат достигается за счет единой горизонтально масштабируемой архитектуры, основанной на модели вычислений Отображение-Свертка и использовании распределенной файловой системы. Для каждого из шагов процесса обработки и анализа астрономических данных - применения калибровок, удаления артефактов и фоновой компоненты, проецировании в единую систему координат и сложении изображений, детектировании объектов и создании каталогов объектов за счет измерения значений их атрибутов, обработки фильтрующих и статистических запросов к каталогам, кросс-идентификации их объектов и применении методов интеллектуального анализа данных - реализуют соответствующие алгоритмы в модели вычислений Свертка-Отображение.

Поставленная задача решается, тем, что заявляемый способ формирования электронного каталога небесных объектов из больших массивов астрономических изображений, включает следующие этапы:

а) определение целевого фрагмента изображения неба с последующим его разбиением внахлест на прямоугольные клетки равной площади в заданной картографической проекции сферы на плоскость, содержащие изображения частей целевого фрагмента неба, при этом размеры клетки, величину нахлеста, а также тип и параметры картографической проекции для каждой клетки предварительно задают в качестве входных параметров, а при разбиении каждой клетке присваивают уникальный идентификатор, представляющий собой координату клетки в целевом фрагменте неба;

б) получение первичных данных наблюдений, представляющих собой массив необработанных астрономических изображений и калибровок (фотометрической и астрометрической) для каждого изображения; сохранение их в распределенной файловой системе;

в) обработку массива астрономических изображений, полученных на шаге б) с использованием модели вычислений Отображение-Свертка, при этом на шаге Отображения каждое изображение из массива первичных данных наблюдений связывают с уникальным идентификатором клетки, определенной на этапе а), по принципу пересечения необработанного изображения и изображения, содержащегося в клетке или группе клеток, после чего необработанные изображения калибруют (записывают калибровочные коэффициенты в метаданные изображения), из изображений удаляют артефакты и фоновые компоненты, а затем преобразованные калиброванные изображения с присвоенным идентификатором, представляющим собой ключ, проецируют в систему координат клетки, используя заданные на этапе а) параметры картографической проекции клетки, и формируют пары ключ - спроецированное изображение;

на шаге Свертки группируют сформированные пары по ключу, выполняют попиксельное сложение спроецированных изображений, имеющих одинаковый ключ, с получением массива итоговых изображений, составляющих мозаику целевого фрагмента неба, которые сохраняют в распределенной файловой системе;

д) формирование каталога небесных объектов целевого фрагмента неба посредством детектирования небесных объектов на итоговых изображениях, удаления координат детектированному небесному объекту и уникального идентификатора с использованием шага Отображения;

е) сохранение в распределенной файловой системе сформированного каталога, содержащего значения атрибутов небесных объектов, в поколоночном формате, обеспечивающем возможность статистической обработки большого числа атрибутов небесных объектов с использованием модели вычислений Отображение-Свертка;

при этом этапы а)-е) повторяют многократно для каждого целевого фрагмента неба и для наблюдений в каждом спектральном диапазоне, после чего осуществляют кросс-отождествление небесных объектов в сформированных каталогах с использованием шага Свертка и формирование сводного каталога, содержащего для каждого небесного объекта объединенный перечень значений атрибутов из разных каталогов, сформированных на этапе д) для целевых фрагментов неба и спектральных диапазонов или полученных из внешних источников.

Под статистической обработкой при реализации способа понимают фильтрацию, группировку и агрегацию данных по запросу. В качестве атрибутов небесного объекта понимают всевозможные характеристики объекта измеренные по его изображению: координаты центра объекта (на спроецированном изображении и небесные координаты в сферической системе координат), эффективный радиус объекта, его вытянутость и позиционный угол (ориентация), полный поток и поверхностная яркость объекта, а также, профиль поверхностной яркости объекта измеренный для набора концентрических окружностей различного радиуса от центра объекта, класс объекта (протяженный/точечный) и множество других характеристик, которые могут быть измерены специализированной программой анализа астрономических изображений. В качестве атрибутов объекта в каталоге, также могут выступать общие характеристики изображения, на котором обнаружен объект - параметры функции отклика телескопа на изображении с телескопа, уровень фоновой компоненты, значение воздушной массы атмосферы для данного изображения с телескопа и другие характеристики изображения в целом. В качестве атрибутов небесного объекта в сводном каталоге, также могут выступать целевые атрибуты, полученные в результате применения моделей регрессии и классификации на этапе интеллектуального анализа данных каталогов. Возможность статистической обработки сформированных каталогов небесных объектов обеспечивают с использованием языка SQL. При выполнении этапа в) на шаге Свертки при попиксельном сложении спроецированных изображений, имеющих одинаковый ключ, используют изображения из наблюдений в одном спектральном диапазоне, принадлежащие одному целевому фрагменту неба.

Также поставленная задача решается с использованием способа интеллектуального анализа данных каталогов небесных объектов, включающего формирование каталогов небесных объектов в соответствии с описанным выше способом, содержащего последующие этапы:

а) обучение модели регрессии и классификации на известных значениях атрибутов каталогов и целевых атрибутах, предварительно заданных, при этом в ходе обучения на шаге Отображения параллельно и распределенно проверяется точность модели для предварительно заданных комбинаций значений гиперпараметров алгоритмов,

б) применение обученной модели для небесных объектов каталога с неизвестным значением целевого атрибута с использованием шага Отображения, на котором параллельно и распределенно на частях каталога происходит прогнозирование неизвестного значения целевого атрибута.

В процессе обучения используют кросс-валидацию для подбора оптимальных значений гиперпараметров алгоритмов, характеризующуюся использованием одной части входных данных для обучения, а другой части входных данных для тестирования.

Описание чертежей

Сущность изобретения также поясняется чертежами, где

на фиг. 1 представлена структурная схема системы, реализующей заявляемый способ,

на фиг. 2 представлена общая структурная схема работы модуля обработки изображений,

на фиг. 3 приведена схема алгоритма работы модуля обработки запросов к каталогам,

на фиг. 4 проиллюстрирован метод разбиения на клетки с учетом границ,

на фиг. 5 приведена схема работы модуля обработки изображений при создании каталога,

на фиг. 6 схематично изображен целевой фрагмент неба, исходные изображения и разбиение на клетки,

на фиг. 7 схематично представлены уровни пикселизации на сфере.

Для однозначной трактовки положений настоящей заявки ниже приведены основные определения, используемые при описании изобретения.

Небесные объекты - физические тела (астероиды, планеты, звезды, галактики и др.), расположенные в космосе за пределами атмосферы земли.

Каталог небесных объектов - таблицы чисел, содержащие значения свойств небесных объектов, обнаруженных на изображениях.

Астрометрическая калибровка изображения - набор коэффициентов, которые однозначно задают тип и параметры картографической проекции куска неба на плоскость изображения; астрометрическая калибровка связывает координаты (X, Y) центров пикселов на изображении с их небесными координатами (RA, DEC), представляющие собой углы в заданной системе сферических координат.

Фотометрическая калибровка изображения - набор коэффициентов, которые однозначно связывают значения каждого пикселя на изображении и его яркость в физических единицах измерения.

Артефакты - следы объектов искусственного происхождения (спутники, самолеты) либо следы частиц космических лучей на матрице телескопа или следы производственных дефектов на матрице телескопа (т.н. "мертвые пикселы" - пиксели, которые постоянно присутствуют на изображении в виде черных или белых точек), или блики от ярких звезд, или другие детали астрономических изображений напрямую не связанные с видимыми на них небесными объектами, которые затрудняют детектирование и измерение свойств небесных объектов по изображению с телескопа.

Фоновая компонента изображения - крупномасштабные вариации яркости пикселов по изображению, не связанные с видимыми на изображении небесными объектами.

Осуществление изобретения

Ниже представлено подробное пошаговое описание заявляемого способа, а также схематичное описание схемы устройства, предназначенного для реализации данного способа.

В настоящее время объем астрономических изображений, хранящихся в открытых архивах в центрах обработки данных обсерваторий по всему миру, составляет несколько петабайт, это сотни миллионов астрономических изображений.

Рост объемов данных наблюдений, повышение качества астрономических данных открывает перед астрофизиками новые горизонты, однако требует применения новых современных инженерных и математических подходов к их обработки, среди которых технологии больших данных, облачные вычисления.

Для реализации способа:

Определяют целевой участок (фрагмент) небесной сферы, для которого выполняют обработку, разделяют его на части равной площади и проецируют в прямоугольные клетки с фиксированными сторонами и выбранной картографической проекцией целевого участка сферы на плоскость изображения клетки. Клетки нумеруют двумя индексами, соответствующими строке и столбцу и присваивают каждой клетке уникальный идентификатор, представляющий собой координату клетки (фиг. 6). Разбиение целевого фрагмента неба на клетки производится внахлест, таким образом решается проблема обработки объектов, находящихся на границе клеток. На фиг. 4 проиллюстрирован метод разбиения на клетки, жирной линией выделена граница первой клетки, дан пример граничного объекта, который попадет в часть каталога, сформированную первой клеткой.

Размер клеток может выбираться от нескольких угловых минут до нескольких градусов, при этом величина нахлеста должна быть не менее максимального размера обрабатываемых объектов на границе клеток (например, для объектов с максимальным размером 0.5 градуса величина нахлеста должна быть более 0.5 градуса); площадь нахлеста должна составлять не более 100% от площади клетки. Картографическая проекция может выбираться как индивидуально для каждой клетки, так и общей для всего фрагмента неба.

Проводят обработку массива первичных необработанных астрономических изображений участка неба, для чего используют принципы алгоритма Отображение-Свертка. При этом на этапе Отображения производят операции фильтрации изображений по попаданию в целевой участок неба, а также удаление артефактов и фоновой компоненты, проецирование, объединение изображений. Все перечисленные операции, кроме объединения, могут быть проведены как независимо над каждым исходным изображением, так и параллельно. В случае попадания обрабатываемого изображения в целевой участок неба, модифицируют изображение и присваивают изображению ключ, представляющий собой номер клетки, к которой принадлежит изображение, формируя тем самым пары идентификатор - ключ и значение - само модифицированное изображение. Следует отметить, что изображение может пересекаться сразу с несколькими клетками, в этом случае изображению присваивают соответствующее число пар: номер клетки, модифицированное изображение.

На этапе Свертка изображения, принадлежащие одной клетке, объединяют, а именно выполняют поиск пар с одним ключом, группируют сформированные пары по ключу, выполняют попиксельное сложение спроецированных изображений, имеющих одинаковый ключ, в результате чего получают массив итоговых изображений, составляющих мозаику целевого фрагмента неба, которые сохраняют в распределенной файловой системе.

На итоговых изображениях детектируют небесные объекты, проводят очистку изображений, - удаляют артефакты и измеряют значения атрибутов небесных объектов. В результате формируют каталог небесных объектов целевого фрагмента неба с присвоением координат детектированным небесным объектам и уникального идентификатора с использованием шага Отображения. В качестве атрибутов небесного объекта понимают всевозможные характеристики измеренные по изображению: координаты центра объекта (на спроецированном изображении X, Y и на небесной сфере RA, DEC), эффективный радиус, вытянутость и ориентация объекта, яркость объекта, а также, профиль яркости объекта измеренный для набора концентрических окружностей различного радиуса от центра, класс объекта (протяженный/точечный) и другие признаки, которые могут быть измерены специализированной программой анализа астрономических изображений, а также, целевые признаки полученные на этапе интеллектуального анализа каталога в результате применения моделей регрессии и классификации.

Полученный таким образом каталог сохраняют в распределенной файловой системе. При этом каталог содержит значения атрибутов небесных объектов в поколоночном формате, обеспечивающем возможность статистической обработки большого числа атрибутов небесных объектов с использованием модели вычислений Отображение-Свертка.

Приведенные шаги 1-5 повторяют для каждого целевого фрагмента неба, после чего осуществляют кросс-отождествление сформированных каталогов с использованием шага Свертка и формирование сводного каталога, содержащего объединенный перечень значений атрибутов каждого небесного объекта из разных каталогов, сформированных на этапе д) для каждого целевого фрагмента неба или полученных из внешних источников.

Способ интеллектуального анализа данных каталогов небесных объектов выполняют на основе каталогов небесных объектов, созданных в соответствии с описанным выше способом или каталогов, полученных из внешних источников.

а) обучение модели регрессии и классификации на известных значениях атрибутов каталогов и целевых атрибутах, предварительно заданных, при этом в ходе обучения на шаге Отображения параллельно и распределенно проверяется точность модели для предварительно заданных комбинаций значений гиперпараметров алгоритмов. На данном шаге формируют сетку из проверяемых комбинаций значений гиперпараметров алгоритма классификации или регрессии. В качестве ключа функция Отображения получает комбинацию значений гиперпараметров и номер блока данных (из N-блочной кросс-валидации), выступающего в роли теста. Функция выполняет построение модели для заданных гиперапарметров на оставшихся N-1 блоках данных и возвращает значение метрики качества, посчитанной на тестовом блоке, в качестве значения. В качестве алгоритмов регрессии и классификации предлагается использовать современные алгоритмы семейства случайный лес деревьев решений (англ., random forest of decision trees), обеспечивающие как высокую точность прогнозирования, так и допускающие возможность параллельного и распределенного обучения. В качестве дополнительных шагов анализа данных используются:

1. оценка достоверности прогноза в задачи регрессии с помощью определения степени принадлежности прогнозов деревьев решений, входящих в ансамбль, доверительному интервалу;

2. формирование контрольной выборки с помощью завешивания объектов тренировочной выборки с целью повторения статистического распределения целевой выборки.

б) применение обученной модели для небесных объектов каталога большого объема с неизвестным значением целевого атрибута с использованием шага Отображения, на котором параллельно и распределенно на частях каталога происходит прогнозирование неизвестного значения целевого атрибута. На данном шаге построенная модель клонируется на Отображатели (Mappers) и происходит параллельное вычисление прогнозов на локальных данных Отображателей.

Для реализации способа интеллектуального анализа данных каталогов небесных объектов используются программные библиотеки scikit-learn, pandas и PySpark.

Описанный выше способ, а также способ интеллектуального анализа данных реализуют при помощи системы (фиг. 1), содержащей

- модуль обработки изображений 1, реализующий обработку сырых данных астрономических наблюдений - применение калибровок (запись имеющихся калибровочных коэффициентов в метаданные изображения), удаление артефактов и фоновой компоненты, проецирование в заданную систему координат, сложение изображений, детектирование объектов и создание каталогов объектов за счет измерения значений их атрибутов - содержащий вход для получения массива изображений, и выход, на который передаются созданные каталоги объектов,

- модуль обработки запросов к каталогам 2 для фильтрации и статистической обработки данных каталогов, а также кросс-отождествления данных нескольких каталогов, принимающий на вход каталоги, построенные модулем обработки изображений и каталоги, построенные модулем интеллектуального анализа данных 3, а также опционально готовые каталоги из существующих проектов небесных обзоров и формирующий выходные данные в виде результата обработки запросов и объединенных каталогов, и

- модуль интеллектуального анализа данных 3, содержащий алгоритмы машинного обучения с и без учителя, принимающий в качестве входных данных каталоги и формирующий выходные данные в виде построенных моделей и результатов их применения в виде каталогов с результатами прогнозов моделей регрессии и классификации в качестве атрибутов.

На фиг. 1 показаны информационные входы системы 1 и 3, а также информационный выход системы 6.

Работа системы при этом построена следующим образом. На информационный вход системы 1 подаются исходные данные наблюдений - изображения и данные их калибровок. Модуль 1 выполняет обработку изображений и формирует каталоги небесных объектов - таблицы значений характеристик небесных объектов измеренных на изображениях. Далее каталоги небесных объектов попадают на информационный вход 2 модуля 2, в котором производится соединение каталогов объектов путем отождествления их объектов по значениям небесных координат или уникального идентификатора объекта, а также фильтрация по заданным условиям на значения характеристик. Кроме этого система поддерживает сценарий соединения каталогов, построенных модулем 1 с каталогами построенных модулем 3 или с каталогами, которые были поданы на информационный вход 3 системы. Отфильтрованные записи из объединенных каталогов направляются на вход 4 модуля 2, который производит интеллектуальный анализ данных. Результаты работы алгоритмов машинного обучения в виде каталога попадают на вход 5 модуля обработки запросов к каталогам, в котором производится их соединение с каталогами поданных на вход 2 модуля 2 или информационный вход 3 системы, производится конечная фильтрация по заданным условиям, попадают на вход 5 модуля обработки запросов к каталогам, в котором производится статистический анализ результатов и формируется отчет о работе, попадающий на выход 6 системы.

Схема работы модуля 1 (фиг. 1) обработки изображений представлена на фиг. 2. Модуль представлен подмодулем 1а (фиг. 2) обработки сырых изображений и подмодулем 2а (фиг. 2) создания каталогов. Подмодуль 1а получает на вход 1а сырые изображения и их калибровки и в результате обработки формирует значение выхода 2а - совмещенные изображения в заданных картографических проекциях. Подмодуль 2а получает на вход 2а обработанные изображения в заданных картографических проекциях и в результате работы формирует значение выхода 3а - каталоги небесных объектов.

Схема работы подмодуля 1а в модели вычислений Отображение-Свертка представлена на фиг. 3. Хранение полученных на вход изображений и калибровок производится в распределенной файловой системе. Базовая обработка N изображений - применение калибровки изображения (запись имеющихся калибровочных коэффициентов в метаданные изображения), удаление артефактов и фоновой компоненты, проецирование в единую систему координат - производится в функции отображения, принимающей в качестве пары ключ-значение идентификатор клетки (pi) - прямоугольного фрагмента неба в заданной картографической проекции, содержащего изображение, и само изображение (A_i). Функция отображения возвращает идентификатор клетки и обработанное спроецированное изображения (Б_i). Сложение изображений выполняется функцией свертки, принимающей на вход идентификатор клетки (общее число клеток - М) и изображения, принадлежащие данной клетке, и возвращает идентификатор клетки и сложенное изображение (B_i).

Схема работы подмодуля 2а в модели вычислений Отображение-Свертка представлена на фиг. 5. Создание каталога - детектирование объектов на изображениях, удаление артефактов и измерение значений свойств объектов - производится в функции отображения, принимающей в качестве пары ключ-значение идентификатор пикселя (pi), сложенное изображение (B_i). Функция отображения возвращает идентификатор пикселя и фрагмент каталога (K_i).

Модуль 2 (фиг. 1) реализует хранение каталогов, функции фильтрующих и статистических запросов к каталогам и кросс-отождествление объектов нескольких каталогов. Хранение данных каталогов производится в распределенной файловой системе с использованием поколоночного формата хранения. Для формулировки фильтрующих и статистических запросов используется интерфейс языка SQL, для их исполнения - модель вычислений Отображение-Свертка, работающая с поколоночным форматом хранения. Для кросс-идентификации каталогов используется алгоритм для модели Отображение-Свертка, основанный на индексировании объектов с помощью пикселизации сферы - предварительному отнесению каждого объекта к пикселю - некоторой области сферы. Для пикселизации предлагается использовать схему пикселизации HealPix.

Описание алгоритма кросс-идентификации каталогов представлено ниже.

1) Объекты двух исходных каталогов пикселизируются 2 раза. При этом используются два разных уровня иерархической пикселизации А и В, где В>А (фиг. 7 - темно-серым и светло серым показаны 2 пикселя из схемы пикселизации А, белые пиксели принадлежат схеме пикселизации В). Иерархичность пикселизации означает, что каждый пиксель более высокого уровня пикселизации В целиком находится в каком-то пикселе меньшего уровня пикселизации А. Двойная пикселизация позволяет использовать (при кросс-идентификации объектов лежащих на границе пикселей уровня А) пиксели меньшего размера из В, являющиеся соседями данного пикселя из пикселизации А.

2) Выполняется шаг Свертки. Ключами свертки являются пиксели пикселизации А. Значениями - объекты из каждого пикселя уровня А 1-го и 2-го каталога, а также объекты из пикселей пикселизации уровня В 2-го каталога, являющихся соседними для данного пикселя уровня А. На шаге свертке для каждого объекта 1-го каталога из пикселя уровня А ищется ближайший объект из 2-го каталога, находящийся в пикселе уровня А и его соседних пикселях из пикселизации уровня В. Функция свертки возвращает все пары найденных таким способом объектов 1-го и 2-го каталога для рассматриваемого пикселя уровня А.

Псевдокод алгоритма:

ВХОД: К1, К2 - каталоги объектов, где

d(k1, k2) - мера сходства между координатами k1, k2

P(A)(k) - функция иерархической пикселизации уровня А

P(B)(k) - функция иерархической пикселизации уровня В

В>А

border(A,B)(p) - функция, возвращающая множество пикселей уровня В, являющихся граничными для пикселя р уровня А.

ВЫХОД:

АЛГОРИТМ:

K1={}, K2={}

для каждого i=1, 2:

для каждого

К'i. добавить

К'=K'1. соединить (K'2)

результат = К'. отображение

функция f(pj,V).

вернуть

Модуль 3 (фиг. 1) реализует функционал интеллектуального анализа данных. Модуль реализует алгоритмы для решения задач обучения с учителем: задачи регрессии и классификации. Непосредственно тренировка алгоритмов обучения с учителем реализована нераспределенно, ввиду небольшого числа тренировочных объектов в астрономических каталогах. Подбор оптимальных значений внешних параметров алгоритмов при кросс-валидации производится с использованием модели вычислений Отображение-Свертка: за счет стадии "отображение" происходит горизонтальное масштабирование построения моделей при различных значениях внешних параметров. Применение моделей обучение с учителем на больших выборках реализуется с использованием модели вычислений Отображение-Свертка: на стадии "свертка" применение модели производится параллельно и распределенно по частям. Результат применения моделей регрессии и классификации представляет собой каталог объектов, атрибутами которых являются прогнозы моделей. Хранение каталогов производится в распределенной файловой системе с использованием поколоночного формата хранения.

Источники информации

1. G.В. Berriman, J.С. Good, D. Curkendall, J. Jacob, D.S. Katz, T.A. Prince, and R. Williams "Montage: An On-Demand Image Mosaic Service for the NVO" // Astronomical Data Analysis Software and Systems, Paper and Presentation for ADASS XII, Oct. 2002.

2. Сайт "TOPCAT: Tool for OPerations on Catalogues And Tables" http://www.star.bris.ac.uk/~mbt/topcat/.

3. Mario Juric "Large Survey Database: A Distributed Framework for Storage and Analysis of Large Datasets" // American Astronomical Society, AAS Meeting #217, id.433.19; Bulletin of the American Astronomical Society, Vol. 43, 2011.

4. J. VanderPlas, A.J. Connolly, , A. Gray "Introduction to astroML: Machine learning for astrophysics" // Intelligent Data Understanding (CIDU), 2012.

1. Способ формирования электронного каталога небесных объектов из больших массивов астрономических изображений, включающий следующие этапы:

а) определение целевого фрагмента изображения неба с последующим его разбиением внахлест на прямоугольные клетки равной площади, содержащие изображения частей целевого фрагмента неба в заданных картографических проекциях, при этом размеры клетки и величину нахлеста, тип и параметры картографической проекции для каждой клетки предварительно задают в качестве входных параметров, а при разбиении каждой клетке присваивают уникальный идентификатор, представляющий собой координату клетки в целевом фрагменте неба;

б) получение первичных данных наблюдений, представляющих собой массив необработанных астрономических изображений и их калибровок; сохранение их в распределенной файловой системе;

в) обработку массива астрономических изображений с использованием модели вычислений Отображение-Свертка,

при этом на шаге Отображения каждое изображение из массива первичных данных наблюдений связывают с уникальным идентификатором клетки, определенной на этапе а), по принципу пересечения необработанного изображения и изображения, содержащегося в клетке или группе клеток, после чего необработанные изображения калибруют, из них удаляют артефакты и фоновые компоненты, затем преобразованные изображения с присвоенным идентификатором, представляющим собой ключ, проецируют на плоскость клетки в заданной на этапе а) картографической проекции, и формируют пары ключ - спроецированное изображение;

на шаге Свертки группируют сформированные пары по ключу, выполняют попиксельное сложение спроецированных изображений, имеющих одинаковый ключ, с получением массива итоговых изображений, составляющих мозаику целевого фрагмента неба, которые сохраняют в распределенной файловой системе;

д) формирование каталога небесных объектов целевого фрагмента неба посредством детектирования небесных объектов на итоговых изображениях, удаления артефактов и измерения значений атрибутов небесных объектов, с присвоением координат детектированному небесному объекту и уникального идентификатора с использованием шага Отображения;

е) сохранение в распределенной файловой системе сформированного каталога, содержащего значения атрибутов небесных объектов, в поколоночном формате, обеспечивающем возможность статистической обработки большого числа атрибутов небесных объектов с использованием модели вычислений Отображение-Свертка;

при этом этапы а)-е) повторяют многократно для каждого целевого фрагмента неба и каждого спектрального диапазона, после чего осуществляют кросс-отождествление небесных объектов в сформированных каталогах с использованием шага Свертка и формирование сводного каталога, содержащего для каждого небесного объекта объединенный перечень значений атрибутов из разных каталогов, сформированных на этапе д) для целевых фрагментов неба и спектральных диапазонов или полученных из внешних источников.

2. Способ по п. 1, характеризующийся тем, что под статистической обработкой понимают фильтрацию, группировку и агрегацию данных по запросу.

3. Способ по п. 1, характеризующийся тем, что в качестве атрибутов небесных объектов понимают характеристики, измеренные по изображению с телескопа с использованием специализированной программы анализа астрономических изображений, а именно координаты центра объекта на спроецированном изображении и на небе, и/или эффективный радиус, и/или вытянутость, и/или ориентация объекта, и/или полный поток и поверхностная яркость объекта, и/или профиль поверхностной яркости объекта, измеренный для набора концентрических окружностей различного радиуса от центра, и/или класс объекта.

4. Способ по п. 1, характеризующийся тем, что возможность статистической обработки сформированных каталогов небесных объектов обеспечивают с использованием языка SQL.

5. Способ по п. 1, характеризующийся тем, что при выполнении этапа в) на шаге Свертки при попиксельном сложении спроецированных изображений, имеющих одинаковый ключ, используют изображения, принадлежащие одному целевому фрагменту неба.

6. Способ интеллектуального анализа данных каталогов небесных объектов, включающий формирование каталогов небесных объектов в соответствии с п. 1, содержащие последующие этапы:

а) обучение модели регрессии и классификации на известных значениях атрибутов каталогов и целевых атрибутах, предварительно заданных, при этом в ходе обучения на шаге Отображения параллельно и распределенно проверяется точность модели для предварительно заданных комбинаций значений гиперпараметров алгоритмов,

б) применение обученной модели для небесных объектов каталога с неизвестным значением целевого атрибута с использованием шага Отображения, на котором параллельно и распределенно на частях каталога происходит прогнозирование неизвестного значения целевого атрибута.

7. Способ интеллектуального анализа по п. 7, характеризующийся тем, что в процессе обучения используют кросс-валидацию для подбора оптимальных значений гиперпараметров алгоритмов, характеризующуюся использованием одной части входных данных для обучения, а другой части входных данных для тестирования.



 

Похожие патенты:

Изобретение относится к вычислительной технике. Технический результат заключается в сокращении времени унификации предикатов, обеспечивается блоком унификации с параллельным сопоставлением термов, содержащим внутреннюю рабочую память, входами соединеную с входной шиной данных, и выходом узла диспетчеризации, а выходы соединены с входом узла сопоставления переменных, входом узла сопоставления имен предикатов и входами узлов сопоставления термов, узел управления входами соединен с входной шиной управления, выходом узла сопоставления переменных, выходом узла сопоставления имен предикатов и выходами узлов сопоставления термов, узел диспетчеризации, входами соединенный с выходами узлов сопоставления термов, а выходы соединены с входом внутренней рабочей памяти и входами узлов сопоставления термов, узел сопоставления имен предикатов входом соединен с выходом внутренней рабочей памяти, а выход соединен с входом узла управления, узлы сопоставления термов, входы которых соединены с выходами внутренней рабочей памяти и выходами узла диспетчеризации, а выходы соединены с входами узла управления, входами узла согласования переменных и входами узла диспетчеризации, узел согласования переменных входами соединенный с выходами узлов сопоставления термов и выходом внутренней рабочей памяти.

Изобретение относится к области вычислительной техники. Технический результат заключается в повышении эффективности визуализации веб-страниц.

Изобретение относится к передаче Интернет-трафика между пользователями. Техническим результатом является обеспечение возможности обмена между пользователями неизрасходованным Интернет-трафиком.

Группа изобретений относится к вариантам способа выполнения стимулирующих операций с размещением проппанта на буровой площадке. Буровая площадка имеет ствол скважины, проникающий в пласт месторождения, имеющий разрыв.

Изобретение относится к области технологий хранения. Техническим результатом является повышение эффективности управления файлами.

Изобретение относится к вычислительной технике. Технический результат заключается в обеспечении защиты данных о статистике пользования поисковой системой и истории поисковых запросов от сбора и хранения.

Изобретение относится к вычислительной технике. Технический результат заключается в повышении эффективности обработки данных, поступающих от датчиков беспроводных устройств пользователей.

Изобретение относится к определению задач в сообщениях и выполнению различных ответных действий. Техническими результатами являются обеспечение автоматической классификации частей сообщений в качестве задач без снижения конфиденциальности электронных средств связи, обеспечение автоматического определения пользовательского интерфейса, ассоциированного с выполнением классифицированной задачи, и снижение общего трафика электронной почты вследствие меньшего количества повторных сообщений электронной почты.

Изобретение относится к области предоставления мультимедийного контента пользователям. Техническим результатом является контроль за воспроизведением медиа-контента, включающего объекты интеллектуальных прав.

Изобретение относится к способу и устройству для обнаружения несанкционированного использования веб-адресов. Технический результат заключается в повышении коэффициента распознавания несанкционированным образом используемых веб-адресов.

Изобретение относится к области вычислительной техники. Технический результат заключается в повышении эффективности визуализации веб-страниц.

Изобретение относится к средствам управления скачиванием файла в облачном сервисе хранения. Технический результат заключается в повышении стабильности работы серверов облачного хранилища.

Изобретение относится к области технологий хранения. Техническим результатом является повышение эффективности управления файлами.

Изобретение относится к вычислительной технике. Технический результат заключается в обеспечении защиты данных о статистике пользования поисковой системой и истории поисковых запросов от сбора и хранения.

Изобретение относится к вычислительной технике. Технический результат заключается в обеспечении защиты данных о статистике пользования поисковой системой и истории поисковых запросов от сбора и хранения.

Изобретение относится к вычислительной технике. Технический результат заключается в повышении эффективности обработки данных, поступающих от датчиков беспроводных устройств пользователей.

Группа изобретений относится к технологиям отрисовки карт на электронных устройствах. Техническим результатом является расширение арсенала технических средств, направленных на отрисовку карт.

Изобретение относится к области предоставления мультимедийного контента пользователям. Техническим результатом является контроль за воспроизведением медиа-контента, включающего объекты интеллектуальных прав.

Изобретение относится к способу и устройству для обнаружения несанкционированного использования веб-адресов. Технический результат заключается в повышении коэффициента распознавания несанкционированным образом используемых веб-адресов.

Изобретение относится к способу и устройству для обнаружения несанкционированного использования веб-адресов. Технический результат заключается в повышении коэффициента распознавания несанкционированным образом используемых веб-адресов.

Изобретение относится к определению исходной ссылки. Технический результат - уменьшение потребления энергии и повышение эффективности использования пропускной способности канала. Способ определения исходной ссылки, исходная ссылка связана с исходным объектом, способ выполняется на сервере, способ включает в себя получение множества опубликованных объектов, создание множества тематических кластеров путем кластеризации опубликованных объектов, исходя из их соответствующей тематики, извлечение из каждого опубликованного объекта, содержащегося в соответствующем тематическом кластере, по меньшей мере одной потенциальной исходной ссылки, создание по меньшей мере одной пары ссылка-кластер, причем для каждой пары ссылка-кластер создается набор характеристик, представляющих свойство пары ссылка-кластер, на основе набора характеристик, связанных с каждой парой ссылка-кластер, определение исходной ссылки, связанной с исходным объектом для данного тематического кластера; и связывание исходной ссылки с каждым из множества опубликованных объектов, кластеризованных в соответствующем тематическом кластере. 2 н. и 28 з.п. ф-лы, 5 ил.
Наверх