Система и способ автоматического машинного обучения (automl) моделей компьютерного зрения для анализа биомедицинских изображений

Изобретение относится к системе и способу автоматического машинного обучения (AutoML) моделей компьютерного зрения для анализа биомедицинских изображений. Технический результат заключается в повышении точности анализа биомедицинских изображений за счет определения наиболее эффективной модели компьютерного зрения. В способе автоматически выполняют загрузку данных биомедицинских изображений, необходимых для тестирования, обучения и валидации моделей компьютерного зрения для анализа биомедицинских изображений, трансформацию данных биомедицинских изображений в формат, принимаемый для поиска, обучения и оценки, осуществляют AutoML поиск архитектур моделей компьютерного зрения для анализа биомедицинских изображений с помощью обучающей и тестовой выборок, сформированных на основе данных биомедицинских изображений, выполняют с помощью обучающей выборки обучение моделей компьютерного зрения для анализа биомедицинских изображений, имеющих найденные архитектуры, причем выбирают лучшую из указанных обученных моделей и передают выбранную модель для оценки, при этом критерием выбора лучшей модели является достижение моделью заданных значений одной или более метрик модели при тестировании модели с помощью тестовой выборки, выполняют оценку лучшей выбранной модели компьютерного зрения для анализа биомедицинских изображений с помощью валидационной выборки, сформированной на основе данных биомедицинских изображений, при этом валидационная выборка создается на основе данных, которые не представлены в тестовой или обучающей выборке. 2 н. и 8 з.п. ф-лы, 6 ил.

 

ОБЛАСТЬ ТЕХНИКИ

Изобретение относится к области информационных и коммуникационных технологий для обработки медицинских данных, в частности, к системе и способу автоматического машинного обучения (AutoML) моделей компьютерного зрения для анализа биомедицинских изображений.

Представленное решение может быть использовано в системах поддержки принятия врачебных решений (СППВР), врачами, например, врачами КТ-диагностики, врачами МРТ, радиологами, рентгенологами, маммологами, онкологами и другими специалистами, которые проводят анализ биомедицинских изображений, полученных с помощью различных методов диагностики (например, КТ-снимки, МРТ-снимки, УЗИ-снимки, рентгеновские снимки, маммография и др.).

УРОВЕНЬ ТЕХНИКИ

В патенте US10282835B2, дата публикации 07.05.2019, описаны способ и система автоматического анализа клинических изображений с использованием моделей, разработанных с использованием машинного обучения. Система включает в себя сервер с электронным процессором и интерфейсом для связи c источником данных. Электронный процессор сконфигурирован для приема обучающей информации от источника данных через интерфейс. Информация для обучения включает в себя множество изображений и графические отчеты, связанные с каждым из множества изображений. Каждый графический отчет включает в себя графический маркер, обозначающий часть одного из множества изображений и диагностическую информацию, связанную с частью одного из множества изображений. Электронный процессор также настроен на выполнение машинного обучения для разработки модели с использованием обучающей информации. Электронный процессор также сконфигурирован для приема изображения для анализа и автоматической обработки изображения с использованием модели для генерации диагноза для изображения.

В международной заявке WO2021035412A1, дата публикации 04.03.2021 описан способ автоматического машинного обучения (AutoML). Способ включает: получение системой AutoML целевой задачи пользователя и первого набора данных; определение, согласно целевой задаче, что исходная модель искусственного интеллекта (AI) используется для реализации целевой задачи пользователя; обучение системы AutoML, согласно полученному первому набору данных, начальной модели AI для получения обученной модели AI; дополнительно анализируют, согласно первому набору данных, обучение начальной модели AI для получения результата анализа, при этом результат анализа включает влияние по меньшей мере одного типа данных в первом наборе данных на обучение начальной модели AI. Также описана система AutoML, обеспечивающая, в зависимости от результата анализа и пользователя, режим оптимизации для обученной модели AI, при этом режим оптимизации может загружать второй набор данных для оптимизации обученной модели AI. С помощью данного решения, согласно анализу обучения исходной модели AI, режим оптимизации, предоставляемый системой AutoML пользователю, может эффективно оптимизировать степень точности прогнозирования модели AI.

Однако, в данных решениях отсутствует автоматический поиск нескольких моделей компьютерного зрения для анализа биомедицинских изображений, обучение найденных нескольких моделей и выбор лучшей из обученных моделей для ее последующей оценки, а также отсутствует автоматический сбор биомедицинских изображений.

Техническая проблема, на решение которой направлено заявляемое изобретение, заключается в разработке методов и систем автоматического обучения моделей компьютерного зрения для задач, связанных с биомедицинскими изображениями, разработке автоматизированных методов оценки и валидации обученных моделей, разработке системы управления данными и разметкой для обеспечения AutoML процесса, повышении точности AutoML моделей машинного обучения для анализа биомедицинских изображений.

СУЩНОСТЬ ИЗОБРЕТЕНИЯ

Техническим результатом заявляемого изобретения является обеспечение расширения арсенал технических средств автоматизации создания моделей машинного обучения для анализа биомедицинских изображений (например, КТ-снимки, МРТ-снимки, УЗИ-снимки, рентгеновские снимки, маммография, ангиография и другие), повышение точности анализа биомедицинских изображений за счет выбора лучшей модели, снижение времени анализа биомедицинских изображений за счет автоматизации поиска, обучения и оценки моделей компьютерного зрения, повышение скорости обработки большого количества биомедицинских изображений одновременно с повышением точности, повышение способности к адаптации моделей компьютерного зрения к новым кейсам, аппаратам, режимам проведения исследований и т.д. – например, к появлению большого числа КТ-исследований с признаками вирусной пневмонии, повышение масштабируемости процессов построения моделей компьютерного зрения в задачах анализа биомедицинских изображений, снижение участия исследователей при построении моделей компьютерного зрения в задачах анализа биомедицинских изображений и, тем самым, экономия на самом дефицитном ресурсе - человеческой экспертизе, повышение качества получаемых моделей компьютерного зрения в задачах анализа биомедицинских изображений за счет автоматизации исследования пространства конфигураций моделей компьютерного зрения и параметров обучения.

Указанный технический результат достигается за счёт того, что

Компьютерно-реализуемая система автоматического машинного обучения (AutoML) моделей компьютерного зрения для анализа биомедицинских изображений содержит:

базу данных, причем база данных хранит данные биомедицинских изображений;

причем данные, на основе которых получают данные биомедицинских изображений, собирают автоматически;

сервер, содержащий:

- блок загрузки, причем с помощью блока загрузки автоматически выполняют загрузку данных биомедицинских изображений, необходимых для тестирования, обучения и валидации моделей компьютерного зрения, из базы данных;

- блок трансформации, причем с помощью блока трансформации автоматически выполняют трансформацию данных биомедицинских изображений, полученных от блока загрузки, в формат, принимаемый блоками поиска, обучения и оценки;

- блок поиска, причем с помощью блока поиска автоматически осуществляют поиск моделей компьютерного зрения с помощью обучающей и тестовой выборок, сформированных на основе данных биомедицинских изображений, полученных от блока трансформации, и автоматически осуществляют поиск и оптимизацию параметров архитектур найденных моделей;

- блок обучения, причем с помощью блока обучения автоматически выполняют обучение моделей компьютерного зрения, найденных блоком поиска, с помощью обучающей выборки, сформированной на основе данных биомедицинских изображений, полученных от блока трансформации, и с помощью параметров архитектуры, полученных от блока поиска;

причем автоматически выбирают лучшую из указанных обученных моделей и передают выбранную модель в блок оценки;

- блок оценки, причем с помощью блока оценки автоматически выполняют оценку лучшей выбранной модели компьютерного зрения, обученной блоком обучения, с помощью валидационной выборки, сформированной на основе данных биомедицинских изображений, полученных от блока трансформации.

В системе может быть автоматически осуществлен с помощью агента клиники сбор данных, на основе которых получают данные биомедицинских изображений.

В системе с помощью блока поиска может быть осуществлен поиск модели до достижения заданных значений метрик либо до исчерпания бюджета на поиск.

В системе с помощью блока обучения поиска может быть осуществлено дообучение модели компьютерного зрения, найденной блоком поиска, с помощью обучающей выборки, в которую добавлены данные дополнительных биомедицинских изображений, полученных от блока трансформации, в том случае, если указанная модель не прошла валидацию.

В системе блоки обучения и оценки могут быть выполнены с возможностью инициировать повторный процесс поиска и обучения моделей компьютерного зрения для анализа биомедицинских изображений.

В компьютерно-реализуемом способе автоматического машинного обучения (AutoML) моделей компьютерного зрения для анализа биомедицинских изображений:

- автоматически выполняют загрузку данных биомедицинских изображений, необходимых для тестирования, обучения и валидации моделей компьютерного зрения; причем данные, на основе которых получают данные биомедицинских изображений, собирают автоматически;

- автоматически выполняют трансформацию загруженных данных биомедицинских изображений в формат, принимаемый для автоматического поиска, обучения и оценки;

- автоматически осуществляют поиск моделей компьютерного зрения с помощью обучающей и тестовой выборок, сформированных на основе трансформированных данных биомедицинских изображений, и автоматически осуществляют поиск и оптимизацию параметров архитектур найденных моделей;

- автоматически выполняют обучение найденных моделей компьютерного зрения с помощью обучающей выборки, сформированной на основе трансформированных данных биомедицинских изображений, и с помощью найденных и оптимизированных параметров архитектур найденных моделей;

причем автоматически выбирают лучшую из указанных обученных моделей;

- автоматически выполняют оценку лучшей выбранной обученной модели компьютерного зрения с помощью валидационной выборки, сформированной на основе трансформированных данных биомедицинских изображений.

В способе может быть автоматически выполнена загрузка данных биомедицинских изображений с помощью блока загрузки, может быть осуществлен автоматический сбор данных, на основе которых получают данные биомедицинских изображений, с помощью агента клиники, может быть автоматически выполнена трансформация загруженных данных биомедицинских изображений с помощью блока трансформации, может быть автоматически осуществлен поиск моделей компьютерного зрения с помощью блока поиска, может быть автоматически выполнено обучение найденных моделей компьютерного зрения с помощью блока обучения, может быть автоматически выполнена оценка лучшей выбранной обученной модели компьютерного зрения с помощью блока оценки.

В способе может быть осуществлен поиск модели до достижения заданных значений метрик либо до исчерпания бюджета на поиск.

В способе может быть осуществлено дообучение модели компьютерного зрения, найденной блоком поиска, с помощью обучающей выборки, в которую добавлены данные дополнительных биомедицинских изображений, полученные от блока трансформации, в том случае, если указанная модель не прошла валидацию.

В способе может быть дополнительно инициирован повторный процесс поиска и обучения моделей компьютерного зрения для анализа биомедицинских изображений.

ОПИСАНИЕ ЧЕРТЕЖЕЙ

Реализация изобретения будет описана в дальнейшем в соответствии с прилагаемыми чертежами, которые представлены для пояснения сути изобретения и никоим образом не ограничивают область изобретения.

Заявляемое изобретение проиллюстрировано фигурами 1-6, на которых изображены:

Фиг. 1 – иллюстрирует пример общей архитектуры, частью которой является система автоматического машинного обучения (AutoML) моделей компьютерного зрения для анализа биомедицинских изображений.

Фиг. 2 – иллюстрирует общую схему построения AutoML моделей компьютерного зрения для анализа биомедицинских изображений с использованием гибридного интеллекта.

Фиг. 3 – иллюстрирует общую схему устройства агента обучения.

Фиг. 4 – иллюстрирует общую схему обновления AutoML моделей компьютерного зрения для анализа биомедицинских изображений.

Фиг. 5 – иллюстрирует общую схему устройства агента клиники.

Фиг. 6 – иллюстрирует общую схема вычислительного устройства для реализации настоящего изобретения.

ДЕТАЛЬНОЕ ОПИСАНИЕ ИЗОБРЕТЕНИЯ

В приведенном ниже подробном описании реализации изобретения приведены многочисленные детали реализации, призванные обеспечить отчетливое понимание настоящего изобретения. Однако, квалифицированному в предметной области специалисту будет очевидно, каким образом можно использовать настоящее изобретение, как с данными деталями реализации, так и без них. В других случаях хорошо известные методы, процедуры и компоненты не были описаны подробно, чтобы не затруднять излишне понимание особенностей настоящего изобретения.

Кроме того, из приведенного изложения будет ясно, что изобретение не ограничивается приведенной реализацией. Многочисленные возможные модификации, изменения, вариации и замены, сохраняющие суть и форму настоящего изобретения, будут очевидными для квалифицированных в предметной области специалистов.

Настоящее изобретение раскрывает систему автоматического машинного обучения (AutoML) моделей компьютерного зрения для анализа биомедицинских изображений. Система предназначена для автоматизации этапов разработки и обучения моделей компьютерного зрения в задачах анализа биомедицинских изображений. Биомедицинские изображения – это медицинские изображения, полученные различными методами, например, методами лучевой диагностики (рентгенологический, магнитно-резонансный, радионуклидный, ультразвуковой и др.) - снимки компьютерной томографии (КТ), снимки магнитно-резонансной томографии (МРТ), ультразвуковые снимки (УЗИ), снимки позитронно-эмиссионной томографии (ПЭТ), рентгеновские снимки, маммографические снимки, снимки ангиографических исследований, эластографические изображения и др.), с помощью эндоскопа (эндоскопические изображения), с помощью фотографических методов (например, медицинские фотографии состояния кожи и других поверхностных состояний, таких как нёбо, родимые пятна, родинки и др.) и др.

Задача построения моделей машинного обучения состоит из следующих этапов:

1. Сбор данных:

- доступ к источникам данных;

- техническая интеграция;

- валидация данных;

- скачивание данных;

- хранение данных;

- поиск данных.

2. Подготовка данных: нормирование, очистка, поиск выбросов.

3. Разделение подготовленных данных на тестовую, валидационную и обучающую выборки.

4. Выбор архитектуры модели.

5. Выбор гиперпараметров.

6. Обучение выбранной модели.

7. Оценка модели.

Агент Клиники обеспечивает автоматизацию забора данных из клиник, опираясь на систему правил и фильтров. Агент клиники так же отвечает за техническую интеграцию и скачивание данных, валидацию и хранение. В основе работы агента клиники лежат комплекты правил, фильтров и списки тегов DICOM. Опираясь на эти данные, возможно автоматизировать процессы доступа, технической интеграции, валидации, скачивания, хранения и поиска данных биомедицинских изображений. Сбор данных осуществляется из внутренних источников (например, минио и постгре баз данных, хранящих биомедицинские изображения) путем автоматического копирования в точку работы - на сервер, где будет запущена модель для обучения.

За разделение подготовленных данных на тестовую, валидационную и обучающую выборки, выбор архитектуры модели, выбор гиперпараметров, обучение выбранной модели, оценку модели отвечает Агент обучения, который собирает все действия в цепочку задач, выполняющихся на вычислительных ресурсах в последовательном режиме.

Автоматическое разделение на выборки опирается на имеющиеся в AutoML отрасли подходы, основываясь на анализе разметки в данных для разбиения выборок стратифицированно.

Выбор архитектуры модели выполняется на базе методов Neural Architecture Serach (NAS) - отрасли машинного обучения, решающей задачу поиска наилучшей модели в контексте обучающей выборки. В рамках данного изобретения применяется метод, основанный на адаптации NAS методов под особенности медицинских данных - малые размеры выборок, задача сегментации биомедицинских изображений, как ключевая задача анализа, использование уже существующих решений как точки старта для поиска моделей компьютерного зрения для анализа биомедицинских изображений.

Обучение найденной архитектуры выполняется так же в автоматическом режиме, что снимает необходимость ручных запусков и подборов параметров обучения, что снижает участие человека в данном цикле.

Оценка модели выполняется на базе подготовленного протокола, который позволяет оценить все необходимые метрики модели в автоматическом режиме.

На Фиг. 1 представлен пример общей архитектуры, частью которой является система автоматического машинного обучения (AutoML) моделей компьютерного зрения для анализа биомедицинских изображений.

Botkin Main Platform – основная платформа, центральное облако экосистемы Botkin.AI. Осуществляет взаимосвязь между всеми агентами и подсистемами, в том числе управляет потоками данных, используемых для обучения и разметки моделей. Здесь находятся следующие группы сервисов:

1. Data Management - сервисы управления данными системы: исследования, медицинские изображения, поддержка стандарта DICOM, управление датасетами и группами исследований (DataSet, DataFolder).

2. User Management - сервисы управления пользователями, выполняющие следующие функции:

- учети и регистрация пользователей;

- ведение прав пользователей;

- аудит;

- сервисы авторизации  OAuth 2.

3. Agent Manager - сервисы управления инфраструктурой, выполняющие следующие функции:

- учет и реестр агентов, дескрипторов агентов;

- взаимодействие с API облачных провайдеров для поднятия виртуальных машин, развертывания локальных кластеров Kubernetes;

- взаимодействие с контроллерами кластеров Kubernetes для развертывания и обновления сервисов агентов.

4. AutoML Management - сервисы управления обучения моделей, выполняющие следующие функции:

- учет метрик обучения моделей (Leader Board);

- хранение артефактов моделей (Model Registry).

5. Process Schedule Management - сервис планирования процессов. Данный сервис выполняет следующие функции:

- назначение процесса (в том числе подпроцесса), выбор агента;

- контроль утилизации ресурсов.

6. Platform Controller - сервис координации процессов системы.

Botkin Secondary Platform – вторичная вспомогательная платформа  Botkin.AI. Она отличается от главной платформы тем, что здесь отсутствуют сервисы управления AutoML, а также задачи планирования процессов делегируются в главную платформу.

Inference Agent - агент вывода, задачей которого является обработка медицинских изображений с использованием уже обученных моделей.

Learning Agent – агент обучения, задачей которого является поиск и обучение новых моделей машинного обучения. Агент обучения содержит несколько подкомпонент: модуль взаимодействия с системой, модуль обучения моделей компьютерного зрения, модуль автоматической развертки модели в промышленный контур. Данный модуль разворачивается на серверах, имеющих достаточные вычислительные ресурсы. Может быть развернуто несколько копий.

Clinic Agent - агент клиники, разворачиваемый на стороне клиники и предоставляющий средства взаимодействия с информационными системами клиники.

Satellite - управляющий сервис агента.

ML Service – сервис, выполняющий обработку исследований моделью компьютерного зрения.

Report Service – сервис, генерирующий отчеты в  DICOM стандарте, опираясь на результаты обработки серии исследований моделью машинного обучения.

Learning Service – сервис, выполняющий обучение моделей машинного обучения, включая алгоритмы машинного обучения.

Clinic Side – внутренняя сеть клиники.

Cloud Provider – поставщик облачных серверов.

HIS –информационная система клиники.

PACS – (англ. Picture Archiving and Communication System) — системы передачи и архивации DICOM изображений.

Scanners – устройства, выполняющие исследование (КТ аппарат, мат аппарат и др.).

User –пользователь системы.

Botkin Resource Layer – слой управления ресурсами.

3rd Party DICOM Viewer– просмотрщик для врачей, поставляемый третьей стороной, например веб-просмотрщик или автономный (standalone) просмотрщик, содержит все необходимые инструменты для анализа биомедицинских изображений, разметки биомедицинских изображений согласно требуем протоколам, а также взаимодействует с системой в части адресации данных и задач.

На Фиг. 2 представлена общая схема построения моделей компьютерного зрения для анализа биомедицинских изображений на основе двух ключевых технологий - технологии AutoML, автоматизирующей рутинную работу специалистов по компьютерному зрению, и гибридного интеллекта – группы методов, позволяющих учитывать обратную связь от человека (например, радиолога) и использовать ее для обновления AutoML моделей. Этапы, на которых используются AutoML и гибридный интеллект, выделены цветом. Например, врач(и) размечает пул данных биомедицинских изображений. В автоматическом режиме данные выгружаются на сервер для обучения. Запускается алгоритм AutoML, состоящий из следующих шагов: подготовка данных, поиск подходящих архитектур моделей, обучение выбранных архитектур, отбор лучшей модели, тестирование на отложенной выборке. Если качество модели превысило заданный порог, происходит обновление модели в промышленном контуре, иначе этот шаг пропускается. Данные обрабатываются текущей версией модели и предоставляются врачу на валидацию. При неудовлетворительном результате валидации (FAIL), данные возвращаются на разметку и процесс повторяется.

На Фиг. 3 приведена общая схема устройства агента обучения.

Агенты обучения – это управляемая сервисом Satellite группа сервисов, предназначенная для обучения моделей искусственного интеллекта для задач анализа биомедицинских изображений.

На Фиг. 3 представлены следующие сервисы агента обучения:

1. Satellite - управляющий сервис агента.

2. Learning Service - сервис, выполняющий обучение. Сервис состоит из следующих компонент:

- загрузчик данных (Data Loader) - блок, выполняющий загрузку данных, необходимых для обучения и тестирования моделей, из хранилища непосредственно на сервер, где развернут агент;

- модуль подготовки данных (Data Preprocessor) - блок, выполняющий трансформацию данных, полученных от блока загрузки данных, в формат, принимаемый блоками поиска моделей и их обучения;

- блок поиска модели (Model Search) - блок, реализующий наборы методов AutoML для поиска и оптимизации метапараметров. Запускает и контролирует процесс поиска модели;

- блок обучения модели (Model Train) - блок, выполняющий обучение модели по найденным параметрам архитектуры. При необходимости, может инициировать повторный процесс поиска обучения; (В случае некорректного завершения обучения или проблем инфраструктурного характера (временные проблемы с связью, перезагрузка оборудования и др.).

- блок тестирования модели (Model Test) - блок, выполняющий тестирование и оценку метрик модели на отложенной выборке. При необходимости, может инициировать повторный процесс поиска обучения, например, при недостижении заданных значений метрик на тестовой выборке.

На Фиг. 4 представлена общая схема обновления AutoML моделей компьютерного зрения для анализа биомедицинских изображений.

На Фиг. 5 представлена общая схема устройства агента клиники.

Агенты клиники - это управляемая сервисом Satellite группа сервисов, разворачиваемая на стороне клиники, предназначенная для интеграции с информационными системами клиники, аппаратами, инструментами радиологов и т.д. Агент клиники периодически, например, один раз в день в полночь, выбирает все исследования, попавшие в PACS клиники за последние 24 часа. Далее агент клиники отправляет собранные данные биомедицинских изображений на обработку в основную или вспомогательную платформу и возвращает результаты анализа биомедицинских изображений ответственному врачу.

Ниже приведен пример автоматического машинного обучения (AutoML) моделей компьютерного зрения для анализа маммографических изображений.

Агент обучения загружает из мест хранения, указанных в файле конфигурации, данные маммографических исследований в виде изображений и созданные аннотации к указанным изображениям. Аннотация создается врачами, и обычно состоит из класса исследования (норма или патология, например, рак молочной железы) и множества регионов интереса, привязанных к маммографическому изображению. В файле конфигурации указываются необходимые параметры для работы агента обучения, например, бюджет на поиск (сколько часов вычислительных ресурсов можно потратить на поиск), тип решаемой задачи (классификация, сегментация), сервисная информация (например, адреса серверов логирования), доля обучающих и тестовых примеров в выборке, параметры изображений в исследовании (их число) и количество каналов (классов) на которые происходит разбиение выборок и т.д. Далее агент обучения обрабатывает полученные данные (например, для сырых данных из DICOM окон просмотра, заложенных в файле, определяет проекции снимка) и сохраняет данные в принятом формате на сервере (например, в виде бинарных файлов, содержащих 4 изображения (изображения каждой молочной железы в двух проекциях, и изображения регионов интереса). Далее агент обучения запускает методы для подготовки разбиения данных на обучающие и тестовые данные. Например, стратифицированное разбиение по наличию нормы и патологии на две выборки согласно заданным долям. Один пациент может войти только в одну выборку - обучающую или тестовую, даже если у него больше одного исследования. Далее агент обучения запускает методы обучения, представляющие собой вариации метода под названием Neural Architecture Search (NAS), основанного на градиентом поиске архитектуры. Для этого используется базовая архитектура, состоящая из крупных блоков (например, Unet). Каждый блок ищется путем оптимизации связей между узлами. Таким образом, процесс поиска - это поиск такого набора весов, при котором достигается минимум ошибки обучения. Сама итоговая архитектура получается путем бинаризации (удаления) связей, которые имеют слишком низкий вес. В процессе обучения используются унифицированные модели, отличающиеся лишь параметрами. Логирование происходит в сервис ML Flow. На каждой эпохе обучения DS (Data Science) специалист имеет доступ к логам для оценки перформанса модели. Поиск подходящих моделей происходит до достижения заданных значений метрик. Поиск осуществляется путем запуска метода обучения с разными метапараметрами (размер шага обучения, параметров регуляризации, параметров аугментации данных и т.д.). Критерием выбора моделей для анализа маммограмм является, например, максимизация значения метрики AUC (площадь под ROC-кривой) для определения нормы/патологии для исследования на всей тестовой выборке. Традиционный порог значения AUC = 0.85. При его достижении обучение считается успешно завершенным, либо до исчерпания бюджета на поиск. Бюджет - это количество машино-часов, отведенных на поиск. Если за отведённое время не достигнуто заданное качество, процесс завершается. В этом случае DS специалист получает уведомление с указанием причины остановки «исчерпан бюджет на поиск». Если на какой-либо эпохе достигнуто качество модели, агент обучения выполняет развертывание модели в контур валидации. Для валидации модели формируется валидационный датасет Валидационная выборка создается из отдельного источника данных, который не представлен в тестовом или обучающем датасете, в остальном процесс аналогичен процессу создания обучающей и тестовой выборок. Далее запускается workflow, который отправляет маммографические данные из валидационного датасета на обученную модель, которая производит обработку, и в результате получают маммографические изображения с аннотацией, сгенерированный моделью. Маммографические изображения, обработанные обученной моделью, назначаются на врача, который проверяет качество работы модели на предоставленных данных. В случае, если модель не прошла валидацию, как правило принимается решение о добавлении обучающих данных и повторении процесса обучения.

На Фиг. 6 представлена общая схема вычислительного устройства (600), обеспечивающего обработку данных, необходимую для реализации заявленного решения.

В общем случае устройство (600) содержит такие компоненты, как: один или более процессоров (601), по меньшей мере одну память (602), средство хранения данных (603), интерфейсы ввода/вывода (604), средство В/В (605), средства сетевого взаимодействия (606).

Процессор (601) устройства выполняет основные вычислительные операции, необходимые для функционирования устройства (600) или функциональности одного или более его компонентов. Процессор (601) исполняет необходимые машиночитаемые команды, содержащиеся в оперативной памяти (602).

Память (602), как правило, выполнена в виде ОЗУ и содержит необходимую программную логику, обеспечивающую требуемый функционал.

Средство хранения данных (603) может выполняться в виде HDD, SSD дисков, рейд массива, сетевого хранилища, флэш-памяти, оптических накопителей информации (CD, DVD, MD, Blue-Ray дисков) и т.п. Средство (603) позволяет выполнять долгосрочное хранение различного вида информации.

Интерфейсы (604) представляют собой стандартные средства для подключения и работы с серверной частью, например, USB, RS232, RJ45, LPT, COM, HDMI, PS/2, Lightning, FireWire и т.п.

Выбор интерфейсов (604) зависит от конкретного исполнения устройства (N00), которое может представлять собой персональный компьютер, мейнфрейм, серверный кластер, тонкий клиент, смартфон, ноутбук и т.п.

В качестве средств В/В данных (605) в любом воплощении системы должна использоваться клавиатура. Аппаратное исполнение клавиатуры может быть любым известным: это может быть, как встроенная клавиатура, используемая на ноутбуке или нетбуке, так и обособленное устройство, подключенное к настольному компьютеру, серверу или иному компьютерному устройству. Подключение при этом может быть, как проводным, при котором соединительный кабель клавиатуры подключен к порту PS/2 или USB, расположенному на системном блоке настольного компьютера, так и беспроводным, при котором клавиатура осуществляет обмен данными по каналу беспроводной связи, например, радиоканалу, с базовой станцией, которая, в свою очередь, непосредственно подключена к системному блоку, например, к одному из USB-портов. Помимо клавиатуры, в составе средств В/В данных также может использоваться: джойстик, дисплей (сенсорный дисплей), проектор, тачпад, манипулятор мышь, трекбол, световое перо, динамики, микрофон и т.п.

Средства сетевого взаимодействия (606) выбираются из устройств, обеспечивающих сетевой прием и передачу данных, например, Ethernet карту, WLAN/Wi-Fi модуль, Bluetooth модуль, BLE модуль, NFC модуль, IrDa, RFID модуль, GSM модем и т.п. С помощью средств (605) обеспечивается организация обмена данными по проводному или беспроводному каналу передачи данных, например, WAN, PAN, ЛВС (LAN), Интранет, Интернет, WLAN, WMAN или GSM, 3G, 4G, 5G.

Компоненты устройства (600) сопряжены посредством общей шины передачи данных (607).

В настоящих материалах заявки представлено предпочтительное раскрытие осуществления заявленного технического решения, которое не должно использоваться как ограничивающее иные, частные воплощения его реализации, которые не выходят за рамки испрашиваемого объема правовой охраны и являются очевидными для специалистов в соответствующей области техники.

Специалисту в данной области техники должно быть понятно, что различные вариации заявляемого способа и системы не изменяют сущность изобретения, а лишь определяют его конкретные воплощения и применения.

1. Компьютерно-реализуемая система автоматического машинного обучения (AutoML) моделей компьютерного зрения для анализа биомедицинских изображений, содержащая:

базу данных, причем база данных хранит данные биомедицинских изображений;

причем данные, на основе которых получают данные биомедицинских изображений, собирают автоматически;

сервер, содержащий сервис, выполняющий автоматическое машинное обучение (AutoML) моделей компьютерного зрения для анализа биомедицинских изображений, указанный сервис содержит следующие компоненты: блок загрузки, блок трансформации, блок поиска, блок обучения, блок оценки, причем

- с помощью блока загрузки автоматически выполняют загрузку данных биомедицинских изображений, необходимых для тестирования, обучения и валидации моделей компьютерного зрения для анализа биомедицинских изображений, из базы данных;

- с помощью блока трансформации автоматически выполняют трансформацию данных биомедицинских изображений, полученных от блока загрузки, в формат, принимаемый блоками поиска, обучения и оценки;

- с помощью блока поиска автоматически осуществляют AutoML поиск архитектур моделей компьютерного зрения для анализа биомедицинских изображений с помощью обучающей и тестовой выборок, сформированных на основе данных биомедицинских изображений, полученных от блока трансформации;

- с помощью блока обучения автоматически выполняют с помощью обучающей выборки, сформированной на основе данных биомедицинских изображений, полученных от блока трансформации, обучение моделей компьютерного зрения для анализа биомедицинских изображений, имеющих архитектуры, найденные блоком поиска;

причем автоматически выбирают лучшую из указанных обученных моделей и передают выбранную модель в блок оценки, при этом критерием выбора лучшей модели является достижение моделью заданных значений одной или более метрик модели при тестировании модели с помощью тестовой выборки, сформированной на основе данных биомедицинских изображений, полученных от блока трансформации;

- с помощью блока оценки автоматически выполняют оценку лучшей выбранной модели компьютерного зрения для анализа биомедицинских изображений, обученной блоком обучения, с помощью валидационной выборки, сформированной на основе данных биомедицинских изображений, полученных от блока трансформации, при этом валидационная выборка создается на основе данных, которые не представлены в тестовой или обучающей выборке.

2. Система по п. 1, характеризующаяся тем, что с помощью агента клиники автоматически осуществляют сбор данных, на основе которых получают данные биомедицинских изображений.

3. Система по п. 1, характеризующаяся тем, что с помощью блока поиска осуществляют AutoML поиск архитектур моделей компьютерного зрения для анализа биомедицинских изображений с помощью обучающей и тестовой выборок на основе методов Neural Architecture Serach (NAS).

4. Система по п. 1, характеризующаяся тем, что осуществляют дообучение модели компьютерного зрения для анализа биомедицинских изображений с помощью обучающей выборки, в которую добавлены данные дополнительных биомедицинских изображений, полученные от блока трансформации, в том случае, если указанная модель не прошла валидацию.

5. Система по п. 1, характеризующаяся тем, что блоки обучения и оценки выполнены с возможностью инициировать повторный процесс поиска и обучения моделей компьютерного зрения для анализа биомедицинских изображений.

6. Компьютерно-реализуемый способ автоматического машинного обучения (AutoML) моделей компьютерного зрения для анализа биомедицинских изображений, в котором:

- автоматически выполняют загрузку данных биомедицинских изображений, необходимых для тестирования, обучения и валидации моделей компьютерного зрения для анализа биомедицинских изображений; причем данные, на основе которых получают данные биомедицинских изображений, собирают автоматически;

- автоматически выполняют трансформацию загруженных данных биомедицинских изображений в формат, принимаемый для автоматического поиска, обучения и оценки;

- автоматически осуществляют AutoML поиск архитектур моделей компьютерного зрения для анализа биомедицинских изображений с помощью обучающей и тестовой выборок, сформированных на основе трансформированных данных биомедицинских изображений;

- автоматически выполняют с помощью обучающей выборки, сформированной на основе трансформированных данных биомедицинских изображений, обучение моделей компьютерного зрения для анализа биомедицинских изображений, имеющих найденные архитектуры;

причем автоматически выбирают лучшую из указанных обученных моделей, при этом критерием выбора лучшей модели является достижение моделью заданных значений одной или более метрик модели при тестировании модели с помощью тестовой выборки, сформированной на основе данных биомедицинских изображений, полученных от блока трансформации;

- автоматически выполняют оценку лучшей выбранной обученной модели компьютерного зрения для анализа биомедицинских изображений с помощью валидационной выборки, сформированной на основе трансформированных данных биомедицинских изображений, при этом валидационная выборка создается на основе данных, которые не представлены в тестовой или обучающей выборке.

7. Способ по п. 6, характеризующийся тем, что выполняют автоматическое машинное обучение (AutoML) моделей компьютерного зрения для анализа биомедицинских изображений с помощью сервиса, который содержит следующие компоненты: блок загрузки, блок трансформации, блок поиска, блок обучения, блок оценки, причем с помощью блока загрузки автоматически выполняют загрузку данных биомедицинских изображений, с помощью агента клиники осуществляют автоматический сбор данных, на основе которых получают данные биомедицинских изображений, с помощью блока трансформации автоматически выполняют трансформацию загруженных данных биомедицинских изображений, с помощью блока поиска автоматически осуществляют AutoML поиск архитектур моделей компьютерного зрения для анализа биомедицинских изображений, с помощью блока обучения автоматически выполняют обучение моделей компьютерного зрения для анализа биомедицинских изображений, имеющих найденные архитектуры, с помощью блока оценки автоматически выполняют оценку лучшей выбранной обученной модели компьютерного зрения для анализа биомедицинских изображений.

8. Способ по п. 6, характеризующийся тем, что осуществляют AutoML поиск архитектур моделей компьютерного зрения для анализа биомедицинских изображений с помощью обучающей и тестовой выборок на основе методов Neural Architecture Serach (NAS).

9. Способ по п. 6, характеризующийся тем, что осуществляют дообучение модели компьютерного зрения с помощью обучающей выборки, в которую добавлены данные дополнительных биомедицинских изображений, полученные от блока трансформации, в том случае, если указанная модель не прошла валидацию.

10. Способ по п. 6, характеризующийся тем, что дополнительно инициируют повторный процесс поиска и обучения моделей компьютерного зрения для анализа биомедицинских изображений.



 

Похожие патенты:

Изобретение относится к области вторичной цифровой обработки радиолокационных (РЛ) сигналов и может быть использовано для распознавания типового состава групповой воздушной цели (ГВЦ) из класса «самолеты с турбореактивными двигателями (ТРД)». Технический результат заключается в обеспечении постоянства вероятности распознавания типового состава ГВЦ не ниже заданной за счет оптимизации решающего правила, позволяющего адаптировать процесс распознавания к различному характеру полета ГВЦ.

Изобретение предоставляет систему и способ определения цвета алмаза. Технический результат – повышение точности определения цвета алмаза.

Изобретение относится к области медицины, а именно к онкологии и может быть использовано для дифференциальной диагностики злокачественной опухоли и доброкачественного процесса костной ткани на отсканированных изображениях гистологического стекла. Способ дифференциальной диагностики заключается в том, что взятый у пациента образец костной ткани переводят в стандартную окрашенную гистологическую форму, изображение полученного окрашенного гистологического стекла сканируют с использованием сканирующего микроскопа Leica SC2 с разрешением 400, отсканированное изображение делят на участки в виде квадратов, выполняют анализ каждого из полученных квадратов отсканированных изображений с использованием модели нейронной сети, предварительно обученной определять на размеченных квадратах наличие объектов диагностики - патологических митозов костной ткани.

Изобретение относится к области медицины и может быть использовано для распознавания структуры ядер бластов крови и костного мозга с применением световой микроскопии в сочетании с компьютерной обработкой данных. Согласно изобретению получают цветное изображение мазков крови и/или костного мозга, используя компьютерный анализатор, выделяют на изображении лейкоциты и получают их бинарное изображение, на бинарном изображении лейкоцитов последовательным сканированием проводят процедуру заполнения пустот, измеряют пространственно-яркостное распределение пикселей изображения и определяют значение текстурных признаков, характеризующих структуру ядра, для представлений цветовых моделей лейкоцитов, на основе текстурных признаков формируют матрицу числовых текстурных признаков структуры ядра, в столбцах которой указаны значения текстурных признаков, а в строках приведены изображения лейкоцитов, используемые для распознавания структуры ядер бластов.

Изобретение относится к способам сканирования биологических препаратов. Технический результат заключается в повышении точности и скорости сканирования цервикального препарата, подготовленного методом жидкостной цитологии, за счет динамического изменения необходимого диапазона фокусировки в зависимости от толщины мазка.

Изобретение относится к области автоматизированных измерений, в частности к способу и устройству для определения характеристик живых особей, таких как сельскохозяйственные животные, на расстоянии. Техническим результатом является обеспечение быстрых и автоматизированных измерений для получения достоверных и точных параметров ориентации и/или позы животных, свободно перемещающихся в естественной среде.

Изобретение относится к способу автономной посадки беспилотного летательного аппарата (БПЛА). Для автономной посадки БПЛА выполняют его перемещение к приблизительной области посадки, содержащей группу (группы) источников света, включающую расположенный в центре главный источник (источники) света, и не менее двух вспомогательных источников света, расположение и цвета которых известны БПЛА, захватывают изображение области посадки посредством камеры БПЛА, преобразуют цветовое пространство в цветовое пространство HSV, в котором определяют результирующее световое пятно, образованное группой (группами) источников света, выполняют дальнейшее перемещение БПЛА в направлении области посадки.

Изобретение относится к медицине, в частности к способу оценки окклюзионных взаимоотношений зубных рядов. Сканируют зубные ряды верхней и нижней челюстей с помощью интраорального сканера в положении привычной окклюзии, загружают цифровые изображения зубных рядов в виртуальное пространство программного обеспечения CAD/CAM и активируют функцию точечной визуализации окклюзионных контактов.

Изобретение относится к системе и способу определения чистоты драгоценного камня, в частности определения чистоты алмаза. Способ, осуществляемый с использованием компьютеризированной системы для оценки чистоты алмаза, при этом компьютеризированная система включает в себя устройство получения оптического изображения, процессор, предварительно обученную нейронную сеть и модуль вывода, функционально соединенные вместе, причем упомянутый способ включает этапы, на которых: (i) получают с помощью устройства получения оптического изображения одно или более множеств изображений осевой проекции алмаза с различной глубиной фокуса, в котором глубина фокуса определяется высотой алмаза, а множество изображений осевой проекции получают в среде, имеющей заданный постоянный уровень освещенности, и осевая проекция определяется как вид на алмаз в направлении центральной оси, перпендикулярной к площадке алмаза и проходящей через вершину павильона алмаза, а высота алмаза определяется как длина центральной оси алмаза, (ii) в процессоре объединяют множество осевых проекций для образования одного или нескольких одиночных оптических изображений, при этом одиночное изображение содержит дефекты в фокусе из множества осевых проекций, так что дефекты не в фокусе из множества осевых проекций внутри алмаза отбрасываются, (iii) устанавливают в предварительно обученной нейронной сети регрессивное значение, связанное со степенью чистоты упомянутого алмаза, на основе одного или более одиночных изображений, полученных на этапе (i), при этом предварительно обученную нейронную сеть предварительно обучают с использованием одного или более одиночных оптических изображений, полученных из множества алмазов, каждому из которых присвоена заранее назначенная степень чистоты, и при этом одно или более одиночных оптических изображений, полученных из группы алмазов, получают с помощью того же процесса, что и на этапе (i), и получают в среде с заданным постоянным уровнем освещенности, таким же, как и в (i), и (iv) в модуле вывода устанавливают степень чистоты алмазу (i) путем корреляции регрессивного значения из (ii) со степенью чистоты.

Группа изобретений относится к технологиям обработки данных и, в частности, к кодированию облака точек. Техническим результатом является уменьшение объема данных, необходимых для представления облака данных, с целью его более быстрой передачи или сокращения объема хранилища.

Изобретение относится к способу и системе компенсации шумов при выполнении квантовых алгоритмов на квантовом процессоре с помощью квантовой томографии операций. Технический результат заключается в обеспечении возможности корректировки ошибок квантового процессора при выполнении квантовых операций.
Наверх