Способ обнаружения и локализации текстовых форм на изображениях



Способ обнаружения и локализации текстовых форм на изображениях
Способ обнаружения и локализации текстовых форм на изображениях
Способ обнаружения и локализации текстовых форм на изображениях

Владельцы патента RU 2697737:

Федеральное государственное казенное военное образовательное учреждение высшего образования "Военный учебно-научный центр Военно-воздушных сил "Военно-воздушная академия имени профессора Н.Е. Жуковского и Ю.А. Гагарина" (г. Воронеж) Министерства обороны Российской Федерации (RU)

Изобретение относится к способам обнаружения текста на полутоновых цифровых изображениях и связанным с ними способам сегментации изображений по признаку наличия текста. Техническим результатом является повышение точности обнаружения текстовых форм на изображениях, содержащих сложный фон. Способ включает в себя выделение соседних кадров полутоновых изображений последовательности изображений, удаление постоянной составляющей яркости изображения выделенных кадров, двойное пространственное горизонтальное дифференцирование, корреляционную обработку изображения с эталоном, расчет значения порога, сравнение результатов корреляционной обработки с порогом и при условии обнаружения текстовых форм определение их параметров. 3 ил.

 

Область изобретения

Изобретение относится к способам обнаружения текста на полутоновых цифровых изображениях и связанных с ними способами сегментации изображений по признаку наличия текста (площади занимаемой текстом в кадре) и выявления спама содержащегося в цифровом изображении.

Уровень техники

Известен способ обнаружения текста на изображениях [Y. Kunishige, F. Yaokai, S. Uchida, Scenery Character Detection with Environmental Context // The 11th International Conference on Document Analysis and Recognition (ICDAR), 2011, Pages: 1049-1053.] который заключается в использовании «контекста окружения» (environmental context). Основная мысль заключается в использовании информации о том, что окружает область-«кандидата». Иными словами, предлагается анализировать тот фон, на котором находится регион изображения, возможно, являющийся текстовым. Идея базируется на эмпирическом предположении, что вероятность наличия текста, например, на травяном покрове или на небе - низка.

Основной недостаток данного способа заключается в том, что он исключает наличие в кадре сложного фона и ориентирован только на работу с ограниченным набором фоновых рисунков.

Также известен способ [S. Uchida, Y. Shigeyoshi, Y. Kunishige, F. Yaokai, A Keypoint-Based Approach Toward Scenery Character Detection // The 11th International Conference on Document Analysis and Recognition (ICDAR), 2011, Pages: 819-823.] который заключается в детектировании на изображении так называемых SURF-точек. Предполагается, что если на исследуемом изображении присутствуют буквы, то они будут плотно такими точками покрыты. Дополнительно к этому вычисляется визуальная заметность (visual saliency). Вместе SURF и saliency будут представлять собой (128+1)-мерный вектор признаков. На этом векторе предполагается провести обучение классификатора.

Основной недостаток данного способа заключается в том, что метод детектирования точек дает плохие результаты по обнаружению текста при работе на сложных фонах (рекламные щиты, вывески магазинов, автомобильные номера).

Также известен способ [Y. Du, Н. Ai, S. Lao, Dot Text Detection Based on FAST Points // The 11th International Conference on Document Analysis and Recognition (ICDAR), 2011, Pages: 435-439.] который заключается в поиске точечного текста, но для обнаружения точек, составляющих буквы, применяется хорошо известный алгоритм FAST. Затем производится эвристическая фильтрация ложных кандидатов, объединение точек в буквы, букв - в слова, после чего применяется классификатор SVM для детектирования текстовых областей.

Основной недостаток данного способа заключается в том, что метод детектирования точек, как и в рассмотренном выше способе, дает плохие результаты при работе на сложных фонах (рекламные щиты, вывески магазинов, автомобильные номера).

В качестве прототипа выбран способ обнаружения текста в растровом изображении и способ выявления спама, содержащего растровые изображения (по патенту РФ №2363047, МПК G06K 9/36 (2007/10) опубликован 27.07.2009).

Он заключается в том, что на изображении распознается фоновый цвет, далее приводят изображение к двухцветному виду, находят границы замкнутого контура, описанного вокруг каждого из отдельных рисунков слитых пикселов цвета, отличных от упомянутого фонового цвета, и запоминают его координаты, сравнивают размеры каждого из упомянутых контуров с первыми заранее заданными пределами, интерпретируют каждый из оставшихся замкнутых контуров как контур текстового символа, находят предполагаемые строки текстовых символов, по замкнутым контурам, интерпритированым как контуры текстовых символов, разбивают найденные предполагаемые строки текстовых символов на наборы, интерпритируемые как найденные слова, сравнивают количество упомянутых контуров, интерпритированных как контуры текстовых символов, в каждом из упомянутых вероятных слов со вторыми заранее заданными пределами, исключают из дальнейшего рассмотрения те вероятностные слова, в которых количество упомянутых слов контуров, не попадает в упомянутые вторые заранее заданные пределы, сравнивают количество оставшихся вероятных слов в каждой упомянутой предполагаемой строке с третьими заранее заданными пределами, исключают из дальнейшего рассмотрения те из упомянутых предполагаемых строк, в которых количество вероятных слов не попадает в упомянутые третьи заранее заданные пределы, считают факт наличия оставшихся предполагаемых строк с вероятными словами обнаружением текста в упомянутом изображении.

Недостатком известного способа является низкая скорость работы, обусловленная многоэтапной обработкой, низкая вероятность правильного обнаружения, обусловленная тем, что выбор порога не учитывает статистические характеристики именно текста (буквы), а выбирается на основе гистограммы всего кадра.

Техническим результатом заявленного изобретения является повышение скорости обнаружение текстовых форм на изображении и увеличении вероятности правильного обнаружения за счет учета статистических характеристик текста.

Указанный технический результат достигается тем, что в известном способе производят формирование последовательности изображений, преобразования их к полутоновому представлению и обнаружение текстовых форм.

Сущность изобретения заключается в том, что согласно изобретению выделяют соседние кадры полутоновых изображений последовательности изображений, удаляют постоянную составляющую яркости изображения выделенных кадров, выполняют двойное пространственное горизонтальное дифференцирование, производят корреляционную обработку изображения с эталоном, рассчитывают порог, сравнивают результаты корреляционной обработки с порогом и при условии обнаружения текстовых форм определяют их параметры.

Удаление постоянной составляющей позволит сузить динамический диапазон яркости изображения, что позволит более качественно выделять перепады яркости, данную операцию можно осуществить, например, при помощи программных средств, программно-аппаратных средств, либо их комбинации.

Двойное пространственное горизонтальное дифференцирование, данная операция позволяет определить области, содержащие большое число резких перепадов яркости на ограниченном участке, в большинстве случаев области, содержащие текстовую форму, имеют ярко выраженный горизонтальный перепад яркости между буквами и фоновым рисунком.

Данная операция реализуется за счет вычитания двух соседних изображений сдвинутых относительно друг друга на один столбец и затем повторного вычитания двух преобразованных таким способом кадров.

Данную операцию можно осуществить, например, при помощи программных средств, программно-аппаратных средств.

Переходят к абсолютным значениям яркости, это обусловлено тем, что физически значения яркости могут принимать только положительные значения, а после проведения операции вычитания соседних изображений граница текстовой формы будет описываться, как положительными, так и отрицательными скачками яркости. Переход к абсолютным значениям яркости позволяет при дальнейшей обработке избежать потери части сигнала за счет суммирования с противоположным знаком составляющих, описывающих границы текстовой формы при помощи положительных и отрицательных скачков.

Переход к абсолютным значениям возможно осуществить например, при помощи инвертирующего усилителя для отрицательных значений сигнала, либо программно.

Формируют достаточную статистику, для чего осуществляют корреляционную обработку с эталоном. Если эталон будет точно соответствовать изображению строки текста, то достаточная статистика будет обеспечивать максимум отношения текст/фон [А.В. Коренной, Юдаков Д.С. Обнаружение и локализация текстовых форм на изображениях // Радиотехника №12, 2015 г. стр. 162-168].

Реализовать коррелятор возможно например, при помощи устройства умножения, линий задержки и интегратора, либо программно.

Рассчитывают порог обнаружения, на основе критерия Неймана-Пирсона при учете статистических характеристик достаточной статистики. В качестве фона рассматривается весь кадр изображения, принимая во внимание, что текст занимает относительно малую площадь и на статистические характеристики распределения яркости во всем кадре значения не оказывает А.В. Коренной, Юдаков Д.С. Обнаружение и локализация текстовых форм на изображениях // Радиотехника №12, 2015 г. стр. 162-168]. Порог определяется по табличным значениям плотности распределения вероятности с учетом заданной вероятности ложной тревоги.

На фигуре 1 приведена гистограмма достаточной статистики всего изображения и участка изображения, соответствующего автомобильному номеру (сплошная линия).

Производят процедуру обнаружения путем сравнения результатов корреляционной обработки с порогом, результатом обнаружения текстовой формы будет являться бинарное изображение.

Производят операцию определения параметров обнаруженных текстовых форм. К полученному бинарному изображению, применяется морфологическая операция наращивания для удаления разрывов обнаруженных областей (Гонсалес Р., Вудс Р. Цифровая обработка изображений / Р. Гонсалес, Р. Вудс. - М.: Техносфера, 2005. - 1072 с.). После проведения данной операции производится определение параметров обнаруженных текстовых форм (координаты, длина, ширина и т.д.) на основе алгоритма поиска связных контуров. Каждый обнаруженный блок текста нумеруется и подсчитывается количество пикселей, входящих в данный блок (площадь), а также вычисляются его координаты (координаты верхней левой точки) и геометрические размеры (длина и ширина).

На фигуре 2 представлены результаты работы предложенного способа. Результат обнаружения текстовой формы, определения ее местоположения и размеров отображаются на исходном изображении в виде рамки соответствующего размера с номером в верхнем левом углу.

Способ может быть реализован, например, с помощью устройства, структурная схема которого приведена на фигуре 3, где обозначено: 1 - оптический датчик; 2 - аналого-цифровой преобразователь; 3 - блок удаления постоянной составляющей, предназначен для удаления постоянной составляющей яркости кадра; 4 - блок пространственного дифференцирования, предназначен для вычисления второй пространственной производной яркости кадра изображения; 5 - коррелятор предназначен для вычисления достаточной статистики изображения; 6 - блок эталонов, предназначен для хранения эталонов, может быть реализован на запоминающем устройстве; 7 - пороговое устройство, предназначено для обнаружения областей изображения содержащих текст; 8 - блок формирования порога, предназначен для формирования порога обнаружения; 9 - блок вторичной обработки, предназначен для вычисления параметров обнаруженных текстовых форм, может быть реализован программно на программируемом спецпроцессоре.

Устройство работает следующим образом: сигнал изображения, поступает в приемник оптического сигнала. С выхода приемника оптического сигнала изображение поступает на вход АЦП, на выходе АЦП получается оцифрованное изображение, далее с выхода АПЦ изображение поступает в блок удаления постоянной составляющей, где происходит вычисление постоянной составляющей яркости поступившего на вход изображения и вычитание из значений яркости каждого пикселя, с выхода БУП сигнал поступает на вход блока пространственного дифференцирования в котором производится вычисление вторых горизонтальных дискретных разностей для каждого кадра, с выхода БПД сигнал поступает на вход блока коррелятора, на второй вход коррелятора подается сигнал соответствующий эталону, с выхода коррелятора сигнал поступает в пороговое устройство, на второй вход которого подается сигнал соответствующий выбранному порогу, порог формируется в блоке формирования порога, на выходе порогового устройства получаем бинарное изображение, где значения пикселей превысивших порог задаются белым цветом, а не превысившие порог черным, с выхода порогового устройства сигнал поступает в блок вторичной обработки, где вычисляются параметры текстовых форм.

Таким образом, техническим результатом заявленного изобретения является повышение скорости обнаружение текстовых форм на изображении и увеличении вероятности правильного обнаружения за счет учета статистических характеристик текста.

Этот способ полезен при решения задач поиска текстовой информации на изображениях содержащих пестрый фоновый рисунок.

Способ обнаружения и локализации текстовых форм на изображениях, включающий формирование последовательности изображений, преобразование их к полутоновому представлению и обнаружение текстовых форм, отличающийся тем, что согласно изобретению выделяют соседние кадры полутоновых изображений, считывая значения яркости пикселей с оптического датчика путем фиксации времени накопления между соседними кадрами для оптического датчика, при помощи аналого-цифрового преобразователя значения яркости каждого пикселя каждого из цветовых каналов изображения преобразуются в цифровую форму, преобразуют значения яркостных каналов в полутона программно при помощи вычислительного устройства путем сложения оцифрованных значений яркости каждого канала цвета для каждого пикселя умноженных на соответствующий коэффициент, удаляют постоянную составляющую яркости изображения выделенных кадров путем вычисления среднего значения яркости оцифрованных пикселей в кадре, складывая значения яркости всех пикселей кадра и деля на их количество на основе программы, выполняемой в вычислительном устройстве, вычитают среднее значение яркости из значений яркости каждого пикселя на основе программы, выполняемой в вычислительном устройстве, выполняют двойное пространственное горизонтальное дифференцирование путем двукратного последовательного вычитания в вычислительном устройстве друг из друга значений яркости пикселей соседних строк, производят построчную корреляционную обработку изображения с эталоном, рассчитывают порог по табличным значениям, в пороговом блоке формируют постоянное значение, соответствующее уровню рассчитанного порога, сравнивают значения для пикселей изображения, полученные на выходе коррелятора со значением порога, при условии превышения порога считается, что пиксель принадлежит текстовой форме, при условии обнаружения текстовых форм определяют их параметры.



 

Похожие патенты:

Изобретение относится к вычислительной технике. Технический результат – повышение эффективности и качества обработки изображений в последовательности изображений в реальном масштабе времени.

Изобретение относится к области сравнения цифровых изображений. Технический результат – повышение оперативности сравнения пар цифровых изображений наблюдаемых сцен.

Группа изобретений относится к технологиям автоматической регулировки экспозиции камеры для биометрической идентификации пользователя на вычислительном устройстве.

Изобретение относится к области обмена данными изображения. Технический результат – обеспечение улучшенного обмена данными изображения на основе нелинейности восприятия между устройствами с разными возможностями отображения.

Изобретение относится к области бинаризации изображений. Технический результат - повышение вероятности обнаружения малоразмерных объектов слежения при наличии на изображении других более крупных объектов с очень высокой или низкой яркостью.

Изобретение относится к области обработки изображений и видео. Технический результат – повышение разрешения и уровня детализации изображений и видео.

Изобретение относится к области компьютерных технологий. Технический результат – повышение точности при рекомендации облачной карты контактному субъекту.

Изобретение относится к области цифровой обработки изображений и видео. Технический результат – улучшение качества изображения и видео без потери данных изображений.

Изобретение относится к области цифровой обработки изображений. Технический результат – обеспечение обнаружения и оценка толщины прямолинейных протяженных объектов на изображении.

Изобретение относится к области обработки изображений. Технический результат – определение реального расстояния на основе изображения без сравнения с эталонным объектом, имеющимся в изображении.

В настоящем документе представлены системы и способы для получения изображения, по меньшей мере, части документа и определения множества точек деления, делящих изображение на потенциальные сегменты; создания графа линейного деления (ГЛД), содержащего множество вершин с использованием множества точек деления и множества ребер, соединяющих множество вершин; идентификации пути ГЛД, имеющего значение метрики качества выше порогового значения, где путь выбирается из множества путей ГЛД и содержит одно или более ребер, а значение метрики качества выводится с использованием нейронной сети, классифицирующей каждый из множества пикселей изображения; а также создания одного или более блоков изображения, где каждый из одного или более блоков соответствует ребру идентифицированного пути и представляет часть изображения, связанного с типом объекта.

Раскрыты способ и устройство автономной аутентификации личности. Технический результат заключается в том, что предшествующий уровень техники полагается на базу данных человеческих лиц, предоставляемую Министерством общественной безопасности, и что трудно идентифицировать трехстороннюю согласованность воплощения из микросхемы, воплощения с поверхности документа и изображения предъявителя документа.

Изобретение относится к автоматическому пропускному модулю (АПМ) автоматизированной системы контроля. АПМ содержит проходной тамбур-шлюз, установленный перед входом в шлюз сканер документов, установленный перед выходом из шлюза устройство идентификации в виде фото/видеокамеры.

Изобретение относится к области вычислительной техники. Технический результат заключается в предоставлении пользователю мобильного устройства пассажирской информации о транспортном средстве выборочно на основании ориентации и/или местоположения мобильного устройства.

Изобретение относится к вычислительной технике. Технический результат – обеспечение точного наблюдения в транспортных системах.

Изобретение относится к способу и устройству для аутентификации личности на основе объединения множества биологических характеристик. Техническим результатом является повышение надежности аутентификации личности.

Предлагаемое изобретение относится к средствам цифровой обработки изображений. Техническим результатом является повышение качества сегментации изображений.
Изобретение относится к способам распознавания и подсчета объектов. Технический результат заключается в ранней диагностике определения заболеваний.

Изобретение относится к механизму идентификации текстового поля. Технический результат заключается в расширении арсенала средств для идентификации текстовых полей.

Изобретение относится к области получения цифровых изображений. Технический результат – обеспечение коррекции изображений при обработке видео с расширенным динамическим диапазоном.

Изобретение относится к способу персонализированного поиска на основе признаков изображения продукта. Технический результат заключается в повышении релевантности персонализированного поиска. Способ включает извлечение с применением модели нейронной сети вектора абстрактных семантических признаков изображения по категории, вычисление среднего значения и дисперсии вектора абстрактных семантических признаков соответственно для каждого измерения и выполнение процесса нормирования в каждом измерении на векторе абстрактных семантических признаков, вычисление веса поведения пользователя при просмотре, при этом складывают нормированные векторы абстрактных семантических признаков, извлеченные по категории из всех изображений, просмотренных пользователем, с получением весового вектора заинтересованности пользователя для каждой категории, нахождение скалярного произведения на векторах признаков изображений, не просмотренных пользователем для категории, с получением балльной оценки каждого из изображений, не просмотренных пользователем, ранжирование изображения согласно полученным балльным оценкам, выбор предопределенного количества изображений с наивысшими балльными оценками для хранения, персонализированный поиск на основе результата ранжирования этапа ранжирования. 2 н. и 8 з.п. ф-лы, 2 ил.
Наверх