Способ распознавания текстовой информации из векторно-растрового изображения

Авторы патента:

G06K9/36 - предварительная обработка изображения, т.е. обработка информации изображения без установления его идентичности (обработка или генерация данных изображения вообще G06T)

Владельцы патента RU 2309456:

"Аби Софтвер Лтд." (CY)

Изобретение относится к области техники предварительной обработки векторно-растрового изображения графического файла, содержащего изображение текста. Технический результат изобретения заключается в повышении надежности выявления текстовых, растровых и векторных объектов, получении информации о форматировании документа и ускорении процесса обработки. Достигается технический результат за счет того, что обработка текстовых объектов включает разбивку на отдельные символы и группы символов по предполагаемым местам размещения пробелов или других неиндицируемых символов и анализ и объединение групп символов в слова, обработка векторных объектов включает выявление разделителей, фона, обработка растровых объектов включает анализ на наличие изображения текста в нетекстовых объектах, и/или анализ на наличие векторных объектов, отличных от разделителей, в том числе выходящих за пределы объекта, причем дополнительно возможно проведение анализа корректности кодировки, и в случае необходимости исправление, для чего анализируют отдельные символы на принадлежность к заданному алфавиту, а слова текста - на принадлежность к заданному словарю. 2 з.п. ф-лы.

Предлагаемое техническое решение относится к распознаванию образов и, в частности, к предварительной обработке представления документа в электронном виде, выполняемой перед операциями по распознаванию текста (или вместо распознавания).

Предлагаемое техническое решение позволяет выявить информацию о содержании и форматировании из векторно-растрового изображения документа в электронном виде, например, файла в формате PDF достаточную, чтобы затем восстановить документ в исходном или близком к исходному виде в любом известном формате, допускающем редактирование.

Из уровня техники известен способ извлечения текстовой информации из электронного файла в векторно-растровом формате. Этот способ использует компания-производитель инструментария для получения документов в векторно-растровом формате (в формате PDF). "Acrobat and PDF Library API Reference", January 7, 2005, Adobe Solutions Network, 3603 р.

Недостатком известного способа является его приспособленность для извлечения только текстовой информации без сохранения информации о форматировании (о внешнем оформлении документа).

Описанный способ выбран как прототип.

Технический результат состоит в расширении возможностей по распознаванию документа из электронного файла в векторно-растровом формате, повышении надежности выявления текстовых, растровых и векторных объектов, получении (извлечении) информации о форматировании документа (форматной информации), ускорении процесса обработки.

Известный способ не позволяет достичь заявленного технического результата.

Заявленный технический результат достигают последовательным выполнением разбивки изображения до получения областей, содержащих неразрывный логически связанный текст наибольшего размера, обработки текстовых объектов, обработки растровых объектов, обработки векторных объектов, удаления избыточной и излишней информации, дополнительной обработкой объектов, не относящихся к текстовым, растровым, векторным, как растровые, дополнительного анализа каждого объекта с учетом всей имеющейся информации по результатам обработки других объектов.

Ускорение обработки достигают в том числе благодаря исключению или сокращению части обычно выполняемых операций.

Например, во многих случаях частично или полностью отпадает необходимость распознавать растровый текст.

Сущность способа предварительной обработки текстовой информации по информации векторно-растрового изображения в электронном виде состоит в следующем.

В порядке предварительной (перед распознаванием символов) обработки выполняют следующие операции, используя атрибуты форматирования файла, имеющиеся в файле векторно-растрового изображения.

Выполняют разбивку изображения до получения областей, содержащих неразрывный логически связанный текст наибольшего размера. Для этого разбивают изображение на области, предположительно содержащие текст, и затем анализируют соседние области на возможность объединения в более крупные.

Обрабатывают текстовые объекты. Обработка текстовых объектов включает, по крайней мере, разбивку на отдельные символы и группы символов по предполагаемым местам размещения пробелов или других неиндицируемых символов, анализ и составление (объединение, сборка) групп символов в строки. Разбивка на отдельные символы и группы символов включает, по крайней мере, преобразование абсолютных координат символов в группы, разделенные пробелами и увеличенными межсимвольными промежутками.

Анализ и составление (сборка) групп символов в строки включает, по крайней мере, следующие действия:

а) определение ориентации текста,

б) выявление текста, написанного в положении верхнего индекса,

в) выявление текста, написанного в положении нижнего индекса,

г) выявление текста, написанного в виде буквицы.

После сборки строк делят строку на слова, по пробелам там, где они есть, и анализируя интервалы между символами там, где пробелов нет.

Обрабатывают векторные объекты. Обработка векторных объектов включает, по крайней мере, идентификацию (выявление) разделителей, фона, подложек в блоке.

Обрабатывают растровые объекты. Обработка растровых объектов включает, по крайней мере, анализ на наличие изображения текста в нетекстовых объектах, анализ на наличие векторных объектов, отличных от разделителей, в том числе выходящих за пределы объекта.

Удаляют избыточную и излишнюю информацию. К удаляемой избыточной и излишней информации относят, по крайней мере, информацию для оттенения символов и информацию об излишних атрибутах, некоторую другую, в зависимости от особенностей документа.

Объекты, не относящиеся к текстовым, растровым, векторным, обрабатывают как растровые.

Каждый объект повторно дополнительно анализируют с учетом всех имеющихся результатов обработки других объектов. Если по полученным результатам первичной обработки объекта появилась информация, способная повлиять на другие объекты, проводят повторный анализ этих других объектов.

После разбиения на строки и слова проводят анализ корректности кодировки символов, при необходимости исправляют. Для определения корректности кодировки анализируют текст на принадлежность букв к алфавиту и слов текста к словарю, с учетом заданного языка.

Если не удается получить текст другими известными способами, текстовый блок направляют на распознавание.

1. Способ предварительной обработки векторно-растрового изображения графического файла, содержащего изображение текста, характеризующийся

наличием текстовых, и/или растровых, и/или векторных объектов,

разбиением изображения на области, предположительно содержащие абзацы, таблицы, строки текста, символы текста, нетекстовые объекты;

отличающийся тем, что выполняют следующие операции, используя атрибуты форматирования файла:

разбивку изображения выполняют до получения областей содержащих неразрывный логически связанный текст наибольшего размера,

обработку текстовых объектов,

обработку растровых объектов,

обработку векторных объектов,

удаление избыточной и излишней информации,

обработка объектов, не относящихся к текстовым, растровым, векторным, как растровых,

анализ каждого объекта с учетом всех имеющихся результатов обработки других объектов;

причем удаляемая избыточная и излишняя информация, включает, по крайней мере, следующие виды:

а) информация для оттенения символов,

б) лишние атрибуты;

причем получение областей содержащих неразрывный логически связанный текст наибольшего размера включает, по крайней мере, следующие этапы:

разбивку изображения на области, предположительно содержащие текст,

анализ соседних областей на возможность объединения в более крупную область;

причем обработка указанных текстовых объектов включает, по крайней мере, следующие этапы:

разбивку на отдельные символы и группы символов по предполагаемым местам размещения пробелов и/или других неиндицируемых символов,

анализ и объединение групп символов в слова;

причем обработка указанных векторных объектов включает, по крайней мере, выявление разделителей, фона;

причем обработка указанных растровых объектов включает, по крайней мере, следующие этапы:

анализ на наличие изображения текста в нетекстовых объектах, и/или

анализ на наличие векторных объектов, отличных от разделителей, в том числе выходящих за пределы объекта.

2. Способ по п.1, отличающийся тем, что дополнительно включает анализ корректности кодировки символов, путем анализа текста на принадлежность букв к алфавиту и слов текста к словарю с учетом заданного языка, и в случае необходимости исправление.

3. Способ по п.1, отличающийся тем, что анализ и составление групп символов в слова, включает, по крайней мере, следующие действия:

а) определение ориентации текста,

б) выявление текста, написанного в положении верхнего индекса,

в) выявление текста, написанного в положении нижнего индекса,

г) выявление текста, написанного в виде буквицы.

Похожие патенты:

Формирователь изображения // 2304807

Изобретение относится к оптическому приборостроению и касается конструкции цифрового формирователя панорамного изображения состыкованием снимков его участков. .

Способ сжатия цифровых изображений и устройство для его реализации // 2295839

Изобретение относится к области обработки цифровых изображений и может быть использовано в системах захвата и сжатия изображений, например, фото-видеокамерах. .

Способ уплотнения и распаковки данных изображения // 2279189

Изобретение относится к способу уплотнения и распаковки данных изображения. .

Способ уплотнения и распаковки видеоданных // 2276470

Изобретение относится к способу уплотнения и распаковки видеоданных. .

Способ и устройство для сегментации фона на основе локализации движения // 2276407

Изобретение относится к системам обнаружения движения технической кибернетики, а именно к системе и способу обнаружения статичного фона в видеопоследовательности изображений с движущимися объектами переднего плана.

Способ преобразования изображений // 2267232

Изобретение относится к области обработки данных дистанционного зондирования для обнаружения и распознавания по изображениям. .

Способ идентификации оптических пломб // 2263963

Изобретение относится к оптическим средствам для идентификации объектов. .

Способ сжатия и восстановления сообщений // 2261532

Изобретение относится к области электросвязи, а именно к методам цифровых вычислений и обработки данных с сокращением избыточности передаваемой информации. .

Способ анализа растрового изображения // 2251151

Изобретение относится к области оптического распознавания текста из растрового изображения. .

Кодирование с помощью нулевого дерева данных элементарной волны // 2246797

Изобретение относится к кодированию с помощью нулевого дерева данных элементарной волны (ЭВ). .

Способ распознавания принадлежности отпечатка пальца живому или неживому человеку // 2309672

Способ интерполяции изображений // 2310911

Изобретение относится к способам обработки цифровых изображений и, в частности, может быть использовано для изменения размеров цифрового изображения

Способ автоматизированного разбиения на группы уровней яркости пикселов растровых изображений по значениям их повторяемости // 2311680

Изобретение относится к распознаванию растровых изображений и предназначено для увеличения эффективности определения пороговых значений яркости пикселов либо характеристик, производных от них для заданных матриц растровых изображений

Внутреннее кодирование, основанное на пространственном прогнозировании // 2314656

Изобретение относится к кодированию изобретений и более конкретно к кодированию блоков видеокадров

Способ детектирования объекта // 2315357

Изобретение относится к области наблюдения за движущимися объектами

Обработка изображений // 2320016

Изобретение относится к способу обработки изображений и, в частности, к способу, который может быть использован для усиления восприятия трехмерной глубины и формы, изображенных на основе двумерных изображений, и производных сред виртуальной реальности (ВР)

Движущийся предмет, способный распознавать изображение, и система наведения движущегося предмета, оснащенная таковым // 2321879

Изобретение относится к системе наведения мобильного робота-уборщика, способного распознавать изображение

Основанное на контексте адаптивное неравномерное кодирование для адаптивных преобразований блоков // 2330325

Изобретение относится к области кодирования и сжатия видеосигнала

Способ адаптивного растрирования полутоновых оригиналов // 2335094

Изобретение относится к полиграфии, издательской и множительной технике, и в частности к системам воспроизведения изображений

Система и способ обработки символов, вставленных в цифровое видео // 2351090

Изобретение относится к системам передачи мультимедийной информации