Способ анализа изображения, в частности, для мобильного устройства

Изобретение относится к способу анализа изображения, в частности, для мобильного устройства со встроенной цифровой камерой для автоматического оптического распознавания символов. Техническим результатом является повышение надежности и скорости распознавания символов, требующее малой вычислительной мощности. Способ анализа графических данных, состоящих из массива отдельных пикселей, причем каждый пиксель имеет изменяющееся во времени значение пикселя, несущее информацию о цвете или яркости пикселя, включает этапы, на которых получают значение приоритета для каждого пикселя массива посредством задания используемого пикселя в качестве базового пикселя и расчета разности значений пикселей на основании текущего значения базового пикселя по отношению к текущим значениям предварительно заданной группы соседних пикселей; объединяют в одну группу пиксели, использованные для расчета значения приоритета пикселей; сортируют группы пикселей на основании значения приоритета соответствующего базового пикселя и сохраняют в массиве приоритетов; сохраняют и/или передают группы пикселей в соответствии с их приоритетами в массив приоритетов, причем для оптимизации вычислительной мощности для формирования списков используют только часть групп пикселей, отличающийся тем, что в значение приоритета добавляют позиционный фактор, который тем больше, чем ближе расположена группа пикселей к заранее заданному в зависимости от языка начальному пикселю. 18 з.п. ф-лы.

 

Изобретение относится к способу анализа изображения, в частности, для мобильного устройства со встроенной цифровой камерой для автоматического оптического распознавания символов (OCR) согласно ограничительной части п.п.1 или 2 формулы изобретения.

Существует множество OCR-устройств для ПК. Как правило, для считывания текста используют планшетный сканер. Существуют ручные сканеры для мобильного применения, которые отображают отсканированный текст на дисплее, сохраняют его или передают на компьютер. Проблемы возникают каждый раз, когда оригинал отсканирован криво или различимы буквы только отдельных фрагментов (например, флаг с надписями на ветру). Кроме того, такие технологии оказываются несостоятельными, когда непосредственно сканирование невозможно осуществить (например, в случае указателей на обочине дороги). Согласно современному уровню техники такое изображение может быть снято с большим разрешением и затем отсканировано. Однако оптическое распознавание символов непосредственно в камере не осуществляется, так как при традиционных способах это требует слишком большой вычислительной мощности.

Если необходимо распознать более длинные тексты, часто требуется снять несколько изображений и затем объединить их (составить 360°-снимки). Чтобы обеспечить необходимое качество, процесс, как правило, требует ручной доработки.

Важнейшие способы оптического распознавания символов основаны на простом сопоставлении с образцом (pattern-matching) или, как при распознавании рукописного текста, с помощью описания букв посредством линий и точек пересечения. Сопоставление с образцом особенно успешно применяется тогда, когда речь идет о нормированных символах (например, обозначении транспортного средства). При распознавании номеров распознаваемые символы ограничены небольшим количеством и к тому же нормированы.

Кроме того, известны различные приложения из области дополненной реальности. В качестве примера можно привести наложение снимка (фото, сделанного со спутника) на дорожную карту, на которой показаны названия отдельных улиц (www.clicktel.de).

Уровень техники представлен способом для групп пикселей с приоритетами из патента DE 10113880 В4 или эквивалентного патента ЕР 1371229 В1, который имеет признаки согласно ограничительной части п.2 формулы изобретения.

В DE 10025017 А1 описан мобильный телефон, предназначенный для простых приложений и использования дополнительных служб и функций, таких как, например, служба коротких сообщений, платежные операции, проверка подлинности и безопасности и т.п. Данный мобильный телефон имеет встроенное устройство считывания символов, знаков, кодов и/или признаков для идентификации, которым являются сканер, устройство для считывания штрихового кода или считыватель отпечатков пальцев в виде ПЗС-сенсора. При этом возможен удобный и быстрый ввод и регистрация текста, символов или признаков, связанных с безопасностью.

В DE 202005018376 U1 описан мобильный телефон с клавиатурой, дисплеем, системой обработки данных и расположенным позади отверстия или окна корпуса оптическим развертывающим устройством, в частности, ручным сканером, а также с встроенной программой перевода. С помощью оптической системы развертки можно сканировать символы и/или слова на другом языке. С помощью выбора языка осуществляют перевод слова или слов. Благодаря этому пользователь мобильного телефона может понимать слова и тексты на иностранном языке. Предпочтительно это могут быть меню, предупреждающие указатели, инструкции и географические карты, а также вывески. Кроме того, пользователь может с помощью клавиатуры мобильного телефона самостоятельно вводить или выбирать слова из хранящейся в памяти системы обработки данных энциклопедии. Путем соединения системы обработки данных с дисплеем и клавиатурой с помощью выбора языка эти слова переводятся и отображаются на дисплее.

В DE 10163688 А1 описаны способ и устройство отслеживания товаров, снабженных оптически читаемой алфавитно-цифровой маркировкой, а также регистрирующее устройство для этих целей. Маркировка регистрируется регистрирующим устройством как изображение и преобразуется в графические данные. С помощью радиосвязи они передаются регистрирующим устройством на приемник, который соединен с компьютерным устройством, осуществляющим дальнейшую обработку графических данных. Альтернативно перед передачей на приемник графические данные обрабатываются регистрирующим устройством. Конкретный процесс обработки графических данных подробно не раскрывается.

В DE 102005033001 А1 описан способ обработки изображений в мобильных оконечных устройствах, например, мобильных телефонах с камерой, которая записывает цифровую графическую информацию и с помощью способов распознавания образа, например, оптического распознавания символов (OCR), анализирует часть этой графической информации. Конкретный способ оптического распознавания символов (OCR) в данной публикации не описывается.

Поэтому задачей настоящего изобретения является предложение существенно более точного и быстрого типового способа обработки изображений в мобильных оконечных устройствах с цифровой камерой.

Изобретение характеризуется признаками независимых пунктов 1 или 2 формулы изобретения.

Предпочтительные усовершенствованные варианты осуществления изобретения являются предметом зависимых пунктов формулы изобретения.

Преимуществом изобретения является более надежная OCR-регистрация с факультативным переводом в режиме реального времени, требующая значительно меньшей вычислительной мощности. Надежность, в частности, относится к тому, что распознавание осуществляется лучше, чем в традиционных системах даже при неблагоприятных условиях (в частности, в условиях освещения, наложении помех).

Это достигается, с одной стороны, за счет того, что сначала выполняется самонастраивающаяся оптимизированная по группам пикселей предварительная обработка, в ходе которой в изображении осуществляется поиск штрихов. Существенный отличительный признак по сравнению с известными способами состоит в том, что дальнейшее прямое сопоставление с образцом не выполняется, а осуществляется попытка наиболее оптимально скопировать штрихи. На основании этой последовательности перемещений делается вывод о соответствующем символе. Так как данную последовательность перемещений можно легко масштабировать и несложно описать, такая технология пригодна как раз для мобильного применения. Последовательность перемещений известных символов сохранена в ключевом слове, таким образом, на основании перемещений можно сделать непосредственный вывод о символе. Дополнительно может использоваться словарь или лексикон. Когда слова распознаны на основе словаря или лексикона, распознанные буквы могут использоваться для оптимизации распознавания текста.

Возможным применением могут быть мобильные телефоны с камерой для иностранных туристов для чтения дорожных знаков, меню, указателей общего назначения. При этом содержание может быть сразу переведено на второй язык. Для пользователя перевод отображается на дисплее или прочитывается вслух с помощью приложений преобразования текста в речь.

Надежность распознавания основывается, прежде всего, на нормировании толщины штрихов или размеров букв. После этого буквы копируются, причем в ходе копирования сами буквы распознаются. Надежность способа распознавания реализуется путем выполнения комбинации различных этапов решения. Благодаря нормированию толщины штрихов теневые эффекты и плохое освещение почти не влияют на скорость распознавания. С помощью нормирования размеров можно, например, компенсировать эффекты, возникающие на удаленных вывесках. Посредством копирования с помощью простых нетрудоемких и расширяемых деревьев решений можно верно определить букву или цифру. Чтобы сделать результаты еще надежнее, дополнительно может применяться словарь. Обратный контроль на основании распознанных слов позволяет соответствующим образом оптимизировать деревья решений и толщину штрихов оригинала.

Для решения задачи выполняют следующие этапы.

Сначала с помощью элемента записи изображения, например ПЗС-камеры, изображение преобразуют в электрические сигналы. Затем эти сигналы в соответствии со способом из патента DE 10113880 В4 сохраняют в массиве с приоритетами. Факультативно при назначении приоритетов может использоваться позиционный фактор. Позиционный фактор тем больше, чем ближе к начальному пикселю находится группа пикселей.

Для западных языков (английского, немецкого, французского) начальный пиксель исходно расположен в левом верхнем углу массива.

В отличие от патента DE 10113880 В4, в котором работают с заранее заданной формой группы пикселей, здесь группы пикселей могут изменяться в ходе распознавания. Примером группы пикселей является горизонтально расположенная строка пикселей, длина которой зависит от двукратного изменения яркости. Тогда при распознавании темных букв на светлом фоне расстояние между первым переходом «свет-тень» и следующим переходом «тень-свет» являлось бы величиной заданной толщины штриха. Группы пикселей, для которых толщина штриха считается одинаковой, объединяются в отдельный список. Чтобы повысить надежность способа в отношении ошибок для пикселей, дополнительно может применяться фильтр нижних частот. В случае использования такого фильтра, чтобы определить соответствующий переход «свет-тень» или «тень-свет», каждый раз берется сумма n соседних пикселей. С помощью формирования сумм в значительной мере устраняются возможные ошибки пикселей или ошибки вследствие сильных помех.

Для распознавания буквы сходные группы пикселей объединяются в соответствующем отдельном списке. Каждый полученный таким образом список сортируют так, что группы пикселей, расположенные ниже на оси Y, сортируются по убыванию. Если несколько сходных групп пикселей расположено на одном уровне по оси Y, для них формируются новые списки. Затем из этих списков выводятся соответствующие вектора. При этом из соответствующих списков выбираются группы пикселей с самым малым и самым большим значением Y. Затем между этими положениями групп пикселей рассчитывается линия. После этого определяют отклонения других групп пикселей от этой линии. Если все отклонения лежат ниже определенного порогового значения, то для этого списка находится описательный вектор. Если отклонения лежат выше порогового значения, список делят и пытаются сгенерировать для каждой части списка соответствующие вектора. При этом целесообразно разделить список там, где имеются наибольшие отклонения от рассчитанной линии. Таким образом получают множество векторов. Соприкасающиеся вектора объединяются в дополнительном векторном списке и значения Y сортируются соответствующим образом.

Такой векторный список описывает соответствующие буквы. Векторный список затем нормируется (например, по максимальной разнице Y). Такой нормированный векторный список может затем проходить по дереву решений, в котором сохранены различные буквы. При таком подходе сначала распознается только часть букв. Однако таким образом получают первичную информацию о распознаваемом тексте. В случае больших шрифтов каждый раз получают двойные буквы. Это объясняется тем, что в соответствии с толщиной линии буквы как переход «свет-тень», так и «тень-свет» интерпретируются как отдельная буква соответственно. При этом исходят из того, что расстояние между этими двойными буквами является более или менее постоянным. Это обстоятельство можно использовать для того, чтобы оптимизировать форму используемых групп пикселей в соответствии с толщиной линии. Так, ширину используемой группы пикселей нужно выбирать таким образом, чтобы она была в три раза шире толщины линии. Оптимальная высота группы пикселей зависит от высоты шрифта. С помощью таким образом оптимизированных групп пикселей изображение сканируется далее. За счет укрупнения групп пикселей благодаря меньшему количеству необходимых внутренних списков осуществляется более быстрая обработка, к тому же дающая более точный результат. Дополнительная оптимизация заключается в оптимизации деревьев результатов. Так как тип шрифта в тексте, как правило, не меняется, для каждого текста с таким типом шрифта существуют деревья результатов. Исходя из наличия 26 букв, с учетом заглавных и строчных букв получается 52 различных символа. Исходя из бинарного дерева, состоящего из 128 знаков, для определения буквы достаточно 7 ветвлений (2 в степени 7).

В случае машинного шрифта весь процесс распознавания текста можно дополнительно оптимизировать, сохраняя уже распознанные буквы или даже слоги в качестве образцов групп пикселей. Параллельно с помощью вышеописанного способа с помощью образца групп пикселей можно, например, легко распознавать гласные, так как они могут достигать очень большого значения групп пикселей.

В качестве дополнительной возможности ошибки распознавания частично могут распознаваться и корректироваться с помощью словарей. Вывод распознанных символов может осуществляться как на дисплей, так и с помощью приложений преобразования текста в речь.

Описан оптимизированный способ, с помощью которого из изображений на основе пикселей строят вектора, причем каждый отдельный пиксель (в одной строке группы пикселей) требуется пройти только один раз. В известных на сегодня способах оптического распознавания символов для повышения скорости распознавания, как правило, предварительно осуществляют оптимизацию контура и только затем приступают к распознаванию. В вышеописанном способе это осуществляется на одном этапе, снижая потребность в вычислительной мощности и повышая надежность.

1. Способ анализа графических данных, состоящих из массива отдельных пикселей, причем каждый пиксель имеет изменяющееся во времени значение пикселя, несущее информацию о цвете или яркости пикселя, включающий этапы, на которых:
a) получают значение приоритета для каждого пикселя массива посредством задания используемого пикселя в качестве базового пикселя и расчета разности значений пикселей на основании текущего значения базового пикселя по отношению к текущим значениям предварительно заданной группы соседних пикселей;
b) объединяют в одну группу пиксели, использованные для расчета значения приоритета пикселей;
c) сортируют группы пикселей на основании значения приоритета соответствующего базового пикселя и сохраняют в массиве приоритетов;
d) сохраняют и/или передают группы пикселей в соответствии с их приоритетами в массив приоритетов, причем для оптимизации вычислительной мощности для формирования списков используют только часть групп пикселей,
отличающийся тем, что в значение приоритета добавляют позиционный фактор, который тем больше, чем ближе расположена группа пикселей к заранее заданному в зависимости от языка начальному пикселю.

2. Способ по п.1, отличающийся тем, что разность значений пикселей получают из разности значения рассматриваемого пикселя и значения нескольких рассматриваемых соседних пикселей группы.

3. Способ по п.1, отличающийся тем, что на основании разности значений пикселей делают вывод о толщине штриха.

4. Способ по п.1, отличающийся тем, что списки формируют из сходных групп пикселей.

5. Способ по п.1, отличающийся тем, что после этапов а)-d) выполняют этапы, на которых:
сначала выполняют предварительную обработку самонастраивающуюся и оптимизированную по группам пикселей, в ходе которой в изображении ищут штрихи, затем пытаются наиболее оптимальным образом скопировать эти штрихи, затем на основании последовательности перемещений делают вывод о соответствующем символе с помощью сохраненных ключевых слов/поисковых деревьев.

6. Способ по п.1, отличающийся тем, что после этапов а)-d) выполняют этапы, на которых:
сходные группы пикселей объединяют в отдельном списке и каждый полученный таким образом список сортируют так, что группы пикселей, расположенные более низко по оси Y, сортируют по убыванию, при этом если несколько сходных групп пикселей располагаются в одинаковом положении по оси Y, для них формируют новые списки, причем из этих списков выводят вектора и находят группы пикселей с самым малым и самым большим значением Y, между этими положениями групп пикселей рассчитывают линию и определяют отклонение других групп пикселей от этой линии.

7. Способ по п.6, отличающийся тем, что, если все отклонения лежат ниже определенного порогового значения, для этого списка находят описательный вектор, а если все отклонения лежат выше порогового значения, список делят и пытаются сгенерировать соответствующие вектора для каждой части списка.

8. Способ по п.7, отличающийся тем, что список делят там, где имеются наибольшие отклонения от рассчитанной линии.

9. Способ по п.8, отличающийся тем, что затем нормируют векторные списки, например, по максимальной разности по оси Y.

10. Способ по п.9, отличающийся тем, что с помощью нормированных списков векторов просматривают дерево решений, в котором сохранены различные буквы.

11. Способ по п.10, отличающийся тем, что соприкасающиеся вектора объединяют в дополнительный список векторов и соответственно сортируют значения Y.

12. Способ по п.11, отличающийся тем, что ширину используемой группы пикселей выбирают таким образом, чтобы она была в три раза больше толщины линий, а оптимальная высота группы пикселей зависит от высоты шрифта.

13. Способ по п.12, отличающийся тем, что далее сканируют изображение с помощью таким образом оптимизированных групп пикселей.

14. Способ по п.13, отличающийся тем, что для каждого текста с данным типом шрифта генерируют оптимизированные деревья результатов.

15. Способ по п.14, отличающийся тем, что для машинного шрифта уже распознанные буквы или слоги сохраняют в качестве образцов групп пикселей.

16. Способ по п.15, отличающийся тем, что используют словарь/лексикон, с помощью которых распознанные буквы используют для оптимизации распознавания текста.

17. Способ по п.16, отличающийся тем, что распознанные слова переводят на выбранный язык и выдают оптическим или акустическим способом.

18. Способ по п.17, отличающийся тем, что с помощью обратного контроля на основании распознанных слов оптимизируют соответствующим образом деревья решений и толщину штрихов оригинала.

19. Способ по п.1, отличающийся тем, что выполняют непрерывное определение и выдачу отсортированных по приоритету групп пикселей с помощью используемого устройства съемки изображений, в частности интегрированного в мобильном телефоне сканера или ПЗС-камеры.



 

Похожие патенты:

Изобретение относится к области исследования и анализа папиллярных узоров и может быть использовано в медицине, криминалистике, дерматоглифике при анализе и распознавании папиллярных узоров.

Изобретение относится к системе предоставления данных о доставке грузов в место назначения, в частности к системе предоставления данных, которая предоставляет данные изображения места на маршруте следования грузов с прикрепленными к ним двумерными кодами.

Изобретение относится к вычислительной технике. .

Изобретение относится к вычислительной технике и может быть использовано для построения векторного описания элементов городской застройки по аэрокосмическим изображениям земной поверхности при создании электронных карт для геоинформационных систем.

Изобретение относится к системе и способу для обнаружения рукописных объектов в рукописном вводе чернилами. .

Изобретение относится к биометрическим системам и способам распознавания людей по чертам лица и, в частности, к системам и способам регистрации биометрических данных лиц.

Изобретение относится к области биометрического контроля и идентификации. .

Изобретение относится к генерации и использованию файлов, содержащих смешанный растр. .

Изобретение относится к вычислительной технике и может быть использовано для повышения четкости изображения, поступающего с видеодатчика, при движении видеодатчика или нахождении в кадре движущихся объектов.

Изобретение относится к способам для анализа кожи и, в частности, для цифрового формирования изображений и идентификации и анализа конкретных, представляющих интерес лицевых областей

Изобретение относится к области распознавания объектов, а именно к идентификации личности по характерным параметрам кисти руки человека, и может использоваться в системах автоматического допуска и контроля к какому-либо объекту с ограниченным доступом

Изобретение относится к области электросвязи и может быть использовано для проверки подлинности электронных изображений

Изобретение относится к технологии обработки изображений, в частности к обнаружению лиц независимо от ориентации

Изобретение относится к оптическому приборостроению и может быть использовано для обнаружения посторонних объектов в заданной зоне пространства

Изобретение относится к распознаванию образов, в котором принятое изображение отслеживается для выявления того, появляется ли в изображении узнаваемый образ

Изобретение относится к области цифровой обработки изображений и может найти применение в системах активной безопасности автомобилей для выработки дополнительных сигналов предупреждения водителю

Изобретение относится к способу обработки изображений, в частности, к определению линии поверхности земли, т.е

Изобретение относится к области анализа изображений и может быть использовано для определения ориентации объектов по их изображениям

Изобретение относится к вычислительной технике. Технический результат заключается в повышении эффективности кодирования. Способ локальной коррекции изменения яркости и контрастности опорного кадра для кодирования многоракурсной видеопоследовательности, в котором: получают значения пикселей текущего кодируемого блока, принадлежащего кодируемому кадру, и значения пикселей опорного блока, принадлежащего опорному кадру; получают восстановленные значения пикселей, соседних по отношению к текущему блоку кодируемого кадра, и значения пикселей, соседних по отношению к опорному блоку опорного кадра; определяют числовые соотношения между значениями пикселей опорного блока и значениями пикселей, соседних по отношению к опорному блоку, и соотношения между восстановленными значениями пикселей, соседних по отношению к текущему кодируемому блоку, и значениями пикселей, соседних по отношению к опорному блоку; на основе найденных на предыдущем шаге числовых соотношений определяют параметры коррекции яркости и контрастности для коррекции различия в яркости и контрастности для опорного блока в сравнении с текущим кодируемым блоком; выполняют коррекцию различия в яркости и контрастности для опорного блока, используя найденные параметры коррекции. 3 н. и 10 з.п. ф-лы, 10 ил.
Наверх