Способ считывания полного блока данных из формуляров с графическими знаками

Авторы патента:

G06K9/03 - обнаружение и исправление ошибок, например повторное считывание образа

Владельцы патента RU 2249853:

ВЕТШТАЙН Матиас (DE)

Изобретение относится к способам распознавания символов в бланках и формулярах. Его применение позволяет получить технический результат в виде проведения распознавания символов в формулярах при сохранении конфиденциальности содержащейся в них информации. Этот результат достигается благодаря тому, что предложенный способ содержит операции получения изображения формуляра и записи в память видеоданных отдельных полей данных; идентификации графических знаков; определения неидентифицированных полей данных; объединение видеоданных каждого неидентифицированного поля данных со ссылочным значением, присвоенным этому полю данных; передачи обрабатываемого блока данных на периферийную станцию обработки данных; полной идентификации графических знаков неидентифицированного поля данных; объединения блока данных графических знаков со ссылочным значением соответствующего поля данных с образованием обработанного блока данных для передачи; обратной передачи обработанного блока данных; объединения блока данных графических знаков с остальными полями данных того же формуляра. 2 з.п. ф-лы, 1 ил.

Изобретение относится к способу считывания полного блока данных из формуляров с графическими знаками, текстовая часть которых содержит несколько разделенных между собой полей данных, пространственное положение которых внутри текстовой части является единообразным для всех формуляров, при этом способ содержит операции:

a) получения изображения формуляра и записи в память видеоданных отдельных полей данных;

b) идентификации содержащихся в полях данных графических знаков посредством видеоданных этих полей и программы распознавания знаков при условии, что последние идентифицируемы с заданной степенью достоверности;

c) определение неидентифицированных полей данных, т.е. тех полей данных в формуляре, графические знаки которых не могли быть идентифицированы вообще или с заданной степенью достоверности;

d) передачи информации о полях данных на периферийную станцию обработки данных преимущественно по глобальной сети передачи данных;

e) полной идентификации графических знаков неидентифицированного поля данных на основе информации о полях данных на периферийной станции обработки данных;

f) передачи результатов идентификации графических знаков на станции обработки данных для последующего применения.

При обработке документов и, в частности, формуляров часто возникает необходимость в переводе на компьютерный язык рукописных слов или знаков. Для этого соответствующий документ с помощью сканера преобразуют в электронные изображения в форме видеоданных. С помощью соответствующей программы считывания изображений предпринимается попытка перевода этих видеоданных в компьютерные символы с тем, чтобы в конечном итоге определить через компьютерные символы скрытое за написанными словами или знаками содержание. Достоверность при считывании графических знаков зависит в очень большой степени от качества заполнения считываемого документа и качества изображений в нем. Влияющим фактором является, прежде всего, качество заполнения, например качество рукописного или машинописного текста. Кроме того, имеет значение четкость изображения, т.е. разделение между отдельными графическими знаками и, как правило, светлым фоном изображения, качество преобразования серых тонов в черно-белые, а также не в последнюю очередь возможное загрязнение оригинала. Все эти факторы могут сыграть роль в отношении распознавания или нераспознавания знаков программой их распознавания. При этом возрастание количества нераспознанных знаков приводит к неправильному распознаванию. На основе ошибочно распознанного знака интерпретируется бессмысленный знак.

При обширном считывании рукописных формуляров, типичном, например, при обработке медицинских рецептов, в результате неопознанных или ошибочно опознанных графических знаков возникают значительные расходы на дополнительное считывание, т.е. ручное считывание, тех формуляров, которые не были считаны или были считаны неполностью с помощью программы распознавания знаков. Это касается, прежде всего, формуляров, заполненных не сегментированным шрифтом, а рукописным.

Способ с приведенными выше операциями известен из ЕР 0 565 912 А2. Он представляет собой способ корректуры для распознавания заполненных формуляров, причем нераспознанные или недостоверно распознанные буквы или графические знаки определяются итеративно в несколько приемов. Это может проводиться, в частности, на удаленной станции обработки данных, например, с использованием глобальной сети передачи данных. Сначала переводят в память отдельные видеоданные формуляра в соответствии с его полями данных. На основе видеоданных с помощью программы распознавания знаков проводится идентификация графических знаков при условии, что такая идентификация возможна с достаточной достоверностью. Координаты символов, нераспознанных или распознанных с недостаточной достоверностью, заносятся в созданную машиной структуру данных. Затем данные из этой машинной структуры передаются на периферийную станцию обработки данных. На ней проводится полная идентификация графических знаков, а машинная структура данных дополняется соответствующей информацией о корректуре. В способе согласно ЕР 0 565 912 А2 применяется только одна комплексная структура данных, которая для всех соответствующих полей создает “историю корректуры” и выдает ее в конце обработки данных. С точки зрения защиты данных такой способ не является удовлетворительным, так как он не может гарантировать конфиденциальность содержащейся в формулярах информации именно вследствие возможного доступа ко всей комплексной структуре данных.

Поэтому в основу изобретения положена задача создания способа, позволяющего проводить недорогое дополнительное считывание формуляров, недостаточно идентифицированных в отношении содержания посредством программы распознавания знаков, причем в рамках дополнительного считывания должна гарантироваться конфиденциальность содержащейся в формулярах информации.

Для решения указанной задачи предлагается способ приведенного выше типа, отличающийся тем, что

g) по каждому неидентифицированному полю данных его видеоданные объединяют с присвоенным этому полю данных с ссылочным значением с образованием обрабатываемого блока данных для передачи;

h) идентификация графических знаков неидентифицированного поля данных проводится на периферийной станции обработки данных на основе видеоданных блока данных для передачи;

i) на периферийной станции обработки данных идентифицированные графические знаки формируются в блок данных графических знаков и объединяются с ссылочным значением с образованием обработанного блока данных для передачи, который передается обратно;

j) на основе ссылочного значения обратно переданного блока данных для передачи блок данных графических знаков объединяется с остальными полями данных того же формуляра с формированием полного блока данных.

Предпочтительно вводить в память в качестве видеоданных как черно-белые видеоданные, так и контрастные тона, причем видеоданные, содержащиеся в обрабатываемом блоке данных для передачи, являются видеоданными с контрастными тонами. Также предпочтительно, чтобы обработанные программой распознавания знаков видеоданные были черно-белыми.

Способ согласно изобретению отличается низкими затратами на дополнительное считывании формуляров, текст заполнения которых не идентифицируется или идентифицируется с недостаточной достоверностью посредством программы распознавания знаков. Для этого согласно изобретению для формуляров, графические знаки которых не были идентифицированы или идентифицированы с недостаточной степенью достоверности, проводится разделение, с одной стороны, на поля данных, содержание которых уже распознано, и, с другой стороны, на поля данных, содержание которых пока не распознано. Введенные ранее в память видеоданные полей данных, содержание которых остается пока не распознанным, объединяют с присвоенным этому полю данных ссылочным значением для формирования блока данных для передачи. На периферийную станцию обработки данных передается только этот блок данных, на которой затем в результате оптического сравнения, выполненного соответствующим работником, проводится полная идентификация сохранявшегося до этого времени неидентифицированным поля данных, а именно на основании видеоданных соответствующего поля данных, содержащихся в переданном блоке данных для передачи. После этого сформированный таким образом блок данных графических знаков вместе с ссылочным значением передается обратно в качестве полного блока данных для передачи, причем при этой обратной передаче, как и во время предыдущей передачи на периферийную станцию обработки данных, возможно использовать информационные пути глобальной сети передачи данных, в частности Интернета.

Поэтому в способе согласно изобретению отказались от полного дополнительного считывания всех неидентифицируемых машинным способом формуляров в пользу исключительного дополнительного считывания отдельных полей данных. Это позволяет заметно сократить трудовые и, следовательно, финансовые затраты на дополнительное считывание. Еще одним преимуществом является то, что при дополнительных считываниях соответствующим работником проверяются и идентифицируются графические знаки лишь отдельных полей данных. Установить связь с другими полями данных того же формуляра не представляется возможным работнику, занимающемуся дополнительным считыванием, в результате чего гарантируется максимальная конфиденциальность содержащейся в формуляре информации. Это имеет особое значение при считывании рецептурных формуляров с содержащимися в них данными о пациенте.

Подробности способа поясняются ниже с помощью примера осуществления со ссылкой на приложенный чертеж. На чертеже в схематическом виде представлен способ считывания полного блока данных из формуляров с графическими знаками.

Формуляры 1, которые могут представлять собой, например, рецепты с нанесенными на них в рукописном виде предписаниями врача, содержат несколько полей данных а, b, с, d, е. Пространственное положение таких полей в текстовой части формуляра единообразно. В поля данных а, b, с, d, е могут быть внесены, например, предписание врача, фамилия пациента, идентификационный код медицинского страхования и пр.

Заполнение таких формуляров 1, например, лечащим врачом производится, как правило, не на пишущей машинке или другим стандартным способом, а вручную. В том случае, когда требуется машинное считывание полей данных а, b, с, d, е, это обстоятельство обуславливает применение соответственно интеллектуальной программы распознавания знаков. Для считывания содержания полей данных отдельных формуляров сначала получают отдельные изображения этих формуляров посредством видеосчитывания, и полученные при этом видеоданные вводят в память. Для этого пользуются обычным сканером. Важно, чтобы видеосчитывание подразделялось на черно-белое видеосчитывание 2а и видеосчитывание отдельных контрастных тонов 2b, т.е., например, серых тонов или многоступенчатых цветовых тонов, которые позже при обработке фильтруются электронным способом в зависимости от цветовых смещений.

Полученные на основе видеосчитывания черно-белые видеоданные 2а соответствующего формуляра обрабатываются с помощью программы 3 распознавания знаков. В большинстве случаев, т.е. при подавляющем большинстве формуляров 1, программа 3 распознавания знаков в состоянии распознать графические знаки во всех полях данных а, b, с, d, е, так что может сразу проводиться обработка этих данных. В таких преобладающих случаях соответственно имеет место полное распознавание блоков данных 4.

Однако с помощью программы 3 распознавания знаков не обеспечивается полное считывание всех формуляров. Сохраняется остаточное количество неопознанных или не полностью опознанных блоков данных 5. Причины такого нераспознавания полей данных отдельных формуляров могут быть очень разнообразны. Так, например, может оказаться нечитабельным почерк производившего заполнение лица, написанное может быть смазано или находиться в непредусмотренном для него месте в текстовой части формуляра или сам формуляр может быть загрязнен на участке отдельных полей данных или целиком. Во всех случаях, когда блоки данных 5 являются нераспознанными или распознанными не полностью, требуется дополнительное считывание соответствующих формуляров. Для этого на следующей операции проводится определение неидентифицированных полей данных d, е, с размежеванием на уже идентифицированные поля данных а, b, с соответствующего блока данных. При этом неидентифицированными полями данных считаются такие поля, графические знаки которых программой 3 распознавания знаков не могут распознаваться или распознаются не с заданной, присущей для системы степенью достоверности. Видеоданные В_d, B_e неидентифицированных полей данных d, е вместе с присвоенными этим полям d, е ссылочными значениями R₄, R₅ группируют в блок 6 данных для передачи.

Присвоение ссылочных значений R₄, R₅ блоку 6 данных для передачи производится по принципу шифрования для обеспечения положения, при котором постороннее лицо не может сделать выводы на основе объединения видеоданных В_d, B_e с соответствующими ссылочными значениями R₄, R₅ о владельце этих данных или о причастном к ним лице. Таким образом достигается максимально возможная защита данных от несанкционированного к ним доступа, поскольку блок 6 данных для передачи сам по себе содержит лишь незначительные сведения.

Обрабатываемый блок 6 данных для передачи запрашивается периферийной станцией 7 обработки данных по Интернету или другой глобальной сети передачи данных путем их обмена. Периферийная станция 7 обработки данных представляет собой, например, периферийную сервисную службу, выполняющую для оператора способа платные услуги по дополнительному считыванию. На основе видеоданных В_d, B_e блока 6 данных для передачи на периферийной станции обработки данных сотрудник с опытом распознавания графических знаков перепроверяет блок видеоданных, т.е. изображение пока не считанного поля данных, и получает результат, при котором в наиболее общих случаях содержащиеся в этих полях графические знаки оказываются идентифицироваными. Для упрощения этой идентификации в основу видеоданных В_d, B_e блока 6 данных для передачи закладывают данные, полученные при считывании изображения 2b с серыми тонами. Оказалось, что трудно читаемые графические знаки идентифицируются лучше на основе факсимильных изображений в серых тонах, чем на основе черно-белого изображения. Вместо серых тонов могут применяться также цветные тона. Последние могут подвергаться, например, электронной фильтрации с тем, чтобы таким образом, например, заглушить при обработке цветные фоновые структуры.

Поля данных d, е, идентифицированные на периферийной станции 7 обработки данных на основе видеоданных с серыми тонами, снова обратно передаются в виде блока данных графических знаков вместе с присвоенными им ссылочными значениями R₄, R₅ в качестве обработанного блока 8 данных для передачи, причем эта обратная передача проводится по линиям передачи данных Интернета или другой глобальной сети передачи данных.

Информация из обработанного блока 8 для передачи вместе с ранее полностью считанной информацией полей данных а, b, с формируется в полный блок данных полей а, b, с, d, е. На чертеже объединение полей данных отмечено позицией 9. Критерием последовательности при объединении служат присвоенные соответствующим полям данных ссылочные значения, причем не только ранее неидентифицированные поля данных d, е, но также и поля данных а, b, с, распознанных с помощью программы 3 распознавания знаков, содержат соответствующее отдельное ссылочное значение R₄, R₅ или R₁, R₂, R₃. В результате этого блоки 10 данных оказываются полностью распознанными и могут быть подвержены дополнительной обработке.

1. Способ считывания полного блока данных из формуляров с графическими знаками, текстовая часть которых содержит несколько разделенных между собой полей данных (а, b, с, d, е), пространственное положение которых в текстовой части является единообразным для всех формуляров (1), содержащий операции a) получения изображения формуляра (1) и записи в память видеоданных отдельных полей данных (а, b, с, d, е); b) идентификации содержащихся в полях данных (а, b, с, d, е) графических знаков посредством видеоданных полей (а, b, с, d, е) и программы (3) распознавания знаков при условии, что последние идентифицируемы при заданной степени достоверности; c) определения неидентифицированных полей данных (d, е), т.е. тех полей данных формуляров, графические знаки которых не были идентифицированы вообще или с заданной степенью достоверности; d) передачи информации о полях данных на периферийную станцию (7) обработки данных преимущественно по глобальной сети передачи данных; e) полной идентификации графических знаков неидентифицированного поля данных (d, е) на основе информации о полях данных на периферийной станции (7) обработки данных; f) передачи результатов идентификации графических знаков, проведенной на станции (7) обработки данных, для последующего применения, отличающийся тем, что g) видеоданные (B_d, B_e) каждого неидентифицированного поля данных (d, е) объединяют с присвоенным этому полю данных (d, е) ссылочным значением (R₄, R₅) с образованием обрабатываемого блока (6) данных для передачи; h) проводят идентификацию графических знаков неидентифицированного поля данных (d, е) на периферийной станции (7) обработки данных на основе видеоданных (В_d, B_e) блока данных для передачи; i) на периферийной станции (7) обработки данных идентифицированные графические знаки объединяют с образованием блока данных графических знаков и формируют из них вместе со ссылочным значением (R₄, R₅) соответствующего поля данных (d, е) обработанный блок (8) данных для передачи, который передается обратно; j) на основе ссылочного значения (R₄, R₅) обратно переданного блока (8) данных для передачи блок данных графических знаков объединяют с остальными полями данных того же формуляра для получения полного блока (10) данных.

2. Способ по п.1, отличающийся тем, что в качестве видеоданных в память вводятся как черно-белые видеоданные, так и видеоданные контрастных тонов и что содержащиеся в обрабатываемом блоке (6) данных для передачи видеоданные являются видеоданными с контрастными тонами.

3. Способ по п.1 или 2, отличающийся тем, что видеоданные, обработанные программой (3) распознавания знаков, являются черно-белыми видеоданными.

Изобретение относится к вычислительной технике и может использоваться для контроля печатных плат. .

Способ формирования мер сходства при распознавании образов // 363105

Способ выделения признаков формы плоских зрительных изображений // 204697

Способ обнаружения ошибок цифровой записи и устройство для его реализации (варианты) // 2344477

Способ безопасной биометрической аутентификации // 2406143

Изобретение относится к технике автоматизированной аутентификации личности человека по его биометрическому образу и может использоваться при голосовании, электронных покупках, авторизации электронных документов, в электронных паспортах и удостоверениях личности, при ограничении доступа к информации

Виртуальная лупа с функциональными возможностями оперативного управления // 2409856

Изобретение относится к средствам, обеспечивающим выборочное увеличение части содержимого экранного дисплея

Способ, система, цифровая фотокамера и сис, обеспечивающие геометрическое преобразование изображения на основании поиска текстовых строк // 2412482

Изобретение относится к средствам геометрического преобразования деформированных изображений документов, содержащих текст

Способ распознавания неисправного изолятора // 2542674

Изобретение относится к области распознавания неисправных изоляторов в распределительных сетях постоянного и переменного тока. Техническим результатом является обеспечение контроля изоляторов, сокращение времени обнаружения дефекта, безопасность обслуживающего персонала. Способ распознавания неисправного изолятора заключается в том, что модернизируют пассивную RFID-метку путем исключения из стандартной схемы RFID-метки токопроводящей линии антенны, расположенной параллельно микросхеме, создают базу данных по контролируемому участку, пикетаж, номер опоры с изоляторами, идентифицируют каждый изолятор путем прикрепления к нему модернизированной пассивной RFID-метки, присваивают индивидуальный код чипу ее микросхемы, а на передвижное транспортное средство устанавливают считыватель, содержащий приемно-передающее устройство и антенну, подсоединяют считыватель к компьютеру с соответствующим программным обеспечением, перемещают транспортное средство по контролируемому участку, непрерывно подают от считывателя через передающее устройство и антенну широкополосный зондирующий сигнал в сторону изоляторов с RFID-метками, принимают антенной и приемным устройством считывателя ответный сигнал от RFID-меток, определяют количество неответивших RFID-меток, обрабатывают результаты с помощью программного обеспечения, определяют местоположение поврежденных изоляторов, полученные данные выводят на монитор компьютера и передают на диспетчерский пункт. 4 ил.

Способ и система для верификации в процессе чтения // 2571396

Изобретение относится к способу и системе определения неправильно распознанных символов и соответствующему машиночитаемому носителю. Техническим результатом является повышение точности определения неправильно распознанных символов. Способ определения неправильно распознанных символов, полученных в результате процесса распознавания изображения текста, включает в себя: получение процессором набора неуверенно распознанных символов, полученных в результате процесса распознавания изображения текста, который включает изображение неуверенно распознанного символа, гипотезу о неуверенно распознанном символе и уровень уверенности, связанный с этой гипотезой; вызов процессором устройства отображения для того, чтобы вывести изображение неуверенно распознанного символа поверх текста для вычитки, причем текст для вычитки отличается от изображения текста; получение процессором маркировочных данных для неуверенно распознанного символа и изменение уровня уверенности, относящегося к гипотезе о неуверенно распознанном символе, исходя из полученных маркировочных данных, чтобы получить подтвержденную гипотезу о неуверенно распознанном символе. 3 н. и 21 з.п. ф-лы, 12 ил.

Устранение искривлений изображения документа // 2621601

Изобретение относится к области распознавания символов. Технический результат заключается в повышении точности устранения искажений. Способ для устранения искривлений изображения документа включает: определение границ по меньшей мере фрагмента документа в исходном изображении, определение множества символов в документе, определение некоторых из символов в качестве множества фрагментов слов, создание множества первых полиномов, создание второго полинома, определение по меньшей мере одного коэффициента растяжения для первой строки текста, отображение по меньшей мере одним устройством обработки частей исходного изображения вдоль первой строки текста на новые позиции в исправленном изображении на основе второго полинома и коэффициента растяжения. 3 з. и 17 н.п. ф-лы, 6 ил.

Способ выявления необходимости обучения эталона при верификации распознанного текста // 2641225

Изобретение относится к области обработки изображений. Технический результат – повышение общей точности распознавания документов. Способ анализа текста включает: анализ выполняемой пользователем верификации распознанного текста, полученного в процессе распознавания изображения документа, где верификация включает в себя изменение определенного пользователем неправильного символа на определенный пользователем правильный символ; выявление однотипных изменений первого неправильного символа на первый правильный символ; и инициирование процесса обучения эталона распознавания на основе выявленных однотипных изменений, где эталон распознавания обучается для распознавания определенного символа и используется при распознавании символов в изображении документа для получения распознанного текста. 3 н. и 15 з.п. ф-лы, 6 ил.