Способ автоматизированного анализа векторных изображений

Изобретение относится к автоматизированному анализу векторных изображений. Технический результат – расширение арсенала технических средств посредством выявления схожих с эталоном векторных изображений. Способ автоматизированного анализа векторных изображений заключается в том, что: каждому эталонному векторному изображению присваивают уникальный идентификатор; каждый электронный файл эталонных векторных изображений преобразуют в заранее заданный формат, содержащий векторные примитивы; для взаимного расположения примитивов вычисляют хеш-значения; хеш-значениями и идентификаторами эталонных документов заполняют базу данных; преобразуют электронный файл анализируемого векторного изображения в заранее заданный формат, идентичный эталонному; выбирают подмножество из множества пар примитивов изображения; для каждой пары вычисляют хеш-значение; производят поиск полученных вычисленных хеш-значений в базе данных и формируют список документов, в которых содержатся вычисленные хеш-значения и список факторов ранжирования для каждого такого документа; вычисляют степень совпадения с анализируемым документом по заранее заданному правилу; возвращают массив найденных идентификаторов эталонных векторных изображений, для которых был превышен порог релевантности.

 

Область техники, к которой относится изобретение.

Изобретение относится к автоматизированному анализу векторных изображений и может быть использовано при разработке новых и совершенствовании существующих систем проверки векторных изображений на совпадение с эталонными векторными изображениями.

Уровень техники.

В настоящее время весьма остро стоит проблема так называемого перехвата данных. Такая проблема может встретиться в случае отслеживания документов, в т.ч. содержащих изображения, проходящих по сети компании, на предмет наличия в них конфиденциальной информации.

В настоящее время известно несколько систем или способов, позволяющих решить эту проблему.

Например, в патенте России №2420800 (приоритет от 30.06.2009, опубл. 10.06.2011) раскрыт способ поиска похожих по смысловому содержимому электронных документов, в котором задают правила формирования уникальных слов, взвешиваются уникальные слова и связи между ними, строят на основе этого семантическую сеть и сравнивают семантические сети документов. Этот способ достаточно трудоемок и пригоден лишь в ограниченной области.

Известен способ индексации и поиска цифровых изображений (патент на изобретение РФ №2510935, приоритет от 23.09.2011, опубл. 10.04.2014). Способ, описанный в данном патенте, подходит для поиска изображений определенной категории, в том числе цветовой, но при этом не подходит для задачи поиска конкретного изображения в обширной базе данных, где может присутствовать много изображений с одинаковыми преобладающими цветами. Так как автор патента ставил задачу поиска изображений, подходящих под некоторое описание, он сам указал в качестве недостатка некоторых других методов тот факт, что они могут классифицировать изображения с похожими преобладающими цветами как совершенно различные. В то же время изобретение решает задачу поиска конкретного изображения с поправкой на искажения, возникающие при его сохранении в разных форматах и разных масштабах. При такой постановке задачи недостатком становится именно невозможность различить изображения с похожими характеристиками.

Раскрытие изобретения.

Таким образом, существует потребность в расширении арсенала технических средств за счет создания сравнительно быстрого и универсального способа, который позволил бы выявлять в потоке данных векторные изображения, схожие с эталонными и который бы преодолевал недостатки известных решений.

Для решения этой задачи и получения указанного технического результата в изобретении предложен способ автоматизированного анализа векторных изображений, заключающийся в том, что:

1. Создают специализированную базу данных эталонных изображений, специализация которой заключается в том, что данные из эталонных изображений хранятся специальным образом. Для каждого хеш-значения, отражающего взаимное расположение двух примитивов из эталонного векторного изображения, создают записи вида:

<хеш> -> {список документов, в которых содержится этот хеш}

Для создания такой базы данных выполняют следующие шаги:

1) каждому эталонному изображению присваивают уникальный идентификатор;

2) каждый электронный файл эталонного векторного изображения преобразуют в заранее заданный формат, содержащий векторные примитивы (специально разработанный промежуточный формат, в который преобразуются векторные изображения из разных форматов, например dwg или cdw);

3) выбирают некоторое подмножество из множества пар примитивов изображения;

4) для каждой пары из выбранного подмножества вычисляют хеш-значение (подробнее описано ниже);

5) вычисляют хеш от какой-либо комбинации хеш-значений, полученных в п. 1.4 с помощью какой-либо хеш-функции;

6) вычисленный в п. 1.5 хэш добавляют в множество хеш-значений эталона;

7) проверяют условие остановки, если оно выполнено, переходят к следующему пункту, иначе возвращаются к п. 1.3;

8) обходят все подготовленные эталонные документы и хеш-значением и идентификаторами эталонных документов заполняют специализированную базу данных и сохраняют ее;

9) в отдельную таблицу базы данных для каждого эталонного изображения сохраняют минимальные пороги срабатывания.

2. Когда на анализ поступает файл, содержащий векторное изображение, то производят следующие действия:

1) изображение преобразуют в заранее заданный формат (специально разработанный промежуточный формат, в который преобразуются векторные изображения из разных форматов, например dwg или cdw);

2) выбирают некоторое подмножество из множества пар примитивов изображения;

3) для каждой пары из выбранного подмножества вычисляют хеш-значение (подробнее описано ниже);

4) вычисляют хеш от какой-либо комбинации хеш-значений, полученных в п. 2.3 с помощью хеш-функции;

5) проверяют условие остановки, если оно выполнено, переходят к следующему пункту, иначе возвращаются к п. 2.2;

6) производят поиск полученных в п. 2.4 хэш-значений базе данных, полученной в п. 1, и формируют список документов, в которых содержатся вычисленные хеш-значения и некоторый список факторов ранжирования для каждого такого документа;

7) на основе полученных факторов для каждого эталонного документа вычисляют степень совпадения с анализируемым документом по некоторому заранее заданному правилу (по формуле релевантности);

8) возвращают массив найденных идентификаторов эталонных документов, для которых был превышен порог релевантности.

3. Алгоритм вычисления хеш-значения для пар примитивов:

Пусть векторное изображение представлено в виде набора примитивов (отрезки, ломаные, дуги и т.д.),

Р - множество типов примитивов. Для каждой пары типов примитивов вводят функцию снятия отпечатка от пары примитивов:

f(T, Т) -> Н,

где Т - тип примитива (элемент множества Р),

Н - некоторое множество целых чисел (на практике - множество хеш-значений).

Физический смысл функций f - число, однозначно характеризующее взаимное расположение двух примитивов на векторном изображении. Функции должны быть устойчивы к повороту, сдвигу и масштабированию.

Изобретение может быть реализовано в любой вычислительной системе, например в персональном компьютере, на сервере и т.п.

Способ автоматизированного анализа векторных изображений по изобретению предназначен для осуществления так называемого копирайтного анализа (английский аналог - fingerprint detection), задачей которого является установление схожести векторных изображений с изображениям, переданным ранее в базу данных (библиотеку) в качестве эталонных.

Способ автоматизированного анализа векторных изображений, заключающийся в том, что:

- каждому эталонному векторному изображению присваивают уникальный идентификатор;

- каждый электронный файл эталонных векторных изображений преобразуют в заранее заданный формат, содержащий векторные примитивы;

- для взаимного расположения примитивов вычисляют хеш-значения;

- обходят все подготовленные эталонные документы, хеш-значениями и идентификаторами эталонных документов заполняют базу данных;

- сохраняют базу данных;

- преобразуют электронный файл анализируемого векторного изображения в заранее заданный формат, идентичный эталонному;

- выбирают некоторое подмножество из множества пар примитивов изображения;

- для каждой пары из выбранного подмножества вычисляют хеш-значение;

- производят поиск полученных вычисленных хеш-значений в базе данных и формируют список документов, в которых содержатся вычисленные хеш-значения и некоторый список факторов ранжирования для каждого такого документа;

- на основе полученных факторов для каждого эталонного документа вычисляют степень совпадения с анализируемым документом по некоторому заранее заданному правилу;

- возвращают массив найденных идентификаторов эталонных векторных изображений, для которых был превышен порог релевантности.



 

Похожие патенты:

Изобретение относится к технологиям создания изображения модели для виртуальной примерки. Техническим результатом является повышение точности извлечения головного портрета, улучшение синтезирования головного портрета пользователя с телом.

Изобретение относится к технологиям загрузки фрагментов изображения на клиентское устройство. Техническим результатом является обеспечение экономии ресурсов памяти при отображении и отрисовке фрагментов изображения за счет осуществления замены областей просмотра.

Изобретение относится к вычислительной технике. Технический результат заключается в возможности исправления перспективных искажений изображения открытого разворота многостраничного документа.

Изобретение относится к способам цифровой обработки медицинских изображений и может быть использовано для автоматической сегментации флюорограмм грудной клетки.

Изобретение относится к определению факта столкновения сферического элемента с компонентом игрового поля или расположения на нем или вблизи него. Техническим результатом является повышение точности определения местоположения столкновения сферического элемента с мишенью.

Группа изобретений относится к области вычислительной техники. Техническим результатом является повышение точности распознавания объектов.

Группа изобретений относится к технологиям обработки изображений и оптическому распознаванию символов. Техническим результатом является расширение арсенала технических средств систем оптического распознавания текста.

Изобретение относится к области терминальной технологии, а именно к измерению освещенности. Технический результат – улучшение точности измерения освещенности.

Изобретение относится к распознаванию трехмерного объекта. Техническим результатом является повышение точности сопряжения между собой трехмерного объекта и модели трехмерной формы.

Изобретение относится к области обработки изображений. Технический результат – обеспечение определения на цифровых изображениях криволинейных и прямолинейных контуров.

Группа изобретений относится к технологиям обработки изображений, а именно к системам генерации фильтра изображения. Техническим результатом является повышение точности самостоятельно заданного фильтра изображения за счет преобразования группы подобных изображений в изображение с эффектом фильтра.

Изобретение относится к автоматике и вычислительной технике. Технический результат – повышение быстродействия реконструкции фотопортретов из скетчей.

Изобретение относится к области записи и воспроизведения движущихся изображений. Технический результат – обеспечение улучшенной записи и воспроизведения движущегося изображения.

Изобретение относится к вычислительной технике. Технический результат заключается в снижении объема вычислений.

Изобретение относится к области распознавания лиц и идентификации личности человека. Технический результат – повышение точности распознавания лица.

Изобретение относится к электронным устройствам и способам отрисовки панорамного изображения. Техническим результатом является уменьшение вычислительной нагрузки на устройства обработки электронного устройства при отрисовке части панорамного изображения.

Изобретение относится к вычислительной технике. Технический результат заключается в формировании предпочтительных изображений обрезки.

Изобретения относится к области цифровой обработки изображений. Технический результат - обеспечение повышения разрешения и уровня детализации входного изображения.

Изобретение относится к средству представления виртуального изображения. Техническим результатом является повышение качества отображения виртуального представления изображения.

Изобретение относится к средствам обработки изображений. Техническим результатом является обеспечение сбалансированности искажения и перспективы при формировании изображения.

Изобретение относится к вычислительной технике. Технический результат заключается в обеспечении технически оптимального изображения для различных дисплеев.
Наверх