Способ автоматизированного анализа выгрузок из баз данных

Изобретение относится к вычислительной технике. Технический результат заключается в защите информации, хранящейся в защищаемой базе данных, от утечек за счет автоматизированного анализа выгрузок из баз данных. Способ автоматизированного анализа выгрузок из баз данных, в котором преобразуют в заранее заданный формат все информационно-значимые ячейки эталонных выгрузок из базы данных с указанием их позиций в каждой выгрузке, задают именованные условия, указывающие на взаимоотношения между ячейками в одной строке выгрузки, сохраняют преобразованные строки эталонных выгрузок и именованные условия на запоминающем устройстве, выявляют ячейки эталонных выгрузок в электронном файле анализируемого документа, составляют матрицу найденных ячеек, применяют заданные именованные условия к матрице найденных ячеек, составляют список условий, которым соответствует матрица найденных ячеек, выносят вердикт о том, присутствует ли в анализируемом документе часть эталонной выгрузки, удовлетворяющей заданным именованным условиям. 1 з.п. ф-лы, 2 ил.

 

Область техники, к которой относится изобретение

Настоящее изобретение относится к области информационных технологий, в частности к способу автоматизированного анализа выгрузок из баз данных.

Уровень техники

В настоящее время весьма остро стоит проблема так называемого перехвата данных. Такая проблема может встретиться в случае отслеживания документов, проходящих по сети компании, на предмет наличия в них конфиденциальной информации.

В настоящее время известно несколько систем или способов, позволяющих решить эту проблему.

Например, в заявке на патент США №20110066585 (опубл. 17.03.2011) раскрыт способ, в котором извлекают из неструктурированных данных структурированные в виде файла с текстом и, таким образом, на основе статистических данных об этом файле придают данным некоторую структуру, например, в виде таблицы. Этот способ имеет ограниченное применение, поскольку реализован только для выделения структурированных данных.

В заявке на патент Японии №2008257444 (опубл. 23.10.2008) раскрыт способ, который можно считать ближайшим аналогом настоящего изобретения, в котором выделяют в файле особенности за счет использования предписанных условий и вычисляют сходство между файлами путем сравнения этих особенностей. Этот способ имеет ограниченное применение и низкую эффективность при анализе перехваченных документов и соответственно требует длительного времени на обработку и имеет ограниченное применение.

Раскрытие изобретения

Таким образом, существует потребность в расширении арсенала технических средств за счет создания сравнительно быстрого и универсального способа автоматизированного анализа выгрузок из баз данных, с возможностью гибко настраивать параметры, при которых текущий анализируемый текст можно отнести к выгрузке из базы данных, который позволил бы выявлять в каком-либо документе информацию из заданной базы данных и который не имел бы недостатков относительно известных решений.

Для решения этой задачи и получения указанного технического результата в настоящем изобретении предложен способ автоматизированного анализа выгрузок из баз данных, заключающийся в том, что:

- преобразуют в заранее заданный формат все информационно-значимые ячейки эталонных выгрузок из базы данных с указанием их позиций в каждой выгрузке;

- задают именные условия, указывающие на взаимоотношения между ячейками в одной строке выгрузки;

- сохраняют преобразованные строки эталонных выгрузок на запоминающем устройстве;

- выявляют ячейки эталонных выгрузок в электронном файле анализируемого документа;

- составляют матрицу найденных ячеек;

- применяют заданные условия к матрице найденных ячеек;

- составляют список условий, которым соответствует матрица найденных ячеек;

- выносят вердикт на основании упомянутого списка условий.

Особенность способа по настоящему изобретению состоит в том, что исключают «стоп-слова» в анализируемом документе и в эталонной выгрузке.

Краткое описание чертежей

На Фиг.1 представлена блок-схема реализации способа автоматизированного анализа выгрузок из баз данных.

На Фиг.2 представлен пример эталонной выгрузки из базы данных, которая применяется в данном способе по настоящему изобретению.

Подробное описание изобретении

Настоящее изобретение может быть реализовано в любой вычислительной системе, например в персональном компьютере и т.п.

Способ автоматизированного анализа выгрузок из баз данных предназначен для осуществления защиты от утечек информации, хранящейся в защищаемой базе данных, а также для выявления информации не только в ячейках, но и о ее взаимном расположении. Например, просто числа, совпадающие с зарплатами сотрудников компании, но без текстового описания, несут мало информации. Однако, если в анализируемом тексте также присутствуют имена и фамилии из той же базы данных, то это, с высокой вероятностью, может оказаться утечкой информации из базы данных.

Способ автоматизированного анализа выгрузок из баз данных включает в себя несколько основных этапов. В одном из первоначальных этапов, прежде чем произвести автоматизированный анализ выгрузок из баз данных, необходимо подготовить эталонные данные для выгрузок, пример которых приведен на Фиг.2.

Выгрузкой из базы данных чаще всего является таблица, состоящая из одного или нескольких столбцов и одной или нескольких строк. Также стоит отметить тот факт, что в базах данных обычно хранится определенное количество служебной информации, которая недоступна обычному пользователю. Например, это может быть уникальный ключ, с помощью которого ссылаются на данную строку данной таблицы из других таблиц базы данных. Также некоторые выгрузки не являются прямым отображением базы данных, так как эти выгрузки формируются по определенным правилам. Например, зарплата сотрудников может вычисляться из ставок и коэффициентов в момент построения выгрузки. Поэтому очень важно правильно готовить эталонные выгрузки.

В способе по настоящему изобретению преобразуют в заранее заданный формат все информационно-значимые ячейки эталонных выгрузок из базы данных с указанием их позиций в каждой выгрузке и задают именные условия, указывающие на взаимоотношения между ячейками в одной строке выгрузки.

Каждая выгрузка состоит из набора ячеек, скомпонованных по строкам. Прежде всего, нужно выявить взаимосвязь между ячейками в одной строке. Это реализовано в связи с тем, что нет необходимости в защите данных только из одной ячейки, чаще всего данные становятся секретной информацией только в совокупности с данными из других ячеек данной выгрузки. Для описания таких взаимосвязей в настоящем изобретении введены именованные условия. Так как связи между ячейками могут быть многовариантными, а также с целью экономии ресурсов, именованных условий может быть несколько.

Непосредственно эталонные данные, относящиеся к эталонной выгрузке из базы данных, готовят следующим образом:

1. Каждая ячейка разбивается на слова либо числа (разделителем считаются все символы, кроме букв и цифр) (Фиг.1-2);

2. Из получившегося списка удаляются стоп-слова (Фиг.1-3);

3. Для каждого выделенного слова снимается HASH (Фиг.1-4);

4. Для полученных HASH значений записывается местоположение ячеек, в которых они встречаются (имя эталонной выгрузки, номер столбца, номер строки) (Фиг.1-5).

Преобразованные строки эталонной выгрузки, а также именованные условия сохраняют на запоминающем устройстве. В совокупности эти данные образуют цифровой отпечаток эталонной выгрузки из базы данных.

В именованных условиях должны быть заданы отношения между столбцами в одной строке. В простейшем случае это может быть условие присутствия в строке всех ячеек. Также в условии указывается минимальное число строк, при нахождении которого считается, что условие выполнено. Кроме того, задается рейтинг условия, чем выше рейтинг, тем более критичным считается условие. Сработавшее условие с наивысшим рейтингом останавливает анализ для текущего эталона. Рейтинг также является идентификатором условия.

Примеры условий для выгрузки, содержащей 5 столбцов и 1000 строк: 1&2&3&4&5:1000>100 - согласно этому условию в анализируемом документе должна присутствовать вся эталонная таблица. 1&(2|3):50>90 - это условие сработает, если в анализируемом тексте есть 50 или более строк из эталона, первая ячейка которых присутствует в анализируемом документе и также в этом документе присутствуют вторая или третья ячейка из данной строки. Далее перед началом автоматизированного анализа выгрузок из баз данных цифровые отпечатки эталонных выгрузок загружаются в память (Фиг.1-8). Согласно требованиям безопасности, тексты эталонных выгрузок не сохраняются, что позволяет предотвратить их несанкционированное чтение. Следующий этап настоящего изобретения заключается в том, что выявляют ячейки эталонных выгрузок в электронном файле анализируемого документа, таким образом, происходит анализ того, содержит ли электронный документ часть эталонной выгрузки или нет. Далее составляют матрицу найденных ячеек. Основной целью данного этапа является создание n-мерной матрицы, в которой каждая ячейка представляет собой проекцию ячейки эталонной выгрузки в бинарное поле. Если ячейка данной матрицы соответствует значению «истина», то это значит, что данная ячейка присутствует в анализируемом документе. Этап создания n-мерной матрицы найденных ячеек состоит из нескольких шагов:

1. Входной текст (Фиг.1-9) разбивается на слова и числа (разделителем считаются все символы, кроме букв и цифр), формируется вектор (Фиг.1-10);

2. Из полученного вектора удаляются стоп-слова и дубликаты, таким образом, получается вектор, состоящий из уникальных слов и чисел, принадлежащих анализируемому документу (Фиг.1-11);

3. От каждого элемента в векторе считается HASH сумма (Фиг.1-12);

4. Каждый HASH из полученного вектора ищется во внутреннем хранилище эталонных выгрузок (Фиг.1-13);

5. Каждая ячейка, где найден текущий HASH, помечается (Фиг.1-14);

6. Как только становится ясно, что все HASH значения в какой-либо ячейке присутствуют в анализируемом тексте, то соответствующая ячейка результирующей матрицы принимает значение «истина» (Фиг.1-15 и Фиг.1-16);

7. В результате получается n-мерная матрица с отмеченными ячейками (Фиг.1-17 и Фиг.1-18).

Количество измерений результирующей матрицы зависит от количества эталонных выгрузок.

Результатом дальнейшей реализации настоящего изобретения является список условий, которым удовлетворяет анализируемый документ, в котором применяют заданные условия к матрице найденных ячеек. Данный список получается следующим образом, n-мерная матрица раскладывается на двумерные матрицы (Фиг.1-19), каждая двумерная матрица - это представление одной эталонной выгрузки, к каждой строке каждой двумерной матрицы применяется каждое именованное условие (Фиг.1-20). Составляется список всех условий, которые сработали (Фиг.1-21), и выносится вердикт на основании упомянутого списка условий (Фиг.1-22). В частном случае осуществления изобретения перед началом работы из файла загружается список «стоп-слов». После разбиения текста на слова каждое полученное слово ищется в данном списке и если оно там присутствует, то его исключают.

Приведен пример реализации настоящего изобретения. На предприятии есть база данных, в этой базе данных кроме прочей информации хранится список клиентов со всеми их реквизитами. Для предприятия эти данные являются коммерческой тайной. Защитить предприятие от утечки этих данных можно несколькими способами, в том числе и анализом сетевого трафика выходящего за пределы локальной сети предприятия, в котором, например, список клиентов с реквизитами может быть передан как полностью, так и по частям. При этом упоминание клиентов может быть и вне контекста данного списка, например, в деловой переписке название организации и ее реквизиты могут встречаться в подписях писем сотрудников. Поэтому, кроме того, что нужно предотвратить утечку, также необходимо обеспечить минимальное количество ложноположительных срабатываний.

Для обеспечения подобного функционала и применяется способ автоматизированного анализа выгрузок из баз данных. Осуществляется способ следующим образом: данные о клиентах выгружаются в таблицу, таким образом, создается выгрузка из базы данных, для нее составляются логические условия, описывающие связи между столбцами, из полученных данных составляется эталонная выгрузка, которая передается в технологию анализа. Далее весь перехваченный исходящий трафик корпоративной сети передается для анализа. Если вердикт технологии положительный, то есть в перехваченном трафике присутствует часть эталонной выгрузки, удовлетворяющая заданным условиям, то данный трафик не передается вовне и об инциденте уведомляется офицер безопасности предприятия.

Таким образом, способ автоматизированного анализа выгрузок из баз данных по настоящему изобретению обеспечивает расширение арсенала технических средств и позволяет сравнительно быстро выявлять в каком-либо документе присутствие данных из эталонных выгрузок, преодолевая тем самым недостатки известных решений в виде ограниченности их применения.

В заключение следует отметить, что приведенные в описании сведения являются примерами, которые не ограничивают объем настоящего изобретения, определенного формулой. Специалисту в данной области становится понятным, что могут существовать и другие варианты осуществления настоящего изобретения, согласующиеся с сущностью и объемом настоящего изобретения.

1. Способ автоматизированного анализа выгрузок из баз данных, заключающийся в том, что:
- преобразуют в заранее заданный формат все информационно-значимые ячейки эталонных выгрузок из базы данных с указанием их позиций в каждой выгрузке, причем каждая выгрузка состоит из набора ячеек, скомпонованных по строкам;
- задают именованные условия, указывающие на взаимоотношения между ячейками в одной строке выгрузки;
- сохраняют преобразованные строки эталонных выгрузок и именованные условия на запоминающем устройстве, причем в совокупности эти данные образуют цифровой отпечаток эталонной выгрузки из базы данных;
- выявляют ячейки эталонных выгрузок в электронном файле анализируемого документа;
- составляют матрицу найденных ячеек;
- применяют заданные именованные условия к матрице найденных ячеек;
- составляют список условий, которым соответствует матрица найденных ячеек;
- выносят вердикт о том, присутствует ли в анализируемом документе часть эталонной выгрузки, удовлетворяющей заданным именованным условиям на основании упомянутого списка условий.

2. Способ по п. 1, в котором исключают «стоп-слова» в анализируемом документе и в эталонной выгрузке.



 

Похожие патенты:

Изобретение относится к системам классификации документов. Техническим результатом является сокращение времени работы системы за счет возможности классифицировать документы по форме и выделяемым метаданным и возможности проводить анализ только информативной части документа.

Изобретение относится к области объединения источников информации, касающихся индивидуумов и коммерческих организаций, к которым индивидуумы принадлежат или принадлежали.

Изобретение относится к компьютерной технике, а именно к поисковым системам в сети Интернет. Техническим результатом является минимизация вычислительных издержек за счет генерации предлагаемого терма запроса в реальном времени на основании оперативного контента.

Изобретение относится к области систем управления базами данных (СУБД). Техническим результатом является обеспечение автоматического формирования реляционного описания синтаксиса команды на основе метаописания синтаксиса команды.

Изобретение относится к вычислительной технике. Технический результат заключается в уменьшении некачественных отчетов в базе данных.

Изобретение относится к компьютерной технике, а именно к системам интеллектуальных автоматизированных помощников. Техническим результатом является повышение точности представления пользователю релевантной информации за счет выявления намерения пользователя исходя из текстовой строки и имени отправителя, обособленного от пользователя.

Изобретение относится к области управления базами данных, а именно к приложениям базы данных для выполнения некоторых функций относительно базы данных. Технический результат заключается в обеспечении пользователям без копии клиентской прикладной программы базы данных получать доступ и использовать приложение базы данных посредством браузера всемирной паутины (“Web”) и локальной или глобальной сети.

Изобретение относится к определению семантики для местоположений на основе пользовательских данных, таких как действия пользователя и/или связи пользователя. Технический результат состоит в способности идентифицировать и различать различные контексты, которые применяются для одного и того же местоположения для конкретного пользователя.

Изобретение относится к средствам управления данными. Технический результат заключается в уменьшении времени обработки элементов данных.

Изобретение относится к компьютерной технике, а именно к системам обработки информации, полученной из социальной сети. Техническим результатом является обеспечение улучшенной фильтрации данных, полученных из социальной сети, в соответствии с конкретным набором параметров пользователя.

Изобретение относится к компьютерной технике, а именно к системам интеллектуальных автоматизированных помощников. Техническим результатом является повышение точности представления релевантных интерпретаций намерения пользователя в корректном контексте. Предложен способ функционирования интеллектуального автоматизированного помощника. Способ выполняется в электронном устройстве, содержащем процессор и память, в которой сохранены инструкции, исполняемые процессором. Процессор исполняет инструкции, на которых принимают пользовательский запрос, причем пользовательский запрос включает в себя речевой ввод, принятый от пользователя. Получают две или более альтернативных интерпретаций намерения пользователя на основе принятого пользовательского запроса и идентифицируют одно или более сходств и одно или более различий между ними. Далее представляют пользователю ответ, причем данным ответом представляется, по меньшей мере, одно из идентифицированных различий. 3 н. и 10 з.п. ф-лы, 50 ил., 5 табл.

Изобретение относится к компьютерной технике, а именно к системам интеллектуальных автоматизированных помощников. Техническим результатом является повышение точности представления пользователю релевантной информации за счет учета относительной важности между свойствами, которые соответствуют элементам предметной области. Предложен способ функционирования интеллектуального автоматизированного помощника. Способ выполняется в электронном устройстве, содержащем процессор и память, в которой сохранены инструкции, исполняемые процессором. Процессор исполняет инструкции, на которых принимают пользовательский запрос, включающий речевой ввод, принятый от пользователя. Предоставляют пользователю подсказку, причем данной подсказкой представляются два или более свойств, релевантных элементам предметной области выбора. Запрашивают пользователя указать относительную важность между этими двумя или более свойствами. 3 н. и 9 з.п. ф-лы, 50 ил., 5 табл.

Изобретение относится к средствам поиска в базе данных. Технический результат заключается в повышении совпадения результата с данными запроса. Принимают запрос на инициирование поиска данных, касающихся конкретной личности. Определяют на основании запроса стратегию поиска в базе справочных данных. В соответствии со стратегией производят в базе справочных данных поиск совпадения с запросом и выводят совпадение. Выделяют из запроса атрибут, который имеет отношение к поиску. Назначают вес атрибуту, таким образом обеспечивая взвешенный атрибут, причем вес указывает полезность атрибута при нахождении совпадения с запросом. Устанавливают функцию на основании взвешенного атрибута. Извлекают из базы справочных данных кандидатов, значения атрибутов которых указывают вероятные совпадения с запросом, на основании функции. Определяют наилучшего кандидата из кандидатов и возвращают наилучшего кандидата в качестве совпадения, причем запрос включает в себя значение запроса для атрибута. Изменяют упомянутый вес в зависимости от количества записей в базе справочных данных, которые имеют значение запроса для атрибута. 3 н. и 6 з.п. ф-лы, 2 ил., 8 табл.

Изобретение относится к медицинской технике. Технический результат - автоматическое координирование выполнения медицинских руководств. Способ координации выполнения клинических руководств, содержащий этапы, на которых: принимают ввод, содержащий состояние, соответствующее пациенту; извлекают набор рекомендаций, соответствующих упомянутому состоянию; отображают пользователю, по меньшей мере, часть набора рекомендаций; принимают пользовательский выбор рекомендации из набора рекомендаций, выдают предупреждение, когда пользовательский выбор отклоняется от рекомендованной последовательности из набора рекомендаций, принимают ввод, что одна из рекомендаций была выполнена; и изменяют отображение рекомендаций, основываясь на упомянутом вводе, что одна из рекомендаций была выполнена. 2 н. и 13 з.п. ф-лы, 3 ил.

Изобретение относится к средствам выявления аудио и/или видеопотоков, вещание которых осуществляется в масштабе реального времени. Технический результат заключается в повышении достоверности определения потоков в масштабе реального времени в среде множества потоков. Получают от медиа сервера информацию о медиа потоке, заключающуюся в поиске признаков, свидетельствующих о том, что анализируемый поток является источником мультимедиа, вещание которого осуществляется в масштабе реального времени. В качестве таких признаков могут быть использованы, например, параметр, характеризующий продолжительность потока (Duration), и/или параметр, характеризующий позицию, с которой начинается воспроизведение в потоке (Start Time), и/или параметр возможности перемотки в рамках передаваемого потока (Seekable). 2 н. и 6 з.п. ф-лы, 3 ил., 7 табл.

Изобретение относится к средствам извлечения информации. Технический результат заключается в повышении релевантности результатов. На входе, принимают запрос. На выходе, выдают этот запрос в совокупность различных источников, по меньшей мере один из которых является поисковым механизмом публичного домена и по меньшей мере один из которых является поисковым механизмом частного домена. На входе, принимают список результатов от каждого из этой совокупности различных источников. Определяют, объединять ли эти списки результатов, на основе определения релевантности с использованием модели объединения. Формируют посредством процессора полный список результатов из принятых списков результатов с использованием модели объединения. Обеспечивают представление посредством пользовательского интерфейса полного списка результатов. Наблюдают поведение пользователя в ответ на представленный полный список результатов. Используют наблюдаемое поведение пользователя для обновления модели объединения. 3 н. и 18 з.п. ф-лы, 12 ил.

Изобретение относится к средствам оценки данных поверхности земли. Технический результат заключается в повышении точности модели географической области. Принимают геодезические данные для множества местоположений на поверхности, причем геодезические данные содержат информацию о градиенте поверхности по меньшей мере для подмножества местоположений на поверхности. Формируют набор ограничивающих соотношений на основе геодезических данных, при этом набор ограничивающих соотношений соотносит неопределенные значения для временных изменений в высотах поверхности в подмножестве местоположений на поверхности с информацией о градиенте поверхности, включенной в геодезические данные, множество ограничивающих соотношений включает в себя неопределенные значения для временных изменений в высоте поверхности в нескольких местоположениях на поверхности. Идентифицируют конкретные значения для временных изменений в высотах поверхности в каждом местоположении на поверхности в подмножестве на основе определения решения набора ограничивающих соотношений. 3 н. и 30 з.п. ф-лы, 7 ил.

Изобретение относится к средствам связи через Интернет для программных приложений и контента. Техническим результатом является повышение эффективности и надежности при продаже и покупке приложений за счет их персонализации. Система содержит сетевую инфраструктуру, сконфигурированную для создания экземпляра и реализации супермаркета приложений, поддерживающего множество пользователей, причем супермаркет приложений предоставляет покупателям доступ к Интернет-магазинам, которые предоставляют цифровые товары, причем отношения между множеством пользователей гибко и динамически задаются по меньшей мере некоторыми из множества пользователей. 3 н. и 28 з.п. ф-лы, 11 ил.

Изобретение относится к области информационных технологий. Техническим результатом является обеспечение высокой релевантности результатов выдачи при выявлении персональных данных в открытых информационных источниках и в текстовых файлах наиболее распространенных форматов. Выявление персональных данных достигается посредством лингвистических технологий, реализованных при помощи сервера сбора данных, сервера лингвистической обработки, сервера приложений. В предлагаемом способе создают задание на основе поступающих через АРМ администратора параметров по обходу открытых источников. Затем загружают текст, производят обход открытых источников и загрузку текстов либо передачу текстов из внешней системы. Выделяют ссылки из загруженных текстов для их добавления к адресам дальнейшего обхода. Извлекают текст, бинарные файлы преобразуются к текстовому формату. Подготовленный к разбору текст разбирают и выявляют сущности, производят выделение сущностей персональных данных в тексте. Выявляют персональные данные, выделяют факты (сущности, выявленные на предыдущем этапе, связанные с персонами) персональных данных в тексте. 6 з.п. ф-лы, 3 ил.

Изобретение относится к вычислительной технике. Технический результат заключается в расширении функциональных возможностей за счет модернизации связей ячеек характеристической матрицы и ввода дополнительных элементов в характеристическую матрицу. Способ поиска составного образца в анализируемой последовательности, отличающийся совмещением параллельной побитовой обработки элементов в составе диагоналей характеристической матрицы, длина которых равна длине составного образца в анализируемой последовательности, с построчным вычислением стартовых значений поисковых ячеек характеристической матрицы, что позволяет учесть позиционно нерегулярное расположение символов составного образца в анализируемой последовательности и соединить в один поисковый объект позиционно нерегулярные расположения символов составного образца в анализируемой последовательности. 2 н.п. ф-лы, 5 ил.
Наверх