Способ префиксной дедупликации цифровых данных

Авторы патента:

H03M7/30 - уплотнение (анализ-синтез речи для сокращения многословия или избыточности G10L 19/00; для передачи изображения H04N); расширение; подавление излишней информации, например сокращение избыточности

G06F17/30 - информационный поиск; структуры баз данных для этой цели

Владельцы патента RU 2622875:

федеральное государственное автономное образовательное учреждение высшего образования "Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики (Университет ИТМО) (RU)

Изобретение относится к области сжатия данных и может использоваться при хранении больших объемов данных, содержащих избыточность. Технический результат заключается в устранении избыточности в обработанных цифровых данных. Указанный результат достигается за счет того, что цифровые данные разбивают на блоки данных равной длины, помещая метаданные этих блоков поразрядно в префиксное дерево. Осуществляют выбор метаданных по сегментам равной длины непосредственно из блоков данных, определяют наличие идентичного обрабатываемому блоку среди уже обработанных путем обхода префиксного дерева по заранее определенному порядку обхода сегментов, при отсутствии на очередном уровне префиксного дерева ссылки по значению соответствующего порядку обхода сегмента обрабатываемый блок признают уникальным и добавляют ссылку на этот блок на этом уровне префиксного дерева по соответствующему значению сегмента, в случае нахождения ссылки в префиксном дереве на обработанный блок данных выполняют полную сверку обоих блоков, в результате которой при обнаружении различия блоков осуществляют замену ссылки на обработанный блок ссылкой на новую ветвь дерева, содержащую последовательность узлов до первого различного сегмента, а в случае совпадения блоков принимают решение по определению обрабатываемого блока дубликатом. 2 ил.

Изобретение относится к области сжатия данных и может использоваться при хранении больших объемов данных с избыточностью.

Из существующего уровня техники известны методы дедупликации данных, осуществляющие по крайней мере первичный поиск идентичных блоков данных по значению их хеш-сумм, описанные в публикации Александра Щербинина Решения по дедупликации данных // Storage News. 2008. №2 (35) (http://old.i-teco.ru/article198.html). Недостатками существующих технических решений являются необходимость накладных вычислительных расходов на вычисление результата хеш-функции для каждого блока данных, необходимость применения методов разрешения хеш-коллизий, большой объем метаданных, прямо пропорциональный объему уникальных блоков данных и зависящий от размера результата применяемой хеш-функции.

Наиболее близким к заявленному техническому решению является метод оптимизации блочной дедупликации данных (US 8108353 В2, опубл. 31.01.2012), осуществляющий разбиение цифровых данных на блоки данных равной длины и размещение метаданных этих блоков данных, представляющих значения их хеш-функций, в префиксном дереве. Недостатками данного технического решения является выбор в качестве метаданных результатов хеш-функций для каждого блока обрабатываемых данных, что требует дополнительных вычислительных расходов на вычисление результата хеш-функции для каждого блока обрабатываемых данных, и необходимость хранения больших объемов полученных метаданных.

Задачей, на решение которой направлено заявленное изобретение, является снижение объема метаданных, сокращение вычислительных накладных расходов и времени процесса.

Данная задача решается за счет того, что в способе префиксной дедупликации цифровых данных, согласно которому цифровые данные разбивают на блоки данных равной длины и последовательно обрабатывают, помещая метаданные этих блоков поразрядно в префиксное дерево, новым является то, что выбор метаданных осуществляется по сегментам также равной длины непосредственно из блоков данных, определение наличия идентичного обрабатываемому блоку среди уже обработанных осуществляется путем обхода префиксного дерева по заранее определенному порядку обхода сегментов, при отсутствии на очередном уровне префиксного дерева ссылки по значению соответствующего порядку обхода сегмента обрабатываемый блок признают уникальным и добавляют ссылку на этот блок на этом уровне префиксного дерева по соответствующему значению сегмента. В случае нахождения ссылки в префиксном дереве на обработанный блок данных выполняют полную сверку обоих блоков, в результате которой при обнаружении различия блоков осуществляют замену ссылки на обработанный блок ссылкой на новую ветвь дерева, содержащую последовательность узлов до первого различного сегмента, а в случае совпадения блоков принимают решение по определению обрабатываемого блока дубликатом.

Техническим результатом, обеспечиваемым приведенной совокупностью признаков, является устранение избыточности в обрабатываемых цифровых данных.

На фиг. 1 изображен алгоритм обработки блока данных способом префиксной дедупликации цифровых данных. Способ оперирует блоками данных равной длины, полученными из цифровых данных. Для очередного обрабатываемого блока данных определяется первый обрабатываемый сегмент согласно заранее выбранному порядку обхода блока данных, например прямому порядку обхода, подразумевающему последовательный обход блока данных от младшего сегмента к старшему. Обход префиксного дерева начинается с корневого узла префиксного дерева. Из цифровых данных выбирается блок данных и разбивается на сегменты равной длины. По значению первого сегмента этого блока, согласно выбранному порядку обхода, осуществляется переход из корневого узла в другой узел. Переход из текущего узла в следующий узел осуществляется по значению текущего сегмента блока данных в случае наличия ссылки на узел. В случае отсутствия ссылки по значению текущего сегмента обрабатываемого блока данных осуществляется его запись на носитель с последующем изменением метаданных путем записи ссылки на записанный блок в текущий узел префиксного дерева по значению текущего сегмента блока данных. При переходе в следующий узел префиксного дерева в качестве текущего сегмента выбирается следующий сегмент согласно выбранному порядку обхода блока данных. В случае наличия ссылки на блок данных на носителе информации по значению текущего сегмента блока данных осуществляется чтение блока данных с носителя и производится полная сверка с обрабатываемым блоком данных. При несовпадении блоков данных осуществляется запись обрабатываемого блока данных на носитель (блок признается уникальным), построение ветви префиксного дерева от текущего узла до первого отличного сегмента блоков данных согласно выбранному порядку обхода и запись ссылок на блоки данных в узел дерева по значениям отличных сегментов.

В соответствии с фиг. 1 на фиг. 2 изображено частично заполненное префиксное дерево, содержащее метаданные 18 обработанных блоков данных. На фиг. 2 ссылки на блоки данных на носителе изображены пунктиром. Размер сегмента в данном примере равен 1 байту, и максимальное количество ссылок в узле равно 256. По данному дереву можно найти блоки, расположенные на носителе, по первым трем сегментам согласно заранее выбранному порядку обхода блока данных. Значения сегментов в дереве изображены на ребрах дерева. В примере приведены блоки данных с начальными сегментами со значениями 0, 2, 74, 255. В частности метаданные содержат информацию о двух обработанных блоках со значением первого сегмента 74, отличных по значениям второго сегмента (0 и 93). По значениям отличных сегментов в узле содержатся ссылки на блоки данных, находящихся на носителе информации, а в узле по значению первого сегмента, равному 0, содержатся ссылки как на другие узлы по значениям отличных сегментов блоков данных (0 и 125), так и ссылки на блоки данных, находящиеся на носителе информации (8).

Предложенный способ может быть реализован 4 модулями:

1) модулем приема данных, отвечающим за получение данных и предоставление блока данных фиксированной длины;

2) модулем верификации данных, осуществляющим определение наличия подобного блока в хранилище;

3) модулем хранения метаданных, осуществляющим хранение, поиск и доступ метаданных;

4) модулем доступа к хранилищу, осуществляющим взаимодействие с носителем дедуплицированных данных.

Модуль приема данных выделяет из данных блок фиксированной длины и передает его в модуль верификации данных. Модуль верификации данных производит выявление блока данных путем обхода метаданных, взаимодействуя с модулем хранения метаданных. В случае наличия ссылки на блок данных модуль хранения метаданных возвращает ссылку на этот блок данных на носителе, и модуль верификации получает от модуля доступа к хранилищу блок данных и осуществляет полную сверку блоков данных. В случае совпадения блоков модуль верификации признает проверяемый блок дубликатом, иначе осуществляет запись проверяемого блока через модуль доступа к хранилищу и возвращает значение ссылки записанного блока в модуль хранения метаданных, который осуществляет построение ветви префиксного дерева от узла, содержащего ссылку считанного блока, согласно определенному порядку обхода блока данных до первого различного сегмента и запись ссылок блоков данных по значениям отличных сегментов. В случае отсутствия ссылки на блок данных модуль верификации инициирует запись блока данных в модуль доступа к хранилищу и, получив ссылку записанного блока данных, передает ссылку на него в модуль хранения метаданных, который осуществляет запись ссылки блока данных в узел префиксного дерева по значению последнего проверенного сегмента.

Результатом приведенного технического решения является получение данных с устраненной избыточностью на блочном уровне.

Способ префиксной дедупликации цифровых данных, согласно которому цифровые данные разбивают на блоки данных равной длины и последовательно обрабатывают, помещая метаданные этих блоков поразрядно в префиксное дерево, отличающийся тем, что выбор метаданных осуществляется по сегментам также равной длины непосредственно из блоков данных, определение наличия идентичного обрабатываемому блоку среди уже обработанных осуществляется путем обхода префиксного дерева по заранее определенному порядку обхода сегментов, при отсутствии на очередном уровне префиксного дерева ссылки по значению соответствующего порядку обхода сегмента обрабатываемый блок признают уникальным и добавляют ссылку на этот блок на этом уровне префиксного дерева по соответствующему значению сегмента, в случае нахождения ссылки в префиксном дереве на обработанный блок данных выполняют полную сверку обоих блоков, в результате которой при обнаружении различия блоков осуществляют замену ссылки на обработанный блок ссылкой на новую ветвь дерева, содержащую последовательность узлов до первого различного сегмента, а в случае совпадения блоков принимают решение по определению обрабатываемого блока дубликатом.

Изобретение относится к кодированию и декодированию и предназначено для осуществления высокочастотной реконструкции аудиосигнала. Технический результат – обеспечение улучшенной реконструкции переходных процессов и тональных компонентов в высокочастотных полосах.

Эффективное ослабление опережающего эха в цифровом звуковом сигнале // 2622863

Изобретение относится к передаче цифровых звуковых сигналов по телекоммуникационным сетям и предназначено для обработки ослабления опережающего эха при декодировании цифрового звукового сигнала.

Устройство и способ для обработки кодированного сигнала и кодер и способ для генерирования кодированного сигнала // 2622860

Изобретение относится к средствам кодирования и декодирования аудиосигнала. Технический результат заключается в повышении качества кодированного аудиосигнала.

Адаптивное к тональности квантование низкой сложности аудиосигналов // 2621003

Изобретение относится к цифровой обработке аудиосигналов, более конкретно к квантованию аудиосигналов. Технический результат – обеспечение улучшенных концепций для адаптивного квантования аудиосигналов.

Способ квантования коэффициентов кодирования с линейным предсказанием, способ кодирования звука, способ деквантования коэффициентов кодирования с линейным предсказанием, способ декодирования звука и носитель записи // 2619710

Изобретение относится к способу квантования. Технический результат – увеличение производительности квантования модуля квантования.

Устройство и способ для выбора одного из первого алгоритма кодирования аудио и второго алгоритма кодирования аудио // 2618848

Изобретение относится к кодированию аудиосигналов, в частности к переключаемому кодированию аудиосигналов, где для различных частей аудиосигнала кодированный сигнал генерируется с использованием различных алгоритмов кодирования.

Устройство кодирования аудио, способ кодирования аудио, программа кодирования аудио, устройство декодирования аудио, способ декодирования аудио и программа декодирования аудио // 2612581

Изобретение относится к средствам для кодирования и декодирования аудио. Технический результат заключается в уменьшении задержки при восстановлении аудио после потери пакета при кодировании.

Способ подготовки, хранения и передачи оперативно-командной информации в комплексах телекодового управления // 2611257

Изобретение относится к области подготовки, хранения и передачи оперативно-командной информации в комплексах телекодового управления. Технический результат заключается в повышении надежности, достоверности и информационной безопасности передачи информации.

Модификатор энтропии и способ его использования // 2611249

Изобретение относится к области техники, связанной с модификаторами энтропии. Технический результат – повышение эффективности сжатия данных.

Уплотнение заголовков пакетов транспортного потока // 2608355

Изобретение относится к вычислительной технике. Технический результат заключается в повышении эффективности передачи и приема данных цифрового вещания.

Способ поиска пути по дереву // 2622629

Изобретение относится к компьютерной безопасности. Технический результат заключается в обеспечении блокировки приложением безопасности доступа к запрещенным путям, содержащимся в дереве поиска.

Система и способ управления запасами грудного молока // 2622375

Группа изобретений относится к медицине. Группа изобретений включает в себя способ сбора и анализа данных о запасах грудного молока, энергонезависимые машиночитаемые носители, контейнер для сбора сцеженного грудного молока у матери, способ управления прилегания соска матери внутри грудной чашки, систему для сбора сцеженного грудного молока у матери.

Самонастраивающаяся интерактивная система, способ и считываемый компьютером носитель данных обмена комментариями между пользователями // 2621962

Группа изобретений относится к технологиям обмена данными в социальных сетях с помощью технологии клиент-сервер. Техническим результатом является осуществление оценки доверия комментариям пользователей посредством рейтинга пользователя и автоматической блокировки пользователя с низким рейтингом.

Способ организации хранения связанных данных // 2621628

Изобретение относится к области хранения данных. Техническим результатом является повышение производительности системы управления базами данных.

Облегчение взаимодействия с пользовательским интерфейсом поиска на системном уровне // 2621622

Изобретение относится к пользовательским интерфейсам поиска. Технический результат заключается в обеспечении поиска по условию поиска в множественных разных областях, включающих в себя множественные разные приложения.

Система для определения отношения между первой и второй объектными сущностями данных // 2621185

Изобретение относится к области информационных технологий, а именно к системам структурирования, доступа и обработки данных. Технический результат заключается в обеспечении возможности динамического изменения отношений, выраженных через показатели, между объектными сущностями, в зависимости от событий и явлений.

Резюмирование потоков сообщений // 2621005

Изобретение относится к электронной связи. Технический результат – эффективное резюмирование потоков сообщений электронной связи.

Способ поиска входной строки в дереве поиска с индексацией используемых при построении дерева строк // 2620996

Изобретение относится к способам поиска входной строки в дереве поиска, содержащем маски. Технический результат настоящего изобретения заключается в повышении производительности поиска по дереву по сравнению с известными способами поиска по дереву, узлы которого содержат подстроки, путем сравнения подстрок входящей строки с подстроками только в тех узлах дерева, индексы в которых совпадают с индексами в таблице индексации для входящей строки, что уменьшает количество выполняемых операций сравнения подстрок.

Способ и система поиска и совместного использования видеоконтента // 2620257

Изобретение относится к области поиска и распределения видеоконтента, а именно к поиску и совместному использованию видеоконтента, относящегося к автодорожным ситуациям.

Способ использования кодов для доступа к данным // 2619526

Изобретение относится к способам предоставления доступа к данным, в частности к информации, доступ к которой осуществляется посредством сети передачи данных с помощью присвоения им кода.

Система и способ задания уровня безопасности подключения // 2622882

Изобретение относится к безопасному подключению мобильных устройств к компьютерам. Технический результат - защита данных пользователя при подключении мобильного устройства к компьютеру. Согласно варианту реализации используется способ задания уровня безопасности подключения, в котором: получают по меньшей мере один набор параметров окружения по меньшей мере от одного мобильного устройства; получают от мобильного устройства для каждого набора параметров окружения флаг режима передачи данных; сохраняют в базу данных окружений параметры окружения и соответствующий каждому набору параметров окружения флаг режима передачи данных; задают с помощью средства анализа уровень безопасности для каждого набора параметров окружения в зависимости от параметров окружения и значения флага режима передачи данных в соответствии с правилами задания уровня безопасности. 2 н. и 14 з.п. ф-лы, 5 ил.