Устройство и способ реконструкции фазовой информации с использованием структурного тензора на спектрограммах

Авторы патента:

ДИШ Саша (DE)

НИДЕРМАЙЕР Андреас (DE)

ФЮГ Рихард (DE)

G10L21/00 - Обработка сигналов речи для получения иного слышимого или неслышимого сигнала, например визуального, осязаемого, для того, чтобы модифицировать их качество или их разборчивость (G10L 19/00 имеет преимущество)

G10L19/00 - Техника анализа-синтеза речи для уменьшения избыточности, например в вокодерах ; кодирование или декодирование речи

Владельцы патента RU 2714579:

ФРАУНХОФЕР-ГЕЗЕЛЛЬШАФТ ЦУР ФЕРДЕРУНГ ДЕР АНГЕВАНДТЕН ФОРШУНГ Е.Ф. (DE)

Изобретение относится к обработке аудиосигнала и предназначено для разделения гармонического ударного остаточного звука с использованием структурного тензора на спектрограммах. Технический результат – обеспечение усовершенствованных принципов для обработки аудиосигналов. Устройство для реконструкции фазы из амплитудной спектрограммы аудиосигнала содержит определитель изменения частоты, выполненный с возможностью определения изменения частоты для каждого временно-частотного бина из множества временно-частотных бинов амплитудной спектрограммы аудиосигнала в зависимости от амплитудной спектрограммы аудиосигнала, и реконструктор фазы, выполненный с возможностью генерации значений фазы для множества временно-частотных бинов в зависимости от изменений частот, определенных для множества временно-частотных бинов. 5 н. и 16 з.п. ф-лы, 10 ил., 1 табл.

Настоящее изобретение относится к обработке аудиосигнала и, в частности, к устройству и способу для разделения гармонического-ударного-остаточного звука с использованием структурного тензора на спектрограммах.

Способность разделения звука на его гармоническую и ударную составляющие является эффективным этапом предобработки для многих применениях.

Хотя ʺгармоническое-ударное(-остаточное) разделениеʺ является общим термином, это обманчиво, поскольку предусматривает гармоническую структуру с синусоидами, имеющими частоту, кратную основной частоте. Несмотря на то, что правильный термин должен звучать как ʺтональное-ударное(-остаточное) разделениеʺ, термин ʺгармоническийʺ вместо ʺтональныйʺ используется в дальнейшем для упрощения понимания.

С использованием отделенной ударной составляющей музыкальной записи, например, могут приводить к повышению качества для отслеживания биений (см. [1]), анализа ритма и транскрипции ритмических инструментов. Отделенная гармоническая составляющая пригодна для транскрипции высоко звучащих инструментов и обнаружения струн (см. [3]). Кроме того, гармоническое-ударное разделение можно использовать в целях повторного смешивания, например, изменения отношения уровней между обеими составляющими сигнала (см. [4]), что делает общее восприятие звука ʺмягчеʺ или ʺжестчеʺ.

Некоторые способы гармонического-ударного разделения звука опираются на предположение о том, что гармонические звуки имеют горизонтальную структуру в амплитудной спектрограмме входного сигнала (во временном направлении), тогда как ударные звуки возникают как вертикальные структуры (в частотном направлении). В Ono et al. представлен способ, который сначала создает гармонически/ударно улучшенные спектрограммы путем диффузии во временном/частотном направлении (см. [5]). Затем, сравнивая эти улучшенные представления, можно принять решение, является ли звук гармоническим или ударным.

Аналогичный способ опубликован Fitzgerald, где улучшенные спектрограммы вычислялись с использованием медианной фильтрации в перпендикулярных направлениях вместо диффузии (см. [6]), что приводит к аналогичным результатам одновременно со снижением вычислительной сложности.

Система на основе модели синусоидальных+переходных+шумовых сигналов (S+T+N) (см. [7], [8], [9]), нацелена на описание соответствующих составляющих сигнала посредством малого набора параметров. Затем способ Fitzgerald был распространен на гармоническое-ударное-остаточное (HPR) разделение в [10]. Поскольку аудиосигналы часто состоят из звуков, которые не являются ни чисто гармоническими, ни чисто ударными, эта процедура захватывает эти звуки в третьей, остаточной составляющей. Хотя некоторые из этих остаточных сигналы отчетливо имеют изотропную, ни горизонтальную, ни вертикальную, структуру (как, например, шум), существуют звуки, которые не имеют чисто горизонтальной структуры, но, тем не менее, несут тональную информацию и могут восприниматься как гармоническая часть звука. Примерами являются частотно-модулированные тоны, которые могут возникать в записях скрипичной игры или вокальных партиях, где они упоминаются как имеющие ʺвибратоʺ. Благодаря стратегии распознавания горизонтальных или вертикальных структур, вышеупомянутые способы не всегда способны захватывать такие звуки в их гармонической составляющей.

Процедура гармонического-ударного разделения на основе разложения неотрицательной матрицы, которая способна захватывать гармонические звуки с негоризонтальными спектральными структурами в гармонической составляющей была предложена в [11]. Однако она не включает в себя третью остаточную составляющую.

Подводя итог вышесказанному, последние способы опираются на наблюдение, что в представлении спектрограммы, гармонические звуки приводят к горизонтальным структурам, и ударные звуки приводят к вертикальным структурам. Кроме того, эти способы связывают структуры, которые не являются ни горизонтальными, ни вертикальными (т.е. негармонические, неударные звуки) с остаточной категорией. Однако это предположение не ограничивается сигналами наподобие частотно-модулированных тонов, которые демонстрируют флуктуирующие спектральные структуры, и вместе с тем несут тональную информацию.

Структурный тензор, инструмент, используемый в обработке изображений (см. [12], [13]), применяется к изображениям в градации серого для обнаружения краев и углов (см. [14]) или для оценивания ориентации объекта. Структурный тензор уже использовался для предобработки и извлечения признаков в обработке аудиосигнала (см. [15], [16]).

Задача настоящего изобретения состоит в обеспечении усовершенствованных принципов для обработки аудиосигнала. Задача настоящего изобретения решается посредством устройства по п. 1, посредством системы по п. 18, посредством кодера по п. 19, посредством способа по п. 20 и посредством компьютерной программы по п. 21.

Предусмотрено устройство для реконструкции фазы из амплитудной спектрограммы аудиосигнала. Устройство содержит определитель изменения частоты, выполненный с возможностью определения изменения частоты для каждого временно-частотного бина из множества временно-частотных бинов амплитудной спектрограммы аудиосигнала в зависимости от амплитудной спектрограммы аудиосигнала, и реконструктор фазы, выполненный с возможностью генерации значений фазы для множества временно-частотных бинов в зависимости от изменений частот, определенных для множества временно-частотных бинов.

Кроме того, предусмотрен кодер, выполненный с возможностью генерации амплитудной спектрограммы аудиосигнала для устройства для реконструкции фазы, как описано выше.

Кроме того, предусмотрен способ реконструкции фазы из амплитудной спектрограммы аудиосигнала. Способ содержит:

- определение изменения частоты для каждого временно-частотного бина из множества временно-частотных бинов амплитудной спектрограммы аудиосигнала в зависимости от амплитудной спектрограммы аудиосигнала, и

- генерирование значений фазы для множества временно-частотных бинов в зависимости от изменений частот, определенных для множества временно-частотных бинов.

Кроме того, предусмотрена компьютерная программа, причем компьютерная программа выполнена с возможностью реализации вышеописанного способа при исполнении на компьютере или сигнальном процессоре.

В дальнейшем, варианты осуществления настоящего изобретения описаны более подробно со ссылкой на чертежи, в которых:

фиг. 1 демонстрирует устройство для анализа амплитудной спектрограммы аудиосигнала согласно варианту осуществления,

фиг. 2 демонстрирует спектрограмму смеси поющего голоса, кастаньет и аплодисментов с увеличенным участком согласно варианту осуществления, где ориентация стрелок указывает направление, и где длина стрелок указывает меру анизотропии,

фиг. 3 демонстрирует диапазон значений ориентации/анизотропии, вычисленных с использованием структурного тензора согласно варианту осуществления,

фиг. 4 демонстрирует сравнение между способами HPR-M и HPR-ST для извлечения синтетического входного сигнала,

фиг. 5 демонстрирует устройство согласно варианту осуществления, в котором устройство содержит генератор сигнала,

фиг. 6 демонстрирует устройство согласно варианту осуществления, в котором устройство содержит один или более микрофонов для записи аудиосигнала,

фиг. 7 демонстрирует устройство для реконструкции фазы согласно варианту осуществления,

фиг. 8 демонстрирует устройство для реконструкции фазы согласно варианту осуществления, содержащему генератор сигнала,

фиг. 9 демонстрирует систему, содержащую кодер и декодер согласно варианту осуществления, в котором декодером является устройство для реконструкции фазы согласно варианту осуществления, и

фиг. 10 демонстрирует аудиокодер и аудиодекодер согласно вариантам осуществления, использующим амплитудный спектр для передачи.

Фиг. 1 демонстрирует устройство для анализа амплитудной спектрограммы аудиосигнала согласно вариантам осуществления.

Устройство содержит определитель 110 изменения частоты. Определитель 110 изменения частоты выполнен с возможностью определения изменения частоты для каждого временно-частотного бина из множества временно-частотных бинов амплитудной спектрограммы аудиосигнала в зависимости от амплитудной спектрограммы аудиосигнала.

Кроме того, устройство содержит классификатор 120. Классификатор 120 выполнен с возможностью назначения каждого временно-частотного бина из множества временно-частотных бинов группе составляющих сигнала из двух или более групп составляющих сигнала в зависимости от изменения частоты, определенной для упомянутого временно-частотного бина.

Согласно варианту осуществления, определитель 110 изменения частоты может, например, быть выполнен с возможностью определения изменения частоты для каждого временно-частотного бина из множества временно-частотных бинов в зависимости от угла для упомянутого временно-частотного бина. Угол для упомянутого временно-частотного бина зависит от амплитудной спектрограммы аудиосигнала.

Согласно варианту осуществления, определитель 110 изменения частоты может, например, быть выполнен с возможностью определения изменения частоты для каждого временно-частотного бина из множества временно-частотных бинов дополнительно в зависимости от частоты дискретизации f_s аудиосигнала, и в зависимости от длины N окна анализа и в зависимости от величины скачка H окна анализа.

Согласно варианту осуществления, определитель 110 изменения частоты устройства выполнен с возможностью определения изменения частоты для каждого временно-частотного бина из множества временно-частотных бинов по формуле

где указывает временно-частотный бин из множества временно-частотных бинов, где указывает изменение частоты для упомянутого временно-частотного бина , где b указывает время, где k указывает частоту, где f_s указывает частоту дискретизации аудиосигнала, где N указывает длину окна анализа, где H указывает величину скачка окна анализа, и где указывает угол для упомянутого временно-частотного бина , причем угол зависит от амплитудной спектрограммы.

Согласно варианту осуществления, определитель 110 изменения частоты может, например, быть выполнен с возможностью определения частной производной S_b амплитудной спектрограммы S аудиосигнала по индексу времени. В таком варианте осуществления, определитель 110 изменения частоты может, например, быть выполнен с возможностью определения частной производной S_k амплитудной спектрограммы S аудиосигнала по индексу времени.

Кроме того, в таком варианте осуществления, определитель 110 изменения частоты выполнен с возможностью определения структурного тензора для каждого временно-частотного бина из множества временно-частотных бинов в зависимости от частной производной S_b амплитудной спектрограммы S аудиосигнала по индексу времени и в зависимости от частной производной S_k амплитудной спектрограммы S аудиосигнала по индексу частоты.

Кроме того, в таком варианте осуществления, определитель 110 изменения частоты может, например, быть выполнен с возможностью определения угла для каждого временно-частотного бина из множества временно-частотных бинов в зависимости от структурного тензора для упомянутого временно-частотного бина .

Согласно варианту осуществления, определитель 110 изменения частоты может, например, быть выполнен с возможностью определения угла для каждого временно-частотного бина из множества временно-частотных бинов путем определения двух составляющих и собственного вектора структурного тензора () упомянутого временно-частотного бина , и путем определения угла () для упомянутого временно-частотного бина () согласно

где указывает угол для упомянутого временно-частотного бина (), где b указывает время, где k указывает частоту, и где atan() указывает функцию, обратную тангенсу.

Согласно варианту осуществления, классификатор 120 может, например, быть выполнен с возможностью определения меры анизотропии для каждого временно-частотного бина из множества временно-частотных бинов согласно, по меньшей мере, одной из формул:

где - первое собственное значение, λ - второе собственное значение структурного тензора () упомянутого временно-частотного бина , и .

В таком варианте осуществления, классификатор 120 может, например, быть выполнен с возможностью назначения каждого временно-частотного бина из множества временно-частотных бинов группе составляющих сигнала из двух или более групп составляющих сигнала дополнительно в зависимости от изменения меры анизотропии.

Согласно варианту осуществления, классификатор 120 может, например, быть выполнен с возможностью определения меры анизотропии для упомянутого временно-частотного бина по формуле:

где - мера анизотропии в зависимости от упомянутого временно-частотного бина , и при этом классификатор 120 выполнен с возможностью назначения упомянутого временно-частотного бина группе остаточных составляющих из двух или более групп составляющих сигнала, если мера анизотропии меньше, чем первое пороговое значение c, или классификатор 120 выполнен с возможностью назначения упомянутого временно-частотного бина группе остаточных составляющих из двух или более групп составляющих сигнала, если мера анизотропии меньше или равен первому порогу c, где .

Согласно варианту осуществления, классификатор 120 может, например, быть выполнен с возможностью назначения каждого временно-частотного бина из множества временно-частотных бинов группе составляющих сигнала из двух или более групп составляющих сигнала в зависимости от изменения частоты, определенной для упомянутого временно-частотного бина , таким образом, что классификатор 120 назначает временно-частотный бин из множества временно-частотных бинов группе гармонических составляющих сигнала из двух или более групп составляющих сигнала в зависимости от того, меньше ли абсолютное значение изменения частоты, определенной для упомянутого временно-частотного бина , чем второй порог , или в зависимости от того, меньше или равно ли абсолютное значение изменения частоты, определенной для упомянутого временно-частотного бина , второму порогу , где .

Согласно варианту осуществления, классификатор 120 может, например, быть выполнен с возможностью назначения каждого временно-частотного бина из множества временно-частотных бинов группе составляющих сигнала из двух или более групп составляющих сигнала в зависимости от изменения частоты, определенной для упомянутого временно-частотного бина , таким образом, что классификатор 120 назначает временно-частотный бин из множества временно-частотных бинов группе ударных составляющих сигнала из двух или более групп составляющих сигнала в зависимости от того, больше ли абсолютное значение изменения частоты, определенной для упомянутого временно-частотного бина , чем третий порог , или в зависимости от того, больше или равно ли абсолютное значение изменения () частоты, определенной для упомянутого временно-частотного бина , третьему порогу , где .

Далее обеспечено подробное описание вариантов осуществления.

Варианты осуществления предусматривают усовершенствованные принципы гармонического-ударного-остаточного (HPR) разделения звука на основе структурного тензора. Некоторые варианты осуществления захватывают частотно-модулированные звуки, которые удерживают тональную информацию в гармонической составляющей с использованием информации об ориентации спектральных структур, обеспеченных структурным тензором.

Некоторые варианты осуществления базируются на том, что строгая классификация на горизонтальный и вертикальный неприемлемо для этих сигналов и может приводить к утечке тональной информации в остаточную составляющую. Варианты осуществления относятся к новому способу, который альтернативно использует структурный тензор, математический инструмент для вычисления преобладающие углы ориентации в амплитудной спектрограмме. Варианты осуществления используют эту информацию ориентации для различения между гармоническими, ударными и остаточными составляющими сигнала, даже в случае частотно-модулированных сигналов. Наконец, эффективность принципа вариантов осуществления проверяется посредством мер объективного оценивания, а также примеров аудиосигнала.

Кроме того, некоторые варианты осуществления базируются на том, что структурный тензор может рассматриваться как черный ящик, куда вводится изображение в градации серого и откуда выводятся углы n для каждого пикселя, соответствующего направлению наименьшего изменения, и мера определенности или анизотропии для этого направления для каждого пикселя. Структурный тензор дополнительно дает возможность сглаживания, которое снижает влияние шума для повышения устойчивости. Кроме того, меру определенности можно использовать для определения качества оцененных углов. Низкое значение этой меры определенности указывает, что пиксель находится на участке постоянной яркости без какого-либо четкого направления.

Локальное изменение частоты может, например, извлекаться из углов, полученных структурным тензором. Из этих углов, можно определять, принадлежит ли временно-частотный бин в спектрограмме гармонической (= низкое локальное изменение частоты) или ударной (= высокое или бесконечное локальное изменение частоты) составляющей.

Предусмотрены усовершенствованные варианты осуществления для классификации и разделения гармонических-ударных-остаточных составляющих.

Разделение гармонического-ударного-остаточного звука является полезным инструментом предобработки для применений, например, транскрипции высоко звучащего инструмента или извлечения ритма. Вместо поиска только строго горизонтальных и вертикальных структур, некоторые варианты осуществления определяют преобладающие углы ориентации, а также, локальную анизотропию в спектрограмме с использованием структурного тензора, известного из обработки изображений.

Согласно вариантам осуществления, обеспеченная информация об ориентации спектральных структур может затем использоваться для различения между гармоническими, ударными и остаточными составляющими сигнала путем установления надлежащих порогов, см. Фиг. 2.

Фиг. 2 демонстрирует спектрограмму смеси поющего голоса, кастаньет и аплодисментов с увеличенным участком, дополнительно показывая направление (ориентацию стрелок) и меру анизотропии (длину стрелок), полученную структурным тензором. Цвет стрелок указывают, назначен ли соответствующий временно-частотный бин гармонической составляющей (зоны 210), ударной составляющей (зоны 230), или остаточной составляющей (зоны 220) на основе информации ориентации и анизотропии.

Все бины, не имеющие ни высокую, ни низкую скорость локального изменения частоты или меру определенности, которая указывает постоянный участок, были назначены принадлежащими остаточной составляющей. Пример этого разделения спектрограммы представлен на фиг. 2. Варианты осуществления лучше осуществляются для аудиосигналов, содержащих частотно-модулированные звуки, чем аналогичные способы, работающие на амплитудной спектрограмме.

Сначала, описан принцип структурного тензора, и этот общий принцип распространяется на применение в контексте обработки аудиосигнала.

В дальнейшем, матрицы и векторы записываются жирным шрифтом для удобства обозначения. Кроме того, оператор (⋅) используется для указания конкретного элемента. В этом случае матрица или вектор записывается нежирным шрифтом для демонстрации ее (его) скалярного использования.

Сначала, описано вычисление спектрограммы согласно вариантам осуществления. Аудиосигнал может, например, быть (дискретным) входным аудиосигналом.

Структурный тензор может применяться к представлению спектрограммы дискретного входного аудиосигнала с частотой дискретизации f_s. Для спектрального анализа используется кратковременное преобразование Фурье (STFT)

(1)

где , b обозначает индекс кадра, k - индекс частоты, и - функция окна длиной N (другими словами: N - длина окна анализа). , H ≤ N представляет величину скачка анализа окна. Следует отметить, что поскольку спектр STFT имеет некоторую симметрию относительно точки Найквиста в , обработка может, например, ограничиваться 0 ≤ k ≤ , поскольку симметрия может реконструироваться в ходе обратного STFT.

Спектрограмму можно получить с использованием вышеприведенной формулы (1). Спектрограмма содержит множество спектров, где спектры следуют друг за другом по времени. Второй спектр из множества спектры следует за первым спектром по времени, если существуют, по меньшей мере, некоторые вторые выборки во временной области, которые используются для генерации второго спектра и которые не используются для генерации первого спектра, и которые являются выборками во временной области, которые относятся к более позднему моменту времени, чем первые выборки во временной области, которые используются для генерации первого спектра. Окна выборок во временной области, используемых для генерирования соседствующих по времени спектров, могут, например, перекрываются.

Согласно вариантам осуществления, длина окна анализа N может, например, задаваться как:

256 выборок ≤ N ≤ 2048 выборок.

В некоторых вариантах осуществления, длина окна анализа может быть равна, например, 2048. В других вариантах осуществления, длина окна анализа может быть равна, например, 1024 выборкам. В дополнительных вариантах осуществления, длина окна анализа может быть равна, например, 768 выборкам. В дополнительных вариантах осуществления, длина окна анализа может быть равна, например, 256 выборкам.

Согласно вариантам осуществления, величина H скачка анализа может, например, находиться в диапазоне между 25% и 75% окна анализа. В таких вариантах осуществления:

0,25 N ≤ H ≤ 0,75 N.

Таким образом, в таких вариантах осуществления, если окно анализа имеет, например, 2048 выборок (N=2048), величина скачка анализа может находиться, например, в диапазоне:

512 выборок ≤ H ≤ 1536 выборок.

Если окно анализа имеет, например, 256 выборок (N=256), величина скачка анализа может находиться, например, в диапазоне:

64 выборки ≤ H ≤ 192 выборки.

В предпочтительных вариантах осуществления, величина скачка анализа может, например, составлять 50% окна анализа. Это соответствует перекрытию окон двух последовательных окон анализа 50%.

В некоторых вариантах осуществления, величина скачка анализа может составлять, например, 25% окна анализа. Это соответствует перекрытию окон двух последовательных окон анализа 75%.

В других вариантах осуществления, величина скачка анализа может составлять, например, 75% окна анализа. Это соответствует перекрытию окон двух последовательных окон анализа 25%.

Следует отметить, что принципы настоящего изобретения применяются для любого рода преобразования из временной области в спектральную область, например, для MDCT (модифицированного дискретного косинусного преобразования), MDST (модифицированного дискретного синусного преобразования, DSTFT (дискретного кратковременного преобразования Фурье) и т.д.

Действительнозначная логарифмическая спектрограмма может, например, вычисляться как:

(2)

Амплитудная спектрограмма аудиосигнала может обозначаться S и значение амплитудной спектрограммы для временно-частотного бина может обозначаться .

Далее описано вычисление структурного тензора согласно вариантам осуществления.

Для вычисления структурного тензора необходимы частные производные S. Частная производная по индексу b времени задается согласно

S_b=S*d (3)

тогда как частная производная по индексу k частоты задается согласно

S_k=S*d^T (4)

где d - оператор дискретного дифференцирования (например, для центральных разностей можно выбирать d=) и обозначает 2-мерную свертку.

Кроме того, можно задать:

T₁₁=(S_b ⊙ S_b)*G (5)

T₂₁=T₁₂=(S_k ⊙ S_b)*G (6)

T₂₂=(S_k ⊙ S_k)*G (7)

где ⊙ - скалярное матричное умножение, также известные как адамарово произведение, и G - 2-D гауссов сглаживающий фильтр, имеющий среднеквадратическое отклонение в направлении индекса времени и в направлении индекса частоты. Затем структурный тензор задается симметричной и положительной квазиопределенной матрицей

(8)

Структурный тензор содержит информацию о преобладающей ориентации спектрограммы в позиции . Следует отметить, что в особом случае, когда G является скалярным, не содержит больше информации, чем градиент в этой позиции в спектрограмме. Однако в отличие от градиента, структурный тензор может сглаживаться посредством G без эффектов подавления, что делает его более устойчивым к шуму.

Следует отметить, что структурный тензор задается для каждого временно-частотного бина из множества временно-частотных бинов. Поэтому, когда рассматривается множество временно-частотных бинов, например, временно-частотные бины то существуют множество структурных тензоров например, для каждого временно-частотного бина из множества временно-частотных бинов, определяется один структурный тензор .

В дальнейшем, вычисление углов и меры анизотропии согласно вариантам осуществления описан.

Информация об ориентации для каждого бина в спектрограмме получается путем вычисления собственных значений , , где , и соответствующих собственных векторов и структурного тензора . Следует отметить, что , собственный вектор, соответствующий меньшему собственному значению , указывает направление минимального изменения в спектрограмме с индексом , тогда как указывает направление наибольшего изменения. Таким образом, угол ориентации в конкретном бине можно получить согласно

(9)

где и являются составляющими собственного вектора .

atan() указывает функцию, обратную тангенсу.

Кроме того, мера анизотропии

(10)

где можно определять для каждого бина. Следует отметить, что . Значения близкие к 1, указывают высокую анизотропию спектрограммы с индексом , тогда как постоянное соседство приводит к значениям, близким к 0. Порог , который задает предел, который следует рассматривать анизотропным, можно выбирать для дополнительного увеличения устойчивости к шуму.

Физический смысл угла можно понимать с учетом непрерывного сигнала с изменением мгновенной частоты в интервале времени. Таким образом, мгновенная скорость изменения частоты выражается как

(11)

Например, согласно вариантам осуществления, углы (указанные направлением стрелок на фиг. 2), полученные с помощью структурного тензора, могут, например, преобразовываться в скорость локального изменения частоты

(11a)

для каждого временно-частотного бина спектрограммы.

Изменение частоты для каждого временно-частотного бина может, например, именоваться мгновенной скоростью изменения частоты.

С учетом частоты дискретизации, длины и величины скачка применяемого анализа STFT, соотношение между углами в спектрограмме и мгновенной скоростью изменения частоты для каждого бина можно вывести согласно

(12)

Кроме того, среднеквадратические отклонения сглаживающего фильтра G в дискретной области и можно преобразовать в непрерывные физические параметры и согласно

, (13)

Далее описано гармоническое-ударное-остаточное разделение с использованием структурного тензора.

Информация, полученная через структурный тензор, может применяться к проблеме разделения HPR, например, для классификации каждого бина в спектрограмме как часть либо гармонической, либо ударной, либо остаточной составляющей входного сигнала.

Варианты осуществления базируются на том, что бины, назначенные гармоническим составляющим, должны принадлежать довольно горизонтальным структурам, тогда как бины, принадлежащие довольно вертикальным структурам, следует назначать ударной составляющей. Кроме того, бины, которые не принадлежат никакого рода ориентированной структуре, следует назначать остаточной составляющей.

Согласно вариантам осуществления, бин может, например, назначаться гармонической составляющей, если он удовлетворяет первому из следующих двух ограничений.

Согласно предпочтительным вариантам осуществления, бин может, например, назначаться гармонической составляющей, если он удовлетворяет обоим из следующих двух ограничений:

- первое ограничение может состоять, например, в том, что абсолютное значение угла меньше (или равно) порога . Порог может, например, находиться в диапазоне . Это означает, что бин должен быть частью некоторой спектральной структуры, которая не имеет наклона, большего или меньшего, чем . Таким образом, также частотно-модулированные звуки могут рассматриваться как часть гармонической составляющей, в зависимости от параметра .

- второе ограничение может состоять, например, в том, что мера анизотропии поддерживает, что бин является частью некоторой направленной, анизотропной структуры, и поэтому превышает дополнительный порог c. Следует отметить, что для данного бина , угол и мера анизотропии совместно задают точку в , заданную в полярных координатах.

Аналогично, согласно вариантам осуществления, другой угловой порог назначается для задания, когда бин следует назначать ударной составляющей (зоны 330 с вертикальными линиями на фиг. 3).

Таким образом, согласно вариантам осуществления, бин может, например, назначаться ударной составляющей, если он удовлетворяет первому из следующих двух ограничений.

Согласно предпочтительным вариантам осуществления, бин может, например, назначаться ударной составляющей, если он удовлетворяет обоим из следующих двух ограничений:

- первое ограничение может состоять, например, в том, что абсолютное значение угла больше (или равно) порогового значения . Порог может, например, находиться в диапазоне . Это означает, что бин должен быть частью некоторой спектральной структуры, которая не имеет наклона, большего или меньшего, чем . Таким образом, также частотно-модулированные звуки могут рассматриваться как часть гармонической составляющей, в зависимости от параметра .

Наконец, согласно вариантам осуществления, все бины, которые не назначаются ни гармонической, ни ударной составляющей, могут, например, назначаться остаточной составляющей.

Вышеописанный процесс назначения может выражаться путем задания маски для гармонической составляющей M_h, маски для ударной составляющей M_p и маски для остаточной составляющей M_r.

Следует отметить, что вместо использования порогового значения и порогового значения пороги, согласно вариантам осуществления, могут, например, задаваться на максимальной абсолютной скорости изменения частоты , где , для придания выбору параметров лучшей физической интерпретации. Затем маски задаются согласно:

(14)

(15)

(16)

Наконец, STFT гармонической составляющей X_h, ударной составляющей X_p и остаточной составляющей X_r получаются согласно

X_h=M_h⊙ X (17)

X_p=M_p⊙ X (18)

X_r=M_r⊙ X (19)

Затем соответствующие временные сигналы можно вычислять посредством обратного STFT.

Фиг. 3 демонстрирует диапазон значений ориентации/анизотропии, вычисленных структурным тензором.

В частности, на фиг. 3 показано подмножество всех точек, которые приводят к назначению гармонической составляющей. В частности, значения в зонах 310 с волнистыми линиями приводят к назначению гармонической составляющей.

Значения в зонах 330 с вертикальными линиями приводят к назначению ударной составляющей.

Значения в зонах 320, отмеченных точками, приводят к назначению остаточной составляющей.

Порог задает линию 301 на фиг. 3, и порог задает линию 302 на фиг. 3.

Фиг. 5 демонстрирует устройство согласно варианту осуществления, в котором устройство содержит генератор 130 сигнала, выполненный с возможностью генерации выходного аудиосигнала в зависимости от назначения множества временно-частотных бинов двум или более группам составляющих сигнала.

Например, генератор сигнала может фильтровать разные составляющие аудиосигнала путем применения разных весовых коэффициентов к значениям амплитуды временно-частотных бинов разных групп составляющих сигнала. Например, группа гармонических составляющих сигнала может иметь первый весовой коэффициент w_h, группа ударных составляющих сигнала может иметь второй весовой коэффициент w_p, и группа остаточных составляющих сигнала может иметь первый весовой коэффициент w_r, и значение амплитуды каждого временно-частотного бина из множества временно-частотных бинов может, например, взвешиваться весовым коэффициентом группы составляющих сигнала, которой назначается временно-частотный бин.

Например, для выделения гармонических составляющих сигнала, согласно варианту осуществления, где весовые коэффициенты умножаются на линейные значения амплитуды, например,

w_h=1,3, w_p=0,7, и w_r=0,2

Например, для выделения гармонических составляющих сигнала, согласно варианту осуществления, где весовые коэффициенты прибавляются к логарифмическим значениям амплитуды, например,

w_h=+0,26, w_p=-0,35, и w_r=-1,61

Например, для выделения ударные составляющие сигнала, согласно варианту осуществления, где весовые коэффициенты умножаются на линейные значения амплитуды, например,

w_h=0,7, w_p=1,3, и w_r=0,2

Например, для выделения ударные составляющие сигнала, согласно варианту осуществления, где весовые коэффициенты прибавляются к логарифмическим значениям амплитуды, например,

w_h=-0,35, w_p=+0,26, и w_r=-1,61

Таким образом, генератор 130 сигнала выполнен с возможностью применения весового коэффициента к значению амплитуды каждого временно-частотного бина из множества временно-частотных бинов для получения выходного аудиосигнала, причем весовой коэффициент, который применяется к упомянутому временно-частотному бину, зависит от группы составляющих сигнала, которой назначен упомянутый временно-частотный бин.

В конкретном варианте осуществления, представленном на фиг. 5, процессор 130 сигнала может быть, например, повышающим микшером, выполненным с возможностью повышающего микширования аудиосигнала для получения выходного аудиосигнала, содержащего два или более выходных аудиоканалов. Повышающий микшер может, например, быть выполнен с возможностью генерации двух или более выходных аудиоканалов в зависимости от назначения множества временно-частотных бинов двум или более группам составляющих сигнала.

Например, два или более выходных аудиоканалов могут генерироваться из фильтра аудиосигнала разных составляющих аудиосигнала путем применения разных весовых коэффициентов к значениям амплитуды временно-частотных бинов разных групп составляющих сигнала, как описано выше.

Однако для генерации разных аудиоканалов могут использоваться разные весовые коэффициенты для групп составляющих сигнала, которые могут, например, быть специфичными для каждого из разных выходных аудиоканалов.

Например, для первого выходного аудиоканала, весовые коэффициенты, прибавляемые к логарифмическим значениям амплитуды, могут, например, быть

w_1h=+0,26, w_1p=-0,35, и w_1r=-1,61.

И для второго выходного аудиоканала, весовые коэффициенты, прибавляемые к логарифмическим значениям амплитуды, могут, например, быть

w_2h=+0,35, w_2p=-0,26, и w_2r=-1,61.

Например, при повышающем смешивании аудиосигнала для получения пяти выходных аудиоканалов, переднего левого, центрального, правого, левого окружающего и правого окружающего:

- гармонический весовой коэффициент w_1h можно увеличивать для генерирования левого, центрального и правого выходных аудиоканалов по сравнению с гармоническим весовым коэффициентом w_2h для генерирования левого окружающего и правого окружающего выходных аудиоканалов.

- ударный весовой коэффициент w_1p можно уменьшать для генерирования левого, центрального и правого выходных аудиоканалов по сравнению с ударным весовым коэффициентом w_2p для генерирования левого окружающего и правого окружающего выходных аудиоканалов.

Отдельные весовые коэффициенты можно использовать для генерирования каждого выходного аудиоканала.

Фиг. 6 демонстрирует устройство согласно варианту осуществления, в котором устройство содержит один или более микрофонов 171, 172 для записи аудиосигнала.

На фиг. 6, первый микрофон 171 записывает первый аудиоканал аудиосигнала. Необязательный второй микрофон 172 записывает необязательный второй аудиоканал аудиосигнала.

Кроме того, устройство, представленное на фиг. 6, дополнительно содержит генератор 180 амплитудной спектрограммы для генерирования амплитудной спектрограммы аудиосигнала из аудиосигнала который содержит первый аудиоканал и, в необязательном порядке, содержит необязательный второй аудиоканал. Генерирование амплитудной спектрограммы из аудиосигнала является общеизвестным принципом для специалиста в данной области техники.

Далее рассматривается оценивание вариантов осуществления.

Чтобы продемонстрировать эффективность вариантов осуществления при захвате частотно-модулированных звуков в гармонической составляющей, способ HPR на основе структурного тензора (HPR-ST) согласно вариантам осуществления сравнивается с неитерационным способом на основе медианной фильтрации, представленным на [10] (HPR-M). Дополнительно, метрики также вычисляются для разделения результатов с идеальными двоичными масками (IBM), которые служат эталоном для максимально достижимого качества разделения.

С учетом параметров испытуемой системы, для обоих HPR-ST и HPR-M, выбираются параметры STFT f_s=22050 Гц, N=1024 и H=256, с использованием окна синуса для w. Параметры разделения для HPR-M были выбраны, как в экспериментах, осуществляемых в [10]. Согласно вариантам осуществления, структурный тензор вычисляется с использованием дифференциального оператора, например, оператора Шарра [17] в качестве оператора d дискретного дифференцирования. Сглаживание осуществлялось с использованием изотропного гауссова фильтра со среднеквадратическими отклонениями , что дает и . Наконец, пороги для разделения были заданы как и .

Следует отметить, что благодаря выбору и согласно вариантам осуществления, даже очень крутые структуры в спектрограмме назначаются гармонической составляющей. Варианты осуществления используют наблюдения о звуках вибрато реального мира, как, например, показано на фиг. 2. Здесь можно видеть в ряде случаев, что вибрато в поющем голосе имеет очень высокую мгновенную скорость изменения частоты. Кроме того, следует отметить, что при выборе , назначение бина в спектрограмме остаточной составляющей зависит только от его меры анизотропии.

Эффективность HPR-ST согласно вариантам осуществления оценивалась путем сравнения с традиционным способом HPR-M на основе медианной фильтрации, представленным в [10] посредством мер объективного оценивания, а также примеров аудиосигнала.

Для сравнения поведения HPR-ST согласно вариантам осуществления и HPR-M уровня техники применительно к сигналам, содержащим частотно-модулированные звуки, для получения объективных результатов, генерировались два испытательных элемента.

Испытательный элемент 1 состоит из суперпозиции чисто синтетических звуком. В качестве гармонического источника был выбран тон вибрато с основной частотой 1000 Гц, частотой вибрато 3 Гц, ширины вибрато 50 Гц и 4 обертонами. В качестве ударного источника используется несколько импульсов, тогда как белый шум не представляет ни гармонический, ни ударный, ни остаточный источник.

Испытательный элемент 2 генерировался наложением сигналов реального мира поющего голоса с вибрато (гармоническим), кастаньетами (ударным) и аплодисментами (ни гармоническим, ни ударным).

Интерпретируя разделение HPR этих элементов как проблему разделение источников, вычисляли стандартные метрики оценивания разделения источников (отношение источника к искажению SDR, отношение источника к помехе SIR, и отношения источника к артефактам SAR, представленные в [18]) для разделения результатов обеих процедур. Результаты приведены в таблице 1.

В таблице 1 приведены меры объективного оценивания, где все значения заданы в дБ:

		SDR	SDR	SAR
IBM	HPR-M	HPR-ST	IBM	HPR-M	HPR-ST	IBM	HPR-M	HPR-ST
элемент 1	вибрато	29,43	11,51	21,25	34,26	27,94	30,01	31,16	11,61	21,88
элемент 1	импульсы	8,56	-10,33	-1,47	20,31	-7,96	12,03	8,90	2,02	-1,00
шум	8,49	-13,53	2,58	24,70	-11,99	14,12	8,61	3,97	3,06
элемент 2	вокальные партии	14,82	6,48	9,18	22,75	20,83	15,61	15,60	6,68	10,42
элемент 2	кастаньеты	8,48	3,79	2,37	21,59	16,09	17,96	8,73	4,16	2,56
аплодисменты	7,39	-2,03	-0,37	20,31	1,11	6,34	7,66	3,33	1,58

(Таблица 1)

Для элемента 1 HPR-ST дает SDR 21,25 дБ для тона вибрато, и поэтому он ближе к оптимальному результату разделения IBM (29,43 дБ), чем к результату разделения HPR-M (11,51 дБ). Это указывает, что HPR-ST улучшает захват этого частотно-модулированного звука в гармонической составляющей по сравнению с HPRM. Это также показано на фиг. 4.

Фиг. 4 демонстрирует сравнение между способами HPR-M и HPR-ST для извлечения синтетического входного сигнала (элемент 1). Для улучшенной видимости спектрограммы вычислялись с другими параметрами STFT, чем использовались для алгоритмов разделения.

Фиг. 4 (a) демонстрирует частоту входного сигнала относительно времени. На фиг. 4 графически изображены спектрограммы гармонических составляющих и сумма ударной и остаточной составляющих, вычисленных для обеих процедур. Можно видеть, что для HPR-M крутые наклоны тона вибрато подмешиваются в остаточную составляющую (фиг. 4 (b) и (c) ), тогда как HPR-ST (фиг. 4 (d) и (e)) дает хорошее разделение. Это также поясняет очень низкие значения SIR HPRM для остаточной составляющей по сравнению с HPR-ST (-11,99 дБ в отличие от 14,12 дБ).

Следует отметить, что высокое значение SIR HPR-M для гармонической составляющей отражает лишь тот факт, что другие составляющие создают очень малую помеху, а не что звук вибрато хорошо захватывается в целом. В целом большинство наблюдений для элемента 1 менее выражено, но также пригодно для смеси звуков реального мира в элементе 2. Для этого элемента, значение SIR HPR-M для вокальных партий даже превышает значение SIR HPR-ST (20,83 дБ в отличие от 15,61 дБ). Опять же, низкое значение SIR для аплодисментов поддерживает, что участки вибрато в вокальных партиях подмешиваются в остаточную составляющую для HPR-M (1,11 дБ), тогда как остаточная составляющая HPR-ST содержит меньше звуковых помех (6,34 дБ). Это указывает, что варианты осуществления позволяют захватывать частотно-модулированные структуры вокальных партий гораздо лучше, чем HPR-M.

В итоге, для сигналов, которые содержат частотно-модулированные тоны, принцип HPR-ST вариантов осуществления обеспечивает гораздо лучшие результаты разделения по сравнению с HPR-M.

Некоторые варианты осуществления используют структурный тензор для обнаружения поющего голоса. (Обнаружение поющего голоса согласно уровню техники описано в [2]).

Далее описан другой аспект вариантов осуществления. Этот дополнительный аспект относится к реконструкции фазы из амплитудной спектрограммы.

Фиг. 7 демонстрирует устройство для реконструкции фазы из амплитудной спектрограммы аудиосигнала согласно варианту осуществления.

Устройство содержит определитель 110 изменения частоты, выполненный с возможностью определения изменения частоты для каждого временно-частотного бина из множества временно-частотных бинов амплитудной спектрограммы аудиосигнала в зависимости от амплитудной спектрограммы аудиосигнала.

Кроме того, устройство содержит реконструктор 140 фазы, выполненный с возможностью генерации значений фазы для множества временно-частотных бинов в зависимости от изменений частот, определенных для множества временно-частотных бинов.

Согласно вариантам осуществления, реконструктор 140 фазы может, например, быть выполнен с возможностью генерации значения фазы для каждого временно-частотного бина из множества временно-частотных бинов путем интегрирования изменений частоты два раза (путем интегрирования два раза во времени). Другими словами, согласно вариантам осуществления, реконструктор 140 фазы выполнен с возможностью генерации значения фазы для каждого временно-частотного бина из множества временно-частотных бинов путем интегрирования два раза по времени. Поэтому, другими словами, интервал(ы), по которому(ым) дважды осуществляется интегрирование, проходит(ят) по оси времени спектрограммы.

Согласно другим вариантам осуществления, реконструктор 140 фазы выполнен с возможностью генерации значения фазы для каждого временно-частотного бина из множества временно-частотных бинов путем интегрирования два раза по частоте (путем интегрирования два раза спектрально). Поэтому, другими словами, интервал(ы), по которому(ым) дважды осуществляется интегрирование, проходит(ят) по оси частоты спектрограммы. Например, интегрирование по частоте, которое осуществляется дважды, может, например, осуществляться согласно формулам (30) и (31).

Согласно вариантам осуществления, реконструктор 140 фазы может, например, быть выполнен с возможностью генерации значений фазы для множества временно-частотных бинов по формуле

где b₀ может, например, быть индексом, указывающим блок анализа из множества блоков. b может, например, быть дополнительным индексом, указывающим дополнительный блок анализа из множества блоков. H может, например, указывать величину скачка. и и могут, например, указывать значения фазы.

Согласно вариантам осуществления, определитель 110 изменения частоты может, например, быть выполнен с возможностью определения изменения частоты для каждого временно-частотного бина из множества временно-частотных бинов в зависимости от угла для упомянутого временно-частотного бина, причем угол для упомянутого временно-частотного бина зависит от амплитудной спектрограммы аудиосигнала.

Согласно вариантам осуществления, определитель 110 изменения частоты может, например, быть выполнен с возможностью определения изменения частоты для каждого временно-частотного бина из множества временно-частотных бинов дополнительно в зависимости от частоты дискретизации f_s аудиосигнала, и в зависимости от длины N окна анализа и в зависимости от величины скачка H окна анализа.

Согласно вариантам осуществления, определитель 110 изменения частоты устройства может, например, быть выполнен с возможностью определения изменения частоты для каждого временно-частотного бина из множества временно-частотных бинов по формуле

где указывает временно-частотный бин из множества временно-частотных бинов, указывает изменение частоты для упомянутого временно-частотного бина , b указывает время, k указывает частоту, f_s указывает частоту дискретизации аудиосигнала, N указывает длину окна анализа, H указывает величину скачка окна анализа, и указывает угол для упомянутого временно-частотного бина , причем угол зависит от амплитудной спектрограммы.

Согласно вариантам осуществления, определитель 110 изменения частоты может, например, быть выполнен с возможностью определения частной производной S_b амплитудной спектрограммы S аудиосигнала по индексу времени. Кроме того, определитель 110 изменения частоты может, например, быть выполнен с возможностью определения частной производной S_k амплитудной спектрограммы S аудиосигнала по индексу времени. Кроме того, определитель 110 изменения частоты может, например, быть выполнен с возможностью определения структурного тензора для каждого временно-частотного бина из множества временно-частотных бинов в зависимости от частной производной S_b амплитудной спектрограммы S аудиосигнала по индексу времени и в зависимости от частной производной S_k амплитудной спектрограммы S аудиосигнала по индексу частоты. Кроме того, определитель 110 изменения частоты может, например, быть выполнен с возможностью определения угла для каждого временно-частотного бина из множества временно-частотных бинов в зависимости от структурного тензора для упомянутого временно-частотного бина .

Согласно вариантам осуществления, определитель 110 изменения частоты может, например, быть выполнен с возможностью определения угла для каждого временно-частотного бина из множества временно-частотных бинов путем определения двух составляющих и собственного вектора структурного тензора упомянутого временно-частотного бина , и путем определения угла для упомянутого временно-частотного бина согласно

где указывает угол для упомянутого временно-частотного бина ; b указывает время, k указывает частоту, и atan() указывает функцию, обратную тангенсу.

Согласно вариантам осуществления, реконструктор 140 фазы, выполненный с возможностью генерации значений фазы для каждого временно-частотного бина из множества временно-частотных бинов в зависимости от изменений частот, определенных для множества временно-частотных бинов.

Согласно вариантам осуществления, реконструктор 140 фазы может, например, быть выполнен с возможностью определения меры анизотропии для каждого временно-частотного бина из множества временно-частотных бинов в зависимости от изменения частоты, определенной для каждого временно-частотного бина из множества временно-частотных бинов.

Согласно вариантам осуществления, реконструктор 140 фазы может, например, быть выполнен с возможностью определения меры анизотропии для каждого временно-частотного бина из множества временно-частотных бинов согласно, по меньшей мере, одной из формул:

где - первое собственное значение, λ - второе собственное значение структурного тензора () упомянутого временно-частотного бина , и . Реконструктор 140 фазы может, например, быть выполнен с возможностью назначения каждого временно-частотного бина из множества временно-частотных бинов группе составляющих сигнала из двух или более групп составляющих сигнала дополнительно в зависимости от изменения меры анизотропии.

Согласно вариантам осуществления, реконструктор 140 фазы выполнен с возможностью определения меры анизотропии для упомянутого временно-частотного бина по формуле:

где - мера анизотропии в зависимости от упомянутого временно-частотного бина . Реконструктор 140 фазы может, например, быть выполнен с возможностью назначения упомянутого временно-частотного бина группе остаточных составляющих из двух или более групп составляющих сигнала, если мера анизотропии меньше, чем верхнее пороговое значение c, или реконструктор 140 фазы может, например, быть выполнен с возможностью назначения упомянутого временно-частотного бина группе остаточных составляющих из двух или более групп составляющих сигнала, если мера анизотропии меньше или равна верхнему пороговому значению c. .

Реконструктор 140 фазы может, например, быть выполнен с возможностью генерации значения фазы для каждого временно-частотного бина из множества временно-частотных бинов путем интегрирования изменений частоты два раза, если режим реконструкции фазы, определенный реконструктором 140 фазы для упомянутого временно-частотного бина указывает первый режим. Кроме того, реконструктор 140 фазы может, например, быть выполнен с возможностью определения фазы для каждого временно-частотного бина из множества временно-частотных бинов путем интегрирования изменений частоты два раза, если режим реконструкции фазы, определенный реконструктором 140 фазы для упомянутого временно-частотного бина указывает второй режим, отличный от первого режима.

Согласно вариантам осуществления, реконструктор 140 фазы может, например, быть выполнен с возможностью определения режима реконструкции фазы для каждого временно-частотного бина из множества временно-частотных бинов таким образом, что режим реконструкции фазы указывает первый режим, если мера анизотропии больше, чем нижнее пороговое значение c, и таким образом, что режим реконструкции фазы указывает второй режим, если мера анизотропии для упомянутого временно-частотного бина меньше или равна нижнему пороговому значению c.

Согласно вариантам осуществления, верхнее пороговое значение и нижнее пороговое значение c могут, например, быть равны.

Альтернативно, реконструктор (140) фазы выполнен с возможностью определения режима реконструкции фазы для каждого временно-частотного бина из множества временно-частотных бинов таким образом, что режим реконструкции фазы указывает первый режим, если мера анизотропии для упомянутого временно-частотного бина больше или равна пороговому значению c, и таким образом, что режим реконструкции фазы указывает второй режим, если мера анизотропии меньше порогового значения c.

Первый режим может, например, указывать, что временно-частотный бин принадлежит группе гармонических или ударных составляющих сигнала.

Первый режим может, например, указывать, что временно-частотный бин принадлежит группе остаточных составляющих сигнала.

Далее более подробно описано оценивание фазы согласно конкретным вариантам осуществления.

Алгоритмы для задачи оценивания фазовой информации из заданной амплитудной спектрограммы предложены в [19] и [20]. Однако эти алгоритмы либо имеют высокую вычислительную сложность или приводят к неудовлетворительному воспринимаемому качеству общих аудиосигналов.

Оценивание фазовой информации из амплитудной спектрограммы является задачей, которую можно использовать, например, в кодировании аудиосигнала, где кодер может передавать только амплитуду, тогда как фаза восстанавливается на декодере. По сравнению с традиционными кодерами на основе MDCT, где спектр демонстрируют флуктуации по времени даже для постоянных тональных сигналов, амплитудный спектр (например, DFT, или CMDCT в роли MCLT) гораздо устойчивее, что позволяет осуществлять дифференциальное кодирование, эффективное по битовой скорости по времени (см. [21]) и эффективное снижение многоканальной избыточности.

Согласно вариантам осуществления, новый алгоритм оценивания структурным тензором на основе локального изменения частоты согласно вариантам осуществления основан на модели сигнала с учетом произвольного входного сигнала, составляемого из нескольких линейных чирпов. Линейный чирп-сигнал задается согласно

, (20)

где t - временная переменная, f₀ [Гц] - постоянная начальная частота, и R [Гц/с] - скорость изменения постоянной частоты. Выводя фазовый аргумент два раза относительно t, можно показать, что

. (21)

Таким образом, текущую фазу можно получить путем интегрирования скорости изменения частоты два раза. Чтобы предложенной алгоритм работал в дискретной области, это интегрирование превращается в суммирование. Предполагая, что каждый бин спектрограммы соответствует локальному линейному чирп-сигналу, локальное изменение частоты, оцененное структурным тензором, соответствует R для каждого локального чирпа. Кроме того, с использованием меры анизотропии, полученной через структурный тензор, можно осуществлять необходимое интегрирование скоростей локального изменения частоты без какой-либо явной модели сигнала или предыдущей семантической классификации.

Поскольку высокая мера анизотропии соответствует направленным структурам наподобие тональным или ударным составляющим в спектрограмме, она, следовательно, соответствует участкам, где можно реконструировать фазу в отличие от изотропных, шумовых участков, где можно предположить случайную фазу.

Опишем это более подробно:

Как описано выше, углы (например, указанные направлением стрелок на фиг. 2), полученные структурным тензором, можно преобразовывать в скорость локального изменения частоты

(22)

для каждого временно-частотного бина спектрограммы, где - углы для каждого бина, извлеченного с помощью структурного тензора.

Далее объяснены принципы использования информации, например, структурного тензора, для реконструкции фазы из амплитудной спектрограммы и ее использования для кодирования аудиосигнала. Предполагается, что

(23)

является не только STFT, но и произвольным временно-частотным представлением x(t). Затем проблема реконструкции фазы будет описана как задача для извлечения оценки из амплитудной спектрограммы . Посредством обратного преобразования

(24)

можно снова генерировать соответствующий сигнал y(t) временной области.

Согласно вариантам осуществления, оценивание структурным тензором на основе локального изменения частоты предусмотрен новый алгоритм для реконструкции фазы из амплитудной спектрограммы. Основную идею можно понимать с учетом дискретного линейного чирп-сигнала, заданного в виде

, (25)

где t∈ℤ - переменная индекса времени, f₀ [Гц] - постоянная начальная частота, R₀ [Гц/с] - скорость изменения постоянной частоты и - начальная фаза. Если этот сигнал анализируется с использованием преобразования перекрывающихся блоков, например, STFT в качестве банка фильтров, соответствующего временно-частотному представлению, распространение фазы, поскольку величина H скачка окна от предыдущего блока анализа b - 1 к текущему блоку b может выражаться как

(26)

Таким образом - конечная разность относительно индекса b блока анализа и может интерпретироваться как оценка для мгновенной угловой частоты x(t). С использованием можно выразить на любом блоке анализа b > b₀, когда известна

(27)

Теперь рассмотрим изменение от предыдущего блока анализа b - 1 к текущему блоку b:

(28)

постоянна для линейного чирпа и содержит фиксированные постоянные, а также скорость R₀ изменения частоты. Она может интерпретироваться как увеличение угловой частоты от одного блока анализа к следующего блока. Если известна, формула (27) может выражаться, кроме того, с использованием

(29)

Это означает, что можно вычислять фазу на блоке анализа b, если известны фаза и мгновенная частота на предыдущем блоке анализа и дополнительно изменение R₀ постоянной частоты.

Заметим, что вдвое больше этих выражений и формул можно вычислять для переходных сигналов, например, импульсов. Однако конечную разность нужно производить по индексу k частоты в спектральной фазе arg некоторого блока анализа b.

Затем временной центр тяжести для переходного сигнала получается согласно

(30)

и изменение временного центра тяжести для переходного сигнала по индексу k частоты согласно

(31)

Для этого случая можно выводить вдвое больше выражений для формулы (27) и формулы (29).

Согласно вариантам осуществления, предусмотрен алгоритм для реконструкции фазы из амплитудного спектра как объяснено выше с использованием оценки скорости локального изменения частоты полученный структурным тензором.

Предполагая, что каждый бин спектрограммы соответствует локальному линейному чирп-сигналу, соответственно, имеющему линейное изменение частоты, то локальное изменение частоты, оцененное структурным тензором, соответствует чирповой скорости или локального линейного изменения R₀ частоты, как объяснено в предыдущем подразделе. Это означает, что преобразующие направления, полученные структурным тензором, можно рассматривать как сглаженную, устойчивую оценку второй производной по индексу b времени и до некоторых мультипликативных постоянных.

С использованием этой оценки, формула (29) может затем использоваться для вычисления текущей фазы сигнала. Поскольку предполагается, что линейное изменение частоты осуществляется только в объеме одного бина даже для сигналов с более сложной частотной модуляцией можно получить оценку фазы. Следует отметить, что мгновенная частота, а также начальная фаза, либо должна быть заранее известна (например, передаваться в качестве вспомогательной информации), либо оцениваться другими способами. В частности, мгновенную частоту можно оценивать с использованием интерполяции наподобие QFFT или отклонений амплитудного спектра.

Следует отметить, что несмотря на то, что формула (29) показывает суммы, строго суммируя в направление b блока анализа, в более развитом алгоритме сумма должна следовать траектории главного лепестка сигналов в спектрограмме. Таким образом может потребоваться включать информацию направленности, соответствующую скорости локального изменения частоты, полученной через структурный тензор либо неявно, либо явно в направлении суммирования. Это может приводить к тому, что оцененная фаза является суперпозицией результата сумм в направлении индекса k частоты и в направлении индекса b блока анализа.

Дополнительно следует отметить, что выражение, вычисленное по формуле (29), соответствует аргументу синуса как показано в формуле (25). Несмотря на то, что это имеет сильное соответствие с фазой, наблюдаемой в спектральном представлении, может потребоваться использовать дополнительную информацию (например, аналитическое выражение спектра в зависимости от фазы) для правильного синтеза фазы для каждого бина (например, для боковых лепестков спектра).

Кроме того, с использованием меры анизотропии, полученной через структурный тензор, можно осуществлять необходимое интегрирование скоростей локального изменения частоты без какой-либо явной модели сигнала или предыдущей семантической классификации. Поскольку высокая мера анизотропии соответствует направленным структурам наподобие тональным или ударным составляющим в спектрограмме, она, следовательно, соответствует участкам, где можно реконструировать фазу в отличие от изотропных, шумовых участков, где можно предположить случайную фазу.

Кроме того, не требуется ограничивать алгоритм монотембральными сигналами.

Варианты осуществления обеспечивают преимущества над уровнем техники. Например, некоторые варианты осуществления демонстрируют умеренную вычислительную сложность (например, менее, чем в [19]). Кроме того, некоторые варианты осуществления, лучше оценивают фазы, чем в [20] для частотно-модулированных сигналов.

Некоторые варианты осуществления реализуют внутреннюю классификацию составляющих сигнала:

Например, согласно некоторым вариантам осуществления, оценивание фазы возможно для гармонических составляющих сигнала; оценивание фазы возможно для ударных составляющих сигнала; но оценивание фазы невозможно для остаточных составляющих сигнала и/или шумовых составляющих сигнала.

Далее рассмотрены применения кодирования аудиосигнала.

Выбор банка фильтров является критическим этапом в проектировании аудиокодека. Традиционные кодеки часто используют MDCT (модифицированное дискретное косинусное преобразование), поскольку оно обеспечивает 50% перекрытие при критичной дискретизации и совершенную реконструкцию в отсутствие квантования. В применениях кодирования эти свойства уменьшают артефакты блочности, при сохранении низкого объема данных для спектральных коэффициентов, подлежащих передаче. Обратной стороной MDCT является его спектральная флуктуация по времени даже для стационарных сигналов. Это приводит к потере коэффициента усиления кодирования, например, для дифференциального кодирование спектральных коэффициентов, поскольку информация о ранее переданном спектре MDCT должен ограничиваться только использованием в реконструкции текущего спектра MDCT.

Поскольку амплитуда спектра, например, амплитуда банка фильтров на основе MCLT (модулированного комплексного преобразования с перекрытием) с 50% перекрытием, гораздо устойчивее по времени [21], в частности, для стационарных сигналов, варианты осуществления предусматривают конструкцию кодека на основе вышеописанных принципов для реконструкции фазы.

Согласно вариантам осуществления, кодер осуществляет временно-частотное разложение входного сигнала x(t) PCM с использованием банка фильтров анализа для получения комплексного спектра в течение некоторого интервала времени, например, одного кадра. используется для извлечения вспомогательной информации.

Согласно вариантам осуществления, вспомогательная информация может, например, содержать основную частоту и/или временную позицию переходных сигналов и/или фазы инициализации (например, с регулярными интервалами) и/или информацию о текущем классе сигнала, и т.д.

Затем амплитуда квантуется до и передается на декодер совместно со вспомогательной информацией. Затем декодер использует вспомогательную информацию, а также квантованный амплитудный спектр для оценивания фазы исходного комплексного спектра , как описано выше. С использованием этой оцененной фазы можно получить комплексный спектр , который должен быть приближен к . Затем поступает на банк фильтров синтеза для получения выходного сигнала y(t) во временной области. Благодаря предложенному банку фильтров MCLT, кодек наподобие этого по-прежнему будет демонстрировать желательные признаки, например, перекрытие и критическая дискретизация, обеспечивая при этом более эффективные возможности дифференциального кодирования стационарных сигналов.

Фиг. 8 демонстрирует устройство для реконструкции фазы согласно одному из вышеописанных вариантов осуществления, содержащих генератор 150 сигнала. Генератор 150 сигнала выполнен с возможностью генерации выходного аудиосигнала в зависимости от амплитудной спектрограммы аудиосигнала и в зависимости от значений фазы для множества временно-частотных бинов.

Например, амплитудная спектрограмма обеспечивает значение амплитуды для конкретного временно-частотного бина, и значение фазы для конкретного временно-частотного бина было реконструировано реконструктором 140 фазы.

Фиг. 9 демонстрирует систему, содержащую кодер 210 и декодер 220 согласно варианту осуществления, где декодер 220 является устройством для реконструкции фазы согласно одному из вышеописанных вариантов осуществления.

Кодер 210 выполнен с возможностью кодирования амплитудной спектрограммы аудиосигнала.

Декодер 220 выполнен с возможностью определения изменения частоты для каждого временно-частотного бина из множества временно-частотных бинов амплитудной спектрограммы аудиосигнала в зависимости от амплитудной спектрограммы аудиосигнала.

Кроме того, декодер 220 выполнен с возможностью генерации значений фазы для множества временно-частотных бинов в зависимости от изменений частот, определенных для множества временно-частотных бинов.

Кроме того, декодер 220 выполнен с возможностью декодирования аудиосигнала с использованием амплитудной спектрограммы аудиосигнала и с использованием значений фазы для множества временно-частотных бинов.

Фиг. 10 демонстрирует аудиокодер 210 и аудиодекодер 220 согласно вариантам осуществления, использующим амплитудный спектр для передачи.

Аудиокодер 210 выполнен с возможностью генерации амплитудной спектрограммы аудиосигнала для устройства для реконструкции фазы как описано выше. На фиг. 10, декодер 220 может, например, быть устройством для реконструкции фазы, как описано выше.

Хотя некоторые аспекты были описаны в контексте устройства, очевидно, что эти аспекты также представляют описание соответствующего способа, где блок или устройство соответствует этапу способа или признаку этапа способа. Аналогично, аспекты, описанные в контексте этапа способа также представляют описание соответствующего блока или элемента или признака соответствующего устройства. Некоторые или все из этапов способа могут выполняться посредством (или с использованием) аппаратного устройства, например, микропроцессора, программируемого компьютера или электронной схемы. В некоторых вариантах осуществления, один или более из наиболее важных этапов способа может выполняться таким устройством.

В зависимости от некоторых требований реализации, варианты осуществления изобретения могут быть реализованы аппаратными средствами или программными средствами или, по меньшей мере, частично аппаратными средствами или по меньшей мере, частично программными средствами. Реализация может осуществляться с использованием цифрового запоминающего носителя, например, флоппи-диска, DVD, Blu-Ray, CD, ROM, PROM, EPROM, EEPROM или флеш-памяти, на которых хранятся электронно считываемые сигналы управления, которые взаимодействуют (или способны взаимодействовать) с программируемой компьютерной системой, благодаря чему, осуществляется соответствующий способ. Поэтому цифровой запоминающий носитель может считываться компьютером.

Некоторые варианты осуществления согласно изобретению содержат носитель данных, имеющий электронно считываемые сигналы управления, которые способны взаимодействовать с программируемой компьютерной системой, благодаря чему, осуществляется один из описанных здесь способов.

В общем случае, варианты осуществления настоящего изобретения могут быть реализованы как компьютерный программный продукт с программным кодом, причем программный код предназначен осуществлять один из способов, когда компьютерный программный продукт выполняется на компьютере. Программный код может, например, храниться на машиночитаемом носителе.

Другие варианты осуществления содержат компьютерную программу для осуществления одного из описанных здесь способов, хранящуюся на машиночитаемом носителе.

Другими словами, вариант осуществления способа, отвечающего изобретению, является, таким образом, компьютерной программой, имеющей программный код для осуществления одного из описанных здесь способов, когда компьютерная программа выполняется на компьютере.

Таким образом, дополнительный вариант осуществления способов, отвечающих изобретению является носителем данных (или цифровым запоминающим носителем, или компьютерно-читаемым носителем), на котором записана компьютерная программа для осуществления одного из описанных здесь способов. Носитель данных, цифровой запоминающий носитель или записанный носитель обычно являются материальными и/или некратковременными.

Дополнительный вариант осуществления способа, отвечающего изобретению, является, таким образом, поток данных или последовательность сигналов, представляющих компьютерную программу для осуществления одного из описанных здесь способов. Поток данных или последовательность сигналов может, например, иметь возможность переноса через соединение для передачи данных, например, через интернет.

Дополнительный вариант осуществления содержит средство обработки, например, компьютер или программируемое логическое устройство, выполненное с возможностью или адаптированное для осуществления одного из описанных здесь способов.

Дополнительный вариант осуществления содержит компьютер, на котором установлена компьютерная программа для осуществления одного из описанных здесь способов.

Дополнительный вариант осуществления согласно изобретению содержит устройство или систему, выполненную с возможностью переноса (например, электронного или оптического) компьютерной программы для осуществления одного из описанных здесь способов на приемник. Приемником может, например, быть компьютер, мобильное устройство, запоминающее устройство и т.п. Устройство или система может, например, содержать файловый сервер для переноса компьютерной программы на приемник.

В некоторых вариантах осуществления, программируемое логическое устройство (например, вентильная матрица, программируемая пользователем) может использоваться для осуществления некоторых или всех из функциональных возможностей описанных здесь способов. В некоторых вариантах осуществления, вентильная матрица, программируемая пользователем, может взаимодействовать с микропроцессором для осуществления одного из описанных здесь способов. В общем случае, способы, предпочтительно, осуществляются любым аппаратным устройством.

Описанное здесь устройство может быть реализовано с использованием аппаратного устройства или с использованием компьютера, или с использованием комбинации аппаратного устройства и компьютера.

Описанные здесь способы могут осуществляться с использованием аппаратного устройства или с использованием компьютера, или с использованием комбинации аппаратного устройства и компьютера.

Вышеописанные варианты осуществления призваны лишь иллюстрировать принципы настоящего изобретения. Следует понимать, что модификации и вариации описанных здесь компоновок и деталей будут очевидны специалистам в данной области техники. Поэтому они подлежат ограничению только объемом нижеследующей формулы изобретения, но не конкретными деталями, представленными посредством описания и объяснения рассмотренных здесь вариантов осуществления.

ССЫЛКИ

[1] Aggelos Gkiokas, Vassilios Katsouros, George Carayannis, and Themos Stafylakis, ʺMusic tempo estimation and beat tracking by applying source separation and metrical relationsʺ, in Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2012, pp. 421-424.

[2] Bernhard Lehner, Gerhard Widmer, and Reinhard Sonnleitner, ʺOn the reduction of false positives in singing voice detectionʺ, in Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), Florence, Italy, 2014, pp. 7480-7484.

[3] Yushi Ueda, Yuuki Uchiyama, Takuya Nishimoto, Nobutaka Ono, and Shigeki Sagayama, ʺHMM-based approach for automatic chord detection using refined acoustic featuresʺ, in Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), Dallas, Texas, USA, 2010, pp. 5518-5521.

[4] Nobutaka Ono, Kenichi Miyamoto, Hirokazu Kameoka, and Shigeki Sagayama, ʺA real-time equalizer of harmonic and percussive components in music signalsʺ, in Proceedings of the International Society for Music Information Retrieval Conference (ISMIR), Philadelphia, Pennsylvania, USA, 2008, pp. 139-144.

[5] Nobutaka Ono, Kenichi Miyamoto, Jonathan LeRoux, Hirokazu Kameoka, and Shigeki Sagayama, ʺSeparation of a monaural audio signal into harmonic/percussive components by complementary diffusion on spectrogramʺ, in European Signal Processing Conference, Lausanne, Switzerland, 2008, pp. 240-244.

[6] Derry Fitzgerald, ʺHarmonic/percussive separation using median filteringʺ, in Proceedings of the International Conference on Digital Audio Effects (DAFX), Graz, Austria, 2010, pp. 246-253.

[7] Scott N. Levine and Julius O. Smith III, ʺA sines+transients+noise audio representation for data compression and time/pitch scale modicationsʺ, in Proceedings of the AES Convention, 1998.

[8] Tony S. Verma and Teresa H.Y. Meng, ʺAn analysis/synthesis tool for transient signals that allows a flexible sines+transients+noise model for audioʺ, in Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), Seattle, Washington, USA, May 1998, pp. 3573-3576.

[9] Laurent Daudet, ʺSparse and structured decompositions of signals with the molecular matching pursuitʺ, IEEE Transactions on Audio, Speech, and Language Processing, vol. 14, no. 5, pp. 1808-1816, September 2006.

[10] Jonathan Driedger, Meinard Müller, and Sascha Disch, ʺExtending harmonic-percussive separation of audio signalsʺ, in Proceedings of the International Conference on Music Information Retrieval (ISMIR), Taipei, Taiwan, 2014, pp. 611-616.

[11] Jeongsoo Park and Kyogu Lee, ʺHarmonic-percussive source separation using harmonicity and sparsity constraintsʺ, in Proceedings of the International Conference on Music Information Retrieval (ISMIR), Málaga, Spain, 2015, pp. 148-154.

[12] Josef Bigun and Gösta H. Granlund, ʺOptimal orientation detection of linear symmetryʺ, in Proceedings of the IEEE First International Conference on Computer Vision, London, UK, 1987, pp. 433-438.

[13] Hans Knutsson, ʺRepresenting local structure using tensorsʺ, in 6th Scandinavian Conference on Image Analysis, Oulu, Finland, 1989, pp. 244-251.

[14] Chris Harris and Mike Stephens, ʺA combined corner and edge detectorʺ, in Proceedings of the 4th Alvey Vision Conference, Manchester, UK, 1988, pp. 147-151.

[15] Rolf Bardeli, ʺSimilarity search in animal sound databasesʺ, IEEE Transactions on Multimedia, vol. 11, no. 1, pp. 68-76, January 2009.

[16] Matthias Zeppelzauer, Angela S. Stöger, and Christian Breiteneder, ʺAcoustic detection of elephant presence in noisy environmentsʺ, in Proceedings of the 2nd ACM International Workshop on Multimedia Analysis for Ecological Data, Barcelona, Spain, 2013, pp4. 3-8.

[17] Hanno Scharr, ʺOptimale Operatoren in der digitalen Bildverarbeitungʺ, Dissertation, IWR, Fakultät für Physik und Astronomie, Universität Heidelberg, Heidelberg, Germany, 2000.

[18] Emmanuel Vincent, Rémi Gribonval, and Cédric Févotte, ʺPerformance measurement in blind audio source separationʺ, IEEE Transactions on Audio, Speech, and Language Processing, vol. 14, no. 4, pp. 1462-1469, 2006.

[19] Daniel W. Griffin and Jae S. Lim, ʺSignal estimation from modified short-time Fourier transformʺ, IEEE Transactions on Acoustics, Speech, and Signal Processing, vol. 32, no. 2, pp. 236-243, 1984.

[20] Paul Magron, Roland Badeau, and Bertrand David, ʺPhase reconstruction of spectrograms with linear unwrapping: application to audio signal restorationʺ, in Signal Processing Conference (EUSIPCO), 2015 23rd European. IEEE, 2015, pp. 1-5.

[21] Byung-Jun Yoon and Henrique S Malvar, ʺCoding overcomplete representations of audio using the mcltʺ, in Data Compression Conference, 2008. DCC 2008. IEEE, 2008, pp. 152-161.

1. Устройство для реконструкции фазы из амплитудной спектрограммы аудиосигнала, содержащее:

определитель (110) изменения частоты, выполненный с возможностью определения изменения частоты для каждого временно-частотного бина из множества временно-частотных бинов амплитудной спектрограммы аудиосигнала в зависимости от амплитудной спектрограммы аудиосигнала, и

реконструктор (140) фазы, выполненный с возможностью генерации значений фазы для упомянутого множества временно-частотных бинов в зависимости от изменений частот, определенных для упомянутого множества временно-частотных бинов.

2. Устройство по п. 1,

в котором реконструктор (140) фазы выполнен с возможностью генерации значения фазы для каждого временно-частотного бина из упомянутого множества временно-частотных бинов путем интегрирования изменений частоты два раза.

3. Устройство по п. 1,

в котором реконструктор (140) фазы выполнен с возможностью генерации значений фазы для упомянутого множества временно-частотных бинов по формуле

где b₀ - индекс, указывающий блок анализа из множества блоков,

где b - дополнительный индекс, указывающий дополнительный блок анализа из упомянутого множества блоков,

где H указывает величину скачка, и

где и и указывают значения фазы.

4. Устройство по п. 1,

в котором определитель (110) изменения частоты выполнен с возможностью определения изменения частоты для каждого временно-частотного бина из упомянутого множества временно-частотных бинов в зависимости от угла () для упомянутого временно-частотного бина, причем угол () для упомянутого временно-частотного бина зависит от амплитудной спектрограммы аудиосигнала.

5. Устройство по п. 4,

в котором определитель (110) изменения частоты выполнен с возможностью определения изменения частоты для каждого временно-частотного бина из упомянутого множества временно-частотных бинов дополнительно в зависимости от частоты (f_s) дискретизации аудиосигнала и в зависимости от длины (N) окна анализа и в зависимости от величины (H) скачка окна анализа.

6. Устройство по п. 5,

в котором определитель (110) изменения частоты устройства выполнен с возможностью определения изменения частоты для каждого временно-частотного бина из упомянутого множества временно-частотных бинов по формуле

где указывает временно-частотный бин из упомянутого множества временно-частотных бинов,

где указывает изменение частоты для упомянутого временно-частотного бина ,

где b указывает время,

где k указывает частоту,

где f_s указывает частоту дискретизации аудиосигнала,

где N указывает длину окна анализа,

где H указывает величину скачка окна анализа, и

где указывает угол для упомянутого временно-частотного бина , причем угол зависит от амплитудной спектрограммы.

7. Устройство по п. 4,

в котором определитель (110) изменения частоты выполнен с возможностью определения частной производной (S_b) амплитудной спектрограммы (S) аудиосигнала по индексу времени,

причем определитель (110) изменения частоты выполнен с возможностью определения частной производной (S_k) амплитудной спектрограммы (S) аудиосигнала по индексу времени, и

причем определитель (110) изменения частоты выполнен с возможностью определения структурного тензора () для каждого временно-частотного бина () из упомянутого множества временно-частотных бинов в зависимости от частной производной (S_b) амплитудной спектрограммы (S) аудиосигнала по индексу времени и в зависимости от частной производной (S_k) амплитудной спектрограммы (S) аудиосигнала по индексу частоты, и

причем определитель (110) изменения частоты выполнен с возможностью определения угла () для каждого временно-частотного бина () из упомянутого множества временно-частотных бинов в зависимости от структурного тензора () для упомянутого временно-частотного бина ().

8. Устройство по п. 7,

в котором определитель (110) изменения частоты выполнен с возможностью определения угла () для каждого временно-частотного бина () из упомянутого множества временно-частотных бинов путем определения двух составляющих и собственного вектора структурного тензора () упомянутого временно-частотного бина () и путем определения угла () для упомянутого временно-частотного бина () согласно

где указывает угол для упомянутого временно-частотного бина (),

где b указывает время,

где k указывает частоту, и

где atan() указывает функцию, обратную тангенсу.

9. Устройство по п. 1, в котором реконструктор (140) фазы выполнен с возможностью генерации значений фазы для каждого временно-частотного бина из упомянутого множества временно-частотных бинов в зависимости от изменений частот, определенных для упомянутого множества временно-частотных бинов.

10. Устройство по п. 7, в котором реконструктор (140) фазы выполнен с возможностью определения меры анизотропии для каждого временно-частотного бина из упомянутого множества временно-частотных бинов в зависимости от изменения частоты, определенной для каждого временно-частотного бина из упомянутого множества временно-частотных бинов.

11. Устройство по п. 10,

в котором реконструктор (140) фазы выполнен с возможностью определения меры анизотропии для каждого временно-частотного бина из упомянутого множества временно-частотных бинов согласно по меньшей мере одной из формул:

где - первое собственное значение, λ - второе собственное значение структурного тензора () упомянутого временно-частотного бина , и ,

причем реконструктор (140) фазы выполнен с возможностью назначения каждого временно-частотного бина из упомянутого множества временно-частотных бинов группе составляющих сигнала из двух или более групп составляющих сигнала дополнительно в зависимости от изменения меры анизотропии.

12. Устройство по п. 11,

в котором реконструктор (140) фазы выполнен с возможностью определения меры анизотропии для упомянутого временно-частотного бина по формуле:

где - мера анизотропии в зависимости от упомянутого временно-частотного бина , и

причем реконструктор (140) фазы выполнен с возможностью назначения упомянутого временно-частотного бина группе остаточных составляющих из двух или более групп составляющих сигнала, если мера анизотропии меньше, чем верхнее пороговое значение c, или реконструктор (140) фазы выполнен с возможностью назначения упомянутого временно-частотного бина группе остаточных составляющих из двух или более групп составляющих сигнала, если мера анизотропии меньше или равна верхнему пороговому значению c,

где .

13. Устройство по п. 9,

причем реконструктор (140) фазы выполнен с возможностью генерации значения фазы для каждого временно-частотного бина из упомянутого множества временно-частотных бинов путем интегрирования изменений частоты два раза, если режим реконструкции фазы, определенный реконструктором (140) фазы для упомянутого временно-частотного бина, указывает первый режим, и

причем реконструктор (140) фазы выполнен с возможностью определения фазы для каждого временно-частотного бина из упомянутого множества временно-частотных бинов путем интегрирования изменений частоты два раза, если режим реконструкции фазы, определенный реконструктором (140) фазы для упомянутого временно-частотного бина, указывает второй режим, отличный от первого режима.

14. Устройство по п. 13,

в котором реконструктор (140) фазы выполнен с возможностью определения режима реконструкции фазы для каждого временно-частотного бина из упомянутого множества временно-частотных бинов таким образом, что режим реконструкции фазы указывает первый режим, если мера анизотропии для упомянутого временно-частотного бина () больше, чем нижнее пороговое значение (c), и таким образом, что режим реконструкции фазы указывает второй режим, если мера анизотропии для упомянутого временно-частотного бина () меньше или равна нижнему пороговому значению (c), или

причем реконструктор (140) фазы выполнен с возможностью определения режима реконструкции фазы для каждого временно-частотного бина из упомянутого множества временно-частотных бинов таким образом, что режим реконструкции фазы указывает первый режим, если мера анизотропии для упомянутого временно-частотного бина () больше или равна нижнему пороговому значению (c), и таким образом, что режим реконструкции фазы указывает второй режим, если мера анизотропии для упомянутого временно-частотного бина () меньше, чем нижнее пороговое значение (c).

15. Устройство по п. 1,

16. Устройство по п. 1,

17. Устройство по п. 1, причем устройство содержит генератор (150) сигнала, выполненный с возможностью генерации выходного аудиосигнала в зависимости от амплитудной спектрограммы аудиосигнала и в зависимости от значений фазы для упомянутого множества временно-частотных бинов.

18. Система кодирования и декодирования аудиосигнала с использованием амплитудной спектрограммы аудиосигнала, причем упомянутая система содержит:

кодер (210) для кодирования амплитудной спектрограммы аудиосигнала, и

декодер (220), который является устройством по п. 1, для декодирования аудиосигнала,

причем декодер (220) выполнен с возможностью определения изменения частоты для каждого временно-частотного бина из множества временно-частотных бинов амплитудной спектрограммы аудиосигнала в зависимости от амплитудной спектрограммы аудиосигнала,

причем декодер (220) выполнен с возможностью генерации значений фазы для упомянутого множества временно-частотных бинов в зависимости от изменений частот, определенных для упомянутого множества временно-частотных бинов, и

причем декодер (220) выполнен с возможностью декодирования аудиосигнала с использованием амплитудной спектрограммы аудиосигнала и с использованием значений фазы для упомянутого множества временно-частотных бинов.

19. Кодер (210), выполненный с возможностью генерации амплитудной спектрограммы аудиосигнала для устройства для реконструкции фазы по п. 1.

20. Способ реконструкции фазы из амплитудной спектрограммы аудиосигнала, содержащий этапы, на которых:

определяют изменение частоты для каждого временно-частотного бина из множества временно-частотных бинов амплитудной спектрограммы аудиосигнала в зависимости от амплитудной спектрограммы аудиосигнала, и

генерируют значения фазы для упомянутого множества временно-частотных бинов в зависимости от изменений частот, определенных для упомянутого множества временно-частотных бинов.

21. Цифровой запоминающий носитель, содержащий компьютерную программу для реализации способа по п. 20 при исполнении на компьютере или сигнальном процессоре.

Изобретение относится к области вычислительной техники. Технический результат заключается в расширении технических средств для синхронного перевода и озвучивания голосовой информации с одного языка на другой от различных источников.

Оценивание фонового шума в аудиосигналах // 2713852

Изобретение относится к средствам для оценивания фонового шума в аудиосигнале. Технический результат заключается в повышении точности оценивания, содержит ли аудиосигнал активную речь или музыку.

Система компандирования и способ для снижения шума квантования с использованием усовершенствованного спектрального расширения // 2712814

Изобретение относится к вычислительной технике. Технический результат заключается в снижении шума квантования.

Кодер и способ кодирования аудиосигнала с уменьшенным фоновым шумом с использованием кодирования с линейным предсказанием // 2712125

Изобретение относится к вычислительной технике для кодирования аудиосигнала. Технический результат заключается в повышении точности обработки аудиосигнала с использованием кодирования с линейным предсказанием.

Декодер речи, кодер речи, способ декодирования речи, способ кодирования речи, программа декодирования речи и программа кодирования речи // 2707931

Изобретение относится к средствам для кодирования и декодирования речи. Технический результат заключается в уменьшении опережающего и запаздывающего эха.

Устройство аудиодекодирования, устройство аудиокодирования, способ аудиодекодирования, способ аудиокодирования, программа аудиодекодирования и программа аудиокодирования // 2707722

Изобретение относится к средствам для кодирования и декодирования аудио. Технический результат заключается в снижении искажения компонента частотного диапазона, кодированного с малым числом битов во временной области.

Аудиокодер и способ для кодирования аудиосигнала // 2707144

Изобретение относится к средствам для кодирования аудиосигнала. Технический результат заключается в повышении разборчивости декодированного сигнала, когда акустический входной сигнал искажается фоновым шумом и другими артефактами.

Динамическая акустическая модель для транспортного средства // 2704746

Изобретение относится к области транспортных средств. Технический результат – повышение согласованности и точности систем распознавания голоса в транспортном средстве.

Устройство обработки аудиосигнала, способ обработки аудиосигнала и программа обработки аудиосигнала // 2701075

Изобретение относится к обработке аудиосигнала. Технический результат - уменьшение разрыва аудио при восстановлении пакета в начальной точке аудио.

Способ декодирования и декодер для усиления диалога // 2701055

Изобретение относится к средствам для кодирования аудио. Технический результат заключается в повышении эффективности усиления диалога в аудиосистемах.

Устройство преобразования коэффициентов линейного предсказания и способ преобразования коэффициентов линейного предсказания // 2714390

Изобретение относится к средствам для преобразования коэффициентов линейного предсказания. Технический результат заключается в повышении эффективности оценивания фильтра синтеза линейного предсказания после преобразования внутренней частоты дискретизации.

Способ гибридного маскирования: комбинированное маскирование потери пакетов в частотной и временной области в аудиокодеках // 2714365

Изобретение относится к средствам для гибридного маскирования потери пакетов в частотной и временной области в аудиокодеках. Технический результат заключается в повышении эффективности маскирования потери пакетов.

Устройство и способ для улучшения перехода от маскированного участка аудиосигнала к последующему участку аудиосигнала у аудиосигнала // 2714238

Изобретение относится к средствам для улучшения перехода от маскированного участка аудиосигнала к последующему участку аудиосигнала. Технический результат заключается в повышении эффективности маскирования участков аудиосигнала.

Оценивание фонового шума в аудиосигналах // 2713852

Устройство и способ для кодирования стерео на основе mdct m/s с глобальной ild с улучшенным принятием решения по кодированию методом среднего/бокового канала // 2713613

Изобретение относится к средствам для кодирования аудиосигналов. Технический результат заключается в повышении эффективности кодирования аудиосигналов.

Аудиокодер и аудиодекодер с метаданными громкости и границы программы // 2713609

Изобретение относится к средствам для кодирования аудио с метаданными громкости. Технический результат заключается в повышении эффективности кодирования аудио.

Устройство кодирования аудио, способ кодирования аудио, программа кодирования аудио, устройство декодирования аудио, способ декодирования аудио и программа декодирования аудио // 2713605

Изобретение относится к средствам для кодирования аудиосигнала. Технический результат заключается в повышении эффективности кодирования аудиосигнала.

Устройство и способ обработки многоканального аудиосигнала // 2713094

Изобретение относится к акустике. Устройство для обработки многоканального аудиосигнала, выполненное с возможностью модуляции масштаба времени многоканального аудиосигнала, содержит: блок объединения сигналов, выполненный с возможностью получения суммарного и разностного сигналов, блок фазовой адаптации, блок разделения сигналов.

Блок маскирования ошибок, аудиодекодер и соответствующие способ и компьютерная программа, использующие характеристики декодированного представления надлежащим образом декодированного аудиокадра // 2712093

Изобретение относится к средствам для кодирования и декодирования аудио. Технический результат заключается в повышении эффективности кодирования аудиосигнала.