Многоканальное кодирование аудио

Авторы патента:

МУЛЬТРУС, Маркус (DE)

ФОТОПОУЛОУ, Элени (DE)

РОЙТЕЛЬХУБЕР, Франц (DE)

КОРСЕ, Срикантх (DE)

БЮТЕ, Ян (DE)

МАБЕН, Паллави (DE)

G10L19/008 - Техника анализа-синтеза речи для уменьшения избыточности, например в вокодерах ; кодирование или декодирование речи

Владельцы патента RU 2778832:

ФРАУНХОФЕР-ГЕЗЕЛЛЬШАФТ ЦУР ФЕРДЕРУНГ ДЕР АНГЕВАНДТЕН ФОРШУНГ Е.Ф. (DE)

Изобретение относится к параметрическому многоканальному кодированию аудио. При многоканальном кодировании аудио достигается повышенная эффективность вычислений посредством вычисления параметров для сравнения для компенсации ITD между любыми двумя каналами в частотной области для параметрического аудиокодера. Это позволяет смягчать отрицательные последствия для оценок параметров кодера. 4 н. и 11 з.п. ф-лы, 3 ил., 2 табл.

Настоящая заявка относится к параметрическому многоканальному кодированию аудио.

Способ из уровня техники для параметрического кодирования стереосигналов с потерями на низких скоростях передачи битов основан на параметрическом стерео согласно стандартизации в MPEG-4, часть 3 [1]. Общая идея состоит в уменьшении числа каналов многоканальной системы посредством вычисления сигнала понижающего микширования из двух входных каналов после извлечения стерео-/пространственных параметров, которые отправляются в декодер в качестве вспомогательной информации. Эти стерео-/пространственные параметры могут обычно содержать межканальную разность ILD уровней, межканальную разность IPD фаз и межканальную когерентность ICC, которые могут вычисляться в подполосах частот и которые в определенной степени захватывают пространственное изображение.

Однако этот способ не допускает компенсацию или синтезирование межканальных разностей времен (ITD), что является, например, желательным для понижающего микширования или воспроизведения речи, записанной с настройкой микрофонов AB, либо для синтезирования сцен, подготовленных посредством бинаурального рендеринга. Cинтез ITD рассматривается в бинауральном кодировании по сигнальным меткам (BCC) [2], которое, как правило, использует параметры ILD и ICC, в то время как оцениваются ITD и выполняется канальное совмещение в частотной области.

Хотя существуют модули оценки ITD во временной области, для оценки ITD обычно предпочтительно применять частотно-временное преобразование, которое обеспечивает спектральную фильтрацию взаимной корреляционной функции и также является вычислительно эффективным. По причинам сложности, желательно использовать одинаковые преобразования, которые также используются для извлечения стерео-/пространственных параметров и возможно для понижающего микширования каналов, что также достигается в подходе с BCC.

Тем не менее, это сопровождается недостатком: точная оценка стереопараметров в идеальном случае выполняется для совмещенных каналов. Но если каналы совмещаются в частотной области, например, посредством кругового сдвига в частотной области, это может вызывать смещение в окнах анализа, что может отрицательно влиять на оценки параметров. В случае BCC, это главным образом влияет на измерение ICC, причем увеличение смещений окна в конечном счете направляет значение ICC к нулю, даже если входные сигналы фактически являются полностью когерентными.

Таким образом, задача состоит в создании концепции для вычисления параметров в многоканальном кодировании аудио, которое допускает компенсацию межканальных разностей времен при недопущении отрицательных эффектов на оценки пространственных параметров.

Данная задача решается посредством объекта изобретения по независимым пунктам прилагаемой формулы изобретения.

Настоящая заявка основана на заключении о том, что в многоканальном кодировании аудио повышенная эффективность вычислений может достигаться посредством вычисления по меньшей мере одного параметра для сравнения для компенсации ITD между любыми двумя каналами в частотной области, которые должны использоваться посредством параметрического аудиокодера. Упомянутый по меньшей мере один параметр для сравнения может использоваться параметрическим кодером для смягчения вышеупомянутых отрицательных последствий для оценок пространственных параметров.

Вариант осуществления может содержать параметрический аудиокодер, который направлен на представление стерео- или в общем пространственного контента посредством по меньшей мере одного сигнала понижающего микширования и дополнительных стереопараметров или пространственных параметров. В числе этих стерео-/пространственных параметров могут быть предусмотрены ITD, которые могут оцениваться и компенсироваться в частотной области, до вычисления оставшихся стерео-/пространственных параметров. Эта процедура может смещать другие стерео-/пространственные параметры, что представляет собой проблему, которая в ином случае должна была бы решаться затратным способом путём повторного вычисления частотно-временного преобразования. В упомянутом варианте осуществления эта проблема может в достаточной степени смягчаться посредством применения вычислительно незатратной схемы коррекции, которая может использовать значение ITD и определенные данные базового преобразования.

Вариант осуществления относится к параметрическому аудиокодеру с потерями, который может быть основан на подходе на основе взвешенного среднего/бокового преобразования, может использовать стерео-/пространственные параметры IPD, ITD, а также два коэффициента усиления и может работать в частотной области. Другие варианты осуществления могут использовать другое преобразование и могут использовать другие пространственные параметры надлежащим образом.

В варианте осуществления, параметрический аудиокодер может быть способен как компенсировать, так и синтезировать ITD в частотной области. Он может содержать вычислительно эффективную схему коррекции усиления, которая смягчает отрицательные последствия вышеуказанного смещения окна. Также предлагается схема коррекции для кодера BCC.

Предпочтительные варианты реализации настоящей заявки являются предметом зависимых пунктов формулы изобретения. Предпочтительные варианты осуществления настоящей заявки описаны ниже с обращением к чертежам, на которых:

Фиг. 1 показывает блок-схему устройства сравнения для параметрического кодера согласно варианту осуществления настоящей заявки;

Фиг. 2 показывает блок-схему параметрического кодера согласно варианту осуществления настоящей заявки;

Фиг. 3 показывает блок-схему параметрического декодера согласно варианту осуществления настоящей заявки;

Фиг. 1 показывает устройство 100 сравнения для многоканального аудиосигнала. Как показано, оно может содержать ввод для аудиосигналов для пары стереоканалов, а именно, для сигнала l(τ) левого аудиоканала и сигнала r(τ) правого аудиоканала. Другие варианты осуществления, конечно, могут содержать множество каналов, чтобы захватывать пространственные свойства источников звука.

До преобразования аудиосигналов временной области l(τ), r(τ) в частотную область, одинаковые перекрывающиеся оконные функции 11, 21 w(τ) могут применяться к сигналам l(τ), r(τ) левого и правого входных каналов, соответственно. Кроме того, в вариантах осуществления, определенное значение дополнения нулями может добавляться, что обеспечивает сдвиги в частотной области. Затем прошедшие оконное преобразование аудиосигналы могут передаваться в соответствующие блоки 12, 22 дискретного преобразования Фурье (DFT), чтобы выполнять соответствующие частотно-временные преобразования. Они могут давать в результате частотно-временные элементы L_t,k и R_t,k разрешения, , в качестве преобразований частоты аудиосигналов для пары каналов.

Упомянутые преобразования L_t,k и R_t,k частоты могут передаваться в блок 20 обнаружения и компенсации ITD. Он может быть выполнен с возможностью извлечения параметра ITD для представления ITD между аудиосигналами для пары каналов, здесь ITD_t, с использованием преобразований L_t,k и R_t,k частоты аудиосигналов пары каналов в упомянутых окнах анализа w(τ). Другие варианты осуществления могут использовать другие подходы для извлечения параметра ITD, который также может определяться перед блоками DFT во временной области.

Извлечение параметра ITD для вычисления ITD может заключать в себе вычисление (возможно взвешенной) авто- или взаимной корреляционной функции. Традиционно, она может вычисляться из частотно-временных элементов L_t,k и R_t,k разрешения посредством применения обратного дискретного преобразования Фурье (IDFT) к члену .

Надлежащий способ компенсации измеренной ITD состоит в выполнении совмещения каналов во временной области и затем в применении вновь того же самого частотно-временного преобразования к сдвинутому каналу(ам) для получения частотно-временных элементов разрешения с компенсацией ITD. Однако для снижения сложности эта процедура может аппроксимироваться посредством выполнения кругового сдвига в частотной области. Соответственно, компенсация ITD может выполняться посредством блока 20 обнаружения и компенсации ITD в частотной области, например, посредством выполнения круговых сдвигов посредством блоков 13 и 23 кругового сдвига, соответственно, что дает в результате:

(1)

и:

(2),

где ITD_t может обозначать ITD для кадра t в выборках.

В варианте осуществления, это позволяет продвигать вперед отстающий канал и позволяет задерживать отстающий канал на ITD_t/2 выборок. Тем не менее, в другом варианте осуществления (если задержка является критичной), может быть преимущественным только продвигать вперед отстающий канал на ITD_t выборок, что не увеличивает задержку системы.

Как результат, блок 20 обнаружения и компенсации ITD может компенсировать ITD для пары каналов в частотной области посредством кругового сдвига(ов) с использованием параметра ITD ITD_t для формирования пары преобразований L_t,k,comp, R_t,k,comp частоты с компенсацией ITD на выходе. Кроме того, блок 20 обнаружения и компенсации ITD может выводить извлеченный параметр ITD, а именно, ITD_t, например, для передачи посредством параметрического кодера.

Как показано на фиг. 1, блок 30 вычисления параметров для сравнения и пространственных параметров может принимать параметр ITD ITD_t и пару преобразований L_t,k,comp, R_t,k,comp частоты с компенсацией ITD в качестве своих входных сигналов. Блок 30 вычисления параметров для сравнения и пространственных параметров может использовать часть или все свои входные сигналы для того, чтобы извлекать стерео-/пространственные параметры многоканального аудиосигнала, такие как межфазная разность IPD.

Кроме того, блок 30 вычисления параметров для сравнения и пространственных параметров может формировать (на основании параметра ITD ITD_t и пары преобразований L_t,k,comp, R_t,k,comp частоты с компенсацией ITD) по меньшей мере один параметр для сравнения, здесь два коэффициента g_t,b и r_t,b,corr усиления, для параметрического кодера. Другие варианты осуществления дополнительно или альтернативно могут использовать преобразования L_t,k, R_t,k частоты и/или пространственные/стереопараметры, извлеченные в блоке 30 вычисления параметров для сравнения и пространственных параметров, для того, чтобы формировать по меньшей мере один параметр для сравнения.

По меньшей мере, один параметр для сравнения может выступать в качестве части вычислительно эффективной схемы коррекции, чтобы смягчать отрицательные последствия вышеуказанного смещения в окнах анализа w(τ) для оценок пространственных/стереопараметров для параметрического кодера, причем упомянутое смещение вызывается посредством совмещения каналов посредством круговых сдвигов в области DFT в блоке 20 обнаружения и компенсации ITD. В варианте осуществления по меньшей мере один параметр для сравнения может вычисляться для восстановления аудиосигналов пары каналов в декодере, например, из сигнала понижающего микширования.

Фиг. 2 показывает вариант осуществления такого параметрического кодера 200 для стереоаудиосигналов, в котором устройство 100 сравнения по фиг. 1 может использоваться для получения параметра ITD ITD_t, пары преобразований L_t,k,comp, R_t,k,comp частоты с компенсацией ITD и параметров и g_t,b для сравнения.

Параметрический кодер 200 может формировать сигнал DMX_t,k понижающего микширования в блоке 40 понижающего микширования для сигналов l(τ), r(τ) левого и правого входных каналов с использованием преобразований L_t,k,comp, R_t,k,comp частоты с компенсацией ITD в качестве ввода. Другие варианты осуществления дополнительно или альтернативно могут использовать преобразования L_t,k, R_t,k частоты для того, чтобы формировать сигнал DMX_t,k понижающего микширования.

Параметрический кодер 200 может вычислять стереопараметры (такие как, например, IPD) на основе кадров в блоке 30 вычисления параметров для сравнения и пространственных параметров. Другие варианты осуществления могут определять другие или дополнительные стерео-/пространственные параметры. Процедура кодирования варианта осуществления параметрического кодера 200 на фиг. 2 может примерно выполнять следующие этапы, которые подробно описываются ниже.

1. Частотно-временное преобразование входных сигналов с использованием прошедших оконное преобразование DFT

в блоках 11, 12, 21, 22 оконного преобразования и обработки DFT

2. Оценка и компенсация ITD в частотной области

в блоке 20 обнаружения и компенсации ITD

3. Извлечение стереопараметров и вычисление параметров для сравнения

в блоке 30 вычисления параметров для сравнения и пространственных параметров

4. Понижающее микширование

в блоке 40 понижающего микширования

5. Частотно-временное преобразование с последующим оконным преобразованием и суммированием с перекрытием

в блоке 50 IDFT

Вариант осуществления параметрического аудиокодера 200 на фиг. 2 может быть основан на взвешенном среднем/боковом преобразовании входных каналов в частотной области с использованием преобразований L_t,k,comp, R_t,k,comp частоты с компенсацией ITD, а также ITD в качестве ввода. Оно позволяет дополнительно вычислять стерео-/пространственные параметры, такие как IPD, а также два коэффициента усиления, захватывающие стереоизображение. Оно позволяет смягчать отрицательные последствия вышеуказанного смещения окна.

Для извлечения пространственных параметров в блоке 30 вычисления параметров для сравнения и пространственных параметров, частотно-временные элементы L_t,k,comp и R_t,k,comp разрешения с компенсацией ITD могут группироваться на подполосы частот, и для каждой подполосы частот могут вычисляться межфазная разность IPD и два коэффициента усиления. Пусть I_b обозначает индексы частотных элементов разрешения в подполосе b частот. В таком случае, IPD может вычисляться следующим образом:

(3).

Два вышеуказанных коэффициента усиления могут быть связаны с компенсированными по фазе средними/боковыми преобразованиями для каждой полосы частот пары преобразований L_t,k,comp и R_t,k,comp частоты с компенсацией ITD, заданных посредством уравнений (4) и (5) следующим образом:

(4)

и:

(5)

для .

Первый коэффициент g_t,b усиления из упомянутых коэффициентов усиления может рассматриваться в качестве оптимального усиления для прогнозирования для прогнозирования для каждой полосы частот преобразования St боковых сигналов из преобразования Mt средних сигналов в уравнении (6):

(6)

таким образом, что энергия остатка прогнозирования в уравнении (6), задаваемая посредством уравнения (7) следующим образом:

, (7)

является минимальной. Этот первый коэффициент g_t,b усиления может упоминаться как боковое усиление.

Второй коэффициент r_t,b усиления описывает отношение энергии остатка прогнозирования к энергии преобразования M_t,k средних сигналов, заданной посредством уравнения (8) следующим образом:

, (8)

и может упоминаться как остаточное усиление. Остаточное усиление r_t,b может использоваться в декодере, например, в варианте осуществления декодера на фиг. 3, для формирования подходящей замены для остатка прогнозирования.

В варианте осуществления кодера, показанном на фиг. 2, оба коэффициента g_t,b и r_t,b усиления могут вычисляться в качестве параметров для сравнения в блоке 30 вычисления параметров для сравнения и пространственных параметров с использованием энергий и преобразований L_t,k,comp и R_t,k,comp частоты с компенсацией ITD, заданных в уравнениях (9) следующим образом:

(9)

и абсолютного значения их внутреннего произведения:

, (10)

заданного в уравнении (10).

На основе упомянутых энергий и вместе с внутренним произведением , коэффициент g_t,b бокового усиления может вычисляться с использованием уравнения (11) следующим образом:

(11).

Кроме того, коэффициент r_t,b остаточного усиления может вычисляться на основе упомянутых энергий и вместе с внутренним произведением и коэффициента g_t,b бокового усиления с использованием уравнения (12) следующим образом:

(12).

В других вариантах осуществления, другие подходы и/или уравнения могут использоваться для того, чтобы вычислять коэффициент g_t,b бокового усиления и коэффициент r_t,b остаточного усиления и/или другие параметры для сравнения надлежащим образом.

Как упомянуто выше, компенсация ITD в частотной области, как правило, снижает сложность, но без дополнительных мер это сопровождается недостатком. В идеальном случае, для чистой безэховой речи, записанной с помощью AB-компоновки микрофонов, сигнал l(τ) левого канала фактически представляет собой задержанную (посредством задержки d) и масштабированную (посредством усиления c) версию сигнала r(τ) правого канала. Эта ситуация может выражаться посредством следующего уравнения (13), в котором:

(13).

После надлежащей компенсации ITD не прошедших оконное преобразование входных канальных аудиосигналов l(τ) и r(τ), оценка для коэффициента g_t,b бокового усиления должна задаваться в уравнении (14) следующим образом:

(14)

с исчезающим коэффициентом r_t,b остаточного усиления, заданным следующим образом:

(15).

Тем не менее, если канальное совмещение выполняется в частотной области, аналогично варианту осуществления на фиг. 2, посредством блока 20 обнаружения и компенсации ITD с использованием блоков 13 и 23 кругового сдвига, соответственно, надлежащие окна анализа w(τ) DFT также сдвигаются по кругу. Таким образом, после компенсации ITD в частотной области, преобразование частоты R_t,k,comp с компенсацией ITD для правого канала может определяться в форме частотно-временных элементов разрешения посредством DFT:

(16),

тогда как преобразование L_t,k,comp частоты с компенсацией ITD для левого канала может определяться в форме частотно-временных элементов разрешения в качестве DFT:

(17),

где w является окном анализа DFT.

Обнаружено, что такое канальное совмещение в частотной области главным образом влияет на коэффициент r_t,b остаточного усиления прогнозирования, который растет с увеличением ITD_t. Без дополнительных мер, канальное совмещение в частотной области в силу этого должно добавлять дополнительное объемное окружение в выходной аудиосигнал в декодере, как показано на фиг. 3. Это дополнительное объемное окружение является нежелательным, в частности, когда аудиосигнал, который должен кодироваться, содержит чистую речь, поскольку искусственное объемное окружение ухудшает понятность речи.

Следовательно, вышеописанное последствие может смягчаться посредством коррекции коэффициента r_t,b остаточного усиления (прогнозирования) при наличии ненулевых ITD с использованием дополнительного параметра для сравнения.

В варианте осуществления, это может осуществляться посредством вычисления смещения усиления для остаточного усиления r_t,b, которое направлено на согласование с ожидаемым остаточным сигналом e(τ), когда сигнал является когерентным и временно плоским. В этом случае, предполагается глобальное усиление для прогнозирования, заданное посредством уравнения (18) следующим образом:

(18)

и исчезающая глобальная , заданная посредством . Следовательно, ожидаемый остаточный сигнал e(τ) может определяться с использованием уравнения (19) следующим образом:

(19).

В варианте осуществления, дополнительный параметр для сравнения, помимо коэффициента g_t,b бокового усиления и коэффициента r_t,b остаточного усиления, может вычисляться на основе ожидаемого остаточного сигнала e(τ) в блоке 30 вычисления параметров для сравнения и пространственных параметров с использованием параметра ITD ITD_t и функции, равной или аппроксимирующей автокорреляционную функцию для окна анализа w, заданной в уравнении (20) следующим образом:

(20).

Если M_r обозначает кратковременное среднее значение , энергия ожидаемого остаточного сигнала e(τ) может приблизительно вычисляться посредством уравнения (21) следующим образом:

(21).

С прошедшим оконное преобразование средним сигналом, заданным посредством уравнения (22) следующим образом:

(22),

энергия этого прошедшего оконное преобразование среднего сигнала может аппроксимироваться посредством уравнения (23) следующим образом:

(23).

В варианте осуществления, вышеуказанная функция, используемая при вычислении параметра для сравнения в блоке 30 вычисления параметров для сравнения и пространственных параметров, равна или аппроксимирует нормализованную версию автокорреляционной функции для окна анализа, заданную в уравнении (23a) следующим образом:

(23a).

На основе этой нормализованной автокорреляционной функции , упомянутый дополнительный параметр для сравнения может вычисляться с использованием уравнения (24) следующим образом:

(24)

для получения оцененного параметра коррекции для остаточного усиления r_t,b. В варианте осуществления, параметр для сравнения может использоваться в качестве оценки для локальных остаточных усилений r_t,b в подполосах b частот. В другом варианте осуществления, коррекция остаточных усилений r_t,b может затрагиваться посредством использования параметра для сравнения в качестве смещения. Иными словами, значения остаточного усиления r_t,b могут заменяться посредством скорректированного остаточного усиления r_t,b,corr, заданного в уравнении (25) следующим образом:

(25).

Таким образом, в варианте осуществления, дополнительный параметр для сравнения, вычисленный в блоке 30 вычисления параметров для сравнения и пространственных параметров, может содержать скорректированное остаточное усиление r_t,b,corr, которое соответствует остаточному усилению r_t,b, скорректированному посредством параметра коррекции остаточного усиления, заданного в уравнении (24) в форме смещения, заданного в уравнении (25).

Следовательно, дополнительный вариант осуществления относится к параметрическому кодированию аудио с использованием прошедшего оконное преобразование DFT и [поднабора] параметров IPD согласно уравнению (3), бокового усиления g_t,b согласно уравнению (11), остаточного усиления r_t,b согласно уравнению (12) и ITD, при этом остаточное усиление r_t,b регулируется согласно уравнению (25).

При эмпирической оценке, оценки остаточного усиления могут тестироваться с различными вариантами выбора для правого канального аудиосигнала r(τ) в уравнении (13). Для входных сигналов r(τ) белого шума, которые удовлетворяют предположению по временной равномерности, оценки остаточного усиления являются достаточно близкими к среднему остаточных усилений r_t,b, измеренных в подполосах частот, как показано на нижеприведенной таблице 1.

ITD\c	1	2	4	8	16	32
мс	0,0893	0,0793	0,0569	0,0351	0,0196	0,0104
	(0,0885)	(0,0785)	(0,0565)	(0,0349)	(0,0195)	(0,0104)
мс	0,1650	0,1460	0,1045	0,0640	0,0357	0,0189
	(0,1631)	(0,1458)	(0,1039)	(0,0640)	(0,0357)	(0,0189)
мс	0,2348	0,2073	0,1472	0,0896	0,0498	0,0263
	(0,2327)	(0,2062)	(0,1473)	(0,0904)	(0,0504)	(0,0267)
мс	0,3005	0,2644	0,1862	0,1125	0,0621	0,0327
	(0,2992)	(0,2627)	(0,1885)	(0,1151)	(0,0641)	(0,0339)

Таблица 1. Среднее измеренных остаточных усилений r_t,b для панорамированного белого шума с ITD и оценками остаточного усиления (указаны в скобках).

Для речевых сигналов r(τ), часто нарушается предположение временной равномерности, что типично увеличивает среднее остаточных усилений r_t,b (см. нижеприведенную таблицу 2 в сравнении с вышеприведенной таблицей 1). Способ регулирования остаточного усиления или коррекции согласно уравнению (25) в силу этого может считаться достаточно консервативным. Тем не менее, он по-прежнему позволяет удалять большую часть нежелательного объемного окружения для записей чистой речи.

ITD\c	1	2	4
мс	0,1055	0,1022	0,0874
	(0,0885)	(0,0785)	(0,0565)
мс	0,1782	0,1634	0,1283
	(0,1631)	(0,1458)	(0,1039)
мс	0,2435	0,2191	0,1657
	(0,2327)	(0,2062)	(0,1473)
мс	0,3050	0,2720	0,2014
	(0,2992)	(0,2627)	(0,1885)

Таблица 2. Среднее измеренных остаточных усилений r_t,b для панорамированной моноречи с ITD и оценками остаточного усиления (указаны в скобках).

Нормализованная автокорреляционная функция , заданная в уравнении (23a), может считаться независимой от индекса t кадра в случае, если используется одно окно анализа w. Кроме того, нормализованная автокорреляционная функция может считаться варьирующейся очень медленно для типичных окон анализа w. Следовательно, может интерполироваться точно из небольшой таблицы значений, что обеспечивает высокую эффективность этой схемы коррекции с точки зрения сложности.

Таким образом, в вариантах осуществления, функция для определения оценок остаточного усиления или смещения коррекции остаточного усиления в качестве параметра для сравнения в блоке 30, может получаться посредством интерполяции нормализованной версии автокорреляционной функции для окна анализа, сохраненного в таблице поиска. В другом варианте осуществления, другие подходы для интерполяции нормализованной автокорреляционной функции могут использоваться надлежащим образом.

Для BCC, как описано в [2], аналогичная проблема может возникать при оценке межканальной когерентности ICC в подполосах частот. В варианте осуществления, соответствующая может оцениваться посредством уравнения (26) с использованием энергий и уравнения (9) и внутреннего произведения уравнения (10) следующим образом:

(26).

По определению, ICC измеряется после компенсации ITD. Тем не менее, несовпадающие оконные функции w могут смещать ICC-измерение. В вышеуказанной настройке чистой безэховой речи, описанной посредством уравнения (13), ICC должна быть равна 1 при вычислении для надлежащим образом совмещенных входных каналов.

Тем не менее, смещение, вызываемое посредством вращения окон анализа w(τ) в частотной области при компенсации ITD ITD_t в частотной области посредством кругового сдвига(ов), может смещать измерение ICC к , заданной в уравнении (27) следующим образом:

(27).

В варианте осуществления, смещение ICC может корректироваться аналогично по сравнению с коррекцией остаточного усиления r_t,b в уравнении (25), а именно, посредством проведения замены, заданной в уравнении (28) следующим образом:

(28).

Таким образом, дополнительный вариант осуществления относится к параметрическому кодированию аудио с использованием прошедшего оконное преобразование DFT и [поднабора] параметров IPD согласно уравнению (3), ILD, ICC согласно уравнению (26) и ITD, при этом ICC регулируется согласно уравнению (28).

В варианте осуществления параметрического кодера 200, показанного на фиг. 2, блок 40 понижающего микширования может уменьшать число каналов многоканальной, здесь стерео-, системы посредством вычисления сигнала DMX_t,k понижающего микширования, заданного посредством уравнения (29) в частотной области. В варианте осуществления, сигнал DMX_t,k понижающего микширования может вычисляться с использованием преобразований L_t,k,comp и R_t,k,comp частоты с компенсацией ITD согласно следующему:

(29).

В уравнении (29), β может представлять собой параметр регулирования реальной абсолютной фазы, вычисленный из стерео-/пространственных параметров. В других вариантах осуществления, схема кодирования, как показано на фиг. 2, также может работать с любым другим способом понижающего микширования. Другие варианты осуществления могут использовать преобразования L_t,k и R_t,k частоты и необязательно дополнительные параметры для того, чтобы определять сигнал DMX_t,k понижающего микширования.

В варианте осуществления кодера по фиг. 2, блок 50 обратного дискретного преобразования Фурье (IDFT) может принимать сигнал DMX_t,k понижающего микширования в частотной области из блока 40 понижающего микширования. блок 50 IDFT может преобразовывать частотно-временные элементы DMX_t,k разрешения для понижающего микширования, , из частотной области во временную область, что дает в результате сигнал dmx(τ) понижающего микширования во временной области. В вариантах осуществления, синтезирующая оконная функция ws(τ) может применяться и суммироваться с сигналом dmx(τ) понижающего микширования во временной области.

Кроме того, аналогично варианту осуществления на фиг. 2, базовый кодер 60 может принимать сигнал dmx(τ) понижающего микширования в области, чтобы кодировать одноканальный аудиосигнал согласно MPEG-4, часть 3 [1] или любому другому подходящему алгоритму кодирования аудио надлежащим образом. В варианте осуществления по фиг. 2, подвергнутый базовому кодированию сигнал dmx(τ) понижающего микширования во временной области может комбинироваться с параметром ITD ITD_t, боковым усилением g_t,b и скорректированным остаточным усилением r_t,b,corr, надлежащим образом обработанными и/или дополнительно кодированными для передачи в декодер.

Фиг. 3. показывает вариант осуществления многоканального декодера. Декодер может принимать комбинированный сигнал, содержащий входной сигнал dmx(τ) моно/понижающего микширования во временной области и параметры для сравнения и/или пространственные параметры в качестве вспомогательной информации на основе кадров. Декодер, как показано на фиг. 3, может выполнять следующие этапы, которые подробно описываются ниже.

1. Частотно-временное преобразование ввода с использованием прошедших оконное преобразование DFT

в блоке 80 DFT

2. Прогнозирование отсутствующего остатка в частотной области

в блоке 90 повышающего микширования и пространственного восстановления

3. Повышающее микширование в частотной области

в блоке 90 повышающего микширования и пространственного восстановления

4. Синтез ITD в частотной области

в блоке 100 синтеза ITD

5. Преобразование из частотной во временную область, оконное преобразование и суммирование с перекрытием

в блоках 112, 122 IDFT и блоках 111, 121 оконного преобразования

Частотно-временное преобразование входного сигнала dmx(τ) моно/понижающего микширования может выполняться аналогично входным аудиосигналам кодера на фиг. 2. В конкретных вариантах осуществления, подходящее значение дополнения нулями может добавляться для восстановления ITD в частотной области. Эта процедура может давать в результате преобразование частоты сигнала понижающего микширования в форме частотно-временных элементов DMX_t,k разрешения, .

Чтобы восстанавливать пространственные свойства сигнала DMX_t,k понижающего микширования, может требоваться второй сигнал, независимый от передаваемого сигнала DMX_t,k понижающего микширования. Этот сигнал, например, может (ре)конструироваться в блоке 90 повышающего микширования и пространственного восстановления с использованием скорректированного остаточного усиления r_t,b,corr в качестве параметра для сравнения (передаваемого посредством кодера, такого как кодер на фиг. 2) и частотно-временных элементов разрешения с временной задержкой сигнала DMX_t,k понижающего микширования, заданных в уравнении (30):

(30)

для .

В других вариантах осуществления, другие подходы и уравнения могут использоваться для того, чтобы восстанавливать пространственные свойства сигнала DMX_t,k понижающего микширования на основе передаваемого по меньшей мере одного параметра для сравнения.

Кроме того, блок 90 повышающего микширования и пространственного восстановления может выполнять повышающее микширование посредством применения инверсии к среднему/боковому преобразованию в кодере с использованием сигнала DMX_t,k понижающего микширования и бокового усиления g_t,b, передаваемых посредством кодера, а также восстановленного остаточного сигнала . Это может давать в результате декодированные преобразования и частоты с компенсацией ITD, заданные посредством уравнений (31) и (32) следующим образом:

(31)

и:

(32)

для , где β является параметром абсолютного вращения фаз, равным параметру в процедуре понижающего микширования в уравнении (29)

Кроме того, как показано на фиг. 3, декодированные преобразования и частоты с компенсацией ITD могут приниматься посредством блока 100 синтеза/декомпенсации ITD. Он может применять параметр ITD ITD_t в частотной области посредством вращения и , как задано в уравнениях (33) и (34), что дает в результате декодированные преобразования и частоты с декомпенсацией ITD:

(33)

и:

(34).

На фиг. 3, преобразование из частотной во временную область декодированных преобразований частоты с декомпенсацией ITD в форме частотно-временных элементов и разрешения, , может выполняться посредством блоков 112 и 122 IDFT, соответственно. Результирующие сигналы временной области затем могут подвергаться оконному преобразованию посредством блоков 111 и 121 оконного преобразования, соответственно, и суммироваться с восстановленными выходными аудиосигналами и временной области левого и правого аудиоканала.

Вышеописанные варианты осуществления являются просто иллюстративными в отношении принципов настоящего изобретения. Следует понимать, что модификации и изменения компоновок и подробностей, описанных в данном документе, должны быть очевидными для специалистов в данной области техники. Следовательно, они подразумеваются как ограниченные только посредством объема нижеприведенной формулы изобретения, а не посредством конкретных подробностей, представленных посредством описания и пояснения вариантов осуществления в данном документе.

Библиографический список

[1] MPEG-4 High Efficiency Advanced Audio Coding (HE-AAC) v2.

[2] Jürgen Herre "FROM JOINT STEREO TO SPATIAL AUDIO CODING – RECENT PROGRESS AND STANDARDIZATION", Proc. of the 7th Int. Conference on digital Audio Effects (DAFX-04), Неаполь, Италия, 5-8 октября 2004 года.

[3] Christoph Tourney и Christof Faller "Improved Time Delay Analysis/Synthesis for Parametric Stereo Audio Coding", AES Convention Paper 6753, 2006 год.

[4] Christof Faller и Frank Baumgarte "Binaural Cue Coding Part II: Schemes and Applications", IEEE Transactions on Speech and Audio Processing, издание 11, номер 6, ноябрь 2003 года.

1. Устройство сравнения для многоканального аудиосигнала, выполненное с возможностью:

- извлечения для межканальной разности времен (ITD) между аудиосигналами по меньшей мере для одной пары каналов по меньшей мере одного параметра ITD (ITD_t) аудиосигналов для по меньшей мере одной пары каналов в окне анализа (w(τ)),

- компенсации ITD по меньшей мере для одной пары каналов в частотной области посредством кругового сдвига с использованием по меньшей мере одного параметра ITD для формирования по меньшей мере одной пары преобразований (L_t,k,comp; R_t,k,comp) частоты с компенсацией ITD,

- вычисления на основании по меньшей мере одного параметра ITD и по меньшей мере одной пары преобразований частоты с компенсацией ITD по меньшей мере одного параметра для сравнения.

2. Устройство сравнения по п. 1, дополнительно выполненное с возможностью использования преобразования (L_t,k; R_t,k) частоты аудиосигналов по меньшей мере для одной пары каналов в окне анализа (w(τ)) для извлечения по меньшей мере одного параметра ITD (ITD_t).

3. Устройство сравнения по п. 1, дополнительно выполненное с возможностью:

- вычисления по меньшей мере одного параметра для сравнения с использованием функции, равной или аппроксимирующей автокорреляционную функцию для окна анализа и по меньшей мере одного параметра ITD.

4. Устройство сравнения по п. 3, в котором:

- функция равна или аппроксимирует нормализованную версию автокорреляционной функции для окна анализа.

5. Устройство сравнения по п. 4, дополнительно выполненное с возможностью:

- получения функции посредством интерполяции нормализованной версии автокорреляционной функции для окна анализа, сохраненной в таблице поиска.

6. Устройство сравнения по п. 1, в котором:

- по меньшей мере один параметр для сравнения содержит по меньшей мере одно боковое усиление (g_t,b) по меньшей мере одной пары среднего/бокового преобразований (M_t,k; S_t,k) для по меньшей мере одной пары преобразований (L_t,k,comp; R_t,k,comp) частоты с компенсацией ITD, причем по меньшей мере одно боковое усиление представляет собой усиление для прогнозирования бокового преобразования (S_t,k) из среднего преобразования (M_t,k) по меньшей мере из одной пары среднего/бокового преобразований.

7. Устройство сравнения по п. 6, в котором:

- по меньшей мере один параметр для сравнения содержит по меньшей мере одно скорректированное остаточное усиление (r_t,b,corr), соответствующее по меньшей мере одному остаточному усилению (r_t,b), скорректированному посредством параметра коррекции остаточного усиления, причем по меньшей мере одно остаточное усиление (r_t,b) представляет собой функцию энергии остатка в прогнозировании бокового преобразования (S_t,k) из среднего преобразования (M_t,k) относительно энергии среднего преобразования:

8. Устройство сравнения по п. 7, дополнительно выполненное с возможностью:

- вычисления по меньшей мере одного бокового усиления и по меньшей мере одного остаточного усиления с использованием энергий и внутреннего произведения по меньшей мере одной пары преобразований (L_t,k,comp; R_t,k,comp) частоты с компенсацией ITD.

9. Устройство сравнения по п. 7, дополнительно выполненное с возможностью:

- коррекции по меньшей мере одного остаточного усиления посредством смещения, соответствующего параметру коррекции остаточного усиления, вычисленному как , при этом:

c является усилением масштабирования между аудиосигналами по меньшей мере одной пары каналов, и является функцией, аппроксимирующей нормализованную версию автокорреляционной функции для окна анализа.

10. Устройство сравнения по п. 1, в котором:

- по меньшей мере один параметр для сравнения содержит по меньшей мере один параметр коррекции межканальной когерентности (ICC) для коррекции оценки (ICCB_{, t}) ICC, определенной в частотной области для по меньшей мере одной пары аудиосигналов на основании по меньшей мере одного параметра ITD.

11. Устройство сравнения по п. 1, дополнительно выполненное с возможностью:

- формирования по меньшей мере одного сигнала понижающего микширования для аудиосигналов по меньшей мере одной пары каналов, при этом по меньшей мере один параметр для сравнения вычисляется для восстановления аудиосигналов по меньшей мере одной пары каналов по меньшей мере из одного сигнала понижающего микширования.

12. Устройство сравнения по п. 1, дополнительно выполненное с возможностью:

- формирования по меньшей мере одного сигнала понижающего микширования на основании по меньшей мере одной пары преобразований частоты с компенсацией ITD.

13. Многоканальный кодер, содержащий устройство сравнения по п. 11, дополнительно выполненный с возможностью:

- кодирования по меньшей мере одного сигнала понижающего микширования, по меньшей мере одного параметра ITD и по меньшей мере одного параметра для сравнения для передачи в декодер.

14. Декодер для многоканальных аудиосигналов, выполненный с возможностью:

- декодирования по меньшей мере одного сигнала понижающего микширования, по меньшей мере одного параметра межканальной разности времен (ITD) и по меньшей мере одного параметра для сравнения, принимаемые от кодера,

- повышающего микширования по меньшей мере одного сигнала понижающего микширования для восстановления аудиосигналов по меньшей мере одной пары каналов из по меньшей мере одного сигнала понижающего микширования с использованием по меньшей мере одного параметра для сравнения для формирования по меньшей мере одной пары декодированных преобразований частоты с компенсацией ITD,

- декомпенсации ITD по меньшей мере для одной пары декодированных преобразований частоты с компенсацией ITD по меньшей мере одной пары каналов в частотной области посредством кругового сдвига с использованием по меньшей мере одного параметра ITD для формирования по меньшей мере одной пары декодированных преобразований частоты с декомпенсацией ITD для восстановления ITD аудиосигналов по меньшей мере одной пары каналов во временной области,

- выполнения обратного преобразования частоты по меньшей мере для одной пары декодированных преобразований частоты с декомпенсацией ITD для формирования по меньшей мере одной пары декодированных аудиосигналов по меньшей мере одной пары каналов.

15. Способ сравнения для многоканального аудиосигнала, содержащий этапы, на которых:

- извлекают для межканальной разности времен (ITD) между аудиосигналами по меньшей мере для одной пары каналов по меньшей мере один параметр ITD (ITD_t) аудиосигналов по меньшей мере одной пары каналов в окне анализа (w(τ)),

- компенсируют ITD по меньшей мере для одной пары каналов в частотной области посредством кругового сдвига с использованием по меньшей мере одного параметра ITD для формирования по меньшей мере одной пары преобразований (L_t,k,comp; R_t,k,comp) частоты с компенсацией ITD,

- вычисляют на основании по меньшей мере одного параметра ITD и по меньшей мере одной пары преобразований частоты с компенсацией ITD по меньшей мере один параметр для сравнения.

Изобретение относится к области обработки данных. Технический результат заключается в обеспечении возможности формирования из представления в области коэффициентов смешанного представления в пространственной области/области коэффициентов, в котором количество HOA (Амбиофонических Звуков Более Высокого Порядка)-сигналов может быть переменным.

Способ и устройство для рендеринга акустического сигнала и машиночитаемый носитель записи // 2777511

Изобретение относится к способу рендеринга аудиосигнала, а более конкретно, к способу рендеринга для еще более точного представления позиции звукового изображения и тембра посредством модификации коэффициента панорамирования подъема или коэффициента фильтрации подъема, когда подъем входного канала выше или ниже подъема согласно стандартной схемы размещения.

Способы, устройство и системы для улучшения фильтра декорреляции унифицированного декодирования и кодирования речи и звука // 2776394

Изобретение относится к области вычислительной техники для обработки аудиоданных. Технический результат заключается в сокращении вычислительной нагрузки при обработке битового аудиопотока, совместимого с унифицированным кодированием речи и звука (MPEG-D USAC).

Способ и устройство для сжатия и распаковки представления на основе амбиофонии высшего порядка // 2776307

Изобретение относится к средствам для сжатия и распаковки представления на основе амбиофонии высшего порядка. Технический результат заключается в повышении эффективности сжатия.

Способ кодирования стереопараметров временной области и соответствующий продукт // 2773636

Изобретение относится к области вычислительной техники для обработки аудиоданных. Технический результат заключается в повышении качества кодирования стереопараметров временной области.

Понижающий микшер, аудиокодер, способ и компьютерная программа, применяющая значение фазы к значению абсолютной величины // 2773510

Группа изобретений относится к понижающему микшеру, аудиокодеру и способам для предоставления сигнала понижающего микширования на основе множества входных сигналов. Техническим результатом является создание способа понижающего микширования, обеспечивающего повышение качества звука при снижении вычислительной сложности.

Способ и соответствующий продукт для определения режима кодирования/декодирования аудио // 2773421

Предоставлен способ определения режима кодирования аудио и соответствующий продукт. Способ определения режима кодирования аудио может включать в себя: определение схемы комбинации каналов для текущего кадра, причем определенная схема комбинации каналов для текущего кадра является одной из множества схем комбинации каналов; и определение режима кодирования текущего кадра на основе схемы комбинации каналов для предыдущего кадра и схемы комбинации каналов для текущего кадра, причем режим кодирования текущего кадра является одним из множества режимов кодирования.

Способ кодирования и декодирования стерео во временной области и сопутствующий продукт // 2773022

Предложен способ кодирования и декодирования аудио и соответствующее устройство. Способ кодирования аудио может включать в себя: определение режима кодирования текущего кадра; при определении, что режим кодирования текущего кадра является режимом кодирования антикоррелированного сигнала, выполнение обработки понижающего микширования во временной области для сигналов левого и правого каналов в текущем кадре с помощью способа обработки понижающего микширования во временной области, соответствующего режиму кодирования антикоррелированного сигнала, для получения сигнала первичного канала и сигнала вторичного канала (сигналы первичного и вторичного каналов) в текущем кадре, причем способ обработки понижающего микширования во временной области, соответствующий режиму кодирования антикоррелированных сигналов, - это способ обработки понижающего микширования во временной области, соответствующий схеме комбинации каналов антикоррелированных сигналов, а схема комбинации каналов антикоррелированных сигналов представляет собой схему комбинации каналов, соответствующую почти противофазному сигналу; и кодирование полученных сигнала первичного канала и сигнала вторичного канала в текущем кадре.

Временное согласование данных обработки на основе квадратурного зеркального фильтра // 2772778

Изобретение относится к средствам для временного согласования данных обработки на основе квадратурного зеркального фильтра. Технический результат заключается в уменьшении задержки при кодировании и декодировании звука.

Устройство, способ и компьютерная программа для кодирования, декодирования, обработки сцены и других процедур, связанных с пространственным аудиокодированием на основе dirac с использованием генераторов компонент низкого порядка, среднего порядка и высокого порядка // 2772423

Изобретение относится к области вычислительной техники для обработки аудиоданных. Технический результат заключается в снижении задержки для обеспечения возможности разговорных сервисов в сетях мобильной связи.