Уменьшение артефактов гребенчатого фильтра при многоканальном понижающем микшировании с адаптивным фазовым совмещением

Изобретение относится к области обработки аудиосигналов. Технический результат заключается в повышении эффективности обработки аудиосигналов. Технический результат достигается за счет анализа входного аудиосигнала, при этом межканальные зависимости между входными каналами идентифицируются; выравнивания фазы входных каналов на основе идентифицированных межканальных зависимостей, при этом фазы входных каналов тем больше выровнены относительно друг друга, чем выше их межканальная зависимость; микширования с понижением выровненного входного аудиосигнала в выходной аудиосигнал, имеющий меньшее число выходных каналов, чем число входных каналов. 6 н. и 19 з.п. ф-лы, 10 ил.

 

Настоящее изобретение относится к обработке аудиосигналов, и в частности, к уменьшению артефактов гребенчатого фильтра при многоканальном понижающем микшировании с адаптивным фазовым выравниванием.

Несколько многоканальных звуковых форматов использованы, из стандарта объемного 5.1-звучания, который является типичным для звуковых дорожек фильмов, для более широкомасштабных форматов трехмерного объемного звучания. В некоторых сценариях, необходимо передавать звуковой контент по меньшему числу громкоговорителей.

Кроме того, в новых способах кодирования аудио с низкой скоростью передачи битов, к примеру, описанных в работах авторов J. Breebaart, S. van de Par, A. Kohlrausch и E. Schuijers "Parametric coding of stereoaudio", EURASIP Journal on Applied Signal Processing, издание 2005, стр. 1305-1322, 2005 год, и авторов J. Herre, K. Kjörling, J. Breebaart, C. Faller, S. Disch, H. Purnhagen, J. Koppens, J. Hilpert, J. Röden, W. Oomen, K. Linzmeier и K. S. Chong, "MPEG Surround-The ISO/MPEG standard for efficient and compatible multichannel audio coding", J. Audio Eng. Soc, издание 56, № 11, стр. 932-955, 2008 год, более высокое число каналов передается в качестве набора сигналов понижающего микширования и вспомогательной пространственной информации, с помощью которого восстанавливается многоканальный сигнал с исходной конфигурацией каналов. Эти варианты использования обуславливают разработку способов понижающего микширования, которые сохраняют хорошее качество звука.

Простейший способ понижающего микширования представляет собой суммирование каналов с использованием статической матрицы понижающего микширования. Тем не менее, если входные каналы содержат звуки, которые являются когерентными, но не выравненными во времени, то сигнал понижающего микширования с большой вероятностью должен достигать воспринимаемого спектрального смещения, такого как характеристики гребенчатого фильтра.

В работе J. Breebaart и C. Faller "Spatial audio processing: MPEG Surround and other applications". Wiley-Interscience, 2008 год, описывается способ фазового выравнивания двух входных сигналов, который регулирует фазы входных каналов на основе оцененного параметра межканальной разности фаз (ICPD) в полосах частот. Решение предоставляет базовую функциональность, аналогичную базовой функциональности способа, предложенного в этом документе, но не является применимым для понижающего микширования более двух взаимозависимых каналов.

В WO 2012/006770, PCT/CN2010/075107 (Huawei, Faller, Lang, Xu), описывается обработка фазового выравнивания для случая двух-одного канала (стерео-моно). Обработка не является непосредственно применимой для многоканального аудио.

В работе авторов Wu и др. "Parametric Stereo Coding Scheme with the new Downmix Method and whole Band Inter Channel Time/Phase Differences", Proceedings of the ICASSP, 2013 год, описывается способ, который использует полнополосную межканальную разность фаз для стереопонижающего микширования. Фаза моносигнала задается равной разности фаз между левым каналом и полной разностью фаз. С другой стороны, способ является применимым только для стерео-монопонижающего микширования. Более двух взаимозависимых каналов не могут быть микшированы с понижением с помощью этого способа.

Цель настоящего изобретения заключается в том, чтобы предоставлять усовершенствованные принципы для обработки аудиосигналов. Цель настоящего изобретения достигается посредством кодера по п. 1, посредством декодера по п. 12, посредством системы по п. 13, посредством способа по п. 14 и посредством компьютерной программы по п. 15.

Предусмотрен декодер обработки аудиосигналов, имеющий, по меньшей мере, одну полосу частот и выполненный с возможностью обработки входного аудиосигнала, имеющего множество входных каналов, по меньшей мере, в одной полосе частот. Декодер выполнен с возможностью выравнивать фазы входных каналов в зависимости от межканальных зависимостей между входными каналами, при этом фазы входных каналов тем больше выравнены относительно друг друга, чем выше их межканальная зависимость. Дополнительно, декодер выполнен с возможностью микшировать с понижением выравненный входной аудиосигнал в выходной аудиосигнал, имеющий меньшее число выходных каналов, чем число входных каналов.

Базовый принцип работы декодера заключается в том, что взаимно зависимые (когерентные) входные каналы входного аудиосигнала притягивают друг друга с точки зрения фазы в конкретной полосе частот, в то время как те входные каналы входного аудиосигнала, которые являются взаимно независимыми (некогерентными), остаются незатронутыми. Цель предложенного декодера состоит в том, чтобы повышать качество понижающего микширования относительно подхода на основе частотной посткоррекции в критических состояниях подавления сигналов при предоставлении идентичной производительности в некритических состояниях.

Дополнительно, по меньшей мере, некоторые функции декодера могут передаваться во внешнее устройство, к примеру, в кодер, который предоставляет входной аудиосигнал. Это может обеспечивать возможность реагировать на сигналы, когда декодер предшествующего уровня техники может формировать артефакты. Дополнительно, можно обновлять правила обработки понижающего микширования без изменения декодера и обеспечивать высокое качество понижающего микширования. Ниже подробнее описывается передача функций декодера.

В некоторых вариантах осуществления, декодер может быть выполнен с возможностью анализировать входной аудиосигнал в полосе частот, чтобы идентифицировать межканальные зависимости между входными аудиоканалами. В этом случае, кодер, предоставляющий входной аудиосигнал, может представлять собой стандартный кодер, поскольку анализ входного аудиосигнала выполняется посредством самого декодера.

В вариантах осуществления, декодер может быть выполнен с возможностью принимать межканальные зависимости между входными каналами из внешнего устройства, к примеру, из кодера, который предоставляет входной аудиосигнал. Эта версия дает возможность гибких компоновок для рендеринга в декодере, но требует большего объема дополнительного трафика данных между кодером и декодером, обычно в потоке битов, содержащем входной сигнал декодера.

В некоторых вариантах осуществления, декодер может быть выполнен с возможностью нормализовать энергию выходного аудиосигнала на основе определенной энергии входного аудиосигнала, при этом декодер выполнен с возможностью определять энергию сигналов для входного аудиосигнала.

В некоторых вариантах осуществления, декодер может быть выполнен с возможностью нормализовать энергию выходного аудиосигнала на основе определенной энергии входного аудиосигнала, при этом декодер выполнен с возможностью принимать определенную энергию входного аудиосигнала из внешнего устройства, к примеру, из кодера, который предоставляет входной аудиосигнал.

Посредством определения энергии сигналов для входного аудиосигнала и посредством нормализации энергии выходного аудиосигнала, можно обеспечивать то, что энергия выходного аудиосигнала имеет соответствующий уровень по сравнению с другими полосами частот. Например, нормализация может выполняться таким образом, что энергия каждого выходного аудиосигнала полосы частот является идентичной сумме энергий полосовых входных аудиосигналов, умноженных на квадраты соответствующих усилений при понижающем микшировании.

В различных вариантах осуществления, декодер может содержать понижающий микшер для понижающего микширования входного аудиосигнала на основе матрицы понижающего микширования, при этом декодер выполнен с возможностью вычислять матрицу понижающего микширования таким образом, что фазы входных каналов выравниваются на основе идентифицированных межканальных зависимостей. Матричные операции являются математическим инструментом для эффективного разрешения многомерных проблем. Следовательно, использование матрицы понижающего микширования предоставляет гибкий и простой способ для того, чтобы микшировать с понижением входной аудиосигнал в выходной аудиосигнал, имеющий меньшее число выходных каналов, чем число входных каналов входного аудиосигнала.

В некоторых вариантах осуществления, декодер содержит понижающий микшер для понижающего микширования входного аудиосигнала на основе матрицы понижающего микширования, при этом декодер выполнен с возможностью принимать матрицу понижающего микширования, вычисленную таким образом, что фазы входных каналов выравниваются на основе идентифицированных межканальных зависимостей, из внешнего устройства, к примеру, из кодера, который предоставляет входной аудиосигнал. В силу этого существенно уменьшается сложность обработки выходного аудиосигнала в декодере.

В конкретных вариантах осуществления, декодер может быть выполнен с возможностью вычислять матрицу понижающего микширования таким образом, что энергия выходного аудиосигнала нормализована на основе определенной энергии входного аудиосигнала. В этом случае, нормализация энергии выходного аудиосигнала интегрирована в процесс понижающего микширования, так что упрощается обработка сигналов.

В вариантах осуществления, декодер может быть выполнен с возможностью принимать матрицу M понижающего микширования, вычисленную таким образом, что энергия выходного аудиосигнала нормализована на основе определенной энергии входного аудиосигнала, из внешнего устройства, к примеру, из кодера, который предоставляет входной аудиосигнал.

Этап частотной коррекции энергии может либо включаться в процесс кодирования, либо выполняться в декодере, поскольку он представляет собой несложный и четко заданный этап обработки.

В некоторых вариантах осуществления, декодер может быть выполнен с возможностью анализировать временные интервалы входного аудиосигнала с использованием функции окна, при этом межканальные зависимости определяются для каждого временного кадра.

В вариантах осуществления, декодер может быть выполнен с возможностью принимать анализ временных интервалов входного аудиосигнала с использованием функции окна, при этом межканальные зависимости определяются для каждого временного кадра, из внешнего устройства, к примеру, из кодера, который предоставляет входной аудиосигнал.

Обработка в обоих случаях может выполняться перекрывающимся покадровым способом, хотя другие варианты также являются легкодоступными, такие как использование рекурсивного окна для оценки релевантных параметров. В принципе, может выбираться любая функция окна.

В некоторых вариантах осуществления, декодер выполнен с возможностью вычислять матрицу ковариационных значений, при этом ковариационные значения выражают межканальную зависимость пары входных аудиоканалов. Вычисление матрицы ковариационных значений является простым способом захватывать кратковременные стохастические свойства полосы частот, которые могут использоваться для того, чтобы определять когерентность входных каналов входного аудиосигнала.

В вариантах осуществления, декодер выполнен с возможностью принимать матрицу ковариационных значений, при этом ковариационные значения выражают межканальную зависимость пары входного аудиоканала, из внешнего устройства, к примеру, из кодера, который предоставляет входной аудиосигнал. В этом случае, вычисление ковариационной матрицы может передаваться в кодер. Затем ковариационные значения ковариационной матрицы должны передаваться в потоке битов между кодером и декодером. Эта версия дает возможность гибких компоновок для рендеринга в приемном устройстве, но требует дополнительных данных в выходном аудиосигнале.

В предпочтительных вариантах осуществления, может устанавливаться матрица нормализованных ковариационных значений, при этом матрица нормализованных ковариационных значений основана на матрице ковариационных значений. Посредством этого признака, может быть упрощена последующая обработка.

В некоторых вариантах осуществления, декодер может быть выполнен с возможностью устанавливать матрицу значений притяжения посредством применения функции преобразования к матрице ковариационных значений или к матрице, извлеченной из матрицы ковариационных значений.

В некоторых вариантах осуществления, градиент функции преобразования может быть большим или равным нулю для всех ковариационных значений или значений, извлеченных из ковариационных значений.

В предпочтительных вариантах осуществления, функция преобразования может достигать значений между нулем и единицей для входных значений между нулем и единицей.

В вариантах осуществления, декодер может быть выполнен с возможностью принимать матрицу A значений притяжения, устанавливаемую посредством применения функции преобразования к матрице ковариационных значений или к матрице, извлеченной из матрицы ковариационных значений. Посредством применения нелинейной функции к матрице ковариационных значений или к матрице, извлеченной из матрицы ковариационных значений, такой как нормализованная ковариационная матрица, фазовое выравнивание может регулироваться в обоих случаях.

Матрица значений притяжения фаз предоставляет управляющие данные в форме коэффициентов притяжения фаз, которые определяют притяжение фаз между канальными парами. Регулирования фазы извлекаются для каждого частотно-временного мозаичного фрагмента на основе измеренной матрицы ковариационных значений, так что каналы с низкими ковариационными значениями не влияют друг на друга, и так что каналы с высокими ковариационными значениями имеют фазовую синхронизацию относительно друг друга.

В некоторых вариантах осуществления, функция преобразования является нелинейной функцией.

В вариантах осуществления, функция преобразования равна нулю для ковариационных значений или значений, извлеченных из ковариационных значений, меньших первого порогового значения преобразования, и/или при этом функция преобразования равна единице для ковариационных значений или значений, извлеченных из ковариационных значений, больших второго порогового значения преобразования. Посредством этого признака, функция преобразования состоит из трех интервалов. Для всех ковариационных значений или значений, извлеченных из ковариационных значений, меньших первого порогового значения преобразования, коэффициенты притяжения фаз вычисляются как равные нулю, и следовательно, регулирование фазы не выполняется. Для всех ковариационных значений или значений, извлеченных из ковариационных значений, превышающих первое пороговое значение преобразования, но меньших второго порогового значения преобразования, коэффициенты притяжения фаз вычисляются как значение между нулем и единицей, и следовательно, частичное регулирование фазы выполняется. Для всех ковариационных значений или значений, извлеченных из ковариационных значений, превышающих второе пороговое значение преобразования, коэффициенты притяжения фаз вычисляются как равные единице, и следовательно, полное регулирование фазы выполняется.

Пример приводится посредством следующей функции преобразования:

.

Другой предпочтительный пример приводится следующим образом:

для A≠B

для A=B

В некоторых вариантах осуществления, функция преобразования может быть представлена посредством функции, формирующей S-образную кривую.

В конкретных вариантах осуществления, декодер выполнен с возможностью вычислять матрицу коэффициентов фазового выравнивания, при этом матрица коэффициентов фазового выравнивания основана на матрице ковариационных значений и на прототипной матрице понижающего микширования.

В вариантах осуществления, декодер выполнен с возможностью принимать матрицу коэффициентов фазового выравнивания, при этом матрица коэффициентов фазового выравнивания основана на матрице ковариационных значений и на прототипной матрице понижающего микширования, из внешнего устройства, к примеру, из кодера, который предоставляет входной аудиосигнал.

Матрица коэффициентов фазового выравнивания описывает величину фазового выравнивания, которая требуется для того, чтобы выравнивать каналы с ненулевым притяжением входного аудиосигнала.

Прототипная матрица понижающего микширования задает то, какие из входных каналов сводятся в какие из выходных каналов. Коэффициенты матрицы понижающего микширования могут быть коэффициентами масштабирования для понижающего микширования входного канала в выходной канал.

Можно передавать полное вычисление матрицы коэффициентов фазового выравнивания в кодер. Матрица коэффициентов фазового выравнивания затем должна передаваться во входном аудиосигнале, но ее элементы зачастую равны нулю и могут квантоваться обусловленным способом. Поскольку матрица коэффициентов фазового выравнивания сильно зависит от прототипной матрицы понижающего микширования, эта матрица должна быть известной на стороне кодера. Это ограничивает возможную конфигурацию выходных каналов.

В некоторых вариантах осуществления, фазы и/или амплитуды коэффициентов понижающего микширования матрицы понижающего микширования формулируются как сглаженные во времени, так что исключаются временные артефакты вследствие подавления сигналов между смежными временными кадрами. В данном документе, "сглаженное во времени" означает то, что резкие изменения во времени не возникают для коэффициентов понижающего микширования. В частности, коэффициенты понижающего микширования могут изменяться во времени согласно непрерывной или квазинепрерывной функции.

В вариантах осуществления, фазы и/или амплитуды коэффициентов понижающего микширования матрицы понижающего микширования формулируются как сглаженные по частоте, так что исключаются спектральные артефакты вследствие подавления сигналов между смежными полосами частот. В данном документе, "сглаженное по частоте" означает то, что резкие изменения по частоте не возникают для коэффициентов понижающего микширования. В частности, коэффициенты понижающего микширования могут изменяться по частоте согласно непрерывной или квазинепрерывной функции.

В некоторых вариантах осуществления, декодер выполнен с возможностью вычислять или принимать нормализованную матрицу коэффициентов фазового выравнивания, при этом нормализованная матрица коэффициентов фазового выравнивания основана на матрице коэффициентов фазового выравнивания. Посредством этого признака, может быть упрощена последующая обработка.

В предпочтительных вариантах осуществления, декодер выполнен с возможностью устанавливать матрицу коэффициентов регуляризованного фазового выравнивания на основе матрицы коэффициентов фазового выравнивания.

В вариантах осуществления, декодер выполнен с возможностью принимать матрицу коэффициентов регуляризованного фазового выравнивания на основе матрицы коэффициентов фазового выравнивания из внешнего устройства, к примеру, из кодера, который предоставляет входной аудиосигнал.

Предложенный подход на основе понижающего микширования предоставляет эффективную регуляризацию в критическом состоянии противоположных фазовых сигналов, когда обработка фазового выравнивания может резко переключать свою полярность.

Дополнительный этап регуляризации задается с возможностью уменьшать подавления в переходных областях между смежными кадрами вследствие резко изменяющихся коэффициентов регулирования фазы. Эта регуляризация и недопущение резких изменений фазы между смежными частотно-временными мозаичными фрагментами представляет собой преимущество этого предложенного понижающего микширования. Она уменьшает нежелательные артефакты, которые могут возникать, когда фаза перескакивает между смежными частотно-временными мозаичными фрагментами, или появляются режекции между смежными полосами частот.

Матрица понижающего микширования с регуляризованным фазовым выравниванием получается посредством применения коэффициентов фазовой регуляризации к нормализованной матрице фазового выравнивания.

Коэффициенты регуляризации могут вычисляться в контуре обработки для каждого частотно-временного мозаичного фрагмента. Регуляризация может применяться рекурсивно в направлении времени и частоты. Разность фаз между смежными временными квантами и полосами частот учитывается, и они взвешиваются посредством значений притяжения, обеспечивая в результате взвешенную матрицу. Из этой матрицы, могут извлекаться коэффициенты регуляризации, как подробнее пояснено ниже.

В предпочтительных вариантах осуществления, матрица понижающего микширования основана на матрице коэффициентов регуляризованного фазового выравнивания. Таким образом, обеспечивается то, что коэффициенты понижающего микширования матрицы понижающего микширования являются сглаженными по времени и частоте.

Кроме того, кодер обработки аудиосигналов, имеющий, по меньшей мере, одну полосу частот и выполненный с возможностью обработки входного аудиосигнала, имеющего множество входных каналов, по меньшей мере, в одной полосе частот, при этом кодер выполнен с возможностью:

- выравнивать фазы входных каналов в зависимости от межканальных зависимостей между входными каналами, при этом фазы входных каналов тем больше выравнены относительно друг друга, чем выше их межканальная зависимость; и

- микшировать с понижением выравненный входной аудиосигнал в выходной аудиосигнал, имеющий меньшее число выходных каналов, чем число входных каналов.

Кодер обработки аудиосигналов может быть сконфигурирован аналогично декодеру обработки аудиосигналов, поясненному в этой заявке.

Дополнительно, кодер обработки аудиосигналов, имеющий, по меньшей мере, одну полосу частот и выполненный с возможностью вывода потока битов, при этом поток битов содержит кодированный аудиосигнал в полосе частот, при этом кодированный аудиосигнал имеет множество кодированных каналов, по меньшей мере, в одной полосе частот, при этом кодер выполнен с возможностью:

- определять межканальные зависимости между кодированными каналами входного аудиосигнала и выводить межканальные зависимости в потоке битов; и/или

- определять энергию кодированного аудиосигнала и выводить определенную энергию кодированного аудиосигнала в потоке битов; и/или

- вычислять матрицу M понижающего микширования для понижающего микшера для понижающего микширования входного аудиосигнала на основе матрицы понижающего микширования таким образом, что фазы кодированных каналов выравниваются на основе идентифицированных межканальных зависимостей, предпочтительно таким образом, что энергия выходного аудиосигнала понижающего микшера нормализована на основе определенной энергии кодированного аудиосигнала, и передавать матрицу M понижающего микширования в потоке битов, при этом, в частности, коэффициенты понижающего микширования матрицы понижающего микширования формулируются как сглаженные во времени, так что исключаются временные артефакты вследствие подавления сигналов между смежными временными кадрами, и/или при этом, в частности, коэффициенты понижающего микширования матрицы понижающего микширования формулируются как сглаженные по частоте, так что исключаются спектральные артефакты вследствие подавления сигналов между смежными полосами частот; и/или

- анализировать временные интервалы кодированного аудиосигнала с использованием функции окна, при этом межканальные зависимости определяются для каждого временного кадра, и выводить межканальные зависимости для каждого временного кадра в потоке битов; и/или

- вычислять матрицу ковариационных значений, при этом ковариационные значения выражают межканальную зависимость пары кодированных аудиоканалов, и выводить матрицу ковариационных значений в потоке битов; и/или

- устанавливать матрицу значений притяжения посредством применения функции преобразования, при этом градиент функции преобразования предпочтительно больше или равен нулю для всех ковариационных значений или значений, извлеченных из ковариационных значений, и при этом функция преобразования предпочтительно достигает значений между нулем и единицей для входных значений между нулем и единицей, в частности, нелинейной функции, в частности, функции преобразования, которая равна нулю для ковариационных значений, меньших первого порогового значения преобразования, и/или которая равна единице для ковариационных значений, больших второго порогового значения преобразования, и/или которая представлена посредством функции, формирующей S-образную кривую, к матрице ковариационных значений или к матрице, извлеченной из матрицы ковариационных значений, и выводить матрицу значений притяжения в потоке битов; и/или

- вычислять матрицу коэффициентов фазового выравнивания, при этом матрица коэффициентов фазового выравнивания основана на матрице ковариационных значений и на прототипной матрице понижающего микширования; и/или

- устанавливать матрицу коэффициентов регуляризованного фазового выравнивания на основе матрицы V коэффициентов фазового выравнивания и выводить матрицу коэффициентов регуляризованного фазового выравнивания в потоке битов.

Поток битов из таких кодеров может передаваться и декодироваться посредством декодера, как описано в данном документе. Для получения дальнейшей информации обратитесь к пояснениям касательно декодера.

Также предусмотрена система, содержащая декодер обработки аудиосигналов согласно изобретению и кодер обработки аудиосигналов согласно изобретению.

Кроме того, предусмотрен способ для обработки входного аудиосигнала, имеющего множество входных каналов в полосе частот, при этом способ содержит: анализ входного аудиосигнала в полосе частот, при этом межканальные зависимости между входными аудиоканалами идентифицируются; выравнивание фаз входных каналов на основе идентифицированных межканальных зависимостей, при этом фазы входных каналов тем больше выравнены относительно друг друга, чем выше их межканальная зависимость; и понижающее микширование выравненного входного аудиосигнала в выходной аудиосигнал, имеющий меньшее число выходных каналов, чем число входных каналов в полосе частот.

Кроме того, предусмотрена компьютерная программа для реализации вышеуказанного способа при выполнении на компьютере или в процессоре сигналов.

Далее подробнее описываются варианты осуществления настоящего изобретения в отношении чертежей, на которых:

Фиг. 1 показывает блок-схему предложенного понижающего микширования с адаптивным фазовым выравниванием,

Фиг. 2 показывает принцип работы предложенного способа,

Фиг. 3 описывает этапы обработки для вычисления матрицы понижающего микширования,

Фиг. 4 показывает формулу, которая может применяться к нормализованной ковариационной матрице для вычисления матрицы значений притяжения,

Фиг. 5 показывает принципиальную блок-схему концептуального общего представления трехмерного аудиокодера,

Фиг. 6 показывает принципиальную блок-схему концептуального общего представления трехмерного аудиодекодера,

Фиг. 7 показывает принципиальную блок-схему концептуального общего представления преобразователя форматов,

Фиг. 8 показывает пример обработки исходного сигнала, имеющего два канала во времени,

Фиг. 9 показывает пример обработки исходного сигнала, имеющего два канала по частоте, и

Фиг. 10 иллюстрирует 77-полосную гибридную гребенку фильтров.

Перед описанием вариантов осуществления настоящего изобретения, предоставляется дополнительная исходная информация относительно системы кодера и декодера предшествующего уровня техники.

Фиг. 5 показывает принципиальную блок-схему концептуального общего представления трехмерного аудиокодера 1, тогда как фиг. 6 показывает принципиальную блок-схему концептуального общего представления трехмерного аудиодекодера 2.

Система 1, 2 трехмерных аудиокодеков может быть основана на кодере 3 на основе стандартизированного кодирования речи и аудио (USAC) по стандарту MPEG-D для кодирования сигналов 4 каналов и сигналов 5 объектов, а также основана на декодере 6 на основе стандартизированного кодирования речи и аудио (USAC) по стандарту MPEG-D для декодирования выходного аудиосигнала 7 кодера 3.

Поток 7 битов может содержать кодированный аудиосигнал 37, ссылающийся на полосу частот кодера 1, при этом кодированный аудиосигнал 37 имеет множество кодированных каналов 38. Кодированный сигнал 37 может быть подан в полосу 36 частот (см. фиг. 1) декодера 2 в качестве входного аудиосигнала 37.

Чтобы повышать эффективность для кодирования большого количества объектов 5, адаптирована технология пространственного кодирования аудиообъектов (SAOC). Три типа модулей 8, 9, 10 рендеринга выполняют задачи рендеринга объектов 11, 12 в каналы 13, рендеринга каналов 13 в наушники или рендеринга каналов в различную компоновку громкоговорителей.

Когда сигналы объектов явно передаются или параметрически кодируются с использованием SAOC, соответствующая информация метаданных 14 объектов (OAM) сжимается и мультиплексируется в трехмерный поток 7 аудиобитов.

Модуль 15 предварительного рендеринга/микшер может быть необязательно использован для того, чтобы преобразовывать сцену 4, 5 ввода каналов и объектов в сцену 4, 16 каналов перед кодированием. Функционально он является идентичным модулю 15 рендеринга объектов/микшеру, описанному ниже.

Предварительный рендеринг объектов 5 обеспечивает детерминированную энтропию сигналов на входе кодера 3, который является по существу независимым от числа одновременно активных сигналов 5 объектов. При предварительном рендеринге объектов 5, не требуется передача метаданных 14 объектов.

Сигналы 5 дискретных объектов подготовлены посредством рендеринга в схему размещения каналов, которую кодер 3 выполнен с возможностью использовать. Весовые коэффициенты объектов 5 для каждого канала 16 получаются из ассоциированных метаданных 14 объектов.

Базовый кодек для сигналов 4 каналов громкоговорителя, сигналов 5 дискретных объектов, сигналов 14 понижающего микширования объектов и предварительно подготовленных посредством рендеринга сигналов 16 может быть основан на MPEG-D USAC-технологии. Он обрабатывает кодирование множества сигналов 4, 5, 14 посредством создания информации преобразования каналов и объектов на основе геометрической и семантической информации назначения входных каналов и объектов. Эта информация преобразования описывает то, как входные каналы 4 и объекты 5 преобразуются в USAC-канальные элементы, а именно, в элементы канальных пар (CPE), одноканальные элементы (SCE), низкочастотные эффекты (LFE), и соответствующая информация передается в декодер 6.

Все дополнительные рабочие данные, такие как SAOC-данные 17 или метаданные 14 объектов, могут проходить через дополнительные элементы и могут рассматриваться при управлении скоростью кодера 3.

Кодирование объектов 5 является возможным различными способами, в зависимости от требований по искажению в зависимости от скорости передачи и требований по интерактивности для модуля рендеринга. Следующие варианты кодирования объектов являются возможными:

- Предварительно подготовленные посредством рендеринга объекты 16: Сигналы 5 объектов предварительно подготавливаются посредством рендеринга и сводятся в сигналы 4 каналов, например, в 22.2-канальные сигналы 4, перед кодированием. Последующая цепочка кодирования видит 22.2-канальные сигналы 4.

- Формы сигналов дискретных объектов: Объекты 5 предоставляются в качестве монофонических форм сигнала в кодер 3. Кодер 3 использует одноканальные элементы (SCE), чтобы передавать объекты 5 в дополнение к сигналам 4 каналов. Декодированные объекты 18 подготавливаются посредством рендеринга и сводятся на стороне приемного устройства. Информация 19, 20 сжатых метаданных объектов передается в приемное устройство/модуль 21 рендеринга совместно.

- Формы 17 сигналов параметрических объектов: Свойства объектов и их взаимосвязь между собой описываются посредством SAOC-параметров 22, 23. Понижающее микширование сигналов 17 объектов кодируется с помощью USAC. Параметрическая информация 22 передается совместно. Число каналов 17 понижающего микширования выбирается в зависимости от числа объектов 5 и полной скорости передачи данных. Информация 23 сжатых метаданных объектов передается в модуль 24 SAOC-рендеринга.

SAOC-кодер 25 и декодер 24 для сигналов 5 объектов основаны на MPEG SAOC-технологии. Система допускает повторное создание, модификацию и рендеринг определенного числа аудиообъектов 5 на основе меньшего числа передаваемых каналов 7 и дополнительных параметрических данных 22, 23, таких как разности уровней объектов (OLD), межобъектные корреляции (IOC) и значения усиления при понижающем микшировании (DMG). Дополнительные параметрические данные 22, 23 демонстрируют значительно более низкую скорость передачи данных, чем требуется для передачи всех объектов по отдельности, что делает кодирование очень эффективным.

SAOC-кодер 25 принимает в качестве ввода сигналы 5 объектов/каналов в качестве монофонических форм сигнала и выводит параметрическую информацию 22 (которая пакетирована в трехмерный поток 7 аудиобитов) и транспортные SAOC-каналы 17 (которые кодируются с использованием одноканальных элементов и передаются). SAOC-декодер 24 восстанавливает сигналы 5 объектов/каналов из декодированных транспортных SAOC-каналов 26 и параметрической информации 23 и формирует выходную аудиосцену 27 на основе схемы размещения для воспроизведения, информации 20 распакованных метаданных объектов и необязательно на основе информации пользовательского взаимодействия.

Для каждого объекта 5, ассоциированные метаданные 14 объектов, которые указывают геометрическую позицию и объем объекта в трехмерном пространстве, эффективно кодируются посредством кодера 28 метаданных объектов посредством квантования свойств объектов во времени и пространстве. Сжатые метаданные 19 объектов (cOAM) передаются в приемное устройство в качестве вспомогательной информации 20, которая может декодироваться посредством OAM-декодера 29.

Модуль 21 рендеринга объектов использует сжатые метаданные 20 объектов для того, чтобы формировать формы 12 сигналов объектов согласно данному формату воспроизведения. Каждый объект 5 подготавливается посредством рендеринга в определенные выходные каналы 12 согласно своим метаданным 19, 20. Вывод этого блока 21 получается в результате суммы частичных результатов. Если декодируется как канальный контент 11, 30, таки и дискретные/параметрические объекты 12, 27, канальные формы 11, 30 сигналов и формы 12, 27 сигналов подготовленных посредством рендеринга объектов сводятся перед выводом результирующих форм 13 сигналов (или перед их подачей в модуль 9, 10 постпроцессора, такой как модуль 9 бинаурального рендеринга или модуль 10 рендеринга громкоговорителей) посредством микшера 8.

Модуль 9 бинаурального рендеринга формирует бинауральное понижающее микширование многоканального аудиоматериала 13 таким образом, что каждый входной канал 13 представлен посредством виртуального источника звука. Обработка осуществляется покадрово в области квадратурных зеркальных фильтров (QMF). Бинаурализация основана на измеренных бинауральных импульсных характеристиках в помещении.

Модуль 10 рендеринга громкоговорителей, подробнее показанный на фиг. 7, преобразует между конфигурацией 13 передаваемых каналов и требуемым форматом 31 воспроизведения. В силу этого далее он называется "преобразователем 10 форматов". Преобразователь 10 форматов выполняет преобразования в меньшие числа выходных каналов 31, т.е. он создает понижающего микширования посредством понижающего микшера 32. DMX-конфигуратор 33 автоматически формирует оптимизированные матрицы понижающего микширования для данной комбинации входных форматов 13 и выходных форматов 31 и применяет эти матрицы в процессе 32 понижающего микширования, при этом используются схема 34 размещения выходов микшера и схема 35 размещения для воспроизведения. Преобразователь 10 форматов обеспечивает возможность стандартных конфигураций громкоговорителей, а также случайных конфигураций с нестандартными позициями громкоговорителей.

Фиг. 1 показывает устройство обработки аудиосигналов, имеющее, по меньшей мере, одну полосу 36 частот и выполненное с возможностью обработки входного аудиосигнала 37, имеющего множество входных каналов 38, по меньшей мере, в одной полосе 36 частот, при этом устройство выполнено с возможностью:

- анализировать входной аудиосигнал 37, при этом межканальные зависимости 39 между входными каналами 38 идентифицируются; и

- выравнивать фазы входных каналов 38 на основе идентифицированных межканальных зависимостей 39, при этом фазы входных каналов 38 тем больше выравнены относительно друг друга, чем выше их межканальная зависимость 39; и

- микшировать с понижением выравненный входной аудиосигнал в выходной аудиосигнал 40, имеющий меньшее число выходных каналов 41, чем число входных каналов 38.

Устройство обработки аудиосигналов может представлять собой кодер 1 или декодер, поскольку изобретение является применимым для кодеров 1, а также для декодеров.

Предложенный способ понижающего микширования, представленный в качестве блок-схемы на фиг. 1, спроектирован со следующими принципами:

1. Регулирования фазы извлекаются для каждого частотно-временного мозаичного фрагмента на основе измеренной сигнальной ковариационной матрицы C, так что каналы с низким не влияют друг на друга, и каналы с высоким имеют фазовую синхронизацию относительно друг друга.

2. Регулирования фазы регуляризованы по времени и частоте, чтобы исключать появление артефактов подавления сигналов вследствие разностей регулирования фазы в областях перекрытия смежных частотно-временных мозаичных фрагментов.

3. Усиления матрицы понижающего микширования регулируются таким образом, что понижающее микширование сохраняет энергию.

Базовый принцип работы кодера 1 заключается в том, что взаимно зависимые (когерентные) входные каналы 38 входного аудиосигнала притягивают друг друга с точки зрения фазы в конкретной полосе 36 частот, в то время как те входные каналы 38 входного аудиосигнала 37, которые являются взаимно независимыми (некогерентными), остаются незатронутыми. Цель предложенного кодера 1 состоит в том, чтобы повышать качество понижающего микширования относительно подхода на основе частотной посткоррекции в критических состояниях подавления сигналов при предоставлении идентичной производительности в некритических состояниях.

Предложен адаптивный подход понижающего микширования, поскольку межканальные зависимости 39 типично неизвестны априори.

Простой подход для того, чтобы восстанавливать спектр сигнала, заключается в том, чтобы применять адаптивный частотный корректор 42, который ослабляет или усиливает сигнал в полосах 36 частот. Тем не менее, если имеется режекция частоты, которая является намного более крутой, чем применяемое разрешение преобразования частоты, целесообразно ожидать, что такой подход не может надежно восстанавливать сигнал 41. Эта проблема разрешается посредством предварительной обработки фаз входного сигнала 37 до понижающего микширования, в первую очередь во избежание таких режекций частоты.

Ниже поясняется вариант осуществления согласно изобретению способа для того, чтобы адаптивно микшировать с понижением два или более каналов 38 в меньшее число каналов 41 в полосах 36 частот, например, в так называемых частотно-временных мозаичных фрагментах. Способ содержит следующие признаки:

- Анализ энергий сигналов и межканальных зависимостей 39 (содержащихся в ковариационной матрице C) в полосах 36 частот.

- Регулирование фаз полосовых входных сигналов 38 каналов до понижающего микширования, так что уменьшаются эффекты подавления сигналов в понижающем микшировании, и/или увеличивается суммирование когерентных сигналов.

- Регулирования фаз таким образом, что канальная пара или группа, которая имеет высокую взаимозависимость (но потенциальное смещение фазы), больше выравнена друг относительно друга, тогда как каналы, которые являются менее взаимозависимыми (также с потенциальным смещением фазы), являются менее (или вообще не являются) выравненными по фазе относительно друг друга.

- Коэффициенты регулирования фазы (необязательно) формулируются как сглаженные во времени, с тем чтобы исключать временные артефакты вследствие подавления сигналов между смежными временными кадрами.

- Коэффициенты регулирования фазы (необязательно) формулируются как сглаженные по частоте, с тем чтобы исключать спектральные артефакты вследствие подавления сигналов между смежными полосами частот.

- Энергии полосовых сигналов 41 каналов понижающего микширования нормализованы, например, так что энергия каждого полосового сигнала 41 понижающего микширования является идентичной сумме энергий полосовых входных сигналов 38, умноженных на квадраты соответствующих усилений при понижающем микшировании.

Кроме того, предложенный подход на основе понижающего микширования предоставляет эффективную регуляризацию в критическом состоянии противоположных фазовых сигналов, когда обработка фазового выравнивания может резко переключать свою полярность.

Предоставленное ниже математическое описание понижающего микшера является практической реализацией вышеозначенного. Специалисты в данной области техники, как и следовало ожидать, могут формулировать другую конкретную реализацию, которая имеет признаки согласно вышеприведенному описанию.

Базовый принцип работы способа, проиллюстрированного на фиг. 2, заключается в том, что взаимно когерентные сигналы SC1, SC2, SC3 притягивают друг друга с точки зрения фазы в полосах 36 частот, в то время как те сигналы SI1, которые являются некогерентными, остаются незатронутыми. Цель предложенного способа состоит в том, чтобы просто повышать качество понижающего микширования относительно подхода на основе частотной посткоррекции в критических состояниях подавления сигналов при предоставлении идентичной производительности в некритическом состоянии.

Предложенный способ спроектирован с возможностью адаптивно формулировать в полосах 36 частот матрицу M понижающего микширования с фазовым выравниванием и частотной коррекцией энергии, на основе кратковременных стохастических свойств полосового сигнала 37 и статической прототипной матрицы Q понижающего микширования. В частности, способ выполнен с возможностью применять фазовое выравнивание взаимно только к тем каналам SC1, SC2, SC3, которые являются взаимозависимыми.

Общий план действий проиллюстрирован на фиг. 1. Обработка выполняется перекрывающимся покадровым способом, хотя другие варианты также являются легкодоступными, такие как использование рекурсивного окна для оценки релевантных параметров.

Для каждого кадра 43 входного аудиосигнала, матрица M понижающего микширования с фазовым выравниванием, содержащая коэффициенты понижающего микширования с фазовым выравниванием, задается в зависимости от стохастических данных кадра 43 входного сигнала и прототипной матрицы Q понижающего микширования, которая задает то, какой входной канал 38 сводится в какой выходной канал 41. Кадры 43 сигналов созданы на этапе 44 обработки функцией окна. Стохастические данные содержатся в комплекснозначной ковариационной матрице C входного сигнала 37, оцененного из кадра 43 сигнала (или, например, с использованием рекурсивного окна) на этапе 45 оценки. Из комплекснозначной ковариационной матрицы C, матрица регулирования фазы извлекается на этапе 46, называемом "формулированием коэффициентов понижающего микширования с фазовым выравниванием".

Пусть число входных каналов равно , а число каналов понижающего микширования равно . Прототипная матрица понижающего микширования и матрица понижающего микширования с фазовым выравниванием типично являются разреженными и имеют размерность . Матрица M понижающего микширования с фазовым выравниванием типично варьируется в качестве функции от времени и частоты.

Решение на основе понижающего микширования с фазовым выравниванием уменьшает подавление сигналов между каналами, но может вводить подавление в переходной области между смежными частотно-временными мозаичными фрагментами, если коэффициент регулирования фазы изменяется резко. Резкое изменение фазы во времени может возникать, когда практически противоположные фазовые входные сигналы микшированы с понижением, но варьируются, по меньшей мере, незначительно по амплитуде или фазе. В этом случае, полярность фазового выравнивания может переключаться быстро, даже если сами сигналы являются достаточно стабильными. Этот эффект может возникать, например, когда частота тонального компонента сигнала совпадает с межканальной разностью времен, что поочередно может базироваться, например, на использовании технологий записи с помощью разнесенных микрофонов или на звуковых эффектах на основе задержки.

На частотной оси, резкий сдвиг фаз между мозаичными фрагментами может возникать, например, когда два когерентных (но с различной задержкой) широкополосных сигнала микшированы с понижением. Разности фаз становятся большими к полосам верхних частот, и обертывание на определенных границах полос частот может вызывать режекцию в переходной области.

Предпочтительно, коэффициенты регулирования фазы в должны быть регуляризованы на дополнительном этапе, чтобы исключать появление артефактов обработки вследствие внезапных сдвигов фаз, либо по времени или по частоте, либо как по времени, так и по частоте. Таким образом, может получаться регуляризованная матрица . Если регуляризация 47 опускается, могут возникать артефакты подавления сигналов вследствие разностей регулирования фазы в областях перекрытия смежных временных кадров и/или смежных полос частот.

Нормализация 48 энергии затем адаптивно обеспечивает обусловленный уровень энергии в сигнале(ах) 40 понижающего микширования. Обработанные кадры 43 сигналов суммируются с перекрытием на этапе 49 перекрытия в выходной поток 40 данных. Следует отметить, что доступно множество изменений при проектировании таких структур частотно-временной обработки. Можно получать аналогичную обработку с различающимся упорядочением блоков обработки сигналов. Кроме того, некоторые блоки могут быть комбинированы в один этап обработки. Кроме того, подход для обработки 44 функцией окна или блочной обработки может повторно формулироваться различными способами при достижении аналогичных характеристик обработки.

Различные этапы понижающего микширования с фазовым выравниванием проиллюстрированы на фиг. 3. После трех общих этапов обработки получается матрица M понижающего микширования, которая используется для того, чтобы микшировать с понижением исходный многоканальный входной аудиосигнал 37 в другой номер канала.

Ниже приводится подробное описание различных подэтапов, которые необходимы для того, чтобы вычислять матрицу M.

Способ понижающего микширования согласно варианту осуществления изобретения может реализовываться в 64-полосной QMF-области. Может применяться 64-полосная комплексно-модулированная равномерная QMF-гребенка фильтров.

Из входного аудиосигнала x (который является эквивалентным входному аудиосигналу 38) в частотно-временной области, комплекснозначная ковариационная матрица вычисляется как матрица , где является оператором математического ожидания, а является сопряженным транспонированием . В практической реализации, оператор математического ожидания заменен посредством оператора усреднения по нескольким временным и/или частотным выборкам.

Абсолютное значение этой матрицы C затем нормализовано на этапе 50 ковариационной нормализации таким образом, что оно содержит значения между 0 и 1 (элементы в таком случае называются , и матрица в таком случае называется ). Эти значения выражают часть звуковой энергии, которая является когерентной между различными канальными парами, но может иметь смещение фазы. Другими словами, синфазные, несинфазные, инвертированные фазовые сигналы формируют нормализованное значение 1, в то время как некогерентные сигналы формируют значение 0.

Они преобразуются на этапе 51 вычисления значений притяжения в управляющие данные (матрицу A значений притяжения), которые представляют притяжение фаз между канальными парами посредством функции преобразования, которая применяется ко всем записям абсолютной нормализованной ковариационной матрицы . Здесь, формула:

,

может использоваться (см. результирующую функцию преобразования на фиг. 4).

В этом варианте осуществления, функция преобразования равна нулю для нормализованных ковариационных значений , меньших первого порогового значения 54 преобразования, и/или при этом функция преобразования равна единице для нормализованных ковариационных значений , превышающих второе пороговое значение 55 преобразования. Посредством этого признака, функция преобразования состоит из трех интервалов. Для всех нормализованных ковариационных значений , меньших первого порогового значения 54 преобразования, коэффициенты притяжения фаз вычисляются как равные нулю, и следовательно, регулирование фазы не выполняется. Для всех нормализованных ковариационных значений , превышающих первое пороговое значение 54 преобразования, но меньших второго порогового значения 55 преобразования, коэффициенты притяжения фаз вычисляются как значение между нулем и единицей, и следовательно, частичное регулирование фазы выполняется. Для всех нормализованных ковариационных значений , превышающих второе пороговое значение 55 преобразования, коэффициенты притяжения фаз вычисляются как равные единице, и следовательно, полное регулирование фазы выполняется.

Из этого значения притяжения, вычисляются коэффициенты фазового выравнивания. Они описывают величину фазового выравнивания, которая требуется для того, чтобы выравнивать каналы с ненулевым притяжением сигнала .

,

где с является диагональной матрицей с элементами по диагонали. Результат является матрицей коэффициентов фазового выравнивания.

Коэффициенты затем нормализованы на этапе 52 нормализации матрицы коэффициентов фазового выравнивания в абсолютную величину матрицы понижающего микширования, что приводит к нормализованной матрице понижающего микширования с фазовым выравниванием с элементами:

Преимущество этого понижающего микширования состоит в том, что каналы 38 с низким притяжением не влияют друг на друга, поскольку регулирования фазы извлекаются из измеренной сигнальной ковариационной матрицы . Каналы 38 с высоким притяжением имеют фазовую синхронизацию относительно друг друга. Интенсивность модификации фазы зависит от свойств корреляции.

Решение на основе понижающего микширования с фазовым выравниванием уменьшает подавление сигналов между каналами, но может вводить подавление в переходной области между смежными частотно-временными мозаичными фрагментами, если коэффициент регулирования фазы изменяется резко. Резкое изменение фазы во времени может возникать, когда практически противоположные фазовые входные сигналы микшированы с понижением, но варьируются, по меньшей мере, незначительно по амплитуде или фазе. В этом случае, полярность фазового выравнивания может переключаться быстро.

Задается дополнительный этап 47 регуляризации, который уменьшает подавления в переходных областях между смежными кадрами вследствие резко изменяющихся коэффициентов . регулирования фазы. Эта регуляризация и недопущение резких изменений фазы между аудиокадрами представляет собой преимущество этого предложенного понижающего микширования. Она уменьшает нежелательные артефакты, которые могут возникать, когда фаза перескакивает между смежными аудиокадрами, или при режекциях между смежными полосами частот.

Предусмотрены различные варианты, чтобы выполнять регуляризацию таким образом, чтобы не допускать больших сдвигов фаз между смежными частотно-временными мозаичными фрагментами. В одном варианте осуществления, используется простой способ регуляризации, подробно описанный далее. В способе, контур обработки может быть выполнен с возможностью осуществляться для каждого мозаичного фрагмента во времени последовательно от наименьшего частотного мозаичного фрагмента к наибольшему, и фазовая регуляризация может применяться рекурсивно относительно предыдущих мозаичных фрагментов во времени и по частоте.

Практический эффект спроектированного процесса, описанного ниже, проиллюстрирован на фиг. 8 и 9. Фиг. 8 показывает пример исходного сигнала 37, имеющего два канала 38 во времени. Между двумя каналами 38, существует медленно увеличивающаяся межканальная разность 56 фаз (IPD). Внезапный сдвиг фаз от +p к -p приводит к резкому изменению нерегуляризованного регулирования 57 фазы первого канала 38 и нерегуляризованного регулирования 58 фазы второго канала 38.

Тем не менее, регуляризованное регулирование 59 фазы первого канала 38 и регуляризованное регулирование 60 фазы второго канала 38 не демонстрируют резкие изменения.

Фиг. 9 показывает пример исходного сигнала 37, имеющего два канала 38. Дополнительно, показан исходный спектр 61 одного канала 38 сигнала 37. Неневыровненный спектр 62 понижающего микширования (пассивный спектр понижающего микширования) показывает эффекты гребенчатого фильтра. Эти эффекты гребенчатого фильтра уменьшаются в нерегуляризованном спектре 63 понижающего микширования. Тем не менее, такие эффекты гребенчатого фильтра незаметны в регуляризованном спектре 64 понижающего микширования.

Матрица понижающего микширования с регуляризованным фазовым выравниванием может получаться посредством применения коэффициентов фазовой регуляризации к матрице .

Коэффициенты регуляризации вычисляются в контуре обработки для каждого частотно-временного кадра. Регуляризация 47 применяется рекурсивно в направлении времени и частоты. Разность фаз между смежными временными квантами и полосами частот учитывается, и они взвешиваются посредством значений притяжения, приводящих к взвешенной матрице . Из этой матрицы, извлекаются коэффициенты регуляризации:

Постоянные смещения фазы исключаются посредством реализации регуляризации таким образом, что она стирается по направлению к нулю с шагом между 0 и , что зависит от относительной энергии сигналов:

,

где:

Записи матрицы понижающего микширования с регуляризованным фазовым выравниванием следующие:

.

В завершение, нормализованный по энергии вектор понижающего микширования с фазовым выравниванием задается на этапе 53 нормализации энергии для каждого канала j, формирующего строки конечной матрицы понижающего микширования с фазовым выравниванием:

После вычисления матрицы M, вычисляется выходной аудиоматериал. Выходные каналы QMF-области являются взвешенными суммами входных QMF-каналов. Комплекснозначные весовые коэффициенты, которые включают процесс адаптивного фазового выравнивания, являются элементами матрицы M:

Можно передавать некоторые этапы обработки в кодер 1. Это должно существенно уменьшать сложность обработки понижающего микширования 7 в декодере 2. Это также должно обеспечивать возможность реагировать на входные аудиосигналы 37, в которых стандартная версия понижающего микшера формирует артефакты. В таком случае должно быть возможным обновлять правила обработки понижающего микширования без изменения декодера 2, и может повышаться качество понижающего микширования.

Предусмотрены несколько вариантов того, какая часть понижающего микширования с фазовым выравниванием может передаваться в кодер 1. Можно передавать полное вычисление коэффициентов фазового выравнивания в кодер 1. Коэффициенты фазового выравнивания в таком случае должны передаваться в потоке 7 битов, но они зачастую равны нулю и могут квантоваться обусловленным способом. Поскольку коэффициенты фазового выравнивания сильно зависят от прототипной матрицы понижающего микширования, эта матрица должна быть известной на стороне кодера. Это ограничивает возможную конфигурацию выходных каналов. Этап частотной коррекции или нормализации энергии затем может либо включаться в процесс кодирования, либо по-прежнему выполняться в декодере 2, поскольку он представляет собой несложный и четко заданный этап обработки.

Другой вариант состоит в том, чтобы передавать вычисление ковариационной матрицы в кодер 1. В таком случае элементы ковариационной матрицы должны передаваться в потоке 7 битов. Эта версия дает возможность гибких компоновок для рендеринга в приемном устройстве 2, но требует большего объема дополнительных данных в потоке 7 битов.

Далее описывается предпочтительный вариант осуществления изобретения.

Аудиосигналы 37, которые подаются в преобразователь 42 форматов, далее называются "входными сигналами". Аудиосигналы 40, которые являются результатом процесса преобразования формата, называются "выходными сигналами". Следует отметить, что входные аудиосигналы 37 из преобразователя форматов являются выходными аудиосигналами базового декодера 6.

Векторы и матрицы обозначаются посредством полужирных символов. Векторные элементы или матричные элементы обозначаются с помощью курсивных переменных, дополняемых посредством индексов, указывающих то, что строка/столбец векторного/матричного элемента в векторе/матрице, например, обозначает вектор и его элементы. Аналогично, Ma,b обозначает элемент в a-ой строке и b-ом столбце матрицы M.

Используются следующие переменные:

Nin – число каналов в конфигурации входных каналов

Nout – число каналов в конфигурации выходных каналов

MDMX – матрица понижающего микширования, содержащая действительнозначные неотрицательные коэффициенты понижающего микширования (усиления при понижающем микшировании), причем MDMX имеет размерность (Nin x Nout)

GEQ – матрица, состоящая из значений усиления в расчете на полосу частот обработки, определяющих частотные характеристики частотных корректирующих фильтров

IEQ – вектор, передающий в служебных сигналах то, какие частотные корректирующие фильтры следует применять к входным каналам (если таковые имеются)

L – длина кадра, измеренная в аудиовыборках временной области

n – индекс выборки временной области

n – индекс временного QMF-кванта (=индекс подполосной выборки)

Ln – длина кадра, измеренная во временных QMF-квантах

F – индекс кадра (номер кадра)

K – число гибридных QMF-полос частот, K=77

k – индекс QMF-полосы частот (1...64) или индекс гибридной QMF-полосы частот (1... K)

A, B – индексы каналов (номера каналов из конфигураций каналов)

eps – числовая константа, eps=10-35

Инициализация преобразователя 42 форматов выполняется до того, как осуществляется обработка аудиовыборок, предоставляемых посредством базового декодера.

Инициализация учитывает в качестве входных параметров:

- частоту дискретизации аудиоданных, которые следует обрабатывать.

- параметр format_in, передающий в служебных сигналах конфигурацию каналов аудиоданных, которые следует обрабатывать с помощью преобразователя форматов.

- параметр format_out, передающий в служебных сигналах конфигурацию каналов требуемого выходного формата.

- Необязательно: Параметры, передающие в служебных сигналах отклонение позиций громкоговорителей от стандартной компоновки громкоговорителей (функциональность случайной компоновки).

Она возвращает:

- число каналов конфигурации входных громкоговорителей, Nin,

- число каналов конфигурации выходных громкоговорителей, Nout,

- матрицу MDMX понижающего микширования и параметры (IEQ, GEQ) частотного корректирующего фильтра, которые применяются в обработке аудиосигналов преобразователя 42 форматов.

- значения (Tg,A и Td,A) подстраиваемого усиления и задержки для компенсации варьирующихся расстояний между громкоговорителями.

Блок аудиообработки преобразователя 42 форматов получает аудиовыборки 37 временной области для Nin каналов 38 из базового декодера 6 и формирует микшированный с понижением выходной аудиосигнал 40 временной области, состоящий из Nout каналов 41.

Обработка принимает в качестве ввода:

- аудиоданные, декодированные посредством базового декодера 6,

- матрицу MDMX понижающего микширования, возвращаемую посредством инициализации преобразователя 42 форматов,

- параметры (IEQ, GEQ) частотного корректирующего фильтра, возвращаемые посредством инициализации преобразователя 42 форматов.

Она возвращает Nout-канальный выходной сигнал 40 временной области для конфигурации format_out каналов, передаваемой в служебных сигналах в ходе инициализации преобразователя 42 форматов.

Преобразователь 42 форматов может управлять смежными неперекрывающимися кадрами длины L=2048 выборок временной области входных аудиосигналов и выводит один кадр из L выборок в расчете на обработанный входной кадр длины L.

Дополнительно, может выполняться T/F-преобразование (гибридный QMF-анализ). В качестве первого этапа обработки, преобразователь преобразует L=2048 выборок Nin-канального входного сигнала временной области в гибридное Nin-канальное QMF-представление сигнала, состоящее из Ln=32 временных QMF-квантов (индекс n временного кванта), и K=77 полос частот (индекс k полосы частот). Сначала выполняется QMF-анализ согласно 23003-2:2010 ISO/IEC, подраздел 7.14.2.2:

с и

после которого выполняется гибридный анализ:

Гибридная фильтрация должна быть выполнена так, как описано в 8.6.4.3 из 14496-3:2009 ISO/IEC. Тем не менее, определение низкочастотного разбиения (таблица 8.36 из 14496-3:2009 ISO/IEC) может быть заменено посредством следующей таблицы:

Общее представление низкочастотного разбиения для 77-полосной гибридной гребенки фильтров

QMF-подполоса p частот Число Qp полос частот Фильтр
0 8 Тип A
1 4
2 4

Дополнительно, определения прототипного фильтра должны быть заменены посредством коэффициентов в следующей таблице:

Коэффициенты прототипной фильтрации для фильтров, которые разбивают нижние QMF-подполосы частот для 77-полосной гибридной гребенки фильтров

n g0[n], Q0=8 g1,2[n], Q1,2=4
0 0,00746082949812 -0,00305151927305
1 0,02270420949825 -0,00794862316203
2 0,04546865930473 0,0
3 0,07266113929591 0,04318924038756
4 0,09885108575264 0,12542448210445
5 0,11793710567217 0,21227807049160
6 0,125 0,25
7 0,11793710567217 0,21227807049160
8 0,09885108575264 0,12542448210445
9 0,07266113929591 0,04318924038756
10 0,04546865930473 0,0
11 0,02270420949825 -0,00794862316203
12 0,00746082949812 -0,00305151927305

Дополнительно, в отличие от 8.6.4.3 из 14496-3:2009 ISO/IEC, подподполосы частот не комбинируются, т.е. посредством разбиения наименьших 3 QMF-подполос частот на (8, 4, 4) подподполос частот, формируется 77-полосная гибридная гребенка фильтров. 77 гибридных QMF-полос частот не переупорядочены, но переданы в порядке, который следует из гибридной гребенки фильтров, см. фиг. 10.

Далее могут применяться статические усиления частотного корректора. Преобразователь 42 применяет нуль-фазовые усиления к входным каналам 38, передаваемым в служебных сигналах посредством переменных IEQ и GEQ.

IEQ является вектором длины Nin, который передает в служебных сигналах для каждого канала A из Nin входных каналов:

- либо то, что частотный корректирующий фильтр не должен применяться к конкретному входному каналу: IEQ,A=0,

- либо то, что должны применяться усиления GEQ, соответствующие частотному корректирующему фильтру с индексом IEQ,A>0.

В случае если IEQ,A>0 для входного канала A, входной сигнал канала A фильтруется посредством умножения на нуль-фазовые усиления, полученные из столбца матрицы GEQ, передаваемой в служебных сигналах посредством IEQ,A:

Следует отметить, что все следующие этапы обработки до преобразования обратно в сигналы временной области выполняются по отдельности для каждой гибридной QMF-полосы k частот и независимо от k. Параметр k полосы частот в силу этого опускается в следующих уравнениях, например, для каждой полосы k частот.

Дополнительно, может выполняться обновление входных данных и сигнально-адаптивная обработка функцией окна входных данных. Пусть F является монотонно увеличивающимся индексом кадра, обозначающим текущий кадр входных данных, например, для кадра F, начинающегося в F=0 для первого кадра входных данных после инициализации преобразователя 42 форматов. Аналитический кадр длины 2Ln формулируется из входных гибридных QMF-спектров следующим образом:

Аналитический кадр умножается на аналитическую функцию wF,n окна согласно следующему:

где wF,n представляет собой сигнально-адаптивное окно, которое вычисляется для каждого кадра F следующим образом:

Далее может выполняться ковариационный анализ. Ковариационный анализ выполняется для обработанных функцией окна входных данных, где оператор E(⋅) математического ожидания реализуется как суммирование автоматических/перекрестных членов по 2Ln временным QMF-квантам кадра F обработанных функцией окна входных данных. Следующие этапы обработки выполняются независимо для каждого обрабатываемого кадра F. Таким образом, индекс F опускается до тех пор, пока не потребуется для ясности, например, для кадра F.

Следует отметить, что обозначает вектор-строку с Nin элементов в случае Nin входных каналов. Матрица ковариационных значений в силу этого формируется следующим образом:

,

где (⋅)T обозначает транспонирование, и (⋅)* обозначает комплексно-сопряженное число переменной, и Cy является матрицей NinxNin, которая вычисляется один раз в расчете на каждый кадр.

Из ковариационной матрицы Cy, коэффициенты межканальной корреляции между каналами A и B извлекаются следующим образом:

,

где два индекса в обозначении Cy,a,b указывают матричный элемент в a-ой строке и b-ом столбце.

Дополнительно, может формулироваться матрица фазового выравнивания. ICCA,B значений преобразуются в матрицу T показателей притяжения с элементами:

и формулируется промежуточная матрица Mint смешивания с фазовым выравниванием (эквивалентная нормализованной матрице коэффициентов фазового выравнивания в предыдущих вариантах осуществления). При использовании матрицы значений притяжения:

, и

V=MDMXP

матричные элементы извлекаются следующим образом:

,

где exp(⋅) обозначает показательную функцию, является мнимой единицей, и arg(⋅) возвращает аргумент комплекснозначных переменных.

Промежуточная матрица Mint смешивания с фазовым выравниванием модифицируется для того, чтобы не допускать резких сдвигов фаз, что приводит к Mmod: Во-первых, матрица DF весовых коэффициентов задается для каждого кадра F в качестве диагональной матрицы с элементами . Изменение фазы матрицы смешивания во времени (т.е. по кадрам) измеряется посредством сравнения текущей взвешенной промежуточной матрицы смешивания и взвешенной результирующей матрицы Mmod смешивания предыдущего кадра:

Измеренное изменение фазы промежуточной матрицы смешивания обрабатывается, чтобы получать параметр модификации фазы, который применяется к промежуточной матрице Mint смешивания, что приводит к Mmod (эквивалентной матрице коэффициентов регуляризованного фазового выравнивания):

Масштабирование энергии применяется к матрице смешивания, чтобы получить конечную матрицу MPA смешивания с фазовым выравниванием, где:

, где (⋅)H обозначает оператор сопряженного транспонирования, и

где пределы задаются как и , элементы конечной матрицы смешивания с фазовым выравниванием приводятся далее следующим образом:

.

На дополнительном этапе, могут вычисляться выходные данные. Выходные сигналы для текущего кадра F вычисляются посредством применения идентичной комплекснозначной матрицы понижающего микширования ко всем 2Ln временным квантам n вектора обработанного функцией окна:

для .

Этап суммирования с перекрытием применяется к заново вычисленному кадру выходного сигнала, чтобы получать конечные выходные сигналы частотной области, содержащие Ln выборок в расчете на один канал для кадра F,

Далее может выполняться F/T-преобразование (гибридный QMF-синтез). Следует отметить, что этапы обработки, описанные выше, должны выполняться для каждой гибридной QMF-полосы k частот независимо. В следующих формулированиях, индекс k полосы частот повторно введен, т.е. . Гибридный выходной сигнал частотной QMF-области преобразован в Nout-канальный кадр сигнала временной области длины в L выборок временной области в расчете на один выходной канал B, давая в результате конечный выходной сигнал временной области:

Гибридный синтез:

может выполняться, как задано на фиг. 8.21 из 14496-3:2009 ISO/IEC, т.е. посредством суммирования подподполос частот для трех наименьших QMF-подполос частот, чтобы получать три наименьших QMF-подполосы частот 64-полосного QMF-представления. Тем не менее, обработка, показанная на фиг. 8.21 из 14496-3:2009 ISO/IEC, должна быть адаптирована к разбиению (8, 4, 4) полосы низких частот, вместо показанного низкочастотного разбиения (6, 2, 2).

Последующий QMF-синтез:

может выполняться, как задано в 23003-2:2010 ISO/IEC, подраздел 7.14.2.2.

Если позиции выходных громкоговорителей отличаются по радиусу (т.е. если trimA не является идентичным для всех выходных каналов A), параметры компенсации, извлеченные в инициализации, могут применяться к выходным сигналам. Сигнал выходного канала A должен задерживаться посредством Td,A выборок временной области, и сигнал должен также умножаться на линейное усиление Tg,A.

Относительно декодера и кодера и способов описанных вариантов осуществления, следует упомянуть следующее.

Хотя некоторые аспекты описаны в контексте устройства, очевидно, что эти аспекты также представляют описание соответствующего способа, при этом блок или устройство соответствует этапу способа либо признаку этапа способа. Аналогично, аспекты, описанные в контексте этапа способа, также представляют описание соответствующего блока или элемента, или признака соответствующего устройства.

В зависимости от определенных требований к реализации, варианты осуществления изобретения могут быть реализованы в аппаратных средствах или в программном обеспечении. Реализация может выполняться с использованием цифрового носителя хранения данных, например, гибкого диска, DVD, CD, ROM, PROM, EPROM, EEPROM или флэш-памяти, имеющего сохраненные электронночитаемые управляющие сигналы, которые взаимодействуют (или допускают взаимодействие) с программируемой компьютерной системой таким образом, что осуществляется соответствующий способ.

Некоторые варианты осуществления согласно изобретению содержат носитель данных, имеющий электронночитаемые управляющие сигналы, которые допускают взаимодействие с программируемой компьютерной системой таким образом, что осуществляется один из способов, описанных в данном документе.

В общем, варианты осуществления настоящего изобретения могут быть реализованы как компьютерный программный продукт с программным кодом, при этом программный код выполнен с возможностью осуществления одного из способов, когда компьютерный программный продукт работает на компьютере. Программный код, например, может быть сохранен на машиночитаемом носителе.

Другие варианты осуществления содержат компьютерную программу для осуществления одного из способов, описанных в данном документе, сохраненную на машиночитаемом носителе или на энергонезависимом носителе хранения данных.

Другими словами, следовательно, вариант осуществления изобретаемого способа представляет собой компьютерную программу, имеющую программный код для осуществления одного из способов, описанных в данном документе, когда компьютерная программа работает на компьютере.

Следовательно, дополнительный вариант осуществления изобретаемых способов представляет собой носитель хранения данных (цифровой носитель хранения данных или машиночитаемый носитель), содержащий записанную компьютерную программу для осуществления одного из способов, описанных в данном документе.

Следовательно, дополнительный вариант осуществления изобретаемого способа представляет собой поток данных или последовательность сигналов, представляющих компьютерную программу для осуществления одного из способов, описанных в данном документе. Поток данных или последовательность сигналов, например, может быть выполнена с возможностью передачи через соединение для передачи данных, например, через Интернет.

Дополнительный вариант осуществления содержит средство обработки, например, компьютер или программируемое логическое устройство, выполненное с возможностью осуществлять один из способов, описанных в данном документе.

Дополнительный вариант осуществления содержит компьютер, имеющий установленную компьютерную программу для осуществления одного из способов, описанных в данном документе.

В некоторых вариантах осуществления, программируемое логическое устройство (например, программируемая пользователем вентильная матрица) может быть использовано для того, чтобы выполнять часть или все из функциональностей способов, описанных в данном документе. В некоторых вариантах осуществления, программируемая пользователем вентильная матрица может взаимодействовать с микропроцессором, чтобы осуществлять один из способов, описанных в данном документе. В общем, способы предпочтительно осуществляются посредством любого устройства.

Хотя это изобретение описано с точки зрения нескольких вариантов осуществления, возникают изменения, перестановки и эквиваленты, которые попадают в пределы объема этого изобретения. Также следует отметить, что предусмотрено множество альтернативных способов реализации способов и структур настоящего изобретения. Следовательно, нижеприведенная прилагаемая формула изобретения должна интерпретироваться как включающая в себя все такие изменения, перестановки и эквиваленты, которые попадают в пределы истинной сущности и объема настоящего изобретения.

1. Декодер обработки аудиосигналов, имеющий, по меньшей мере, одну полосу (36) частот и выполненный с возможностью обработки входного аудиосигнала (37), имеющего множество входных каналов (38), по меньшей мере, в одной полосе (36) частот, при этом декодер (2) выполнен с возможностью:

- выравнивать фазы входных каналов (38) в зависимости от межканальных зависимостей (39) между входными каналами (38), при этом фазы входных каналов (38) тем больше выравнены относительно друг друга, чем выше их межканальная зависимость (39); и

- микшировать с понижением выравненный входной аудиосигнал в выходной аудиосигнал (40), имеющий меньшее число выходных каналов (41), чем число входных каналов (38).

2. Декодер по п. 1, при этом декодер (2) выполнен с возможностью анализировать входной аудиосигнал (37) в полосе (36) частот, чтобы идентифицировать межканальные зависимости (39) между входными аудиоканалами (38) или принимать межканальные зависимости (39) между входными каналами (38) из внешнего устройства, к примеру из кодера (1), который предоставляет входной аудиосигнал (37).

3. Декодер по п. 1, при этом декодер (2) выполнен с возможностью нормализовать энергию выходного аудиосигнала (40) на основе определенной энергии входного аудиосигнала (37), при этом декодер (2) выполнен с возможностью определять энергию сигналов для входного аудиосигнала (37) или принимать определенную энергию входного аудиосигнала (37) из внешнего устройства, к примеру из кодера (1), который предоставляет входной аудиосигнал (37).

4. Декодер по п. 1, при этом декодер (2) содержит понижающий микшер (42) для понижающего микширования входного аудиосигнала (37) на основе матрицы () понижающего микширования, при этом декодер (1) выполнен с возможностью вычислять матрицу () понижающего микширования таким образом, что фазы входных каналов (38) выравниваются на основе идентифицированных межканальных зависимостей (39), или принимать матрицу () понижающего микширования, вычисленную таким образом, что фазы входных каналов (38) выравниваются на основе идентифицированных межканальных зависимостей (39), из внешнего устройства, к примеру из кодера (1), который предоставляет входной аудиосигнал (37).

5. Декодер по п. 4, при этом декодер (2) выполнен с возможностью вычислять матрицу ( понижающего микширования таким образом, что энергия выходного аудиосигнала (41) нормализована на основе определенной энергии входного аудиосигнала (37), или принимать матрицу () понижающего микширования, вычисленную таким образом, что энергия выходного аудиосигнала (41) нормализована на основе определенной энергии входного аудиосигнала (37), из внешнего устройства, к примеру из кодера (1), который предоставляет входной аудиосигнал (37).

6. Декодер по п. 1, при этом декодер (2) выполнен с возможностью анализировать временные интервалы (43) входного аудиосигнала (37) с использованием функции окна, при этом межканальные зависимости (39) определяются для каждого временного кадра (43) или при этом декодер (2) выполнен с возможностью принимать анализ временных интервалов (43) входного аудиосигнала (37) с использованием функции окна, при этом межканальные зависимости (39) определяются для каждого временного кадра (43) из внешнего устройства, к примеру из кодера (1), который предоставляет входной аудиосигнал (37).

7. Декодер по п. 1, при этом декодер (2) выполнен с возможностью вычислять матрицу () ковариационных значений, при этом ковариационные значения () выражают межканальную зависимость (39) пары входных аудиоканалов (38) или при этом декодер (2) выполнен с возможностью принимать матрицу () ковариационных значений, при этом ковариационные значения () выражают межканальную зависимость (39) пары входных аудиоканалов (38) из внешнего устройства, к примеру из кодера (1), который предоставляет входной аудиосигнал (37).

8. Декодер по п. 7, при этом декодер (2) выполнен с возможностью устанавливать матрицу () значений притяжения, которая представляет управляющие данные в форме коэффициентов притяжения фаз, которые определяют притяжение фаз между канальными парами, посредством применения функции () преобразования к матрице () ковариационных значений или к матрице (), извлеченной из матрицы () ковариационных значений, или принимать матрицу () значений притяжения, которая представляет управляющие данные в форме коэффициентов притяжения фаз, которые определяют притяжение фаз между канальными парами, устанавливаемую посредством применения функции () преобразования к матрице () ковариационных значений или к матрице (), извлеченной из матрицы () ковариационных значений, при этом градиент функции () преобразования предпочтительно больше или равен нулю для всех ковариационных значений () или значений (), извлеченных из ковариационных значений (), и при этом функция () преобразования предпочтительно достигает значений между нулем и единицей для входных значений между нулем и единицей.

9. Декодер по п. 8, в котором функция () преобразования является нелинейной функцией.

10. Декодер по п. 8, в котором функция () преобразования равна нулю для ковариационных значений () или значений (), извлеченных из ковариационных значений (), меньших первого порогового значения преобразования, и/или при этом функция () преобразования равна единице для ковариационных значений () или значений (), извлеченных из ковариационных значений (), превышающих второе пороговое значение преобразования.

11. Декодер по п. 8, в котором функция () преобразования представлена посредством функции, формирующей S-образную кривую.

12. Декодер по п. 7, при этом декодер (2) выполнен с возможностью вычислять матрицу () коэффициентов фазового выравнивания, при этом матрица () коэффициентов фазового выравнивания основана на матрице () ковариационных значений и на прототипной матрице () понижающего микширования, или принимать матрицу () коэффициентов фазового выравнивания, при этом матрица () коэффициентов фазового выравнивания основана на матрице () ковариационных значений и на прототипной матрице () понижающего микширования, из внешнего устройства, к примеру из кодера (1), который предоставляет входной аудиосигнал (37).

13. Декодер по п. 12, в котором фазы и/или амплитуды коэффициентов () понижающего микширования матрицы () понижающего микширования формулируются как сглаженные во времени, так что исключаются временные артефакты вследствие подавления сигналов между смежными временными кадрами (43).

14. Декодер по п. 12, в котором фазы и/или амплитуды коэффициентов () понижающего микширования матрицы () понижающего микширования формулируются как сглаженные по частоте, так что исключаются спектральные артефакты вследствие подавления сигналов между смежными полосами (36) частот.

15. Декодер по п. 12, при этом декодер (2) выполнен с возможностью устанавливать матрицу () коэффициентов регуляризованного фазового выравнивания на основе матрицы () коэффициентов фазового выравнивания или принимать матрицу () коэффициентов регуляризованного фазового выравнивания на основе матрицы () коэффициентов фазового выравнивания из внешнего устройства, к примеру из кодера (1), который предоставляет входной аудиосигнал (37).

16. Декодер по п. 15, в котором матрица () понижающего микширования основана на матрице () коэффициентов регуляризованного фазового выравнивания.

17. Кодер обработки аудиосигналов, имеющий, по меньшей мере, одну полосу (36) частот и выполненный с возможностью обработки входного аудиосигнала (37), имеющего множество входных каналов (38), по меньшей мере, в одной полосе (36) частот, при этом кодер (1) выполнен с возможностью:

- выравнивать фазы входных каналов (38) в зависимости от межканальных зависимостей (39) между входными каналами (38), при этом фазы входных каналов (38) тем больше выравнены относительно друг друга, чем выше их межканальная зависимость (39); и

- микшировать с понижением выравненный входной аудиосигнал в выходной аудиосигнал (40), имеющий меньшее число выходных каналов (41), чем число входных каналов (38).

18. Кодер обработки аудиосигналов, имеющий, по меньшей мере, одну полосу (36) частот и выполненный с возможностью вывода потока (7) битов, при этом поток (7) битов содержит кодированный аудиосигнал (37) в полосе (36) частот, при этом кодированный аудиосигнал (37) имеет множество кодированных каналов (38), по меньшей мере, в одной полосе (36) частот, при этом кодер (1) выполнен с возможностью:

- вычислять матрицу () понижающего микширования для понижающего микшера (3) для понижающего микширования кодированного аудиосигнала (37) на основе матрицы () понижающего микширования таким образом, что фазы кодированных каналов (38) выравниваются на основе идентифицированных межканальных зависимостей (39), предпочтительно таким образом, что энергия выходного аудиосигнала понижающего микшера (41) нормализована на основе определенной энергии кодированного аудиосигнала (37), и выводить матрицу () понижающего микширования в потоке (7) битов, при этом, в частности, фазы и/или амплитуды коэффициентов () понижающего микширования матрицы () понижающего микширования формулируются как сглаженные во времени, так что исключаются временные артефакты вследствие подавления сигналов между смежными временными кадрами (43), и/или при этом, в частности, фазы и/или амплитуды коэффициентов () понижающего микширования матрицы () понижающего микширования формулируются как сглаженные по частоте, так что исключаются спектральные артефакты вследствие подавления сигналов между смежными полосами (36) частот; и/или

- устанавливать матрицу () значений притяжения, которая представляет управляющие данные в форме коэффициентов притяжения фаз, которые определяют притяжение фаз между канальными парами, посредством применения функции () преобразования, при этом градиент функции () преобразования предпочтительно больше или равен нулю для всех ковариационных значений () или значений (), извлеченных из ковариационных значений (), и при этом функция () преобразования предпочтительно достигает значений между нулем и единицей для входных значений между нулем и единицей, в частности, нелинейной функции , в частности функции () преобразования, которая равна нулю для ковариационных значений () или значений (), извлеченных из ковариационных значений (), меньших первого порогового значения преобразования, и/или которая равна единице для ковариационных значений () или значений (), извлеченных из ковариационных значений (), превышающих второе пороговое значение преобразования, и/или которая представлена посредством функции, формирующей S-образную кривую, к матрице () ковариационных значений или к матрице (), извлеченной из матрицы ()ковариационных значений, и выводить матрицу () значений притяжения в потоке (7) битов; и/или

- вычислять матрицу () коэффициентов фазового выравнивания, при этом матрица () коэффициентов фазового выравнивания основана на матрице () ковариационных значений и на прототипной матрице () понижающего микширования.

19. Кодер обработки аудиосигналов по п. 18, при этом кодер (1) выполнен с возможностью определять межканальные зависимости (39) между входными каналами (38) входного аудиосигнала (37) и выводить межканальные зависимости (39) в потоке (7) битов; и/или

- определять энергию кодированного аудиосигнала (37) и выводить определенную энергию кодированного аудиосигнала (37) в потоке (7) битов.

20. Кодер обработки аудиосигналов по п. 18, при этом кодер (1) выполнен с возможностью анализировать временные интервалы (43) кодированного аудиосигнала (37) с использованием функции окна, при этом межканальные зависимости (39) определяются для каждого временного кадра (43), и выводить межканальные зависимости (39) для каждого временного кадра (43) в потоке (7) битов.

21. Кодер обработки аудиосигналов по п. 18, при этом кодер (1) выполнен с возможностью вычислять матрицу () ковариационных значений, при этом ковариационные значения () выражают межканальную зависимость (39) пары кодированных аудиоканалов (38), и выводить матрицу () ковариационных значений в потоке (7) битов.

22. Кодер обработки аудиосигналов по п. 18, при этом кодер (1) выполнен с возможностью устанавливать матрицу () коэффициентов регуляризованного фазового выравнивания на основе матрицы коэффициентов фазового выравнивания и выводить матрицу () коэффициентов регуляризованного фазового выравнивания в потоке (7) битов.

23. Система обработки аудиосигналов, содержащая:

- декодер (2) обработки аудиосигналов по одному из пп. 1-16, и

- кодер (1) обработки аудиосигналов по одному из пп. 17-22.

24. Способ для обработки входного аудиосигнала (37), имеющего множество входных каналов (38) в полосе (36) частот, при этом способ содержит этапы, на которых:

- анализируют входной аудиосигнал (37) в полосе (36) частот, при этом межканальные зависимости (39) между входными аудиоканалами (38) идентифицируются;

- выравнивают фазы входных каналов (38) на основе идентифицированных межканальных зависимостей (39), при этом фазы входных каналов (38) тем больше выравнены относительно друг друга, чем выше их межканальная зависимость (39);

- микшируют с понижением выравненный входной аудиосигнал в выходной аудиосигнал (40), имеющий меньшее число выходных каналов (41), чем число входных каналов (38) в полосе (36) частот.

25. Машиночитаемый носитель, имеющий записанную компьютерную программу для реализации способа по п. 24 при выполнении на компьютере или в процессоре сигналов.



 

Похожие патенты:

Изобретение относится к средствам для генерации множества звуковых каналов. Технический результат заключается в повышении гибкости схемы расположения громкоговорителей.

Изобретение относится к средствам аудиокодирования и аудиодекодирования. Технический результат заключается в повышении эффективности кодирования аудиоданных.

Изобретение относится к средствам для аудиокодирования и аудиодекодирования. Технический результат заключается в повышении эффективности кодирования трехмерных аудиосцен.

Изобретение относится к обработке аудиосигналов, в частности к аудиообработке моно- или двойного моносигнала. Технический результат – повышение качества звука аудиосигналов.

Изобретение относится к средствам для формирования одного или более аудиоканалов. Технический результат заключается в повышении эффективности кодирования метаданных.

Изобретение относится к средствам для осуществления понижающего микширования SAOC объемного аудиоконтента. Технический результат заключается в повышении эффективности понижающего микширования аудиоконтента.

Изобретение относится к средствам для кодирования аудиосигналов. Технический результат заключается в повышении эффективности кодирования трехмерных аудиосцен.

Изобретение относится к средствам для масштабирования центрального сигнала. Технический результат заключается в повышении разборчивости речи.

Изобретение относится к технике связи и предназначено для управления динамическим диапазоном. Технический результат – уменьшение динамического диапазона аудиосигнала.

Изобретение относится к кодированию аудиообъектов. Технический результат изобретения заключается в сокращении вычислительных ресурсов, что минимизирует обработку пространственного кодирования аудиообъектов SAOC.

Изобретение относится к обработке звука, в частности, к обработке звука с перекрывающимися окнами для анализа или синтеза в цепочке обработки звукового сигнала. Технический результат – повышение качества обработки звукового сигнала.

Изобретение относится к обработке аудиосигнала. Технический результат - повышение качества аудиосигнала.

Изобретение относится к средствам для обработки аудиосигнала с использованием горизонтальной фазовой коррекции. Технический результат заключается в повышении эффективности обработки аудиосигнала.

Изобретение относится к средствам для обработки аудиосигнала с использованием вертикальной фазовой коррекции. Технический результат заключается в повышении эффективности обработки аудиосигнала.

Изобретение относится к средствам для кодирования и декодирования речи. Технический результат заключается в уменьшении опережающего и запаздывающего эха.

Изобретение относится к передаче избыточной информации кадра. Технический результат изобретения заключается в улучшении эффективности кодирования/декодирования данных.

Изобретение относится к области обработки сигналов. Технический результат заключается в повышении эффективности обработки сигналов.

Изобретение относится к кодированию/декодированию аудиосигнала, соответствующего диапазону высоких частот. Технический результат – расширение диапазона высоких частот.

Изобретение относится к кодированию и декодированию аудиосигнала. Технический результат – повышение качества аудиосигнала.

Изобретение относится к области обработки аудиосигналов, в частности к области обработки пространственных аудиосигналов. Технический результат – повышение эффективности управления входным аудиосигналом в пределах пространственного аудиосценария.

Изобретение относится к средствам для обработки кодированного аудиосигнала, включающего в себя множество микшированных с понижением сигналов, связанных с множеством входных звуковых объектов и параметрами объектов.
Наверх