Устройство и способ для кодирования пространственного звукового представления или устройство и способ для декодирования закодированного аудиосигнала с использованием транспортных метаданных и соответствующие компьютерные программы

Изобретение относится к области вычислительной техники для обработки аудиоданных. Технический результат заключается в обеспечении кодирования пространственных аудиосцен с низкими битовыми скоростями и максимальной точностью воспроизвения первоначальной аудиосцены после передачи. Технический результат достигается за счет того, что пространственное звуковое представление является представлением Ambisonics первого порядка или представлением Ambisonics высокого порядка, содержащим множество сигналов коэффициентов, или многоканальным представлением, содержащим множество аудиоканалов, формирование транспортного представления содержит комбинирование еще двух сигналов коэффициентов из представления Ambisonics высокого порядка или представления Ambisonics первого порядка, или комбинирование двух или более аудиоканалов из многоканального представления, а формирование транспортных метаданных содержит формирование в качестве транспортных метаданных информацию, указывающую, как были объединены два или более сигналов коэффициентов из представления Ambisonics высокого порядка или представления Ambisonics первого порядка или два или более аудиоканалов из многоканального представления, или какие из двух и более сигналов коэффициентов из представления Ambisonics первого порядка или представления Ambisonics высокого порядка или какие из двух или более аудиоканалов из многоканального представления были объединены. 6 н. и 26 з.п. ф-лы, 23 ил.

 

Варианты осуществления изобретения относятся к сигналам транспортного канала или понижающего микширования для направленного аудиокодирования.

Метод направленного аудиокодирования (Directional Audio Coding, DirAC) [Pulkki07] представляет собой эффективный подход к анализу и воспроизведению пространственного звука. DirAC использует перцептивно мотивированное представление звукового поля на основе пространственных параметров, т.е. направления прихода (direction of arrival, DOA) и диффузности, измеренных для каждой частотной полосы. Это построено на предположении, что в один момент времени и в одной критической частотной полосе пространственное разрешение слуховой системы ограничено декодированием одного ключевого признака для направления и другого для интерауральной когерентности. Пространственный звук тогда представлен в частотной области посредством плавного наложения двух потоков: всенаправленного диффузного потока и направленного не диффузного потока.

DirAC изначально предназначался для записи звука в В-формате, но также может быть расширен для микрофонных сигналов, соответствующих определенной настройке массива громкоговорителей, например, 5.1 [2], или любой конфигурации микрофонных решеток [5]. В последнем случае можно добиться большей гибкости, записывая сигналы не для конкретной настройки громкоговорителя, а вместо этого записывая сигналы промежуточного формата.

Такой промежуточный формат, который известный на практике, представлен как Ambisonics (звукозапись с эффектом присутствия) (более высокого порядка) [3]. Из сигнала Ambisonics можно сформировать сигналы каждой требуемой установки громкоговорителей, в том числе бинауральные сигналы для воспроизведения в наушниках. Для этого требуется специфический модуль рендеринга, который применяется к сигналу Ambisonics, с использованием либо модуля линейного рендеринга Ambisonics [3], либо модуля параметрического рендеринга, такого как направленное аудиокодирование (DirAC).

Сигнал Ambisonics может быть представлен как многоканальный сигнал, в котором каждый канал (называемый компонентом Ambisonics) эквивалентен коэффициенту так называемой функции пространственного базиса. С помощью взвешенной суммой этих функций пространственного базиса (с весами, соответствующим коэффициентам) возможно воссоздать первоначальное звуковое поле в месте записи [3]. Таким образом, коэффициенты функции пространственного базиса (т.е. компоненты Ambisonics) представляют компактное описание звукового поля в месте записи. Существуют различные типы функций пространственного базиса, например, сферические гармоники (SH) [3] или цилиндрические гармоники (CH) [3]. Гармоники CH могут использоваться при описании звукового поля в двухмерном пространстве (например, для воспроизведения двухмерного звука), тогда как гармоники SH могут использоваться для описания звукового поля в двухмерном и трехмерном пространстве (например, для воспроизведения двухмерного и трехмерного звука).

В качестве примера аудиосигнал , который приходит с некоторого направления , дает в результате пространственный аудиосигнал , который может быть представлен в формате Ambisonics, посредством расширения сферических гармоник до порядка усечения H:

где - сферические гармоники порядка l и моды m, и - коэффициенты расширения. С увеличением порядка усечения H расширение приводит к более точному пространственному представлению. Сферические гармоники вплоть до порядка H=4 с индексом Ambisonics Channel Numbering (ACN) проиллюстрированы на в фиг. 1a для порядка n и моды m.

Кодирование DirAC уже было расширено, чтобы избавить сигналы Ambisonics высокого порядка от сигнала Ambisonics первого порядка (FOA, first order Ambisonics, называемый B-форматом) или от других массивов микрофонов [5]. Этот документ сосредоточен на более эффективном способе синтеза сигналов Ambisonics высокого порядка из параметров DirAC и опорного сигнала. В этом документе опорный сигнал, также называемый сигналом понижающего микширования, рассматривается как подмножество сигнала Ambisonics высокого порядка или линейная комбинация подмножества компонентов Ambisonics.

В анализе DirAC пространственные параметры DirAC оцениваются на основе входных аудиосигналов. Первоначально кодирование DirAC было разработано для входной информации Ambisonics первого порядка (FOA), который может, например, быть получен от микрофонов B-формата, однако также вполне возможны другие входные сигналы. В синтезе DirAC выходные сигналы для пространственного воспроизведения, например сигналы громкоговорителей, вычисляются из параметров DirAC и ассоциированных аудиосигналов. Были описаны решения для использования всенаправленного аудиосигнала только для синтеза или для использования всего сигнала FOA [Pulkki07]. В качестве альтернативы для синтеза может использоваться только подмножество четырех компонентов сигнала FOA.

Благодаря его эффективному представлению пространственного звука DirAC также хорошо подходит в качестве основы для систем пространственного аудиокодирования. Цель такой системы состоит в том, чтобы иметь возможность кодировать пространственные аудиосцены с низкими битовыми скоростями и максимально точно воспроизводить первоначальную аудиосцену после передачи. В этом случае анализ DirAC сопровождается пространственным кодером метаданных, который квантует и кодирует параметры DirAC, чтобы получить параметрическое представление с низкой битовой скоростью. Наряду с метаданными сигнал понижающего микширования, выявленный из первоначальных входных аудиосигналов, кодируется для передачи традиционным аудиокодером базового кодирования. Например, аудиокодер на основе EVS может быть применен для кодирования сигнала понижающего микширования. Сигнал понижающего микширования состоит из разных каналов, называемых транспортными каналами: сигнал понижающего микширования может представлять собой, например, четыре сигнала коэффициентов, составляющие сигнал B-формата (т.е. FOA), стереопару или монофоническое понижающее микширование в зависимости от целевой битовой скорости. Закодированные пространственные параметры и закодированный битовый аудиопоток мультиплексируются перед передачей.

Контекст: Системный обзор пространственного аудиокодера на основе DirAC

Далее представлен обзор системы пространственного аудиокодирования существующего уровня техники на основе DirAC, разработанной для голосовых и звуковых сервисов с эффектом присутствия (Immersive Voice and Audio Services, IVAS). Цель такой системы состоит в том, чтобы иметь возможность обрабатывать различные пространственные аудиоформаты, представляющие аудиосцену, и кодировать их с низкой битовой скоростью и максимально точно воспроизводить первоначальную аудиосцену после передачи.

Система может принимать в качестве входной информации другие представления аудиосцен. Входная аудиосцена может быть представлена многоканальными сигналами, предназначенными для воспроизведения в других позициях громкоговорителя, слуховые объекты вместе с метаданными, описывающими позиции объектов в течение времени, или формат Ambisonics высокого порядка или первого порядка представляют звуковое поле в позиции слушателя или в опорной позиции.

Предпочтительно система основана на усовершенствованных голосовых сервисах 3GPP (3GPP Enhanced Voice Services, EVS), поскольку ожидается, что решение будет работать с низкой задержкой для обеспечения разговорных услуг в мобильных сетях.

Сторона кодера пространственного аудиокодирования на основе DirAC, поддерживающего другие аудиоформаты, проиллюстрирована на фиг. 1b. Акустический/электрический ввод 1000 входит в интерфейс 1010 кодера, причем интерфейс кодера имеет заданную функциональность для Ambisonics первого порядка (FOA) или Ambisonics высокого порядка (HOA), проиллюстрированную номером 1013. Кроме того, интерфейс кодера имеет функциональность для многоканальных (MC) данных, таких как данные стерео, данные формата 5.1 или данные, имеющие более двух или пяти каналов. Кроме того, интерфейс 1010 кодера имеет функциональность для кодирования объектов, например, звуковых объектов, проиллюстрированных номером 1011. Кодер IVAS содержит стадию 1020 DirAC, имеющую блок 1021 анализа DirAC и блок 1022 понижающего микширования (DMX). Выходной сигнал блока 1022 кодируется базовым кодером 1040 IVAS, таким как кодер AAC или EVS, и метаданные, сформированные блоком 1021, кодируются с использованием кодера 1030 метаданных DirAC.

Фиг. 1b иллюстрирует сторону кодера пространственного аудиокодирования на основе DirAC, поддерживающего разные аудиоформаты. Как показано на фиг. 1b, кодер (кодер IVAS) способен поддерживать разные аудиоформаты, представленные системе отдельно или одновременно. Аудиосигналы могут быть акустическими по своей природе, захваченными микрофонами, или электрическими по своей природе, которые, как предполагается, переданы громкоговорителям. Поддерживаемые аудиоформаты могут быть многоканальными сигналами (MC), компонентами Ambisonics высокого порядка и первого порядка (FOA/HOA) и звуковыми объектами. Сложная аудиосцена также может быть описана посредством комбинации других форматов ввода. Все аудиоформаты затем передаются на анализ DirAC, который извлекает параметрическое представление полной аудиосцены. Направление прихода (DOA) и диффузность, измеренная для каждого частотно-временного блока, формируют пространственные параметры или являются частью большего набора параметров. Анализ DirAC сопровождается пространственным кодером метаданных, который квантует и кодирует параметры DirAC, чтобы получить параметрическое представление с низкой битовой скоростью.

В дополнение к описанным входным форматам на основе каналов, на основе HOA и на основе объектов кодер IVAS может принимать параметрическое представление пространственного звука, состоящее из пространственных метаданных и/или метаданных направленности и одного или нескольких ассоциированных входных аудиосигналов. Метаданные, например, могут соответствовать метаданным DirAC, т.е. DOA и диффузности звука. Метаданные также могут включать в себя дополнительные пространственные параметры, такие как несколько DOA с ассоциированными энергетическими показателями, значения расстояния или позиции или показатели, относящиеся к когерентности звукового поля. Ассоциированные входные аудиосигналы могут состоять из монофонического сигнала, сигнала Ambisonics первого порядка или высокого порядка, сигнала X/Y-стерео, сигнала A/B-стерео или любой другой комбинации сигналов, полученных в результате записи с микрофонов, имеющих различные шаблоны направленности и/или расстояния между ними.

Для параметрического пространственного аудиовхода кодер IVAS определяет параметр DirAC, используемый для передачи на основе входных пространственных метаданных.

Наряду с параметрами сигнал понижающего микширования (DMX), выявленный из других источников или входных аудиосигналов, кодируется для передачи традиционным базовым аудиокодером. В этом случае аудиокодер на основе EVS применяется для кодирования сигнала понижающего микширования. Сигнал понижающего микширования состоит из разных каналов, называемых транспортными каналами: сигнал может представлять собой, например, четыре сигнала коэффициентов, составляющие B-формат или сигнал Ambisonics первого порядка (FOA), стереопару или монофоническое понижающее микширование в зависимости от целевой битовой скорости. Закодированные пространственные параметры и закодированный битовый аудиопоток мультиплексируются перед передачей по каналу связи.

Фиг. 2a иллюстрирует сторону декодера пространственного аудиокодирования на основе DirAC, предоставляющего разные аудиоформаты. В декодере, показанном на фиг. 2a, транспортные каналы декодируются базовым декодером, в то время как метаданные DirAC сначала декодируются перед передачей в синтез DirAC с помощью декодированных транспортных каналов. На данном этапе могут быть рассмотрены разные варианты. Возможно запросить воспроизведение аудиосцены непосредственно на любом громкоговорителе или наушниках, как это обычно происходит в традиционной системе DirAC (MC на фиг. 2a). Декодер также может предоставить отдельные объекты в том виде, в котором они были представлены на стороне кодера (Объекты в фиг. 2a). В качестве альтернативы также возможно запросить осуществление рендеринга сцены в формате Ambisonics (FOA/HOA на фиг. 2a) для дополнительных манипуляций, таких как вращение, отражение или движение сцены, или для использования внешнего модуля рендеринга, не определенного в первоначальной системе.

В декодере, показанном на фиг. 2a, транспортные каналы декодируются базовым декодером, в то время как метаданные DirAC сначала декодируются перед передачей в синтез DirAC с помощью декодированных транспортных каналов. На данном этапе могут быть рассмотрены разные варианты. Возможно запросить воспроизведение аудиосцены непосредственно на любом громкоговорителе или наушниках, как это обычно происходит в традиционной системе DirAC (MC на фиг. 2a). Декодер также может предоставить отдельные объекты в том виде, в котором они были представлены на стороне кодера (Объекты в фиг. 2a). В качестве альтернативы также возможно запросить осуществление рендеринга сцены в формате Ambisonics для дополнительных манипуляций, таких как вращение, отражение или движение сцены (FOA/HOA на фиг. 2a), или для использования внешнего модуля рендеринга, не определенного в/* первоначальной системе.

Декодер пространственного аудиокодирования DirAC, предоставляющий разные аудиоформаты, проиллюстрирован на фиг. 2a и содержит декодер 1045 IVAS и присоединенный далее интерфейс 1046 декодера. Декодер 1045 IVAS содержит базовый декодер 1060 IVAS, который сконфигурирован для выполнения операции декодирования контента, закодированного базовым кодером 1040 IVAS, показанным на фиг. 1b. Кроме того, обеспечен декодер 1050 метаданных DirAC 1050, который предоставляет функциональность декодирования для декодирования контента, закодированного кодером 1030 метаданных DirAC. Синтезатор 1070 DirAC принимает данные от блока 1050 и 1060 и с использованием или без использования некоторой пользовательской интерактивности выдает данные на вход интерфейса 1046 декодера, который формирует данные FOA/HOA, проиллюстрированные номером 1083, многоканальные данные (данные MC), проиллюстрированные в блоке 1082, или данные объектов, проиллюстрированные в блоке 1080.

Традиционный синтез HOA, использующий парадигму DirAC, изображен на фиг. 2b. Входной сигнал, называемый сигналом понижающего микширования, подвергается частотно-временному анализу посредством набора частотных фильтров. Набор 2000 частотных фильтров может представлять собой комплекснозначный набор фильтров, такой как комплекснозначный QMF или блочное преобразование, например, STFT. Синтез HOA формирует на выходе сигнал Ambisonics порядка H, содержащий компонентов. Необязательно, он также может выдавать сигнал Ambisonics, воспроизведенный на заданной топологии громкоговорителей. Далее мы подробно показываем, каким образом получить компонентов сигнала понижающего микширования, сопровождаемого в некоторых случаях входными пространственными параметрами.

Сигнал понижающего микширования может представлять собой первоначальные сигналы микрофонов или совокупность первоначальных сигналов, представляющих первоначальную аудиосцену. Например, если аудиосцена захвачена с помощью микрофона звукового поля, сигнал понижающего микширования может являться всенаправленным компонентом сцены (W), понижающим стереофоническим микшированием (L/R) или сигналом Ambisonics первого порядка (FOA).

Для каждой частотно-временной ячейки направление звука, также называемое направлением прихода (Direction-of-Arrival, DOA), и коэффициент диффузности оцениваются модулем 2020 оценки направления и модулем 2010 оценки диффузности соответственно, если сигнал понижающего микширования содержит достаточную информацию для определения таких параметров DirAC. Это имеет место, например, если сигнал понижающего микширования является сигналом Ambisonics первого порядка (FOA). В качестве альтернативы, или если сигнал понижающего микширования не достаточен для определения таких параметров, параметры могут быть переданы непосредственно в синтез DirAC через входной битовый поток, содержащий пространственные параметры. Битовый поток может состоять, например, из квантованных и закодированных параметров, принятых в качестве вспомогательной информации в случае приложений для передачи звука. В этом случае параметры выявляются вне модуля синтеза DirAC из первоначальных сигналов микрофонов или входных аудиоформатов, выданных модулю анализа DirAC на стороне кодера, как проиллюстрировано переключателем 2030 или 2040.

Направления звука используются модулем 2050 оценки направленных коэффициентов усиления для оценки для каждой частотно-временной ячейки из множества частотно-временных ячеек одного или нескольких наборов направленных коэффициентов усиления , где H - порядок синтезированного сигнала Ambisonics.

Направленные коэффициенты усиления могут быть получены посредством оценки функции пространственного базиса для каждого оценочного направления звука требуемого порядка (уровня) l и моды m сигнала Ambisonics для синтеза. Направление звука может быть выражено, например, единичным вектором , или угловым азимутом и/или углом возвышения , которые относятся, например, как:

После оценки или получения направления звука отклик функции пространственного базиса требуемого порядка (уровня) l и моды m может быть определен, например, посредством рассмотрения действительнозначных сферических гармоник с нормализацией SN3D как функции пространственного базиса:

где диапазоны 0 ≤ l ≤ H, и −l ≤ m ≤ l. - Функции Лежандра, и - член нормализации и для функций Лежандра и для тригонометрических функций, который принимает следующую форму для SN3D:

где дельта Кронекера для m=0 и равна нулю в ином случае. Направленные коэффициенты усиления затем непосредственно выводятся для каждой частотно-временной ячейки индексов (k, n) как:

Компоненты прямого звука Ambisonics вычисляются посредством выведения опорного сигнала из сигнала понижающего микширования и умножения на направленные коэффициенты усиления и функцию коэффициента диффузности :

Например, опорный сигнал может являться всенаправленным компонентом сигнала понижающего микширования или линейной комбинацией K каналов сигнала понижающего микширования.

Компонент диффузного звука Ambisonics может быть смоделирован посредством использования отклика функции пространственного базиса для звуков, приходящих со всех возможных направлений. Одним примером является определение среднего отклика посредством интеграла квадрата величины функции пространственного базиса по всем возможным углам и :

Компоненты диффузного звука Ambisonics вычисляются из сигнала , умноженного на средний отклик и функцию коэффициента диффузности :

Сигнал может быть получен посредством использования других декорреляторов, примененных к опорному сигналу .

Наконец, компонент прямого звука Ambisonics и компонент диффузного звука Ambisonics объединяются 2060, например, с помощью операции суммирования для получения окончательного компонента Ambisonics требуемого порядка (уровня) l и моды m для частотно-временной ячейки (k, n), т.е.

Полученные компоненты Ambisonics могут быть преобразованы обратно во временную область с использованием набора 2080 обратных фильтров или обратного преобразования STFT, сохранены, переданы или использованы, например, для приложений воспроизведения пространственного звука. В качестве альтернативы модуль 2070 линейного рендеринга Ambisonics может быть применен для каждой частотной полосы для получения сигналов, которые будут воспроизводиться на заданной топологии громкоговорителей или в наушниках, перед преобразованием сигналов громкоговорителей или бинауральных сигналов во временную область.

Следует отметить, что [Thiergart17] также указывал на возможность того, что компоненты диффузного звука могут быть синтезированы только до порядка L, где L<H. Это сокращает вычислительную сложность и избегает синтетических артефактов вследствие интенсивного использования декорреляторов.

Цель настоящего изобретения состоит в том, чтобы обеспечить улучшенную концепцию для формирования описания звукового поля на основе входного сигнала.

Существующий уровень техники: синтез DirAC для монофонических сигналов и сигналов понижающего микширования FOA

Далее описан общий синтез DirAC, основанный на принятом потоке пространственного аудиокодирования на основе DirAC. Рендеринг, выполненный посредством синтеза DirAC, основан на декодированных аудиосигналах понижающего микширования и декодированных пространственных метаданных.

Сигнал понижающего микширования является входным сигналом синтеза DirAC. Сигнал преобразовывается в частотно-временную область посредством набора фильтров. Набор фильтров может представлять собой комплекснозначный набор фильтров, такой как комплекснозначный QMF, или блок преобразования, такой как STFT.

Параметры DirAC могут быть переданы непосредственно на синтез DirAC через входной битовый поток, содержащий пространственные параметры. Битовый поток может состоять, например, из квантованных и закодированных параметров, принятых в качестве вспомогательной информации в случае приложений для передачи звука.

Для определения сигналов каналов для громкоговорителя на основе воспроизведения звука каждый сигнал громкоговорителя определяется на основе сигналов понижающего микширования и параметров DirAC. Сигнал j-ого громкоговорителя получается как комбинация компонента прямого звука и компонента диффузного звука, т.е.

Компонент прямого звука j-го канала громкоговорителя может быть получен посредством масштабирования так называемого опорного сигнала с коэффициентом, зависящим от параметра диффузности и направленного коэффициента усиления , причем коэффициент усиления зависит от направления прихода (DOA) звука и потенциально также от позиции j-го канала громкоговорителя. Направление прихода DOA звука может быть выражено, например, в виде единичного вектора или в виде угла азимута и/или угла возвышения , которые взаимосвязаны, например, как

Направленный коэффициент усиления может быть вычислен с использованием известных способов, таких как векторное амплитудное панорамирование (vector-base amplitude panning, VBAP) [Pulkki97].

С учетом сказанного, компонент прямого звука может быть выражен как

Пространственные параметры, описывающие DOA звука и диффузность, либо оцениваются в декодере на основе транспортных каналов, либо получаются из параметрических метаданных, включенных в битовый поток.

Компонент диффузного звука может быть определен на основе опорного сигнала и параметра диффузности:

Коэффициент нормализации зависит от конфигурации громкоговорителей воспроизведения. Обычно компоненты диффузного звука, ассоциированные с разными каналами громкоговорителей , далее обрабатываются, т.е. они взаимно декоррелируются. Это также может быть достигнуто посредством декорреляции опорного сигнала для каждого выходного канала, т.е.

где обозначает декоррелированную версию .

Опорный сигнал для j-го выходного канала получается на основе переданных сигналов понижающего микширования. В самом простом случае сигнал понижающего микширования состоит из монофонического всенаправленного сигнала (например, всенаправленного компонента сигнала FOA), и опорный сигнал является идентичным для всех выходных каналов:

Если транспортные каналы соответствуют четырем компонентам сигнала FOA, опорные сигналы могут быть получены посредством линейной комбинации компонентов FOA. Обычно сигналы FOA объединяются таким образом, что опорный сигнал j-го канала соответствует виртуальному кардиоидному сигналу микрофона, указывающему направление j-го громкоговорителя [Pulkki07].

Синтез DirAC обычно обеспечивает улучшенное качество воспроизведения звука для увеличенного количества каналов понижающего микширования, например, необходимое количество синтетической декорреляции, степень нелинейной обработки направленными коэффициентами усиления, или могут быть обойдены или смягчены взаимные помехи между разными каналами громкоговорителей и ассоциированных артефактов.

Обычно простой подход к введению множества разных транспортных сигналов в закодированную звуковую сцену, с одной стороны, не является гибким, а с другой стороны, требует больших затрат на скорость передачи. Как правило, может не потребоваться во всех случаях вводить в кодированный аудиосигнал, например, все четыре компонента сигнала Ambisonics первого порядка, поскольку один или несколько компонентов не вносят значительного энергетического вклада. С другой стороны, требования к скорости передачи могут быть жесткими, что запрещает вводить более двух транспортных каналов в кодированный аудиосигнал, представляющий пространственное звуковое представление. В случае таких жестких требований к скорости передачи кодеру и декодеру было бы необходимо предварительно согласовать определенное представление, и на основе этого предварительного согласования формируется определенное количество транспортных сигналов на основе предварительно согласованного способа, и затем аудиодекодер может синтезировать звуковую сцену из закодированного аудиосигнала на основе предварительно согласованных знаний. Однако, хотя это и полезно в отношении требований к скорости передачи, но является не гибким и, кроме того, может привести к значительному снижению качества звука, поскольку предварительно согласованная процедура может являться не оптимальной для определенного звукового фрагмента или может являться не оптимальной для всех частотных диапазонов или для всех временных кадров звукового фрагмента.

Таким образом, процедура предшествующего уровня техники представления аудиосцены является не оптимальной относительно требования битовой скорости, не гибкой и дополнительно имеет высокий потенциал приводить к значительному сокращению качества звука.

Задача настоящего изобретения состоит в том, чтобы обеспечить улучшенную концепцию для кодирования пространственного звукового представления или декодирования закодированного аудиосигнала.

Эта задача решена посредством устройства для кодирования пространственного звукового представления по п. 1, устройства для декодирования закодированного аудиосигнала по п. 21, способа кодирования пространственного звукового представления по п. 39, способа декодирования закодированного аудиосигнала по п. 41, компьютерной программы по п. 43 или закодированного аудиосигнала по п. 44.

Настоящее изобретение основано на выводе о том, что значительное улучшение битовой скорости, гибкости и качества звука достигаются посредством использования транспортных метаданных, которые относятся к формированию транспортного представления или указывают одно или несколько свойств направленности транспортного представления, в дополнение к транспортному представлению, выявленному из пространственного звукового представления. Устройство для кодирования пространственного звукового представления, представляющего аудиосцену, таким образом, формирует транспортное представление из аудиосцены и дополнительно транспортные метаданные, относящиеся к формированию транспортного представления или указывающие одно или несколько свойств направленности транспортного представления, или относящиеся к формированию транспортного представления и указывающие одно или несколько свойств направленности транспортного представления. Кроме того, выходной интерфейс формирует закодированный аудиосигнал, содержащий информацию о транспортном представлении и информацию о транспортных метаданных.

На стороне декодера устройство для декодирования закодированного аудиосигнала содержит интерфейс для приема закодированного аудиосигнала, содержащего информацию о транспортном представлении и информацию о транспортных метаданных, и пространственный аудиосинтезатор затем синтезирует пространственное звуковое представление с использованием информации о транспортном представлении и информации о транспортных метаданных.

Явный показатель относительно того, каким образом было сформировано транспортное представление, такое как микшированный с понижением сигнал, и/или явный показатель относительно одного или нескольких свойств направленности транспортного представления посредством дополнительных транспортных метаданных позволяет кодеру сформировать закодированную аудиосцену очень гибким образом, который, с одной стороны, обеспечивает высокое качество звука, и, с другой стороны, удовлетворяет требованиям малой битовой скорости. Кроме того, посредством транспортных метаданных кодер даже может учитывать требуемый оптимальный баланс между требованиями битовой скорости, с одной стороны, и качеством звука, представленным закодированным аудиосигналом, с другой стороны. Таким образом, использование явных транспортных метаданных позволяет кодеру применять разные способы формирования транспортного представления и дополнительно адаптировать формирование транспортного представления не только к разным звуковым фрагментам, но даже к разным аудиокадрам или к разным частотным полосам в одном и том же аудиокадре. Естественным образом, гибкость получается за счет формирования транспортного представления для каждой частотно-временной ячейки отдельно таким образом, что одно и то же транспортное представление может быть сформировано для всех частотных интервалов во временном кадре, или, в качестве альтернативы, одно и то же транспортное представление может быть сформировано для одной и той же частотной полосы дня нескольких временных аудиокадров, или отдельное транспортное представление может быть сформировано для каждого частотного интервала каждого временного кадра. Вся эта информация, т.е. способ формирования транспортного представления и то, связано ли транспортное представление с полным кадром или только с частотно-временным интервалом или некоторой частотной полосой на несколько временных кадров, также включена в транспортные метаданные, и, таким образом, пространственный аудиосинтезатор знает о том, что было сделано на стороне кодера, и может применить оптимальную процедуру на стороне декодера.

Предпочтительно некоторые альтернативы транспортных метаданных представляют собой информацию, указывающую, какие компоненты были выбраны из некоторого набора компонентов, представляющих аудиосцену. Дополнительная альтернатива транспортных метаданных относится к информации о комбинации, т.е. каким образом были объединены некоторые компонентные сигналы пространственного звукового представления, чтобы сформировать транспортное представление. Дополнительная информация, полезная в качестве транспортных метаданных, относится к информации о секторе/полушарии, к которому относится некоторый транспортный сигнал или транспортный канал. Кроме того, метаданные, полезные в контексте настоящего изобретения, относятся к информации о направлении взгляда, указывающей направление взгляда аудиосигнала, включенного в качестве транспортного сигнала, предпочтительно, множества других транспортных сигналов в транспортном представлении. Другая информация о направлении взгляда относится к направлениям взгляда микрофонов, когда транспортное представление состоит из одного или нескольких сигналов микрофонов, которые, например, могут быть записаны физическими микрофонами в (пространственно расширенном) массиве микрофонов или совпадающими микрофонами или, в качестве альтернативы, эти сигналы микрофонов могут быть формированы искусственно. Другие транспортные метаданные относятся к данным параметра формы, указывающим, является ли сигнал микрофона всенаправленным сигналом или имеет другую форму, например, кардиодную или дипольную форму. Дополнительные транспортные метаданные относятся к местоположениям микрофонов в случае наличия более чем одного сигнала микрофона в транспортном представлении. Другие полезные транспортные метаданные относятся к данным об ориентации одного или нескольких микрофонов к данным о расстоянии, указывающим расстояние между двумя микрофонами или шаблонами направленности микрофонов. Кроме того, дополнительные транспортные метаданные могут относиться к описанию или идентификации массива микрофонов, например, к массиву микрофонов, расположенному по окружности, или сигналу микрофонов, которые были выбраны как массив микрофонов, расположенный по окружности, в качестве транспортного представления.

Дополнительные транспортные метаданные могут относиться к информации о формировании направленного луча, соответствующих весовых коэффициентах формирования направленного луча или соответствующих направлениях лучей диаграммы направленности, и, в такой ситуации, транспортное представление обычно состоит из предпочтительно искусственно созданного сигнала, имеющего некоторое направление луча диаграммы направленности. Также альтернативные транспортные метаданные могут относиться к информации о том, являются ли включенные транспортные сигналы сигналами всенаправленного микрофона или являются сигналами не направленного микрофона, такими как дипольные сигналы или кардиоидные сигналы.

Таким образом, другие альтернативы транспортных метаданных становятся очень гибкими и могут быть представлены очень компактным образом, и дополнительные транспортные метаданные обычно не приводят к значительному дополнению битовой скорости. Вместо этого требования битовой скорости для дополнительных транспортных метаданных могут быть уменьшены до 1%, или еще меньше 1/1000, или еще меньше величины транспортного представления. Однако, с другой стороны, очень небольшое количество дополнительных метаданных приводит к более высокой гибкости, и в то же время, значительное увеличение качества звука вследствие дополнительной гибкости и благодаря потенциалу изменения транспортных представлений по разным звуковым фрагментам или даже разным временным кадрам и/или частотным интервалам в одном и том же звуковом фрагменте.

Предпочтительно кодер дополнительно содержит процессор параметров для формирования пространственных параметров на основе пространственного звукового представления таким образом, что в дополнение к транспортному представлению и транспортным метаданным пространственные параметры включаются в закодированный аудиосигнал для улучшения качества звука, доступного только посредством транспортного представления и транспортных метаданных. Эти пространственные параметры предпочтительно зависят от времени и/или частоты направления прихода (DoA) и/или частоты и/или диффузности с зависимостью от времени, как, например, известно в кодировании DirAC.

На стороне аудиодекодера входной интерфейс принимает закодированный аудиосигнал, содержащий информацию о транспортном представлении и информацию о транспортных метаданных. Кроме того, пространственный аудиосинтезатор, обеспеченный в устройстве для декодирования закодированного аудиосигнала, синтезирует пространственное звуковое представление с использованием информации о транспортном представлении и информации о транспортных метаданных. В предпочтительных вариантах осуществления декодер дополнительно использует необязательно переданные пространственные параметры, чтобы синтезировать пространственное звуковое представление не только с использованием информации о транспортных метаданных и информации о транспортном представлении, но также и с использованием пространственных параметров.

Устройство для декодирования закодированного аудиосигнала принимает транспортные метаданные, интерпретирует или разбирает принятые транспортные метаданные и затем управляет модулем объединения для объединения сигналов транспортного представления или для выбора из сигналов транспортного представления или для формирования одного или нескольких опорных сигналов. Генератор модуля объединения/селектора/опорного сигнала затем передает опорный сигнал калькулятору компонентного сигнала, который вычисляет требуемые выходные компоненты, в частности, на основе выбранных или сформированных опорных сигналов. В предпочтительных вариантах осуществления генератором модуля объединения/селектора/опорного сигнала управляют не только транспортные метаданные, как в пространственном аудиосинтезаторе, но также и калькулятор компонентного сигнала, чтобы на основе принятых транспортных данных управлять не только формированием/выбором опорного сигнала, но также и фактическим вычислением компонентов. Однако варианты осуществления, в которых только вычисление сигнала компонента контролируется транспортными метаданными, или только формирование или выбор опорного сигнала контролируются только транспортными метаданными, также полезны и обеспечивают повышенную гибкость по сравнению с существующими решениями.

Предпочтительные процедуры других альтернатив выбора сигнала выбирают один из множества сигналов в транспортном представлении в качестве опорного сигнала для первого подмножества компонентных сигналов и выбирают другой транспортный сигнал в транспортном представлении для другого ортогонального подмножества компонентных сигналов для многоканального вывода, вывода Ambisonics первого порядка или высокого порядка, вывода звукового объекта или бинаурального вывода. Другие процедуры полагаются на вычисление опорного сигнала на основе линейной комбинации отдельных сигналов, включенных в транспортное представление. В зависимости от конкретной реализации транспортного представления транспортные метаданные используются для определения опорного сигнала для (виртуальных) каналов из действительно переданных транспортных сигналов и определения недостающих компонентов на основе резерва, такого как переданный или сформированный всенаправленный компонент сигнала. Эти процедуры полагаются на вычисление отсутствующих, предпочтительно FOA или HOA компонентов с использованием отклика функции пространственного базиса, относящейся к некоторой моде и порядку пространственного звукового представления Ambisonics первого порядка или высокого порядка.

Другие варианты осуществления относятся к транспортным метаданным, описывающим сигналы микрофонов, включенные в транспортное представление, и на основе переданного параметра формы и/или направления взгляда определение опорного сигнала адаптируется к принятым транспортным метаданным. Кроме того, вычисление всенаправленных сигналов или дипольных сигналов и дополнительный синтез остальных компонентов также выполняются на основе транспортных метаданных, указывающих, например, на то, что первый транспортный канал является левым или передним кардиоидным сигналом, и второй транспортный сигнал является правым или задним кардиоидным сигналом.

Дополнительные процедуры относятся к определению опорных сигналов на основе наиболее малого расстояния некоторого динамика от некоторой позиции микрофона или выбору в качестве опорного сигнала сигнала микрофона, включенного в транспортное представление с наиболее близким направлением взгляда, или наиболее близким формирователем диаграммы направленности, или некоторой наиболее близкой позицией массива. Дополнительная процедура является выбором произвольного транспортного сигнала в качестве опорного сигнала для всех компонентов прямого звука и использования всех доступных транспортных сигналов, таких как переданные всенаправленные сигналы от разнесенных микрофонов для формирования опорных сигналов диффузного звука, и тогда соответствующие компоненты формируются посредством сложения прямых и диффузных компонентов для получения окончательного канала, или компонента Ambisonics, или сигнала объекта, или сигнала бинаурального канала. Дополнительные процедуры, которые, в частности, реализованы в вычислении фактического компонентного сигнала на основе некоторого опорного сигнала, относятся к настройке (предпочтительно ограничивающей) величины корреляции на основе некоторого расстояния микрофона.

Предпочтительные варианты осуществления настоящего изобретения далее раскрыты со ссылкой на следующие прилагаемые чертежи.

Фиг. 1a иллюстрирует сферические гармоники с нумерацией каналов/компонентов Ambisonics;

Фиг. 1b иллюстрирует сторону кодера процессора пространственного аудиокодирования на основе DirAC;

Фиг. 2a иллюстрирует декодер процессора пространственного аудиокодирования на основе DirAC;

Фиг. 2b иллюстрирует процессор синтеза Ambisonics высокого уровня, известный в области техники;

Фиг. 3 иллюстрирует сторону кодера пространственного аудиокодирования на основе DirAC, поддерживающего различные форматы аудио;

Фиг. 4 иллюстрирует сторону декодера пространственного аудиокодирования на основе DirAC, предоставляющего различные форматы аудио;

Фиг. 5 иллюстрирует дополнительный вариант осуществления устройства для кодирования пространственного звукового представления;

Фиг. 6 иллюстрирует дополнительный вариант осуществления устройства для кодирования пространственного звукового представления;

Фиг. 7 иллюстрирует дополнительный вариант осуществления устройства для декодирования закодированного аудиосигнала;

Фиг. 8a иллюстрирует набор реализаций для генератора транспортного представления, которые могут использоваться отдельно друг от друга или вместе друг с другом;

Фиг. 8b иллюстрирует таблицу, показывающую различные альтернативы транспортных метаданных, которые могут использоваться отдельно друг от друга или вместе друг с другом;

Фиг. 8c иллюстрирует дополнительную реализацию кодера метаданных для транспортных метаданных или, в подходящих случаях, для пространственных параметров;

Рис. 9a иллюстрирует предпочтительную реализацию пространственного аудиосинтезатора, показанного на фиг. 7;

Фиг. 9b иллюстрирует закодированный аудиосигнал, имеющий транспортное представление с n транспортными сигналами, транспортными метаданными и необязательными пространственными параметрами;

Фиг. 9c иллюстрирует таблицу, иллюстрирующую функциональность селектора/генератора опорного сигнала в зависимости от идентификации динамика и транспортных метаданных;

Фиг. 9d иллюстрирует дополнительный вариант осуществления пространственного аудиосинтезатора;

Фиг. 9e иллюстрирует дополнительную таблицу, показывающую различные транспортные метаданные;

Фиг. 9f иллюстрирует дополнительную реализацию пространственного аудиосинтезатора;

Фиг. 9g иллюстрируют дополнительный вариант осуществления пространственного аудиосинтезатора;

Фиг. 9h иллюстрирует дополнительный набор альтернатив реализации для пространственного аудиосинтезатора, которые могут использоваться отдельно друг от друга или вместе друг с другом;

Фиг. 10 иллюстрирует иллюстративную предпочтительную реализацию для вычисления компонентов звукового поля низкого или среднего порядка с использованием прямого сигнала и диффузного сигнала;

Фиг. 11 иллюстрирует дополнительную реализацию вычисления компонентов звукового поля высокого порядка c использованием только прямого компонента без диффузного компонента; и

Фиг. 12 иллюстрирует дополнительную реализацию вычисления (виртуальных) компонентов сигнала громкоговорителей или объектов с использованием прямой части, объединенной с диффузной частью.

Фиг. 6 иллюстрирует устройство для кодирования пространственного звукового представления, представляющего аудиосцену. Устройство содержит генератор 600 транспортного представления для формирования транспортного представления из пространственного звукового представления. Кроме того, генератор 600 транспортного представления формирует транспортные метаданные, относящиеся к формированию транспортного представления или указывающие одно или несколько свойств направленности транспортного представления. Устройство дополнительно содержит выходной интерфейс 640 для формирования закодированного аудиосигнала, причем закодированный аудиосигнал содержит информацию о транспортном представлении и информацию о транспортных метаданных. В дополнение к генератору 600 транспортного представления и выходному интерфейсу 640 устройство предпочтительно содержит пользовательский интерфейс 650 и процессор 620 параметров. Процессор 620 параметров сконфигурирован для получения пространственных параметров из пространственного звукового представления и предпочтительно обеспечивает (закодированный) пространственный параметр 612. Кроме того, в дополнение к (закодированному) пространственному параметру 612 (закодированные) транспортные метаданные 610 и (закодированное) транспортное представление 611 пересылаются на выходной интерфейс 640 для предпочтительного мультиплексирования трех закодированных элементов в закодированный аудиосигнал.

Фиг. 7 иллюстрирует предпочтительную реализацию устройства для декодирования закодированного аудиосигнала. Закодированный аудиосигнал вводится во входной интерфейс 700, и входной интерфейс принимает в закодированном аудиосигнале информацию о транспортном представлении и информацию о транспортных метаданных. Транспортное представление 711 пересылается от входного интерфейса 700 к пространственному аудиосинтезатору 750. Кроме того, пространственный аудиосинтезатор 750 принимает транспортные метаданные 710 от входного интерфейса и предпочтительно дополнительно пространственный параметр 712, если он включен в закодированный аудиосигнал. Пространственный аудиосинтезатор 750 использует элементы 710, 711 и предпочтительно дополнительно элемент 712, чтобы синтезировать пространственное звуковое представление.

Фиг. 3 иллюстрирует предпочтительную реализацию устройства для кодирования пространственного звукового представления, обозначенного как пространственный аудиосигнал на фиг. 3. В частности, пространственный аудиосигнал вводится в блок 610 формирования понижающего микширования и в блок 621 анализа пространственного звука. Пространственные параметры 615, выявленные в блоке 621 анализа пространственного звука из пространственного аудиосигнала, вводятся в кодер 622 метаданных. Кроме того, параметры 630 понижающего микширования, сформированные блоком 601 понижающего микширования, также вводятся в кодер 603 метаданных. Кодер 621 метаданных и кодер 603 метаданных обозначены как один блок на фиг. 3, но также могут быть реализованы как отдельные блоки. Микшированный с понижением аудиосигнал 640 вводится в базовый кодер 603, и закодированное базовым кодером представление 611 вводится в генератор 641 битового потока, который дополнительно принимает закодированные параметры 610 понижающего микширования и закодированные пространственные параметры 612. Таким образом, генератор 600 транспортного представления, проиллюстрированный на фиг. 6, содержит в варианте осуществления, показанном на фиг. 3, блок 601 формирования понижающего микширования и блок 603 базового кодера. Кроме того, процессор 620 параметров, проиллюстрированный на фиг. 6, содержит блок 621 пространственного аудиоанализатора и блок 622 кодера метаданных для пространственного параметра 615. Кроме того, генератор 600 транспортного представления, показанный на фиг. 6, дополнительно содержит блок 603 кодера метаданных для транспортных метаданных 630, которые выводятся как закодированные транспортные метаданные 610 кодером 603 метаданных. Выходной интерфейс 640 в варианте осуществления, показанном на фиг. 3, реализован как генератор 641 битового потока.

Фиг. 4 иллюстрирует предпочтительную реализацию устройства для декодирования закодированного аудиосигнала. В частности, устройство содержит декодер 752 метаданных и базовый декодер 751. Декодер 752 метаданных принимает в качестве ввода закодированные транспортные метаданные 710, и базовый декодер 751 принимает закодированное транспортное представление 711. Кроме того, декодер 752 метаданных предпочтительно принимает закодированные пространственные параметры 712, когда они доступны. Декодер метаданных декодирует транспортные метаданные 710 для получения параметра 720 понижающего микширования, и декодер 752 метаданных предпочтительно декодирует закодированные пространственные параметры 712 для получения декодированного пространственного параметра 722. Декодированное транспортное представление или звуковое представление 721 понижающего микширования вместе с транспортными метаданными 720 вводятся в блок 753 пространственного аудиосинтеза, дополнительно блок 753 пространственного аудиосинтеза может принять пространственный параметр 722, чтобы использовать оба компонента 721 и 720 или все три компонента 721, 720 и 722 для формирования пространственного звукового представления, содержащего представление 754 первого порядка или высокого порядка (FOA/HOA), или содержащего многоканального (MC) представление 755, или содержащего объектное представление (объекты) 756, как проиллюстрировано на фиг. 4. Таким образом, устройство для декодирования закодированного аудиосигнала, проиллюстрированное на фиг. 7, содержит в пространственном аудиосинтезаторе 750 блоки 752, 751 и 753, показанные на фиг. 4, и пространственное звуковое представление может содержать одну из альтернатив, проиллюстрированных номерами 754, 755 и 756 на фиг. 4.

Фиг. 5 иллюстрирует дополнительную реализацию устройства для кодирования пространственного звукового представления, представляющего аудиосцену. В данном случае пространственное звуковое представление, представляющее аудиосцену, обеспечено как сигналы микрофона и предпочтительно дополнительные пространственные параметры, ассоциированные с сигналами микрофона. Таким образом, транспортное представление 600, обсуждавшееся относительно фиг. 6, содержит в варианте осуществления на фиг. 5 блок 601 формирования понижающего микширования, кодер 603 метаданных для параметров 613 понижающего микширования и базовый кодер 602 для звукового представления понижающего микширования. В отличие от варианта осуществления на фиг. 3, блок 621 пространственного аудиоанализатора не включен в устройство для кодирования, поскольку вход микрофонов уже предпочтительно имеет разделенную форму, сигналы микрофона, с одной стороны, и пространственные параметры, с другой стороны.

В вариантах осуществления, обсуждавшихся относительно фиг. 3-5, аудиоданные 614 понижающего микширования представляют транспортное представление, и параметры 613 понижающего микширования представляют альтернативу для транспортных метаданных, которые относятся к формированию транспортного представления, или, как будет изложено в общих чертах позже, указывают одно или несколько свойств направленности транспортного представления.

Предпочтительные варианты осуществления изобретения: передача сигналов понижающего микширования для гибкой конфигурации транспортного канала

В некоторых приложениях невозможно передать все четыре компонента сигнала FOA как транспортные каналы из-за ограничений битовой скорости, а только сигнал понижающего микширования с сокращенным количеством компонентов сигнала или каналов. Чтобы достигнуть улучшенного качества воспроизведения в декодере, формирование переданных сигналов понижающего микширования может быть сделано зависимым от времени образом и может быть адаптировано к пространственному входному аудиосигналу. Если система пространственного аудиокодирования позволяет включать в себя гибкие сигналы понижающего микширования, то важно не только передавать эти транспортные каналы, но и кроме этого включать метаданные, которые определяют важные пространственные характеристики сигналов понижающего микширования. Синтез DirAC, расположенный в декодере системы пространственного аудиокодирования, тогда может оптимально адаптировать процесс рендеринга с учетом пространственных характеристик сигналов понижающего микширования. Настоящее изобретение, таким образом, предлагает включать в параметрический поток пространственного аудиокодирования соответствующие метаданные понижающего микширования, которые используются для определения или описания важных пространственных характеристик транспортных каналов понижающего микширования, чтобы улучшить качество рендеринга в пространственном аудиодекодере.

Далее описываются иллюстративные примеры для практических конфигураций сигнала понижающего микширования.

Если входной пространственный аудиосигнал главным образом включает в себя звуковую энергию в горизонтальной плоскости, только первые три компонента сигнала FOA, соответствующего всенаправленному сигналу, дипольный сигнал, выровненный с осью X, и дипольный сигнал, выровненный с осью Y Декартовой системы координат, включаются в сигнал понижающего микширования, тогда как дипольный сигнал, выровненный с осью Z, исключается.

В другом примере могут быть переданы только два сигнала понижающего микширования, чтобы дополнительно сократить требуемую битовую скорость для транспортных каналов. Например, если существует доминирующая звуковая энергия, происходящая из левого полушария, предпочтительно сформировать канал понижающего микширования, который включает в себя звуковую энергию главным образом из левого направления, и дополнительный канал понижающего микширования, содержащий, происходящий главным образом с противоположного направления, т.е. правого полушария в этом примере. Это может быть достигнуто линейной комбинацией компонентов сигнала FOA таким образом, что полученные в результате сигналы соответствуют направленным сигналам микрофона с шаблонами направленности кардиоиды, указывающими налево и направо соответственно. Аналогично могут быть формированы сигналы понижающего микширования, соответствующие шаблонам направленности первого порядка, указывающим в переднем и заднем направлениях, соответственно, или любым другим требуемым шаблонам направленности посредством соответствующей комбинации входных сигналов FOA.

На стадии синтеза DirAC вычисление выходных каналов громкоговорителей на основе переданных пространственных метаданных (например, DOA звука и диффузности) и транспортных аудиоканалов должно быть адаптировано к фактически используемой конфигурации понижающего микширования. Более конкретно, самый подходящий выбор для опорного сигнала j-го громкоговорителя зависит от характеристики направленности сигналов понижающего микширования и позиции j-го громкоговорителя.

Например, если сигналы понижающего микширования соответствуют двум кардиоидным сигналам микрофонов, указывающим налево и направо соответственно, опорный сигнал громкоговорителя, расположенного в левом полушарии, должен использовать только кардиоидный сигнал, указывающий налево, в качестве опорного сигнала . Громкоговоритель, расположенный в центре, может вместо этого использовать линейную комбинацию обоих сигналов понижающего микширования.

С другой стороны, если сигналы понижающего микширования соответствуют двум кардиоидным сигналам микрофонов, указывающим вперед и назад соответственно, опорный сигнал громкоговорителя, расположенного в переднем полушарии, должен использовать только кардиоидный сигнал, указывающий вперед, в качестве опорного сигнала .

Важно отметить, что должно ожидаться значительное ухудшение качества пространственного, если синтез DirAC будет использовать неправильный сигнал понижающего микширования в качестве опорного сигнала для рендеринга. Например, если сигнал понижающего микширования, соответствующий кардиоидному сигналу микрофона, указывающему налево, используется для формирования выходного сигнала канала для громкоговорителя, расположенного в правом полушарии, компоненты сигнала, происходящие из левого полушария входного звукового поля, будут направлены главным образом в правое полушарие системы воспроизведения, что приведет к неправильному пространственному образу вывода.

Таким образом, предпочтительно включать в поток пространственного аудиокодирования, который определяет пространственные характеристики сигналов понижающего микширования, параметрическую информацию, такую как шаблоны направленности соответствующих направленных сигналов микрофонов. Синтез DirAC, расположенный в декодере системы пространственного аудиокодирования, тогда может оптимально адаптировать процесс рендеринга с учетом пространственных характеристик сигналов понижающего микширования, как описано в метаданных понижающего микширования.

Гибкое понижающее микширование для аудиовхода HOA FOA и с использованием выбора компонента Ambisonics

В этом варианте осуществления пространственный аудиосигнал, т.е. входной аудиосигнал кодера, соответствует аудиосигналу FOA (Ambisonics первого порядка) или HOA (Ambisonics высокого порядка). Соответствующая блок-схема кодера изображена на фиг. 3. Вход в кодер является пространственным аудиосигналом, например, сигналом FOA или HOA. В блоке “пространственного аудиоанализа” параметры DirAC, т.е. пространственные параметры (например, DOA и диффузность) оцениваются, как разъяснено ранее. Сигналы понижающего микширования предложенного гибкого понижающего микширования формируются в блоке "формирования понижающего микширования", который более подробно разъяснен ниже. Сформированные сигналы понижающего микширования упоминаются как , где - индекс канала понижающего микширования. Сформированный сигнал понижающего микширования затем кодируется в блоке "базового кодера", например, с использованием аудиокодера на основе EVS, как разъяснено ранее. Параметры понижающего микширования, т.е. параметры, которые описывают соответствующую информацию о том, каким образом было создано понижающее микширование, или другие свойства направленности сигнала понижающего микширования, кодируются в кодере метаданных вместе с пространственными параметрами. Наконец, закодированные метаданные и кодированные сигналы понижающего микширования преобразовываются в битовый поток, который может быть отправлен декодеру.

Далее более подробно разъяснены блок "формирования понижающего микширования" и параметры понижающего микширования. Например, если входной пространственный аудиосигнал главным образом включает в себя звуковую энергию в горизонтальной плоскости, только три компонента сигнала FOA/HOA, соответствующих всенаправленному сигналу , дипольному сигналу , выровненному с осью X, и дипольному сигналу , выровненному с осью Y Декартовой системы координат, включены в сигнал понижающего микширования, тогда как дипольный сигнал , выровненный с осью Z (и все другие компоненты высокого порядка, если они существуют), исключены. Это означает, что сигналы понижающего микширования заданы как

.

В качестве альтернативы, если, например, входной пространственный аудиосигнал главным образом включает в себя звуковую энергию в плоскости X-Z, сигналы понижающего микширования включают в себя дипольный сигнал вместо .

В этом варианте осуществления параметры понижающего микширования, изображенные на фиг. 3, содержат информацию о том, какие компоненты FOA/HOA были включены в сигналы понижающего микширования. Эта информация может представлять собой, например, набор целых чисел, соответствующих индексам выбранных компонентов FOA, например, {1,2,4}, если включены компоненты , и .

Следует отметить, что выбор компонентов FOA/HOA для сигнала понижающего микширования может быть сделан, например, на основе ручного пользовательского ввода или автоматически. Например, когда пространственный входной аудиосигнал был записан на взлетно-посадочной полосе аэропорта, можно предположить, что наибольшая звуковая энергия содержится в заданной вертикальной Декартовой плоскости. В этом случае, например, выбираются компоненты , и . Напротив, если запись была выполнена на перекрестке улиц, можно предположить, что наибольшая звуковая энергия содержится в горизонтальной Декартовой плоскости. В этом случае, например, выбираются компоненты , и . В качестве альтернативы, если, например, вместе с аудиозаписью используется видеокамера, алгоритм распознавания лиц может использоваться для обнаружения, в какой Декартовой плоскости расположен говорящий, и, следовательно, компоненты FOA, соответствующие этой плоскости, могут быть выбраны для понижающего микширования. В качестве альтернативы можно определить плоскость Декартовой системы координат с наиболее высокой энергией посредством использования алгоритма локализации акустического источника существующего уровня техники.

Также следует отметить, что выбор компонента FOA/HOA и соответствующих метаданных понижающего микширования могут быть зависимыми от времени и частоты, например, разные наборы компонентов и индексы соответственно могут быть выбраны автоматически для каждой частотной полосы и момента времени (например, посредством автоматического определения Декартовой плоскости с наиболее высокой энергией для каждой частотно-временной точки). Локализация энергии прямого звука может быть сделана, например, с использованием информации, содержащейся в зависимых от времени и частоты пространственных параметрах [Thiergart09].

Блок-схема декодера, соответствующая этому варианту осуществления, изображена на фиг. 4. Вход в декодер является битовым потоком, содержащим закодированные метаданные и закодированные аудиосигналы понижающего микширования. Аудиосигналы понижающего микширования декодируются в "базовом декодере", и метаданные декодируются в "декодере метаданных". Декодированные метаданные состоят из пространственных параметров (например, DOA и диффузности) и параметров понижающего микширования. Декодированные аудиосигналы понижающего микширования и пространственные параметры используются в блоке “пространственного аудиосинтеза”, чтобы создать требуемые пространственные выходные аудиосигналы, которые могут представлять собой, например, сигналы FOA/HOA, многоканальные (MC) сигналы (например, сигналы громкоговорителей), звуковые объекты или бинауральный стереофонический вывод для воспроизведения с помощью наушников. Пространственным аудиосинтезом дополнительно управляют параметры понижающего микширования, как разъяснено далее.

Пространственный аудиосинтез (синтез DirAC) описанный ранее, требует подходящего опорного сигнала для каждого выходного канала . В настоящем изобретении предложено вычислять из сигналов понижающего микширования с использованием дополнительных метаданных понижающего микширования. В этом варианте осуществления сигналы понижающего микширования состоят, в частности, из выбранных компонентов сигнала FOA или HOA, и метаданные понижающего микширования описывают, какие компоненты FOA/HOA были переданы декодеру.

При рендеринге на громкоговорители (т.е. выход MC декодера) высококачественный вывод может быть достигнут при вычислении для каждого канала громкоговорителя так называемого виртуального сигнала микрофона, который направлен к соответствующему громкоговорителю, как разъяснено в [Pulkki07]. Обычно вычисление виртуальных сигналов микрофонов требует, чтобы все компоненты FOA/HOA были доступны при синтезе DirAC. Однако в этом варианте осуществления в декодере доступно лишь подмножество первоначальных компонентов FOA/HOA. В этом случае виртуальные сигналы микрофона могут быть вычислены только для Декартовой плоскости, для которой компоненты FOA/HOA доступны, как обозначено метаданными понижающего микширования. Например, если метаданные понижающего микширования указывают, что были переданы компоненты , и , мы можем вычислить виртуальные сигналы микрофонов для всех громкоговорителей в плоскости X-Y (горизонтальной плоскости), причем вычисление может быть выполнено, как описано в [Pulkki07]. Для вертикально поднятых громкоговорителей вне горизонтальной плоскости мы можем использовать резервное решение для опорного сигнала , например, мы можем использовать всенаправленный компонент .

Следует отметить, что сходная концепция может использоваться при рендеринге на бинауральный стереофонический выход, например, для воспроизведения с помощью наушников. В этом случае два виртуальных микрофона для двух выходных каналов направлены к виртуальным стереофоническим громкоговорителям, причем позиция громкоговорителей зависит от ориентации головы слушателя. Если виртуальные громкоговорители расположены в Декартовой плоскости, для которой были переданы компоненты FOA/HOA, как обозначено метаданными понижающего микширования, мы можем вычислить соответствующие виртуальные сигналы микрофонов. Иначе для опорного сигнала используется резервное решение, например, всенаправленный компонент .

При рендеринге FOA/HOA (выход FOA/HOA декодера на фиг. 4) метаданные понижающего микширования используются следующим образом: метаданные понижающего микширования указывают, какие компоненты FOA/HOA были переданы. Эти компоненты не должны вычисляться при пространственном аудиосинтезе, поскольку переданные компоненты могут непосредственно использоваться в выводе декодера. Все остальные компоненты FOA/HOA вычисляются при пространственном аудиосинтезе, например, посредством использования всенаправленного компонента в качестве опорного сигнала . Синтез компонентов FOA/HOA из всенаправленного компонента с использованием пространственных метаданных описан, например, в [Thiergart17].

Гибкое понижающее микширование для аудиовхода FOA и HOA с использованием комбинированных компонентов Ambisonics

В этом варианте осуществления пространственный аудиосигнал, т.е. входной аудиосигнал кодера, соответствует аудиосигналу FOA (Ambisonics первого порядка) или HOA (Ambisonics высокого порядка). Соответствующая блок-схема кодера и декодера изображена на фиг. 3 и фиг. 4 соответственно. В этом варианте осуществления только два сигнала понижающего микширования могут быть переданы от кодера декодеру, чтобы дополнительно сократить требуемую битовую скорость для транспортных каналов. Например, если существует доминирующая звуковая энергия, происходящая из левого полушария, предпочтительно сформировать канал понижающего микширования, который включает в себя звуковую энергию главным образом из левого полушария, и дополнительный канала понижающего микширования, содержащий звук, происходящий главным образом с противоположного направления, т.е. из правого полушария в этом примере. Это может быть достигнуто линейной комбинацией компонентов входного аудиосигнала FOA или HOA таким образом, что полученные в результате сигналы соответствуют направленным сигналам микрофона, например, с шаблонами направленности кардиоиды, указывающими левое и правое полушарие соответственно. Аналогично сигналы понижающего микширования, соответствующие шаблонам направленности первого порядка (или высокого порядка), указывающим в переднем или заднем направлении соответственно, или любые другие требуемые шаблоны направленности, могут быть сформированы посредством соответствующей комбинации входных аудиосигналов FOA или HOA соответственно.

Сигналы понижающего микширования формируются в кодере в блоке "формирования понижающего микширования" на фиг. 3. Сигналы понижающего микширования получаются из линейной комбинации компонентов сигнала FOA или HOA. Например, в случае входных аудиосигналов FOA, четыре компонента сигнала FOA соответствуют всенаправленному сигналу и трем дипольным сигналам , и с шаблонами направленности, выровненными с осями X, Y, Z Декартовой системы координат. Эти четыре сигнала обычно упоминаются как сигналы B-формата. Полученные в результате шаблоны направленности, которые могут быть получены линейной комбинацией четырех компонентов B-формата, обычно упоминаются как шаблоны направленности первого порядка. Шаблоны направленности первого порядка или соответствующие сигналы могут быть выражены по-разному. Например, -й сигнал понижающего микширования может быть выражен линейной комбинацией сигналов B-формата с ассоциированными весовыми коэффициентами, т.е.

Следует отметить, что в случае входных аудиосигналов HOA линейная комбинация может быть выполнена аналогичным образом с использованием доступных коэффициентов HOA. Весовые коэффициенты для линейной комбинации, т.е. весовые коэффициенты , , и в этом примере, определяют шаблон направленности полученного в результате направленного сигнала микрофона, т.е. -го сигнала понижающего микширования . В случае входных аудиосигналов FOA требуемые весовые коэффициенты для линейной комбинации могут быть вычислены как

Где

.

В данном случае является так называемым параметром первого порядка или параметром формы, и , и являются требуемым углом азимута и углом возвышения направления взгляда сформированного -го направленного сигнала микрофона. Например, для достигается направленный микрофон с направленностью кардиоиды, соответствует всенаправленной характеристике, соответствует дипольной характеристике. Другими словами, параметр описывает общую форму шаблона направленности первого порядка.

Весовые коэффициенты для линейной комбинации, например, , , и или соответствующие параметры , и описывают шаблоны направленности соответствующих направленных сигналов микрофона. Эта информация представлена параметрами понижающего микширования в кодере на фиг. 3 и передается декодеру как часть метаданных.

Другие стратегии кодирования могут использоваться для эффективного представления параметров понижающего микширования в битовом потоке, включая квантование информации о направлении или ссылку на запись таблицы по индексу, где таблица включает в себя все релевантные параметры.

В некоторых вариантах осуществления уже достаточно или более эффективно использовать только ограниченное количество предварительно заданных направлений взгляда и , а также для параметра формы . Это очевидно соответствует использованию ограниченного количества предварительно заданных весовых коэффициентов , , и . Например, параметры формы могут быть ограничены, чтобы представлять только три разных шаблона направленности: всенаправленная, кардиоидная и дипольная характеристика. Количество возможных направлений взгляда и может быть ограничено таким образом, что они представляют только случаи направлений налево, направо, вперед, назад, вверх и вниз.

В другом еще более простом варианте осуществления параметр формы сохраняется фиксированным и всегда соответствует шаблону кардиоиды, или параметр формы не определен вообще. Параметры понижающего микширования, ассоциированные с направлением взгляда, используются, чтобы сообщить, соответствует ли пара каналов понижающего микширования конфигурации пары левого/правого или переднего/заднего каналов таким образом, что процесс рендеринга в декодере может использовать оптимальный канал понижающего микширования в качестве опорного сигнала для рендеринга некоторого канала громкоговорителя, расположенного в левом, правом или переднем полушарии.

В практическом применении параметр может быть определен, например, вручную (обычно) . Направления взгляда и могут быть установлены автоматически (например, посредством локализации активных источников звука с использованием подхода локализации источника звука существующего уровня техники и направления первого сигнала понижающего микширования к локализованному источнику и второго сигнала понижающего микширования в противоположном направлении).

Следует отметить, что аналогичным образом, как в предыдущем варианте осуществления, параметры понижающего микширования могут являться зависимыми от времени и частоты, т.е. разная конфигурация понижающего микширования может использоваться в течение каждого момента времени и частоты (например, при направлении сигналов понижающего микширования в зависимости от направления активного источника, локализованного отдельно в каждой частотной полосе). Локализация может быть сделана, например, с использованием информации, содержащейся в зависимых от времени и частоты пространственных параметрах [Thiergart09].

На стадии "пространственного аудиосинтеза" в декодере на фиг. 4 вычисление выходных сигналов декодера (вывод FOA/HOA, вывод MC или вывод объектов), которое использует переданные пространственные параметры (например, DOA звука и диффузность) и аудиоканалы понижающего микширования , описанное ранее, должно быть адаптировано к фактически используемой конфигурации понижающего микширования, которая определена метаданными понижающего микширования.

Например, при формировании выходных каналов громкоговорителей (вывод MC) вычисление опорных сигналов должно быть адаптировано к фактически используемой конфигурации понижающего микширования. Более конкретно, самый подходящий выбор опорного сигнала j-го громкоговорителя зависит от характеристики направленности сигналов понижающего микширования (например, его направление взгляда) и позиции j-го громкоговорителя. Например, если метаданные понижающего микширования указывают, что сигналы понижающего микширования соответствуют двум кардиоидным сигналам микрофонов, указывающим налево и направо соответственно, опорный сигнал громкоговорителя, расположенного в левом полушарии, должен использовать главным образом или только кардиоидный сигнал понижающего микширования, указывающий налево, в качестве опорного сигнала . Громкоговоритель, расположенный в центре, может вместо этого использовать линейную комбинацию обоих сигналов понижающего микширования (например, сумму двух сигналов понижающего микширования). С другой стороны, если сигналы понижающего микширования соответствуют двум кардиоидным сигналам микрофонов, указывающим вперед и назад соответственно, опорный сигнал громкоговорителя, расположенного в переднем полушарии, должен использовать главным образом или только кардиоидный сигнал, указывающий вперед, в качестве опорного сигнала .

При формировании вывода FOA или HOA в декодере на фиг. 4 вычисление опорного сигнала также должно быть адаптировано к фактически используемой конфигурации понижающего микширования, которая описана метаданными понижающего микширования. Например, если метаданные понижающего микширования указывают, что сигналы понижающего микширования соответствуют двум кардиоидным сигналам микрофонов, указывающим налево и направо соответственно, опорный сигнал для синтезирования первого компонента FOA (всенаправленный компонент) может быть вычислен как сумма двух кардиоидных сигналов понижающего микширования, т.е.

.

Фактически известно, что сумма двух кардиоидных сигналов с противоположным направлением взгляда дает в результате всенаправленный сигнал. В этом случае непосредственно приводит к первому компоненту требуемого выходного сигнала FOA или HOA, т.е. дополнительный пространственный синтез звука для этого компонента не требуется. Аналогичным образом, третий компонент FOA (дипольный компонент в направлении Y) может быть вычислен как разность двух кардиоидных сигналов понижающего микширования, т.е.

.

Фактически известно, что разность двух кардиоидных сигналов с противоположным направлением взгляда приводит к дипольному сигналу. В этом случае непосредственно приводит к третьему компоненту требуемого выходного сигнала FOA или HOA, т.е. дополнительный пространственный синтез звука для этого компонента не требуется. Все остальные компоненты FOA или HOA могут быть синтезированы из всенаправленного опорного сигнала, который содержит информацию о звуке со всех направлений. Это означает в данном примере, что сумма двух сигналов понижающего микширования используется для синтеза остальных компонентов FOA или HOA. Если метаданные понижающего микширования указывают другую направленность двух аудио сигналов понижающего микширования, вычисление опорных сигналов может регулироваться соответственно. Например, если два кардиоидных аудиосигнала понижающего микширования направлены вперед и назад (а не налево и направо), разность двух сигналов понижающего микширования может использоваться, чтобы сформировать второй компонент FOA (дипольный компонент в направлении X) вместо третьего компонента FOA. В целом, как показано выше с помощью примеров, оптимальный опорный сигнал может быть найден посредством линейной комбинацией принятых аудиосигналов понижающего микширования, т.е.

где весовые коэффициенты и линейной комбинации зависят от метаданных понижающего микширования, т.е. от конфигурации транспортной канала и рассматриваемого j-го опорного сигнала (например, при рендеринге для j-го громкоговорителя).

Следует отметить, что синтез компонентов FOA или HOA из всенаправленных компонентов с использованием пространственных метаданных описан, например, в [Thiergart17].

В целом важно отметить, что должно ожидаться значительное ухудшение качества пространственного звука, если пространственный аудиосинтез будет использовать неправильный сигнал понижающего микширования в качестве опорного сигнала для рендеринга. Например, если сигнал понижающего микширования, соответствующий кардиоидному сигналу микрофона, указывающему налево, используется для формирования выходного сигнала канала для громкоговорителя, расположенного в правом полушарии, компоненты сигнала, происходящие из левого полушария входного звукового поля, будут направлены главным образом в правое полушарие системы воспроизведения, что приведет к неправильному пространственному образу вывода.

Гибкое понижающее микширование для параметрического пространственного аудиовхода

В этом варианте осуществления ввод в кодер соответствует так называемому параметрическому пространственному входному аудиосигналу, который содержит аудиосигналы произвольной конфигурации массивов, состоящих из двух или более микрофонов, вместе с пространственными параметрами пространственного звука (например, DOA и диффузность).

Кодер для этого варианта осуществления изображен на фиг. 5. Сигналы массива микрофонов используются, чтобы сформировать один или несколько аудиосигналов понижающего микширования в блоке "формирования понижающего микширования". Параметры понижающего микширования, которые описывают конфигурацию транспортного канала (например, каким образом сигналы понижающего микширования были вычислены, или некоторые их свойства), вместе с пространственными параметрами представляют метаданные кодера, которые закодированы в блоке "кодера метаданных". Следует отметить, что обычно этап пространственного аудиоанализа не требуется для параметрического пространственного аудиовхода (в отличие от предыдущих вариантов осуществления), поскольку пространственные параметры уже обеспечены в качестве входной информации кодеру. Однако следует отметить, что пространственные параметры параметрического пространственного входного аудиосигнала и пространственные параметры, включенные в битовый поток для передачи, сформированный пространственным аудиокодером, не должны быть идентичными. В этом случае в кодере должно быть выполнено транскодирование или отображение входных пространственных параметров и параметров, используемых для передачи. Аудиосигналы понижающего микширования закодированы в блоке "базового кодера", например, с использованием аудиокодека на основе EVS. Закодированные аудиосигналы понижающего микширования и закодированные метаданные формируют битовый поток, который передается декодеру. Для декодера применяется такая же блок-схема на фиг. 4, как для предыдущих вариантов осуществления.

Далее описывается, как могут быть сформированы аудиосигналы понижающего микширования и соответствующие метаданные понижающего микширования.

В первом примере аудиосигналы понижающего микширования формируются посредством выбора подмножества доступных входных сигналов микрофонов. Выбор может быть сделан вручную (например, на основе предварительно заданных настроек) или автоматически. Например, если сигналы микрофонов однородного круглого массива с разнесенными всенаправленными микрофонами используется в качестве входной информации в пространственный аудиокодер, и два транспортных аудиоканала понижающего микширования используются для передачи, ручной выбор может состоять, например, в выборе пары сигналов, соответствующих микрофонам в передней части и задней части массива или пары сигналов, соответствующих микрофонам в левой части и правой части массива. Выбор переднего или заднего микрофона в качестве сигналов понижающего микширования позволяет хорошо различать звуки спереди и звуки сзади при синтезе пространственного звука в декодере. Аналогичным образом, выбор левого и правого микрофона позволяет хорошо различать пространственные звуки вдоль оси Y при рендеринге пространственного звука на стороне декодера. Например, если записанный источник звука расположен на левой стороне массива микрофонов, существует разность времени прихода сигнала источника в левом и правом микрофоне соответственно. Другими словами, сигнал сначала достигает левого микрофона и затем правого микрофона. При процессе рендеринга в декодере, таким образом, также важно использовать сигнал понижающего микширования, ассоциированный с сигналом левого микрофона для рендеринга для громкоговорителей, расположенных в левом полушарии, и аналогично использовать сигнал понижающего микширования, ассоциированный с сигналом правого микрофона, для рендеринга для громкоговорителей, расположенных в правом полушарии. В ином случае разности времени, включенные в левый и правый сигналы понижающего микширования соответственно, были бы направлены к громкоговорителям неправильным способом, и полученные в результате перцептивные признаки, вызванные сигналами громкоговорителей, были бы неправильными, т.е. пространственный аудио образ был бы неправильно воспринят слушателем. Аналогично, важно иметь возможность в декодере различать каналы понижающего микширования, соответствующие передней и задней части или верхней и нижней части, чтобы достигнуть оптимального качества рендеринга.

Выбор подходящих сигналов микрофонов может быть сделан посредством рассмотрения Декартовой плоскости, которая содержит большую часть акустической энергии, или которая, как ожидают, будет содержать самую релевантную звуковую энергию. Чтобы выполнить автоматический выбор, можно выполнить, например, локализацию акустического источника существующего уровня техники и затем выбрать два микрофона, которые являются наиболее близкими к оси, соответствующей исходному направлению. Может быть применена сходная концепция, например, если массив микрофонов состоит из совпадающих направленных микрофонов (например, кардиоиды) вместо разнесенных всенаправленных микрофонов. В этом случае можно выбрать два направленных микрофона, которые ориентированы в одном направлении и в противоположном направлении осей декартовой системы координат, которое содержит (или, как ожидают, будет содержать) наибольшую часть акустической энергии.

В этом первом примере метаданные понижающего микширования содержат релевантную информацию о выбранных микрофонах. Эта информация может содержать, например, позиции выбранных микрофонов (например, с точки зрения абсолютных или относительных координат в Декартовой системе координат), и/или расстояния между микрофонами, и/или ориентацию (например, в координатах в системе полярных координат, т.е. в терминах азимута и угла возвышения и ). Кроме того, метаданные понижающего микширования могут содержать информацию о шаблоне направленности выбранных микрофонов, например, посредством использования параметра первого порядка , описанного ранее.

На стороне декодера (фиг. 4) метаданные понижающего микширования используются в блоке "пространственного аудиосинтезе" для получения оптимального качества рендеринга. Например, для вывода громкоговорителей (вывод MC), когда метаданные понижающего микширования указывают, что два всенаправленных микрофона в двух заданных позициях были переданы как сигналы понижающего микширования, опорный сигнал , из которого формируется сигнал громкоговорителей, как разъяснено ранее, может быть выбран, чтобы соответствовать сигналам понижающего микширования, которые имеют наименьшее расстояние до позиции j-го громкоговорителя. Аналогичным образом, если метаданные понижающего микширования указывают, что были переданы два направленных микрофона с направлением взгляда , может быть выбран, чтобы соответствовать сигналу понижающего микширования с наиболее близким направлением взгляда к позиции громкоговорителя. В качестве альтернативы может быть выполнена линейная комбинация переданных совпадающих направленных сигналов понижающего микширования, как разъяснено во втором варианте осуществления.

При формировании вывода FOA/HOA в декодере единственный сигнал понижающего микширования может быть выбран (по желанию) для формирования прямого звука для всех компонентов FOA/HOA, если метаданные понижающего микширования указывают, что были переданы разнесенные всенаправленные микрофоны. Фактически каждый всенаправленный микрофон содержит одну и ту же информацию о прямом звуке, который будет воспроизведен вследствие всенаправленной характеристики. Однако для формирования опорных сигналов диффузного звука можно рассмотреть все переданные всенаправленные сигналы понижающего микширования. Фактически, если звуковое поле будет диффузным, расположенные всенаправленные сигналы понижающего микширования будут частично декоррелированы, в результате чего требуется меньше декорреляции, чтобы сформировать взаимно некоррелированные опорные сигналы . Взаимно некоррелированные опорные сигналы могут быть сформированы из переданных аудиосигналов понижающего микширования посредством использования, например, рендеринга на основе ковариации, предложенного в [Vilkamo13].

Известно, что корреляция между сигналами двух микрофонов в поле диффузного звука сильно зависит от расстояния между микрофонами: чем больше расстояние микрофонов, тем меньше коррелированы записанные сигналы в поле диффузного звука [Laitinen11]. Информация, относящаяся к расстоянию микрофонов, включенная в параметры понижающего микширования, может использоваться в декодере, чтобы определить, насколько каналы понижающего микширования должны быть искусственно декоррелированы, чтобы являться подходящими для рендеринга компонентов диффузного звука. В случае понижающего микширования сигналы уже достаточным образом декоррелированы благодаря достаточно большому разнесению микрофонов, и можно даже отказаться от искусственной декорреляции, и возможно избежать декорреляции, связанной с артефактами.

Когда метаданные понижающего микширования указывают, что сигналы совпадающих направленных микрофонов были переданы как микшированные с понижением сигналы, тогда опорные сигналы для вывода FOA/HOA могут быть сформированы, как разъяснено во втором варианте осуществления.

Следует отметить, что вместо выбора подмножества микрофонов как аудиосигналов понижающего микширования в кодере можно выбрать весь входной доступный сигнал микрофонов (например, два или больше) в качестве аудиосигнала понижающего микширования. В этом случае метаданные понижающего микширования описывают всю конфигурацию массива микрофонов, например, в терминах позиций микрофона в декартовой системе координат, направлений взгляда микрофонов и в полярных координатах или направленностей микрофона в терминах параметров первого порядка .

Во втором примере аудиосигналы понижающего микширования формируются в кодере в блоке "формирования понижающего микширования" с использованием линейной комбинации входных сигналов микрофонов, например, с использованием пространственной фильтрации (формирования направленного луча). В этом случае сигналы понижающего микширования могут быть вычислены как

В данном случае является вектором, содержащим все входные сигналы микрофонов, и являются весовыми коэффициентами для линейной комбинации, т.е. весовыми коэффициентами пространственного фильтра или формирователя диаграммы направленности для m-ого аудиосигнала понижающего микширования. Существуют различные способы оптимального вычисления пространственных фильтров или формирователей диаграммы направленности [Veen88]. Во многих случаях определяется направление взгляда , в котором направлен формирователь диаграммы направленности. Затем весовые коэффициенты формирователя диаграммы направленности могут быть вычислены, например, как формирователь диаграммы направленности с задержкой и суммированием или формирователь диаграммы направленности MVDR [Veen88]. В этом варианте осуществления направления взгляда формирователя диаграммы направленности определяются для каждого аудиосигнала понижающего микширования. Это может быть сделано вручную (например, на основе предварительно заданных настроек) или автоматически такими же способами, как описано во втором варианте осуществления. Направления взгляда сигналов формирователя диаграммы направленности, которые представляют другие аудиосигналы понижающего микширования, тогда могут представлять метаданные понижающего микширования, которые передаются декодеру на фиг. 4.

Другой пример особенно подходит при использовании вывода громкоговорителей в декодере (вывод MC). В этом случае тот сигнал понижающего микширования является сигналом , используемым в качестве , для которого направление взгляда формирователя диаграммы направленности является наиболее близким к направлению громкоговорителя. Требуемое направление взгляда формирователя диаграммы направленности описывается метаданными понижающего микширования.

Следует отметить, что во всех примерах конфигурация транспортного канала, т.е. параметры понижающего микширования, может регулироваться в зависимости от времени и частоты, например, на основе пространственных параметров, аналогично предыдущим вариантам осуществления.

Далее дополнительные варианты осуществления настоящего изобретения или варианты осуществления, уже описанные ранее, обсуждаются относительно тех же самых или дополнительных аспектов.

Предпочтительно генератор 600 транспортного представления на фиг. 6 содержит один или несколько из характерных признаков, проиллюстрированных на фиг. 8a. В частности, обеспечен модуль 606 определения местоположения энергии, который управляет блоком 602. Блок 602 может содержать селектор для выбора из сигналов коэффициентов Ambisonics, когда вход является сигналом HOA или FOA. В качестве альтернативы или дополнительно модуль 606 определения местоположения энергии управляет модулем объединения для объединения сигналов коэффициентов Ambisonics. Кроме того, или в качестве альтернативы, выполняется выбор из многоканального представления или из сигналов микрофонов. В этом случае ввод имеет сигналы микрофонов или многоканальное представление, а не данные FOA или HOA. В дополнение или в качестве альтернативы, выполняется комбинация каналов или комбинация сигналов микрофонов, как обозначено номером 602 на фиг. 8a. Для последних двух альтернатив выполняется ввод многоканального представления или сигналов микрофонов.

Транспортные данные, сформированные одним или несколькими из блоков 602, вводятся в генератор 605 транспортных метаданных, включенный в генератор 600 транспортного представления на фиг. 6, чтобы формировать (закодированные) транспортные метаданные 610.

Любой из блоков 602 формирует предпочтительно незакодированное транспортное представление 614, которое затем кодируется базовым кодером 603, как проиллюстрировано на фиг. 3 или фиг. 5.

Изложено в общих чертах, что фактическая реализация генератора 600 транспортного представления может содержать только один из блоков 602 на фиг. 8a или два или более из блоков, проиллюстрированных на фиг. 8a. В последнем случае генератор 605 транспортных метаданных выполнен с возможностью дополнительно включать в транспортные метаданные 610 дополнительный элемент транспортных метаданных, который указывает, для какой части (временной и/или частотной) пространственного звукового представления была извлечена любая из альтернатив, обозначенных в элементе 602. Таким образом, фиг. 8a иллюстрирует ситуацию, в которой активна только одна из альтернатив 602, или в которой активны две или более альтернатив, и зависимое от сигнала переключение может быть выполнено среди разных альтернатив для формирования транспортного представления или понижающего микширования и соответствующих транспортных метаданных.

Фиг. 8b иллюстрирует таблицу разных альтернатив транспортных метаданных, которые могут быть сформированы генератором 600 транспортного представления на фиг. 6, и она может использоваться пространственным аудиосинтезатором на фиг. 7. Альтернативы транспортных метаданных содержат информацию о выборе для метаданных, указывающую, какое подмножество из набора компонентов данных об аудиовходе было выбрано в качестве транспортного представления. Например, были выбраны только два или три из четырех компонентов FOA. В качестве альтернативы информация о выборе может указывать, какие сигналы микрофонов из массива сигналов микрофонов были выбраны. Дополнительная альтернатива для фиг. 8b является информацией о комбинации, указывающей, как были объединены некоторые входные компоненты звукового представления или сигналы. Некоторая информация о комбинации может относиться к весовым коэффициентам для линейной комбинации или к тому, как каналы были объединены, например, с равными или заранее заданными весовыми коэффициентами. Дополнительная информация относится к информации о секторе или полушарии, ассоциированным с некоторым транспортным сигналом. Информация о секторе или полушарии может относиться к левому сектору, или правому сектору, или переднему сектору, или заднему сектору относительно позиции прослушивания, или в качестве альтернативы к меньшему сектору, чем сектор размером 180°.

Дополнительные варианты осуществления относятся к транспортным метаданным, указывающим параметр формы, относящийся к форме, например, некоторой физической или виртуальной направленности микрофона, формирующей соответствующий сигнал транспортного представления. Параметр формы может указывать форму сигнала всенаправленного микрофона, или кардиоидную форму сигнала микрофона, или дипольную форму сигнала микрофона, или любую другую соответствующую форму. Кроме того, альтернативы транспортных метаданных относятся к местоположениям микрофонов, ориентациям микрофонов, расстоянию между микрофонами или шаблону направленности микрофонов, которые, например, сформировали или сделали запись сигналов транспортного представления, включенных в (закодированное) транспортное представление 614. Дополнительные варианты осуществления относятся к направлению взгляда или множеству направлений взгляда сигналов, включенных в транспортное представление, или информацию о весовых коэффициентах формирования направленного луча, или направления формирователя диаграммы направленности, или в качестве альтернативы или дополнительно относятся к тому, являются ли включенные сигналы микрофона сигналами всенаправленного микрофона или кардиоидными сигналами микрофонов, или другими сигналами. Очень небольшая транспортная вспомогательная информация метаданных (относительно битовой скорости) может быть формирована посредством включения просто единственного флага, указывающего, являются ли транспортные сигналы сигналами микрофонов от всенаправленного микрофона или от какого-либо другого микрофона, отличающегося от всенаправленного микрофона.

Фиг. 8c иллюстрирует предпочтительную реализацию генератора 605 транспортных метаданных. В частности, для числовых транспортных метаданных генератор транспортных метаданных содержит блок 605a или 622 квантования транспортных метаданных и присоединенный далее энтропийный кодер 605b транспортных метаданных. Процедуры, проиллюстрированные на фиг. 8c, также могут быть применены к параметрическим метаданным и, в частности, также к пространственным параметрам.

Фиг. 9a иллюстрирует предпочтительную реализацию пространственного аудиосинтезатора 750 на фиг. 7. Пространственный аудиосинтезатор 750 содержит анализатор транспортных метаданных для интерпретации (декодированных) транспортных метаданных 710. Выходные данные от блока 752 вводятся в модуль объединения/селектор/генератор 760 опорного сигнала, который дополнительно принимает транспортный сигнал 711, включенный в транспортное представление, полученное от входного интерфейса 700 на фиг. 7. На основе транспортных метаданных модуль объединения/селектор/генератор опорного сигнала формирует один или несколько опорных сигналов и передает эти опорные сигналы калькулятору 770 компонентного сигнала, который вычисляет компоненты синтезированного пространственного звукового представления, такие как общие компоненты для многоканального вывода, компоненты Ambisonics для вывода FOA или HOA, левый и правый каналы для бинаурального представления или компоненты звуковых объектов, причем компонент звукового объекта является монофоническим или стереофоническим сигналом объекта.

Фиг. 9b иллюстрирует закодированный аудиосигнал, состоящий, например, из n транспортных сигналов T1, T2, Tn, указанных в элементе 611, и дополнительно состоящий из транспортных метаданных 610 и необязательных пространственных параметров 612. Порядок других блоков данных и размер конкретного блока данных относительно другого блока данных проиллюстрированы на фиг. 9b лишь схематично.

Фиг. 9c иллюстрирует таблицу обзора для процедуры модуля объединения/селектора/генератора 760 опорного сигнала для некоторых транспортных метаданных, некоторого транспортного представления и некоторой установки динамиков. В частности, в варианте осуществления на фиг. 9c транспортное представление содержит левый транспортный сигнал (или передний транспортный сигнал, или всенаправленный или кардиоидный сигнал), и транспортное представление дополнительно содержит второй транспортный сигнал T2, являющийся правым транспортным сигналом (или задним транспортным сигналом, всенаправленным транспортным сигналом или кардиоидным транспортным сигналом). В случае левого/правого сигнала опорный сигнал для левого динамика A выбирается как первый транспортный сигнал T1 и опорный сигнал для правого динамика выбирается как транспортный сигнал T2. Для левого канала объемного звучания и правого канала объемного звучания левый и правый сигналы выбираются, как изложено в таблице 771 для соответствующих каналов. Для центрального канала сумма левого и правого транспортных сигналов T1 и T2 выбирается в качестве опорного сигнала для компонента центрального канала синтезированного пространственного звукового представления.

На фиг. 9c проиллюстрирован дополнительный выбор, когда первый транспортный сигнал T1 является передним транспортным сигналом и второй транспортный сигнал T2 является правым транспортным сигналом. Затем первый транспортный сигнал T1 выбирается для левого, правого, центрального каналов, и второй транспортный сигнал T2 выбирается для левого канала объемного звучания и правого канала объемного звучания.

Фиг. 9d иллюстрирует дополнительную предпочтительную реализацию пространственного аудиосинтезатора на фиг. 7. В блоке 910 транспортные данные или данные понижающего микширования вычисляются относительно некоторого выбора Ambisonics первого порядка или выбора Ambisonics высокого порядка. Четыре других альтернативы выбора, например, проиллюстрированы на фиг. 9d, причем в четвертой альтернативе выбраны только два транспортных сигнала T1, T2, а не третий компонент, то есть в других альтернативах всенаправленный компонент.

Опорный сигнал для (виртуальных) каналов определяется на основе транспортных данных понижающего микширования, и резервная процедура используется для недостающего компонента, т.е. для четвертого компонента относительно примеров на фиг. 9d, или для двух недостающих компонентов в случае четвертого примера. Затем на этапе 912 сигналы каналов формируются с использованием параметров направленности, принятых или выявленных из транспортных данных. Таким образом направленные или пространственные параметры могут либо быть дополнительно приняты, как проиллюстрировано номером 712 на фиг. 7, либо быть выявлены из транспортного представления посредством анализа сигналов транспортного представления.

В альтернативной реализации выполняется выбор компонента как компонента FOA, как обозначено в блоке 913, и вычисление недостающего компонента выполняется с использованием отклика функции пространственного базиса, как проиллюстрировано в элементе 914 на фиг. 9d. Некоторая процедура, использующая отклик функции пространственного базиса, проиллюстрирована на фиг. 10 в блоке 410, причем на фиг. 10 блок 826 обеспечивает средний отклик для диффузной части, в то время как блок 410 на фиг. 10 обеспечивает заданный отклик для каждой моды m и порядка l для части прямого сигнала.

Фиг. 9e иллюстрирует дополнительную таблицу, указывающую некоторые транспортные метаданные, в частности, содержащие параметр формы или направление взгляда в дополнение к параметру формы или альтернативе параметру формы. Параметр формы может содержать форм-фактор cm, равный быть 1, 0,5 или 0. Коэффициент cm=1 указывает всенаправленную форму характеристики записи микрофона, в то время как коэффициент 0,5 указывает кардиоидную форму, и значение 0 указывает дипольную форму.

Кроме того, другие направления взгляда могут содержать направление налево, направо, прямо, назад, вверх, вниз, заданное направление прихода, состоящее из угла азимута φ и угла возвышения θ, или в качестве альтернативы короткие метаданные, состоящие из показателя, что пара сигналов в транспортном представлении содержит левую/правую пару или переднюю/заднюю пару.

На фиг. 9f проиллюстрирована дополнительная реализация пространственного аудиосинтезатора, в котором в блоке 910 транспортные метаданные считываются, как это делает, например, входной интерфейс 700 на фиг. 7 или входной порт пространственного аудиосинтезатора 750. В блоке 950 определение опорного сигнала адаптируется к считанным транспортным метаданным, как это выполняет, например, блок 760. Затем в блоке 916 вычисляется многоканальный вывод, вывод FOA/HOA, вывод объектов или бинауральный вывод и, в частности, заданные компоненты для этих видов вывода данных с использованием опорного сигнала, полученного через блок 915, и необязательных переданных параметрических данных 712, если они имеются.

Фиг. 9g иллюстрируют дополнительную реализацию модуля объединения/селектора/генератора 760 опорного сигнала. Когда транспортные метаданные иллюстрируют, например, что первый транспортный сигнал T1 является левым кардиоидным сигналом и второй транспортный сигнал T2 является правым кардиоидным сигналом, тогда в блоке 920 всенаправленный сигнал вычисляется посредством сложения T1 и T2. Как отмечено посредством блока 921, дипольный сигнал Y вычисляется посредством получения разности между T1 и T2 или разности между T2 и T1. Затем в блоке 922 остальные компоненты синтезируются с использованием всенаправленного сигнала в качестве опорного. Всенаправленный сигнал, используемый в качестве опорного в блоке 922, является предпочтительно выводом блока 920. Кроме того, как изложено в элементе 712, необязательные пространственные параметры могут также использоваться для синтезирования остальных компонентов, таких как компоненты FOA или HOA.

Фиг. 9h иллюстрирует дополнительную реализацию других альтернатив для процедуры, которая может быть сделана пространственным аудиосинтезатором или модулем объединения/селектором/генератором 760 опорного сигнала, когда, как изложено в блоке 930, два или более сигналов микрофонов приняты как транспортное представление, и также приняты ассоциированные транспортные метаданные. Как изложено в блоке 931, выбор может быть выполнен как опорный сигнал для некоторого компонента сигнала, транспортного сигнала с наименьшим расстоянием до некоторой позиции громкоговорителя. Дополнительная альтернатива, проиллюстрированная в блоке 932, содержит выбор сигнала микрофона с наиболее близким направлением взгляда в качестве опорного сигнала для некоторого динамика или с наиболее близким формирователем диаграммы направленности или позицией ошибки относительно некоторого громкоговорителя или виртуального источника звука, например, левого/правого направления в бинауральном представлении. Дополнительная альтернатива, проиллюстрированная в блоке 933, является выбором произвольного транспортного сигнала в качестве опорного сигнала для всех компонентов прямого звука, например, для вычисления компонентов FOA или HOA или для вычисления сигналов громкоговорителей. Дополнительная альтернатива, проиллюстрированная в блоке 934, относится к использованию всех доступных транспортных сигналов, таких как всенаправленные сигналы, для вычисления опорных сигналов диффузного звука. Дополнительные альтернативы относятся к установлению или ограничению величины корреляции для вычисления компонентного сигнала на основе расстояния микрофона, включенного в транспортные метаданные.

В целях выполнения одной или нескольких из альтернатив 931-935 полезны несколько ассоциированных транспортных метаданных, которые обозначены справа от фиг. 9h как содержащие позиции выборочных микрофонов, расстояния между микрофонами, ориентацию микрофонов или шаблоны направленности, такие как cM, описание массива, коэффициенты формирования направленного луча wm, или фактическое направление прихода или направление звука с углом азимута ϕ и углом возвышения q, например, для каждого транспортного канала.

Фиг. 10 иллюстрирует предпочтительную реализацию генератора компонентов низкого или среднего порядка для прямой/диффузной процедуры. В частности, генератор компонентов низкого или среднего порядка содержит генератор 821 опорного сигнала, который принимает входной сигнал и формирует опорный сигнал, копируя или беря входной сигнал, когда входной сигнал является монофоническим сигналом, или выявляя опорный сигнал из входного сигнала посредством вычисления, как обсуждалось ранее или как проиллюстрировано в WO 2017/157803 A1, полностью включенном в настоящий документ по ссылке, и предпочтительно управляемого транспортными метаданными.

Кроме того, фиг. 10 иллюстрирует калькулятор 410 направленного коэффициента усиления, который выполнен с возможностью вычислять на основе некоторой информации DOA (Φ, θ) и некоторого номера моды m и некоторого номера порядка l направленный коэффициент усиления Glm. В предпочтительном варианте осуществления, в котором обработка делается в частотно-временной области для каждой отдельной ячейки, на которую ссылаются k, n, направленный коэффициент усиления вычисляется для каждой такой частотно-временной ячейки. Модуль 820 взвешивания принимает опорный сигнал и данные диффузности для некоторой частотно-временной ячейки, и результатом модуля 820 взвешивания является прямая часть. Диффузная часть формируется с помощью обработки, выполняемой фильтром 823 декорреляции и последующим модулем 824 взвешивания, принимающим величину диффузности Y в течение некоторого временного кадра и частотного интервала, и, в частности, принимающим средний отклик на некоторую моду m и порядок l, обозначенный Dl, сформированный поставщиком 826 среднего отклика, который принимает в качестве ввода требуемую моду m и требуемый порядок l.

Результатом модуля 824 взвешивания является диффузная часть, и диффузная часть добавляется к прямой части модулем 825 сложения, чтобы получить некоторый компонент звукового поля среднего порядка для некоторой моды m и некоторого порядка l. Предпочтительно применять коэффициент усиления диффузной компенсации, обсуждаемый относительно фиг. 6, только к диффузной части, сформированной блоком 823. Это может быть успешно сделано в рамках процедуры, выполняемой модулем (диффузного) взвешивания. Таким образом, только диффузная часть в сигнале улучшается, чтобы компенсировать потерю диффузной энергии, понесенную компонентами более высокого порядка, которые не принимают полный синтез, как проиллюстрировано на фиг. 10.

Формирование только прямой части проиллюстрировано на фиг. 11 для генератора компонентов высокого порядка. В основном генератор компонентов высокого порядка реализован таким же образом, как генератор компонентов низкого и среднего порядка относительно прямой ветви, но не содержит блоки 823, 824, 825 и 826. Таким образом, генератор компонентов высокого порядка содержит только модуль 822 (прямого) взвешивания, принимающий входные данные от калькулятора 410 направленного коэффициента усиления и принимающий опорный сигнал от генератора 821 опорного сигнала. Предпочтительно формируется только один опорный сигнал для генератора компонентов высокого порядка и генератора компонентов низкого и среднего порядка. Однако оба блока также могут иметь отдельные генераторы опорного сигнала в зависимости от обстоятельств. Тем не менее, предпочтительно иметь единственный генератор опорного сигнала. Таким образом, обработка, выполняемая генератором компонентов высокого порядка, является чрезвычайно эффективной, поскольку должно быть выполнено только одно направление взвешивания с некоторым направленным коэффициентом усиления Glm с некоторой информацией о диффузности Y для частотно-временной ячейки. Таким образом компоненты звукового поля высокого порядка могут быть сформированы чрезвычайно эффективно и быстро, и любая ошибка вследствие не формирования диффузных компонентов или не использование диффузных компонентов в выходном сигнале легко компенсируются посредством улучшения компонентов звукового поля низкого порядка или предпочтительно только диффузной части компонентов звукового поля среднего порядка. Процедура, проиллюстрированная на фиг. 11, также может использоваться для формирования компонентов низкого или среднего порядка.

Таким образом, фиг. 10 иллюстрирует формирование компонентов звукового поля низкого и среднего порядка, которые имеют диффузную часть, в то время как фиг. 11 иллюстрирует процедуру вычисления компонентов звукового поля высокого порядка или в целом компонентов, которые не требуют или не принимают диффузные части.

Однако при формировании компонентов звукового поля, в частности, для представления FOA или HOA может применяться либо процедура на фиг. 10 с диффузной частью, либо процедура на фиг. 11 без диффузной части. Генератором 821, 760 опорного сигнала в обеих процедурах на фиг. 10 и фиг. 11 управляют транспортные метаданные. Кроме того, модулем 822 взвешивания управляет не только отклик функции пространственного базиса Gln, но предпочтительно также пространственные параметры, такие как параметры диффузности 712, 722. Кроме того, в предпочтительном варианте осуществления модулем 824 взвешивания для диффузной части также управляют транспортные метаданные и, в частности расстояние микрофона. Некоторое отношение между расстоянием микрофона D и весовым коэффициентом W проиллюстрировано на схематическом эскизе на фиг. 10. Большое расстояние D приводит к малому весовому коэффициенту, и малое расстояние приводит к большому весовому коэффициенту. Таким образом, когда существуют два сигнала микрофонов, включенные в представление транспортного сигнала, которые имеют большое расстояние друг до друга, можно предположить, что и сигналы микрофонов уже достаточно декоррелированы, и, таким образом, вывод фильтра декорреляции может быть взвешен с весовым коэффициентом, близким к нулю, чтобы в конце входной сигнал в модуль 825 сложения был очень малым по сравнению с входным сигналом в модуль сложения от модуля 822 прямого взвешивания. В крайнем случае цепь корреляции даже может быть выключена, что может быть достигнуто посредством установления весового коэффициента W=0. Естественно, существуют другие способы выключить диффузную цепь посредством использования переключения, вычисляемого пороговой операцией, и т.п.

Естественно, формирование компонентов, проиллюстрированное на фиг. 10, может быть выполнено посредством управления генератором 821, 760 опорного сигнала только транспортными метаданными без управления модуля 804 взвешивания или, в качестве альтернативы, только управляя модулем 804 взвешивания без управления формированием опорного сигнала блока 821, 760.

Фиг. 11 иллюстрирует ситуацию, в которой диффузная цепь отсутствует, и в которой, таким образом, также не выполняется управление модулем 824 диффузного взвешивания на фиг. 10.

Фиг. 10 и 12 иллюстрируют некоторый генератор 830 диффузного сигнала, содержащий фильтр 823 декорреляции и модуль 824 взвешивания. Естественно, порядок обработки сигналов между модулем 824 взвешивания и фильтром 823 декорреляции может быть заменен таким образом, чтобы взвешивание опорного сигнала, сформированного или выданного генератором 821, 760 опорного сигнала, выполнялось до ввода сигнала в фильтр 823 декорреляции.

В то время как фиг. 10 иллюстрирует формирование компонентов звукового поля низкого и среднего порядка представления компонента звукового поля, такого как FOA или HOA, т.е. представление со сферическими или цилиндрическими компонентными сигналами, фиг. 12 иллюстрирует альтернативную или общую реализацию для вычисления компонентных сигналов громкоговорителей или объектов. В частности, для формирования и вычисления сигналов громкоговорителей/объектов обеспечен генератор 821, 760 опорного сигнала, который соответствует блоку 760 на фиг. 9a. Кроме того, калькулятор 770 компонентного сигнала, проиллюстрированный на фиг. 9a, содержит для прямой цепи модуль 822 взвешивания и для диффузной цепи генератор 830 диффузного сигнала, содержащий фильтр 823 декорреляции и модуль 824 взвешивания. Кроме того, калькулятор 770 компонентного сигнала на фиг. 9a дополнительно содержат модуль 825 сложения, который выполняет сложение прямого сигнала Pdir и диффузного сигнала Pdiff. Вывод модуля сложения является (виртуальным) сигналом громкоговорителей, или сигналом объекта, или бинауральным сигналом, как обозначено иллюстративными ссылочными номерами 755, 756. В частности, калькулятором 821, 760 опорного сигнала управляют транспортные метаданные 710, и модулем 824 диффузного взвешивания также могут управлять транспортные метаданные 710. Обычно калькулятор компонентного сигнала вычисляет прямую часть, например, с использованием панорамирующих коэффициентов усиления, таких как коэффициенты усиления VBAP (virtual base amplitude panning, виртуальное амплитудное панорамирование). Коэффициенты усиления выявляются из информации о направлении прихода, предпочтительно заданной углом азимута ϕ и углом возвышения θ. Это дает в результате прямую часть Pdir.

Кроме того, опорный сигнал Pref, сформированный посредством калькулятора опорного сигнала, вводится в фильтр 823 декорреляции для получения декоррелированного опорного сигнала, и затем сигнал взвешивается предпочтительно с использованием параметра диффузности и также предпочтительно с использованием расстояния микрофона, полученного из транспортных метаданных 710. Выводом модуля 824 взвешивания является диффузный компонент Pdiff, и модуль 825 сложения складывает прямой компонент и диффузный компонент, чтобы получить некоторый сигнал громкоговорителей, или сигнал объекта, или бинауральный канал для соответствующего представления. В частности, когда вычисляются виртуальные сигналы громкоговорителей, процедура, выполняемая калькулятором 821, 760 опорного сигнала в ответ на транспортные метаданные, может быть выполнена, как проиллюстрировано на фиг. 9c. В качестве альтернативы опорные сигналы могут быть сформированы как каналы, указывающие из определенной позиции прослушивания на заданный динамик, и это вычисление опорного сигнала может быть выполнено с использованием линейной комбинации сигналов, включенных в транспортное представление.

Предпочтительные варианты осуществления изобретения в виде списка

Ввод на основе FOA

- Пространственный кодер аудиосцены

-- Прием пространственных входных аудиосигналов, представляющих пространственную аудиосцену (например, компоненты FOA)

-- Формирование или прием пространственных звуковых параметров, содержащих по меньшей мере один параметр направления

-- Формирование аудиосигнала понижающего микширования на основе принятых входных аудиосигналов (Необязательный вариант: использовать также пространственные звуковые параметры для адаптивного формирования понижающего микширования).

-- Формирование параметров понижающего микширования, описывающих направленные свойства сигналов понижающего микширования (например, коэффициенты понижающего микширования или шаблоны направленности).

-- Кодирование сигнала понижающего микширования, пространственных звуковых параметров и параметров понижающего микширования.

- Пространственный декодер аудиосцены

-- Прием закодированной пространственной аудиосцены, содержащей аудиосигнал понижающего микширования, пространственные звуковые параметры и параметры понижающего микширования

-- Декодирование аудиосигналы понижающего микширования, пространственных звуковых параметров и параметров понижающего микширования/транспортных каналов

-- Модуль пространственного рендеринга звука для пространственного рендеринга декодированного представления на основе аудиосигналов понижающего микширования, пространственных звуковых параметров и (позиционных) параметров понижающего микширования.

Ввод на основе записей от разнесенных микрофонов и ассоциированных пространственных метаданных (параметрический пространственный аудиовход):

- Пространственный кодер аудиосцены

-- Формирование или прием по меньшей мере двух пространственных входных аудиосигналов, сформированных из записанных сигналов микрофонов

-- Формирование или прием пространственных звуковых параметров, содержащих по меньшей мере один параметр направления

-- Формирование или прием параметров позиции, описывающих геометрические или позиционные свойства пространственных входных аудиосигналов, сформированных из записанных сигналов микрофонов (например, относительная или абсолютная позиция микрофонов или интервалы между микрофонами).

-- Кодирование пространственных входных аудиосигналов или сигналов понижающего микширования, выявленных из пространственных входных аудиосигналов, пространственных звуковых параметров и параметров позиции.

Пространственный декодер аудиосцены

-- Прием закодированной пространственной аудиосцены, содержащую по меньшей мере два аудиосигнала, пространственные звуковые параметры и позиционные параметры (относящиеся к позиционным свойствам аудиосигналов).

-- Декодирование аудиосигналов, пространственных звуковых параметров и позиционных параметров

-- Модуль рендеринга пространственного звука для пространственного рендеринга декодированного представления на основе аудиосигналов, пространственных звуковых параметров и позиционных параметров.

Хотя некоторые аспекты были описаны в контексте устройства, ясно, что эти аспекты также представляют собой описание соответствующего способа, в котором модуль или устройство соответствуют этапу способа или признаку этапа способа. Аналогичным образом, аспекты, описанные в контексте этапа способа, также представляют собой описание соответствующего модуля, элемента или признака соответствующего устройства.

В зависимости от некоторых требований реализации варианты осуществления изобретения могут быть реализованы в аппаратном или программном обеспечении. Реализация может быть выполнена с использованием цифрового запоминающего носителя, например, дискеты, цифрового универсального диска (DVD), диска Blu-Ray, компакт-диска (CD), постоянного запоминающего устройства (ПЗУ; ROM), программируемого постоянного запоминающего устройства (ППЗУ; PROM), стираемого программируемого постоянного запоминающего устройства (СППЗУ; EPROM), электрически стираемого программируемого постоянного запоминающего устройства (ЭСППЗУ; EEPROM) и флэш-памяти, имеющего сохраненные на нем считываемые в электронном виде сигналы, которые взаимодействуют (или способны взаимодействовать) с программируемой компьютерной системой, в результате чего выполняется соответствующий способ.

Некоторые варианты осуществления в соответствии с изобретением содержат носитель данных, имеющий читаемые в электронном виде управляющие сигналы, которые способны взаимодействовать с программируемой компьютерной системой, в результате чего выполняется один из способов, описанных в настоящем документе.

Обычно варианты осуществления настоящего изобретения могут быть реализованы как компьютерный программный продукт с программным кодом, причем программный код выполняет один из способов, когда компьютерный программный продукт исполняется на компьютере. Программный код, например, может быть сохранен на машиночитаемом носителе.

Другие варианты осуществления содержат компьютерную программу для выполнения одного из описанных в настоящем документе способов, сохраненную на машиночитаемом носителе или носителе информации долговременного хранения.

Другими словами, вариант осуществления способа изобретения, таким образом, представляет собой компьютерную программу, имеющую программный код для выполнения одного из описанных здесь способов, когда компьютерная программа выполняется на компьютере.

Дополнительным вариантом осуществления способов изобретения, таким образом, является носитель данных (или цифровой запоминающий носитель, или машиночитаемый носитель), содержащий записанную на нем компьютерную программу для выполнения одного из способов, описанных в настоящем документе.

Дополнительным вариантом осуществления способа настоящего изобретения, таким образом, являются поток данных или последовательность сигналов, представляющие компьютерную программу для выполнения одного из способов, описанных в настоящем документе. Поток данных или последовательность сигналов, например, могут быть сконфигурированы для переноса через соединение передачи данных, например, через интернет.

Дополнительный вариант осуществления содержит средство обработки, например, компьютер или программируемое логическое устройство, сконфигурированное или адаптированное для выполнения одного из способов, описанных в настоящем документе.

Дополнительный вариант осуществления содержит компьютер, имеющий установленную на нем компьютерную программу для выполнения одного из способов, описанных в настоящем документе.

В некоторых вариантах осуществления программируемое логическое устройство (например, программируемая пользователем вентильная матрица) может использоваться для выполнения некоторой или всей функциональности способов, описанных в настоящем документе. В некоторых вариантах осуществления программируемая пользователем вентильная матрица может взаимодействовать с микропроцессором для выполнения одного из способов, описанных в настоящем документе. Обычно способы предпочтительно выполняются любым аппаратным устройством.

Описанные выше варианты осуществления являются лишь иллюстрацией принципов настоящего изобретения. Подразумевается, что модификации и вариации размещений и подробностей, описанных в настоящем документе, будут очевидны для других специалистов в данной области техники. Таким образом, подразумевается, что изобретение ограничено только объемом последующей патентной формулы изобретения, а не конкретными подробностями, представленными посредством описания и разъяснения изложенных в настоящем документе вариантов осуществления.

Литература

[Pulkki07] V. Pulkki, “Spatial Sound Reproduction with Directional Audio Coding”, J. Audio Eng. Soc., Volume 55 Issue 6 pp. 503-516; June 2007.

[Pulkki97] V. Pulkki, “Virtual Sound Source Positioning Using Vector Base Amplitude Panning” J. Audio Eng. Soc., Volume 45 Issue 6 pp. 456-466; June 1997.

[Thiergart09] O. Thiergart, R. Schultz-Amling, G. Del Galdo, D. Mahne, F. Kuech, “Localization of Sound Sources in Reverberant Environments Based on Directional Audio Coding Parameters“, AES Convention 127, Paper No. 7853, Oct. 2009.

[Thiergart17] WO2017157803 A1, O. Thiergart et. al. "APPARATUS, METHOD OR COMPUTER PROGRAM FOR GENERATING A SOUND FIELD DESCRIPTION".

[Laitinen11] M. Laitinen, F. Kuech, V. Pulkki, “Using Spaced Microphones with Directional Audio Coding “, AES Convention 130, Paper No. 8433, May 2011.

[Vilkamo13] J. Vilkamo, V. Pulkki, “Minimization of Decorrelator Artifacts in Directional Audio Coding by Covariance Domain Rendering“, J. Audio Eng. Soc., Vol. 61, No. 9, 2013 September.

[Veen88] B.D. Van Veen, K.M. Buckley, "Beamforming: a versatile approach to spatial filtering", IEEE ASSP Mag., vol. 5, no. 2, pp. 4-24, 1998.

[1] V. Pulkki, M-V Laitinen, J Vilkamo, J Ahonen, T Lokki and T Pihlajamäki, “Directional audio coding - perception-based reproduction of spatial sound”, International Workshop on the Principles and Application on Spatial Hearing, Nov. 2009, Zao; Miyagi, Japan.

[2] M. V. Laitinen and V. Pulkki, "Converting 5.1 audio recordings to B-format for directional audio coding reproduction," 2011 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Prague, 2011, pp. 61-64.

[3] R. K. Furness, "Ambisonics -An overview," in AES 8th International Conference, April 1990, pp. 181-189.

[4] C. Nachbar, F. Zotter, E. Deleflie, and A. Sontacchi, "AMBIX - A Suggested Ambisonics Format", Proceedings of the Ambisonics Symposium 2011.

1. Устройство для кодирования пространственного звукового представления, представляющего аудиосцену, для получения закодированного аудиосигнала, устройство содержит:

генератор (600) транспортного представления для формирования транспортного представления из пространственного звукового представления и для формирования транспортных метаданных, относящихся к формированию транспортного представления; и

выходной интерфейс (640) для формирования закодированного аудиосигнала, закодированный аудиосигнал содержит информацию о транспортном представлении и информацию о транспортных метаданных

причем пространственное звуковое представление является представлением Ambisonics первого порядка или представлением Ambisonics высокого порядка, содержащим множество сигналов коэффициентов, или многоканальным представлением, содержащим множество аудиоканалов,

причем генератор (600) транспортного представления выполнен с возможностью комбинировать еще два сигнала коэффициентов из представления Ambisonics высокого порядка или представления Ambisonics первого порядка, или комбинировать два или более аудиоканалов из многоканального представления, и

причем генератор (600) транспортного представления выполнен с возможностью формировать в качестве транспортных метаданных информацию, указывающую, как были объединены два или более сигналов коэффициентов из представления Ambisonics высокого порядка или представления Ambisonics первого порядка или два или более аудиоканалов из многоканального представления, или какие из двух и более сигналов коэффициентов из представления Ambisonics первого порядка или представления Ambisonics высокого порядка или какие из двух или более аудиоканалов из многоканального представления были объединены.

2. Устройство по п. 1, содержащее также процессор (620) параметров для получения пространственных параметров из пространственного звукового представления,

причем закодированный аудиосигнал дополнительно содержит информацию о пространственных параметрах.

3. Устройство по п. 1 или 2,

в котором генератор (600) транспортного представления выполнен с возможностью определять, происходит ли доминирующая звуковая энергия из заданного сектора или полушария, такого как левое или правое полушарие, или переднее или заднее полушарие,

в котором генератор (600) транспортного представления выполнен с возможностью формировать первый транспортный сигнал из заданного сектора или полушария, из которого происходит доминирующая звуковая энергия, и второй транспортный сигнал из другого сектора или полушария, таких как сектор или полушарие, имеющие противоположное направление относительно опорного местоположения и относительно заданного сектора или полушария, и

в котором генератор (600) транспортного представления выполнен с возможностью определять транспортные метаданные таким образом, что транспортные метаданные содержат информацию, идентифицирующую заданный сектор или полушарие, или идентифицирующую другой сектор или полушарие.

4. Устройство по любому из предыдущих пунктов,

в котором генератор (600) транспортного представления выполнен с возможностью комбинировать сигналы коэффициентов пространственного звукового представления таким образом, что первый полученный в результате сигнал, являющийся первым транспортным сигналом, соответствует направленному сигналу микрофона, который направлен к заданному сектору или полушарию, и второй полученный в результате сигнал, являющийся вторым транспортным сигналом, соответствует направленному сигналу микрофона, который направлен к другому сектору или полушарию.

5. Устройство по любому из предыдущих пунктов,

в котором генератор (600) транспортного представления выполнен с возможностью формировать транспортное представление и транспортные метаданные в зависимости от времени или в зависимости от частоты таким образом, что транспортное представление и транспортные метаданные для первого кадра отличаются от транспортного представления и транспортных метаданных для второго кадра, или таким образом, что транспортное представление и транспортные метаданные для первой частотной полосы отличаются от транспортного представления и транспортных метаданных для второй другой частотной полосы.

6. Устройство по любому из предыдущих пунктов,

в котором генератор (600) транспортного представления выполнен с возможностью формировать один или два транспортных сигнала посредством взвешенной комбинации (602) из двух или более чем двух сигналов коэффициентов пространственного звукового представления, и

в котором генератор (600) транспортного представления выполнен с возможностью вычислять транспортные метаданные таким образом, что транспортные метаданные содержат информацию о весовых коэффициентах, используемых во взвешенной комбинации, или информацию об азимуте и/или угле возвышения в качестве направления взгляда сформированного направленного сигнала микрофона, или информацию о параметре формы, указывающем характеристику направленности направленного сигнала микрофона.

7. Устройство по любому из предыдущих пунктов,

в котором генератор (600) транспортного представления выполнен с возможностью формировать количественные транспортные метаданные, квантовать (605a) количественные транспортные метаданные для получения квантованных транспортных метаданных, и подвергать энтропийному кодированию (605b) квантованные транспортные метаданные, и в котором выходной интерфейс (640) выполнен с возможностью включать закодированные транспортные метаданные в закодированный аудиосигнал.

8. Устройство по любому из пп.1-6,

в котором генератор (600) транспортного представления выполнен с возможностью преобразовывать транспортные метаданные в индекс таблицы или предварительно заданный параметр, и

в котором выходной интерфейс (640) выполнен с возможностью включать индекс таблицы или предварительно заданный параметр в закодированный аудиосигнал.

9. Устройство по любому из предыдущих пунктов,

в котором пространственное звуковое представление содержит по меньшей мере два аудиосигнала и пространственные параметры,

в котором процессор (620) параметров выполнен с возможностью выявлять пространственные параметры из пространственного звукового представления, извлекая пространственные параметры из пространственного звукового представления,

в котором выходной интерфейс (640) выполнен с возможностью включать информацию о пространственных параметрах в закодированный аудиосигнал или включать информацию об обработанных пространственных параметрах, выявленных из пространственных параметров, в закодированный аудиосигнал, или

в котором генератор (600) транспортного представления выполнен с возможностью объединять по меньшей мере два аудиосигнала или подмножество из по меньшей мере двух аудиосигналов и вычислять транспортные метаданные таким образом, что транспортные метаданные включают в себя информацию о комбинации аудиосигналов, выполненной для вычисления транспортного представления пространственного звукового представления.

10. Устройство по любому из предыдущих пунктов,

в котором генератор (600) транспортного представления выполнен с возможностью объединять (602) аудиосигналы, включенные в пространственное звуковое представление, с использованием пространственной фильтрации или формирования направленного луча, и

в котором генератор (600) транспортного представления выполнен с возможностью включать информацию о направлении взгляда транспортного представления или информацию о весовых коэффициентах формирования направленного луча, используемых при вычислении транспортного представления, в транспортные метаданные.

11. Устройство по любому из предыдущих пунктов,

в котором пространственное звуковое представление является описанием звукового поля, относящегося к опорной позиции, и

в котором процессор (620) параметров выполнен с возможностью выявлять пространственные параметры из пространственного звукового представления, причем пространственные параметры определяют зависимые от времени или зависимые от частоты параметры в направлении прихода звука в опорной позиции, или зависимые от времени или зависимые от частоты параметры по диффузности звукового поля в опорной позиции, или

в котором генератор (600) транспортного представления содержит модуль (601) понижающего микширования (601) для формирования в качестве транспортного представления с понижающим микшированием, имеющим второе количество отдельных сигналов, которое меньше, чем первое количество отдельных сигналов, включенных в пространственное звуковое представление, причем модуль (601) понижающего микширования выполнен с возможностью объединять отдельные сигналы, включенные в пространственное звуковое представление, чтобы сократить первое количество сигналов до второго количества сигналов.

12. Устройство по любому из предыдущих пунктов,

в котором процессор (620) параметров содержит пространственный аудиоанализатор (621) для получения пространственных параметров из пространственного звукового представления посредством выполнения анализа аудиосигнала, и

в котором генератор (600) транспортного представления выполнен с возможностью формировать транспортное представление на основе результата пространственного аудиоанализатора (621), или

в котором транспортное представление содержит базовый кодер (603) для базового кодирования одного или нескольких аудиосигналов транспортных сигналов транспортного представления, или

в котором процессор (620) параметров выполнен с возможностью квантовать и подвергать энтропийному кодированию (622) пространственные параметры, и

в котором выходной интерфейс (640) выполнен с возможностью включать подвергнутое базовому кодированию транспортное представление (611) в качестве информации о транспортном представлении в закодированный аудиосигнал или включать подвергнутые энтропийному кодированию пространственные параметры (612) в качестве информации о пространственных параметрах в закодированный аудиосигнал.

13. Устройство для декодирования закодированного аудиосигнала, содержащее:

входной интерфейс (700) для приема закодированного аудиосигнала, содержащего информацию о транспортном представлении и информацию о транспортных метаданных; и

пространственный аудиосинтезатор (750) для синтезирования пространственного звукового представления с использованием информации о транспортном представлении, содержащей транспортные сигналы, и информации о транспортных метаданных,

причем транспортные метаданные указывают первый транспортный сигнал как относящийся к первому сектору или полушарию, относящемуся к опорной позиции пространственного звукового представления, и второй транспортный сигнал как относящийся ко второму другому сектору или полушарию, относящемуся к опорной позиции пространственного звукового представления,

причем пространственный аудиосинтезатор (750) выполнен с возможностью

формировать (915) компонентный сигнал пространственного звукового представления, ассоциированного с первым сектором или полушарием, с использованием первого транспортного сигнала и без использования второго транспортного сигнала, или

формировать (915) другой компонентный сигнал пространственного звукового представления, ассоциированного со вторым сектором или полушарием, с использованием второго транспортного сигнала и без использования первого транспортного сигнала, или

формировать (915) другой компонентный сигнал пространственного звукового представления, ассоциированный с первым сектором или полушарием, с использованием первой комбинации первого и второй транспортного сигналов, или

формировать (915) другой компонентный сигнал пространственного звукового представления, ассоциированный с другим вторым сектором или полушарием, с использованием второй комбинации первого и второго транспортных сигналов, причем первая комбинация находится под более сильным влиянием первого транспортного сигнала, чем вторая комбинация, или вторая комбинация находится под более сильным влиянием второго транспортного сигнала, чем первая комбинация, или

причем транспортные метаданные указывают информацию о весовых коэффициентах или направлениях взгляда транспортных сигналов транспортного представления, и при этом пространственный аудиосинтезатор (750) выполнен с возможностью вычислять (932) другие компоненты Ambisonics первого порядка пространственного звукового представления с использованием информации о направлениях взгляда или весовых коэффициентах, и с использованием транспортных сигналов.

14. Устройство по п. 13, в котором входной интерфейс (700) выполнен с возможностью принимать закодированный аудиосигнал, дополнительно содержащий информацию о пространственных параметрах, и

в котором пространственный аудиосинтезатор (750) выполнен с возможностью синтезирования пространственного звукового представления дополнительно с использованием информации о пространственных параметрах.

15. Устройство по любому из пп. 13 или 14, в котором пространственный аудиосинтезатор (750) содержит:

базовый декодер (751) для базового декодирования двух или более закодированных транспортных сигналов, представляющих информацию о транспортном представлении, для получения двух или более декодированных транспортных сигналов, или

в котором пространственный аудиосинтезатор (750) выполнен с возможностью вычислять представление Ambisonics первого порядка или представление Ambisonics высокого порядка (754), или многоканальный сигнал (755), или объектное представление (756), или бинауральное представление пространственного звукового представления, или

в котором пространственный аудиосинтезатор (750) содержит декодер (752) метаданных для декодирования информации о транспортных метаданных, чтобы выявить декодированные транспортные метаданные (720), или для декодирования информации о пространственных параметрах (722), чтобы получить декодированные пространственные параметры.

16. Устройство по любому из пп. 13, 14 или 15,

в котором пространственное звуковое представление содержит множество компонентных сигналов,

в котором пространственный аудиосинтезатор (750) выполнен с возможностью определять (760) для компонентного сигнала пространственного звукового представления опорный сигнал с использованием информации о транспортном представлении (711) и информации о транспортных метаданных (710), и

вычислять (770) компонентный сигнал пространственного звукового представления с использованием опорного сигнала и информацию о пространственных параметрах или вычислять (770) компонентный сигнал пространственного звукового представления с использованием опорного сигнала.

17. Устройство по любому из пп. 13-16,

в котором транспортные метаданные содержат информацию о характеристике направленности, ассоциированной с транспортными сигналами транспортного представления,

в котором пространственный аудиосинтезатор (750) выполнен с возможностью вычислять (911) виртуальные сигналы микрофона с использованием сигналов Ambisonics первого порядка или сигналов Ambisonics высокого порядка, позиций громкоговорителей и транспортных метаданных, или

в котором пространственный аудиосинтезатор (750) выполнен с возможностью определять (911) характеристику направленности транспортных сигналов с использованием транспортных метаданных и определять компонент Ambisonics первого порядка или компонент Ambisonics высокого порядка (754) из транспортных сигналов в соответствии с определенными характеристиками направленности транспортных сигналов, и

определить (911) другой компонент Ambisonics первого порядка или другой компонент Ambisonics высокого порядка (754), не ассоциированные с характеристиками направленности транспортных сигналов в соответствии с резервным процессом.

18. Устройство по любому из пп. 13-17,

в котором транспортные метаданные содержат информацию о первом направлении взгляда, ассоциированном с первым транспортным сигналом, и информацию о втором направлении взгляда, ассоциированном со вторым транспортным сигналом,

в котором пространственный аудиосинтезатор (750) выполнен с возможностью выбирать (771) опорный сигнал для вычисления компонентного сигнала или другого компонентного сигнала пространственного звукового представления на основе транспортных метаданных и позиции громкоговорителя, ассоциированного с компонентным сигналом или другим компонентным сигналом пространственного звукового представления.

19. Устройство по п. 18,

в котором первое направление взгляда указывает левое или переднее полушарие, в котором второе направление взгляда указывает правое или заднее полушарие,

в котором для вычисления компонентного сигнала или другого компонентного сигнала для громкоговорителя в левом полушарии используется (771) первый транспортный сигнал, а не второй транспортный сигнал, или в котором для вычисления компонентного сигнала или другого компонентного сигнала для сигнала громкоговорителей в правом полушарии используется (771) второй транспортный сигнал, а не первый транспортный сигнал, или

в котором для вычисления компонентного сигнала или другого компонентного сигнала для громкоговорителя в переднем полушарии используется (771) первый транспортный сигнал, а не второй транспортный сигнал, или в котором для вычисления громкоговорителя в заднем полушарии используется (771) второй транспортный сигнал, а не первый транспортный сигнал, или

в котором для вычисления компонентного сигнала или другого компонентного сигнала для громкоговорителя в центральной области используется (771) комбинация левого транспортного сигнала и второго транспортного сигнала, или в котором для вычисления компонентного сигнала или другого компонентного сигнала для сигнала громкоговорителей, ассоциированного с громкоговорителем в области между передним полушарием и задним полушарием, используется (771) комбинация первого транспортного сигнала и второго транспортного сигнала.

20. Устройство по любому из пп. 13-19,

в котором информация о транспортных метаданных указывает в качестве первого направления взгляда левое направление для первого транспортного сигнала и указывает в качестве второго направления взгляда правое направление взгляда для второго транспортного сигнала,

в котором пространственный аудиосинтезатор (750) выполнен с возможностью вычислять первый компонент Ambisonics посредством сложения (920) первого транспортного сигнала и второго транспортного сигнала или вычислять второй компонент Ambisonics посредством вычитания (921) первого транспортного сигнала и второго транспортного сигнала, или в котором другой компонент Ambisonics вычисляется (922) с использованием суммы первого транспортного сигнала и второго транспортного сигнала.

21. Устройство по любому из пп. 13-17,

в котором транспортные метаданные указывают для первого транспортного сигнала переднее направление взгляда и указывают для второго транспортного сигнала заднее направление взгляда,

в котором пространственный аудиосинтезатор (750) выполнен с возможностью вычислять компонент Ambisonics первого порядка для направления X посредством выполнения вычисления разности (921) между первым транспортным сигналом и вторым транспортным сигналом и вычислять всенаправленный компонент Ambisonics первого порядка с использованием сложения (920) первого транспортного сигнала и второго транспортного сигнала, и

вычислять (922) другой компонент Ambisonics первого порядка с использованием суммы первого транспортного сигнала и второго транспортного сигнала.

22. Устройство по п. 13,

в котором пространственный аудиосинтезатор (750) выполнен с возможностью вычислять (932) другие компоненты Ambisonics первого порядка пространственного звукового представления дополнительно с использованием пространственных параметров.

23. Устройство по любому из пп. 13-22,

в котором транспортные метаданные включают в себя информацию о транспортных сигналах, выявленных из сигналов микрофонов в двух разных позициях или с разными направлениями взгляда,

в котором пространственный аудиосинтезатор (750) выполнен с возможностью выбирать (931) опорный сигнал, имеющий позицию, которая является наиболее близкой к позиции громкоговорителя, или выбирать (932) опорный сигнал, имеющий наиболее близкое направление взгляда относительно направления от опорной позиции пространственного звукового представления и позиции громкоговорителя, или выполнять линейную комбинацию (771) с транспортными сигналами, чтобы определить опорный сигнал для громкоговорителя, расположенного между двумя направлениями взгляда, обозначенными транспортными метаданными.

24. Устройство по любому из пп. 13-23,

в котором транспортные метаданные включают в себя информацию о расстоянии между позициями микрофонов, ассоциированными с транспортными сигналами,

в котором пространственный аудиосинтезатор (750) содержит генератор (830, 823, 824) диффузного сигнала, причем генератор (830, 823, 824) диффузного сигнала выполнен с возможностью управлять величиной декоррелированного сигнала в диффузном сигнале, сформированном генератором диффузного сигнала, с использованием информации о расстоянии таким образом, что для первого расстояния в диффузный сигнал включена более высокая величина декоррелированного сигнала по сравнению с величиной декоррелированного сигнала для второго расстояния, причем первое расстояние меньше второго расстояния, или

в котором пространственный аудиосинтезатор (750) выполнен с возможностью вычислять для первого расстояния между позициями микрофона компонентный сигнал для пространственного звукового представления с использованием выходного сигнала фильтра (823) декорреляции, сконфигурированного для декорреляции опорного сигнала или масштабированного опорного сигнала, и опорного сигнала, взвешенного (822) с использованием коэффициента усиления, выявленного из информации о направлении прихода звука, и вычислять для второго расстояния между позициями микрофона компонентный сигнал для пространственного звукового представления с использованием опорного сигнала, взвешенного (822) с использованием коэффициента усиления, выявленного из информации о направлении прихода звука, без обработки декорреляции, второе расстояние больше первого расстояния или больше порога расстояния.

25. Устройство по любому из пп. 13-24,

в котором транспортные метаданные содержат информацию о формировании направленного луча или пространственной фильтрации, ассоциированной с транспортными сигналами транспортного представления, и

в котором пространственный аудиосинтезатор (750) выполнен с возможностью формировать (932) сигнал громкоговорителей для громкоговорителя с использованием транспортного сигнала, имеющего направление взгляда, которое наиболее близко к направлению взгляда от опорной позиции пространственного звукового представления к громкоговорителю.

26. Устройство по любому из пп. 13-25,

в котором пространственный аудиосинтезатор (750) выполнен с возможностью определять компонентные сигналы пространственного звукового представления как комбинацию (825) из прямого звукового компонента и диффузного звукового компонента, причем прямой звуковой компонент получается посредством масштабирования (822) опорного сигнала с коэффициентом, зависящим от параметра диффузности или параметра направленности, причем параметр направленности зависит от направления прихода звука, причем определение опорного сигнала выполняется (821, 760) на основе информации о транспортных метаданных, и причем диффузный звуковой компонент определяется (823, 824) с использованием того же опорного сигнала и параметра диффузности.

27. Устройство по любому из пп. 13-26,

в котором пространственный аудиосинтезатор (750) выполнен с возможностью определять компонентные сигналы пространственного звукового представления как комбинацию (825) из прямого звукового компонента и диффузного звукового компонента, причем прямой звуковой компонент получается посредством масштабирования (822) опорного сигнала с коэффициентом, зависящим от параметра диффузности или параметра направленности, причем параметр направленности зависит от направления прихода звука, причем определение опорного сигнала выполняется (821, 760) на основе информации о транспортных метаданных, и причем диффузный звуковой компонент определяется (823, 824) с использованием фильтра (823) декорреляции, того же опорного сигнала и параметра диффузности.

28. Устройство по любому из пп. 13-27, в котором транспортное представление содержит по меньшей мере два разных сигнала микрофонов,

в котором транспортные метаданные содержат информацию, указывающую, являются ли по меньшей мере два разных сигнала микрофонов по меньшей мере одним из всенаправленных сигналов, дипольных сигналов или кардиоидных сигналов, и

в котором пространственный аудиосинтезатор выполнен с возможностью адаптировать (915) определение опорного сигнала к транспортным метаданным, чтобы определить для компонентов пространственного звукового представления отдельные опорные сигналы, и вычислять (916) соответствующий компонент с использованием отдельного опорного сигнала, определенного для соответствующего компонента.

29. Способ кодирования пространственного звукового представления, представляющего аудиосцену, для получения закодированного аудиосигнала, способ содержит этапы, на которых:

формируют транспортное представление из пространственного звукового представления;

формируют транспортные метаданные, относящиеся к формированию транспортного представления; и

формируют закодированный аудиосигнал, закодированный аудиосигнал содержит информацию о транспортном представлении и информацию о транспортных метаданных,

причем пространственное звуковое представление является представлением Ambisonics первого порядка или представлением Ambisonics высокого порядка, содержащим множество сигналов коэффициентов, или многоканальным представлением, содержащим множество аудиоканалов,

причем формирование транспортного представления содержит комбинирование еще двух сигналов коэффициентов из представления Ambisonics высокого порядка или представления Ambisonics первого порядка, или комбинирование двух или более аудиоканалов из многоканального представления, и

причем формирование транспортных метаданных содержит формирование в качестве транспортных метаданных информацию, указывающую, как были объединены два или более сигналов коэффициентов из представления Ambisonics высокого порядка или представления Ambisonics первого порядка или два или более аудиоканалов из многоканального представления, или какие из двух и более сигналов коэффициентов из представления Ambisonics первого порядка или представления Ambisonics высокого порядка, или какие из двух или более аудиоканалов из многоканального представления были объединены.

30. Способ декодирования закодированного аудиосигнала, способ содержит этапы, на которых:

принимают закодированный аудиосигнал, содержащий информацию о транспортном представлении, содержащую транспортные сигналы, и информацию о транспортных метаданных; и

синтезируют пространственное звуковое представление с использованием информации о транспортном представлении и информации о транспортных метаданных,

причем транспортные метаданные указывают первый транспортный сигнал как относящийся к первому сектору или полушарию, относящемуся к опорной позиции пространственного звукового представления, и второй транспортный сигнал как относящийся ко второму другому сектору или полушарию, относящемуся к опорной позиции пространственного звукового представления,

причем синтезирование содержит

формирование (915) компонентного сигнала пространственного звукового представления, ассоциированного с первым сектором или полушарием, с использованием первого транспортного сигнала и без использования второго транспортного сигнала, или

формирование (915) другого компонентного сигнала пространственного звукового представления, ассоциированного со вторым сектором или полушарием, с использованием второго транспортного сигнала и без использования первого транспортного сигнала, или

формирование (915) другого компонентного сигнала пространственного звукового представления, ассоциированного с первым сектором или полушарием, с использованием первой комбинации первого и второй транспортного сигналов, или

формирование (915) другого компонентного сигнала пространственного звукового представления, ассоциированного с другим вторым сектором или полушарием, с использованием второй комбинации первого и второго транспортных сигналов, причем первая комбинация находится под более сильным влиянием первого транспортного сигнала, чем вторая комбинация, или вторая комбинация находится под более сильным влиянием второго транспортного сигнала, чем первая комбинация, или

транспортные метаданные указывают информацию о весовых коэффициентах или направлениях взгляда транспортных сигналов транспортного представления, и при этом синтезирование содержит вычисление (932) других компонентов Ambisonics первого порядка пространственного звукового представления с использованием информации о направлениях взгляда или весовых коэффициентах, и с использованием транспортных сигналов.

31. Физический носитель данных, имеющий хранящуюся на нем компьютерную программу, содержащую команды, которая, при исполнении компьютером или процессором, побуждает компьютер или процессор выполнять способ по п. 29.

32. Физический носитель данных, имеющий хранящуюся на нем компьютерную программу, содержащую команды, которая, при исполнении компьютером или процессором, побуждает компьютер или процессор выполнять способ по п. 30.



 

Похожие патенты:

Изобретение относится к средствам для формирования выходного представления понижающего микширования. Технический результат заключается в повышении эффективности преобразования входного представления понижающего микширования.

Изобретение относится к области вычислительной техники для обработки аудиоданных. Технический результат заключается в повышении точности воспроизведения цифрового звука.

Изобретение относится к области вычислительной техники для обработки аудиосигналов. Технический результат заключается в снижении задержки при обеспечении понижающего микширования к многоканальному аудиосигналу.

Заявлены устройство и способы генерирования кодированного битового аудиопотока. Решение заключается во включении в битовый поток метаданных структуры вложенных потоков и/или метаданных сведений о программе и аудиоданных.

Изобретение относится к средствам для рендеринга звука. Технический результат заключается в повышении эффективности рендеринга звука.

Система относится к области вычислительной техники для обработки аудиоданных. Технический результат заключается в обеспечении подавления эха без разрыва голосового сигнала.

Изобретение относится к области вычислительной техники для аудиокодирования данных. Технический результат заключается в обеспечении возможности воспроизведения стереоизображения и обеспечения голосового выходного сигнала для сценариев с интерферирующими источниками голосовых данных.

Изобретение относится к области вычислительной техники для обработки аудиоданных. Технический результат заключается в обеспечении возможности распознавания переключения между разными потоками с умеренной сложностью реализации с исключением необходимости принудительного применения конкретных настроек кодирования/декодирования в моменты перехода.

Изобретение относится к средствам для кодирования аудио. Технический результат заключается в повышении эффективности аудиокодирования с защитой от ошибок.

Изобретение относится к способам и устройствам аудиокодирования. Технический результат заключается в уменьшении ошибки квантования при кодировании аудиосигнала.
Наверх