Система, устройство и способ для согласованного воспроизведения акустической сцены на основании информированной пространственной фильтрации

Изобретение относится к обработке аудиосигналов. Технический результат – обеспечение выравнивания визуальных и акустических изображений. Система содержит модуль разложения, процессор сигналов и выходной интерфейс. Модуль разложения выполнен с возможностью приема двух или более входных аудиосигналов, а также с возможностью генерации прямого компонентного сигнала, с возможностью генерации диффузного компонентного сигнала, с возможностью приема прямого компонентного сигнала, диффузного компонентного сигнала и информации направления, с возможностью генерации одного или более обработанных диффузных сигналов в зависимости от диффузного компонентного сигнала. Для каждого выходного аудиосигнала из одного или более выходных аудиосигналов процессор сигналов выполнен с возможностью определения, в зависимости от направления прихода, прямого коэффициента усиления, причем процессор сигналов выполнен с возможностью применения упомянутого прямого коэффициента усиления к прямому компонентному сигналу для получения обработанного прямого сигнала, и процессор сигналов выполнен с возможностью объединения упомянутого обработанного прямого сигнала и одного из одного или более обработанных диффузных сигналов для генерации упомянутого выходного аудиосигнала. Выходной интерфейс выполнен с возможностью вывода одного или более выходных аудиосигналов. 5 н. и 11 з.п. ф-лы, 21 ил.

 

Настоящее изобретение относится к обработке аудиосигнала и, в частности, к системе, устройству и способу для согласованного воспроизведения акустической сцены на основании информированной пространственной фильтрации.

При воспроизведении пространственного звука звук в местоположении записи (на стороне ближнего конца) захватывается множеством микрофонов и затем воспроизводится на стороне воспроизведения (стороне дальнего конца) с использованием множества громкоговорителей или головных наушников. Во многих применениях, желательно воспроизводить записанный звук таким образом, чтобы пространственное изображение, воссоздаваемое на стороне дальнего конца, согласовывалось с первоначальным пространственным изображением на стороне ближнего конца. Это означает, например, что звук источников звука воспроизводится с направлений, где источники присутствовали в первоначальном сценарии записи. Альтернативно, когда, например, видео дополняет записанное аудио, желательно, чтобы звук воспроизводился таким образом, чтобы воссоздаваемое акустическое изображение согласовывалось с видеоизображением. Это означает, например, что звук источника звука воспроизводится с направления, в котором источник наблюдается в видео. Дополнительно, видеокамера может быть снабжена функцией визуального масштабирования, или пользователь на стороне дальнего конца может применять к видео цифровое масштабирование, которое будет изменять визуальное изображение. В этом случае, должно соответственно изменяться акустическое изображение воспроизводимого пространственного звука. Во многих случаях, сторона дальнего конца определяет пространственное изображение, с которым нужно согласовывать воспроизводимый звук, определяется либо на стороне дальнего конца, либо в ходе воспроизведения, например, когда используется видеоизображение. В результате, пространственный звук на стороне ближнего конца нужно записывать, обрабатывать и передавать таким образом, чтобы на стороне дальнего конца все же можно было управлять воссоздаваемым акустическим изображением.

Возможность воспроизведения записанной акустической сцены в согласовании с желаемым пространственным изображением требуется во многих современных областях применения. Например, такие современные бытовые устройства, как цифровые камеры или мобильные телефоны часто снабжены видеокамерой и множественными микрофонами. Это позволяет записывать видео совместно с пространственным звуком, например, стереозвуком. При воспроизведении записанного аудио совместно с видео, желательно, чтобы визуальное и акустическое изображения были согласованы. Когда пользователь осуществляет масштабирование приближения с помощью камеры, желательно воссоздавать эффект визуального масштабирования акустически таким образом, чтобы визуальные и акустические изображения выравнивались при просмотре видео. Например, когда пользователь осуществляет масштабирование приближения на человеке, голос этого человека должен становиться менее реверберирующим по мере приближения человека к камере. Кроме того, голос человека должен воспроизводиться с того же направления, где находится человек в визуальном изображении. Акустическая имитация визуального масштабирования камеры в дальнейшем именуется акустическим масштабированием и представляет один пример согласованного аудио-видео-воспроизведения. Согласованное аудио-видеовоспроизведение, в котором может применяться акустическая масштабирование, также полезно в телеконференцсвязи, где пространственный звук на стороне ближнего конца воспроизводится на стороне дальнего конца совместно с визуальным изображением. Кроме того, желательно акустически воссоздавать эффект визуального масштабирования таким образом, чтобы визуальные и акустические изображения выравнивались.

Первая реализация акустического масштабирования представлена в [1], где эффект масштабирования получен путем увеличения направленности направленного микрофона второго порядка, сигнал которого сгенерирован на основании сигналов линейной микрофонной решетки. Этот подход получил развитие в [2] до стереомасштабирования. В [3] представлен более недавний подход к моно- или стереомасштабированию, который состоит в изменение уровней источников звука таким образом, что источник с фронтального направления сохраняется, тогда как источники, поступающие с других направлений, и диффузный звук ослабляются. Подходы, предложенные в [1,2] приводят к увеличению отношения прямого звука к реверберации (DRR), и подход в [3] дополнительно позволяет подавлять нежелательные источники. Вышеупомянутые подходы предполагают, что источник звука располагается перед камерой, и не предполагают захват акустического изображения которое согласуется с видеоизображением.

Общеизвестный подход к адаптивным записи и воспроизведению пространственного звука представлен направленным аудиокодированием (DirAC) [4]. В DirAC, пространственный звук на стороне ближнего конца описывается посредством аудиосигнала и параметрической вспомогательной информации, а именно, направления прихода (DOA) и диффузности звука. Параметрическое описание позволяет воспроизводить первоначальное пространственное изображение с произвольными конфигурациями громкоговорителей. Это означает, что воссоздаваемое пространственное изображение на стороне дальнего конца согласуется с пространственным изображением в ходе записи на стороне ближнего конца. Если же, например, видео дополняет записанное аудио, то воспроизводимый пространственный звук не обязательно выравнивать с видеоизображением. Кроме того, воссоздаваемое акустическое изображение невозможно регулировать при изменении визуальных изображений, например, когда изменяется направление наведения и масштабирование камеры. Это означает, что DirAC не позволяет регулировать воссоздаваемое акустическое изображение до произвольного желаемого пространственного изображения.

В [5] акустическое масштабирование реализовано на основании DirAC. DirAC представляет приемлемую основу для реализации акустического масштабирования, поскольку оно основано на простой, но эффективной модели сигнала, предполагающей, что звуковое поле в частотно-временной области состоит из одиночной плоской волны плюс диффузный звук. Основные параметры модели, например, DOA и диффузность, используются для разделения прямого звука и диффузного звука и для создания эффекта акустического масштабирования. Параметрическое описание пространственного звука позволяет эффективно передавать звуковую сцену стороне дальнего конца, предоставляя при этом пользователю полное управление эффектом масштабирования и воспроизведением пространственного звука. Хотя DirAC использует множественные микрофоны для оценивания параметров модели, для выделения прямого звука и диффузного звука применяются только одноканальные фильтры, ограничивающие качество воспроизводимого звука. Кроме того, предполагается, что все источники в звуковой сцене располагаются на окружности, и воспроизведение пространственного звука осуществляется согласно изменению положения аудиовизуальной камеры, которое не согласуется с визуальным масштабированием. Фактически, масштабирование изменяет угол зрения камеры, в то время как расстояние до визуальных объектов и их относительные положения в изображении остаются неизменными, в отличие от движения камеры.

Родственным подходом является так называемый метод виртуальных микрофонов (VM) [6,7], который опирается на ту же модель сигнала, что и DirAC, но позволяет синтезировать сигнал несуществующего (виртуального) микрофона в произвольном положении в звуковой сцене. Движение VM к источнику звука аналогично перемещению камеры в новое положение. VM реализован с использованием многоканальных фильтров для повышения качества звука, но требует несколько распределенных микрофонных решеток для оценивания параметров модели.

Однако очевидно, что можно предложить дополнительно усовершенствованные принципы обработки аудиосигнала.

Таким образом, задачей настоящего изобретения является обеспечение усовершенствованных принципов обработки аудиосигнала. Задача настоящего изобретения решается путем обеспечения системы по п. 1, устройства по п. 13, способа по п. 14, способа по п. 15 и компьютерной программы по п. 16.

Предусмотрена система для генерации одного или более выходных аудиосигналов. Система содержит модуль разложения, процессор сигналов и выходной интерфейс. Модуль разложения выполнен с возможностью приема двух или более входных аудиосигналов, причем модуль разложения выполнен с возможностью генерации прямого компонентного сигнала, содержащего прямые составляющие сигнала двух или более входных аудиосигналов, и модуль разложения выполнен с возможностью генерации диффузного компонентного сигнала, содержащего диффузные составляющие сигнала двух или более входных аудиосигналов. Процессор сигналов выполнен с возможностью приема прямого компонентного сигнала, диффузного компонентного сигнала и информации направления, причем упомянутая информация направления зависит от направления прихода прямых составляющих сигнала двух или более входных аудиосигналов. Кроме того, процессор сигналов выполнен с возможностью генерации одного или более обработанных диффузных сигналов в зависимости от диффузного компонентного сигнала. Для каждого выходного аудиосигнала из одного или более выходных аудиосигналов, процессор сигналов выполнен с возможностью определения, в зависимости от направления прихода, прямого коэффициента усиления, процессор сигналов выполнен с возможностью применения упомянутого прямого коэффициента усиления к прямому компонентному сигналу для получения обработанного прямого сигнала, и процессор сигналов выполнен с возможностью объединения упомянутого обработанного прямого сигнала и одного из одного или более обработанных диффузных сигналов для генерации упомянутого выходного аудиосигнала. Выходной интерфейс выполнен с возможностью вывода одного или более выходных аудиосигналов.

Согласно вариантам осуществления, предусмотрены принципы обеспечения записи и воспроизведения пространственного звука, позволяющие, например, согласовывать воссоздаваемое акустическое изображение с желаемым пространственным изображением, которое, например, определяется пользователем на стороне дальнего конца или видеоизображением. Предложенный подход предусматривает использование микрофонной решетки на стороне ближнего конца, которая позволяет разлагать захваченный звук на составляющие прямого звука и составляющую диффузного звука. Затем выделенные составляющие звука передаются стороне дальнего конца. Согласованное воспроизведение пространственного звука можно реализовать, например, посредством взвешенной суммы выделенного прямого звука и диффузного звука, где весовые коэффициенты зависят от желаемого пространственного изображения, с которым нужно согласовывать воспроизводимый звук, например, весовые коэффициенты зависят от направления наведения и коэффициента масштабирования видеокамеры, которые могут, например, дополнять аудиозапись. Предусмотрены принципы использования информированных многоканальных фильтров для выделения прямого звука и диффузного звука.

Согласно варианту осуществления, процессор сигналов может, например, быть выполнен с возможностью определения двух или более выходных аудиосигналов, причем для каждого выходного аудиосигнала из двух или более выходных аудиосигналов панорамирующая функция усиления может, например, присваиваться упомянутому выходному аудиосигналу, причем панорамирующая функция усиления каждого из двух или более выходных аудиосигналов содержит множество значений аргумента панорамирующей функции, причем возвращаемое значение панорамирующей функции может, например, присваиваться каждому из упомянутых значений аргумента панорамирующей функции, причем, когда упомянутая панорамирующая функция усиления принимает одно из упомянутых значений аргумента панорамирующей функции, упомянутая панорамирующая функция усиления может, например, быть выполнена с возможностью возвращения возвращаемого значения панорамирующей функции, присваиваемого упомянутому одному из упомянутых значений аргумента панорамирующей функции, и при этом процессор сигналов может, например, быть выполнен с возможностью определения каждого из двух или более выходных аудиосигналов в зависимости от зависящего от направления значения аргумента из значений аргумента панорамирующей функции панорамирующей функции усиления, присваиваемой упомянутому выходному аудиосигналу, причем упомянутое зависящее от направления значение аргумента зависит от направления прихода.

Согласно варианту осуществления, панорамирующая функция усиления каждого из двух или более выходных аудиосигналов имеет один или более глобальных максимумов, являющихся одним из значений аргумента панорамирующей функции, причем для каждого из одного или более глобальных максимумов каждой панорамирующей функции усиления, не существует других значений аргумента панорамирующей функции, для которых упомянутая панорамирующая функция усиления возвращает более высокое возвращаемое значение панорамирующей функции, чем для упомянутых глобальных максимумов, и при этом, для каждой пары первого выходного аудиосигнала и второго выходного аудиосигнала из двух или более выходных аудиосигналов, по меньшей мере, один из одного или более глобальных максимумов панорамирующей функции усиления первого выходного аудиосигнала может, например, отличаться от любого из одного или более глобальных максимумов панорамирующей функции усиления второго выходного аудиосигнала.

Согласно варианту осуществления, процессор сигналов может, например, быть выполнен с возможностью генерации каждого выходного аудиосигнала из одного или более выходных аудиосигналов в зависимости от функции окна усиления, причем функция окна усиления может, например, быть выполнена с возможностью возвращения возвращаемого значения функции окна при приеме значения аргумента функции окна, причем, если значение аргумента функции окна может, например, быть больше нижнего порога окна и меньше верхнего порога окна, функция окна усиления может, например, быть выполнена с возможностью возвращения возвращаемого значения функции окна, которое больше любого возвращаемого значения функции окна, возвращаемого функцией окна усиления, если значение аргумента функции окна может, например, быть меньше нижнего порога или больше верхнего порога.

Согласно варианту осуществления, процессор сигналов может, например, быть выполнен с дополнительной возможностью приема информации ориентации, указывающей угловой сдвиг направления наведения относительно направления прихода, и при этом, по меньшей мере, одна из панорамирующей функции усиления и функции окна усиления зависит от информации ориентации; или модуль вычисления функции усиления может, например, быть выполнен с дополнительной возможностью приема информации масштабирования, причем информация масштабирования указывает угол раствора камеры, и при этом, по меньшей мере, одна из панорамирующей функции усиления и функции окна усиления зависит от информации масштабирования; или модуль вычисления функции усиления может, например, быть выполнен с дополнительной возможностью приема параметра калибровки, и при этом, по меньшей мере, одна из панорамирующей функции усиления и функции окна усиления зависит от параметра калибровки.

Согласно варианту осуществления, процессор сигналов может, например, быть выполнен с возможностью приема информации расстояния, причем процессор сигналов может, например, быть выполнен с возможностью генерации каждого выходного аудиосигнала из одного или более выходных аудиосигналов в зависимости от информации расстояния.

Согласно варианту осуществления, процессор сигналов может, например, быть выполнен с возможностью приема первоначального значения угла в зависимости от первоначального направления прихода, которое является направлением прихода прямых составляющих сигнала двух или более входных аудиосигналов, и может, например, быть выполнен с возможностью приема информации расстояния, причем процессор сигналов может, например, быть выполнен с возможностью вычисления измененного значения угла в зависимости от первоначального значения угла и в зависимости от информации расстояния, и при этом процессор сигналов может, например, быть выполнен с возможностью генерации каждого выходного аудиосигнала из одного или более выходных аудиосигналов в зависимости от измененного значения угла.

Согласно варианту осуществления, процессор сигналов может, например, быть выполнен с возможностью генерации одного или более выходных аудиосигналов путем проведения низкочастотной фильтрации, или путем прибавления задержанного прямого звука, или путем проведения ослабления прямого звука, или путем проведения временного сглаживания, или путем проведения расширения направления прихода, или путем проведения декорреляции.

Согласно варианту осуществления, процессор сигналов может, например, быть выполнен с возможностью генерации двух или более выходных аудиоканалов, причем процессор сигналов может, например, быть выполнен с возможностью применения диффузного коэффициента усиления к диффузному компонентному сигналу для получения промежуточного диффузного сигнала, и при этом процессор сигналов может, например, быть выполнен с возможностью генерации одного или более декоррелированных сигналов из промежуточного диффузного сигнала путем проведения декорреляции, причем один или более декоррелированных сигналов образуют один или более обработанных диффузных сигналов, или промежуточный диффузный сигнал и один или более декоррелированных сигналов образуют один или более обработанных диффузных сигналов.

Согласно варианту осуществления, прямой компонентный сигнал и один или более дополнительных прямых компонентных сигналов образуют группу из двух или более прямых компонентных сигналов, причем модуль разложения может, например, быть выполнен с возможностью генерации одного или более дополнительных прямых компонентных сигналов, содержащих дополнительные прямые составляющие сигнала двух или более входных аудиосигналов, причем направление прихода и одно или более дополнительных направлений прихода образуют группу из двух или более направлений прихода, причем каждое направление прихода из группы из двух или более направлений прихода может, например, присваиваться в точности одному прямому компонентному сигналу из группы из двух или более прямых компонентных сигналов, причем количество прямых компонентных сигналов из двух или более прямых компонентных сигналов, и количество направлений прихода двух направлений прихода может, например, быть равным, причем процессор сигналов может, например, быть выполнен с возможностью приема группы из двух или более прямых компонентных сигналов и группы из двух или более направлений прихода, и при этом, для каждого выходного аудиосигнала из одного или более выходных аудиосигналов, процессор сигналов может, например, быть выполнен с возможностью определения, для каждого прямого компонентного сигнала из группы из двух или более прямых компонентных сигналов, прямого коэффициента усиления в зависимости от направления прихода упомянутого прямого компонентного сигнала, процессор сигналов может, например, быть выполнен с возможностью генерации группы из двух или более обработанных прямых сигналов путем применения, для каждого прямого компонентного сигнала из группы из двух или более прямых компонентных сигналов, прямого коэффициента усиления упомянутого прямого компонентного сигнала к упомянутому прямому компонентному сигналу, и процессор сигналов может, например, быть выполнен с возможностью объединения одного из одного или более обработанных диффузных сигналов и каждого обработанного сигнала из группы из двух или более обработанных сигналов для генерации упомянутого выходного аудиосигнала.

Согласно варианту осуществления, количество прямых компонентных сигналов из группы из двух или более прямых компонентных сигналов плюс 1 может, например, быть меньше количества входных аудиосигналов, принимаемых приемным интерфейсом.

Кроме того, может, например, быть предусмотрен слуховой аппарат или вспомогательное слуховое устройство, содержащее вышеописанную систему.

Кроме того, предусмотрено устройство для генерации одного или более выходных аудиосигналов. Устройство содержит процессор сигналов и выходной интерфейс. Процессор сигналов выполнен с возможностью приема прямого компонентного сигнала, содержащего прямые составляющие сигнала двух или более первоначальных аудиосигналов, причем процессор сигналов выполнен с возможностью приема диффузного компонентного сигнала, содержащего диффузные составляющие сигнала двух или более первоначальных аудиосигналов, и при этом процессор сигналов выполнен с возможностью приема информации направления, причем упомянутая информация направления зависит от направления прихода прямых составляющих сигнала двух или более входных аудиосигналов. Кроме того, процессор сигналов выполнен с возможностью генерации одного или более обработанных диффузных сигналов в зависимости от диффузного компонентного сигнала. Для каждого выходного аудиосигнала из одного или более выходных аудиосигналов, процессор сигналов выполнен с возможностью определения, в зависимости от направления прихода, прямого коэффициента усиления, процессор сигналов выполнен с возможностью применения упомянутого прямого коэффициента усиления к прямому компонентному сигналу для получения обработанного прямого сигнала, и процессор сигналов выполнен с возможностью объединения упомянутого обработанного прямого сигнала и одного из одного или более обработанных диффузных сигналов для генерации упомянутого выходного аудиосигнала. Выходной интерфейс выполнен с возможностью вывода одного или более выходных аудиосигналов.

Кроме того, предусмотрен способ генерации одного или более выходных аудиосигналов. Способ содержит:

- прием двух или более входных аудиосигналов.

- генерацию прямого компонентного сигнала, содержащего прямые составляющие сигнала двух или более входных аудиосигналов.

- генерацию диффузного компонентного сигнала, содержащего диффузные составляющие сигнала двух или более входных аудиосигналов.

- прием информации направления в зависимости от направления прихода прямых составляющих сигнала двух или более входных аудиосигналов.

- генерацию одного или более обработанных диффузных сигналов в зависимости от диффузного компонентного сигнала.

- для каждого выходного аудиосигнала из одного или более выходных аудиосигналов, определение, в зависимости от направления прихода, прямого коэффициента усиления, применение упомянутого прямого коэффициента усиления к прямому компонентному сигналу для получения обработанного прямого сигнала, и объединение упомянутого обработанного прямого сигнала и одного из одного или более обработанных диффузных сигналов для генерации упомянутого выходного аудиосигнала, и

- вывод одного или более выходных аудиосигналов.

Кроме того, предусмотрен способ генерации одного или более выходных аудиосигналов. Способ содержит:

- прием прямого компонентного сигнала, содержащего прямые составляющие сигнала двух или более первоначальных аудиосигналов.

- прием диффузного компонентного сигнала, содержащего диффузные составляющие сигнала двух или более первоначальных аудиосигналов.

- прием информации направления, причем упомянутая информация направления зависит от направления прихода прямых составляющих сигнала двух или более входных аудиосигналов.

- генерацию одного или более обработанных диффузных сигналов в зависимости от диффузного компонентного сигнала.

- для каждого выходного аудиосигнала из одного или более выходных аудиосигналов, определение, в зависимости от направления прихода, прямого коэффициента усиления, применение упомянутого прямого коэффициента усиления к прямому компонентному сигналу для получения обработанного прямого сигнала, и объединение упомянутого обработанного прямого сигнала и одного из одного или более обработанных диффузных сигналов для генерации упомянутого выходного аудиосигнала, и

- вывод одного или более выходных аудиосигналов.

Кроме того, предусмотрены компьютерные программы, причем каждая из компьютерных программ выполнена с возможностью осуществления одного из вышеописанных способов при выполнении на компьютере или процессоре сигналов, таким образом, что каждый из вышеописанных способов осуществляется одной из компьютерных программ.

Кроме того, предусмотрена система для генерации одного или более выходных аудиосигналов. Система содержит модуль разложения, процессор сигналов и выходной интерфейс. Модуль разложения выполнен с возможностью приема двух или более входных аудиосигналов, причем модуль разложения выполнен с возможностью генерации прямого компонентного сигнала, содержащего прямые составляющие сигнала двух или более входных аудиосигналов, и модуль разложения выполнен с возможностью генерации диффузного компонентного сигнала, содержащего диффузные составляющие сигнала двух или более входных аудиосигналов. Процессор сигналов выполнен с возможностью приема прямого компонентного сигнала, диффузного компонентного сигнала и информации направления, причем упомянутая информация направления зависит от направления прихода прямых составляющих сигнала двух или более входных аудиосигналов. Кроме того, процессор сигналов выполнен с возможностью генерации одного или более обработанных диффузных сигналов в зависимости от диффузного компонентного сигнала. Для каждого выходного аудиосигнала из одного или более выходных аудиосигналов, процессор сигналов выполнен с возможностью определения, в зависимости от направления прихода, прямого коэффициента усиления, процессор сигналов выполнен с возможностью применения упомянутого прямого коэффициента усиления к прямому компонентному сигналу для получения обработанного прямого сигнала, и процессор сигналов выполнен с возможностью объединения упомянутого обработанного прямого сигнала и одного из одного или более обработанных диффузных сигналов для генерации упомянутого выходного аудиосигнала. Выходной интерфейс выполнен с возможностью вывода одного или более выходных аудиосигналов. Процессор сигналов содержит модуль вычисления функции усиления для вычисления одной или более функций усиления, причем каждая функция усиления из одной или более функций усиления, содержит множество значений аргумента функции усиления, причем возвращаемое значение функции усиления присваивается каждому из упомянутых значений аргумента функции усиления, причем, когда упомянутая функция усиления принимает одно из упомянутых значений аргумента функции усиления, упомянутая функция усиления выполнена с возможностью возвращения возвращаемого значения функции усиления, присваиваемого упомянутому одному из упомянутых значений аргумента функции усиления. Кроме того, процессор сигналов дополнительно содержит модификатор сигнала для выбора, в зависимости от направления прихода, зависящего от направления значения аргумента из значений аргумента функции усиления функции усиления из одной или более функций усиления, для получения возвращаемого значения функции усиления, присваиваемого упомянутому зависящему от направления значению аргумента из упомянутой функции усиления, и для определения значения коэффициента усиления, по меньшей мере, одного из одного или более выходных аудиосигналов в зависимости от упомянутого возвращаемого значения функции усиления, полученного из упомянутой функции усиления.

Согласно варианту осуществления, модуль вычисления функции усиления может, например, быть выполнен с возможностью генерации поисковой таблицы для каждой функции усиления из одной или более функций усиления, причем поисковая таблица содержит множество записей, причем каждая из записей поисковой таблицы содержит одно из значений аргумента функции усиления и возвращаемого значения функции усиления, присваиваемого упомянутому значению аргумента функции усиления, причем модуль вычисления функции усиления может, например, быть выполнен с возможностью сохранения поисковой таблицы каждой функции усиления в постоянной или непостоянной памяти, и при этом модификатор сигнала может, например, быть выполнен с возможностью получения возвращаемого значения функции усиления, присваиваемого упомянутому зависящему от направления значению аргумента, путем считывания упомянутого возвращаемого значения функции усиления из одной из одной или более поисковых таблиц, хранящихся в памяти.

Согласно варианту осуществления, процессор сигналов может, например, быть выполнен с возможностью определения двух или более выходных аудиосигналов, причем модуль вычисления функции усиления может, например, быть выполнен с возможностью вычисления двух или более функций усиления, причем, для каждого выходного аудиосигнала из двух или более выходных аудиосигналов, модуль вычисления функции усиления может, например, быть выполнен с возможностью вычисления панорамирующей функции усиления, присваиваемой упомянутому выходному аудиосигналу в качестве одной из двух или более функций усиления, причем модификатор сигнала может, например, быть выполнен с возможностью генерации упомянутого выходного аудиосигнала в зависимости от упомянутой панорамирующей функции усиления.

Согласно варианту осуществления, панорамирующая функция усиления каждого из двух или более выходных аудиосигналов может, например, иметь один или более глобальных максимумов, являющихся одним из значений аргумента функции усиления упомянутой панорамирующей функции усиления, причем для каждого из одного или более глобальных максимумов упомянутой панорамирующей функции усиления, не существует других значений аргумента функции усиления, для которых упомянутая панорамирующая функция усиления возвращает более высокое возвращаемое значение функции усиления, чем для упомянутых глобальных максимумов, и при этом, для каждой пары первого выходного аудиосигнала и второго выходного аудиосигнала из двух или более выходных аудиосигналов, по меньшей мере, один из одного или более глобальных максимумов панорамирующей функции усиления первого выходного аудиосигнала может, например, отличаться от любого из одного или более глобальных максимумов панорамирующей функции усиления второго выходного аудиосигнала.

Согласно варианту осуществления, для каждого выходного аудиосигнала из двух или более выходных аудиосигналов, модуль вычисления функции усиления может, например, быть выполнен с возможностью вычисления функции окна усиления, присваиваемой упомянутому выходному аудиосигналу в качестве одной из двух или более функций усиления, причем модификатор сигнала может, например, быть выполнен с возможностью генерации упомянутого выходного аудиосигнала в зависимости от упомянутой функции окна усиления, и при этом, если значение аргумента упомянутой функции окна усиления больше нижнего порога окна и меньше верхнего порога окна, функция окна усиления выполнена с возможностью возвращения возвращаемого значения функции усиления, которое больше любого возвращаемого значения функции усиления, возвращаемого упомянутой функцией окна усиления, если значение аргумента функции окна меньше нижнего порога или больше верхнего порога.

Согласно варианту осуществления, функция окна усиления каждого из двух или более выходных аудиосигналов имеет один или более глобальных максимумов, являющихся одним из значений аргумента функции усиления упомянутой функции окна усиления, причем для каждого из одного или более глобальных максимумов упомянутой функции окна усиления, не существует других значений аргумента функции усиления, для которых упомянутая функция окна усиления возвращает более высокое возвращаемое значение функции усиления, чем для упомянутых глобальных максимумов, и при этом, для каждой пары первого выходного аудиосигнала и второго выходного аудиосигнала из двух или более выходных аудиосигналов, по меньшей мере, один из одного или более глобальных максимумов функции окна усиления первого выходного аудиосигнала может, например, быть равен одному из одного или более глобальных максимумов функции окна усиления второго выходного аудиосигнала.

Согласно варианту осуществления, модуль вычисления функции усиления может, например, быть выполнен с дополнительной возможностью приема информации ориентации, указывающей угловой сдвиг направления наведения относительно направления прихода, и модуль вычисления функции усиления может, например, быть выполнен с возможностью генерации панорамирующей функции усиления каждого из выходных аудиосигналов в зависимости от информации ориентации.

Согласно варианту осуществления, модуль вычисления функции усиления может, например, быть выполнен с возможностью генерации функции окна усиления каждого из выходных аудиосигналов в зависимости от информации ориентации.

Согласно варианту осуществления, модуль вычисления функции усиления может, например, быть выполнен с дополнительной возможностью приема информации масштабирования, причем информация масштабирования указывает угол раствора камеры, и модуль вычисления функции усиления может, например, быть выполнен с возможностью генерации панорамирующей функции усиления каждого из выходных аудиосигналов в зависимости от информации масштабирования.

Согласно варианту осуществления, модуль вычисления функции усиления может, например, быть выполнен с возможностью генерации функции окна усиления каждого из выходных аудиосигналов в зависимости от информации масштабирования.

Согласно варианту осуществления, модуль вычисления функции усиления может, например, быть выполнен с дополнительной возможностью приема параметра калибровки для выравнивания визуального изображения и акустического изображения, и модуль вычисления функции усиления может, например, быть выполнен с возможностью генерации панорамирующей функции усиления каждого из выходных аудиосигналов в зависимости от параметра калибровки.

Согласно варианту осуществления, модуль вычисления функции усиления может, например, быть выполнен с возможностью генерации функции окна усиления каждого из выходных аудиосигналов в зависимости от параметра калибровки.

Система по любому из предыдущих пунктов, модуль вычисления функции усиления может, например, быть выполнен с возможностью приема информации в визуальном изображении, и модуль вычисления функции усиления может, например, быть выполнен с возможностью генерации, в зависимости от информации в визуальном изображении, размывающей функции, возвращающей комплексные коэффициенты усиления для реализации перцептивного расширения источника звука.

Кроме того, предусмотрено устройство для генерации одного или более выходных аудиосигналов. Устройство содержит процессор сигналов и выходной интерфейс. Процессор сигналов выполнен с возможностью приема прямого компонентного сигнала, содержащего прямые составляющие сигнала двух или более первоначальных аудиосигналов, причем процессор сигналов выполнен с возможностью приема диффузного компонентного сигнала, содержащего диффузные составляющие сигнала двух или более первоначальных аудиосигналов, и при этом процессор сигналов выполнен с возможностью приема информации направления, причем упомянутая информация направления зависит от направления прихода прямых составляющих сигнала двух или более входных аудиосигналов. Кроме того, процессор сигналов выполнен с возможностью генерации одного или более обработанных диффузных сигналов в зависимости от диффузного компонентного сигнала. Для каждого выходного аудиосигнала из одного или более выходных аудиосигналов, процессор сигналов выполнен с возможностью определения, в зависимости от направления прихода, прямого коэффициента усиления, процессор сигналов выполнен с возможностью применения упомянутого прямого коэффициента усиления к прямому компонентному сигналу для получения обработанного прямого сигнала, и процессор сигналов выполнен с возможностью объединения упомянутого обработанного прямого сигнала и одного из одного или более обработанных диффузных сигналов для генерации упомянутого выходного аудиосигнала. Выходной интерфейс выполнен с возможностью вывода одного или более выходных аудиосигналов. Процессор сигналов содержит модуль вычисления функции усиления для вычисления одной или более функций усиления, причем каждая функция усиления из одной или более функций усиления, содержит множество значений аргумента функции усиления, причем возвращаемое значение функции усиления присваивается каждому из упомянутых значений аргумента функции усиления, причем, когда упомянутая функция усиления принимает одно из упомянутых значений аргумента функции усиления, упомянутая функция усиления выполнена с возможностью возвращения возвращаемого значения функции усиления, присваиваемого упомянутому одному из упомянутых значений аргумента функции усиления. Кроме того, процессор сигналов дополнительно содержит модификатор сигнала для выбора, в зависимости от направления прихода, зависящего от направления значения аргумента из значений аргумента функции усиления функции усиления из одной или более функций усиления, для получения возвращаемого значения функции усиления, присваиваемого упомянутому зависящему от направления значению аргумента из упомянутой функции усиления, и для определения значения коэффициента усиления, по меньшей мере, одного из одного или более выходных аудиосигналов в зависимости от упомянутого возвращаемого значения функции усиления, полученного из упомянутой функции усиления.

Кроме того, предусмотрен способ генерации одного или более выходных аудиосигналов. Способ содержит:

- прием двух или более входных аудиосигналов,

- генерацию прямого компонентного сигнала, содержащего прямые составляющие сигнала двух или более входных аудиосигналов,

- генерацию диффузного компонентного сигнала, содержащего диффузные составляющие сигнала двух или более входных аудиосигналов,

- прием информации направления в зависимости от направления прихода прямых составляющих сигнала двух или более входных аудиосигналов,

- генерацию одного или более обработанных диффузных сигналов в зависимости от диффузного компонентного сигнала,

- для каждого выходного аудиосигнала из одного или более выходных аудиосигналов, определение, в зависимости от направления прихода, прямого коэффициента усиления, применение упомянутого прямого коэффициента усиления к прямому компонентному сигналу для получения обработанного прямого сигнала, и объединение упомянутого обработанного прямого сигнала и одного из одного или более обработанных диффузных сигналов для генерации упомянутого выходного аудиосигнала, и

- вывод одного или более выходных аудиосигналов.

Генерация одного или более выходных аудиосигналов содержит вычисление одной или более функций усиления, причем каждая функция усиления из одной или более функций усиления, содержит множество значений аргумента функции усиления, причем возвращаемое значение функции усиления присваивается каждому из упомянутых значений аргумента функции усиления, причем, когда упомянутая функция усиления принимает одно из упомянутых значений аргумента функции усиления, упомянутая функция усиления выполнена с возможностью возвращения возвращаемого значения функции усиления, присваиваемого упомянутому одному из упомянутых значений аргумента функции усиления. Кроме того, генерация одного или более выходных аудиосигналов содержит выбор, в зависимости от направления прихода, зависящего от направления значения аргумента из значений аргумента функции усиления функции усиления из одной или более функций усиления, для получения возвращаемого значения функции усиления, присваиваемого упомянутому зависящему от направления значению аргумента из упомянутой функции усиления, и для определения значения коэффициента усиления, по меньшей мере, одного из одного или более выходных аудиосигналов в зависимости от упомянутого возвращаемого значения функции усиления, полученного из упомянутой функции усиления.

Кроме того, предусмотрен способ генерации одного или более выходных аудиосигналов. Способ содержит:

- прием прямого компонентного сигнала, содержащего прямые составляющие сигнала двух или более первоначальных аудиосигналов,

- прием диффузного компонентного сигнала, содержащего диффузные составляющие сигнала двух или более первоначальных аудиосигналов,

- прием информации направления, причем упомянутая информация направления зависит от направления прихода прямых составляющих сигнала двух или более входных аудиосигналов,

- генерацию одного или более обработанных диффузных сигналов в зависимости от диффузного компонентного сигнала,

- для каждого выходного аудиосигнала из одного или более выходных аудиосигналов, определение, в зависимости от направления прихода, прямого коэффициента усиления, применение упомянутого прямого коэффициента усиления к прямому компонентному сигналу для получения обработанного прямого сигнала, и объединение упомянутого обработанного прямого сигнала и одного из одного или более обработанных диффузных сигналов для генерации упомянутого выходного аудиосигнала, и

- вывод одного или более выходных аудиосигналов.

Генерация одного или более выходных аудиосигналов содержит вычисление одной или более функций усиления, причем каждая функция усиления из одной или более функций усиления, содержит множество значений аргумента функции усиления, причем возвращаемое значение функции усиления присваивается каждому из упомянутых значений аргумента функции усиления, причем, когда упомянутая функция усиления принимает одно из упомянутых значений аргумента функции усиления, упомянутая функция усиления выполнена с возможностью возвращения возвращаемого значения функции усиления, присваиваемого упомянутому одному из упомянутых значений аргумента функции усиления. Кроме того, генерация одного или более выходных аудиосигналов содержит выбор, в зависимости от направления прихода, зависящего от направления значения аргумента из значений аргумента функции усиления функции усиления из одной или более функций усиления, для получения возвращаемого значения функции усиления, присваиваемого упомянутому зависящему от направления значению аргумента из упомянутой функции усиления, и для определения значения коэффициента усиления, по меньшей мере, одного из одного или более выходных аудиосигналов в зависимости от упомянутого возвращаемого значения функции усиления, полученного из упомянутой функции усиления.

Кроме того, предусмотрены компьютерные программы, причем каждая из компьютерных программ выполнена с возможностью осуществления одного из вышеописанных способов при выполнении на компьютере или процессоре сигналов, таким образом, что каждый из вышеописанных способов осуществляется одной из компьютерных программ.

Далее, более подробно описаны варианты осуществления настоящего изобретения со ссылкой на чертежи, в которых:

фиг. 1a - система согласно варианту осуществления,

фиг. 1b - устройство согласно варианту осуществления,

фиг. 1c - система согласно другому варианту осуществления,

фиг. 1d - устройство согласно другому варианту осуществления,

фиг. 2 - система согласно другому варианту осуществления,

фиг. 3 - модули для разложения на прямые/диффузные составляющие и для параметра оценивания системы согласно варианту осуществления,

фиг. 4 - первая геометрия для воспроизведения акустической сцены с акустическим масштабированием согласно варианту осуществления, где источник звука располагается в фокальной плоскости,

фиг. 5 - панорамирующие функции для согласованного воспроизведения сцены и для акустической масштабирования,

фиг. 6 - дополнительные панорамирующие функции для согласованного воспроизведения сцены и для акустической масштабирования согласно вариантам осуществления,

фиг. 7 - иллюстративные функции окна усиления для различных ситуации согласно вариантам осуществления,

фиг. 8 - функция диффузного усиления согласно варианту осуществления,

фиг. 9 - вторая геометрия для воспроизведения акустической сцены с акустическим масштабированием согласно варианту осуществления, где источник звука не располагается в фокальной плоскости,

фиг. 10 - функции для объяснения размывания прямого звука, и

фиг. 11 - слуховые аппараты согласно вариантам осуществления.

На фиг. 1a показана система для генерации одного или более выходных аудиосигналов. Система содержит модуль 101 разложения, процессор 105 сигнала и выходной 106 интерфейс.

Модуль 101 разложения выполнен с возможностью генерации прямого компонентного сигнала Xdir(k,n), содержащего прямые составляющие сигнала двух или более входных аудиосигналов x1(k,n), x2(k,n), … xp(k,n). Кроме того, модуль 101 разложения выполнен с возможностью генерации диффузного компонентного сигнала Xdiff(k,n), содержащего диффузные составляющие сигнала двух или более входных аудиосигналов x1(k,n), x2(k,n), … xp(k,n).

Процессор 105 сигнала выполнен с возможностью приема прямого компонентного сигнала Xdir(k,n), диффузного компонентного сигнала Xdiff(k,n) и информации направления, причем упомянутая информация направления зависит от направления прихода прямых составляющих сигнала двух или более входных аудиосигналов x1(k,n), x2(k,n), … xp(k,n).

Кроме того, процессор 105 сигнала выполнен с возможностью генерации одного или более обработанных диффузных сигналов Ydiff,1(k,n), Ydiff,2(k,n), …, Ydiff,v(k,n) в зависимости от диффузного компонентного сигнала Xdiff(k,n).

Для каждого выходного аудиосигнала Yi(k,n) из одного или более выходных аудиосигналов Y1(k,n), Y2(k,n), …, Yv(k,n), процессор 105 сигнала выполнен с возможностью определения, в зависимости от направления прихода, прямого коэффициента усиления Gi(k,n), процессор 105 сигнала выполнен с возможностью применения упомянутого прямого коэффициента усиления Gi(k,n) к прямому компонентному сигналу Xdir(k,n) для получения обработанного прямого сигнала Ydir,i(k,n), и процессор 105 сигнала выполнен с возможностью объединения упомянутого обработанного прямого сигнала Ydir,i(k,n) и одного Ydiff,i(k,n) из одного или более обработанных диффузных сигналов Ydiff,1(k,n), Ydiff,2(k,n), …, Ydiff,v(k,n) для генерации упомянутого выходного аудиосигнала Yi(k,n).

Выходной 106 интерфейс выполнен с возможностью вывода одного или более выходных аудиосигналов Y1(k,n), Y2(k,n), …, Yv(k,n).

Как описано, информация направления зависит от направления прихода ϕ(k,n) прямых составляющих сигнала двух или более входных аудиосигналов x1(k,n), x2(k,n), … xp(k,n). Например, направление прихода прямых составляющих сигнала двух или более входных аудиосигналов x1(k,n), x2(k,n), … xp(k,n) может, например, само быть информацией направления. Или, например, информация направления, может, например, быть направлением распространения прямых составляющих сигнала двух или более входных аудиосигналов x1(k,n), x2(k,n), … xp(k,n). Направление прихода указывает от принимающей микрофонной решетки к источнику звука, направление распространения указывает от источника звука к принимающей микрофонной решетке. Таким образом, направление распространения в точности противоположно направлению прихода и поэтому зависит от направления прихода.

Для генерации одного Yi(k,n) из одного или более выходных аудиосигналов Y1(k,n), Y2(k,n), …, Yv(k,n), процессор 105 сигнала

- определяет, в зависимости от направления прихода, прямой коэффициент усиления Gi(k,n),

- применяет упомянутый прямой коэффициент усиления Gi(k,n) к прямому компонентному сигналу Xdir(k,n) для получения обработанного прямого сигнала Ydir,i(k,n), и

- объединяет упомянутый обработанный прямой сигнал Ydir,i(k,n) и один Ydiff,i(k,n) из одного или более обработанных диффузных сигналов Ydiff,1(k,n), Ydiff,2(k,n), …, Ydiff,v(k,n) для генерации упомянутого выходного аудиосигнала Yi(k,n).

Это осуществляется для каждого из одного или более выходных аудиосигналов Y1(k,n), Y2(k,n), …, Yv(k,n), которые должны быть сгенерированными Y1(k,n), Y2(k,n), …, Yv(k,n). Процессор сигналов может, например, быть выполнен с возможностью генерации одного, двух, трех или более выходных аудиосигналов Y1(k,n), Y2(k,n), …, Yv(k,n).

В отношении одного или более обработанных диффузных сигналов Ydiff,1(k,n), Ydiff,2(k,n), …, Ydiff,v(k,n), согласно варианту осуществления, процессор 105 сигнала может, например, быть выполнен с возможностью генерации одного или более обработанных диффузных сигналов Ydiff,1(k,n), Ydiff,2(k,n), …, Ydiff,v(k,n) путем применения диффузного коэффициента усиления Q(k,n) к диффузному компонентному сигналу Xdiff(k,n).

Модуль 101 разложения выполнен с возможностью, например, генерации прямого компонентного сигнал Xdir(k,n), содержащего прямые составляющие сигнала двух или более входных аудиосигналов x1(k,n), x2(k,n), … xp(k,n), и диффузного компонентного сигнала Xdiff(k,n), содержащего диффузные составляющие сигнала двух или более входных аудиосигналов x1(k,n), x2(k,n), … xp(k,n), путем разложения одного или более входных аудиосигналов на прямой компонентный сигнал и диффузный компонентный сигнал.

В конкретном варианте осуществления, процессор 105 сигнала может, например, быть выполнен с возможностью генерации двух или более выходных аудиоканалов Y1(k,n), Y2(k,n), …, Yv(k,n). Процессор 105 сигнала может, например, быть выполнен с возможностью применения диффузного коэффициента усиления Q(k,n) к диффузному компонентному сигналу Xdiff(k,n) для получения промежуточного диффузного сигнала. Кроме того, процессор 105 сигнала может, например, быть выполнен с возможностью генерации одного или более декоррелированных сигналов из промежуточного диффузного сигнала путем проведения декорреляции, причем один или более декоррелированных сигналов образуют один или более обработанных диффузных сигналов Ydiff,1(k,n), Ydiff,2(k,n), …, Ydiff,v(k,n), или промежуточный диффузный сигнал и один или более декоррелированных сигналов образуют один или более обработанных диффузных сигналов Ydiff,1(k,n), Ydiff,2(k,n), …, Ydiff,v(k,n).

Например, количество обработанных диффузных сигналов Ydiff,1(k,n), Ydiff,2(k,n), …, Ydiff,v(k,n) и количество выходных аудиосигналов может, например, быть равно Y1(k,n), Y2(k,n), …, Yv(k,n).

Генерация одного или более декоррелированных сигналов из промежуточного диффузного сигнала может, например, проводиться путем применения задержек к промежуточному диффузному сигналу, или, например, путем осуществления свертки промежуточного диффузного сигнала с шумовым импульсом или, например, путем осуществления свертки промежуточного диффузного сигнала с импульсным откликом и т.д. Альтернативно или дополнительно, можно применять, например, любой другой традиционный метод декорреляции.

Для получения v выходных аудиосигналов Y1(k,n), Y2(k,n), …, Yv(k,n), v определений v прямых коэффициентов усиления G1(k,n), G2(k,n), …, Gv(k,n) и v применений соответствующего коэффициента усиления к одному или более прямым компонентным сигналам Xdir(k,n) можно, например, использовать для получения v выходных аудиосигналов Y1(k,n), Y2(k,n), …, Yv(k,n).

Для получения v выходных аудиосигналов Y1(k,n), Y2(k,n), …, Yv(k,n) может, например, потребоваться один-единственный диффузный компонентный сигнал Xdiff(k,n), одно-единственное определение одиночного диффузного коэффициента усиления Q(k,n) и одно-единственное применение диффузного коэффициента усиления Q(k,n) к диффузному компонентному сигналу Xdiff(k,n). Для обеспечения декорреляции, методы декорреляции можно применять только после применения диффузного коэффициента усиления к диффузному компонентному сигналу.

Согласно варианту осуществления, показанному на фиг. 1a, тот же обработанный диффузный сигнал Ydiff(k,n) затем объединяется с соответствующим одним (Ydir,i(k,n)) из обработанных прямых сигналов для получения соответствующего одного (Yi(k,n)) из выходных аудиосигналов.

Согласно варианту осуществления, показанному на фиг. 1a, учитывается направление прихода прямых составляющих сигнала двух или более входных аудиосигналов x1(k,n), x2(k,n), … xp(k,n). Таким образом, выходные аудиосигналы Y1(k,n), Y2(k,n), …, Yv(k,n) можно генерировать, гибко регулируя прямые компонентные сигналы Xdir(k,n) и диффузные компонентные сигналы Xdiff(k,n) в зависимости от направления прихода. Достигаются улучшенные возможности адаптации.

Согласно вариантам осуществления выходные аудиосигналы Y1(k,n), Y2(k,n), …, Yv(k,n) можно, например, определять для каждого частотно-временного бина (k,n) частотно-временной области.

Согласно варианту осуществления, модуль 101 разложения может, например, быть выполнен с возможностью приема двух или более входных аудиосигналов x1(k,n), x2(k,n), … xp(k,n). В другом варианте осуществления, модуль 101 разложения может, например, быть выполнен с возможностью приема трех или более входных аудиосигналов x1(k,n), x2(k,n), … xp(k,n). Модуль 101 разложения может, например, быть выполнен с возможностью разложения двух или более (или трех или более входных аудиосигналов) x1(k,n), x2(k,n), … xp(k,n) на диффузный компонентный сигнал Xdiff(k,n), который не является многоканальным сигналом, и один или более прямых компонентных сигналов Xdir(k,n). То, что аудиосигнал не является многоканальным сигналом, означает, что аудиосигнал сам по себе не содержит более одного аудиоканала. Таким образом, аудиоинформация множества входных аудиосигналов передается в двух компонентных сигналах (Xdir(k,n), Xdiff(k,n)) (и, возможно, в дополнительной вспомогательной информации), что способствует эффективной передаче.

Процессор 105 сигнала, может, например, быть выполнен с возможностью генерации каждого выходного аудиосигнала Yi(k,n) из двух или более выходных аудиосигналов Y1(k,n), Y2(k,n), …, Yv(k,n) путем определения прямого коэффициента усиления Gi(k,n) для упомянутого выходного аудиосигнала Yi(k,n), путем применения упомянутого прямого коэффициента усиления Gi(k,n) к одному или более прямым компонентным сигналам Xdir(k,n) для получения обработанного прямого сигнала Ydir,i(k,n) для упомянутого выходного аудиосигнала Yi(k,n), и путем объединения упомянутого обработанного прямого сигнала Ydir,i(k,n) для упомянутого выходного аудиосигнала Yi(k,n) и обработанного диффузного сигнала Ydiff(k,n) для генерации упомянутого выходного аудиосигнала Yi(k,n). Выходной 106 интерфейс выполнен с возможностью вывода двух или более выходных аудиосигналов Y1(k,n), Y2(k,n), …, Yv(k,n). Особенно предпочтительна генерация два или более выходных аудиосигналов Y1(k,n), Y2(k,n), …, Yv(k,n) путем определения одного-единственного обработанного диффузного сигнала Ydiff(k,n).

На фиг. 1b показано устройство для генерации одного или более выходных аудиосигналов Y1(k,n), Y2(k,n), …, Yv(k,n) согласно варианту осуществления. Устройство реализует так называемую сторону ʺдальнего концаʺ системы, показанной на фиг. 1a.

Устройство, показанное на фиг. 1b, содержит процессор 105 сигнала и выходной 106 интерфейс.

Процессор 105 сигнала выполнен с возможностью приема прямого компонентного сигнала Xdir(k,n), содержащего прямые составляющие сигнала двух или более первоначальных аудиосигналов x1(k,n), x2(k,n), … xp(k,n) (например, входных аудиосигналов, показанных на фиг. 1a). Кроме того, процессор 105 сигнала выполнен с возможностью приема диффузного компонентного сигнала Xdiff(k,n), содержащего диффузные составляющие сигнала двух или более первоначальных аудиосигналов x1(k,n), x2(k,n), … xp(k,n). Кроме того, процессор 105 сигнала выполнен с возможностью приема информации направления, причем упомянутая информация направления зависит от направления прихода прямых составляющих сигнала двух или более входных аудиосигналов.

Процессор 105 сигнала выполнен с возможностью генерации одного или более обработанных диффузных сигналов Ydiff,1(k,n), Ydiff,2(k,n), …, Ydiff,v(k,n) в зависимости от диффузного компонентного сигнала Xdiff(k,n).

Для каждого выходного аудиосигнала Yi(k,n) из одного или более выходных аудиосигналов Y1(k,n), Y2(k,n), …, Yv(k,n), процессор 105 сигнала выполнен с возможностью определения, в зависимости от направления прихода, прямого коэффициента усиления Gi(k,n), процессор 105 сигнала выполнен с возможностью применения упомянутого прямого коэффициента усиления Gi(k,n) к прямому компонентному сигналу Xdir(k,n) для получения обработанного прямого сигнала Ydir,i(k,n), и процессор 105 сигнала выполнен с возможностью объединения упомянутого обработанного прямого сигнала Ydir,i(k,n) и одного Ydiff,i(k,n) из одного или более обработанных диффузных сигналов Ydiff,1(k,n), Ydiff,2(k,n), …, Ydiff,v(k,n) для генерации упомянутого выходного аудиосигнала Yi(k,n).

Выходной 106 интерфейс выполнен с возможностью вывода одного или более выходных аудиосигналов Y1(k,n), Y2(k,n), …, Yv(k,n).

Все конфигурации процессора 105 сигнала, описанного в дальнейшем со ссылкой на систему, также могут быть реализованы в устройстве согласно фиг. 1b. Это относится, в частности, к различным конфигурациям модификатора 103 сигнала и модуля 104 вычисления функции усиления, которые описаны ниже. То же самое применимо к различных примерам применения описанных ниже принципов.

На фиг. 1c показана система согласно другому варианту осуществления. Согласно фиг. 1c, генератор 105 сигнала, показанный на фиг. 1a, дополнительно содержит модуль 104 вычисления функции усиления для вычисления одной или более функций усиления, причем каждая функция усиления из одной или более функций усиления, содержит множество значений аргумента функции усиления, причем возвращаемое значение функции усиления присваивается каждому из упомянутых значений аргумента функции усиления, причем, когда упомянутая функция усиления принимает одно из упомянутых значений аргумента функции усиления, упомянутая функция усиления выполнена с возможностью возвращения возвращаемого значения функции усиления, присваиваемого упомянутому одному из упомянутых значений аргумента функции усиления.

Кроме того, процессор 105 сигнала дополнительно содержит модификатор 103 сигнала для выбора, в зависимости от направления прихода, зависящего от направления значения аргумента из значений аргумента функции усиления функции усиления из одной или более функций усиления, для получения возвращаемого значения функции усиления, присваиваемого упомянутому зависящему от направления значению аргумента из упомянутой функции усиления, и для определения значения коэффициента усиления, по меньшей мере, одного из одного или более выходных аудиосигналов в зависимости от упомянутого возвращаемого значения функции усиления, полученного из упомянутой функции усиления.

На фиг. 1d показана система согласно другому варианту осуществления. Согласно фиг. 1d, генератор 105 сигнала, показанный на фиг. 1b, дополнительно содержит модуль 104 вычисления функции усиления для вычисления одной или более функций усиления, причем каждая функция усиления из одной или более функций усиления, содержит множество значений аргумента функции усиления, причем возвращаемое значение функции усиления присваивается каждому из упомянутых значений аргумента функции усиления, причем, когда упомянутая функция усиления принимает одно из упомянутых значений аргумента функции усиления, упомянутая функция усиления выполнена с возможностью возвращения возвращаемого значения функции усиления, присваиваемого упомянутому одному из упомянутых значений аргумента функции усиления.

Кроме того, процессор 105 сигнала дополнительно содержит модификатор 103 сигнала для выбора, в зависимости от направления прихода, зависящего от направления значения аргумента из значений аргумента функции усиления функции усиления из одной или более функций усиления, для получения возвращаемого значения функции усиления, присваиваемого упомянутому зависящему от направления значению аргумента из упомянутой функции усиления, и для определения значения коэффициента усиления, по меньшей мере, одного из одного или более выходных аудиосигналов в зависимости от упомянутого возвращаемого значения функции усиления, полученного из упомянутой функции усиления.

Варианты осуществления предусматривают запись и воспроизведение пространственного звука таким образом, что акустическое изображение согласуется с желаемым пространственным изображением, которое определяется, например, видео, дополняющим аудио, на стороне дальнего конца. Некоторые варианты осуществления базируются на записях, сделанных с помощью микрофонной решетки, расположенной на реверберирующей стороне ближнего конца. Варианты осуществления предусматривают, например, акустическое масштабирование, согласованное с визуальным масштабированием камеры. Например, при приближении, прямой звук громкоговорителей воспроизводится с направления, где располагались бы громкоговорители в приближенном визуальном изображении, благодаря чему, визуальное и акустическое изображения выравниваются. Если после приближения громкоговорители располагаются за пределами визуального изображения (или за пределами желаемой пространственной области), прямой звук этих громкоговорителей можно ослаблять, поскольку эти громкоговорители больше не видны, или, например, поскольку прямой звук от этих громкоговорителей не желателен. Кроме того, отношение прямого звука к реверберации можно, например, увеличивать при приближении для имитации меньшего угла раствора визуальной камеры.

Варианты осуществления базируются на принципе разделения записанных сигналов микрофонов на прямой звук источников звука и диффузный звук, например, реверберирующий звук, путем недавнего применения двух многоканальных фильтров на стороне ближнего конца. Эти многоканальные фильтры могут, например, опираться на параметрическую информацию звукового поля, например, DOA прямого звука. В некоторых вариантах осуществления, разделенные прямой звук и диффузный звук могут, например, передаваться стороне дальнего конца совместно с параметрической информацией.

Например, на стороне дальнего конца, конкретные весовые коэффициенты можно, например, применять к выделенным прямому звуку и диффузному звуку, которые регулируют воспроизводимое акустическое изображение таким образом, что полученные выходные аудиосигналы согласуются с желаемым пространственным изображением. Эти весовые коэффициенты моделируют, например, эффект акустической масштабирования, и зависят, например, от направления прихода (DOA) прямого звука и, например, от коэффициента масштабирования и/или направления наведения камеры. Затем окончательные выходные аудиосигналы можно, например, получать путем суммирования взвешенных прямого звука и диффузного звука.

Изложенные принципы реализуют эффективное использование в вышеупомянутом сценарии видеозаписи с помощью бытовых устройств или в сценарии телеконференцсвязи: например, в сценарии видеозаписи, может быть, например, достаточно сохранять или передавать выделенные прямой звук и диффузный звук (вместо сигналов всех микрофонов), сохраняя при этом возможность управления воссоздаваемым пространственным изображением.

Это означает, что если, например, визуальная масштабирование применяется на этапе последующей обработки (цифровой масштабирования), акустическое изображение все еще можно соответственно изменять без необходимости в сохранении первоначальных сигналов микрофонов и доступе к ним. В сценарии телеконференцсвязи, предложенные принципы также можно эффективно использовать, поскольку выделение прямого и диффузного звука можно осуществлять на стороне ближнего конца, сохраняя способность управления воспроизведением пространственного звука (например, изменения конфигурации громкоговорителей) на стороне дальнего конца и выравнивания акустического и визуального изображений. Таким образом, необходимо передавать только несколько аудиосигналов и оцененных DOA в качестве вспомогательной информации, при низкой вычислительной сложности на стороне дальнего конца.

На фиг. 2 показана система согласно варианту осуществления. Сторона ближнего конца содержит модули 101 и 102. Сторона дальнего конца содержит модули 105 и 106. Модуль 105 сам содержит модули 103 и 104. Рассматривая сторону ближнего конца и сторону дальнего конца, следует понимать, что в некоторых вариантах осуществления, первое устройство может реализовать сторону ближнего конца (например, содержащую модули 101 и 102), и второе устройство может реализовать сторону дальнего конца (например, содержащую модули 103 и 104), тогда как в других вариантах осуществления, единое устройство реализует, как сторону ближнего конца, так и сторону дальнего конца, причем такое единое устройство, например, содержит модули 101, 102, 103 и 104.

В частности, на фиг. 2 показана система согласно варианту осуществления содержащая модуль 101 разложения, модуль 102 оценивания параметров, процессор 105 сигнала и выходной 106 интерфейс. Согласно фиг. 2, процессор 105 сигнала содержит модуль 104 вычисления функции усиления и модификатор 103 сигнала. Процессор 105 сигнала и выходной 106 интерфейс могут, например, реализовать устройство, показанное на фиг. 1b.

Кроме того, модуль 102 оценивания параметров, показанный на фиг. 2, может, например, быть выполнен с возможностью приема двух или более входных аудиосигналов x1(k,n), x2(k,n), … xp(k,n). Кроме того, модуль 102 оценивания параметров может, например, быть выполнен с возможностью оценивания направления прихода прямых составляющих сигнала двух или более входных аудиосигналов x1(k,n), x2(k,n), … xp(k,n) в зависимости от двух или более входных аудиосигналов. Процессор 105 сигнала может, например, быть выполнен с возможностью приема информации направления прихода, содержащей направление прихода прямых составляющих сигнала двух или более входных аудиосигналов, от модуля 102 оценивания параметров.

Вход системы, показанной на фиг. 2, состоит из M сигналов микрофонов X1...M(k,n) в частотно-временной области (частотный индекс k, временной индекс n). Например, можно предположить, что звуковое поле, захватываемое микрофонами, состоит для каждого (k,n) из плоской волны, распространяющейся в изотропном диффузном поле. Плоская волна моделирует прямой звук источников звука (например, громкоговорителей), тогда как диффузный звук моделирует реверберацию.

Согласно такой модели, сигнал m-го микрофона можно выразить в виде

(1)

где Xdir,m(k,n) - измеренный прямой звук (плоская волна), Xdiff,m(k,n) - измеренный диффузный звук, и Xn,m(k,n) - шумовая составляющая (например, собственный шум микрофона).

В модуле 101 разложения, показанном на фиг. 2 (разложения на прямые/диффузные составляющие), прямой звук Xdir(k,n) и диффузный звук Xdiff(k,n) выделяется из сигналов микрофонов. С этой целью можно применять, например, информированные многоканальные фильтры, описанные ниже. Для разложения на прямые/диффузные составляющие, можно, например, использовать конкретную параметрическую информацию о звуковое поле, например, DOA прямого звука ϕ(k,n). Эту параметрическую информацию можно, например, оценивать из сигналов микрофонов в модуле 102 оценивания параметров. Помимо DOA ϕ(k,n) прямого звука, в некоторых вариантах осуществления, можно, например, оценивать информацию расстояния r(k,n). Эта информация расстояния может, например, описывать расстояние между микрофонной решеткой и источником звука, который испускает плоскую волну. Для оценивания параметров, можно, например, использовать блоки оценивания расстояния и/или традиционные блоки оценивания DOA,. Соответствующие блоки оценивания могут быть, например, описаны ниже.

Выделенный прямой звук Xdir(k,n), выделенный диффузный звук Xdiff(k,n) и оцененная параметрическая информация прямого звука, например, DOA ϕ(k,n) и/или расстояние r(k,n), могут, например, затем сохраняться, передаваться стороне дальнего конца, или сразу использоваться для генерации пространственного звука с желаемым пространственным изображением, например, для создания эффекта акустической масштабирования.

Желаемое акустическое изображение, например, эффект акустической масштабирования, генерируется в модификаторе 103 сигнала с использованием выделенного прямого звука Xdir(k,n), выделенного диффузного звука Xdiff(k,n) и оцененной параметрической информации ϕ(k,n) и/или r(k,n).

Модификатор 103 сигнала может, например, вычислять один или более выходных сигналов Yi(k,n) в частотно-временной области, которые воссоздают акустическое изображение таким образом, что оно согласуется с желаемым пространственным изображением. Например, выходные сигналы Yi(k,n) имитируют эффект акустической масштабирования. Наконец, эти сигналы могут преобразовываться обратно во временную область и воспроизводиться, например, через громкоговорители или головные наушники. i-й выходной сигнал Yi(k,n) вычисляется как взвешенная сумма выделенного прямого звука Xdir(k,n) и диффузного звука Xdiff(k,n), например,

В формулах (2a) и (2b), весовые коэффициенты Gi(k,n) и Q являются параметрами, которые используются для создания желаемого акустического изображения, например, эффекта акустической масштабирования. Например, при приближении, параметр Q можно уменьшать таким образом, чтобы ослаблять воспроизводимый диффузный звук.

Кроме того, с помощью весовых коэффициентов Gi(k,n) можно управлять, с какого направления воспроизводить прямой звук, благодаря чему, визуальное и акустическое изображения выравниваются. Кроме того, эффект акустического размывания можно выравнивать с прямым звуком.

В некоторых вариантах осуществления, весовые коэффициенты Gi(k,n) и Q могут, например, определяться в блоках 201 и 202 выбора коэффициента усиления. Эти блоки могут, например, выбирать надлежащие весовые коэффициенты Gi(k,n) и Q из двух функций усиления, обозначенных gi и q, в зависимости от оцененной параметрической информации ϕ(k,n) и r(k,n). В математическом выражении,

(3a)

(3b)

В некоторых вариантах осуществления, функции усиления gi и q могут зависеть от применения и могут, например, генерироваться в модуле 104 вычисления функции усиления. Функции усиления описывают, какие весовые коэффициенты Gi(k,n) и Q следует использовать в (2a) для данной параметрической информации ϕ(k,n) и/или r(k,n), чтобы получить желаемое согласованное пространственное изображение.

Например, при приближении с помощью визуальной камеры, функции усиления регулируются таким образом, чтобы звук воспроизводился с направлений, где источники наблюдаются в видео. Весовые коэффициенты Gi(k,n) и Q и лежащие в основе функции усиления gi и q дополнительно описаны ниже. Следует отметить, что весовые коэффициенты Gi(k,n) и Q и лежащие в основе функции усиления gi и q могут, например, быть комплекснозначными. Вычисление функций усиления требует такой информации, как коэффициент масштабирования, ширина визуального изображения, желаемое направление наведения и конфигурация громкоговорителей.

В других вариантах осуществления, весовые коэффициенты Gi(k,n) и Q вычисляются непосредственно в модификаторе 103 сигнала, вместо того, чтобы сначала вычислять функции усиления в модуле 104 и затем выбирать весовые коэффициенты Gi(k,n) и Q из вычисленных функций усиления в блоках 201 и 202 выбора коэффициента усиления.

Согласно вариантам осуществления, более одной плоской волны на частотно-временной можно, например, подвергаться конкретной обработке. Например, две или более плоских волн в одном и том же частотном диапазоне могут, например, приходить с двух разных направлений и записываться микрофонной решеткой в один и тот же момент времени. Эти две плоские волны могут приходить с разных направлений. В таких сценариях, прямые составляющие сигнала двух или более плоских волн и их направление прихода можно, например, рассматривать по отдельности.

Согласно вариантам осуществления, прямой компонентный сигнал Xdir1(k,n) и один или более дополнительных прямых компонентных сигналов Xdir2(k,n), …, Xdir q(k,n) могут, например, образовывать группу из двух или более прямых компонентных сигналов Xdir1(k,n), Xdir2(k,n), …, Xdir q(k,n), причем модуль 101 разложения может, например, быть выполнен с возможностью генерации одного или более дополнительных прямых компонентных сигналов Xdir2(k,n), …, Xdir q(k,n), содержащих дополнительные прямые составляющие сигнала двух или более входных аудиосигналов x1(k,n), x2(k,n), … xp(k,n).

Направление прихода и одно или более дополнительных направлений прихода образуют группу из двух или более направлений прихода, причем каждое направление прихода из группы из двух или более направлений прихода присваивается в точности одному прямому компонентному сигналу Xdir j(k,n) группы из двух или более прямых компонентных сигналов Xdir1(k,n), Xdir2(k,n), …, Xdir q,m(k,n), причем количество прямых компонентных сигналов из двух или более прямых компонентных сигналов, и количество направлений прихода двух направлений прихода равны.

Процессор 105 сигнала может, например, быть выполнен с возможностью приема группы из двух или более прямых компонентных сигналов Xdir1(k,n), Xdir2(k,n), …, Xdir q(k,n) и группы из двух или более направлений прихода.

Для каждого выходного аудиосигнала Yi(k,n) из одного или более выходных аудиосигналов Y1(k,n), Y2(k,n), …, Yv(k,n),

- процессор 105 сигнала может, например, быть выполнен с возможностью определения, для каждого прямого компонентного сигнала Xdir j(k,n) из группы из двух или более прямых компонентных сигналов Xdir1(k,n), Xdir2(k,n), …, Xdir q(k,n), прямого коэффициента усиления Gj,i(k,n) в зависимости от направления прихода упомянутого прямого компонентного сигнала Xdir j(k,n),

- процессор 105 сигнала может, например, быть выполнен с возможностью генерации группы из двух или более обработанных прямых сигналов Ydir1,i(k,n), Ydir2,i(k,n), …, Ydir q,i(k,n) путем применения, для каждого прямого компонентного сигнала Xdir j(k,n) из группы из двух или более прямых компонентных сигналов Xdir1(k,n), Xdir2(k,n), …, Xdir q(k,n), прямого коэффициента усиления Gj,i(k,n) упомянутого прямого компонентного сигнала Xdir j(k,n) к упомянутому прямому компонентному сигналу Xdir j(k,n), и

- процессор 105 сигнала может, например, быть выполнен с возможностью объединения одного Ydiff,i(k,n) из одного или более обработанных диффузных сигналов Ydiff,1(k,n), Ydiff,2(k,n), …, Ydiff,v(k,n) и каждого обработанного сигнала Ydir j,i(k,n) из группы из двух или более обработанных сигналов Ydir1,i(k,n), Ydir2,i(k,n), …, Ydir q,i(k,n) для генерации упомянутого выходного аудиосигнала Yi(k,n).

Таким образом, если рассматривать по отдельности две или более плоских волн, модель, выраженная формулой (1), приобретет вид:

Xm(k,n)=Xdir1,m(k,n)+Xdir2,m(k,n)+…+Xdir q,m(k,n)+Xdiff,m(k,n)+Xn,m(k,n)

и весовые коэффициенты можно, например, вычислять аналогично формулам (2a) и (2b) согласно:

Yi(k,n)=G1,i(k,n) Xdir1(k,n)+G2,i(k,n) Xdir2(k,n) +…+Gq,i(k,n) Xdir q(k,n)+Q Xdiff,m(k,n)=Ydir1,i(k,n)+Ydir2,i(k,n) +…+ Ydir q,i(k,n)+Ydiff,i(k,n)

Если достаточно лишь нескольких прямых компонентных сигналов, диффузный компонентный сигнал и вспомогательная информация передаются от стороны ближнего конца стороне дальнего конца. Согласно варианту осуществления, количество прямых компонентных сигналов группы из двух или более прямых компонентных сигналов Xdir1(k,n), Xdir2(k,n), …, Xdir q(k,n) плюс 1 меньше количества входных аудиосигналов x1(k,n), x2(k,n), … xp(k,n), принимаемых приемным интерфейсом 101. (использование индексов: q+1<p) ʺплюс 1ʺ представляет необходимый диффузный компонентный сигнал Xdiff(k,n).

Далее приведены объяснения одиночной плоской волны, одиночного направления прихода и одиночного прямого компонентного сигнала, но следует понимать, что объясненные принципы одинаково применимы к более чем одной плоской волне, более чем одному направлению прихода и более чем одному прямому компонентному сигналу.

Далее описано выделение прямого и диффузного звука. Обеспечены практические реализации модуля 101 разложения, показанного на фиг. 2, который осуществляет разложение на прямые/диффузные составляющие.

Согласно вариантам осуществления, для осуществления согласованного воспроизведения пространственного звука, выходные сигналы двух недавно предложенных информированных фильтров линейно ограниченной минимальной дисперсии (LCMV), описанных в [8] и [9], объединяются, что обеспечивает точное многоканальное выделение прямого звука и диффузного звука с желаемым произвольным откликом, предполагая аналогичную модель звукового поля, как в DirAC (направленном аудиокодировании). Далее описан конкретный способ объединения этих фильтров согласно варианту осуществления.

Сначала опишем выделение прямого звука согласно варианту осуществления.

Прямой звук выделяется с использованием недавно предложенного информированного пространственного фильтра, описанного в [8]. Этот фильтр кратко описан ниже и затем выражен таким образом, чтобы его можно было использовать согласно вариантам осуществления, представленным фиг. 2.

Оцененный желаемый прямой сигнал для i-го канала громкоговорителя в (2b) и фиг. 2 вычисляется путем применения линейного многоканального фильтра к сигналам микрофонов, например,

(4)

где вектор x(k,n)=[X1(k,n),…,XM(k,n)]T содержит M сигналов микрофонов, и wdir,i - вектор комплекснозначных весовых коэффициентов. Здесь, весовые коэффициенты фильтра минимизируют шум и диффузный звук, содержащийся микрофонами при захвате прямого звука с желаемым коэффициентом усиления Gi(k,n). В математическом выражении, весовые коэффициенты можно, например, вычислять как

(5)

при условии линейного ограничения

(6)

Здесь, a(k,ϕ) - так называемый вектор распространения решетки. m-й элемент этого вектора является относительной передаточной функцией прямого звука между m-ым микрофоном и опорным микрофоном решетки (без потери общности, в нижеследующем описании используется первый микрофон в положении d1). Этот вектор зависит от DOA ϕ(k,n) прямого звука.

Вектор распространения решетки определен, например, в [8]. В формуле (6) документа [8], вектор распространения решетки определяется согласно

где ϕl - азимутальный угол направления прихода l-ой плоской волны. Таким образом, вектор распространения решетки зависит от направления прихода. Если существует или рассматривается одна-единственная плоская волна, индекс l можно исключить.

Согласно формуле (6) в [8], i-й элемент ai вектора распространения решетки a, описывающий сдвиг фазы l-ой плоской волны микрофонов с первого по i-й, определяется согласно

Например, ri равно расстоянию между первым и i-ым микрофонами, κ указывает волновое число плоской волны, и j - мнимая единица.

Дополнительную информацию о векторе распространения решетки a и его элементах ai можно найти в [8], которое в явном виде включено в данное описание в порядке ссылки.

Матрица M×M Фu(k,n) в (5) является матрицей спектральной плотности мощности (PSD) шума и диффузного звука, которую можно определить, как объяснено в [8]. Решение (5) задается согласно

(7)

где

(8)

Расчет фильтра требует вектора распространения решетки a(k, ϕ), который можно определить после оценивания DOA ϕ(k,n) прямого звука [8]. Как объяснено выше, вектор распространения решетки и, таким образом, фильтр зависит от DOA. DOA можно оценивать, как объяснено ниже.

Информированный пространственный фильтр, предложенный в [8], например, выделение прямого звука с использованием (4) и (7), нельзя непосредственно использовать согласно варианту осуществления, представленному на фиг. 2. Фактически, для расчета требуются сигналы микрофонов x(k,n) а также коэффициент усиления прямого звука Gi(k,n). Как следует из фиг. 2, сигналы микрофонов x(k,n) доступны только на стороне ближнего конца, тогда как коэффициент усиления прямого звука Gi(k,n) доступен только на стороне дальнего конца.

Чтобы использовать информированный пространственный фильтр согласно вариантам осуществления изобретения, предусмотрено изменение, в которой (7) заменяется на (4), что дает

(9)

где

(10)

Этот измененный фильтр hdir(k,n) не зависит от весовых коэффициентов Gi(k,n). Таким образом, фильтр можно применять на стороне ближнего конца для получения прямого звука , который затем может передаваться стороне дальнего конца совместно с оцененными DOA (и расстоянием) в качестве вспомогательной информации для обеспечения полного управления воспроизведением прямого звука. Прямой звук можно определять относительно опорного микрофона в положении d1. Таким образом, составляющие прямого звука также можно рассматривать как , и, таким образом:

(10a)

Таким образом, согласно варианту осуществления, модуль 101 разложения может, например, быть выполнен с возможностью генерации прямого компонентного сигнала путем применения фильтра к двум или более входным аудиосигналам согласно

,

где k указывает частоту, и при этом n указывает время, где указывает прямой компонентный сигнал, где x(k,n) указывает два или более входных аудиосигналов, где hdir(k,n) указывает фильтр, причем

где Ф-1u(k,n) указывает матрицу спектральной плотности мощности шума и диффузного звука двух или более входных аудиосигналов, где a(k,ϕ) указывает вектор распространения решетки, и ϕ указывает азимутальный угол направления прихода прямых составляющих сигнала двух или более входных аудиосигналов.

На фиг. 3 показаны модуль 102 оценивания параметров и модуль 101 разложения осуществляющий разложение на прямые/диффузные составляющие согласно варианту осуществления.

Вариант осуществления, проиллюстрированный на фиг. 3, осуществляет выделение прямого звука посредством модуля 203 выделения прямого звука и выделение диффузного звука посредством модуля 204 выделения диффузного звука.

Выделение прямого звука осуществляется в модуле 203 выделения прямого звука путем применения весовых коэффициентов фильтра к сигналам микрофонов, как указано в (10). Прямые весовые коэффициенты фильтра вычисляются в блоке вычисления 301 прямых весовых коэффициентов, который можно реализовать, например, согласно (8). Коэффициенты усиления Gi(k,n) согласно, например, уравнению (9), затем применяются на стороне дальнего конца, как показано на фиг. 2.

Далее описано выделение диффузного звука. Выделение диффузного звука можно реализовать, например, посредством модуля 204 выделения диффузного звука, показанного на фиг. 3. Диффузные весовые коэффициенты фильтра вычисляются в блоке 302 вычисления диффузных весовых коэффициентов, показанном на фиг. 3, например, как описано ниже.

Согласно вариантам осуществления, диффузный звук можно, например, выделять с использованием пространственного фильтра, который был недавно предложен в [9]. Диффузный звук Xdiff(k,n) в (2a) и на фиг. 2 можно, например, оценивать путем применения второго пространственного фильтра к сигналам микрофонов, например,

(11)

Чтобы найти оптимальный фильтр для диффузного звука hdiff(k,n), рассмотрим недавно предложенный фильтр в [9], который может выделять диффузный звук с желаемым произвольным откликом, минимизируя при этом шум на выходе фильтра. Для пространственно белого шума, фильтр задается как

(12)

при условии hHa(k,ϕ)=0 и hHγ1(k)=1. Первое линейное ограничение гарантирует подавление прямого звука, тогда как второе ограничение гарантирует, что в среднем, диффузный звук захватывается с желаемым коэффициентом усиления Q, см. документ [9]. Заметим, что γ1(k) представляет собой вектор когерентности диффузного звука, определенный в [9]. Решение (12) задается в виде

(13)

где

(14)

где I - единичная матрица размером M×M. Фильтр hdiff(k,n) не зависит от весовых коэффициентов Gi(k,n) и Q, и, таким образом, его можно вычислять и применять на стороне ближнего конца для получения . При этом, необходимо только передавать стороне дальнего конца единый аудиосигнал, а именно , сохраняя способность полностью управлять воспроизведением пространственного звука диффузного звука.

Кроме того, на фиг. 3 показано выделение диффузного звука согласно варианту осуществления. Выделение диффузного звука осуществляется в модуле 204 выделения диффузного звука путем применения весовых коэффициентов фильтра к сигналам микрофонов, как указано в формуле (11). Весовые коэффициенты фильтра вычисляются в блоке 302 вычисления диффузных весовых коэффициентов, который можно реализовать, например, с использованием формулы (13).

Далее описано оценивание параметров. Оценивание параметров может, например, проводиться посредством модуля 102 оценивания параметров, в котором может, например, оцениваться параметрическая информация о записанной звуковой сцене. Эта параметрическая информация используется для вычисления двух пространственных фильтров в модуле 101 разложения и для выбора коэффициента усиления в согласованном воспроизведении пространственного аудиосигнала в модификаторе 103 сигнала.

Сначала опишем определение/оценивание информации DOA.

Ниже описаны варианты осуществления, в которых модуль (102) оценивания параметров содержит блок оценивания DOA для прямого звука, например, для плоской волны, которая исходит из положения источника звука и поступает на микрофонную решетку. Без потери общности, предполагается, что одиночная плоская волна существует для каждого момента времени и каждой частоты. Другие варианты осуществления предусматривают случаи, когда существует множественные плоские волны, и описанные здесь принципов одиночной плоской волны напрямую распространяются на множественные плоские волны. Таким образом, настоящее изобретение также охватывает варианты осуществления с множественными плоскими волнами.

Узкополосные DOA можно оценивать из сигналов микрофонов с использованием одного из традиционных блоков оценивания узкополосного DOA, например, ESPRIT [10] или root MUSIC [11]. Вместо азимутального угла ϕ(k,n), информация DOA также может обеспечиваться в форме пространственной частоты μ[k|ϕ(k,n)], сдвига фазы или вектора распространения a[k|ϕ(k,n)] для одной или более волн, приходящих на микрофонную решетку. Следует отметить, что информация DOA также может обеспечиваться извне. Например, DOA плоской волны можно определять посредством видеокамеры совместно с алгоритмом распознавания лиц исходя из того, что акустическую сцену образуют говорящие люди.

Наконец, следует отметить, что информацию DOA также можно оценивать в 3D (в трех измерениях). В этом случае, углы азимута ϕ(k,n) и возвышения ϑ(k,n) оцениваются в модуле 102 оценивания параметров, и, в таком случае, DOA плоской волны обеспечивается, например, как (ϕ, ϑ).

Таким образом, рассматривая ниже азимутальный угол DOA, следует понимать, что все объяснения применимы также к углу возвышения DOA, к углу, выведенному из азимутального угла DOA, к углу, выведенному из угла возвышения DOA, или к углу, выведенному из азимутального угла и угла возвышения DOA. В более общем случае, все нижеприведенные объяснения одинаково применимы к любому углу, зависящему от DOA.

Теперь опишем определение/оценивание информации расстояния.

Некоторые варианты осуществления относятся к верхней акустической масштабирования на основании DOA и расстояний. В таких вариантах осуществления, модуль 102 оценивания параметров может, например, содержать два подмодуля, например, вышеописанный подмодуль оценивания DOA и подмодуль оценивания расстояния, который оценивает расстояние от положения записи до источника звука r(k,n). В таких вариантах осуществления, например, можно предположить, что каждая плоская волна, которая поступает на записывающую микрофонную решетку, исходит из источника звука и распространяется по прямой линии к решетке (что также именуется прямолинейным распространением).

Существуют несколько традиционных подходов к оцениванию расстояния с использованием сигналов микрофонов. Например, расстояние до источника можно найти путем вычисления отношений мощности между сигналами микрофонов, как описано в [12]. Альтернативно, расстояние до источника r(k,n) в акустически замкнутых пространствах (например, комнатах) можно вычислять на основании оцененного отношения сигнала к диффузии (SDR) [13]. Затем оценки SDR можно объединять со временем реверберации комнаты (известным или оцененным с использованием традиционных способов) для вычисления расстояния. Для высокого SDR, энергия прямого звука высока по сравнению с диффузным звуком, и это указывает, что расстояние до источника мало. При низком значении SDR, мощность прямого звука невелика по сравнению с реверберацией комнаты, что указывает большое расстояние до источника.

В других вариантах осуществления, вместо вычисления/оценивание расстояния с использованием модуля вычисления расстояния в модуле 102 оценивания параметров, внешняя информация расстояния может, например, приниматься, например, от визуальной системы. Например, при наблюдении можно, например, использовать традиционные методы, которые могут обеспечивать информацию расстояния, например, времяпролетный (ToF), стереоскопическое наблюдение и структурированный свет. Например, в ToF-камерах, расстояние до источника можно вычислять из измеренного времени прохождения светового сигнала испускаемого камерой и распространяющегося к источнику и обратно к датчику камеры. Компьютерное стереоскопическое наблюдение, например, использует две точки наблюдения, из которых визуальное изображение захватывается для вычисления расстояния до источника.

Альтернативно, например, можно применять камеры структурированного света, где известный рисунок пикселей проецируется на визуальную сцену. Анализ деформаций после проекции позволяет визуальной системе оценивать расстояние до источника. Следует отметить, что для согласованного воспроизведения аудиосцены требуется информация расстояния r(k,n) для каждого частотно-временного бина. Если информация расстояния обеспечивается визуальной системой извне, расстояние до источника r(k,n), которое соответствует DOA ϕ(k,n), можно, например, выбирать как значение расстояния от визуальной системы, которое соответствует этому конкретному направлению ϕ(k,n).

Далее рассмотрим согласованное воспроизведение акустической сцены. Сначала рассмотрим воспроизведение акустической сцены на основании DOA.

Воспроизведение акустической сцены может производиться таким образом, чтобы она согласовывалась с записанной акустической сценой. Альтернативно, воспроизведение акустической сцены может производиться таким образом, чтобы она согласовывалась с визуальным изображением. Соответствующая визуальная информация может предоставляться для обеспечения согласованности с визуальным изображением.

Согласованность может, например, достигаться путем регулировки весовых коэффициентов Gi(k,n) и Q в (2a). Согласно вариантам осуществления, модификатор 103 сигнала, который может, например, существовать, на стороне ближнего конца, или, как показано на фиг. 2, на стороне дальнего конца, может, например, принимать прямой и диффузный звуки в качестве входного сигнала, совместно с оценками DOA ϕ(k,n) в качестве вспомогательной информации. На основании этой принятой информации, выходные сигналы Yi(k,n) для доступной системы воспроизведения могут, например, генерироваться, например, согласно формуле (2a).

В некоторых вариантах осуществления, параметры Gi(k,n) и Q выбираются в блоках 201 и 202 выбора коэффициента усиления, соответственно, из двух функций усиления gi(ϕ(k,n)) и q(k,n), обеспеченных модулем 104 вычисления функции усиления.

Согласно варианту осуществления, Gi(k,n) можно, например, выбирать только на основании информации DOA, и Q может, например, иметь постоянное значение. Однако в других вариантах осуществления, весовой коэффициент Gi(k,n) можно, например, определять на основании дополнительной информации, и весовой коэффициент Q может, например, определяться переменно.

Сначала рассмотрим реализации, которые обеспечивают согласованность с записанной акустической сценой. Затем рассмотрим варианты осуществления, которые обеспечивают согласованность с информацией изображения/визуальным изображением.

Далее описано вычисление весовых коэффициентов Gi(k,n) и Q для воспроизведения акустической сцены, которая согласуется с записанной акустической сценой, например, таким образом, что слушатель, расположенный в зоне наилучшего восприятия системы воспроизведения, воспринимает источники звука как приходящие с DOA источников звука в записанной звуковой сцене, имеющие такую же мощность, как в записанной сцене, и воспроизводящие такое же восприятие окружающего диффузного звука.

Для известной конфигурации громкоговорителей, воспроизведение источника звука с направления ϕ(k,n) может, например, достигаться путем выбора коэффициента усиления прямого звука Gi(k,n) в блоке 201 выбора коэффициента усиления (ʺвыбора прямого коэффициента усиленияʺ) из фиксированной поисковой таблицы, обеспеченной модулем 104 вычисления функции усиления для оцененного DOA ϕ(k,n), который можно выразить в виде

(15)

где gi(ϕ)=pi(ϕ) - функция, возвращающая коэффициент усиления за счет панорамирования по всем DOA для i-го громкоговорителя. Панорамирующая функция усиления pi(ϕ) зависит от конфигурации громкоговорителей и схемы панорамирования.

Пример панорамирующей функции усиления pi(ϕ), определенной посредством амплитудного панорамирования на векторной основе (VBAP) [14] для левого и правого громкоговорителей в стереофоническом воспроизведении, показан на фиг. 5(a).

На фиг. 5(a) проиллюстрирован пример панорамирующей функции усиления VBAP pb,i для стереофонической конфигурации, и на фиг. 5(b) проиллюстрированы коэффициенты усиления за счет панорамирования для согласованного воспроизведения.

Например, если прямой звук поступает с ϕ(k,n)=30°, коэффициент усиления правого громкоговорителя равен Gr(k,n)=gr(30°)=pr(30°)=1, и коэффициент усиления левого громкоговорителя равен Gl(k,n)=gl(30°)=pl(30°)=0. Для прямого звука, приходящего с ϕ(k,n)=0°, окончательные коэффициенты усиления стереофонических громкоговорителей равны Gr(k,n)=Gl(k,n)=.

Согласно варианту осуществления, панорамирующая функция усиления, например, pi(ϕ), может представлять собой, например, связанной с головой передаточной функцией (HRTF) в случае бинаурального воспроизведения звука.

Например, если HRTF gi(ϕ)=pi(ϕ) возвращает комплексные значения, то коэффициент усиления прямого звука Gi(k,n), выбранный в блоке 201 выбора коэффициента усиления, может, например, быть комплекснозначным.

Если нужно генерировать три или более выходных аудиосигналов, соответствующие традиционные принципы панорамирования можно, например, использовать для панорамирования входного сигнала в три или более выходных аудиосигналов. Например, VBAP можно применять для трех или более выходных аудиосигналов.

При согласованном воспроизведении акустической сцены, мощность диффузного звука должна оставаться такой же, как в записанной сцене. Таким образом, для системы громкоговорителей, например, с эквидистантными громкоговорителями, коэффициент усиления диффузного звука имеет постоянное значение:

(16)

где I - количество выходных каналов громкоговорителей. Это означает, что модуль 104 вычисления функции усиления обеспечивает единое выходное значение для i-го громкоговорителя (или канала головного наушника) в зависимости от количества громкоговорителей, доступных для воспроизведения, и это значение используется как диффузный коэффициент усиления Q по всем частотам. Окончательный диффузный звук Ydiff,i(k,n) для i-го канала громкоговорителя получается путем декоррелирования Ydiff(k,n), полученного в (2b).

Таким образом, воспроизведение акустической сцены, которая согласуется с записанной акустической сценой, может обеспечиваться, например, путем определения коэффициенты усиления для каждого из выходных аудиосигналов в зависимости от, например, направления прихода, путем применения множества определенных коэффициентов усиления Gi(k,n) к прямому звуковому сигналу для определения множества прямых составляющих выходного сигнала , путем применения определенного коэффициента усиления Q к диффузному звуковому сигналу для получения диффузной составляющей выходного сигнала и путем объединения каждого из множества прямых составляющих выходного сигнала с диффузной составляющей выходного сигнала для получения одного или более выходных аудиосигналов .

Теперь опишем генерацию выходного аудиосигнала согласно вариантам осуществления, который достигает согласованности с визуальной сценой. В частности, опишем вычисление весовых коэффициентов Gi(k,n) и Q согласно вариантам осуществления которые используются для воспроизведения акустической сцены, которая согласуется с визуальной сценой. Задача состоит в воссоздании акустического изображения, в котором прямой звук от источника воспроизводится с направления, в котором источник наблюдается в видео/изображении.

Можно рассмотреть геометрию, изображенную на фиг. 4, где l соответствует направлению наведения визуальной камеры. Без потери общности, l может задавать ось y системы координат.

Азимут DOA прямого звука в изображенной системе координат (x,y) задается в виде ϕ(k,n) и положение источника на оси x задается в виде xg(k,n). Здесь предполагается, что все источники звука располагаются на одном и том же расстоянии g от оси x, например, положения источников располагаются на левой пунктирной линии, которая называется в оптике фокальной плоскостью. Следует отметить, что это предположение выдвинуто только чтобы гарантировать, что визуальные и акустические изображения выровнены, и фактическое значение расстояния g не требуется для представленной обработки.

На стороне воспроизведения (стороне дальнего конца), дисплей располагается в b, и положение источника на дисплее задается в виде xb(k,n). Кроме того, xd обозначает размер дисплея (или, в некоторых вариантах осуществления, например, xd указывает половину размера дисплея), ϕd - соответствующий максимальный визуальный угол, S - зона наилучшего восприятия системы воспроизведения звука, и ϕb(k,n) - угол, из которого должен воспроизводиться прямой звук таким образом, чтобы визуальные и акустические изображения были выровнены. ϕb(k,n) зависит от xb(k,n) и от расстояния между зоной наилучшего восприятия S и дисплеем, расположенным в b. Кроме того, xb(k,n) зависит от нескольких параметров, например, расстояния g источника от камеры, размера датчика изображения, и размера дисплея xd. К сожалению, по меньшей мере, некоторые из этих параметров часто не известны на практике, что не позволяет определять xb(k,n) и ϕb(k,n) для данного DOA ϕg(k,n). Однако, предполагая линейность оптической системы, согласно формуле (17):

(17)

где c - неизвестная постоянная, компенсирующая вышеупомянутые неизвестные параметры. Следует отметить, что c является постоянной, только если все положения источников имеют одинаковое расстояние g до оси x.

В дальнейшем предполагается, что c является параметром калибровки, который следует регулировать на стадии калибровки, пока визуальные и акустические изображения не будут согласованы. Для осуществления калибровки, источники звука нужно расположить в фокальной плоскости и найти значение c, при котором визуальные и акустические изображения будут выровнены. После калибровки, значение c остается неизменным, и угол, из которого должен воспроизводиться прямой звук, задается в виде

(18)

Чтобы гарантировать согласованность акустической и визуальной сцен, первоначальная панорамирующая функция pi(ϕ) заменяется согласованной (измененной) панорамирующей функцией pb,i(ϕ). Теперь коэффициент усиления прямого звука Gi(k,n) выбирается согласно

(19)

(20)

где pb,i(ϕ) - согласованная панорамирующая функция, возвращающая коэффициенты усиления за счет панорамирования для i-го громкоговорителя по всем возможным DOA источников. Для фиксированного значения c, такая согласованная панорамирующая функция вычисляется в модуле 104 вычисления функции усиления из первоначальной таблицы коэффициентов усиления за счет панорамирования (например, VBAP) как

(21)

Таким образом, согласно вариантам осуществления, процессор 105 сигнала может, например, быть выполнен с возможностью определения, для каждого выходного аудиосигнала из одного или более выходных аудиосигналов, таким образом, что прямой коэффициент усиления Gi(k,n) определяется согласно

Gi(k,n)=pi(tan-1[c tan(ϕ(k,n))]),

где i указывает индекс упомянутого выходного аудиосигнала, k указывает частоту, и n указывает время, где Gi(k,n) указывает прямой коэффициент усиления, ϕ(k,n) указывает угол в зависимости от направления прихода (например, азимутальный угол направления прихода), c указывает постоянное значение, и pi указывает панорамирующую функцию.

Согласно вариантам осуществления, коэффициент усиления прямого звука Gi(k,n) выбирается в блоке 201 выбора коэффициента усиления на основании оцененного DOA ϕ(k,n) из фиксированной поисковой таблицы, обеспеченной модулем 104 вычисления функции усиления, которая вычисляется один раз (после стадии калибровки) с использованием (19).

Таким образом, согласно варианту осуществления, процессор 105 сигнала может, например, быть выполнен с возможностью получения, для каждого выходного аудиосигнала из одного или более выходных аудиосигналов, прямого коэффициента усиления для упомянутого выходного аудиосигнала из поисковой таблицы в зависимости от направления прихода.

Согласно варианту осуществления, процессор 105 сигнала вычисляет поисковую таблицу для функции прямого усиления gi(k,n). Например, для каждого возможного полного градуса, например, 1°, 2°, 3°, …, для значения азимута ϕ DOA, прямой коэффициент усиления Gi(k,n) можно вычислять и сохранять заранее. Затем, когда текущее значение азимута ϕ направления прихода принято, процессор 105 сигнала считывает прямой коэффициент усиления Gi(k,n) для текущего значения азимута ϕ из поисковой таблицы. (Текущее значение азимута ϕ, может быть, например, значением аргумента поисковой таблицы; и прямой коэффициент усиления Gi(k,n) может быть, например, возвращаемым значением поисковой таблицы). Вместо азимута ϕ DOA, в других вариантах осуществления, поисковую таблицу можно вычислять для любого угла в зависимости от направления прихода. Преимущество, состоит в том, что значение коэффициента усиления не всегда нужно вычислять для каждого момента времени, или для каждого частотно-временного бина, но вместо этого, поисковая таблица вычисляется один раз и затем, для принятого угла ϕ, прямой коэффициент усиления Gi(k,n) считывается из поисковой таблицы.

Таким образом, согласно варианту осуществления, процессор 105 сигнала может, например, быть выполнен с возможностью вычисления a поисковая таблица, причем поисковая таблица содержит множество записей, причем каждая из записей содержит значение аргумента поисковой таблицы и возвращаемое значение поисковой таблицы, присваиваемое упомянутому значению аргумента. Процессор 105 сигнала может, например, быть выполнен с возможностью получения одного из возвращаемых значений поисковой таблицы из поисковой таблицы путем выбора одного из значений аргумента поисковой таблицы поисковой таблицы в зависимости от направления прихода. Кроме того, процессор 105 сигнала может, например, быть выполнен с возможностью определения значения коэффициента усиления для, по меньшей мере, одного из одного или более выходных аудиосигналов, в зависимости от упомянутого одного из возвращаемых значений поисковой таблицы, полученных из поисковой таблицы.

Процессор 105 сигнала может, например, быть выполнен с возможностью получения другого из возвращаемых значений поисковой таблицы из (той же) поисковой таблицы путем выбора другого из значений аргумента поисковой таблицы в зависимости от другого направления прихода для определения другого значения коэффициента усиления. Например, процессор сигналов может, например, принимать дополнительную информацию направления, например, в более поздний момент времени, которая зависит от упомянутого дополнительного направления прихода.

Пример панорамирования VBAP и согласованные панорамирующие функции усиления показаны на фиг. 5(a) и 5(b).

Следует отметить, что вместо перерасчета таблиц коэффициента усиления за счет панорамирования, можно альтернативно вычислять DOA ϕb(k,n) для дисплея и применять его в первоначальной панорамирующей функции как ϕi(ϕb(k,n)). Это верно, поскольку справедливо следующее соотношение:

(22)

Однако для этого требуется, чтобы модуль 104 вычисления функции усиления также принимал оцененные DOA ϕ(k,n) в качестве входного сигнала, и чтобы перерасчет DOA, например, проводимый согласно формуле (18), затем осуществлялся для каждого временного индекса n.

В отношении воспроизведения диффузного звука, акустические и визуальные изображения согласованно воссоздаются, когда обрабатываются таким же образом, как объяснено для случая отсутствия визуальных изображений, например, когда мощность диффузного звука остается такой же, как диффузная мощность в записанной сцене, и сигналы громкоговорителей являются раскоррелированными версиями Ydiff(k,n). Для эквидистантных громкоговорителей, коэффициент усиления диффузного звука имеет постоянное значение, например, заданное формулой (16). В результате, модуль 104 вычисления функции усиления обеспечивает единое выходное значение для i-го громкоговорителя (или канала головного наушника), которое используется как диффузный коэффициент усиления Q по всем частотам. Окончательный диффузный звук Ydiff,i(k,n) для i-го канала громкоговорителя получается путем декоррелирования Ydiff(k,n), например, согласно формуле (2b).

Теперь рассмотрим варианты осуществления, где предусмотрено акустическое масштабирование на основании DOA. В таких вариантах осуществления, можно рассматривать обработку для акустического масштабирования, которое согласуется с визуальным масштабированием. Эта согласованная аудиовизуальная масштабирование достигается путем регулировки весовых коэффициентов Gi(k,n) и Q, например, используемых в формуле (2a) как указано в модификаторе 103 сигнала на фиг. 2.

Согласно варианту осуществления, прямой коэффициент усиления Gi(k,n) можно, например, выбирать в блоке 201 выбора коэффициента усиления из функции прямого усиления gi(k,n), вычисленной в модуле 104 вычисления функции усиления на основании DOA, оцененных в модуле 102 оценивания параметров. Диффузный коэффициент усиления Q выбирается в блоке 202 выбора коэффициента усиления из функции диффузного усиления q(β), вычисленной в модуле 104 вычисления функции усиления. В других вариантах осуществления, прямой коэффициент усиления Gi(k,n) и диффузный коэффициент усиления Q вычисляются модификатором 103 сигнала без первоначального вычисления соответствующей функции усиления и последующего выбора коэффициентов усиления.

Следует отметить, что в отличие от вышеописанного варианта осуществления, функция диффузного усиления q(β) определяется на основании коэффициента масштабирования β. Согласно вариантам осуществления, информация расстояния не используется, и, таким образом, в таких вариантах осуществления, не оценивается в модуле 102 оценивания параметров.

Для вывода параметров масштабирования Gi(k,n) и Q в (2a), рассматривается геометрия, показанная на фиг. 4. Параметры, обозначенные на фигуре, аналогичны описанным со ссылкой на фиг. 4 согласно вышеописанному варианту осуществления.

Аналогично вышеописанному варианту осуществления, предполагается, что все источники звука располагаются в фокальной плоскости, которая располагается параллельно оси x на расстоянии g. Следует отметить, что некоторые системы автофокусировки способны обеспечивать g, например, расстояние до фокальной плоскости. Это позволяет предполагать, что все источники в изображении являются резкими. На стороне воспроизведения (дальнем конце), DOA ϕb(k,n) и положение xb(k,n) на дисплее зависят от многих параметров, например, расстояния g источника от камеры, размера датчика изображения, размера дисплея xd и коэффициента масштабирования камеры (например, угла раствора камеры) β. Предполагая линейность оптической системы, согласно формуле (23):

(23)

где c - параметр калибровки, компенсирующий неизвестные оптические параметры, и β≥1 - регулируемый пользователем коэффициент масштабирования. Следует отметить, что в визуальной камере, приближение с коэффициентом β эквивалентно умножению xb(k,n) на β. Кроме того, c является постоянной, только если все положения источников имеют одинаковое расстояние g до оси x. В этом случае, c можно рассматривать как параметр калибровки, который регулируется один раз таким образом, чтобы визуальные и акустические изображения были выровнены. Коэффициент усиления прямого звука Gi(k,n) выбирается из функции прямого усиления gi(ϕ) в виде

(24)

(25)

где pb,i(ϕ) обозначает панорамирующую функцию усиления, и wb(ϕ) - функция окна усиления для согласованного аудиовизуального масштабирования. Панорамирующая функция усиления для согласованного аудиовизуального масштабирования вычисляется в модуле 104 вычисления функции усиления из первоначальной (например, VBAP) панорамирующей функции усиления pi(ϕ) в виде

(26)

Таким образом, коэффициент усиления прямого звука Gi(k,n), например, выбранный в блоке 201 выбора коэффициента усиления, определяется на основании оцененного DOA ϕ(k,n) из поисковой таблицы панорамирования, вычисленной в модуле 104 вычисления функции усиления, которое является фиксированным, если β не изменяется. Следует отметить, что, в некоторых вариантах осуществления, pb,i(ϕ) нуждается в перерасчете, например, с использованием формулы (26) каждый раз, когда коэффициент масштабирования β изменяется.

Пример стереопанорамирующих функций усиления для β=1 и β=3 показаны на фиг. 6 (см. фиг. 6(a) и фиг. 6(b)). В частности, фиг. 6(a) демонстрирует пример панорамирующей функции усиления pb,i для β=1; фиг. 6(b) демонстрирует коэффициенты усиления за счет панорамирования после масштабирования с β=3; и фиг. 6(c) демонстрирует коэффициенты усиления за счет панорамирования после масштабирования с β=3 с угловым сдвигом.

Как можно видеть в примере, когда прямой звук поступает с ϕ(k,n)=10°, коэффициент усиления за счет панорамирования для левого громкоговорителя увеличивается для больших значений β, тогда как панорамирующая функция для правого громкоговорителя и β=3 возвращает меньшее значение, чем для β=1. Такое панорамирование эффективно перемещает воспринимаемое положение источника в направлениях наружу, когда коэффициент масштабирования β увеличивается.

Согласно вариантам осуществления, процессор 105 сигнала может, например, быть выполнен с возможностью определения двух или более выходных аудиосигналов. Для каждого выходного аудиосигнала из двух или более выходных аудиосигналов, панорамирующая функция усиления присваивается упомянутому выходному аудиосигналу.

Панорамирующая функция усиления каждого из двух или более выходных аудиосигналов содержит множество значений аргумента панорамирующей функции, причем возвращаемое значение панорамирующей функции присваивается каждому из упомянутых значений аргумента панорамирующей функции, причем, когда упомянутая панорамирующая функция принимает одно из упомянутых значений аргумента панорамирующей функции, упомянутая панорамирующая функция выполнена с возможностью возвращения возвращаемого значения панорамирующей функции, присваиваемого упомянутому одному из упомянутых значений аргумента панорамирующей функции, и

процессор 105 сигнала выполнен с возможностью определения каждого из двух или более выходных аудиосигналов в зависимости от зависящего от направления значения аргумента из значений аргумента панорамирующей функции панорамирующей функции усиления, присваиваемой упомянутому выходному аудиосигналу, причем упомянутое зависящее от направления значение аргумента зависит от направления прихода.

Согласно варианту осуществления, панорамирующая функция усиления каждого из двух или более выходных аудиосигналов имеет один или более глобальных максимумов, являющихся одним из значений аргумента панорамирующей функции, причем для каждого из одного или более глобальных максимумов каждой панорамирующей функции усиления, не существует других значений аргумента панорамирующей функции, для которых упомянутая панорамирующая функция усиления возвращает более высокое возвращаемое значение панорамирующей функции, чем для упомянутых глобальных максимумов.

Для каждой пары первого выходного аудиосигнала и второго выходного аудиосигнала из двух или более выходных аудиосигналов, по меньшей мере, один из одного или более глобальных максимумов панорамирующей функции усиления первого выходного аудиосигнала отличается от любого из одного или более глобальных максимумов панорамирующей функции усиления второго выходного аудиосигнала.

Короче говоря, панорамирующие функции реализованы таким образом, что глобальные максимумы (по меньшей мере, один из них) разных панорамирующих функций отличаются.

Например, на фиг. 6(a), локальные максимумы pb,l(ϕ) заключены в диапазоне от -45° до -28°, и локальные максимумы pb,r(ϕ) заключены в диапазоне от +28° до +45°, и, таким образом, глобальные максимумы отличаются.

Например, на фиг. 6(b), локальные максимумы pb,l(ϕ) заключены в диапазоне от -45° до -8°, и локальные максимумы pb,r(ϕ) заключены в диапазоне от +8° до +45°, и, таким образом, глобальные максимумы также отличаются.

Например, на фиг. 6(c), локальные максимумы pb,l(ϕ) заключены в диапазоне от -45° до +2°, и локальные максимумы pb,r(ϕ) заключены в диапазоне от +18° до +45°, и, таким образом, глобальные максимумы также отличаются.

Панорамирующую функцию усиления можно реализовать, например, в виде поисковой таблицы.

В таком варианте осуществления, процессор 105 сигнала может, например, быть выполнен с возможностью вычисления поисковой таблицы панорамирования для панорамирующей функции усиления, по меньшей мере, одного из выходных аудиосигналов.

Поисковая таблица панорамирования каждого выходного аудиосигнала упомянутого, по меньшей мере, одного из выходных аудиосигналов может, например, содержать множество записей, причем каждая из записей содержит значение аргумента панорамирующей функции панорамирующей функции усиления упомянутого выходного аудиосигнала и возвращаемое значение панорамирующей функции панорамирующей функции усиления, присваиваемой упомянутому значению аргумента панорамирующей функции, причем процессор 105 сигнала выполнен с возможностью получения одного из возвращаемых значений панорамирующей функции из упомянутой поисковой таблицы панорамирования путем выбора, в зависимости от направления прихода, зависящего от направления значения аргумента из поисковой таблицы панорамирования, и при этом процессор 105 сигнала выполнен с возможностью определения значения коэффициента усиления для упомянутого выходного аудиосигнала в зависимости от упомянутого одного из возвращаемых значений панорамирующей функции, полученных из упомянутой поисковой таблицы панорамирования.

Далее описаны варианты осуществления, где используется окно прямого звука. Согласно таким вариантам осуществления, окно прямого звука для согласованного масштабирования wb(ϕ) вычисляется согласно

(27)

где wb(ϕ) - функция окна усиления для акустического масштабирования, которая ослабляет прямой звук, если источник отображается в положение за пределами визуального изображения для коэффициента масштабирования β.

Функция окна w(ϕ) может, например, устанавливаться для β=1, таким образом, что прямой звук источников, находящихся за пределами визуального изображения, ослабевает до желаемого уровня и может повторно вычисляться, например, с использованием формулы (27), каждый раз, когда параметр масштабирования изменяется. Следует отметить, что wb(ϕ) одинаково для всех каналов громкоговорителей. Иллюстративные функции окна для β=1 и β=3 показаны на фиг. 7(a-b), где для увеличенного значения β ширина окна уменьшается.

На фиг. 7 проиллюстрированы примеры согласованных функций окна усиления. В частности, фиг. 7(a) демонстрирует функцию окнаусиления wb без масштабирования (коэффициент масштабирования β=1), фиг. 7(b) демонстрирует функцию окна усиления после масштабирования (коэффициент масштабирования β=3), фиг. 7(c) демонстрирует функцию окна усиления после масштабирования (коэффициент масштабирования β=3) с угловым сдвигом. Например, угловой сдвиг может реализовать поворот окна к направлению наведения.

Например, на фиг. 7(a), 7(b) и 7(c) функция окна усиления возвращает коэффициент усиления 1, если DOA ϕ располагается в окне, функция окна усиления возвращает коэффициент усиления 0,18, если ϕ располагается за пределами окна, и функция окна усиления возвращает коэффициент усиления между 0,18 и 1, если ϕ располагается на границе окна.

Согласно вариантам осуществления, процессор 105 сигнала выполнен с возможностью генерации каждого выходного аудиосигнала из одного или более выходных аудиосигналов в зависимости от функции окна усиления. Функция окна усиления выполнена с возможностью возвращения возвращаемого значения функции окна при приеме значения аргумента функции окна.

Если значение аргумента функции окна больше нижнего порога окна и меньше верхнего порога окна, функция окна усиления выполнена с возможностью возвращения возвращаемого значения функции окна, которое больше любого возвращаемого значения функции окна, возвращаемого функцией окна усиления, если значение аргумента функции окна меньше нижнего порога или больше верхнего порога.

Например, в формуле (27)

азимутальный угол направления прихода ϕ является значением аргумента функции окна функции окна усиления . Функция окна усиления зависит от информации масштабирования, в данном случае, коэффициента масштабирования β.

Для объяснения определение функции окна усиления, обратимся к фиг. 7(a).

Если азимутальный угол DOA ϕ больше -20° (нижний порог) и меньше +20° (верхнего порога), все значения, возвращаемые функцией окна усиления, больше 0.6. Если же азимутальный угол DOA ϕ меньше -20° (нижнего порога) или больше +20° (верхнего порога), все значения, возвращаемые функцией окна усиления, меньше 0.6.

Согласно варианту осуществления, процессор 105 сигнала выполнен с возможностью приема информации масштабирования. Кроме того, процессор 105 сигнала выполнен с возможностью генерации каждого выходного аудиосигнала из одного или более выходных аудиосигналов в зависимости от функции окна усиления, причем функция окна усиления зависит от информации масштабирования.

Это можно видеть для (измененных) функций окна усиления, показанных на фиг. 7(b) и фиг. 7(c), если другие значения рассматриваются как нижний/верхний пороги, или если другие значения рассматриваются как возвращаемые значения. На фиг. 7(a), 7(b) и 7(c), можно видеть, что функция окна усиления зависит от информации масштабирования: коэффициента масштабирования β.

Функцию окна усиления можно реализовать, например, в виде поисковой таблицы. В таком варианте осуществления, процессор 105 сигнала выполнен с возможностью вычисления поисковой таблицы окна, причем поисковая таблица окна содержит множество записей, причем каждая из записей содержит значение аргумента функции окна функции окна усиления и возвращаемое значение функции окна функции окна усиления, присваиваемое упомянутому значению аргумента функции окна. Процессор 105 сигнала выполнен с возможностью получения одного из возвращаемых значений функции окна из поисковой таблицы окна путем выбора одного из значений аргумента функции окна поисковой таблицы окна в зависимости от направления прихода. Кроме того, процессор 105 сигнала выполнен с возможностью определения значения коэффициента усиления для, по меньшей мере, одного из одного или более выходных аудиосигналов, в зависимости от упомянутого одного из возвращаемых значений функции окна полученный из поисковой таблицы окна.

Помимо принципа масштабирования, функции окна и панорамирующую функцию можно сдвигать на угол сдвига θ. Этот угол может соответствовать либо повороту направления наведения l камеры, либо перемещению в визуальном изображении по аналогии с цифровым масштабированием в камерах. В первом случае, угол поворота камеры повторно вычисляется для угла на дисплее, например, аналогично формуле (23). В последнем случае, θ может быть прямым сдвигом функции окна и панорамирующей функции (например, wb(ϕ) и pb,i(ϕ)) для согласованного акустического масштабирования. Иллюстративный пример сдвига обеих функций изображен на фиг. 5(c) и 6(c).

Следует отметить, что вместо перерасчета функции окна и панорамирующей усиливающей функции, можно вычислять DOA ϕb(k,n) для дисплея, например, согласно формуле (23), и применять его в первоначальных функций окна и панорамирующей функции как pi(ϕ) и w(ϕb), соответственно. Такая обработка эквивалентна, поскольку справедливы следующие соотношения:

(28)

(29)

Однако для этого требуется, чтобы модуль 104 вычисления функции усиления принимал оцененные DOA ϕ(k,n) в качестве входного сигнала, и чтобы перерасчет DOA, например, согласно формуле (18), мог, например, осуществляться в каждом последовательном временном кадре, независимо от того, изменился ли β.

Что касается диффузного звука, для вычисления функции диффузного усиления q(β), например, в модуле 104 вычисления функции усиления, требуется только знать количество громкоговорителей I, доступных для воспроизведения. Таким образом, ее можно задавать независимо от параметров визуальной камеры или дисплея.

Например, для эквидистантных громкоговорителей, действительнозначный коэффициент усиления диффузного звука в формуле (2a) выбирается в блоке 202 выбора коэффициента усиления на основании параметра масштабирования β. Цель использования диффузного коэффициента усиления состоит в ослаблении диффузного звука в зависимости от коэффициента масштабирования, например, масштабирование увеличивает DRR воспроизводимого сигнала. Это достигается снижением Q для более высокого β. Фактически, приближение означает, что угол раствора камеры уменьшается, например, естественным акустическим соответствием будет более направленный микрофон, который захватывает меньше диффузного звука.

Для имитации этого эффекта, вариант осуществления может, например, использовать функцию усиления, показанную на фиг. 8. Фиг. 8 демонстрирует пример функции диффузного усиления q(β).

В других вариантах осуществления, функция усиления определяется иначе. Окончательный диффузный звук Ydiff,i(k,n) для i-го канала громкоговорителя достигается путем декоррелирования Ydiff(k,n), например, согласно формуле (2b).

Далее рассмотрим акустическое масштабирование на основании DOA и расстояний.

Согласно некоторым вариантам осуществления, процессор 105 сигнала может, например, быть выполнен с возможностью приема информации расстояния, причем процессор 105 сигнала может, например, быть выполнен с возможностью генерации каждого выходного аудиосигнала из одного или более выходных аудиосигналов в зависимости от информации расстояния.

Некоторые варианты осуществления используют обработку для согласованного акустического масштабирования, которая основана на оцененном DOA ϕ(k,n) и на значении расстояния r(k,n). Принципы этих вариантов осуществления также можно применять к выравниванию записанной акустической сцены с видео без масштабирования, где источники не располагаются на одном и том же расстоянии, поскольку ранее предполагаемая доступность в информации расстояния r(k,n) позволяет создавать эффект акустического размывания для источников звука, которые не выглядят резкими в визуальном изображении, например, для источников, которые не располагаются в фокальной плоскости камеры.

Для облегчения согласованного воспроизведения звука, например, акустического масштабирования, с размыванием для источников, расположенных на разных расстояниях, коэффициенты усиления Gi(k,n) и Q можно регулировать в формуле (2a), как указано в модификаторе 103 сигнала на фиг. 2, на основании двух оцененных параметров, а именно, ϕ(k,n) и r(k,n) и в зависимости от коэффициента масштабирования β. Если масштабирование не используется, β можно задать как β=1.

Параметры ϕ(k,n) и r(k,n) можно, например, оценивать в вышеописанном модуле 102 оценивания параметров. В этом варианте осуществления, прямой коэффициент усиления Gi(k,n) определяется (например, путем выбора в блоке 201 выбора коэффициента усиления) на основании DOA и информации расстояния из одной или более функций прямого усиления gi,j(k,n) (которые можно, например, вычислять в модуле 104 вычисления функции усиления). Аналогично описанному для вышеприведенных вариантов осуществления, диффузный коэффициент усиления Q можно, например, выбирать в блоке 202 выбора коэффициента усиления из функции диффузного усиления q(β), например, вычисленной в модуле 104 вычисления функции усиления на основании коэффициента масштабирования β.

В других вариантах осуществления, прямой коэффициент усиления Gi(k,n) и диффузный коэффициент усиления Q вычисляются модификатором 103 сигнала без первоначального вычисления соответствующей функции усиления и последующего выбора коэффициентов усиления.

Для объяснения воспроизведения акустической сцены и акустического масштабирования для источников звука на разных расстояниях, обратимся к фиг. 9. Параметры, обозначенные на фиг. 9, аналогичны вышеописанным.

Согласно фиг. 9, источник звука располагается в положении P′ на расстоянии R(k,n) от оси x. Расстояние r, которое может зависеть, например, от (k,n) (иметь частотно-временную зависимость: r(k,n)) обозначает расстояние между положением источника и фокальной плоскостью (левая вертикальная линия, проходящая через g). Следует отметить, что некоторые системы автофокусировки способны обеспечивать g, например, расстояние до фокальной плоскости.

DOA прямого звука с точки зрения микрофонной решетки указывается посредством ϕʹ(k,n). В отличие от других вариантов осуществления, не предполагается, что все источники располагаются на одном и том же расстоянии g от объектива камеры. Таким образом, например, положение P′ может находиться на произвольном расстоянии R(k,n) от оси x.

Если источник не располагается в фокальной плоскости, источник будет выглядеть размытым в видео. Кроме того, варианты осуществления базируются на понимании того, что, если источник располагается в любом положении на пунктирной линии 910, он окажется в том же положении xb(k,n) в видео. Однако варианты осуществления базируются на понимании того, что оцененное DOA ϕʹ(k,n) прямого звука изменяется, если источник перемещается вдоль пунктирной линии 910. Другими словами, на основании пониманий, используемых вариантами осуществления, если источник перемещается параллельно оси y, оцененное DOA ϕʹ(k,n) изменяется, тогда как xb (и, таким образом, DOA ϕb(k,n) с которого должен воспроизводиться звук) остается неизменным. В результате, если оцененное DOA ϕʹ(k,n) передается стороне дальнего конца и используется для воспроизведения звука, как описано в предыдущих вариантах осуществления, то акустическое и визуальное изображения больше не выравниваются, если источник изменяет свое расстояние R(k,n).

Для компенсации этого эффекта и для обеспечения согласованного воспроизведения звука, оценивание DOA, например, проводимое в модуле 102 оценивания параметров, оценивает DOA прямого звука, как если бы источник располагался в фокальной плоскости в положении P. Это положение представляет проекцию P′ в фокальной плоскости. Соответствующее DOA обозначается ϕ(k,n) на фиг. 9 и используется на стороне дальнего конца для согласованного воспроизведения звука, аналогично предыдущим вариантам осуществления. DOA ϕ(k,n) (измененное) можно вычислять из оцененного (первоначального) DOA ϕʹ(k,n) на основании геометрических соображений, если r и g известны.

Например, на фиг. 9, процессор 105 сигнала может, например, вычислять ϕ(k,n) из ϕʹ(k,n) r и g согласно:

.

Таким образом, согласно варианту осуществления, процессор 105 сигнала может, например, быть выполнен с возможностью приема первоначального азимутального угла ϕʹ(k,n) направления прихода, которое является направлением прихода прямых составляющих сигнала двух или более входных аудиосигналов, и выполнен с дополнительной возможностью приема информации расстояния, и может, например, быть выполнен с дополнительной возможностью приема информации расстояния r. Процессор 105 сигнала может, например, быть выполнен с возможностью вычисления измененного азимутального угла ϕ(k,n) направления прихода в зависимости от азимутального угла первоначального направления прихода ϕʹ(k,n) и в зависимости от информации расстояния r и g. Процессор 105 сигнала может, например, быть выполнен с возможностью генерации каждого выходного аудиосигнала одного или более выходных аудиосигналов в зависимости от азимутального угла измененного направления прихода ϕ(k,n).

Необходимую информацию расстояния можно оценивать, как объяснено выше (расстояние g до фокальной плоскости можно получать из информации линзовой системы или автофокусировки). Следует отметить, что, например, в этом варианте осуществления, расстояние r(k,n) между источником и фокальной плоскостью передается стороне дальнего конца совместно с (отображенным) DOA ϕ(k,n).

Кроме того, по аналогии с визуальным масштабированием, источники, находящиеся на большом расстоянии r от фокальной плоскости, не выглядят резкими в изображении. Этот эффект хорошо известен в оптике и выражается глубиной резкости (DOF), которая задает диапазон расстояний до источника, на которых он выглядит достаточно резким в визуальном изображении.

Пример кривой DOF как функции расстояния r изображен на фиг. 10(a).

На фиг. 10 показаны графики относительно глубины резкости (фиг. 10(a)), частоты среза фильтра низких частот (фиг. 10(b)), и задержки по времени в мс для повторного прямого звука (фиг. 10(c)).

Согласно фиг. 10(a), источники на малом расстоянии от фокальной плоскости все еще являются резкими, тогда как источники на более значительных расстояниях (ближе или дальше от камеры) выглядят размытыми. Таким образом, согласно варианту осуществления, соответствующие источники звука размываются таким образом, чтобы их визуальные и акустические изображения согласовывались.

Для вывода в (2a) коэффициентов усиления Gi(k,n) и Q, которые реализуют акустическое размывание и согласованное воспроизведение пространственного звука, рассматривается угол, в котором источник, расположенный в P(ϕ,r) появится на дисплее. Размытый источник будет отображаться в

(30)

где c - параметр калибровки, β≥1 - регулируемый пользователем коэффициент масштабирования, ϕ(k,n) - (отображенный) DOA, например, оцененный в модуле 102 оценивания параметров. Как упомянуто выше, прямой коэффициент усиления Gi(k,n) в таких вариантах осуществления можно, например, вычислять из множественных функций прямого усиления gi,j. В частности, можно, например, использовать две функции усиления gi,1(ϕ(k,n)) и gi,2(r(k,n)), где первая функция усиления зависит от DOA ϕ(k,n), и второй функция усиления зависит от расстояния r(k,n). Прямой коэффициент усиления Gi(k,n) можно вычислять как:

(31)

(32)

(33)

где pb,i(ϕ) обозначает панорамирующую функцию усиления (чтобы гарантировать, что звук воспроизводится с правого направления), wb(ϕ) - функция окна усиления (чтобы гарантировать, что прямой звук ослабляется, если источник не наблюдается в видео), и b(r) - размывающая функция (для акустического размывания источников, если они не располагаются в фокальной плоскости).

Следует отметить, что все функции усиления можно задать частотно-зависимыми (что для краткости здесь опущено). Следует дополнительно отметить, что в этом варианте осуществления прямой коэффициент усиления Gi находится путем выбора и умножения коэффициентов усиления из двух разных функций усиления, как показано в формуле (32).

Обе функции усиления pb,i(ϕ) и wb(ϕ) задаются аналогично описанному выше. Например, они могут вычисляться, например, в модуле 104 вычисления функции усиления, например, с использованием формул (26) и (27), и они остаются фиксированными, пока не изменится коэффициент масштабирования β. Подробное описание этих двух функций приведено выше. Размывающая функция b(r) возвращает комплексные коэффициенты усиления, которые приводят к размыванию, например перцептивному расширению, источника, и, таким образом, общая функция усиления gi также обычно будет возвращать комплексное число. Для простоты, в дальнейшем, размывание обозначается как функция расстояния до фокальной плоскости b(r).

Эффект размывания можно получить путем выбора одного или комбинации следующих эффектов размывания: низкочастотной фильтрации, прибавления задержанного прямого звука, ослабления прямого звука, временного сглаживания и/или расширения DOA. Таким образом, согласно варианту осуществления, процессор 105 сигнала может, например, быть выполнен с возможностью генерации одного или более выходных аудиосигналов путем проведения низкочастотной фильтрации, или путем прибавления задержанного прямого звука, или путем проведения ослабления прямого звука, или путем проведения временного сглаживания, или путем проведения расширения направления прихода.

Низкочастотная фильтрация: при наблюдении, нерезкое визуальное изображение можно получать посредством низкочастотной фильтрации, которая эффективно соединяет соседние пиксели в визуальном изображении. По аналогии, эффект акустического размывания можно получать посредством низкочастотной фильтрации прямого звука с частотой среза, выбранной на основании оцененного расстояния от источника до фокальной плоскости r. В этом случае, размывающая функция b(r,k) возвращает коэффициенты усиления фильтра низких частот для частоты k и расстояния r. На фиг. 10(b) показан пример кривой для частоты среза фильтра низких частот первого порядка для частоты дискретизации 16 кГц. Для малых расстояний r, частота среза близка к частоте Найквиста, и, таким образом, фактически низкочастотной фильтрации почти не осуществляется. Для более высоких значений расстояния, частота среза уменьшается до 3 кГц, когда акустическое изображение в достаточной степени размыто.

Прибавление задержанного прямого звука: чтобы сделать акустическое изображение источника нерезким, можно декоррелировать прямой звук, например, повторяя ослабление прямого звука с некоторой задержкой τ (например, от 1 до 30 мс). Такую обработку можно, например, проводить согласно комплексной функции усиления по формуле (34):

(34)

где α обозначает коэффициент усиления за счет ослабления для повторного звука, и τ - задержка, с которой повторяется прямой звук. На фиг. 10(c) показан пример кривой задержки (в мс). Для малых расстояний, задержанный сигнал не повторяется, и α задается равным нулю. Для более значительных расстояний, задержка по времени увеличивается с увеличением расстояния, что приводит к перцептивному расширению акустического источника.

Ослабление прямого звука: источник также может восприниматься как размытый, когда прямой звук ослабляется с постоянным коэффициентом. В этом случае b(r)=const<1. Как упомянуто выше, размывающая функция b(r) может быть образована любым из упомянутых эффектов размывания или комбинацией этих эффектов. Кроме того, можно использовать альтернативную обработку, которая размывает источник.

Временное сглаживание: сглаживание прямого звука по времени можно, например, использовать для перцептивного размывания акустического источника. Этого можно добиться сглаживанием огибающей выделенного прямого сигнала по времени.

Расширение DOA: другой способ снижения резкости акустического источника состоит в воспроизведении сигнала источника из диапазона направлений, а не только с оцененного направления. Этого можно добиться рандомизацией угла, например, взятием случайного угла из нормального распределения с центром в оцененном ϕ. Увеличение дисперсии такого распределения и, таким образом, расширение диапазона возможных DOA, увеличивает восприятие размывания.

Аналогично описанному выше, для вычисления функции диффузного усиления q(β) в модуле 104 вычисления функции усиления, может, в некоторых вариантах осуществления, требоваться только знать количество громкоговорителей I, доступных для воспроизведения. Таким образом, функцию диффузного усиления q(β) можно, в таких вариантах осуществления, устанавливать как желательную для применения. Например, для эквидистантных громкоговорителей, действительнозначный коэффициент усиления диффузного звука в формуле (2a) выбирается в блоке 202 выбора коэффициента усиления на основании параметра масштабирования β. Цель использования диффузного коэффициента усиления состоит в ослаблении диффузного звука в зависимости от коэффициента масштабирования, например, масштабирование увеличивает DRR воспроизводимого сигнала. Это достигается снижением Q для более высокого β. Фактически, приближение означает, что угол раствора камеры уменьшается, например, естественным акустическим соответствием будет более направленный микрофон, который захватывает меньше диффузного звука. Для имитации этого эффекта, можно использовать, например, функцию усиления, показанную на фиг. 8. Очевидно, функция усиления также можно определить иначе. В необязательном порядке, окончательный диффузный звук Ydiff,i(k,n) для i-го канала громкоговорителя получается путем декоррелирования Ydiff(k,n), полученного в формуле (2b).

Теперь рассмотрим варианты осуществления, которые реализуют применение к слуховым аппаратам и вспомогательным слуховым устройствам. Фиг. 11 демонстрирует такое применение к слуховому аппарату.

Некоторые варианты осуществления связаны с бинауральными слуховыми аппаратами. В этом случае, предполагается, что каждый слуховой аппарат снабжен, по меньшей мере, одним микрофоном, и что возможен обмен информацией между двумя слуховыми аппаратами. В силу некоторой потери слуха, слабослышащий человек может испытывать затруднения с фокусировкой (например, концентрацией на звуки, поступающие из конкретной точки или с конкретного направления) на желательный звук или звуки. Чтобы помочь мозгу слабослышащего человека в обработке звуков, воспроизводимых слуховыми аппаратами, акустическое изображение согласовывается с точкой или направлением фокуса пользователя слуховых аппаратов. Допустимо, чтобы точка или направление фокуса было заранее заданным, определенным пользователем или определенным мозгомашинным интерфейсом. Такие варианты осуществления гарантируют, что желательные звуки (которые, предположительно, приходят из точки фокуса или с направления фокуса) и нежелательные звуки выглядят пространственно разделенными.

В таких вариантах осуществления, направления прямых звуков можно оценивать по-разному. Согласно варианту осуществления, направления определяются на основании межушных различий в уровне (ILD) и/или межушных различий во времени (ITD), которые определяются с использованием обоих слуховых аппаратов (см. [15] и [16]).

Согласно другим вариантам осуществления, направления прямых звуков слева и справа оцениваются независимо с использованием слухового аппарата, снабженного, по меньшей мере, двумя микрофонами (см. [17]). Оцененные направления можно фокусировать на основании уровней звукового давления на левом и правом слуховом аппарате или пространственной когерентности на левом и правом слуховом аппарате. Вследствие эффекта затенения от головы, для разных частотных диапазонов можно применять разные блоки оценивания (например, ILD на высоких частотах и ITD на низких частотах).

В некоторых вариантах осуществления, прямой и диффузный звуковые сигналы можно, например, оценивать с использованием вышеупомянутых методов информированной пространственной фильтрации. В этом случае, прямой и диффузный звуки, принятые на левом и правом слуховом аппарате, можно оценивать по отдельности (например, меняя опорный микрофон), или левый и правый выходные сигналы можно генерировать с использованием функции усиления для выхода левого и правого слуховых аппаратов, соответственно, аналогично тому, как разные сигналы громкоговорителя или головного наушника получаются в предыдущих вариантах осуществления.

Для пространственного разделения желательных и нежелательный звуков, можно применять акустическое масштабирование, объясненное в вышеупомянутых вариантах осуществления. В этом случае, точка фокуса или направление фокуса определяет коэффициент масштабирования.

Таким образом, согласно варианту осуществления, может обеспечиваться слуховой аппарат или вспомогательное слуховое устройство, причем слуховой аппарат или вспомогательное слуховое устройство содержит вышеописанную систему, причем процессор 105 сигнала вышеописанной системы определяет прямой коэффициент усиления для каждого из одного или более выходных аудиосигналов, например, в зависимости от направления фокуса или точки фокуса.

Согласно варианту осуществления, процессор 105 сигнала вышеописанной системы может, например, быть выполнен с возможностью приема информации масштабирования. Процессор 105 сигнала вышеописанной системы может, например, быть выполнен с возможностью генерации каждого выходного аудиосигнала из одного или более выходных аудиосигналов в зависимости от функции окна усиления, причем функция окна усиления зависит от информации масштабирования. Используются те же принципы, которые объяснены со ссылкой на фиг. 7(a), 7(b) и 7(c).

Если аргумент функции окна, в зависимости от направления фокуса или от точки фокуса, больше нижнего порога и меньше верхнего порога, функция окна усиления выполнена с возможностью возвращения коэффициента усиления окна, который больше любого коэффициента усиления окна, возвращаемого функцией окна усиления, если аргумент функции окна меньше нижнего порога или больше верхнего порога.

Например, в случае направления фокуса, направление фокуса само может быть аргументом функции окна (и, таким образом, аргумент функции окна зависит от направления фокуса). В случае положения фокуса, аргумент функции окна может, например, выводиться из положения фокуса.

Аналогично, изобретение можно применять к другим носимым устройствам, которые включают в себя вспомогательные слуховые устройства или такие устройства, как Google Glass®. Следует отметить, что некоторые носимые устройства также снабжены одной или более камерами или ToF-датчиком, которые можно использовать для оценивания расстояния от объектов до человека, носящего устройство.

Хотя некоторые аспекты описаны применительно к устройству, ясно, что эти аспекты также представляют описание соответствующего способа, где блок или устройство соответствует этапу способа или признаку этапа способа. Аналогично, аспекты, описанные в применительно к этапу способа, также представляют описание соответствующего блока или элемента или признака соответствующего устройства.

Предусмотренный изобретением разложенный сигнал может сохраняться на цифровом носителе данных или может передаваться в среде передачи, например, беспроводной среде передачи или проводной среде передачи, например, интернете.

В зависимости от некоторых требований к реализации, варианты осуществления изобретения можно реализовать аппаратными средствами или программными средствами. Реализация может осуществляться с использованием цифрового носителя данных, например, флоппи-диска, DVD, CD, ROM, PROM, EPROM, EEPROM или флэш-памяти, где хранятся электронно считываемые сигналы управления, которые взаимодействуют (или способны взаимодействовать) с программируемой компьютерной системой для осуществления соответствующего способа.

Некоторые варианты осуществления согласно изобретению содержат невременный носитель данных, имеющий электронно считываемые сигналы управления, которые способны взаимодействовать с программируемой компьютерной системой для осуществления одного из описанных здесь способов.

В общем случае, варианты осуществления настоящего изобретения можно реализовать в виде компьютерного программного продукта с программным кодом, причем программный код способен осуществлять один из способов, когда компьютерный программный продукт выполняется на компьютере. Программный код может, например, храниться на машиночитаемом носителе.

Другие варианты осуществления содержат компьютерную программу для осуществления одного из описанных здесь способов, хранящуюся на машиночитаемом носителе.

Другими словами, вариант осуществления способа, отвечающего изобретению, предусматривает, таким образом, компьютерную программу, имеющую программный код для осуществления одного из описанных здесь способов, когда компьютерная программа выполняется на компьютере.

Дополнительный вариант осуществления способов, отвечающих изобретению, предусматривает, таким образом, носитель данных (или цифровой носитель данных, или компьютерно-считываемый носитель), на котором записана компьютерная программа для осуществления одного из описанных здесь способов.

Дополнительный вариант осуществления способа, отвечающего изобретению, предусматривает, таким образом, поток данных или последовательность сигналов, представляющий/ую компьютерную программу для осуществления одного из описанных здесь способов. Поток данных или последовательность сигналов может, например, быть выполнен/а с возможностью переноса через соединение для передачи данных, например, через интернет.

Дополнительный вариант осуществления содержит средство обработки, например, компьютер или программируемое логическое устройство, выполненный/ое с возможностью или предназначенный/ое для осуществления одного из описанных здесь способов.

Дополнительный вариант осуществления содержит компьютер с установленной на нем компьютерной программой для осуществления одного из описанных здесь способов.

В некоторых вариантах осуществления, программируемое логическое устройство (например, вентильная матрица, программируемая пользователем) может использоваться для осуществления некоторых или всех из функций описанных здесь способов. В некоторых вариантах осуществления, вентильная матрица, программируемая пользователем, может взаимодействовать с микропроцессором для осуществления одного из описанных здесь способов. В общем случае, способы, предпочтительно, осуществляются любым аппаратным устройством.

Вышеописанные варианты осуществления призваны лишь иллюстрировать принципы настоящего изобретения. Следует понимать, что модификации и вариации описанных здесь конфигураций и детали будут очевидны специалистам в данной области техники. Таким образом, они ограничиваются только объемом нижеследующей формулы изобретения, но не конкретными деталями, представленными в порядке описания и объяснения рассмотренных здесь вариантов осуществления.

ССЫЛКИ

[1] Y. Ishigaki, M. Yamamoto, K. Totsuka, and N. Miyaji, ʺZoom microphone,ʺ in Audio Engineering Society Convention 67, Paper 1713, October 1980.

[2] M. Matsumoto, H. Naono, H. Saitoh, K. Fujimura, and Y. Yasuno, ʺStereo zoom microphone for consumer video cameras,ʺ Consumer Electronics, IEEE Transactions on, vol. 35, no. 4, pp. 759-766, November 1989. August 13, 2014

[3] T. van Waterschoot, W. J. Tirry, and M. Moonen, ʺAcoustic zooming by multi microphone sound scene manipulation,ʺ J. Audio Eng. Soc, vol. 61, no. 7/8, pp. 489-507, 2013.

[4] V. Pulkki, ʺSpatial sound reproduction with directional audio coding,ʺ J. Audio Eng. Soc, vol. 55, no. 6, pp. 503-516, June 2007.

[5] R. Schultz-Amling, F. Kuech, O. Thiergart, and M. Kallinger, ʺAcoustical zooming based on a parametric sound field representation,ʺ in Audio Engineering Society Convention 128, Paper 8120, London UK, May 2010.

[6] O. Thiergart, G. Del Galdo, M. Taseska, and E. Habets, ʺGeometry-based spatial sound acquisition using distributed microphone arrays,ʺ Audio, Speech, and Language Processing, IEEE Transactions on, vol. 21, no. 12, pp. 2583-2594, December 2013.

[7] K. Kowalczyk, O. Thiergart, A. Craciun, and E. A. P. Habets, ʺSound acquisition in noisy and reverberant environments using virtual microphones,ʺ in Applications of Signal Processing to Audio and Acoustics (WASPAA), 2013 IEEE Workshop on, October 2013.

[8] O. Thiergart and E. A. P. Habets, ʺAn informed LCMV filter based on multiple instantaneous direction-of-arrival estimates,ʺ in Acoustics Speech and Signal Processing (ICASSP), 2013 IEEE International Conference on, 2013, pp. 659-663.

[9] O. Thiergart and E. A. P. Habets, ʺExtracting reverberant sound using a linearly constrained minimum variance spatial filter,ʺ Signal Processing Letters, IEEE, vol. 21, no. 5, pp. 630-634, May 2014.

[10] R. Roy and T. Kailath, ʺESPRIT-estimation of signal parameters via rotational invariance techniques,ʺ Acoustics, Speech and Signal Processing, IEEE Transactions on, vol. 37, no. 7, pp. 984-995, July 1989.

[11] B. Rao and K. Hari, ʺPerformance analysis of root-music,ʺ in Signals, Systems and Computers, 1988. Twenty-Second Asilomar Conference on, vol. 2, 1988, pp. 578-582.

[12] H. Teutsch and G. Elko, ʺAn adaptive close-talking microphone array,ʺ in Applications of Signal Processing to Audio and Acoustics, 2001 IEEE Workshop on the, 2001, pp. 163-166.

[13] O. Thiergart, G. D. Galdo, and E. A. P. Habets, ʺOn the spatial coherence in mixed sound fields and its application to signal-to-diffuse ratio estimation,ʺ The Journal of the Acoustical Society of America, vol. 132, no. 4, pp. 2337-2346, 2012.

[14] V. Pulkki, ʺVirtual sound source positioning using vector base amplitude panning,ʺ J. Audio Eng. Soc, vol. 45, no. 6, pp. 456-466, 1997.

[15] J. Blauert, Spatial hearing, 3rd ed. Hirzel-Verlag, 2001.

[16] T. May, S. van de Par, and A. Kohlrausch, ʺA probabilistic model for robust localization based on a binaural auditory front-end,ʺ IEEE Trans. Audio, Speech, Lang. Process., vol. 19, no. 1, pp. 1-13, 2011.

[17] J. Ahonen, V. Sivonen, and V. Pulkki, ʺParametric spatial sound processing applied to bilateral hearing aids,ʺ in AES 45th International Conference, Mar. 2012.

1. Система для генерации двух или более выходных аудиосигналов, содержащая:

модуль (101) разложения,

процессор (105) сигналов и

выходной (106) интерфейс,

причем модуль (101) разложения выполнен с возможностью приема двух или более входных аудиосигналов, причем модуль (101) разложения выполнен с возможностью генерации прямого компонентного сигнала, содержащего прямые составляющие сигнала двух или более входных аудиосигналов, и модуль (101) разложения выполнен с возможностью генерации диффузного компонентного сигнала, содержащего диффузные составляющие сигнала двух или более входных аудиосигналов,

причем процессор (105) сигналов выполнен с возможностью приема прямого компонентного сигнала, диффузного компонентного сигнала и информации направления, причем упомянутая информация направления зависит от направления прихода прямых составляющих сигнала двух или более входных аудиосигналов,

причем процессор (105) сигналов выполнен с возможностью генерации одного или более обработанных диффузных сигналов в зависимости от диффузного компонентного сигнала,

причем, для каждого выходного аудиосигнала из двух или более выходных аудиосигналов, процессор (105) сигналов выполнен с возможностью определения, в зависимости от направления прихода, прямого коэффициента усиления, причем процессор (105) сигналов выполнен с возможностью применения упомянутого прямого коэффициента усиления к прямому компонентному сигналу для получения обработанного прямого сигнала, и процессор (105) сигналов выполнен с возможностью объединения упомянутого обработанного прямого сигнала и одного из одного или более обработанных диффузных сигналов для генерации упомянутого выходного аудиосигнала, и

при этом выходной интерфейс (106) выполнен с возможностью вывода двух или более выходных аудиосигналов,

причем для каждого выходного аудиосигнала из двух или более выходных аудиосигналов панорамирующая функция усиления присваивается упомянутому выходному аудиосигналу, причем панорамирующая функция усиления каждого из двух или более выходных аудиосигналов содержит множество значений аргумента панорамирующей функции, причем возвращаемое значение панорамирующей функции присваивается каждому из упомянутых значений аргумента панорамирующей функции, причем, когда упомянутая панорамирующая функция усиления принимает одно из упомянутых значений аргумента панорамирующей функции, упомянутая панорамирующая функция усиления выполнена с возможностью возвращения возвращаемого значения панорамирующей функции, присваиваемого упомянутому одному из упомянутых значений аргумента панорамирующей функции, причем панорамирующая функция усиления содержит зависящее от направления значение аргумента, которое зависит от направления прихода,

причем процессор (105) сигналов содержит модуль (104) вычисления функции усиления для вычисления функции прямого усиления для каждого из двух или более выходных аудиосигналов в зависимости от панорамирующей функции усиления, присваиваемой упомянутому выходному аудиосигналу, и в зависимости от функции окна усиления, для определения прямого коэффициента усиления упомянутого выходного аудиосигнала,

причем процессор (105) сигналов выполнен с дополнительной возможностью приема информации ориентации, указывающей угловой сдвиг направления наведения камеры, и, по меньшей мере, одна из панорамирующей функции усиления и функции окна усиления зависит от информации ориентации; или модуль (104) вычисления функции усиления выполнен с дополнительной возможностью приема информации масштабирования, и информация масштабирования указывает угол раствора камеры, и при этом, по меньшей мере, одна из панорамирующей функции усиления и функции окна усиления зависит от информации масштабирования.

2. Система по п. 1,

в которой панорамирующая функция усиления каждого из двух или более выходных аудиосигналов имеет один или более глобальных максимумов, являющихся одним из значений аргумента панорамирующей функции, причем для каждого из одного или более глобальных максимумов каждой панорамирующей функции усиления не существует других значений аргумента панорамирующей функции, для которых упомянутая панорамирующая функция усиления возвращает более высокое возвращаемое значение панорамирующей функции, чем для упомянутых глобальных максимумов, и

при этом, для каждой пары первого выходного аудиосигнала и второго выходного аудиосигнала из двух или более выходных аудиосигналов, по меньшей мере, один из одного или более глобальных максимумов панорамирующей функции усиления первого выходного аудиосигнала отличается от любого из одного или более глобальных максимумов панорамирующей функции усиления второго выходного аудиосигнала.

3. Система по п. 1,

в которой процессор (105) сигналов выполнен с возможностью генерации каждого выходного аудиосигнала из двух или более выходных аудиосигналов в зависимости от функции окна усиления,

причем функция окна усиления выполнена с возможностью возвращения возвращаемого значения функции окна при приеме значения аргумента функции окна,

причем, если значение аргумента функции окна больше нижнего порога окна и меньше верхнего порога окна, функция окна усиления выполнена с возможностью возвращения возвращаемого значения функции окна, которое больше любого возвращаемого значения функции окна, возвращаемого функцией окна усиления, если значение аргумента функции окна меньше нижнего порога или больше верхнего порога.

4. Система по п. 1,

в которой модуль (104) вычисления функции усиления выполнен с дополнительной возможностью приема параметра калибровки, и при этом, по меньшей мере, одна из панорамирующей функции усиления и функции окна усиления зависит от параметра калибровки.

5. Система по п. 1,

в которой процессор (105) сигналов выполнен с возможностью приема информации расстояния,

причем процессор (105) сигналов выполнен с возможностью генерации каждого выходного аудиосигнала из двух или более выходных аудиосигналов в зависимости от информации расстояния.

6. Система по п. 5,

в которой процессор (105) сигналов выполнен с возможностью приема первоначального значения угла в зависимости от первоначального направления прихода, которое является направлением прихода прямых составляющих сигнала двух или более входных аудиосигналов, и выполнен с возможностью приема информации расстояния,

причем процессор (105) сигналов выполнен с возможностью вычисления измененного значения угла в зависимости от первоначального значения угла и в зависимости от информации расстояния, и

процессор (105) сигналов выполнен с возможностью генерации каждого выходного аудиосигнала из двух или более выходных аудиосигналов в зависимости от измененного значения угла.

7. Система по п. 5, причем процессор (105) сигналов выполнен с возможностью генерации двух или более выходных аудиосигналов путем проведения низкочастотной фильтрации, или путем прибавления задержанного прямого звука, или путем проведения ослабления прямого звука, или путем проведения временного сглаживания, или путем проведения расширения направления прихода, или путем проведения декорреляции.

8. Система по п. 1,

в которой процессор (105) сигналов выполнен с возможностью генерации двух или более выходных аудиоканалов,

причем процессор (105) сигналов выполнен с возможностью применения диффузного коэффициента усиления к диффузному компонентному сигналу для получения промежуточного диффузного сигнала, и

процессор (105) сигналов выполнен с возможностью генерации одного или более декоррелированных сигналов из промежуточного диффузного сигнала путем проведения декорреляции,

причем один или более декоррелированных сигналов образуют один или более обработанных диффузных сигналов, или промежуточный диффузный сигнал и один или более декоррелированных сигналов образуют один или более обработанных диффузных сигналов.

9. Система по п. 1,

в которой прямой компонентный сигнал и один или более дополнительных прямых компонентных сигналов образуют группу из двух или более прямых компонентных сигналов, причем модуль (101) разложения выполнен с возможностью генерации одного или более дополнительных прямых компонентных сигналов, содержащих дополнительные прямые составляющие сигнала двух или более входных аудиосигналов,

причем направление прихода и одно или более дополнительных направлений прихода образуют группу из двух или более направлений прихода, причем каждое направление прихода из группы из двух или более направлений прихода присваивается в точности одному прямому компонентному сигналу из группы из двух или более прямых компонентных сигналов, причем количество прямых компонентных сигналов из двух или более прямых компонентных сигналов и количество направлений прихода двух направлений прихода равны,

причем процессор (105) сигналов выполнен с возможностью приема группы из двух или более прямых компонентных сигналов и группы из двух или более направлений прихода, и

при этом, для каждого выходного аудиосигнала из двух или более выходных аудиосигналов,

процессор (105) сигналов выполнен с возможностью определения, для каждого прямого компонентного сигнала из группы из двух или более прямых компонентных сигналов, прямого коэффициента усиления в зависимости от направления прихода упомянутого прямого компонентного сигнала,

процессор (105) сигналов выполнен с возможностью генерации группы из двух или более обработанных прямых сигналов путем применения, для каждого прямого компонентного сигнала из группы из двух или более прямых компонентных сигналов, прямого коэффициента усиления упомянутого прямого компонентного сигнала к упомянутому прямому компонентному сигналу, и

процессор (105) сигналов выполнен с возможностью объединения одного из одного или более обработанных диффузных сигналов и каждого обработанного сигнала из группы из двух или более обработанных сигналов для генерации упомянутого выходного аудиосигнала.

10. Система по п. 9, в которой количество прямых компонентных сигналов из группы из двух или более прямых компонентных сигналов плюс 1 меньше количества входных аудиосигналов, принимаемых приемным интерфейсом (101) системы.

11. Система по любому из пп. 1-10, причем указанная система по любому из пп. 1-10 выполнена с возможностью использования в качестве слухового аппарата или вспомогательного слухового устройства.

12. Устройство для генерации двух или более выходных аудиосигналов, содержащее:

процессор (105) сигналов и

выходной (106) интерфейс,

причем процессор (105) сигналов выполнен с возможностью приема прямого компонентного сигнала, содержащего прямые составляющие сигнала двух или более первоначальных аудиосигналов, причем процессор (105) сигналов выполнен с возможностью приема диффузного компонентного сигнала, содержащего диффузные составляющие сигнала двух или более первоначальных аудиосигналов, и при этом процессор (105) сигналов выполнен с возможностью приема информации направления, причем упомянутая информация направления зависит от направления прихода прямых составляющих сигнала двух или более входных аудиосигналов,

причем процессор (105) сигналов выполнен с возможностью генерации одного или более обработанных диффузных сигналов в зависимости от диффузного компонентного сигнала,

причем, для каждого выходного аудиосигнала из двух или более выходных аудиосигналов, процессор (105) сигналов выполнен с возможностью определения, в зависимости от направления прихода, прямого коэффициента усиления, причем процессор (105) сигналов выполнен с возможностью применения упомянутого прямого коэффициента усиления к прямому компонентному сигналу для получения обработанного прямого сигнала, и процессор (105) сигналов выполнен с возможностью объединения упомянутого обработанного прямого сигнала и одного из одного или более обработанных диффузных сигналов для генерации упомянутого выходного аудиосигнала, и

при этом выходной интерфейс (106) выполнен с возможностью вывода двух или более выходных аудиосигналов,

причем для каждого выходного аудиосигнала из двух или более выходных аудиосигналов панорамирующая функция усиления присваивается упомянутому выходному аудиосигналу, причем панорамирующая функция усиления каждого из двух или более выходных аудиосигналов содержит множество значений аргумента панорамирующей функции, причем возвращаемое значение панорамирующей функции присваивается каждому из упомянутых значений аргумента панорамирующей функции, причем, когда упомянутая панорамирующая функция усиления принимает одно из упомянутых значений аргумента панорамирующей функции, упомянутая панорамирующая функция усиления выполнена с возможностью возвращения возвращаемого значения панорамирующей функции, присваиваемого упомянутому одному из упомянутых значений аргумента панорамирующей функции, причем панорамирующая функция усиления содержит зависящее от направления значение аргумента, которое зависит от направления прихода,

причем процессор (105) сигналов содержит модуль (104) вычисления функции усиления для вычисления функции прямого усиления для каждого из двух или более выходных аудиосигналов в зависимости от панорамирующей функции усиления, присваиваемой упомянутому выходному аудиосигналу, и в зависимости от функции окна усиления, для определения прямого коэффициента усиления упомянутого выходного аудиосигнала, и

процессор (105) сигналов выполнен с дополнительной возможностью приема информации ориентации, указывающей угловой сдвиг направления наведения камеры, и, по меньшей мере, одна из панорамирующей функции усиления и функции окна усиления зависит от информации ориентации; или модуль (104) вычисления функции усиления выполнен с дополнительной возможностью приема информации масштабирования, и информация масштабирования указывает угол раствора камеры, и при этом, по меньшей мере, одна из панорамирующей функции усиления и функции окна усиления зависит от информации масштабирования.

13. Способ генерации двух или более выходных аудиосигналов, содержащий этапы, на которых:

принимают два или более входных аудиосигналов,

генерируют прямой компонентный сигнал, содержащий прямые составляющие сигнала двух или более входных аудиосигналов,

генерируют диффузный компонентный сигнал, содержащий диффузные составляющие сигнала двух или более входных аудиосигналов,

принимают информацию направления в зависимости от направления прихода прямых составляющих сигнала двух или более входных аудиосигналов,

генерируют один или более обработанных диффузных сигналов в зависимости от диффузного компонентного сигнала,

для каждого выходного аудиосигнала из двух или более выходных аудиосигналов определяют, в зависимости от направления прихода, прямой коэффициент усиления, применяют упомянутый прямой коэффициент усиления к прямому компонентному сигналу для получения обработанного прямого сигнала и объединяют упомянутый обработанный прямой сигнал и один из одного или более обработанных диффузных сигналов для генерации упомянутого выходного аудиосигнала, и

выводят два или более выходных аудиосигналов,

причем для каждого выходного аудиосигнала из двух или более выходных аудиосигналов панорамирующая функция усиления присваивается упомянутому выходному аудиосигналу, причем панорамирующая функция усиления каждого из двух или более выходных аудиосигналов содержит множество значений аргумента панорамирующей функции, причем возвращаемое значение панорамирующей функции присваивается каждому из упомянутых значений аргумента панорамирующей функции, причем, когда упомянутая панорамирующая функция усиления принимает одно из упомянутых значений аргумента панорамирующей функции, упомянутая панорамирующая функция усиления выполнена с возможностью возвращения возвращаемого значения панорамирующей функции, присваиваемого упомянутому одному из упомянутых значений аргумента панорамирующей функции, причем панорамирующая функция усиления содержит зависящее от направления значение аргумента, которое зависит от направления прихода,

причем способ дополнительно содержит этап, на котором вычисляют функцию прямого усиления для каждого из двух или более выходных аудиосигналов в зависимости от панорамирующей функции усиления, присваиваемой упомянутому выходному аудиосигналу, и в зависимости от функции окна усиления, для определения прямого коэффициента усиления упомянутого выходного аудиосигнала, и

способ дополнительно содержит этап, на котором принимают информацию ориентации, указывающую угловой сдвиг направления наведения камеры, и, по меньшей мере, одна из панорамирующей функции усиления и функции окна усиления зависит от информации ориентации; или способ дополнительно содержит этап, на котором принимают информацию масштабирования, причем информация масштабирования указывает угол раствора камеры, и при этом, по меньшей мере, одна из панорамирующей функции усиления и функции окна усиления зависит от информации масштабирования.

14. Способ генерации двух или более выходных аудиосигналов, содержащий этапы, на которых:

принимают прямой компонентный сигнал, содержащий прямые составляющие сигнала двух или более первоначальных аудиосигналов,

принимают диффузный компонентный сигнал, содержащий диффузные составляющие сигнала двух или более первоначальных аудиосигналов,

принимают информацию направления, причем упомянутая информация направления зависит от направления прихода прямых составляющих сигнала двух или более входных аудиосигналов,

генерируют один или более обработанных диффузных сигналов в зависимости от диффузного компонентного сигнала,

для каждого выходного аудиосигнала из двух или более выходных аудиосигналов определяют, в зависимости от направления прихода, прямой коэффициент усиления, применяют упомянутый прямой коэффициент усиления к прямому компонентному сигналу для получения обработанного прямого сигнала и объединяют упомянутый обработанный прямой сигнал и один из одного или более обработанных диффузных сигналов для генерации упомянутого выходного аудиосигнала, и

выводят два или более выходных аудиосигналов,

причем для каждого выходного аудиосигнала из двух или более выходных аудиосигналов панорамирующая функция усиления присваивается упомянутому выходному аудиосигналу, причем панорамирующая функция усиления каждого из двух или более выходных аудиосигналов содержит множество значений аргумента панорамирующей функции, причем возвращаемое значение панорамирующей функции присваивается каждому из упомянутых значений аргумента панорамирующей функции, причем, когда упомянутая панорамирующая функция усиления принимает одно из упомянутых значений аргумента панорамирующей функции, упомянутая панорамирующая функция усиления выполнена с возможностью возвращения возвращаемого значения панорамирующей функции, присваиваемого упомянутому одному из упомянутых значений аргумента панорамирующей функции, причем панорамирующая функция усиления содержит зависящее от направления значение аргумента, которое зависит от направления прихода,

причем способ дополнительно содержит этап, на котором вычисляют функцию прямого усиления для каждого из двух или более выходных аудиосигналов в зависимости от панорамирующей функции усиления, присваиваемой упомянутому выходному аудиосигналу, и в зависимости от функции окна усиления, для определения прямого коэффициента усиления упомянутого выходного аудиосигнала, и

способ дополнительно содержит этап, на котором принимают информацию ориентации, указывающую угловой сдвиг направления наведения камеры, и, по меньшей мере, одна из панорамирующей функции усиления и функции окна усиления зависит от информации ориентации; или способ дополнительно содержит этап, на котором принимают информацию масштабирования, причем информация масштабирования указывает угол раствора камеры, и при этом, по меньшей мере, одна из панорамирующей функции усиления и функции окна усиления зависит от информации масштабирования.

15. Машиночитаемый носитель, содержащий компьютерную программу для осуществления способа по п. 13 при выполнении на компьютере или процессоре сигналов.

16. Машиночитаемый носитель, содержащий компьютерную программу для осуществления способа по п. 14 при выполнении на компьютере или процессоре сигналов.



 

Похожие патенты:

Изобретение относится к средствам для масштабирования центрального сигнала. Технический результат заключается в повышении разборчивости речи.

Изобретение относится к средствам для воспроизведения акустической сцены. Технический результат заключается в повышении эффективности обработки аудиосигнала.

Изобретение относится к средствам для рендеринга многоканального аудиоконтента. Технический результат заключается в повышении качества генерируемого аудиоконтента.

Изобретение относится к области обработки звуковых сигналов. Технический результат – повышение вычислительной эффективности понижающего микширования входных сигналов за счет предотвращения создания искажений.

Изобретение относится к области стереофонического воспроизведения. Технический результат – обеспечение более гибкого распределения стереофонических передаточных функций с учетом положений головы.

Изобретение относится к средствам для пространственного повышающего микширования. Технический результат заключается в повышении эффективности кодирования.

Изобретение относится к метрологии, в частности к устройствам для оценки размеров помещения. Устройство содержит приемник звука, фиксирующий акустический отклик, пиковый детектор, выполненный с возможностью детектировать набор пиков, присутствующих в акустическом отклике, средство хранения информации содержит набор профилей пиков с ассоциированными данными о размерах помещения, а средство оценки определяет оценку размеров помещения из ассоциированных данных о размерах помещения и путем сравнения набора пиков с профилями пиков.

Изобретение относится к обработке аудиоданных. Технический результат изобретения заключается в улучшенной обработке сигналов звуковых объектов за счет указания местоположения каждого динамика внутри среды проигрывания.

Изобретение относится к обработке аудиосигнала. Технический результат - уменьшение искажения звукового сигнала.

Изобретение относится к обработке аудиоданных. Технический результат изобретения заключается в возможности разделения рассеянных и нерассеянных частей N входных звуковых сигналов.

Изобретение относится к кодированию и декодированию звуковых сигналов. Технический результат – повышение точности восстановления звуковых сигналов.

Изобретение относится к устройству, системе, способам и машиночитаемым носителям для обработки аудиосигнала. Технический результат заключается в обеспечении фильтрации аудиосигнала.

Изобретение относится к области обработки аудиосигналов. Технический результат заключается в повышении эффективности обработки аудиосигналов.

Изобретение относится к области обработки сигналов. Технический результат заключается в повышении качества генерируемого комфортного шума кадров тишины.

Изобретение относится к средствам стереофонического кодирования и декодирования аудиосигналов. Технический результат заключается в повышении эффективности использования полосы частот.

Изобретение относится к средствам для контекстного энтропийного кодирования выборочных значений спектральной огибающей. Технический результат заключается в повышении эффективности кодирования.

Изобретение относится к средствам для кодирования и декодирования аудио. Технический результат заключается в повышении эффективности кодирования и декодирования.

Изобретение относится к средствам для воспроизведения акустической сцены. Технический результат заключается в повышении эффективности обработки аудиосигнала.

Изобретение относится к средствам для кодирования и декодирования аудиосигналов. Технический результат заключается в повышении качества кодированного аудиосигнала.

Изобретение относится к области кодирования и декодирования аудиосигналов. Технический результат – повышение качества звучания масштабированной по времени версии входного аудиосигнала.

Изобретение относится к средствам для временного согласования данных обработки на основе квадратурного зеркального фильтра. Технический результат заключается в уменьшении задержки при кодировании и декодировании звука. Определяют восстановленный кадр звукового сигнала по блоку доступа принимаемого потока данных. Причем блок доступа содержит данные о форме сигнала и метаданные. Причем данные о форме сигнала и метаданные связаны с одним и тем же восстановленным кадром звукового сигнала. Генерируют множество форм субполосных сигналов по данным о форме сигнала. Генерируют декодированные метаданные по метаданным. Согласовывают по времени множества форм субполосных сигналов и декодированных метаданных. Генерируют восстановленный кадр звукового сигнала по согласованному по времени множеству форм субполосных сигналов и декодированных метаданных. 5 н. и 32 з.п. ф-лы, 6 ил., 1 табл.
Наверх