Способ для обработки аудиосигнала в соответствии с импульсной характеристикой помещения, блок обработки сигналов, аудиокодер, аудиодекодер и устройство бинаурального рендеринга

Изобретение относится к способу для обработки аудиосигнала в соответствии с импульсной характеристикой помещения. Аудиосигнал обрабатывается раздельно с первичной частью и поздней реверберацией в импульсной характеристике помещения, и обработанная первичная часть аудиосигнала и реверберированный сигнал объединяются. Переход от первичной части к поздней реверберации в импульсной характеристике помещения достигается, когда мера корреляции достигает пороговой величины, причем пороговая величина устанавливается зависимой от меры корреляции для выбранного отражения из первичных отражений в первичной части импульсной характеристики помещения. Заявленный способ решает проблему обеспечения конечного аудиосигнала, предоставляемого пользователю, пространственным ощущением и глубиной звучания. 6 н. и 15 з.п. ф-лы, 14 ил.

 

Настоящее изобретение относится к области аудиокодирования/аудиодекодирования, в особенности пространственного аудиокодирования и пространственного кодирования аудиообъектов, например к области систем кодека объемного (3D) аудио. Варианты осуществления изобретения относятся к подходам для обработки аудиосигнала в соответствии с импульсной характеристикой помещения и для определения перехода от первичных отражений к поздней реверберации в такой импульсной характеристике помещения.

Инструменты пространственного аудиокодирования широко известны в данной области техники и стандартизованы, например, в стандарте MPEG-Surround. Пространственное аудиокодирование начинается с множества исходных входных каналов, например пяти или семи входных каналов, которые идентифицируются по их размещению в настройке воспроизведения, например, как левый канал, центральный канал, правый канал, левый канал окружения, правый канал окружения и канал низкочастотного расширения. Пространственный аудиокодер может получать один или несколько каналов понижающего микширования из исходных каналов и дополнительно может получать параметрические данные, относящиеся к пространственным меткам, например межканальные разности уровней в значениях когерентности каналов, межканальные разности фаз, межканальные разницы времени и т.п. Один или несколько каналов понижающего микширования передаются вместе с параметрической дополнительной информацией, указывающей пространственные метки, пространственному аудиодекодеру для декодирования каналов понижающего микширования и ассоциированных параметрических данных, чтобы получить в конечном счете выходные каналы, которые являются приблизительной версией исходных входных каналов. Размещение каналов в настройке вывода может быть неизменным, например, формат 5.1, формат 7.1 и т.п.

Также инструменты пространственного кодирования аудиообъектов широко известны в данной области техники и стандартизованы, например, в стандарте SAOC MPEG (SAOC=пространственное кодирование аудиообъектов). В отличие от пространственного аудиокодирования, начинающего с исходных каналов, пространственное кодирование аудиообъектов начинает с аудиообъектов, которые не выделены автоматически для определенной настройки воспроизведения. Точнее, размещение аудиообъектов в сцене воспроизведения гибкое и может задаваться пользователем, например, путем ввода некоторой информации о рендеринге в декодер пространственного кодирования аудиообъектов. В качестве альтернативы или дополнительно информация о рендеринге может передаваться в качестве дополнительной информации или метаданных; информация о рендеринге может включать в себя информацию, в какое положение в настройке воспроизведения нужно помещать некоторый аудиообъект (например, по прошествии времени). Чтобы добиться определенного сжатия данных, некоторое количество аудиообъектов кодируется с использованием кодера SAOC, который вычисляет из входных объектов один или несколько транспортных каналов путем понижающего микширования объектов в соответствии с некоторой информацией понижающего микширования. Кроме того, кодер SAOC вычисляет параметрическую дополнительную информацию, представляющую межобъектные метки, например разности уровней объектов (OLD), значения когерентности объектов и т.п. Как и в SAC (SAC=пространственное аудиокодирование), межобъектные параметрические данные вычисляются для отдельных фрагментов времени/частоты. Для некоторого кадра (например, 1024 или 2048 выборок) аудиосигнала рассматривается множество полос частот (например, 24, 32 или 64 полосы), чтобы параметрические данные предоставлялись для каждого кадра и каждой полосы частот. Например, когда некая аудиочасть содержит 20 кадров и когда каждый кадр подразделяется на 32 полосы частот, количество фрагментов времени/частоты равно 640.

В системах объемного аудио может быть желательно обеспечивать пространственное ощущение от аудиосигнала, как если бы аудиосигнал прослушивался в определенном помещении. В такой ситуации предоставляется импульсная характеристика определенного помещения, например, на основе ее измерения, и используется для обработки аудиосигнала при его представлении слушателю. Может быть желательно обрабатывать прямой звук и первичные отражения в таком представлении отдельно от поздней реверберации. Это требует определения того, где заканчиваются первичные отражения и где начинается поздняя реверберация.

Задача настоящего изобретения состоит в том, чтобы предоставить усовершенствованный подход для обработки аудиосигнала в соответствии с импульсной характеристикой помещения.

Эта задача решается с помощью способа по п. 1, блока обработки сигналов по п. 12, аудиокодера по п. 14, аудиодекодера по п. 16 и устройства бинаурального рендеринга по п. 21.

Настоящее изобретение основывается на выводах автора изобретения о том, что в традиционных подходах существует проблема, состоящая в том, что имеются ситуации, при которых определение перехода от первичных отражений к поздней реверберации происходит слишком рано, поскольку корреляция, используемая для оценки возникновения перехода, уже достигает пороговой величины еще до того, как возникает или сталкивается первое отражение. На основе этих выводов и поскольку известно, что время перехода должно быть больше времени прихода первого отражения, потому что первое отражение четко выражено и достоверно не может быть поздней рассеянной реверберацией, авторы изобретения обнаружили, что необходимо избегать использования постоянной пороговой величины, точнее, в соответствии с изобретательским подходом пороговая величина задается зависимой от корреляции во время столкновения одного из первичных отражений. Это гарантирует, что первое отражение всегда располагается перед временем перехода.

(1) Настоящее изобретение предоставляет способ для обработки аудиосигнала в соответствии с импульсной характеристикой помещения, содержащий:

раздельную обработку аудиосигнала с первичной частью и поздней реверберации в импульсной характеристике помещения; и

объединение аудиосигнала, обработанного с первичной частью в импульсной характеристике помещения, и реверберированного сигнала,

причем переход от первичной части к поздней реверберации в импульсной характеристике помещения определяется с помощью меры корреляции, которая достигает пороговой величины, причем пороговая величина устанавливается зависимой от меры корреляции для выбранного отражения из первичных отражений в первичной части импульсной характеристики помещения.

Изобретательский подход полезен, так как предусматривает усовершенствованную обработку аудиосигнала на основе надежной точки перехода. Изобретательский подход не зависит от помещения, от того, используется ли бинауральный подход, и от угла падения. По сравнению с подходами из известного уровня техники изобретательский подход обладает дополнительными преимуществами, потому что не строго зависит от азимутального угла бинауральной импульсной характеристики и связи между амплитудами прямого звука и первого сталкивающегося отражения.

(2) В соответствии с вариантами осуществления, мера корреляции описывает сходство спада в акустической энергии, включающего в себя начальное состояние, и спада в акустической энергии, начинающегося в любой момент после начального состояния на предопределенном частотном диапазоне, в отношении импульсной характеристики помещения.

(3) В соответствии с вариантами осуществления, определение перехода содержит определение распределения акустической энергии на основе импульсной характеристики помещения и определение множества мер корреляции, указывающего корреляцию между акустической энергией в соответствующей части определенного распределения и акустической энергией в начальном состоянии для множества частей определенного распределения.

(4) В соответствии с вариантами осуществления, определение распределения содержит определение частотно-временного распределения акустической энергии, где часть распределения содержит временной блок предопределенной длины, причем начальное состояние задается первым из множества временных блоков частотно-временного распределения.

Это выгодно, так как позволяет анализировать частотное распределение в разные моменты, посредством этого обеспечивая представление характеристик частотного распределения с течением времени.

(5) В соответствии с вариантами осуществления, определение распределения содержит вычисление рельефа спада энергии (EDR) из импульсной характеристики помещения, где EDR вычисляется следующим образом:

где =рельеф спада энергии,

=импульсная характеристика помещения,

ω=2πf.

(6) В соответствии с вариантами осуществления, импульсная характеристика помещения обладает предопределенной эффективной длиной, и где определение частотно-временного распределения содержит вычисление спектра FFT импульсной характеристики помещения с использованием окна, имеющего длину, соответствующую эффективной длине импульсной характеристики помещения.

Это выгодно, так как FFT/DFT четко определено, и существуют эффективные алгоритмы для вычисления спектральных значений. Если известны значения в окне, то FFT/DFT может вычисляться несложным способом.

(7) В соответствии с вариантами осуществления, акустическая энергия в начальном состоянии определяется путем получения всей эффективной длины импульсной характеристики помещения, вычисления спектра FFT и возведения абсолютных значений в квадрат, а акустическая энергия временного блока определяется путем сдвига окна на время, ассоциированное с временным блоком, заполнения нулями разделенных на окна выборок до эффективной длины, вычисления FFT и возведения абсолютных значений в квадрат.

Это выгодно, так как не требуется никакой дополнительной гребенки фильтров или т.п. для вычисления узкой полосы у EDR; необходим только сдвиг окна.

(8) В соответствии с вариантами осуществления, мера корреляции является мерой корреляции, описывающей сходство спада в акустической энергии, включающего в себя начальное состояние, и спада в акустической энергии, начинающегося в любой момент после начального состояния. Мера корреляции может вычисляться следующим образом:

где =мера корреляции,

=рельеф спада энергии полного частотного диапазона на частоте f,

=среднее значение по всем частотам у начального рельефа спада энергии полного диапазона,

=рельеф спада энергии на частоте f, начиная с момента t,

=среднее значение по всем частотам у рельефа спада энергии полного диапазона, начиная с момента t,

ω=2πf.

Это выгодно, так как формула ссылается на общеизвестный коэффициент корреляции Пирсона (корреляция Пирсона по смешанным моментам). Коэффициент корреляции можно вычислить непосредственно из EDR.

(9) В соответствии с вариантами осуществления, пороговая величина определяется на основе постоянного значения и меры корреляции для выбранного отражения из первичных отражений. Пороговая величина может задаваться следующим образом:

,

где =мера корреляции для выбранного отражения из первичных отражений,

tF=временной индекс, где выбранное отражение из первичных отражений сталкивается после прямого звука,

c=постоянное значение, которое основывается на , причем e – число Эйлера.

Это выгодно, так как пороговая величина не постоянная, а зависит от выбранного первичного отражения для гарантии, что корреляция не слишком рано опустится ниже пороговой величины.

(10) В соответствии с вариантами осуществления, время выбранного отражения из первичных отражений определяется, например, с помощью оператора скользящего эксцесса, обнаружения пороговой величины или обнаружения атаки.

Это выгодно, так как время столкновения отражения может вычисляться непосредственно и автоматически из выборок импульсной характеристики во временной области.

(11) В соответствии с вариантами осуществления, выбранное отражение из первичных отражений является первым отражением после прямого звука.

(12) Настоящее изобретение предоставляет блок обработки сигналов, содержащий вход для приема аудиосигнала, процессор, сконфигурированный или запрограммированный для обработки принятого аудиосигнала в соответствии с импульсной характеристикой помещения согласно изобретательскому способу, и выход для объединения обработанной первичной части принятого аудиосигнала и реверберированного сигнала в выходной аудиосигнал. Блок обработки сигналов может содержать процессор первичной части для обработки принятого аудиосигнала в соответствии с первичной частью в импульсной характеристике помещения, и процессор поздней реверберации для обработки принятого аудиосигнала в соответствии с поздней реверберацией в импульсной характеристике помещения.

(13) Настоящее изобретение предоставляет аудиокодер для кодирования аудиосигнала, причем аудиокодер конфигурируется или программируется для обработки аудиосигнала, кодируемого в соответствии с импульсной характеристикой помещения, в соответствии с изобретательским способом. Аудиокодер может содержать изобретательский блок обработки сигналов.

(14) Настоящее изобретение предоставляет аудиодекодер для декодирования кодированного аудиосигнала, причем аудиодекодер конфигурируется или программируется для обработки декодируемого аудиосигнала в соответствии с импульсной характеристикой помещения в соответствии с изобретательским способом. Аудиодекодер может содержать изобретательский блок обработки сигналов. Аудиодекодер может содержать устройство рендеринга типа устройства бинаурального рендеринга, сконфигурированное или запрограммированное для приема декодированного аудиосигнала и рендеринга выходных сигналов на основе импульсной характеристики помещения.

(15) Настоящее изобретение предоставляет устройство бинаурального рендеринга, содержащее изобретательский блок обработки сигналов.

Варианты осуществления настоящего изобретения будут описываться в отношении прилагаемых чертежей, на которых:

Фиг. 1 иллюстрирует общее представление кодера объемного аудио в системе объемного аудио;

Фиг. 2 иллюстрирует общее представление декодера объемного аудио в системе объемного аудио;

Фиг. 3 иллюстрирует пример для реализации преобразователя формата, который можно реализовать в декодере объемного аудио из фиг. 2;

Фиг. 4 иллюстрирует вариант осуществления устройства бинаурального рендеринга, который можно реализовать в декодере объемного аудио из фиг. 2;

Фиг. 5 иллюстрирует пример импульсной характеристики h(t) помещения;

Фиг. 6(A) иллюстрирует блок-схему блока обработки сигналов (например, в устройстве бинаурального рендеринга из фиг. 4) для раздельной обработки аудиосигнала с первичной частью и поздней реверберации в импульсной характеристике помещения в соответствии с вариантом осуществления изобретения;

Фиг. 6(B) иллюстрирует блок-схему другого блока обработки сигналов (например, в устройстве бинаурального рендеринга из фиг. 4) для раздельной обработки аудиосигнала с первичной частью и поздней реверберации в импульсной характеристике помещения в соответствии с дополнительным вариантом осуществления изобретения;

Фиг. 7 иллюстрирует блок-схему алгоритма подхода для определения момента перехода между первичными отражениями и поздней реверберацией в импульсной характеристике помещения в соответствии с вариантом осуществления изобретения;

Фиг. 8 иллюстрирует рельеф спада энергии (EDR), достигнутый для импульсной характеристики, определенной в соответствии с подходом на основе FFT;

Фиг. 9 иллюстрирует определение момента перехода в соответствии с вариантом осуществления изобретения;

Фиг. 10 иллюстрирует моменты перехода для левого канала и правого канала для измеренной бинауральной импульсной характеристики помещения, определенной с использованием традиционного подхода;

Фиг. 11 иллюстрирует моменты перехода для левого канала и правого канала для измеренной бинауральной импульсной характеристики помещения, определенной с использованием изобретательского подхода;

Фиг. 12 схематически иллюстрирует бинауральную обработку аудиосигналов в устройстве бинаурального рендеринга в соответствии с вариантом осуществления настоящего изобретения; и

Фиг. 13 схематически иллюстрирует обработку в ревербераторе частотной области в устройстве бинаурального рендеринга из фиг. 12 в соответствии с вариантом осуществления настоящего изобретения.

Будут описываться варианты осуществления изобретательского подхода для обработки аудиосигнала в соответствии с импульсной характеристикой помещения и для определения перехода от первичных отражений к поздней реверберации в импульсной характеристике помещения. Нижеследующее описание начнется с общего представления системы кодека объемного (3D) аудио, в которой можно реализовать изобретательский подход.

Фиг. 1 и 2 показывают алгоритмические блоки системы объемного аудио в соответствии с вариантами осуществления. Точнее говоря, фиг. 1 показывает общее представление кодера 100 объемного аудио. Аудиокодер 100 принимает в схеме 102 предварительного рендеринга/микширования, которая может предоставляться при желании, входные сигналы, точнее говоря, множество входных каналов, предоставляющих аудиокодеру 100 множество сигналов 104 каналов, множество сигналов 106 объектов и соответствующие метаданные 108 объектов. Сигналы 106 объектов, обработанные устройством 102 предварительного рендеринга/микшером (см. сигналы 110), можно предоставить кодеру 112 SAOC (SAOC=пространственное кодирование аудиообъектов). Кодер 112 SAOC формирует транспортные каналы 114 SAOC, предоставляемые кодеру 116 USAC (USAC=унифицированное кодирование речи и аудио). К тому же кодеру 116 USAC также предоставляется сигнал 118 SAOC-SI (SAOC-SI=дополнительная информация SAOC). Кодер 116 USAC дополнительно принимает сигналы 120 объектов непосредственно от устройства предварительного рендеринга/микшера, а также сигналы каналов и сигналы 122 объектов, повергшихся предварительному рендерингу. Информация 108 метаданных объектов подается в кодер 124 OAM (OAM=метаданные объектов), предоставляющий сжатую информацию 126 метаданных объектов в кодер USAC. Кодер 116 USAC на основе вышеупомянутых входных сигналов формирует сжатый выходной сигнал mp4, который показан позиционным обозначением 128.

Фиг. 2 показывает общее представление декодера 200 объемного аудио в системе объемного аудио. Кодированный сигнал 128 (mp4), сформированный аудиокодером 100 из фиг. 1, принимается в аудиодекодере 200, точнее говоря в декодере 202 USAC. Декодер 202 USAC декодирует принятый сигнал 128 в сигналы 204 каналов, в сигналы 206 объектов, повергшихся предварительному рендерингу, в сигналы 208 объектов и в сигналы 210 транспортных каналов SAOC. Кроме того, декодером 202 USAC выводится сжатая информация 212 метаданных объектов и сигнал 214 SAOC-SI. Сигналы 208 объектов предоставляются устройству 216 рендеринга объектов, выводящему сигналы 218 объектов, повергшихся рендерингу. Сигналы 210 транспортных каналов SAOC поступают в декодер 220 SAOC, выводящий сигналы 222 объектов, повергшихся рендерингу. Сжатая информация 212 метаданных объектов поступает в декодер 224 OAM, выводящий соответствующие управляющие сигналы в устройство 216 рендеринга объектов, и декодер 220 SAOC для формирования сигналов 218 объектов, повергшихся рендерингу, и сигналов 222 объектов, повергшихся рендерингу. Декодер дополнительно содержит микшер 226, принимающий входные сигналы 204, 206, 218 и 222 для вывода сигналов 228 каналов, как показано на фиг. 2. Сигналы каналов могут выводиться непосредственно в громкоговоритель, например 32-канальный громкоговоритель, который указан позиционным обозначением 230. Сигналы 228 могут предоставляться схеме 232 преобразования формата, принимающей в качестве управляющего входного сигнала сигнал компоновки воспроизведения, указывающий способ, которым должны быть преобразованы сигналы 228 каналов. В изображенном на фиг. 2 варианте осуществления предполагается, что преобразование нужно выполнить таким образом, что сигналы можно предоставить системе динамиков 5.1, которая указана позиционным обозначением 234. Также сигналы 228 каналов можно предоставить устройству 236 бинаурального рендеринга, формирующему два выходных сигнала, например для наушников, которые указаны позиционным обозначением 238.

В варианте осуществления настоящего изобретения изображенная на фиг. 1 и 2 система кодирования/декодирования основывается на кодеке USAC MPEG-D для кодирования сигналов каналов и объектов (см. сигналы 104 и 106). Для повышения эффективности кодирования большого количества объектов можно использовать технологию SAOC MPEG. Три типа устройств рендеринга могут выполнять задачи по рендерингу объектов для каналов, рендерингу каналов для наушников или рендерингу каналов для разной настройки громкоговорителей (см. фиг. 2, ссылочные позиции 230, 234 и 238). Когда сигналы объектов передаются явно или параметрически кодируются с использованием SAOC, соответствующая информация 108 метаданных объектов сжимается (см. сигнал 126) и мультиплексируется в поток 128 двоичных сигналов объемного аудио.

Алгоритмические блоки всей системы объемного аудио, показанные на фиг. 1 и 2, подробнее будут описываться ниже.

При желании, может предоставляться устройство 102 предварительного рендеринга/микшер для преобразования входной сцены с каналами и объектами в сцену с каналами перед кодированием. Функционально оно идентично устройству рендеринга объектов/микшеру, которое будет описываться ниже. Предварительный рендеринг объектов может быть нужен для обеспечения энтропии детерминированного сигнала на входе кодера, которая в основном не зависит от количества одновременно активных сигналов объектов. При предварительном рендеринге объектов не требуется никакая передача метаданных объектов. Сигналы дискретных объектов подвергаются рендерингу к компоновке каналов, для использования которой конфигурируется кодер. Веса объектов для каждого канала получаются из ассоциированных метаданных объектов (OAM).

Кодер 116 USAC является базовым кодеком для сигналов каналов громкоговорителя, сигналов дискретных объектов, сигналов понижающего микширования объектов и сигналов, повергшихся предварительному рендерингу. Он основывается на технологии USAC MPEG-D. Он проводит кодирование вышеупомянутых сигналов путем создания информации отображения каналов и объектов на основе геометрической и семантической информации о назначении входных каналов и объектов. Эта информация отображения описывает то, как входные каналы и объекты отображаются в элементы каналов USAC типа элементов канальной пары (CPE), элементов одиночного канала (SCE), низкочастотные эффекты (LFE) и элементы четырех каналов (QCE), и в декодер передаются CPE, SCE и LFE и соответствующая информация. Вся дополнительная полезная нагрузка типа данных 114, 118 SAOC или метаданных 126 объектов учитывается при регулировании скорости кодера. Кодирование объектов возможно разными способами в зависимости от требований к скорости/искажению и требований к интерактивности для устройства рендеринга. В соответствии с вариантами осуществления возможны следующие разновидности кодирования объектов:

- Объекты, повергшиеся предварительному рендерингу: Сигналы объектов подвергаются предварительному рендерингу и микшируются в сигналы каналов 22.2 перед кодированием. Последующая цепочка кодирования видит сигналы каналов 22.2.

- Формы сигналов дискретных объектов: Объекты поступают в кодер в виде монофонических форм сигналов. Кодер использует элементы одиночного канала (SCE) для передачи объектов в дополнение к сигналам каналов. Декодированные объекты подвергаются рендерингу и микшируются на стороне приемника. Сжатая информация метаданных объектов передается приемнику/устройству рендеринга.

- Формы сигналов параметрических объектов: Свойства объектов и их связь друг с другом описываются посредством параметров SAOC. Смесь сигналов объектов кодируется с помощью USAC. Наряду с этим передается параметрическая информация. Количество каналов понижающего микширования выбирается в зависимости от количества объектов и общей скорости передачи данных. Сжатая информация метаданных объектов передается устройству рендеринга SAOC.

Кодер 112 SAOC и декодер 220 SAOC для сигналов объектов могут основываться на технологии SAOC MPEG. Система допускает воссоздание, изменение и рендеринг некоторого количества аудиообъектов на основе меньшего количества передаваемых каналов и дополнительных параметрических данных, таких как OLD, IOC (межобъектная когерентность), DMG (усиления понижающего микширования). Дополнительные параметрические данные показывают значительно меньшую скорость передачи данных, чем необходимо для передачи всех объектов по отдельности, что делает кодирование очень эффективным. Кодер 112 SAOC в качестве входа принимает сигналы объектов/каналов в виде монофонических форм сигналов и выводит параметрическую информацию (которая упаковывается в поток 128 двоичных сигналов объемного аудио) и транспортные каналы SAOC (которые кодируются с использованием элементов одиночного канала и передаются). Декодер 220 SAOC восстанавливает сигналы объектов/каналов из декодированных транспортных каналов 210 SAOC и параметрической информации 214 и формирует выходную аудиосцену на основе компоновки воспроизведения, распакованной информации метаданных объектов и, при желании, на основе информации о взаимодействии с пользователем.

Кодек метаданных объектов (см. кодер 124 OAM и декодер 224 OAM) предоставляется, чтобы для каждого объекта ассоциированные метаданные, которые задают геометрическое положение и объем объектов в трехмерном пространстве, эффективно кодировались путем квантования свойств объектов во времени и пространстве. Сжатые метаданные 126 объектов cOAM передаются в приемник 200 в качестве дополнительной информации.

Устройство 216 рендеринга объектов использует сжатые метаданные объектов для формирования форм сигналов объектов в соответствии с заданным форматом воспроизведения. Каждый объект подвергается рендерингу к некоторому выходному каналу в соответствии с его метаданными. Вывод этого блока получается из суммы частичных результатов. Если декодируются канальное содержимое, а также дискретные/параметрические объекты, то канальные формы сигналов и формы сигналов объектов, повергшихся рендерингу микшируются микшером 226 перед выводом результирующих форм 228 сигналов или перед их подачей в модуль постпроцессора типа устройства 236 бинаурального рендеринга или модуля 232 рендеринга громкоговорителей.

Модуль 236 бинаурального рендеринга создает бинауральное понижающее микширование из многоканального аудиоматериала, так что каждый входной канал представляется виртуальным источником звука. Обработка проводится по кадрам в области QMF (гребенка квадратурных зеркальных фильтров), и бинауральный эффект основывается на измеренных бинауральных импульсных характеристиках помещения.

Устройство 232 рендеринга громкоговорителей преобразует между переданной конфигурацией 228 каналов и нужным форматом воспроизведения. Оно также может называться "преобразователем формата". Преобразователь формата выполняет преобразования к меньшим количествам выходных каналов, то есть он создает понижающие микширования.

Фиг. 3 показывает пример для реализации преобразователя 232 формата. Преобразователь 232 формата, также называемый устройством рендеринга громкоговорителей, преобразует между конфигурацией каналов передатчика и нужным форматом воспроизведения. Преобразователь 232 формата выполняет преобразования к меньшему количеству выходных каналов, то есть выполняет процесс 240 понижающего микширования (DMX). Средство 240 понижающего микширования, которое предпочтительно работает в области QMF, принимает выходные сигналы 228 микшера и выводит сигналы 234 громкоговорителя. Может предоставляться конфигуратор 242, также называемый контроллером, который в качестве управляющего входного сигнала принимает сигнал 246, указывающий выходную компоновку микшера, то есть компоновку, для которой определяются данные, представленные выходным сигналом 228 микшера и сигналом 248, указывающим нужную компоновку воспроизведения. На основе этой информации контроллер 242 формирует, предпочтительно автоматически, оптимизированные матрицы понижающего микширования для заданного сочетания входных и выходных форматов и применяет эти матрицы к средству 240 понижающего микширования. Преобразователь 232 формата допускает стандартные конфигурации громкоговорителей, а также произвольные конфигурации с нестандартными положениями громкоговорителей.

Фиг. 4 иллюстрирует вариант осуществления устройства 236 бинаурального рендеринга из фиг. 2. Модуль бинаурального рендеринга может обеспечивать бинауральное понижающее микширование многоканального аудиоматериала. Бинауральный эффект может основываться на измеренной бинауральной импульсной характеристике помещения. Импульсная характеристика помещения может считаться "отпечатком" акустических свойств реально существующего помещения. Импульсная характеристика помещения измеряется и сохраняется, и произвольные акустические сигналы могут снабжаться этим "отпечатком", посредством этого допуская имитацию у слушателя акустических свойств помещения, ассоциированных с импульсной характеристикой помещения. Устройство 236 бинаурального рендеринга может программироваться или конфигурироваться для рендеринга выходных каналов в двух бинауральных каналах, используя функции моделирования восприятия звука человеком или бинауральные импульсные характеристики помещения (BRIR). Например, для мобильных устройств бинауральный рендеринг нужен для наушников или громкоговорителей, подключенных к таким мобильным устройствам. В таких мобильных устройствах может быть необходимо ограничивать сложность декодера и рендеринга из-за ограничений. В дополнение к исключению декорреляции в таких сценариях обработки может быть предпочтительно выполнять сначала понижающее микширование с использованием средства 250 понижающего микширования в промежуточный сигнал 252 понижающего микширования, то есть в меньшее количество выходных каналов, что приводит к меньшему количеству входных каналов для фактического бинаурального преобразователя 254. Например, 22.2-канальный материал можно микшировать с помощью средства 250 понижающего микширования в промежуточное понижающее микширование 5.1, либо, в качестве альтернативы, промежуточное понижающее микширование может вычисляться непосредственно декодером 220 SAOC на фиг. 2 в виде "ускоренного" режима. Тогда бинауральному рендерингу нужно лишь применить десять HRTF (функции моделирования восприятия звука человеком) или функций BRIR для рендеринга пяти отдельных каналов в разных положениях, в отличие от применения 44 HRTF или функций BRIR, если нужно было бы непосредственно осуществить рендеринг 22.2 входных каналов. Необходимые для бинаурального рендеринга операции свертывания требуют большой вычислительной мощности, и поэтому для мобильных устройств особенно полезно снижение этой вычислительной мощности, получая при этом приемлемое качество аудио. Устройство 236 бинаурального рендеринга создает бинауральное понижающее микширование 238 из многоканального аудиоматериала 228, так что каждый входной канал (за исключением каналов LFE) представляется виртуальным источником звука. Обработка может проводиться по кадрам в области QMF. Бинауральный эффект основывается на измеренных бинауральных импульсных характеристиках помещения, и прямой звук и первичные отражения можно внести в аудиоматериал посредством сверточного подхода в области псевдо-FFT, используя быструю свертку вдобавок к области QMF, тогда как поздняя реверберация может обрабатываться отдельно.

Фиг. 5 показывает пример импульсной характеристики h(t) 300 помещения. Импульсная характеристика помещения содержит три компонента: прямой звук 301, первичные отражения 302 и позднюю реверберацию 304. Таким образом, импульсная характеристика помещения описывает характер отражения замкнутого отражающего акустического пространства, когда воспроизводится импульс. Первичные отражения 302 являются дискретными отражениями с увеличивающейся плотностью, и часть импульсной характеристики, где уже нельзя различить отдельные отражения, называется поздней реверберацией 304. Прямой звук 301 можно легко идентифицировать в импульсной характеристике помещения и отделить от первичных отражений, однако переход от первичного отражения 302 к поздней реверберации 304 менее очевиден.

Ниже будут подробнее описываться варианты осуществления изобретательского подхода. В соответствии с вариантами осуществления изобретения аудиосигнал обрабатывается раздельно с первичной частью и поздней реверберацией в импульсной характеристике помещения. Аудиосигнал, обработанный с первичной частью импульсной характеристики помещения, и реверберированный сигнал объединяются и выводятся в качестве выходного аудиосигнала. Для раздельной обработки нужно знать переход от первичной части к поздней реверберации в импульсной характеристике помещения. Переход определяется мерой корреляции, которая достигает пороговой величины, причем пороговая величина устанавливается зависимой от меры корреляции для выбранного отражения из первичных отражений в первичной части импульсной характеристики помещения. Мера корреляции может описывать сходство спада в акустической энергии, включающего в себя начальное состояние, и спада в акустической энергии, начинающегося в любой момент после начального состояния на предопределенном частотном диапазоне, в отношении импульсной характеристики помещения.

В соответствии с вариантами осуществления раздельная обработка аудиосигнала содержит обработку аудиосигнала с частью 301, 302 первичного отражения в импульсной характеристике помещения во время первого процесса и обработку аудиосигнала с рассеянной реверберацией 304 в импульсной характеристике помещения во время второго процесса, который отличается и отделен от первого процесса. Переключение с первого процесса на второй процесс происходит в момент перехода. В соответствии с дополнительными вариантами осуществления рассеянную (позднюю) реверберацию 304 во втором процессе можно заменить искусственной реверберацией. В этом случае предоставленная импульсная характеристика помещения может содержать только часть 301, 302 первичного отражения (см. фиг. 5), а поздняя рассеянная реверберация 304 не включается.

Фиг. 6(A) показывает блок-схему, иллюстрирующую первый примерный блок обработки сигналов для раздельной обработки аудиосигнала с первичной частью и поздней реверберации в импульсной характеристике помещения в соответствии с вариантом осуществления изобретения. Обработка аудиосигнала в соответствии с разными частями импульсной характеристики помещения может осуществляться в устройстве 236 бинаурального рендеринга, которое описано выше. Входной аудиосигнал 400 может быть неотражающимся аудиоматериалом, например многоканальным входным аудиосигналом, который сворачивается с помощью импульсной характеристики помещения, например импульсной характеристики помещения, измеренной с использованием искусственной головы или ушных микрофонов. Эта свертка позволяет усилить пространственное ощущение от исходного неотражающегося аудиоматериала, как если бы аудиоматериал прослушивался в помещении, ассоциированном с импульсной характеристикой помещения. Например, в вышеупомянутом устройстве 236 бинаурального рендеринга может быть желательно обработать аудиосигнал с прямым звуком 301 и первичным отражением 302 в импульсной характеристике помещения и отдельно обработать аудиосигнал с поздней реверберацией 304. Для обработки входного аудиосигнала 400 предоставляются блок 402 для обработки прямого звука, блок 404 для обработки первичных отражений и блок 406 для обработки поздней реверберации. Выходные сигналы 408 и 410 из соответствующих блоков 402-406 объединяются первым сумматором 412 для формирования первичного обработанного сигнала 414. Первичный обработанный сигнал 414 и реверберированный сигнал 416, предоставленные процессором 406, объединяются вторым сумматором 418 для формирования выходного аудиосигнала 420, который обеспечивает слушателю ощущение, как если бы аудиосигнал прослушивался в помещении, ассоциированном с импульсными характеристиками помещения.

Обработка поздней реверберации 302 отдельно от прямого звука и первичных отражений выгодна из-за сниженной вычислительной сложности. Точнее говоря, использование свертки для всей импульсной характеристики очень затратно в вычислительном отношении. Поэтому алгоритмы реверберации с меньшей сложностью обычно используются для обработки аудиосигналов, чтобы имитировать позднюю реверберацию. Прямой звук и часть с первичными отражениями в импульсной характеристике вычисляются точнее, например, с помощью свертки. Дополнительным преимуществом является возможность управления реверберацией. Это позволяет изменять позднюю реверберацию в зависимости, например, от пользовательского ввода, измеренного параметра помещения или в зависимости от содержимого аудиосигнала. Для достижения вышеупомянутых преимуществ нужно знать переход (например, момент времени), где заканчиваются первичные отражения 302 и где начинается поздняя реверберация 304. Когда обработка поздней реверберации начинается слишком рано, аудиосигнал может иметь пониженное качество, так как слух человека может обнаруживать отсутствующие отчетливые первичные отражения. С другой стороны, если момент перехода обнаруживается слишком поздно, то не будет использоваться вычислительная эффективность, так как обработка первичных отражений обычно более затратная, нежели обработка поздней реверберации. Переход, например, в выборках временной области можно подать в качестве входного параметра в устройство бинаурального рендеринга, которое в зависимости от принятого перехода будет затем управлять процессорами 402-406 для раздельной обработки аудиосигнала.

Фиг. 6(B) иллюстрирует блок-схему другого примерного блока обработки сигналов для раздельной обработки аудиосигнала с первичной частью и поздней реверберации в импульсной характеристике помещения в соответствии с другим вариантом осуществления изобретения. Входной сигнал 400, например многоканальный входной аудиосигнал, принимается и подается в первый процессор 422 для обработки первичной части, а именно, для обработки аудиосигнала в соответствии с прямым звуком 301 и первичными отражениями 302 в импульсной характеристике 300 помещения, показанной на фиг. 5. Многоканальный входной аудиосигнал 400 также подается во второй процессор 424 для обработки аудиосигнала в соответствии с поздней реверберацией 304 в импульсной характеристике помещения. В устройстве бинаурального рендеринга, как упоминалось выше, может быть желательно обрабатывать прямой звук и первичные отражения отдельно от поздней реверберации, главным образом из-за сниженной вычислительной сложности. Обработка прямого звука и первичных отражений может, например, вноситься в аудиосигнал с помощью сверточного подхода, осуществляемого первым процессором 422, тогда как позднюю реверберацию можно заменить искусственной реверберацией, предоставленной вторым процессором 424. Тогда полный бинауральный выходной сигнал 420 является сочетанием результата 428 свертки, предоставленного процессором 422, и искусственно реверберированного сигнала 430, предоставленного процессором 424. В соответствии с вариантами осуществления сигналы 428 и 430 объединяются сумматором 432, выводящим полный бинауральный выходной сигнал 420.

Как упоминалось, первый процессор 422 может произвести свертку входного аудиосигнала 400 с прямым звуком и первичными отражениями в импульсной характеристике помещения, которые могут предоставляться первому процессору 422 из внешней базы 434 данных, хранящей множество записанных бинауральных импульсных характеристик помещения. Второй процессор или ревербератор 424 может работать на основе параметров ревербератора вроде реверберации RT60 и энергии реверберации, которые можно получить из сохраненных бинауральных импульсных характеристик помещения путем анализа 436. Отметим, что анализ 436 не является обязательной частью устройства рендеринга, скорее, он служит для указания, что из соответствующих характеристик, сохраненных в базе 434 данных, можно вывести соответствующие параметры реверберации; он может выполняться внешне. Параметры ревербератора могут определяться, например, путем вычисления энергии и времени реверберации RT60 в октавной или треть-октавной гребенке фильтров разложения, либо могут быть средними значениями результатов нескольких анализов импульсной характеристики.

К тому же оба процессора 422 и 424 в качестве входного параметра принимают из базы 434 данных – напрямую или посредством анализа 436 - также информацию о переходе в импульсной характеристике помещения от первичной части к поздней реверберации. Переход может определяться способом, который будет подробнее описываться ниже.

В соответствии с вариантами осуществления анализ перехода может использоваться для разделения первичных отражений и поздней реверберации. Он может подаваться в устройство бинаурального рендеринга в качестве входного параметра (например, может считываться из специального файла/интерфейса вместе со значениями RT60 и значениями энергии, которые используются для конфигурирования ревербератора). Анализ может основываться на одном наборе бинауральных импульсных характеристик помещения (набор пар BRIR для множества азимутальных углов и углов возвышения). Анализ может быть этапом предварительной обработки, который осуществляется отдельно для каждой импульсной характеристики, а затем медиана всех значений перехода выбирается в качестве общего значение перехода у одного набора BRIR. Затем это общее значение перехода можно использовать для отделения первичных отражений от поздней реверберации при вычислении бинаурального выходного сигнала.

Известно несколько подходов для определения перехода, однако эти подходы обладают недостатками, которые сейчас будут описываться. По ссылке [1] на известный уровень техники описывается способ, который использует рельеф спада энергии (EDR) и меру корреляции для определения момента перехода от первичных отражений к поздней реверберации. Однако описанный по ссылке [1] на известный уровень техники подход является невыгодным.

1. Подход сильно зависит от азимутального угла бинауральной импульсной характеристики и связи между амплитудами прямого звука и первого сталкивающегося отражения.

2. Момент перехода вычисляется в произвольных полосах частот. Нет общих сведений о том, какая из полос частот дает правильный момент перехода для использования для общей импульсной характеристики.

3. Отсутствует информация о весьма важном шаге корреляции у этого подхода.

Другой известный подход состоит в описании первичных отражений с помощью дисперсии эхо в некотором пространстве, например, с помощью среднего количества отражений в секунду, и в определении начала поздней реверберации, когда это количество превышает предопределенную пороговую величину (см. ссылку [2] на известный уровень техники). Этот подход опирается на характеристику помещения, а именно объем помещения, который часто неизвестен. Объем помещения нельзя просто извлечь из измеренной импульсной характеристики. Поэтому этот способ не применяется для вычисления перехода из измеренных импульсных характеристик. Также нет общих сведений о том, насколько плотными должны быть отражения, чтобы называться поздней реверберацией.

Другой возможностью, описанной по ссылке [3] на известный уровень техники, является сравнение фактического распределения в некий момент в окне импульсной характеристики с гауссовым распределением во временной области. Предполагается, что поздняя реверберация имеет нормальное распределение. При нормальном распределении приблизительно одна треть (ровно 1/e) выборок находится вне одного стандартного отклонения от среднего значения, а две трети выборок находятся в пределах одного стандартного отклонения от среднего значения. Отчетливые первичные отражения имеют больше выборок в пределах одного стандартного отклонения и меньше вне его. Отношение выборок вне одного стандартного отклонения к выборкам внутри одного стандартного отклонения может использоваться для задания момента перехода. Однако недостаток этого подхода состоит в том, что переход сложно задать с помощью этого показателя, потому что отношение иногда колеблется около пороговой величины. Показатель также строго зависит от размера и типа скользящего окна, в котором вычисляется отношение.

Кроме вышеупомянутых подходов для определения момента перехода также может использоваться эксцесс (кумулянт стохастического сигнала высшего порядка). Он быстро уменьшается при приближении к поздней части импульсной характеристики, как указывается в ссылке [4] на известный уровень техники. Однако не понятно определение пороговой величины для перехода (либо использование быстрого уменьшения, либо момента, когда оно первый раз достигает нуля).

Существует еще один подход, который опирается не на анализ измеренной импульсной характеристики, а на объем помещения, как описывается в [2]. Этот подход предполагает, что момент перехода зависит только от объема, но он не учитывает рассеивающие свойства границ. Поэтому результатом может быть только приближенное значение момента перехода, и результат не так точен, как необходимо для предотвращения вышеупомянутых недостатков при неточном определении момента перехода. Кроме того, объем помещения часто неизвестен и его нельзя просто извлечь из измеренной импульсной характеристики.

Другие известные подходы полностью пренебрегают окружением и задают момент перехода просто равным 80 мс, см., например, ссылку [5] на известный уровень техники. Однако это число полностью обособлено от характеристик помещения или измеренной импульсной характеристики и поэтому слишком неточное для отделения поздней реверберации от остальной части импульсной характеристики.

Настоящее изобретение в соответствии с вариантами осуществления, в дополнение к усовершенствованной обработке аудиосигнала, предоставляет также усовершенствованный подход для определения момента перехода между первичными отражениями и поздней реверберацией в импульсной характеристике помещения, дающий более точное определение момента перехода. Варианты осуществления, которые будут описываться ниже, предоставляют простую и эффективную возможность вычисления момента перехода из измеренной импульсной характеристики с использованием FFT-анализа.

Фиг. 7 показывает блок-схему алгоритма подхода для определения момента перехода между первичными отражениями и поздней реверберацией в импульсной характеристике помещения в соответствии с вариантом осуществления изобретения. Для определения момента перехода от первичных отражений к поздней реверберации на первом этапе 500 определяется частотно-временное распределение акустической энергии. Например, в соответствии с вариантами осуществления на этапе 500 может вычисляться рельеф спада энергии (E(t,f), EDR). EDR можно вычислять непосредственно из измеренной (например, бинауральной) импульсной характеристики помещения и можно интерпретировать как расширение частотной области широко применяемой кривой спада энергии (интегрирование Шредера, EDC (d)), которая показывает оставшуюся энергию в импульсной характеристике после момента t. Вместо использования широкополосной импульсной характеристики EDR выводится из частотно-временного представления, и с этой целью можно использовать многие разные частотно-временные представления. Как только на этапе 500 определено частотно-временное распределение акустической энергии, на этапе 502 определяется мера корреляции между акустической энергией во временном блоке частотно-временного распределения и общей акустической энергией в начальном состоянии. На этапе 504 определяется, достигает ли мера корреляции заданной пороговой величины (например, опускается ниже заданной пороговой величины). Если она не достигает пороговой величины, то способ переходит к этапу 506, где выбирается следующий временной блок и распределение после текущего временного блока, и этапы 502 и 504 повторяются для следующего временного блока. Таким образом, в соответствии с этапами 502-506 мера корреляции используется для вычисления корреляционного значения между каждым временным блоком EDR, определенного на этапе 500, и общей энергией в начальном состоянии. Момент перехода достигается, когда мера корреляции достигает заданной пороговой величины (например, опускается ниже заданной пороговой величины). Другими словами, когда на этапе 504 определяется, что для текущего временного блока мера корреляции ниже пороговой величины, способ переходит к этапу 508, где время текущего временного блока выводится в качестве момента перехода.

Ниже будет подробнее описываться вариант осуществления изобретательского подхода. Сначала измеренную бинауральную импульсную характеристику можно принять в качестве входа для вычисления момента перехода. Затем распределение Пейджа или Левина применяется для вычисления рельефа спада энергии (EDR). Распределение Пейджа относится к производной прошлого скользящего спектра, а распределение Пейджа обратного во времени сигнала называется распределением Левина (см. также ссылку [2] на известный уровень техники). Это распределение описывает спектр мгновенной мощности и EDR импульсной характеристики h(t)(см., например, фиг. 5) вычисляется следующим образом:

где =рельеф спада энергии,

=импульсная характеристика помещения,

ω=2πf.

Вычисление в соответствии с вышеприведенным уравнением начинается с прямого звука 301 (см. фиг. 5), и с увеличением времени рельеф спада энергии содержит меньше отчетливых отражений и больше стохастической реверберации. В соответствии с описанным вариантом осуществления для простоты вычисления рельеф спада энергии вычисляется для временных блоков, имеющих длину 1 мс. Посредством вышеописанных функциональных возможностей частотно-временное распределение акустической энергии определяется, как описано в отношении этапа 500 на фиг. 7.

После этого, как описано в отношении этапов 502-506 на фиг. 7, определяется мера ρ(t) корреляции, которая основывается на корреляции Пирсона по смешанным моментам (так же известной, как коэффициент корреляции). Точнее говоря, корреляция акустической энергии для каждого временного блока с общей энергией в начальном состоянии в соответствии с вариантами осуществления определяется следующим образом:

где =рельеф спада энергии полного частотного диапазона на частоте f,

=среднее значение по всем частотам у начального рельефа спада энергии полного диапазона,

=рельеф спада энергии на частоте f, начиная с момента t,

=среднее значение по всем частотам у рельефа спада энергии полного диапазона, начиная с момента t,

ω=2πf.

Вышеприведенная корреляция описывает сходство спада, включающего в себя начальное состояние, и спада, начинающегося в любой момент t. Она вычисляется из широкополосного EDR, используя для вычисления полный частотный диапазон EDR, посредством этого сравнивая полную начальную энергетическую ситуацию с ситуацией в момент t.

Настоящее изобретение не ограничивается вычислением корреляции по всем частотам. Точнее, корреляция также может вычисляться по предопределенному частотному диапазону. Частотный диапазон может определяться из обрабатываемого аудиосигнала. Например, для определенных аудиосигналов частотный диапазон можно ограничить предопределенным диапазоном, например, диапазоном слышимых частот. В соответствии с вариантами осуществления частотный диапазон может составлять от 20 до 20 кГц. Отметим, что также можно выбирать другие диапазоны, например с помощью эмпирических исследований.

В соответствии с вариантом осуществления может использоваться эффективная реализация EDR на основе FFT. Применяется окно, имеющее эффективную длину измеренной импульсной характеристики, и предполагается, что измеренная импульсная характеристика имеет эффективную длину 213, что равно 8192 элементам разрешения по частоте. Во время вычисления это окно сдвигается на дискретную длину одного временного блока, а конец окна заполняется нулями. В соответствии с вариантами осуществления используется длина временного блока в 1мс, и для простого и эффективного вычисления EDR применяется следующий подход:

(1) Вся эффективная длина измеренной импульсной характеристики берется для вычисления спектра FFT, и абсолютные значения возводятся в квадрат, приводя к E(1,ω).

(2) Пока не достигнут конец импульсной характеристики, окно перемещается на дискретную длину временного блока в 1мс к концу импульсной характеристики, разделенные на окна выборки заполняются нулями до эффективной длины (то есть те выборки сверх эффективной длины становятся нулями), а затем вычисляется спектр FFT, что дает E(t,ω).

Вышеприведенный подход полезен, так как не требуется никакой дополнительной гребенки фильтров или т.п. для вычисления узкой полосы у EDR; необходим только сдвиг окна. Фиг. 8 показывает пример для рельефа спада энергии, достигнутого для импульсной характеристики в соответствии с вышеописанным подходом на основе FFT.

Как описано на фиг. 7 в отношении этапов 504 и 508, определенная вышеописанным способом корреляция затем будет сравниваться с предопределенной пороговой величиной. Чем меньше пороговая величина, тем больше момент перехода перемещается к концу импульсной характеристики. Например, для бинауральных импульсных характеристик, если пороговая величина выбирается равной 1/e ≈ 0,3679 (см. также ссылку [2] на известный уровень техники), то переход находится слишком рано при некоторых азимутальных углах, потому что корреляция опускается ниже пороговой величины уже до того, как возникает или сталкивается первое отражение. Однако поскольку известно, что момент перехода должен быть позже времени прихода первого отражения, потому что первое отражение четко выражено и достоверно не может быть поздней рассеянной реверберацией в соответствии с вариантами осуществления, пороговая величина не задается как постоянная пороговая величина. Точнее, в соответствии с изобретательским подходом пороговая величина задается зависимой от корреляции во время столкновения первого отражения. При этом определении гарантируется, что первое отражение всегда располагается до момента перехода. В соответствии с вариантами осуществления момент перехода, как показано на этапе 508, считается достигнутым, когда применяется следующее:

где =мера корреляции для выбранного отражения из первичных отражений,

tF=временной индекс, где выбранное отражение из первичных отражений сталкивается после прямого звука,

c=постоянное значение, которое основывается на , причем e – число Эйлера.

В соответствии с вариантами осуществления постоянным значением может быть , однако настоящее изобретение не ограничивается этим значением. В соответствии с вариантами осуществления постоянное значение можно приблизительно выразить с помощью , например путем округления или усечения относительно предопределенного десятичного разряда (см. ниже).

В описанном варианте осуществления tF является индексом временного блока, где первое отражение сталкивается после прямого звука.

Фиг. 9 изображает определение момента перехода в соответствии с изобретательским подходом, где пороговая величина вычисляется в зависимости от импульсной характеристики путем умножения корреляции в точке столкновения первого отражения и неизменного или постоянного значения 1/e. Амплитуда импульсной характеристики 600 помещения показана относительно количества выборок, а также указано первое отражение 602. Форма 604 сигнала указывает корреляционные значения, полученные путем применения уравнения (2). Позиционным обозначением 606 показано корреляционное значение в первом отражении, которое в изображенном примере имеет значение 0,58. Также позиционным обозначением 608 показана традиционно используемая постоянная пороговая величина 1/e. Корреляционное значение 606 для первого отражения и исходное постоянное значение 1/e подаются в умножитель 610, который формирует новую пороговую величину, которая зависит от корреляционного значения в первом отражении и в описанном варианте осуществления имеет значение 0,21, как показано позиционным обозначением 612. Таким образом, по сравнению с традиционными подходами точка 614 перехода перемещается дальше вправо, так что все выборки после точки 614 перехода теперь считаются поздней реверберацией 304, а все выборки до нее считаются первичным отражением 302. Видно, что результирующее время 614 принятия решения более разумное. Например, в бинауральной импульсной характеристике помещения это означает, что вычисленный момент перехода гораздо устойчивее на азимутальном угле. Это можно увидеть из сравнения фиг. 10 и 11. Фиг. 10 показывает моменты перехода при применении подхода, описанного по ссылке [1] на известный уровень техники, для левого канала 700 и правого канала 702 для измеренной бинауральной импульсной характеристики помещения с использованием вышеописанной реализации EDC, но с постоянной пороговой величиной 1/e. Отчетливо видна зависимость от уха и азимутального угла, а также глубокие провалы в моменте перехода до менее 10 мс, которые обусловлены тем, что корреляция ρ(t) опускается ниже порогового величины до того, как сталкивается первое отражение. Фиг. 11 показывает момент перехода для левого канала 700 и правого канала 702 при вычислении в соответствии с изобретательским подходом. Видно, что результирующий момент перехода гораздо меньше зависит от уха и азимутального угла по сравнению с традиционным подходом, объясненным в отношении фиг. 10.

В соответствии с вариантами осуществления момент перехода считается достигнутым, когда корреляция в первый раз опускается ниже порогового значения или равна ему и не превышает еще раз пороговую величину впоследствии. Значение времени, которое ассоциируется с этой выборкой в вычисленной корреляционной функции, является временем, которое считается началом поздней реверберации в импульсной характеристике. В соответствии с изобретательским подходом время столкновения первого отражения может определяться с помощью оператора скользящего эксцесса, как описывается по ссылке [6] на известный уровень техники. В качестве альтернативы первое отражение может обнаруживаться другими способами, например, с помощью обнаружения пороговой величины или обнаружения атаки, как описывается, например, по ссылке [7] на известный уровень техники.

В соответствии с вариантами осуществления e-1=0,3679 используется в качестве значения для указания низкой корреляции в стохастических процессах, что также указывается, например, по ссылке [1] на известный уровень техники. В соответствии с вариантами осуществления это значение используется с четырьмя десятичными знаками, так что e-1 приблизительно равно 0,3679. В соответствии с другими вариантами осуществления также может использоваться больше или меньше десятичных знаков, и замечено, что обнаруженный момент перехода меняется соответствующим образом с отклонением от точного числа e-1. Например, при использовании значения 0,368 это приводит только к минимальным изменениям в моменте перехода менее 1 мс.

В соответствии с дополнительными вариантами осуществления импульсная характеристика может быть ограниченной по полосе, и в этом случае EDR может вычисляться на ограниченном частотном диапазоне, а также корреляция может вычисляться на ограниченном частотном диапазоне EDR. Также могут использоваться альтернативные частотные преобразования или гребенки фильтров, например подходы, полностью функционирующие в области FFT, посредством этого исключая дополнительные преобразования, например при использовании фильтрации/свертки на основе FFT.

Отметим, что в вышеприведенном описании вариантов осуществления ссылаются на значение корреляционного значения для первого отражения. Однако другие варианты осуществления могут использовать корреляционное значение, вычисленное для другого отражения из первичных отражений.

Как упоминалось выше, изобретательский подход в соответствии с вариантами осуществления может использоваться в бинауральном процессоре для бинауральной обработки аудиосигналов. Ниже будет описываться вариант осуществления бинауральной обработки аудиосигналов. Бинауральная обработка может осуществляться в виде процесса декодера, преобразующего декодированный сигнал в бинауральный сигнал понижающего микширования, который обеспечивает впечатление окружающего звука при прослушивании через наушники.

Фиг. 12 показывает схематическое представление устройства 800 бинаурального рендеринга для бинауральной обработки аудиосигналов в соответствии с вариантом осуществления настоящего изобретения. Фиг. 12 также обеспечивает общее представление обработки в области QMF в устройстве бинаурального рендеринга. На входе 802 устройство 800 бинаурального рендеринга принимает аудиосигнал для обработки, например входной сигнал, включающий в себя N каналов и 64 полосы QMF. К тому же устройство 800 бинаурального рендеринга принимает некоторое количество входных параметров для управления обработкой аудиосигнала. Входные параметры включают в себя бинауральную импульсную характеристику 804 помещения (BRIR) для 2xN каналов и 64 полос QMF, указание 806 Kmax максимальной полосы, которая используется для свертки входного аудиосигнала с частью первичного отражения в BRIR 804, и упомянутые выше параметры 808 и 810 ревербератора (RT60 и энергия реверберации). Устройство 800 бинаурального рендеринга содержит процессор 812 быстрой свертки для обработки входного аудиосигнала 802 с первичной частью принятых BRIR 804. Процессор 812 формирует на выходе первичный обработанный сигнал 814, включающий в себя два канала и Kmax полос QMF. Устройство 800 бинаурального рендеринга кроме ветви первичной обработки, содержащей процессор 812 быстрой свертки, также содержит ветвь реверберации, включающую в себя два ревербератора 816a и 816b, в качестве входного параметра принимающих информацию 808 RT60 и информацию 810 об энергии реверберации. Ветвь реверберации дополнительно включает в себя процессор 818 стереофонического понижающего микширования и процессор 820 корреляционного анализа, также принимающие входной аудиосигнал 802. К тому же два каскада 821a и 821b усиления предоставляются между процессором 818 стереофонического понижающего микширования и соответствующими ревербераторами 816a и 816b для управления усилением микшированного сигнала 822, предоставленного процессором 818 стереофонического понижающего микширования. Процессор 818 стереофонического понижающего микширования на основе входного сигнала 802 предоставляет микшированный сигнал 822, имеющий две полосы и 64 полосы QMF. Усиление в каскадах 821a и 821b усиления управляется соответствующими управляющими сигналами 824a и 824b, предоставленными процессором 820 корреляционного анализа. Микшированный сигнал с управляемым усилением вводится в соответствующие ревербераторы 816a и 816b, формирующие соответствующие реверберированные сигналы 826a, 826b. Первичный обработанный сигнал 814 и реверберированные сигналы 826a, 826b принимаются микшером 828, который объединяет принятые сигналы в выходной аудиосигнал 830, имеющий два канала и 64 полосы QMF. К тому же в соответствии с настоящим изобретением процессор 812 быстрой свертки и ревербераторы 816a и 816b принимают дополнительный входной параметр 832, указывающий переход от первичной части к поздней реверберации в импульсной характеристике 804 помещения, определенный как обсуждалось выше.

Модуль 800 бинаурального рендеринга (например, устройство 236 бинаурального рендеринга из фиг. 2 или фиг. 4) в качестве входа 802 получает декодированный поток данных. Сигнал обрабатывается гребенкой фильтров разложения QMF, как указано в ISO/IEC 14496-3:2009, подпункт 4.B.18.2, с модификациями, изложенными в ISO/IEC 14496-3:2009, подпункт 8.6.4.2. Модуль 800 рендеринга также может обрабатывать входные данные области QMF; в этом случае можно исключить гребенку фильтров разложения. Бинауральные импульсные характеристики помещения (BRIR) 804 представляются в виде фильтров области комплексной QMF. Преобразование из бинауральных импульсных характеристик помещения временной области в представление фильтра комплексной QMF указано в ISO/IEC FDIS 23003-1:2006, Приложение B. BRIR 804 ограничиваются некоторым количеством временных интервалов в области комплексной QMF, так что они содержат только часть 301, 302 первичного отражения (см. фиг. 5), а поздняя рассеянная реверберация 304 не включается. Точка 832 перехода от первичных отражений к поздней реверберации определяется как описано выше, например, путем анализа BRIR 804 на этапе предварительной обработки в бинауральной обработке. Аудиосигналы 802 области QMF и BRIR 804 области QMF затем обрабатываются с помощью быстрой свертки 812 по полосам, чтобы выполнить бинауральную обработку. Ревербератор 816a, 816b области QMF используется для формирования 2-канальной поздней реверберации 826a, 826b области QMF. Модуль 816a, 816b реверберации использует набор частотно-зависимых времен 808 реверберации и значений 810 энергии для адаптации характеристик реверберации. Форма сигнала реверберации основывается на стереофоническом понижающем микшировании 818 входного аудиосигнала 802 и адаптивно масштабируется 821a, 821b по амплитуде в зависимости от корреляционного анализа 820 многоканального аудиосигнала 802. Затем 2-канальный результат 814 свертки в области QMF и 2-канальная реверберация 816a, 816b в области QMF объединяются 828, и в конечном счете две гребенки фильтров синтеза QMF вычисляют бинауральные выходные сигналы 830 временной области, как указано в ISO/IEC 14496-3:2009, подпункт 4.6.18.4.2. Устройство рендеринга также может создавать выходные данные области QMF; тогда гребенка фильтров синтеза исключается.

ОПРЕДЕЛЕНИЯ

Аудиосигналы 802, которые подаются в модуль 800 бинаурального рендеринга, в дальнейшем называются входными сигналами. Аудиосигналы 830, которые являются результатом бинауральной обработки, называются выходными сигналами. Входные сигналы 802 в модуль 800 бинаурального рендеринга являются выходными аудиосигналами базового декодера (см., например, сигналы 228 на фиг. 2). Используются следующие определения переменных:

Nin Количество входных каналов
Nout Количество выходных каналов, Nout = 2
MDMX Матрица понижающего микширования, содержащая вещественнозначные неотрицательные коэффициенты понижающего микширования (усиления понижающего микширования). MDMX имеет размерность Nout×Nin
L Длина кадра, измеренная в аудиовыборках временной области.
v Индекс выборки временной области
n Индекс временного интервала QMF (индекс выборки поддиапазона)
Ln Длина кадра, измеренная во временных интервалах QMF
F Индекс кадра (номер кадра)
K Количество полос частот QMF, K=64
k Индекс полосы QMF (1..64)
A, B, ch Индексы каналов (номера каналов в конфигурациях каналов)
Ltrans Длина части первичного отражения BRIR в выборках временной области
Ltrans,n Длина части первичного отражения BRIR во временных интервалах QMF
NBRIR Количество пар BRIR в наборе данных BRIR
LFFT Длина FFT-преобразования
Вещественная часть комплекснозначного сигнала
Мнимая часть комплекснозначного сигнала
Вектор, который сигнализирует, какой канал входного сигнала принадлежит какой паре BRIR в наборе данных BRIR
fmax Максимальная частота, используемая для бинауральной обработки
fmax,decoder Максимальная частота сигнала, которая присутствует в выходном аудиосигнале декодера
Kmax Максимальная полоса, которая используется для свертки входного аудиосигнала с частью первичного отражения в BRIR
a Коэффициент матрицы понижающего микширования
ceq,k Коэффициент коррекции энергии по полосам
ε Численная постоянная, ε=10-20
D Задержка во временных интервалах области QMF
Представление сигнала области псевдо-FFT в полосе k частот
n' Индекс частоты псевдо-FFT
Представление области псевдо-FFT BRIR в полосе k частот
Результат свертки области псевдо-FFT в полосе k частот
Промежуточный сигнал: 2-канальный результат свертки в области QMF
Промежуточный сигнал: 2-канальная реверберация в области QMF
Kana Количество полос частот анализа (используемых для ревербератора)
fc,ana Центральные частоты в полосах частот анализа
NDMX,act Количество каналов, которые микшируются в один канал стереофонического понижающего микширования и активны в текущем кадре сигнала
ccorr Общий коэффициент корреляции для одного кадра сигнала
Коэффициент корреляции для сочетания каналов A, B
Стандартное отклонение для временного интервала n сигнала
Вектор двух масштабных коэффициентов
Вектор двух масштабных коэффициентов, сглаженный по времени

ОБРАБОТКА

Теперь описывается обработка входного сигнала. Модуль бинаурального рендеринга воздействует на смежные неперекрывающиеся кадры с длиной L=2048 выборок временной области из входных аудиосигналов и выводит один кадр из L выборок на каждый обработанный входной кадр с длиной L.

(1) Инициализация и предварительная обработка

Инициализация блока бинауральной обработки осуществляется перед тем, как происходит обработка аудиовыборок, доставленных базовым декодером (см., например, декодер 200 на фиг. 2). Инициализация состоит из нескольких этапов обработки.

(a) Считывание значений анализа

Модуль 816a, 816b ревербератора в качестве входных параметров принимает частотно-зависимый набор времен 808 реверберации и значений 810 энергии. Эти значения считываются из некоего интерфейса при инициализации модуля 800 бинауральной обработки. К тому же считывается момент 832 перехода от первичных отражений к поздней реверберации в выборках временной области. Значения могут храниться в двоичном файле, записанные по 32 разряда на выборку в значениях плавающего типа, с прямым порядком байтов. Считанные значения, которые нужны для обработки, изложены в таблице ниже:

Описание значения Количество Тип данных
Длина Ltrans перехода 1 Целое
Количество Kana полос частот 1 Целое
Центральные частоты fc,ana в полосах частот Kana С плавающей запятой
Времена реверберации RT60 в секундах Kana С плавающей запятой
Значения энергии, которые представляют энергию (амплитуду в степени два) части поздней реверберации в одной BRIR Kana С плавающей запятой

(b) Считывание и предварительная обработка BRIR

Бинауральные импульсные характеристики 804 помещения считываются из двух специальных файлов, которые хранят BRIR левого и правого уха в отдельности. Выборки временной области BRIR хранятся в файлах целочисленных сигналограмм с разрешением 24 разряда на выборку и 32 каналами. Порядок BRIR в файле изложен в следующей таблице:

Номер канала Метка динамика
1 CH_M_L045
2 CH_M_R045
3 CH_M_000
4 CH_LFE1
5 CH_M_L135
6 CH_M_R135
7 CH_M_L030
8 CH_M_R030
9 CH_M_180
10 CH_LFE2
11 CH_M_L090
12 CH_M_R090
13 CH_U_L045
14 CH_U_R045
15 CH_U_000
16 CH_T_000
17 CH_U_L135
18 CH_U_R135
19 CH_U_L090
20 CH_U_R090
21 CH_U_180
22 CH_L_000
23 CH_L_L045
24 CH_L_R045
25 CH_M_L060
26 CH_M_R060
27 CH_M_L110
28 CH_M_R110
29 CH_U_L030
30 CH_U_R030
31 CH_U_L110
32 CH_U_R110

Если отсутствует BRIR, измеренная в одном из положений громкоговорителей, то соответствующий канал в файле сигналограмм содержит нулевые значения. Каналы LFE не используются для бинауральной обработки.

В качестве этапа предварительной обработки данный набор бинауральных импульсных характеристик помещения (BRIR) преобразуется из фильтров временной области в фильтры области комплекснозначной QMF. Реализация данных фильтров временной области в области комплекснозначной QMF осуществляется в соответствии с ISO/IEC FDIS 23003-1:2006, Приложение B. Опытные коэффициенты фильтров для преобразования фильтров используются в соответствии с ISO/IEC FDIS 23003-1:2006, Приложение B, Таблица B.1. Представление временной области при обрабатывается для усиления фильтра области комплекснозначной QMF при

(2) Обработка аудиосигнала

Блок аудиообработки в модуле 800 бинаурального рендеринга получает от базового декодера аудиовыборки 802 временной области для Nin входных каналов и формирует бинауральный выходной сигнал 830, состоящий из Nout=2 каналов.

Обработка в качестве входа принимает

- декодированные аудиоданные 802 от базового декодера,

- представление области комплексной QMF части первичного отражения в наборе 804 BRIR и

- набор 808, 810, 832 частотно-зависимых параметров, который используется ревербератором 816a, 816b области QMF для формирования поздней реверберации 826a, 826b.

(a) QMF-анализ аудиосигнала

В качестве первого этапа обработки модуль бинаурального рендеринга преобразует L=2048 выборок временной области Nin-канального входного сигнала временной области (поступающего от базового декодера) в Nin-канальное представление 802 сигнала области QMF с размером Ln=32 временных интервалов QMF (индекс n временного интервала) и K=64 полос частот (индекс k полосы).

QMF-анализ, который указан в ISO/IEC 14496-3:2009, подпункт 4.B.18.2, с модификациями, изложенными в ISO/IEC 14496-3:2009, подпункт 8.6.4.2, выполняется над кадром сигнала временной области, чтобы усилить кадр сигнала области QMF при

(b) Быстрая свертка аудиосигнала области QMF и BRIR области QMF

Далее осуществляется быстрая свертка 812 по полосам, чтобы обработать аудиосигнал 802 области QMF и BRIR 804 области QMF. FFT-анализ может осуществляться для каждой полосы k частот QMF для каждого канала входного сигнала 802 и каждой BRIR 804.

Вследствие комплексных значений в области QMF один FFT-анализ осуществляется над вещественной частью представления сигнала области QMF, и один FFT-анализ – над мнимой частью представления сигнала области QMF. Результаты затем объединяются для образования окончательного комплекснозначного сигнала области псевдо-FFT по полосам

и комплекснозначных BRIR по полосам

для левого уха

для правого уха.

Длина FFT-преобразования определяется в соответствии с длиной Ltrans,n комплекснозначных фильтров BRIR области QMF и длиной Ln кадра во временных интервалах области QMF так, что

Комплекснозначные сигналы области псевдо-FFT затем умножаются на комплекснозначные фильтры BRIR области псевдо-FFT, чтобы образовать результаты быстрой свертки. Вектор используется для сигнализации, какой канал входного сигнала соответствует какой паре BRIR в наборе данных BRIR.

Это умножение выполняется по полосам для всех полос k частот QMF при . Максимальная полоса Kmax определяется по полосе QMF, представляющей частоту либо 18 кГц, либо максимальную частоту сигнала, которая присутствует в аудиосигнала от базового декодера

.

Результаты умножения из каждого входного аудиоканала на каждую пару BRIR суммируются в каждой полосе k частот QMF при , приводя к промежуточному 2-канальному Kmax-полосному сигналу области псевдо-FFT.

являются результатом свертки псевдо-FFT в полосе k частот области QMF.

Далее осуществляется FFT-синтез по полосам для преобразования результата свертки обратно в область QMF, приводя к промежуточному 2-канальному Kmax-полосному сигналу области QMF с LFFT временными интервалами и .

Для каждого кадра входного сигнала области QMF с L=32 временными интервалами возвращается кадр сигнала результата свертки с L=32 временными интервалами. Оставшиеся LFFT-32 временных интервалов сохраняются, и обработка сложения с перекрытием осуществляется в следующем кадре (кадрах).

(c) Формирование поздней реверберации

В качестве второго промежуточного сигнала 826a, 826b сигнал реверберации, называемый формируется модулем 816a, 816b ревербератора частотной области. Ревербератор 816a, 816b частотной области в качестве входа принимает

- стереофоническое понижающее микширование 822 области QMF одного кадра входного сигнала,

- набор параметров, который содержит частотно-зависимые времена 808 реверберации и значения 810 энергии.

Ревербератор 816a, 816b частотной области возвращает 2-канальный хвост поздней реверберации области QMF.

Максимально используемый номер полосы в наборе частотно-зависимых параметров вычисляется в зависимости от максимальной частоты.

Сначала осуществляется стереофоническое понижающее микширование 818 области QMF одного кадра входного сигнала для создания входа ревербератора путем взвешенного суммирования каналов входного сигнала. Коэффициенты взвешивания содержатся в матрице понижающего микширования . Они вещественнозначные и неотрицательные, и матрица понижающего микширования имеет размерность Nout×Nin. Она содержит ненулевое значение, где канал входного сигнала отображается в один из двух выходных каналов.

Каналы, которые представляют положения громкоговорителей на левом полушарии, отображаются в левый выходной канал, а каналы, которые представляют громкоговорители, расположенные на правом полушарии, отображаются в правый выходной канал. Сигналы этих каналов взвешиваются с коэффициентом 1. Каналы, которые представляют громкоговорители в медианной плоскости, отображаются в оба выходных канала бинаурального сигнала. Входные сигналы этих каналов взвешиваются с коэффициентом

К тому же при понижающем микшировании выполняется этап коррекции энергии. Он приводит энергию одного канала понижающего микширования по полосам к сумме энергии каналов входного сигнала по полосам, которые содержатся в этом канале понижающего микширования. Эта коррекция энергии проводится с помощью умножения по полосам на вещественнозначный коэффициент

Коэффициент ограничивается интервалом [0,5, 2]. Чтобы избежать деления на ноль, вводится численная постоянная ε. Понижающее микширование также ограничивается по полосе частотой fmax; значения во всех полосах более высоких частот устанавливаются в ноль.

Фиг. 13 схематически представляет обработку в ревербераторе 816a, 816b частотной области в устройстве 800 бинаурального рендеринга в соответствии с вариантом осуществления настоящего изобретения.

В ревербераторе частотной области монофоническое понижающее микширование стереофонического ввода вычисляется с использованием входного микшера 900. Это выполняется некогерентно, применяя фазовый сдвиг 90° ко второму входному каналу.

Этот монофонический сигнал затем подается в цикл 902 задержки обратной связи в каждой полосе k частот, что создает затухающую последовательность импульсов. За ним следуют параллельные декорреляторы FIR, которые распределяют энергию сигнала в затухающем виде по интервалам между импульсами и создают некогерентность между выходными каналами. Уменьшающаяся плотность отводов фильтра применяется для создания спада энергии. Фазные операции отводов фильтра ограничиваются четырьмя вариантами для реализации разреженного декоррелятора без умножителя.

После вычисления реверберации коррекция 904 межканальной когерентности (ICC) включается в модуль ревербератора для каждой полосы частот QMF. На этапе коррекции ICC частотно-зависимые прямые усиления gdirect и перекрестные усиления gcross используются для адаптации ICC.

Величина энергии и времена реверберации для разных полос частот содержатся во входном наборе параметров. Значения задаются на некотором количестве частотных точек, которые внутренне отображаются в K=64 полос частот QMF.

Два экземпляра ревербератора частотной области используются для вычисления окончательного промежуточного сигнала . Сигнал является первым выходным каналом первого экземпляра ревербератора, а является вторым выходным каналом второго экземпляра ревербератора. Они объединяются в кадр окончательного сигнала реверберации, который имеет размер 2 каналов, 64 полос и 32 временных интервалов.

Стереофоническое понижающее микширование 822 оба раза масштабируется 821a,b в соответствии с мерой 820 корреляции кадра входного сигнала, чтобы обеспечить правильное масштабирование выхода ревербератора. Масштабный коэффициент задается в виде значения в интервале линейно зависящего от коэффициента корреляции ccorr между 0 и 1 при

где означает стандартное отклонение на одном временном интервале n канала A, оператор обозначает комплексное сопряжение, и является нулевым средним сигнала области QMF в текущем кадре сигнала.

вычисляется дважды: один раз для всех каналов A,B, которые активны в текущем кадре F сигнала и включаются в левый канал стереофонического понижающего микширования, и один раз для всех каналов A,B, которые активны в текущем кадре F сигнала и которые включаются в правый канал стереофонического понижающего микширования.

является количеством входных каналов, которые микшируются в один канал A понижающего микширования (количество элементов матрицы в A-ой строке матрицы понижающего микширования , которые не равны нулю) и которые активны в текущем кадре.

Тогда масштабными коэффициентами являются

Масштабные коэффициенты сглаживаются по кадрам аудиосигнала с помощью фильтра нижних частот 1-го порядка, приводя к сглаженным масштабным коэффициентам .

Масштабные коэффициенты инициализируются в первом кадре входных аудиоданных путем корреляционного анализа временной области с помощью того же средства.

Вход первого экземпляра ревербератора масштабируется с масштабным коэффициентом , а вход второго экземпляра ревербератора масштабируется с масштабным коэффициентом .

(d) Объединение результатов свертки и поздней реверберации

Далее результат 814 свертки, , и выход 826a, 826b ревербератора, , для одного входного аудиокадра области QMF объединяются с помощью процесса 828 микширования, который складывает два сигнала по полосам. Отметим, что верхние полосы выше являются нулями в потому что свертка проводится только в полосах вплоть до .

Выход поздней реверберации задерживается на величину временных интервалов в процессе микширования.

Задержка d принимает во внимание момент перехода от первичных отражений к поздним отражениям в BRIR и начальную задержку ревербератора в 20 временных интервалов QMF, а также задержку анализа в 0,5 временного интервала QMF для QMF-анализа BRIR, чтобы обеспечить вставку поздней реверберации в обоснованный временной интервал. Объединенный сигнал в одном временном интервале n вычисляется с помощью

(e) QMF-синтез бинаурального сигнала области QMF

Один 2-канальный кадр из 32 временных интервалов в выходном сигнале области QMF преобразуется в 2-канальный кадр сигнала временной области с длиной L с помощью QMF-синтеза в соответствии с ISO/IEC 14496-3:2009, подпункт 4.6.18.4.2, приводя к окончательному выходному сигналу 830 временной области, .

Хотя некоторые аспекты описаны применительно к устройству, понято, что эти аспекты также представляют собой описание соответствующего способа, где блок или устройство соответствует этапу способа или признаку этапа способа. По аналогии, аспекты, описанные применительно к этапу способа, также представляют собой описание соответствующего блока или элемента либо признака соответствующего устройства. Некоторые или все этапы способа могут исполняться аппаратным устройством (или с его использованием), например микропроцессором, программируемым компьютером или электронной схемой. В некоторых вариантах осуществления какой-нибудь один или несколько самых важных этапов способа могут исполняться таким устройством.

В зависимости от некоторых требований к реализации, варианты осуществления изобретения можно реализовать в аппаратных средствах или в программном обеспечении. Реализация может выполняться с использованием постоянного носителя информации, такого как цифровой носитель информации, например дискета, DVD, Blu-Ray, CD, ROM, PROM, EPROM, EEPROM или флэш-память, имеющий сохраненные на нем электронно считываемые управляющие сигналы, которые взаимодействуют (или допускают взаимодействие) с программируемой компьютерной системой так, что выполняется соответствующий способ. Поэтому цифровой носитель информации может быть компьютерно-читаемым.

Некоторые варианты осуществления в соответствии с изобретением содержат носитель данных, имеющий электронно считываемые управляющие сигналы, которые допускают взаимодействие с программируемой компьютерной системой так, что выполняется один из способов, описанных в этом документе.

Как правило, варианты осуществления настоящего изобретения могут быть реализованы как компьютерный программный продукт с программным кодом, причем программный код действует для выполнения одного из способов, когда компьютерный программный продукт выполняется на компьютере. Программный код может храниться, например, на машиночитаемом носителе.

Другие варианты осуществления содержат компьютерную программу для выполнения одного из описанных в этом документе способов, сохраненную на машиночитаемом носителе.

Другими словами, вариант осуществления изобретательского способа поэтому является компьютерной программой, имеющей программный код для выполнения одного из описанных в этом документе способов, когда компьютерная программа выполняется на компьютере.

Дополнительный вариант осуществления изобретательского способа поэтому является носителем данных (или цифровым носителем информации, или компьютерно-читаемым носителем), содержащим записанную на нем компьютерную программу для выполнения одного из способов, описанных в этом документе. Носитель данных, цифровой носитель информации или записанный носитель обычно являются материальными и/или невременными.

Дополнительный вариант осуществления изобретательского способа поэтому является потоком данных или последовательностью сигналов, представляющих компьютерную программу для выполнения одного из способов, описанных в этом документе. Поток данных или последовательность сигналов могут конфигурироваться, например, для передачи по соединению передачи данных, например по Интернету.

Дополнительный вариант осуществления содержит средство обработки, например компьютер или программируемое логическое устройство, сконфигурированные или запрограммированные для выполнения одного из способов, описанных в этом документе.

Дополнительный вариант осуществления содержит компьютер, имеющий установленную на нем компьютерную программу для выполнения одного из способов, описанных в этом документе.

Дополнительный вариант осуществления в соответствии с изобретением содержит устройство или систему, сконфигурированные для передачи приемнику (например, электронно или оптически) компьютерной программы для выполнения одного из способов, описанных в этом документе. Приемник может быть, например, компьютером, мобильным устройством, запоминающим устройством или т.п. Устройство или система могут, например, содержать файл-сервер для передачи компьютерной программы приемнику.

В некоторых вариантах осуществления программируемое логическое устройство (например, программируемая пользователем вентильная матрица) может использоваться для выполнения некоторых или всех функциональных возможностей способов, описанных в этом документе. В некоторых вариантах осуществления программируемая пользователем вентильная матрица может взаимодействовать с микропроцессором, чтобы выполнить один из способов, описанных в этом документе. Как правило, способы предпочтительно выполняются любым аппаратным устройством.

Вышеописанные варианты осуществления являются всего лишь пояснительными для принципов настоящего изобретения. Подразумевается, что модификации и изменения компоновок и подробностей, описанных в этом документе, будут очевидны другим специалистам в данной области техники. Поэтому есть намерение ограничиться только объемом нижеприведенной формулы изобретения, а не определенными подробностями, представленными посредством описания и объяснения вариантов осуществления в этом документе.

Литература

[1] T. Hidaka и др: "A new definition of boundary point between early reflections and late reverberation in room impulse responses". Forum Acusticum, 2005.

[2] Jot и др.: "Analysis and synthesis of room reverberation based on a statistical time frequency model".

[3] J.S. Abel, P. Huang: "A Simple, Robust Measure of Reverberation Echo Density". AES Convention, San Francisco, 2006.

[4] R. Stewart, M. Sandler: "Statistical Measures of Early Reflections of Room Impulse Responses". DAFx, 2007.

[5] Reilly и др.: "Using Auralisation for Creating Animated 3-D Sound Fields Across Multiple Speakers". AES Convention, New York, 1995.

[6] Usher, J.: "An improved method to determine the onset timings of reflections in an acoustic impulse response". Journal of the Acoustical Society of America, (2010, том 127), группа 4, стр. 172-177.

[7] Masri, P.: "Computer Modelling of Sound for Transformation and Synthesis of Musical Signals". Докторская диссертация, Бристольский университет, 1996.

1. Способ для обработки аудиосигнала (400, 802) в соответствии с импульсной характеристикой (300, 804) помещения, содержащий этапы, на которых:

раздельно обрабатывают (402, 404, 406, 422, 424, 812, 816a, 816b) аудиосигнал (400, 802) с первичной частью (301, 302) и позднюю реверберацию (304) в импульсной характеристике (300, 804) помещения и

объединяют (418, 432, 828) аудиосигнал, обработанный с первичной частью (414, 428, 814) в импульсной характеристике (300, 804) помещения, и реверберированный сигнал (416, 430, 826a, 826b),

причем переход от первичной части (301, 302) к поздней реверберации (304) в импульсной характеристике (300, 804) помещения определяется, как только мера корреляции достигает пороговой величины,

при этом мера корреляции описывает сходство спада в акустической энергии, включающего в себя начальное состояние, и спада в акустической энергии, начинающегося в некий момент после начального состояния на предопределенном частотном диапазоне, в отношении импульсной характеристики (300, 804) помещения,

причем пороговая величина устанавливается зависимой от меры корреляции для выбранного отражения из первичных отражений (302, 602) в первичной части (301, 302) импульсной характеристики (300, 804) помещения, и

при этом выбранное отражение из первичных отражений является первым отражением (602).

2. Способ по п. 1, в котором этап, на котором определяют переход, содержит этапы, на которых:

определяют (500) распределение акустической энергии на основе импульсной характеристики (300, 804) помещения и

определяют (502) множество мер корреляции, указывающее корреляцию между акустической энергией в соответствующей части определенного распределения и акустической энергией в начальном состоянии для множества частей определенного распределения.

3. Способ по п. 2, в котором этап, на котором определяют распределение, содержит этап, на котором определяют частотно-временное распределение акустической энергии, и

часть распределения содержит временной блок предопределенной длины, причем начальное состояние задается первым из множества временных блоков частотно-временного распределения.

4. Способ по п. 2 или 3, в котором этап, на котором определяют распределение, содержит этап, на котором вычисляют рельеф спада энергии (EDR) из импульсной характеристики (300, 804) помещения.

5. Способ по п. 4, в котором EDR вычисляется следующим образом:

,

где - рельеф спада энергии,

- импульсная характеристика (300, 804) помещения,

ω=2πf.

6. Способ по одному из пп. 3 или 5, в котором импульсная характеристика (300, 804) помещения обладает предопределенной эффективной длиной и в котором этап, на котором определяют частотно-временное распределение, содержит этап, на котором вычисляют спектр FFT импульсной характеристики (300, 804) помещения с использованием окна, имеющего длину, соответствующую эффективной длине импульсной характеристики помещения.

7. Способ по п. 6, в котором акустическая энергия в начальном состоянии определяется путем получения всей эффективной длины импульсной характеристики (300, 804) помещения, вычисления спектра FFT и возведения абсолютных значений в квадрат, а

акустическая энергия временного блока определяется путем сдвига окна на время, ассоциированное с временным блоком, заполнения нулями разделенных на окна выборок до эффективной длины, вычисления FFT и возведения абсолютных значений в квадрат.

8. Способ по одному из пп. 1–3, 5, 7, в котором мера корреляции вычисляется следующим образом:

,

где - мера корреляции,

- рельеф спада энергии полного частотного диапазона на частоте f,

- среднее значение по всем частотам у начального рельефа спада энергии полного диапазона,

- рельеф спада энергии на частоте f, начиная с момента t,

- среднее значение по всем частотам у рельефа спада энергии полного диапазона, начиная с момента t,

ω=2πf.

9. Способ по одному из пп. 1–3, 5, 7, в котором пороговая величина определяется на основе постоянного значения и меры корреляции для выбранного отражения из первичных отражений (302, 602).

10. Способ по п. 9, в котором постоянное значение равно 1/e и в котором пороговая величина задается следующим образом:

,

где - мера корреляции для выбранного отражения из первичных отражений (302, 602),

tF - временной индекс, где выбранное отражение из первичных отражений (302, 602) сталкивается после прямого звука (300),

c - постоянное значение, которое основывается на , причем e – число Эйлера.

11. Нематериальный компьютерный программный продукт, содержащий компьютерно-читаемый носитель, хранящий команды, которые при исполнении на компьютере осуществляют способ по одному из пп. 1–10.

12. Блок обработки сигналов, содержащий

вход для приема аудиосигнала (400, 802);

процессор, сконфигурированный для обработки принятого аудиосигнала (400, 802) в соответствии с импульсной характеристикой (300, 804) помещения согласно способу по одному из пп. 1–10, и

выход для объединения (418, 432, 828) обработанной первичной части (414, 428, 814) принятого аудиосигнала и реверберированного сигнала (416, 430, 826a, 826b) в выходной аудиосигнал.

13. Блок обработки сигналов по п. 12, содержащий

процессор (402, 404, 422, 812) первичной части для обработки принятого аудиосигнала (400, 802) в соответствии с первичной частью (301, 302, 602) в импульсной характеристике (300, 804) помещения и

процессор (406, 424, 816a, 816b) поздней реверберации для обработки принятого аудиосигнала (400, 802) в соответствии с поздней реверберацией (304) в импульсной характеристике (300, 804) помещения.

14. Аудиокодер для кодирования аудиосигнала, причем аудиокодер сконфигурирован для обработки аудиосигнала, кодируемого в соответствии с импульсной характеристикой (300, 804) помещения, в соответствии со способом по одному из пп. 1–10.

15. Аудиокодер по п. 14, где аудиокодер содержит блок обработки сигналов по п. 12 или 13.

16. Аудиодекодер для декодирования кодированного аудиосигнала, причем аудиодекодер сконфигурирован для обработки декодируемого аудиосигнала (400, 802) в соответствии с импульсной характеристикой (300, 804) помещения в соответствии со способом по одному из пп. 1–10.

17. Аудиодекодер по п. 16, причем аудиодекодер содержит блок обработки сигналов по п. 12 или 13.

18. Аудиодекодер по п. 16, содержащий устройство рендеринга, сконфигурированное для приема декодированного аудиосигнала (400, 802) и рендеринга выходных сигналов на основе импульсной характеристики (300, 804) помещения.

19. Аудиодекодер по п. 17, содержащий устройство рендеринга, сконфигурированное для приема декодированного аудиосигнала (400, 802) и рендеринга выходных сигналов на основе импульсной характеристики (300, 804) помещения.

20. Аудиодекодер по п. 18 или 19, в котором устройство рендеринга содержит устройство бинаурального рендеринга.

21. Устройство бинаурального рендеринга, содержащее блок обработки сигналов по п. 12 или 13.



 

Похожие патенты:

Группа изобретений относится к акустике, в частности к ревербератору и способу ревербирования звукового сигнала. Ревербератор звукового сигнала содержит процессор, в состав которого входят петли обратной связи с элементами задержки двух различных сигналов частотной подзоны.

Описывается бинауральная визуализация многоканального звукового сигнала в бинауральный выходной сигнал (24). Многоканальный звуковой сигнал включает сигнал стерео понижающего микширования (18), в который множество звуковых сигналов микшируется с понижением; и дополнительная информация включает информацию о понижающем микшировании (DMG, DCLD), показывающую для каждого звукового сигнала, до какой степени соответствующий звуковой сигнал был микширован в первый канал и второй канал сигнала стерео понижающего микширования (18) соответственно, а также информацию об уровне объекта множества звуковых сигналов и информацию о межобъектной взаимной корреляции, описывающую сходство между парами звуковых сигналов множества звуковых сигналов.

Изобретение относится к аудиосистемам, более конкретно к усовершенствованному способу и устройству для создания реверберации. .
Наверх