Многоканальный аудиокодер, декодер, способы и компьютерная программа для переключения между параметрическим многоканальным режимом работы и режимом работы с отдельными каналами

Авторы патента:

G10L19/008 - Техника анализа-синтеза речи для уменьшения избыточности, например в вокодерах ; кодирование или декодирование речи

Владельцы патента RU 2785944:

ФРАУНХОФЕР-ГЕЗЕЛЛЬШАФТ ЦУР ФЕРДЕРУНГ ДЕР АНГЕВАНДТЕН ФОРШУНГ Е.Ф. (DE)

Изобретение относится к области вычислительной техники для аудиокодирования данных. Технический результат заключается в обеспечении возможности воспроизведения стереоизображения и обеспечения голосового выходного сигнала для сценариев с интерферирующими источниками голосовых данных. Технический результат достигается за счет переключения на параметрическое многоканальное кодирование в случае одного источника и переключения на отдельное кодирование в случае двух или более источников в определённой частотно-временной части, параметры многоканального кодирования которых отличаются по меньшей мере на заданное отклонение. 14 н. и 24 з.п. ф-лы, 8 ил.

Область техники, к которой относится изобретение

Настоящая заявка относится к многоканальному кодированию и декодированию аудиоданных для стерео-, двухканальных или более чем двухканальных вариантов применения. Более конкретно, она относится к общему кодированию/декодированию аудиоданных или к кодированию/декодированию голосовых данных, или к кодированию/декодированию с использованием кодирования/декодирования в области преобразования с коэффициентами масштабирования и/или кодирования/декодирования на основе коэффициентов линейного прогнозирования.

Уровень техники

Для передачи голосовых стереосигналов, захваченных с помощью системы микрофонов с двумя или более микрофонами с определенным расстоянием между микрофонами, когда требуется низкая скорость передачи битов, могут использоваться параметрические стереотехнологии. Примерная параметрическая стереотехнология описана в [1]. Для случаев, в которых два или более говорящих присутствуют в окружении системы микрофонов, и в течение одного и того же периода времени одновременно говорит более чем один говорящий, параметрическая стереосистема может адекватно работать для большинства ситуаций. Тем не менее, иногда возникают случаи, в которых параметрическая модель может не иметь возможность воспроизводить стереоизображение и обеспечивать понятный голосовой выходной сигнал для сценариев с интерферирующими источниками голосовых данных. Это происходит, например, когда каждый из двух или более говорящих захватывается с различной ITD (межканальной разностью времен), значения ITD являются большими (большое расстояние между микрофонами), и/или говорящие сидят в противоположных положениях вокруг оси системы микрофонов.

Кроме того, в параметрической стереосхеме, к примеру, описанной в [1], некоторые параметры извлекаются, чтобы воспроизводить пространственную стереосцену, и стереосигнал выводится в одноканальное понижающее сведение, которое дополнительно кодируется. В случае интерферирующих источников голосовых данных сигнал понижающего сведения может кодироваться с помощью голосового кодера, такого как CELP, описанный в [2]. Тем не менее, такие схемы кодирования представляют собой модели формирования голосовых данных «источник-фильтр», спроектированные с возможностью представления голосовых данных одного говорящего. Для интерферирующих источников голосовых данных имеется вероятность того, что модель базового кодирования нарушается, и воспринимаемое качество ухудшается.

Задача изобретения

Задача настоящего изобретения состоит в по меньшей мере частичном преодолении недостатков традиционных подходов.

Раскрытие изобретения

Данная задача решается многоканальным аудиокодером по пункту 1 формулы, многоканальным аудиодекодером по пункту 26 формулы, кодированным многоканальным аудиопредставлением по пункту 26 формулы, способом многоканального кодирования аудиоданных по пункту 30 формулы, способом многоканального декодирования аудиоданных по пункту 31 формулы и компьютерной программой по пункту 32 формулы.

Предложен многоканальный аудиокодер. Многоканальный аудиокодер может представлять собой стерео- или двухканальный либо более чем двухканальный аудиокодер. Аудиокодер может представлять собой общий аудиокодер или голосовой кодер, или кодер, переключающийся между кодированием в области преобразования с использованием коэффициентов масштабирования и кодированием на основе коэффициентов линейного прогнозирования. Кодер выполнен с возможностью формирования кодированного аудиопредставления на основе входного аудиопредставления. Кодер выполнен с возможностью переключения между параметрическим многоканальным кодированием множества каналов, например, каналов входного аудиопредставления и отдельным кодированием множества каналов, например, каналов входного аудиопредставления, в зависимости от характеристик входного аудиопредставления.

Параметрическое многоканальное кодирование может кодировать комбинированный сигнал, комбинирующий множество канальных сигналов, и кодировать взаимосвязь между двумя или более каналами в форме параметров. Параметры могут содержать параметры межканальной разности времен и/или параметры межканальной разности уровней, и/или межканальные фазовые параметры, и/или параметры межканальной корреляции.

Переключение между параметрическим многоканальным кодированием и отдельным кодированием в зависимости от характеристик входного аудиопредставления преимущественно обеспечивает возможность адаптации кодирования к характеристикам входного аудиопредставления. Избирательное переключение между параметрическим многоканальным кодированием и отдельным кодированием может приводить к выбору кодирования, более подходящего для кодирования базового входного аудиопредставления таким образом, что результирующее кодированное аудиопредставление может иметь преимущественные свойства, например, в отношении воспринимаемой производительности.

Другими словами, настоящее изобретение заключает в себе компромисс между усилиями для того, чтобы получать характеристики входного аудиопредставления, с последующим действием (например, переключением) относительно характеристик, и преимуществом кодирования входного аудиопредставления посредством использования кодирования, которое может быть преимущественным для определенного входного аудиопредставления (либо его части), например, с точки зрения критерия производительности.

Согласно варианту осуществления, многоканальный кодер может быть выполнен с возможностью определения, соответствует ли входное аудиопредставление предположению относительно модели, лежащей в основе параметрического многоканального кодирования, и переключения в зависимости от упомянутого определения. Предположение может содержать присутствие одного разговаривающего, например, присутствие одной значимой межканальной разности времен/интерауральной разности времен (ITD) в каждой частотно-временной части. Например, характеристики входного аудиопредставления могут обеспечивать указания на то, что два или более источника голосовых данных интерферируют, и в силу этого предположения относительно модели, лежащей в основе параметрического многоканального кодирования относительно одного говорящего, могут нарушаться.

Согласно варианту осуществления, многоканальный кодер может быть выполнен с возможностью переключения на отдельное кодирование, если предположение относительно модели, лежащей в основе параметрического многоканального кодирования, не выполняется. Например, предположение относительно числа разговаривающих и их ITD модели, лежащей в основе параметрического многоканального кодирования, может не выполняться для некоторых входных аудиопредставлений. Тем не менее, предположение относительно модели, лежащей в основе отдельного кодирования, может выполняться. Как результат, переключение на отдельное кодирование может приводить к преимущественной производительности.

Согласно варианту осуществления, многоканальный кодер может быть выполнен с возможностью определения, соответствует ли входное аудиопредставление доминирующему источнику, например, одному доминирующему источнику. В таком случае, другие источники (например, все другие источники) могут быть более слабыми, например по меньшей мере на заданную разность интенсивности. Кодер может быть выполнен с возможностью переключения в зависимости от упомянутого определения. Присутствие или отсутствие доминирующего источника может обеспечивать указание в отношении того, может ли параметрическое кодирование или отдельное кодирование быть преимущественным с точки зрения производительности.

Согласно варианту осуществления, многоканальный кодер может быть выполнен с возможностью определения, имеется ли один доминирующий источник во множестве частотно-временных частей, и/или определения, имеются ли два или более источников в определённой частотно-временной части, параметры многоканального кодирования которых отличаются по меньшей мере на заданное отклонение либо более чем на заданное отклонение. Многоканальный кодер может быть выполнен с возможностью переключения в зависимости от упомянутого определения. В качестве альтернативы, множество частотно-временных частей могут содержать все частотно-временные части. Два или более источников могут соответствовать условию значимости источника, например, тому, что они представляют собой релевантные и/или значимые, и/или заметные источники, которые находятся в различных положениях. Параметры многоканального кодирования могут представлять собой ITD. Определение одного источника может обеспечивать возможность выбирать кодирование, базовая модель которого является подходящей для обработки одного источника, например, параметрическое кодирование. Определение одного источника в частотно-временной части или частях может обеспечивать возможность выбирать кодирование для части или частей, для которых выполняются предположения относительно модели, лежащей в основе кодирования, например, параметрической модели. Определение двух или более источников в определённой частотно-временной части может указывать то, что кодирование, имеющее базовую модель на основе одного источника, может не обеспечивать требуемую производительность для определённой частотно-временной части, и в силу этого переключение кодирования для упомянутой определённой части может приводить к преимущественной производительности. Определение в отношении того, отличаются ли многоканальные параметры по меньшей мере на заданное отклонение (либо более чем на заданное отклонение), может обеспечивать возможность определения того, могут ли два или более источников приводить к нарушению предположений относительно модели, лежащей в основе кодирования, и в силу этого может представлять собой указание на необходимость переключения на другое кодирование.

В варианте осуществления, многоканальный кодер может быть выполнен с возможностью определения параметра модели, лежащей в основе параметрического многоканального кодирования, и переключения в зависимости от параметра модели. Например, параметр модели может представлять собой межканальную разность времен, интерауральную разность времен, ITD. Параметр может описывать взаимосвязь между двумя или более каналами входного аудиопредставления. Определение параметра модели, лежащей в основе параметрического многоканального кодирования, может обеспечивать возможность оценки способности параметрической модели обеспечивать требуемую производительность для определённой взаимосвязи между двумя или более каналами входного аудиопредставления и выполнения переключения таким образом, чтобы обеспечить преимущественную производительность.

В варианте осуществления, многоканальный кодер может быть выполнен с возможностью определения, обеспечивает ли характеристика, определяющая взаимосвязь между каналами входного аудиопредставления, возможность однозначного определения параметра многоканального кодирования, либо, указывает ли она два или более различных возможных значения параметра многоканального кодирования, и переключения в зависимости от упомянутого определения. Например, характеристика, определяющая взаимосвязь между каналами, может представлять собой эволюцию обобщенного взаимного корреляционного фазового преобразования (GCC-PHAT) для параметра запаздывания либо эволюцию взаимной корреляционной функции между двумя или более каналами для параметра запаздывания. Параметр многоканального кодирования может представлять собой ITD. Два или более различных возможных (например, значащих) значения могут отличаться по меньшей мере на заданное значение и могут быть отличимыми от минимального уровня шума. Характеристика может содержать два или более значения (например, пиковых значения или значения, соответствующих условию значимости), которые отличаются самое большее на (например, заданное или сигнально-адаптивное) (например, некоторое значение) разности в отношении их значимости, либо только одно значение, соответствующее условию значимости. Определение взаимосвязи между каналами входного аудиопредставления посредством использования эволюции обобщенного взаимного корреляционного фазового преобразования или эволюции взаимной корреляционной функции может обеспечивать возможность количественного определения взаимосвязи между каналами, чтобы получать характеристику. Определение в отношении того, отличаются ли два или более различных значения параметра многоканального кодирования по меньшей мере на заданное значение, и того, являются ли два или более различных значения параметра многоканального кодирования отличимыми от минимального уровня шума, обеспечивает возможность преимущественно надежного определения, возможно ли однозначное определение параметра многоканального кодирования, либо, могут ли быть определены два или более различных значащих значения параметра многоканального кодирования. В качестве альтернативы или дополнения, определение того, содержит ли характеристика два или более значений, которые отличаются самое большее на разность относительно их определенной значимости, например, посредством использования условия значимости, обеспечивает возможность преимущественно надежного определения того, возможно ли однозначное определение параметра многоканального кодирования, либо того, могут ли быть определены два или более различных значащих значения параметра многоканального кодирования.

В варианте осуществления, многоканальный кодер может быть выполнен с возможностью определения, содержит ли характеристика, определяющая взаимосвязь между каналами входного аудиопредставления, только одно значимое значение, которое соответствует условию значимости, либо содержит ли характеристика, определяющая взаимосвязь между каналами входного аудиопредставления, два или более (например, различных) значимых значения, которые соответствуют условию значимости, и переключения, например, между параметрическим многоканальным кодированием и отдельным кодированием множества каналов, в зависимости от упомянутого определения. Характеристика, определяющая взаимосвязь между каналами, может представлять собой эволюцию GCC-PHAT для параметра запаздывания либо эволюцию взаимной корреляционной функции между двумя или более каналами для запаздывания. Одно значимое значение может заключать в себе один значимый пик, который представляет одно значение ITD. Условие значимости может содержать взаимосвязь абсолютных величин между двумя или более локальными пиками или максимумами и/или взаимосвязь расстояний между двумя локальными пиками или максимумами, и/или расстояние от минимального уровня шума. Условие значимости может быть заданным или быть сигнально-адаптивным, например, может быть основано на характеристиках входного аудиопредставления. Два или более значимых значения могут содержать по меньшей мере два значимых пика, которые представляют два или более различных значения ITD. Соответствие условию значимости может определяться в одной частотно-временной части. Определение взаимосвязи между каналами входного аудиопредставления посредством использования эволюции GCC-PHAT или взаимной корреляционной функции может преимущественно обеспечивать возможность количественного определения взаимосвязи между каналами, чтобы получать характеристику. Определение того, содержит ли характеристика только одно значимое значение, либо того, содержит ли характеристика два или более значения, может преимущественно позволять определить, какое кодирование, например параметрическое многоканальное кодирование или отдельное кодирование, может быть более подходящим для определённого входного аудиопредставления. Условие значимости может преимущественно позволять использовать один или более критериев оценки значений, например, абсолютных величин между двумя локальными пиками или максимумами, расстояний между двумя локальными пиками или максимумами, например, во временной области, к примеру, запаздывание во времени, или в частотной области, и/или расстояние от минимального уровня шума, для определения, какое из значений, содержащихся в эволюции, может учитываться при определении того, содержат ли характеристики только одно значимое значение или два или более значимых значения.

В варианте осуществления, многоканальный кодер может быть выполнен с возможностью определения параметра предыдущего кадра, например, кодированного аудиопредставления, и переключения в зависимости от параметра предыдущего кадра. Параметр предыдущего кадра может представлять собой флаг SAD. Определение параметра предыдущего кадра может преимущественно использоваться, например, для определения, содержит ли предыдущий кадр активный сигнал, так что переключение в первом кадре части сигнала может избирательно исключаться.

В варианте осуществления, многоканальный кодер может быть выполнен с возможностью определения, имеются ли интерферирующие источники во входном аудиопредставлении, и переключения в зависимости от упомянутого определения. Интерферирующий источник может содержать два или более интерферирующих источника звука либо два или более интерферирующих источника голосовых данных, либо двух или более интерферирующих говорящих людей. Интерферирующие источники (либо разговаривающие или говорящие люди) во входном аудиопредставлении могут определяться, например, в частотно-временной части или, например, в перекрывающемся частотно-временном ресурсе или части. Определение того, имеются ли интерферирующие источники, может преимущественно обеспечивать возможность переключения между параметрическим многоканальным кодированием и отдельным кодированием, например, на основе определения того, что входное аудиопредставление содержит интерферирующие источники, которые могут приводить к ухудшению производительности, например, параметрического многоканального кодирования и, например, к преимущественной производительности отдельного кодирования.

В варианте осуществления, многоканальный кодер может быть выполнен с возможностью определения, имеются ли два или более значения, описывающих взаимосвязь между двумя или более каналами входного аудиопредставления, которые соответствуют условию значимости, и которые ассоциированы с одной частотно-временной частью, и переключения в зависимости от упомянутого определения. Два или более значения могут содержать релевантные значения или значимые значения. Определение того, имеются ли два или более значения, которые соответствуют условию значимости, и ассоциированы с одной частотно-временной частью, может преимущественно обеспечивать возможность определения того, что, например, входное аудиопредставление может приводить к ухудшению производительности, например, параметрического многоканального кодирования и, например, к преимущественной производительности отдельного кодирования.

В варианте осуществления, многоканальный кодер может быть выполнен с возможностью определения, имеются ли два или более пика во взаимной корреляции, например, GCC-PHAT, между двумя или более каналами входного аудиопредставления, и переключения в зависимости от упомянутого определения. Взаимная корреляция может быть связана с определённой частотно-временной частью. Определение того, имеются ли два или более пика во взаимной корреляции между двумя или более каналами, может преимущественно обеспечивать возможность количественного определения, могут ли находиться интерферирующие источники голосовых данных во входном аудиопредставлении, что может ухудшать производительность, например, параметрического многоканального кодирования, и переключаться, например, на отдельное кодирование после определения.

В варианте осуществления, многоканальный кодер может содержать модуль оценки, выполненный с возможностью оценки взаимосвязи между двумя или более каналами входного аудиопредставления на основе взаимной корреляции. Модуль оценки может быть выполнен с возможностью оценки взаимосвязи по отдельности для множества частотно-временных частей. Модуль оценки может представлять собой модуль оценки ITD. Взаимная корреляция может представлять собой GCC-PHAT или сглаженную взаимную корреляцию. Взаимная корреляция может выполняться во временной области или может выполняться в частотной области. Многоканальный кодер может быть дополнительно выполнен с возможностью определения, превышает ли разность между двумя пиковыми значениями, например, релевантными и/или значимыми значениями, например, оцененными посредством модуля оценки, ассоциированными с различным запаздыванием взаимной корреляции, некоторое значение (например, заданное значение или сигнально-адаптивное значение), и переключения в зависимости от упомянутого определения. Модуль оценки, например, модуль оценки ITD может присутствовать в кодере, например, в кодере с использованием параметрического многоканального кодирования, и в силу этого использование модуля оценки для определения, является ли разность между двумя пиковыми значениями, ассоциированными с различным запаздыванием взаимной корреляции, большей, чем пороговое значение, может не вводить существенную дополнительную сложность.

В варианте осуществления, многоканальный кодер может быть выполнен с возможностью определения, превышает ли расстояние между двумя или более значениями (например, релевантными значениями или значимыми значениями), описывающими взаимосвязь между двумя или более каналами входного аудиопредставления, которые соответствуют условию значимости, и которые ассоциированы с одной и той же частотно-временной частью, некоторое значение (например, заданное значение или сигнально-адаптивное значение), и переключения в зависимости от упомянутого определения. Расстояние может определяться относительно запаздывания во времени или запаздывания взаимной корреляции, например, во временной области. Два или более значения могут представлять собой пики взаимной корреляции между двумя или более каналами входного аудиопредставления и могут обеспечиваться посредством модуля оценки, например, модуля оценки ITD. Пиковые значения могут представлять собой значения, соответствующие условию значимости. Определение того, превышает ли расстояние между двумя или более значениями, которые соответствуют условию значимости, и которые ассоциированы с одной и той же частотно-временной частью, пороговое значение, обеспечивает возможность преимущественного различения, например, между двумя или более пиками, расположенными на небольшом расстоянии, которое может возможно приписываться одному источнику, и двумя или более пиками, расположенными на значимом (например, большем) расстоянии, которое может приписываться более чем одному источнику.

В варианте осуществления, многоканальный кодер может быть выполнен с возможностью определения первого характеристического значения на основе эволюции взаимной корреляции (например, для параметра запаздывания) и переключения на основе упомянутого определения. Первое характеристическое значение может представлять собой главный пик или первичный пик. Взаимная корреляция может содержать GCC-PHAT. Первое характеристическое значение может соответствовать условию значимости. Пиковое значение может представлять собой наибольшее (например, абсолютное) значение в эволюции. Определение может содержать оценку эволюций для одного или более кадров, в том числе, например, одного или более предыдущих кадров. Определение дополнительно может содержать определение того, соответствует ли значение условию стабильности. Условие стабильности, например, может выполняться, если значение находится в пределах диапазона (например, заданного диапазона или сигнально-адаптивного диапазона) для определенного числа предыдущих кадров (например, заданного числа предыдущих кадров или сигнально-адаптивного числа предыдущих кадров). Так же, в качестве альтернативы или дополнения, соответствие критерию стабильности может определяться на основе гистерезисного механизма, имеющего значение для определенного числа кадров (например, заданного числа предыдущих кадров или сигнально-адаптивного числа предыдущих кадров) в качестве ввода. Определение первого характеристического значения, например, главного пика, может обеспечивать возможность преимущественной оценки того, вызывает ли определенное значение (которое во многих случаях представляет собой наибольшее значение в эволюции взаимной корреляции), отдельно или в сочетании с дополнительным одним или более значениями, необходимость переключать кодирование между параметрическим многоканальным кодированием и отдельным кодированием. Кроме того, при необходимости учет условия значимости и/или условия стабильности позволяет преимущественно обеспечивать возможность определения того, должно ли переключение, например, избирательно исключаться, если, например, обнаруженное значение не является достаточно стабильным во времени и/или не находится на достаточно большом расстоянии, например, от минимального уровня шума.

В варианте осуществления, многоканальный кодер может быть выполнен с возможностью определения одного или более подчиненных характеристических значений на основе эволюции взаимной корреляции и переключения на основе упомянутого определения. Одно или более подчиненных характеристических значений могут представлять собой вторичные пики или вторые пики. Подчиненные значения могут определяться на основе части эволюции взаимной корреляции. Например, каждый элемент части может иметь расстояние (например, относительно запаздывания во времени, например, во временной области) до первого характеристического значения, которое превышает (например, заданное или сигнально-адаптивное) пороговое значение. Одно или более подчиненных характеристических значений могут соответствовать условию значимости. Одно или более подчиненных характеристических значений могут представлять собой одно или более наибольших (например, абсолютных) значений в части эволюции. Одно или более подчиненных характеристических значений могут соответствовать условию стабильности. Определение одного или более подчиненных характеристических значений может преимущественно обеспечивать возможность оценки того, вызывают ли определенные значения, например, первое характеристическое значение и/или одно или более подчиненных характеристических значений, необходимость переключать кодирование между параметрическим многоканальным кодированием и отдельным кодированием. Кроме того, при необходимости оценка для одного или более подчиненных значений в части эволюции взаимной корреляции, имеющей определенное расстояние от первого характеристического значения, может преимущественно обеспечивать возможность надежного приписывания входного аудиопредставления одному источнику или нескольким источникам. В качестве альтернативы или дополнения, многоканальный кодер может быть выполнен с возможностью определения, имеются ли одно или более подчиненных характеристических значений, на основе эволюции взаимной корреляции, и переключения в зависимости от упомянутого определения. Другими словами, простое существование одного или более подчиненных характеристических значений может определяться, например, например, на основе алгоритма распознавания образов и т.п.

В варианте осуществления, многоканальный кодер может быть выполнен с возможностью определения, что главный пик и один или более подчиненных пиков соответствуют условию значимости, и переключения в зависимости от упомянутого определения. Например, условие значимости выполняется, если разность (например, относительная разность) между главным пиком и одним или более подчиненных пиков превышает пороговое значение (например, заданное пороговое значение или сигнально-адаптивное пороговое значение) для определенного числа кадров, для которых выполняется условие стабильности. Разность между пиками может определяться, например, относительно их амплитуд или относительно их фаз, или относительно их запаздывания во времени. В качестве альтернативы или дополнения, многоканальный кодер может быть выполнен с возможностью определения, имеются ли один или более подчиненных пиков взаимной корреляции, которые соответствуют критерию релевантности, и переключения в зависимости от упомянутого определения. Критерий релевантности может задаваться, например, относительно главного пика и/или относительно минимального уровня шума взаимной корреляции. Определение значительной разности между главным пиком и одним или более подчиненными пиками преимущественно обеспечивает возможность надежного определения того, что во входном аудиопредставлении присутствует более одного источника, и переключения, например, на отдельное кодирование на основе упомянутого определения.

В варианте осуществления, многоканальный кодер может быть выполнен с возможностью избирательного учёта подчиненного пика в определённом кадре входного аудиопредставления, если имеются один или более соответствующих подчиненных пиков в одном или более кадрах, предшествующих упомянутому определённому кадру. Например, один или более соответствующих подчиненных пиков могут быть расположены с одинаковым запаздыванием автокорреляции с рассматриваемым подчиненным пиком либо в заданном диапазоне запаздываний автокорреляции около запаздывания автокорреляции рассматриваемого подчиненного пика. Избирательное рассмотрение подчиненного пика в определённом кадре с учетом одного или более соответствующих подчиненных пиков в одном или более предшествующих кадрах преимущественно обеспечивает возможность определения того, может ли определенная пространственная стабильность и/или стабильность уровня/фазы/частоты приписываться источнику/источникам, до переключения кодирования. Стабильность может охватывать один или более кадров и в силу этого может быть связана с обстоятельствами источника/источников, вместо ограничения посредством длины кадра.

В варианте осуществления, многоканальный кодер может быть выполнен с возможностью определения, соответствуют ли одно или более характеристических значений, которые описывают взаимосвязь между двумя или более каналами входного аудиопредставления, условию стабильности, и переключения в зависимости от упомянутого определения. Характеристические значения могут представлять собой главный пик и/или один или более подчиненных пиков. Условие стабильности может выполняться, например, если значение находится в пределах диапазона (например, заданного диапазона или сигнально-адаптивного диапазона) или превышает пороговое значение (например, заданное пороговое значение или сигнально-адаптивное пороговое значение) для определенного числа предыдущих кадров (например, заданного числа предыдущих кадров или сигнально-адаптивного числа предыдущих кадров). В качестве альтернативы или дополнения, соответствие условию стабильности может определяться на основе гистерезиса, имеющего значение для определенного числа (например, заданного числа предыдущих кадров или сигнально-адаптивного числа предыдущих кадров) кадров (например, предыдущих кадров) в качестве ввода. Определение соответствия условию стабильности может преимущественно обеспечивать возможность исключения переключения на зашумленном входном аудиопредставлении либо его частях, например, на зашумленных кадрах.

В варианте осуществления, многоканальный кодер может быть выполнен с возможностью определения, выполнено ли условие по шуму для определенного числа кадров (например, заданного числа кадров или сигнально-адаптивного числа кадров), и избирательного исключения переключения, если условие по шуму выполнено. Кадры могут включать в себя текущий кадр. Условие по шуму может выполняться, например, если шумовая характеристика (например, минимальный уровень шума) кадра (или определенного числа кадров) превышает пороговое значение (например, заданное пороговое значение или сигнально-адаптивное пороговое значение). Определение выполнения условия по шуму может преимущественно обеспечивать возможность исключения переключения на зашумленном входном аудиопредставлении либо его частях, например, на зашумленных кадрах.

В варианте осуществления, многоканальный кодер может быть выполнен с возможностью определения, выполнено ли условие значимости и/или условие стабильности для характеристического значения для определенного числа кадров, и переключения в зависимости от упомянутого определения. Характеристическое значение может представлять собой главный пик и/или один или более подчиненных пиков. Число кадров может быть заданным или сигнально-адаптивным. Кадры могут включать в себя один или более предыдущих кадров и/или текущий кадр. Определение выполнения условия значимости и/или условия стабильности для определенного числа кадров может преимущественно обеспечивать возможность избирательного исключения переключения на нестабильных сигналах, например, на нестабильных и/или шумовых частях входного аудиопредставления.

В варианте осуществления, многоканальный кодер может быть выполнен с возможностью определения, находится ли расстояние одного или более подчиненных пиков в заданном диапазоне, и переключения и/или избирательного исключения переключения в зависимости от упомянутого определения. Например, один или более подчиненных пиков могут иметь наибольшее значение (например, наибольшее абсолютное значение) и могут называться пиком (2). Расстояние может определяться относительно запаздывания во времени (например, абсолютного запаздывания времени или относительного запаздывания во времени) и/или может определяться во временной области или в частотной области. Расстояние может определяться для определенного числа кадров (например, заданного числа кадров или сигнально-адаптивного числа кадров). Кадры могут включать в себя один или более предыдущих кадров и/или текущий кадр. Определение того, находится ли расстояние одного или более пиков в заданном диапазоне, и переключение и/или избирательное исключение переключения на основе этого позволяет преимущественно обеспечивать возможность избирательного исключения переключения на нестабильных сигналах, например, на нестабильных и/или шумовых частях входного аудиопредставления.

В варианте осуществления, многоканальный кодер может быть выполнен с возможностью избирательного исключения переключения в первом кадре после неактивного кадра входного аудиопредставления или после него. Неактивный кадр может содержать шумовой кадр. В качестве альтернативы или дополнения, многоканальный кодер может быть выполнен с возможностью определения, изменен ли определённый флаг в кадре относительно одного или более предыдущих кадров, и избирательного исключения переключения в зависимости от упомянутого определения. Флаг, например, может указывать активный сигнал и может представлять собой флаг SAD. Избирательное исключение переключения могло содержать исключение переключения в или после первого кадра, в котором флаг принимает активное значение. Как результат, переключение в первом кадре части сигнала может преимущественно избирательно исключаться.

В варианте осуществления, многоканальный кодер может быть выполнен с возможностью избирательного переключения на отдельное кодирование в ответ на обнаружение изменения характеристики входного аудиопредставления, которое больше порогового значения (например, заданного порогового значения или сигнально-адаптивного порогового значения). Характеристика входного аудиопредставления, например, может представлять собой ITD или главный пик или peak (1). Избирательное переключение на отдельное кодирование в ответ на обнаружение изменения характеристики, превышающее пороговое значение, может преимущественно обеспечивать возможность реакции на резкое изменение без необходимости оценивать дополнительные характеристики/параметры.

В варианте осуществления, многоканальный кодер может быть выполнен с возможностью определения, изменен ли параметр, описывающий направление источника звука (например, относительно предыдущего/последнего кадра) по меньшей мере на упомянутое значение (например, пороговое значение), и переключения в зависимости от упомянутого определения. Параметр может представлять собой местоположение главного пика во взаимной корреляции (например, в GCC-PHAT) в частотно-временной части. Переключение может содержать переключение на отдельное кодирование. Определение того, имеет ли параметр, описывающий направление источника звука, изменение по меньшей мере на пороговое значение, может преимущественно обеспечивать возможность переключения на определенное кодирование, например, отдельное кодирование, если источник звука быстро перемещается, например, относительно микрофона, или дополнительный источник звука внезапно появляется и интерферирует с существующим источником звука в частотно-временной части.

Кроме того, предложен многоканальный аудиодекодер. Многоканальный аудиодекодер может представлять собой стерео- или двухканальный либо более чем двухканальный аудиодекодер. Аудиодекодер может представлять собой аудиодекодер общего назначения или голосовой декодер, или декодер, переключающийся между декодированием в области преобразования с использованием коэффициентов масштабирования и декодированием на основе коэффициентов линейного прогнозирования. Декодер выполнен с возможностью формирования декодированного аудиопредставления на основе кодированного аудиопредставления. Декодер выполнен с возможностью переключения между параметрическим многоканальным декодированием множества каналов, например, каналов входного аудиопредставления и отдельным декодированием множества каналов, например, каналов входного аудиопредставления.

Для параметрического многоканального декодирования, может кодироваться комбинированный сигнал, комбинирующий множество канальных сигналов, и может кодироваться в форме параметров взаимосвязь между двумя или более каналами . Параметры могут содержать параметры межканальной разности времен и/или параметры межканальной разности уровней, и/или межканальные фазовые параметры, и/или параметры межканальной корреляции.

Переключение между параметрическим многоканальным декодированием и отдельным декодированием преимущественно обеспечивает возможность адаптации декодирования (и в силу этого также кодирования) к характеристикам входного аудиопредставления. Избирательное переключение между параметрическим многоканальным декодированием и отдельным декодированием может обеспечивать возможность выбора кодирования, более подходящего для кодирования базового входного аудиопредставления таким образом, что результирующее кодированное аудиопредставление может иметь преимущественные свойства, например, в отношении воспринимаемой производительности.

Другими словами, настоящее изобретение заключает в себе компромисс между усилиями для получения характеристик входного аудиопредставления, с последующим действием (например, переключением) в отношении этих характеристик, и преимуществом входного аудиопредставления, кодированного (и в силу этого доступного для декодирования) посредством использования кодирования, которое является преимущественным для определенного входного аудиопредставления (либо его части), например, с точки зрения критерия производительности.

В варианте осуществления, многоканальный аудиодекодер может быть выполнен с возможностью переключения между параметрическим многоканальным декодированием и отдельным декодированием в зависимости от передачи служебных сигналов, включенной в кодированное аудиопредставление. Передача служебных сигналов, включенная в кодированное аудиопредставление, может упрощать декодер относительно декодера, который логически выводит базовую схему кодирования, например, на основе контекста полученного кодированного аудиопредставления.

Помимо этого, предложено кодированное многоканальное аудиопредставление. Многоканальное аудиопредставление может представлять собой стерео- или двухканальное либо более чем двухканальное аудиопредставление. Кодированное многоканальное аудиопредставление содержит кодированное параметрическое многоканальное представление множества каналов (например, входного аудиопредставления) и кодированное отдельное представление множества каналов (например, входного аудиопредставления).

Другими словами, многоканальное аудиопредставление настоящего изобретения преимущественно обеспечивает возможность избирательного использования кодирования, более подходящего для кодирования базового входного аудиопредставления таким образом, что результирующее кодированное аудиопредставление может иметь преимущественные свойства, например, относительно воспринимаемой производительности или любого другого критерия.

В варианте осуществления, кодированное многоканальное аудиопредставление дополнительно может содержать передачу служебных сигналов, указывающую (например, для декодера) необходимость переключаться между параметрическим многоканальным представлением и отдельным представлением. Передача служебных сигналов может указывать необходимость переключаться, например, при декодировании кодированного многоканального аудиопредставления.

Кроме того, предложен способ многоканального кодирования аудиоданных. Многоканальное кодирование может содержать стерео- или двухканальное либо более чем двухканальное кодирование аудиоданных. Кодирование аудиоданных может выполняться посредством общего аудиокодера или голосового кодера, или кодера, переключающегося между кодированием в области преобразования с использованием коэффициентов масштабирования и кодированием на основе коэффициентов линейного прогнозирования. Кодирование обеспечивает кодированное аудиопредставление на основе входного аудиопредставления. Способ содержит переключение между параметрическим многоканальным кодированием множества каналов, например, каналов входного аудиопредставления и отдельным кодированием множества каналов, например, каналов входного аудиопредставления, в зависимости от характеристик входного аудиопредставления.

Переключение между параметрическим многоканальным кодированием и отдельным кодированием в зависимости от характеристик входного аудиопредставления преимущественно обеспечивает возможность адаптации кодирования к характеристикам входного аудиопредставления. Избирательное переключение между параметрическим многоканальным кодированием и отдельным кодированием может приводить к выбору кодирования, более подходящего для того, чтобы кодировать базовое входное аудиопредставление таким образом, что результирующее кодированное аудиопредставление может иметь преимущественные свойства, например, относительно воспринимаемой производительности либо любого другого критерия производительности.

Кроме того, предложен способ многоканального декодирования аудиоданных. Многоканальное декодирование аудиоданных может содержать стерео- или двухканальное либо более чем двухканальное декодирование аудиоданных. Декодирование аудиоданных может выполняться посредством общего аудиодекодера или голосового декодера, или декодера, переключающегося между декодированием в области преобразования с использованием коэффициентов масштабирования и декодированием на основе коэффициентов линейного прогнозирования. Декодирование обеспечивает декодированное аудиопредставление на основе кодированного аудиопредставления. Способ содержит переключение между параметрическим многоканальным декодированием множества каналов, например, каналов входного аудиопредставления и отдельным декодированием множества каналов, например, каналов входного аудиопредставления.

Для параметрического многоканального декодирования может кодироваться комбинированный сигнал, комбинирующий множество канальных сигналов, и может кодироваться в форме параметров взаимосвязь между двумя или более каналами. Параметры могут содержать параметры межканальной разности времен и/или параметры межканальной разности уровней, и/или межканальные фазовые параметры, и/или параметры межканальной корреляции.

Переключение между параметрическим многоканальным декодированием и отдельным декодированием преимущественно обеспечивает возможность адаптации декодирования (и в силу этого также кодирования) к характеристикам входного аудиопредставления. Избирательное переключение между параметрическим многоканальным декодированием и отдельным декодированием может обеспечивать возможность выбора кодирования, более подходящего для кодирования базового входного аудиопредставления таким образом, что результирующее кодированное аудиопредставление может иметь преимущественные свойства, например, относительно воспринимаемой производительности.

При необходимости способ может дополняться любыми из признаков, функциональностей и подробностей, раскрытых в данном документе также в отношении устройства. При необходимости способ может дополняться такими признаками, функциональностями и подробностями как в отдельности, так и в сочетании.

Кроме того, предложена компьютерная программа для осуществления одного из способов, описанных выше, когда компьютерная программа выполняется на компьютере.

Ниже с обращением к сопровождающим чертежам поясняются варианты осуществления настоящего изобретения.

Краткое описание чертежей

Ниже варианты осуществления согласно настоящему изобретению описаны с использованием сопровождающих чертежей, на которых:

Фиг. 1 показывает принципиальную блок-схему аудиокодера согласно варианту осуществления;

Фиг. 2 показывает принципиальную блок-схему аудиодекодера согласно варианту осуществления;

Фиг. 3 показывает блок-схему способа формирования кодированного аудиопредставления согласно варианту осуществления;

Фиг. 4 показывает блок-схему способа формирования декодированного аудиопредставления согласно варианту осуществления;

Фиг. 5 показывает принципиальную блок-схему аудиокодера согласно варианту осуществления;

Фиг. 6 показывает представление аудиосигнала и пиков корреляции;

Фиг. 7 показывает представление корреляционной функции; и

Фиг. 8 показывает принципиальную блок-схему аудиокодера согласно варианту осуществления.

Осуществление изобретения

1. Аудиокодер по фиг. 1

Фиг. 1 схематично показывает многоканальный аудиокодер 100. Многоканальный аудиокодер 100 содержит входное аудиопредставление 110 в качестве ввода. Например, входное аудиопредставление 110 может содержать несколько каналов. Многоканальный аудиокодер 100 выдаёт в качестве выходных данных кодированное аудиопредставление 112.

Многоканальный аудиокодер 100 содержит функциональный блок для выполнения параметрического многоканального кодирования 120 и функциональный блок для выполнения отдельного кодирования 130 множества каналов. Входное аудиопредставление 110 передаётся в каждый из функциональных блоков 120 и 130. Вывод каждого из функциональных блоков 120 и 130 избирательно переключается посредством переключающего элемента 140 таким образом, что многоканальный аудиокодер 100 обеспечивает кодированное аудиопредставление 112.

Многоканальный аудиокодер 100 управляет переключающим элементом 140 посредством использования управляющего переключающего сигнала 145 в зависимости от характеристик входного аудиопредставления 110. Управляющий сигнал 145 может обеспечиваться посредством факультативного функционального блока для выполнения управления 150 переключением, содержащегося в многоканальном аудиокодере 100, либо любого другого подходящего средства.

В качестве альтернативы или дополнения, управляющий переключающий сигнал 145 также может передаваться в любой из функциональных блоков 120 и 130 таким образом, что блоки 120 и 130 могут быть избирательно деактивированы (например, отключены). Например, функциональный блок для выполнения параметрического многоканального кодирования 120 может быть деактивирован на основе управляющего переключающего сигнала 145, если управляющий переключающий сигнал 145 указывает, что функциональный блок для выполнения отдельного кодирования 130 множества каналов должен использоваться для кодирования входного аудиопредставления 110.

В качестве альтернативы, функциональный блок для выполнения отдельного кодирования 130 множества каналов может деактивироваться на основе управляющего переключающего сигнала 145, если управляющий переключающий сигнал 145 указывает то, что, функциональный блок для выполнения параметрического многоканального кодирования 120 должен использоваться для кодирования входного аудиопредставления 110.

При необходимости аудиокодер 100 может дополняться любыми из признаков, функциональностей и подробностей, раскрытых в данном документе, как в отдельности, так и в сочетании.

2. Аудиодекодер по фиг. 2

Фиг. 2 схематично показывает многоканальный аудиодекодер 200. Многоканальный аудиодекодер 200 содержит кодированное аудиопредставление 210 в качестве ввода. Многоканальный аудиодекодер 200 обеспечивает декодированное аудиопредставление 212. Например, декодированное аудиопредставление 212 может содержать множество каналов.

Многоканальный декодер 200 содержит функциональный блок для выполнения параметрического многоканального декодирования 220 и функциональный блок для выполнения отдельного декодирования 230 множества каналов. Кодированное аудиопредставление 210 передаётся в каждый из функциональных блоков 220 и 230. Вывод каждого из функциональных блоков 220 и 230 избирательно переключается посредством переключающего элемента 240 таким образом, что многоканальный аудиодекодер 200 обеспечивает декодированное аудиопредставление 212.

Переключающий элемент 240 представляет собой контроллер, например, посредством неявной передачи служебных сигналов или явной передачи служебных сигналов (не показана), содержащейся в кодированном аудиопредставлении 210.

При необходимости аудиодекодер 200 может дополняться любыми из признаков, функциональностей и подробностей, раскрытых в данном документе, как в отдельности, так и в сочетании.

3. Способ формирования кодированного аудиопредставления по фиг. 3

Фиг. 3 схематично показывает способ 300 многоканального кодирования аудиоданных. Способ 300 содержит этап 310 переключения между параметрическим многоканальным кодированием множества каналов и отдельным кодированием множества каналов в зависимости от характеристик входного аудиопредставления. Помимо этого, способ 300 содержит этап 320, на котором формируется кодированное аудиопредставление.

Следует отметить, что при необходимости способ 300 может выполнять дополнительные подходящие действия, которые раскрыты в отношении любого из устройств, например многоканального кодера согласно настоящему изобретению.

4. Способ формирования кодированного аудиопредставления по фиг. 4

Фиг. 4 схематично показывает способ 400 многоканального декодирования аудиоданных. Способ 400 содержит этап 410 переключения между параметрическим многоканальным декодированием множества каналов и отдельным декодированием множества каналов. Помимо этого, способ 400 содержит этап 420, на котором формируется декодированное аудиопредставление.

Следует отметить, что при необходимости способ 400 может выполнять дополнительные подходящие действия, которые раскрыты в отношении любого из устройств, например многоканального декодера согласно настоящему изобретению.

5. Аудиокодер по фиг. 5

Фиг. 5 схематично показывает вариант осуществления многоканального аудиокодера 500. Многоканальный аудиокодер 500 содержит два сигнала входного аудиопредставления, т.е. сигнал 510a аудиопредставления, который соответствует левому каналу и обозначается посредством L, и сигнал 510b аудиопредставления, который соответствует правому каналу и обозначается посредством R.

Каждый из сигналов 510a и 510b входного аудиопредставления при необходимости подвергается анализу в частотной области в функциональных блоках 520a и 520b, соответственно. Каждый из функциональных блоков 520a и 520b получает сигнал во временной области, т.е. эволюцию сигнала во времени и выдаёт информацию относительно сигнала относительно амплитуды и/или фаза сигнала в определённой полосе частот для диапазона частот. Функциональные блоки 520a и 520b выдают выходные сигналы 522a и 522b, соответственно. В качестве альтернативы, функциональные блоки 520a и 520b могут не присутствовать, и сигнал 522a может равняться сигналу 510a, и сигнал 522b может равняться сигналу 510b.

Сигналы 522a и 522b передаются в функциональный блок 530. Блок 530 выполняет операцию взаимной корреляции для сигналов 530 и выдаёт сигнал 532 обнаружения, указывающий, обнаружен ли интерферирующий источник голосовых данных в сигналах 510a и 510b входного аудиопредставления. Более конкретно, блок 530 выполняет обобщенное взаимное корреляционное фазовое преобразование, которое также упоминается как GCC-PHAT, для сигналов 522a и 522b. GCC-PHAT выполняет операцию взаимной корреляции с использованием функции взвешивания, которая нормализует спектральную плотность сигнала, чтобы получать пики, которые преимущественно являются отличимыми, например, относительно минимального уровня шума. GCC-PHAT обеспечивает значение, указывающее показатель подобия его входных сигналов, имеющих запаздывание во времени между двумя сигналами в качестве параметра. Как результат, посредством анализа пиков в результате операции GCC-PHAT, блок 530 определяет межканальную разность времен, которая также упоминается как интерауральная разность времен или ITD, и делает заключение в качестве вывода о том, присутствует ли интерферирующий источник голосовых данных в сигналах 510a аудиопредставления и 510b. Для определения, присутствует ли интерферирующий источник голосовых данных в сигналах 510a и 510b, блок 530 при необходимости может использовать условие значимости, условие стабильности и/или условие по шуму, поясненные в сочетании с другими вариантами осуществления настоящего изобретения. Сигнал 532 дополнительно может содержать оценку ITD.

Сигнал 532 передаётся в контроллер 540. Контроллер 540 также получает сигналы 522a и 522b в качестве вводов. Контроллер избирательно передаёт сигналы 522a, 522b и оценку ITD в параметрический стереокодер 550 (т.е. функциональный блок для параметрического многоканального кодирования) или в блок 560 L-R-кодирования (т.е. функциональный блок для кодирования отдельных каналов) в зависимости от сигнала обнаружения, обеспеченного блоком 530. Более конкретно, контроллер 540 передаёт оценку ITD и сигналы 522a и 522b в параметрический стереокодер 550 в ответ на получение указания на то, что интерферирующий источник голосовых данных не присутствует в сигналах 510a и 510b. В ответ на это, кодер 550 обеспечивает кодированное аудиопредставление 552 согласно параметрическому многоканальному кодированию в качестве выходных данных многоканального аудиокодера 500. В качестве альтернативы, в ответ на получение указания на то, что интерферирующий источник голосовых данных присутствует в сигналах 510a и 510b, контроллер 540 передаёт сигналы 522a и 522b в блок 560 L-R-кодирования. В ответ на это, блок 560 кодирования обеспечивает кодированное аудиопредставление 562 согласно отдельному кодированию (например, левому-правому, L-R-кодированию).

Параметрический стереокодер 550 может реализовывать кодирование, как описано в [1] или [2]. Следует понимать, что соответствующий стандарт (или кроме того, набор правил), определяющий параметрическое стереокодирование, например, в части 3 стандарта MPEG-4 или HE-AAC v2, может использоваться посредством кодера 550. Блок 560 кодирования может реализовывать кодер, как описано в [4]. Следует понимать, что соответствующий стандарт (или набор правил), определяющий отдельное кодирование множества каналов, может использоваться посредством блока 560 кодирования. Блок 560 кодирования также может реализовывать объединенное стереокодирование, M/S-стереокодирование и т.п.

Фиг. 6 визуализирует примерную операцию функционального модуля GCC-PHAT, например, содержащегося в блоке 530, поясненном в сочетании с вышеприведенным фиг. 5. Более конкретно, фиг. 6 является двумерным представлением значений GCC-PHAT и их анализа с точки зрения определения одного или более пиковых значений и обнаружения интерферирующего источника голосовых данных на основе этого. Абсцисса представления, показанного на фиг. 6, связана с продвижением вперед времени, которое выражается в единице кадров. Для целей нижеприведенного пояснения, различные временные диапазоны определяются посредством идентификации примерных временных точек, таких как t₁, t₂ и т.д., представляющих собой конечные точки соответствующих диапазонов. Ордината представления, показанного на фиг. 5, связана с параметром GCC-PHAT, т.е. с запаздыванием во времени (например, выражаемым как ITD) между двумя сигналами, передаваемыми в функциональный модуль, выполняющий GCC-PHAT. Цвет на двумерной плоскости на фиг. 6 соответствует значению GCC-PHAT для определённого кадра и определённого запаздывания во времени.

В примерном временном диапазоне (т.е. диапазоне кадров) между t₁ и t₂, показывается множество главных пиков (обозначенных посредством использования пересечения и обозначенных в качестве «пика 1» в легенде по фиг. 6), определенных посредством функционального модуля GCC-PHAT. Функциональный модуль GCC-PHAT может определять главные пики в соответствии с одним или более вариантами осуществления настоящего изобретения. В диапазоне t₁-t₂, также показывается множество подчиненных пиков (обозначенных посредством использования окружности и обозначенных в качестве «пика 2» в легенде по фиг. 6), определенных посредством функционального модуля GCC-PHAT. Функциональный модуль GCC-PHAT может определять подчиненные пики в соответствии с одним или более вариантами осуществления настоящего изобретения.

В диапазоне t₁-t₂, функция GCC-PHAT может определять то, что множество главных пиков 610, содержащихся в ней, соответствуют условию стабильности, например, с учетом местоположений пиков 610 (с точки зрения запаздывания во времени), отличающихся друг от друга (в диапазоне последовательных кадров) самое большее на определенное пороговое значение. Кроме того, функция GCC-PHAT может определять то, что множество подчиненных пиков 615, содержащихся в диапазоне t₁-t₂, соответствуют (одинаковому относительно главных пиков 610 или по-другому параметризованному) условию стабильности, например, несмотря на местоположения пиков 620, показывающие некоторое рассеяние по меньшей мере для диапазона последовательных кадров в части диапазона t₁-t₂, смежной с t₂. Как результат, функция GCC-PHAT (или, например, другой функциональный модуль, содержащийся в блоке 530), может определять то, что интерферирующий источник голосовых данных присутствует, с учетом условия стабильности, выполняемого для пиков 610 и 615.

В другом примерном диапазоне t₃-t₄, главные пики 620 демонстрируют картину, аналогичную картине в диапазоне t₁-t₂. Следовательно, соответствие условию стабильности может определяться посредством функциональности GCC-PHAT. Для множества подчиненных пиков 625, функциональность GCC-PHAT может определять то, что по меньшей мере некоторые пики 625 не соответствуют условию стабильности с учетом картины рассеяния (т.е. значительно отличающихся местоположений с точки зрения запаздывания во времени по меньшей мере для некоторых поддиапазонов последовательных кадров). Как результат, отсутствие интерферирующего источника голосовых данных может определяться с учетом только одного из двух оцененных выполняемых условий стабильности.

Для примерных диапазонов t₅-t₆, а также t₆-t₇, определения могут соответствовать определениям в диапазоне t₃-t₄ с учетом стабильности главных пиков и рассеяния подчиненных пиков. Для примерного диапазона t8-t₉, определения могут соответствовать определениям, выполняемым для диапазона t₁-t₂ с учетом стабильности главных пиков и подчиненных пиков.

Фиг. 7 показывает эволюцию GCC-PHAT для примерного одного кадра, например, одного из кадров, показанных на фиг. 6. На фиг. 7, абсцисса связана с параметром запаздывания во времени и соответствует ординате по фиг. 6. Ордината по фиг. 7 связана со значением взаимной корреляции, например, со значением, выданным функцией GCC-PHAT. Для эволюции на фиг. 7, главный пик (обозначаемый в качестве пика 1, 710) и подчиненный пик (обозначаемый в качестве пика 2, 720) определяются посредством функции GCC-PHAT. Как главный пик 710, так и подчиненный пик 720 могут определяться с возможностью выполнения условия по шуму в соответствии с одним или более вариантами осуществления настоящего изобретения с учетом их соответствующих амплитуд (т.е. взаимных корреляционных значений), имеющих расстояние до взаимного корреляционного значения минимального уровня 730 шума, превышающее пороговое значение (например, заданное в соответствии с одним или более вариантами осуществления настоящего изобретения).

Помимо этого, пики 710 и 720 могут определяться (например, посредством функции GCC-PHAT или блока 530 по фиг. 5) с возможностью выполнения условия значимости в соответствии с одним или более вариантами осуществления настоящего изобретения с учетом наличия расстояния с точки зрения запаздывания во времени, т.е. вдоль абсциссы, превышающего пороговое значение (например, заданное в соответствии с одним или более вариантами осуществления настоящего изобретения).

Кроме того, пики 710 и 720 могут определяться (например, посредством функции GCC-PHAT или блока 530 по фиг. 5) с возможностью выполнения другого иллюстративного условия значимости в соответствии с одним или более вариантами осуществления настоящего изобретения с учетом наличия взаимного корреляционного значения, превышающего пороговое значение (например, заданное в соответствии с одним или более вариантами осуществления настоящего изобретения, а именно, например, превышающее значение в 0,15, заданное для пика (1) в нижеприведенном варианте 1).

Кроме того, пики 710 и 720 могут определяться (например, посредством функции GCC-PHAT или блока 530 по фиг. 5) с возможностью выполнения другого иллюстративного условия значимости в соответствии с одним или более вариантами осуществления настоящего изобретения с учетом взаимосвязи взаимных корреляционных значений пиков 710 и 720, имеющих соотношение ниже порогового значения (например, заданного в соответствии с одним или более вариантами осуществления настоящего изобретения и поясненного ниже посредством использования примера, имеющего константу c=0,8).

Следует отметить, что настоящее изобретение не ограничено использованием GCC-PHAT, и вместо этого может использоваться любая технология, допускающая формирование указания взаимного корреляционного значения, т.е. любая подходящая взаимная корреляционная технология, а также подходящая технология распознавания образов, например, предусматривающая нейронную сеть.

Ниже по тексту описаны дополнительные варианты осуществления изобретения. Варианты осуществления, описанные ниже, могут составлять альтернативы или могут рассматриваться в дополнение к аспектам, раскрытым выше. Варианты осуществления, описанные ниже, связаны с обнаружением интерферирующих источников голосовых данных, которые захватываются с помощью системы стереомикрофонов. Варианты осуществления, описанные ниже, представляют собой полезное инструментальное средство, например, для стереофонических голосовых кодеков, которые могут использоваться для вариантов применения для связи.

Обращаясь к вышеприведенному описанию, для некоторых конкретных случаев, дискретное кодирование двух стереоканалов может быть предпочтительным для лучшей производительности. Для случая интерферирующих источников голосовых данных, преимущественный вариант осуществления может переключаться между параметрической моделью (режим A) и дискретной моделью (режим B). Дополнительный аспект относится к возможности обнаруживать автоматически, когда переключаться из режима A в режим B и из режима B в режим A. Следующие соображения, в общем, применяются к первому случаю, т.е. когда переключаться из режима A в режим B.

Примерное решение рассматривает важный случай (например, только самый критический случай), когда два говорящих имеют различную ITD (интерауральную разность времен), и разность между двумя ITD является большой (значимой).

В некоторых вариантах осуществления, можно предполагать, что кодек уже имеет модуль оценки ITD, и этот модуль оценки ITD основан на GCC-PHAT (обобщенном взаимном корреляционном фазовом преобразовании), описанном, например, в [3]. Базовый принцип такого модуля оценки заключается в том, чтобы обнаруживать пик в GCC-PHAT, и этот пик соответствует ITD стереосигнала. Тем не менее, когда два говорящих говорят одновременно, и они имеют две различных ITD, в GCC-PHAT в большинстве случаев имеется два пика. Некоторые варианты осуществления обнаруживают то, имеется только один пик (режим A) или два пика на большом расстоянии друг от друга (в режиме B) в GCC-PHAT.

В одном варианте осуществления, начальная точка может представлять собой режим A. GCC-PHAT стереосигнала может вычисляться, возможно с использованием сглаженной версии взаимного спектра или любой другой обработки. Главный пик GCC-PHAT может оцениваться. Он может, в большинстве случаев, соответствовать максимуму абсолютного значения GCC-PHAT. В качестве альтернативы или дополнения, некоторый гистерезисный механизм может применяться, чтобы иметь более стабильную оценку ITD. Часть GCC-PHAT, которая находится на достаточно большом расстоянии от главного пика, может выбираться. Расстояние между главным пиком и границей части может составлять выше определенного порогового значения. Второй пик в выбранной части может обнаруживаться: он, например, может представлять собой максимум абсолютного значения GCC-PHAT. Если значение второго пика составляет выше определенного порогового значения, например, если peak(2)>c*peak(1), где peak(1) и peak(2), соответственно, являются значением первого и второго пика, и c может быть константой (например, c=0,8) или сигнально-адаптивной переменной, то можно считать, что GCC-PHAT содержит два значимых пика, и переключение на режим B может возникать. В противном случае, отсутствует значимый второй пик, и режим A остается используемым.

Кроме того, ниже раскрываются варианты осуществления/варианты:

В варианте 1, проверка того, что peak(1) составляет выше определенного порогового значения (например, 0,15), может выполняться, чтобы исключать переключение на зашумленных кадрах.

В варианте 2, оба условия двух вышеуказанных вариантов осуществления, возможно, должны верифицироваться для двух последовательных кадров. Это позволяет исключать переключение на нестабильных сигналах.

В варианте 3, peak(2) двух последовательных кадров, возможно, должны составлять близко друг к другу (например, их разность может быть ниже 4). Это позволяет исключать переключение на нестабильных сигналах.

В варианте 4, флаг SAD предыдущего кадра должен быть равным 1 (что означает то, что он представляет собой активный сигнал). Это позволяет исключать переключение в первом кадре части сигнала.

В варианте 5, peak(1) может изменяться резко между кадрами на большую разность. В этом случае, проверка второго пика может не требоваться, и можно считать, что второй разговаривающий начинает говорить, и переключение на режим B может возникать.

В некоторых вариантах осуществления, после того, как детектор GCC-PHAT определяет, имеются ли интерферирующие источники голосовых данных, как описано в одном или более вышеуказанных вариантах осуществления: если интерферирующие источники голосовых данных не обнаружены, система остается в параметрическом режиме по умолчанию, и оцененное значение ITD может перенаправляться в параметрическую обработку, как описано, например, в [1]. Если обнаружены интерферирующие источники голосовых данных, система может переключаться на схему L-R-кодирования, например, кодировать отдельно каждый канал с использованием EVS-кодека [4].

Описанные варианты осуществления достигают обнаружение интерферирующих голосовых сегментов для стереофонических голосовых сигналов при определенных условиях, для которых может быть предпочтительным переключаться из системы параметрического стереокодирования на дискретную систему. Таким образом, перцепционное качество кодека может повышаться. Для схемы параметрического кодирования, детектор межканальной разности времен (ITD) может присутствовать в некоторых кодеках. Как результат, дополнительная сложность или дополнительная задержка может быть приемлемой.

Следующие аспекты дополнительно раскрыты и могут использоваться в отдельности или (при необходимости) в сочетании с любыми из признаков, функциональностей и подробностей, раскрытых в данном документе:

Аспект 1. Система кодирования голосовых стереоданных, в которой кодек может переключаться из режима параметрического кодирования (режима A) в режим дискретного L-R-кодирования (режим B) после того, как классификатор/анализатор сигналов определяет то, что выполнены условия для достижения этого.

Аспект 2. Система кодирования голосовых стереоданных, в которой кодек может переключаться из режима параметрического кодирования (режима A) в режим дискретного L-R-кодирования (режим B) после того, как классификатор/анализатор сигналов обнаруживает, что сигнал ломает базовую модель схемы параметрического кодирования.

Аспект 3. Система кодирования голосовых стереоданных, в которой кодек переключается из режима параметрического кодирования (режима A) в режим дискретного L-R-кодирования (режим B) после того, как система обнаруживает интерферирующие источники голосовых данных.

Аспект 4. Для кодирования голосовых стереоданных, использование обобщенной взаимной корреляции PHAT для обнаружения первого максимального абсолютного значения (пика) и второго наибольшего абсолютного значения, и в зависимости от условий, которые применяются для второго наибольшего абсолютного значения, для обнаружения интерферирующих голосовых сегментов.

Фиг. 6, поясненная выше, является визуализацией вышеописанных этапов/аспектов/вариантов осуществления, при этом на ней иллюстрируется график рассеяния сигнала, и на фиг. 7 показывается масштабирование представления одного кадра.

6. Аудиокодер по фиг. 8

Фиг. 8 показывает принципиальную блок-схему аудиокодера 800, согласно варианту осуществления настоящего изобретения.

Аудиокодер 800 принимает входное аудиопредставление 810, которое, например, может содержать несколько каналов (например, каналы L, R). Аудиокодер 800 обеспечивает кодированное аудиопредставление 812, которое, например, может представлять аудиоконтент входного аудиопредставления.

Аудиокодер 800 при необходимости содержит первый анализ 820 в частотной области, который принимает, например, первый канал 810a входного аудиопредставления, и формирует на его основе представление 822 в частотной области этого первого канала 810a. Аудиокодер 800 при необходимости содержит второй анализ 824 в частотной области, который принимает, например, второй канал 810b входного аудиопредставления и формирует на его основе представление 826 в частотной области этого второго канала 810b. Например, первый и второй анализ в частотной области могут формировать представления 822, 826 в частотной области или представления в спектральной области каналов входного аудиопредставления, например, с использованием кратковременного преобразования Фурье, преобразования MDCT, гребенки фильтров и т.п.

Аудиодекодер 800 также содержит параметрическое многоканальное кодирование 830 и отдельное кодирование 834 множества каналов. Например, многоканальное кодирование 830 может принимать каналы 810a, 810b входного аудиопредставления или, в качестве альтернативы, представления 822, 826 в частотной области, сформированные посредством анализа 820, 824 в частотной области. Тем не менее, в качестве альтернативы, многоканальное кодирование может принимать различное представление каналов входного аудиопредставления. Параметрическое многоканальное кодирование обеспечивает кодированное представление двух или более каналов, вводимое в параметрическое многоканальное представление 832, при этом каналы входного представления сигналов, например, могут представляться с использованием комбинированного сигнала (например, сигнала понижающего сведения), представляющего, например, сигнальные компоненты, которые являются аналогичными во всех каналах (или по меньшей мере в некоторых каналах, например, в двух или более каналах) входного представления сигналов, и с использованием параметрической вспомогательной информации, которая описывает, например, в форме значений параметров, подобия и/или разности между двумя или более каналами входного аудиопредставления. Например, параметрическая вспомогательная информация может содержать значения межканальной разности уровней и/или значения межканальной разности фаз, и/или значения межканальной разности времен, и/или значения межканальной корреляции, и/или любые другие параметры, описывающие взаимосвязь между каналами входного аудиопредставления. Параметрическая вспомогательная информация предпочтительно может быть применимой на стороне аудиодекодера по меньшей мере для того, чтобы приблизительно восстанавливать каналы входного аудиопредставления на основе комбинированного сигнала. Например, значения параметров параметрической вспомогательной информации могут обеспечиваться отдельно для различных частотно-временных диапазонов или для различных спектральных элементов разрешения. Например, параметрическое многоканальное кодирование может задумывать концепцию «параметрического стерео», которая, например, используется в качестве расширения высокоэффективного усовершенствованного кодирования аудиоданных (HE-AAC) MPEG4 и может обеспечивать соответствующее представление каналов входного аудиопредставления.

Аудиокодер 800 также содержит отдельное кодирование 834 множества каналов, при этом, например, различные каналы входного аудиопредставления кодируются отдельно, например, с использованием отдельного кодирования спектральных значений. Таким образом, отдельное кодирование 834 обеспечивает отдельную кодированную информацию 836, ассоциированную с различными каналами входного аудиопредставления, что, например, обеспечивает возможность отдельного декодирования каналов входного аудиопредставления на стороне аудиодекодера.

Кроме того, аудиокодер выполнен с возможностью переключения между параметрическим многоканальным кодированием 830 и отдельным кодированием 834, так что блок управления аудиокодера может делать выбор в отношении того, включены ли параметрическое многоканальное представление 832 или отдельная кодированная информация в кодированное аудиопредставление 812. Относительно этой проблемы является нерелевантным, выполняется ли для определённого кадра как параметрическое многоканальное кодирование 830, так и отдельное кодирование 834, и принимается решение в отношении того, включается ли кодированное представление 832, обеспеченное посредством параметрического многоканального кодирования, или кодированное представление 836, обеспеченное посредством отдельного кодирования, фактически в кодированное аудиопредставление 812, либо в отношении того, выбирается ли только параметрическое многоканальное кодирование или отдельное кодирование для определённого кадра (при этом второе решение обычно является более эффективным, но может вводить дополнительную задержку).

Ниже по тексту описано, каким образом выбор того, следует ли использовать параметрическое многоканальное кодирование 830 или отдельное кодирование 834 (либо, эквивалентным образом, параметрического многоканального представления 832 или отдельной кодированной информации 836, ассоциированной с различными каналами входного аудиопредставления), должен включаться в кодированное аудиопредставление 812.

С этой целью, аудиокодер 800 содержит определение 840 информации декорреляции, которое, например, может определять корреляцию (например, взаимную корреляцию) между двумя или более каналами входного аудиопредставления на основе представлений 822, 826 в частотной области каналов входного аудиопредставления. Тем не менее, следует отметить, что определение 840 информации корреляции, например, может работать на основе представлений во временной области каналов входного аудиопредставления. Кроме того, следует отметить, что определение информации корреляции может обеспечивать отдельную информацию 842 корреляции для различных частотных диапазонов или частотно-временных частей входного аудиопредставления. Соответственно, может быть предусмотрена не только отдельная информация 842 корреляции для последующих кадров входного аудиопредставления, но даже может быть предусмотрена отдельная информация 842 корреляции для отдельных частотных диапазонов или частотных элементов разрешения. Кроме того, следует отметить, что информация 842 корреляции может принимать форму представления корреляционных функций (например, в расчете на частотно-временную часть), которое содержит различные корреляционные значения для различных значений запаздывания корреляции (также обозначенных в качестве запаздывания или запаздывания во времени).

Например, информация корреляции может получаться с использованием так называемой «технологии GCC-PHAT», которая, как обнаружено, способствует высокозначимым результатам. Тем не менее, также могут использоваться различные концепции для определения информации (взаимной) корреляции.

Аудиодекодер 800 также содержит определение 850 главных пиков, которое может быть выполнено с возможностью определения главного пика взаимной корреляции между двумя или более каналами входного аудиопредставления (например, максимум абсолютного значения GCC_PHAT) на основе информации взаимной корреляции и обеспечения информации 852, описывающей главный пик (например, содержащий межканальную разность времен пика или пиковое значение, или интенсивность пика). Например, определение 850 главных пиков может определять, для какого запаздывания корреляции (или, эквивалентным образом, для какого запаздывания во времени, или, эквивалентным образом, для какой межканальной разности времен) информация взаимной корреляции (или взаимная корреляционная функция, представленная посредством информации взаимной корреляции) содержит (глобальное) максимальное значение. При необходимости, модуль определения главных пиков также может определять непосредственно пиковое значение (или интенсивность пика). Тем не менее, следует отметить, что модуль определения главных пиков не должен обязательно идентифицировать максимальное значение взаимной корреляционной функции в качестве главного пика. Наоборот, модуль определения главных пиков, например, может оставлять «спорадические» или «нестабильные» нерассмотренные пики и идентифицировать стабильный пик (например, пик, который является стабильным для множества кадров и который может классифицироваться как «значимый», например, превышающий пороговое значение, либо для минимального уровня шума по меньшей мере на заданное значение) в качестве главного пика (пи этом, например, гистерезисный механизм может использоваться для того, чтобы иметь более стабильную оценку ITD). Следует отметить, что могут использоваться различные алгоритмы для распознавания пика или главного пика корреляционной функции, которые известны специалистам в данной области техники.

При необходимости, аудиодекодер также содержит модуль 852 проверки пиков, который принимает информацию 852 главных пиков и проверяет информацию главных пиков на предмет надежности. Например, модуль проверки пиков может идентифицировать ненадежную информацию главных пиков, которая содержит большую флуктуацию (например, ITD пика и/или интенсивности пика) во времени и/или которая указывает слишком небольшую интенсивность пика. Например, может проверяться, является значение главного пика большим, чем определенное пороговое значение, для исключения переключения на зашумленных кадрах. При необходимости, также может определяться, соответствует ли главный пик одному или более условиям (например, относительно пикового значения) для множества кадров. В качестве вывода, такая ненадежная информация главных пиков может подавляться и/или заменяться посредством информации по умолчанию и/или передаваться в служебных сигналах.

Кроме того, аудиодекодер может содержать определение 860 вторых пиков, которое может быть выполнено с возможностью определения второго пика взаимной корреляции между двумя или более каналами входного аудиопредставления на основе информации 842 взаимной корреляции и обеспечения информации 862, описывающей второй пик (например, содержащий межканальную разность времен пика или пиковое значение, или интенсивность пика). Например, второй пик может представлять собой локальный максимум взаимной корреляционной функции, описанной посредством информации 842 взаимной корреляции, которая содержит второе наибольшее пиковое значение после пикового значения главного пика. Кроме того, при необходимости может требоваться идентификация локального максимума информации взаимной корреляции в качестве второго пика, что локальный максимум соответствует одному или более заданным условиям относительно главного пика и/или относительно минимального уровня шума взаимной корреляционной функции. Например, определение вторых пиков может принимать информацию относительно главного пика из определения 850 главных пиков и рассматривать эту информацию при идентификации второго пика. Например, определение 860 вторых пиков может проверять, содержит ли расстояние возможного варианта второго пика (например, локального максимума взаимной корреляционной функции) условие заданного расстояния (например, с точки зрения запаздывания корреляции или ITD) от главного пика, при этом, например, может требоваться то, что второй пик должен содержать заданное минимальное расстояние от главного пика. В качестве альтернативы, определение второго пика может выполняться на основе (выбранной) части GCC-PHAT, которая находится на «большом расстоянии от главного пика», например, удалена от главного пика на заданное расстояние с точки зрения ITD, при этом, например, (абсолютный) максимум абсолютного значения GCC-PHAT в выбранной части GCC-PHAT может идентифицироваться в качестве второго пика.

В качестве альтернативы или дополнения, определение вторых пиков может проверять, соответствует ли возможный вариант второго пика заданному условию пикового значения (например, с точки зрения взаимосвязи между пиковыми значениями главного пика и второго пика). Например, может требоваться, чтобы значение второго пика было выше определенного порогового значения, которое может задаваться относительно значения главного пика.

Кроме того, определение вторых пиков может проверять, достаточно ли выше пиковое значение возможного варианта второго пика, чем минимальный уровень шума информации взаимной корреляции.

Соответственно, определение 860 вторых пиков может определять, имеется ли второй пик, который соответствует требованиям для идентификации в качестве второго пика и обеспечивает информацию 862 вторых пиков, описывающую второй пик (например, с точки зрения запаздывания корреляции и/или ITD, и/или пикового значения, и/или интенсивности пика). При необходимости, информация вторых пиков может указывать, что отсутствует второй пик, который соответствует условиям.

При необходимости, аудиодекодер также может содержать оценку 864 значимости вторых пиков, которая, например, может принимать информацию 862 вторых пиков и определять, является ли второй пик, описанный посредством информации 862 вторых пиков, значимым и/или надежным. Например, оценка значимости вторых пиков может проверять, соответствует ли второй пик одному или более условиям для множества кадров. Например, оценка значимости вторых пиков может определять, превышает ли второй пик определенное пороговое значение (например, относительно главного пика) для множества кадров. В качестве альтернативы или дополнения, оценка значимости вторых пиков может проверять, являются ли значения запаздывания корреляции или значения ITD второго пика достаточно близкими для двух или более (последующих) кадров. Тем не менее, при необходимости также могут проверяться другие условия для второго пика.

Следует отметить, что функциональности, описанные относительно проверки 854 главных пиков, при необходимости могут быть интегрированы в определение 850 главных пиков. Кроме того, функциональности оценки значимости вторых пиков при необходимости могут включаться в определение 860 вторых пиков. Кроме того, следует отметить, что ни одно, некоторые или все вышеуказанные условия или дополнительные условия могут проверяться при определении информации 856, описывающей главный пик, и информации 866, описывающей второй пик.

Кроме того, следует отметить, что информация 856, описывающая главный пик, при необходимости может только указывать, обнаружен ли допустимый главный пик. Кроме того, информация 866, описывающая второй пик, при необходимости может лишь указывать, обнаружен ли допустимый второй пик. Тем не менее, информация 856, 866 при необходимости может также описывать подробности относительно пиков, например, запаздывание корреляции и/или ITD, и/или пиковые значения.

Аудиокодер 800 при необходимости может содержать обнаружение 870, которое обнаруживает изменение запаздывания корреляции или ITD главного пика, которое больше порогового значения, и обеспечивает информацию 872, описывающую, имеет ли место такое изменение.

Аудиокодер 800 также содержит решение 880 по переключению, которое выполнено с возможностью определения, должны ли параметрическое многоканальное представление 832 или отдельная кодированная информация 836, ассоциированная с различными каналами входного аудиопредставления, быть включены в кодированное аудиопредставление.

В простом случае, решение 880 по переключению может просто проверять, имеется ли значимый (или допустимый) второй пик. Если имеется только один пик (т.е. главный пик), может использоваться параметрическое многоканальное кодирование 830 (или параметрическое многоканальное представление 832 может быть включено в кодированное аудиопредставление). Если информация 866, описывающая второй пик, указывает, что имеется значимый (или допустимый) второй пик, решение по переключению может определять необходимость использовать отдельное кодирование 834 (или включать отдельную кодированную информацию 836, ассоциированную с различными каналами входного аудиопредставления, в кодированное аудиопредставление).

Тем не менее, при необходимости решение по переключению может использовать один или более дополнительных критериев определения того, какая информация должна быть включена в кодированное аудиопредставление.

Например, при необходимости решение по переключению может учитывать, имеется ли изменение главного пика, которое больше (заданного или переменного) порогового значения, при этом решение по переключению может переключаться на использование отдельного кодирования 834 (или включать отдельную кодированную информацию 836, ассоциированную с различными каналами входного аудиопредставления, в кодированное аудиопредставление) в ответ на обнаружение того, что имеется изменение главного пика, которое больше порогового значения (которое, например, может передаваться в служебных сигналах посредством информации 872).

В качестве другого примера, при необходимости решение по переключению может учитывать указатель, указывающий, является ли предыдущий кадр активным (например, флаг SAD). Например, если решение по переключению обнаруживает, что предыдущий кадр является неактивным, переключение может избирательно подавляться посредством решения по переключению.

Тем не менее, решение по переключению при необходимости может также оценивать информацию относительно других характеристик сигналов входного аудиопредставления и принимать решение в отношении того, какая информация должна быть включена в кодированное аудиопредставление, также на основе этого.

В качестве вывода, аудиокодер 800 решает, на основе анализа характеристик входного аудиопредставления (например, на основе определения того, сколько «значимых» или «допустимых» пиков находятся во взаимной корреляционной функции), например, на покадровой основе, следует ли включать параметрическое многоканальное представление 832 или отдельную кодированную информацию 836, ассоциированную с различными каналами входного аудиопредставления, в кодированное аудиопредставление.

Тем не менее, следует отметить, что конкретное распределение функциональностей по различным функциональным блокам не является существенным. Наоборот, некоторые или все функциональности могут комбинироваться в один функциональный блок при необходимости.

Кроме того, следует отметить, что при необходимости аудиокодер 800 может быть дополнен любыми из признаков, функциональностей и подробностей, раскрытых в данном документе, как в отдельности, так и в сочетании.

Кроме того, любой из признаков, функциональностей и подробностей, раскрытых здесь, при необходимости может быть введён в любой из вариантов осуществления, раскрытых в данном документе, как в отдельности, так и в сочетании.

7. Альтернативные варианты реализации

Хотя некоторые аспекты описаны в контексте устройства, очевидно, что эти аспекты также представляют описание соответствующего способа, при этом блок или устройство соответствует этапу способа или признаку этапа способа. Аналогичным образом, аспекты, описанные в контексте этапа способа, также представляют описание соответствующего блока или элемента, или признака соответствующего устройства. Некоторые или все этапы способа могут выполняться посредством (или с использованием) аппаратного устройства, такого как, например, микропроцессор, программируемый компьютер или электронная схема. В некоторых вариантах осуществления, один или более из самых важных этапов способа могут выполняться посредством этого устройства.

Кодированный аудиосигнал согласно изобретению может сохраняться на цифровом носителе хранения данных или может передаваться по среде передачи, такой как беспроводная среда передачи или проводная среда передачи, к примеру, Интернет.

В зависимости от определенных требований к реализации, варианты осуществления изобретения могут быть реализованы в аппаратных средствах или в программном обеспечении. Реализация может выполняться с использованием цифрового носителя хранения данных, например, гибкого диска, DVD, Blu-Ray, CD, ROM, PROM, EPROM, EEPROM или флэш-памяти, имеющего сохраненные электронно считываемые управляющие сигналы, которые взаимодействуют (или допускают взаимодействие) с программируемой компьютерной системой таким образом, что осуществляется соответствующий способ. Следовательно, цифровой носитель хранения данных может быть машиночитаемым.

Некоторые варианты осуществления согласно изобретению содержат носитель данных, имеющий электронно считываемые управляющие сигналы, которые допускают взаимодействие с программируемой компьютерной системой таким образом, что осуществляется один из способов, описанных в данном документе.

В общем, варианты осуществления настоящего изобретения могут быть реализованы в виде компьютерного программного продукта с программным кодом, при этом программный код выполнен с возможностью осуществления одного из способов, когда компьютерный программный продукт выполняется на компьютере. Программный код, например, может сохраняться на машиночитаемом носителе.

Другие варианты осуществления содержат компьютерную программу для осуществления одного из способов, описанных в данном документе, сохраненную на машиночитаемом носителе.

Другими словами, вариант осуществления способа согласно изобретению в силу этого представляет собой компьютерную программу, имеющую программный код для осуществления одного из способов, описанных в данном документе, когда компьютерная программа выполняется на компьютере.

Следовательно, дополнительный вариант осуществления способов согласно изобретению представляет собой носитель хранения данных (цифровой носитель хранения данных или машиночитаемый носитель), содержащий записанную компьютерную программу для осуществления одного из способов, описанных в данном документе. Носитель данных, цифровой носитель хранения данных или носитель с записанными данными обычно является материальным и/или постоянным.

Следовательно, дополнительный вариант осуществления способа согласно изобретению представляет собой поток данных или последовательность сигналов, представляющих компьютерную программу для осуществления одного из способов, описанных в данном документе. Поток данных или последовательность сигналов, например, может быть выполнена с возможностью передачи через соединение для передачи данных, например, через Интернет.

Дополнительный вариант осуществления содержит средство обработки, например, компьютер или программируемое логическое устройство, выполненное с возможностью осуществления одного из способов, описанных в данном документе.

Дополнительный вариант осуществления содержит компьютер, имеющий установленную компьютерную программу для осуществления одного из способов, описанных в данном документе.

Дополнительный вариант осуществления согласно изобретению содержит устройство или систему, выполненную с возможностью передачи (например, электронным или оптическим способом) компьютерной программы для осуществления одного из способов, описанных в данном документе, в приемное устройство. Приемное устройство, например, может представлять собой компьютер, мобильное устройство, запоминающее устройство и т.п. Устройство или система, например, может содержать файловый сервер для передачи компьютерной программы в приемное устройство.

В некоторых вариантах осуществления, программируемое логическое устройство (например, программируемая пользователем вентильная матрица) может использоваться для того, чтобы выполнять часть или все из функциональностей способов, описанных в данном документе. В некоторых вариантах осуществления, программируемая пользователем вентильная матрица может взаимодействовать с микропроцессором для осуществления одного из способов, описанных в данном документе. В общем, способы предпочтительно осуществляются посредством любого аппаратного устройства.

Устройство, описанное в данном документе, может быть реализовано с использованием аппаратного устройства либо с использованием компьютера, либо с использованием сочетания аппаратного устройства и компьютера.

Устройство, описанное в данном документе, или любые компоненты устройства, описанного в данном документе, могут быть реализованы по меньшей мере частично в аппаратных средствах и/или в программном обеспечении.

Способы, описанные в данном документе, могут осуществляться с использованием аппаратного устройства либо с использованием компьютера, либо с использованием сочетания аппаратного устройства и компьютера.

Способы, описанные в данном документе, или любые компоненты устройства, описанного в данном документе, могут выполняться по меньшей мере частично посредством аппаратных средств и/или посредством программного обеспечения.

Вышеописанные варианты осуществления являются лишь иллюстративными в отношении принципов настоящего изобретения. Следует понимать, что специалистам в данной области техники должны быть очевидны модификации и изменения конфигураций и подробностей, описанных в данном документе. Следовательно, подразумевается ограничение лишь объемом нижеприведенной формулы изобретения, а не конкретными подробностями, представленными в данном документе в качестве описания и пояснения вариантов осуществления.

Список литературы

[1] S. Bayer, M. Dietz, S. Doehla, E. Fotopoulou, G. Fuchs, W. Jaegers, G. Markovic, M. Multrus, E. Ravelli и M. Schnell "APPARATUSES AND METHODS FOR ENCODING OR DECODING A MULTI-CHANNEL AUDIO SIGNAL USING FRAME CONTROL SYNCHRONIZATION", WO17125562, 27 июля 2017 года.

[2] M. Schroeder и B. Atal "Code-excited linear prediction (CELP): High-quality speech at very low bit rates", in ICASSP '85. IEEE International Conference on Acoustics, Speech and Signal Processing, Тампа, Флорида, США, 1985 год.

[3] S. Bayer, M. Dietz, S. Doehla, E. Fotopoulou, G. Fuchs, W. Jaegers, G. Markovic, M. Multrus, E. Ravelli и M. Schnell "APPARATUS AND METHOD FOR ENCODING OR DECODING A MULTI-CHANNEL SIGNAL USING A BROADBAND ALIGNMENT PARAMETER AND A PLURALITY OF NARROWBAND ALIGNMENT PARAMETERS", WO17125558, 27 июля 2017 года.

[4] 3GPP TS 26.445, Codec for Enhanced Voice Services (EVS); Detailed algorithmic description.

1. Многоканальный аудиокодер (100, 500, 800) для формирования кодированного аудиопредставления (112, 552, 562, 812) на основе входного аудиопредставления (110, 510a, 510b, 810),

- при этом многоканальный аудиокодер (100, 500, 800) выполнен с возможностью переключения между параметрическим многоканальным кодированием (120, 550, 830) множества каналов и отдельным кодированием (130, 560, 834) множества каналов в зависимости от характеристик входного аудиопредставления (110, 510a, 510b, 810);

- причём многоканальный декодер выполнен с возможностью определения одного или более параметров многоканального кодирования;

- при этом многоканальный кодер (100, 500, 800) выполнен с возможностью определения, имеется ли один доминирующий источник во множестве частотно-временных частей или имеются ли два или более источников в определённой частотно-временной части, параметры многоканального кодирования которых отличаются по меньшей мере на заданное отклонение либо более чем на заданное отклонение, и переключения в зависимости от определения того, отличаются ли параметры многоканального кодирования по меньшей мере на заданное отклонение или более чем на заданное отклонение;

- при этом параметры многоканального кодирования основаны на взаимосвязи между каналами входного аудиопредставления; и

- при этом многоканальный аудиокодер выполнен с возможностью переключения на параметрическое многоканальное кодирование в случае одного источника и переключения на отдельное кодирование в случае двух или более источников в упомянутой определённой частотно-временной части, параметры многоканального кодирования которых отличаются по меньшей мере на заданное отклонение.

2. Многоканальный кодер (100, 500, 800) по п. 1, при этом:

- многоканальный кодер (100, 500, 800) выполнен с возможностью определения, соответствует ли входное аудиопредставление (110, 510a, 510b, 810) предположению относительно модели, лежащей в основе параметрического многоканального кодирования (120, 550, 830), и переключения в зависимости от упомянутого определения.

3. Многоканальный кодер (100, 500, 800) по п. 2, при этом:

- многоканальный кодер (100, 500, 800) выполнен с возможностью переключения на отдельное кодирование (130, 560, 834), если предположение относительно модели, лежащей в основе параметрического многоканального кодирования (120, 550, 830), не выполняется.

4. Многоканальный кодер (100, 500, 800) по п. 1, при этом:

- многоканальный кодер (100, 500, 800) выполнен с возможностью определения, соответствует ли входное аудиопредставление (110, 510a, 510b, 810) доминирующему источнику, и переключения в зависимости от упомянутого определения.

5. Многоканальный кодер (100, 500, 800) по п. 1, при этом:

- многоканальный кодер (100, 500, 800) выполнен с возможностью определения, имеется ли один доминирующий источник во множестве частотно-временных частей, и/или определения, имеются ли два или более источников в определённой частотно-временной части, параметры многоканального кодирования которых отличаются по меньшей мере на заданное отклонение или более чем на заданное отклонение, и переключения в зависимости от упомянутого определения.

6. Многоканальный кодер (100, 500, 800) по п. 1, при этом:

- многоканальный кодер (100, 500, 800) выполнен с возможностью определения параметра модели, лежащей в основе параметрического многоканального кодирования (120, 550, 830), и переключения в зависимости от параметра модели.

7. Многоканальный кодер (100, 500, 800) по п. 1, при этом:

- многоканальный кодер (100, 500, 800) выполнен с возможностью определения, обеспечивает ли характеристика, определяющая взаимосвязь между каналами входного аудиопредставления (110, 510a, 510b, 810), возможность однозначного определения параметра многоканального кодирования либо указывает ли она два или более различных возможных значения параметра многоканального кодирования, и переключения в зависимости от упомянутого определения.

8. Многоканальный кодер (100, 500, 800) по п. 1, при этом:

- многоканальный кодер (100, 500, 800) выполнен с возможностью определения, содержит ли характеристика, определяющая взаимосвязь между каналами входного аудиопредставления (110, 510a, 510b, 810), только одно значимое значение, которое соответствует условию значимости, либо содержит ли характеристика, определяющая взаимосвязь между каналами входного аудиопредставления (110, 510a, 510b, 810), два или более значимых значения, которые соответствуют условию значимости, и переключения в зависимости от упомянутого определения.

9. Многоканальный кодер (100, 500, 800) по п. 1, при этом:

- многоканальный кодер (100, 500, 800) выполнен с возможностью определения параметра предыдущего кадра и переключения в зависимости от параметра предыдущего кадра.

10. Многоканальный кодер (100, 500, 800) по п. 1, при этом:

- многоканальный кодер (100, 500, 800) выполнен с возможностью определения, имеются ли интерферирующие источники во входном аудиопредставлении (110, 510a, 510b, 810), и переключения в зависимости от упомянутого определения.

11. Многоканальный кодер (100, 500, 800) по п. 1, при этом:

- многоканальный кодер (100, 500, 800) выполнен с возможностью определения, имеются ли два или более значения, описывающих взаимосвязь между двумя или более каналами входного аудиопредставления (110, 510a, 510b, 810), которые соответствуют условию значимости и которые ассоциированы с одной частотно-временной частью, и переключения в зависимости от упомянутого определения.

12. Многоканальный кодер (100, 500, 800) по п. 1, при этом:

- многоканальный кодер (100, 500, 800) выполнен с возможностью определения, имеются ли два или более пиков (610, 615, 620, 625, 710, 720) во взаимной корреляции между двумя или более каналами входного аудиопредставления, и переключения в зависимости от упомянутого определения.

13. Многоканальный кодер (100, 500, 800) по п. 1, при этом:

- многоканальный кодер (100, 500, 800) содержит модуль (530, 840) оценки, выполненный с возможностью оценки взаимосвязи между двумя или более каналами входного аудиопредставления (110, 510a, 510b, 810) на основе взаимной корреляции, и

- многоканальный кодер (100, 500, 800) выполнен с возможностью определения, превышает ли разность между двумя пиковыми значениями (610, 615, 620, 625, 710, 720), ассоциированными с различным запаздыванием взаимной корреляции, некоторое значение, и переключения в зависимости от упомянутого определения.

14. Многоканальный кодер (100, 500, 800) по п. 1, при этом:

- многоканальный кодер (100, 500, 800) выполнен с возможностью определения, превышает ли расстояние между двумя или более значениями, описывающими взаимосвязь между двумя или более каналами входного аудиопредставления (110, 510a, 510b, 810), которые соответствуют условию значимости и которые ассоциированы с одной и той же частотно-временной частью, некоторое значение, и переключения в зависимости от упомянутого определения.

15. Многоканальный кодер (100, 500, 800) по п. 1, при этом:

- многоканальный кодер (100, 500, 800) выполнен с возможностью определения первого характеристического значения на основе эволюции взаимной корреляции и переключения в зависимости от упомянутого определения.

16. Многоканальный кодер (100, 500, 800) по п. 1, при этом:

- многоканальный кодер (100, 500, 800) выполнен с возможностью определения одного или более подчиненных характеристических значений на основе эволюции взаимной корреляции и переключения в зависимости от упомянутого определения, и/или

- при этом многоканальный кодер (100, 500, 800) выполнен с возможностью определения, имеются ли одно или более подчиненных характеристических значений, на основе эволюции взаимной корреляции, и переключения в зависимости от упомянутого определения.

17. Многоканальный кодер (100, 500, 800) по п. 1, при этом:

- многоканальный кодер (100, 500, 800) выполнен с возможностью определения, соответствуют ли главный пик (610, 620, 710) и один или более подчиненных пиков (615, 625, 720) условию значимости, и переключения в зависимости от упомянутого определения, и/или

- при этом многоканальный кодер (100, 500, 800) выполнен с возможностью определения, имеются ли один или более подчиненных пиков (615, 625, 720) взаимной корреляции, которые соответствуют критерию релевантности, и переключения в зависимости от упомянутого определения.

18. Многоканальный кодер (100, 500, 800) по п. 1, при этом:

- многоканальный кодер (100, 500, 800) выполнен с возможностью избирательного учёта подчиненного пика (615, 625, 720) в определённом кадре входного аудиопредставления, если имеются один или более соответствующих подчиненных пиков (615, 625, 720) в одном или более кадрах, предшествующих упомянутому определённому кадру.

19. Многоканальный кодер (100, 500, 800) по п. 1, при этом:

- многоканальный кодер (100, 500, 800) выполнен с возможностью определения, соответствуют ли одно или более характеристических значений, которые описывают взаимосвязь между двумя или более каналами входного аудиопредставления (110, 510a, 510b, 810), условию стабильности, и переключения в зависимости от упомянутого определения.

20. Многоканальный кодер (100, 500, 800) по п. 1, при этом:

- многоканальный кодер (100, 500, 800) выполнен с возможностью определения, выполняется ли условие по шуму для определенного числа кадров, и избирательного исключения переключения, если условие по шуму выполняется.

21. Многоканальный кодер (100, 500, 800) по п. 1, при этом:

- многоканальный кодер (100, 500, 800) выполнен с возможностью определения, выполняется ли условие значимости и/или условие стабильности для характеристического значения для определенного числа кадров, и переключения в зависимости от упомянутого определения.

22. Многоканальный кодер (100, 500, 800) по п. 1, при этом:

- многоканальный кодер (100, 500, 800) выполнен с возможностью определения, находится ли расстояние одного или более подчиненных пиков (615, 625, 720) в заданном диапазоне, и переключения и/или избирательного исключения переключения в зависимости от упомянутого определения.

23. Многоканальный кодер (100, 500, 800) по п. 1, при этом:

- многоканальный кодер (100, 500, 800) выполнен с возможностью избирательного исключения переключения в первом кадре после неактивного кадра входного аудиопредставления или после него, и/или

- многоканальный кодер (100, 500, 800) выполнен с возможностью определения, изменен ли определённый флаг в кадре относительно одного или более предыдущих кадров, и избирательного исключения переключения в зависимости от упомянутого определения.

24. Многоканальный кодер (100, 500, 800) по п. 1, при этом:

- многоканальный кодер (100, 500, 800) выполнен с возможностью избирательного переключения на отдельное кодирование (130, 560, 834) в ответ на обнаружение изменения характеристики входного аудиопредставления (110, 510a, 510b, 810), которое больше порогового значения.

25. Многоканальный кодер (100, 500, 800) по п. 1, при этом:

- многоканальный кодер (100, 500, 800) выполнен с возможностью определения, изменен ли параметр, описывающий направление источника звука, по меньшей мере на значение, и переключения в зависимости от упомянутого определения,

- при этом многоканальный аудиокодер выполнен с возможностью переключения на отдельное кодирование, если источник звука быстро перемещается.

26. Способ (300) многоканального кодирования аудиоданных для формирования (320) кодированного аудиопредставления на основе входного аудиопредставления, при этом способ содержит этап, на котором:

- выполняют переключение (310) между параметрическим многоканальным кодированием множества каналов и отдельным кодированием множества каналов в зависимости от характеристик входного аудиопредставления;

- причём способ содержит этап, на котором определяют, имеется ли один доминирующий источник во множестве частотно-временных частей или имеются ли два или более источников в определённой частотно-временной части, параметры многоканального кодирования которых отличаются по меньшей мере на заданное отклонение либо более чем на заданное отклонение, и выполняют переключение в зависимости от определения того, отличаются ли параметры многоканального кодирования по меньшей мере на заданное отклонение или более чем на заданное отклонение;

- при этом способ содержит этап, на котором выполняют переключение на параметрическое многоканальное кодирование в случае одного источника и выполняют переключение на отдельное кодирование в случае двух или более источников в упомянутой определённой частотно-временной части, параметры многоканального кодирования которых отличаются по меньшей мере на заданное отклонение.

27. Машиночитаемый носитель, на котором сохранена компьютерная программа для осуществления способа по п. 26, когда компьютерная программа работает на компьютере.

28. Многоканальный аудиокодер (100, 500, 800) для формирования кодированного аудиопредставления (112, 552, 562, 812) на основе входного аудиопредставления (110, 510a, 510b, 810),

- при этом многоканальный кодер (100, 500, 800) выполнен с возможностью определения, содержит ли характеристика, определяющая взаимосвязь между каналами входного аудиопредставления (110, 510a, 510b, 810), только одно значимое значение, которое соответствует условию значимости, либо содержит ли характеристика, определяющая взаимосвязь между каналами входного аудиопредставления (110, 510a, 510b, 810), два или более значимых значения, которые соответствуют условию значимости, и переключения в зависимости от упомянутого определения,

- при этом определение, содержит ли упомянутая характеристика только одно значимое значение или содержит ли упомянутая характеристика два или более значимых значений, позволяет решить, какое кодирование из параметрического многоканального кодирования или отдельного кодирования является более подходящим для упомянутого определённого входного аудиопредставления.

29. Многоканальный аудиокодер (100, 500, 800) для формирования кодированного аудиопредставления (112, 552, 562, 812) на основе входного аудиопредставления (110, 510a, 510b, 810),

- при этом многоканальный кодер (100, 500, 800) выполнен с возможностью определения, имеются ли два или более значения, описывающих взаимосвязь между двумя или более каналами входного аудиопредставления (110, 510a, 510b, 810), которые соответствуют условию значимости и которые ассоциированы с одной частотно-временной частью, и переключения между параметрическим многоканальным кодированием и отдельным кодированием множества каналов в зависимости от упомянутого определения.

30. Многоканальный аудиокодер (100, 500, 800) для формирования кодированного аудиопредставления (112, 552, 562, 812) на основе входного аудиопредставления (110, 510a, 510b, 810),

- при этом многоканальный кодер (100, 500, 800) выполнен с возможностью определения, имеются ли два или более пика (610, 615, 620, 625, 710, 720) во взаимной корреляции между двумя или более каналами входного аудиопредставления, и переключения в зависимости от упомянутого определения,

- при этом взаимная корреляция связана с определённой частотно-временной частью, и

- при этом многоканальный аудиокодер выполнен с возможностью переключения на отдельное кодирование при определении, что имеются ли два или более пика.

31. Многоканальный аудиокодер (100, 500, 800) для формирования кодированного аудиопредставления (112, 552, 562, 812) на основе входного аудиопредставления (110, 510a, 510b, 810),

- при этом многоканальный кодер (100, 500, 800) содержит модуль (530, 840) оценки, выполненный с возможностью оценки взаимосвязи между двумя или более каналами входного аудиопредставления (110, 510a, 510b, 810) на основе взаимной корреляции, и

32. Многоканальный аудиокодер (100, 500, 800) для формирования кодированного аудиопредставления (112, 552, 562, 812) на основе входного аудиопредставления (110, 510a, 510b, 810),

- при этом многоканальный кодер (100, 500, 800) выполнен с возможностью определения, превышает ли расстояние между двумя или более значениями, описывающими взаимосвязь между двумя или более каналами входного аудиопредставления (110, 510a, 510b, 810), которые соответствуют условию значимости и которые ассоциированы с одной и той же частотно-временной частью, некоторое значение, и переключения в зависимости от упомянутого определения.

33. Многоканальный аудиокодер (100, 500, 800) для формирования кодированного аудиопредставления (112, 552, 562, 812) на основе входного аудиопредставления (110, 510a, 510b, 810),

- при этом многоканальный кодер (100, 500, 800) выполнен с возможностью определения, соответствуют ли главный пик (610, 620, 710) и один или более подчиненных пиков (615, 625, 720) условию значимости, и переключения в зависимости от упомянутого определения, и/или

34. Многоканальный аудиокодер (100, 500, 800) для формирования кодированного аудиопредставления (112, 552, 562, 812) на основе входного аудиопредставления (110, 510a, 510b, 810),

- при этом многоканальный кодер (100, 500, 800) выполнен с возможностью определения, соответствуют ли одно или более характеристических значений, которые описывают взаимосвязь между двумя или более каналов входного аудиопредставления (110, 510a, 510b, 810), условию стабильности, и переключения в зависимости от упомянутого определения.

35. Многоканальный аудиокодер (100, 500, 800) для формирования кодированного аудиопредставления (112, 552, 562, 812) на основе входного аудиопредставления (110, 510a, 510b, 810),

- при этом многоканальный кодер (100, 500, 800) выполнен с возможностью определения, выполняется ли условие по шуму для определенного числа кадров, и избирательного исключения переключения, если условие по шуму выполняется.

36. Многоканальный аудиокодер (100, 500, 800) для формирования кодированного аудиопредставления (112, 552, 562, 812) на основе входного аудиопредставления (110, 510a, 510b, 810),

- при этом многоканальный кодер (100, 500, 800) выполнен с возможностью избирательного исключения переключения в первом кадре после неактивного кадра входного аудиопредставления или после него, и/или

37. Многоканальный аудиокодер (100, 500, 800) для формирования кодированного аудиопредставления (112, 552, 562, 812) на основе входного аудиопредставления (110, 510a, 510b, 810),

- при этом многоканальный кодер (100, 500, 800) выполнен с возможностью избирательного переключения на отдельное кодирование (130, 560, 834) в ответ на обнаружение изменения характеристики входного аудиопредставления (110, 510a, 510b, 810), которое больше порогового значения;

- при этом характеристика входного аудиопредставления представляет собой межканальную разность времен или главный пик взаимной корреляции между двумя или более каналами входного аудиопредставления.

38. Многоканальный аудиокодер (100, 500, 800) для формирования кодированного аудиопредставления (112, 552, 562, 812) на основе входного аудиопредставления (110, 510a, 510b, 810),

- при этом многоканальный кодер (100, 500, 800) выполнен с возможностью определения, изменен ли параметр, описывающий направление источника звука во входном аудиопредставлении, по меньшей мере на некоторое значение, и переключения в зависимости от упомянутого определения.

Изобретение относится к области вычислительной техники для обработки аудиоданных. Технический результат заключается в обеспечении возможности распознавания переключения между разными потоками с умеренной сложностью реализации с исключением необходимости принудительного применения конкретных настроек кодирования/декодирования в моменты перехода.

Процессор передатчика звуковых сигналов, процессор приемника звуковых сигналов и связанные с ними способы и носители данных // 2782730

Изобретение относится к средствам для кодирования аудио. Технический результат заключается в повышении эффективности аудиокодирования с защитой от ошибок.

Устройство, способ и компьютерная программа для кодирования, декодирования, обработки сцены и других процедур, связанных с пространственным аудиокодированием на основе dirac с использованием компенсации прямых компонент // 2782511

Изобретение относится к способам и устройствам аудиокодирования. Технический результат заключается в уменьшении ошибки квантования при кодировании аудиосигнала.

Способы, устройство и системы формирования звука 6dof, и представление данных, и структуры битовых потоков для формирования звука 6dof // 2782344

Группа изобретений относится к предоставлению устройства, системы и способа формирования звука с шестью степенями свободы (6DoF), в частности в связи с представлением данных и структурами битовых потоков для формирования звука 6DoF. Техническим результатом изобретения является обеспечение возможности представления данных и/или структур битовых потоков для кодирования звука 3D и/или формирования звука 3D, что позволяет эффективно выполнять кодирование и/или формирование звука 6DoF, предпочтительно с обратной совместимостью для формирования звука 3DoF, например согласно стандарту MPEG-H 3DA.

Аудиокодер с зависимым от сигнала управлением точностью и числом, аудиодекодер и связанные способы и компьютерные программы // 2782182

Изобретение относится к области вычислительной техники для кодирования аудио данных. Технический результат заключается в повышении скорости передачи битов и качества воспроизведения аудиоданных.

Способ и устройство обработки вспомогательных потоков медиаданных, встроенных в поток mpeg-h 3d audio // 2780733

Изобретение относится к системам локальной обработки пакетированных потоков медиаданных. Технический результат заключается в повышении эффективности декодирования/рендеринга.

Устройство, способ и компьютерная программа для кодирования, декодирования, обработки сцены и других процедур, связанных с пространственным аудиокодированием на основе dirac с использованием диффузной компенсации // 2779415

Изобретение относится к области вычислительной техники для обработки аудиоданных. Технический результат заключается в повышении точности генерирования описания звукового поля из входного сигнала.

Обработка монофонического сигнала в декодере 3d-аудио, предоставляющая бинауральный информационный материал // 2779295

Изобретение относится к способу обработки монофонического сигнала в декодере 3D-аудио, включающему этап обработки для бинаурализации декодированных сигналов, предназначенных для пространственного воспроизведения головной гарнитурой. Техническим результатом является обеспечение передачи сигнала для воспроизведения в конкретном положении относительно уха человека, носящего головную аудиогарнитуру, независимо от аудиосцены, воспроизводимой той же головной гарнитурой, с оптимизацией при этом диапазона частот, требуемого применяемым кодеком.

Многоканальное кодирование аудио // 2778832

Изобретение относится к параметрическому многоканальному кодированию аудио. При многоканальном кодировании аудио достигается повышенная эффективность вычислений посредством вычисления параметров для сравнения для компенсации ITD между любыми двумя каналами в частотной области для параметрического аудиокодера.

Способ и устройство для формирования из представления hoa-сигналов в области коэффициентов смешанного представления упомянутых hoa-сигналов в пространственной области/области коэффициентов // 2777660

Изобретение относится к области обработки данных. Технический результат заключается в обеспечении возможности формирования из представления в области коэффициентов смешанного представления в пространственной области/области коэффициентов, в котором количество HOA (Амбиофонических Звуков Более Высокого Порядка)-сигналов может быть переменным.