Устройство и способ кодирования или декодирования многоканального сигнала с использованием параметра широкополосного выравнивания и множества параметров узкополосного выравнивания

Авторы патента:

ДОЛА, Штефан (DE)

МУЛЬТРУС, Маркус (DE)

ДИТЦ, Мартин (DE)

ФОТОПОУЛОУ, Элени (DE)

БАЙЕР, Штефан (DE)

МАРКОВИЧ, Горан (DE)

ЯГЕРС, Вольфганг (DE)

ФУКС, Гийом (DE)

ШНЕЛЛЬ, Маркус (DE)

РАВЕЛЛИ, Эммануэль (DE)

G10L25/18 - Анализирование или синтезирование речи; распознавание речи (ввод/вывод звука для компьютеров G06F 3/16; способы или устройства для обработки цифровых данных, специально предназначенных для манипулирования данными на естественном языке G06F 17/20; обучение или общение со слепыми, глухими или немыми G09B 21/00; телефонная связь H04M)

G10L19/04 - с использованием способов прогнозирования

G10L19/02 - с использованием спектрального анализа, например преобразовательные вокодеры, вокодеры с поддиапазонами

G10L19/008 - Техника анализа-синтеза речи для уменьшения избыточности, например в вокодерах ; кодирование или декодирование речи

Владельцы патента RU 2704733:

ФРАУНХОФЕР-ГЕЗЕЛЛЬШАФТ ЦУР ФЕРДЕРУНГ ДЕР АНГЕВАНДТЕН ФОРШУНГ Е.Ф. (DE)

Изобретение относится к области технологий для кодирования многоканального сигнала. Технический результат заключается в повышении точности кодирования многоканального сигнала. Технический результат достигается за счет определения параметра широкополосного выравнивания и множества параметров узкополосного выравнивания из многоканального сигнала; выравнивания, по меньшей мере, двух каналов с использованием параметра широкополосного выравнивания и множества параметров узкополосного выравнивания для получения выровненных каналов; вычисления среднего сигнала и бокового сигнала с использованием выровненных каналов; кодирования среднего сигнала для получения кодированного среднего сигнала и кодирования бокового сигнала для получения кодированного бокового сигнала; и генерирования кодированного многоканального сигнала, содержащего кодированный средний сигнал, кодированный боковой сигнал, информацию о параметре широкополосного выравнивания и информацию о множестве параметров узкополосного выравнивания. 6 н. и 28 з.п. ф-лы, 16 ил.

Настоящая заявка относится к обработке стереосигнала или, в общем случае, обработке многоканального сигнала, где многоканальный сигнал имеет два канала, например, левый канал и правый канал в случае стереосигнала, или более двух каналов, например, три, четыре, пять или любое другое количество каналов.

Речевой стереосигнал и, в частности, разговорный речевой стереосигнал привлекал гораздо меньшее научное внимание, чем хранение и вещание стереофонической музыки. Действительно, в настоящее время в речевой связи все же, по большей части, используется монофоническая передача. Однако с увеличением сетевой полосы и пропускной способности, предполагается, что связь на основе стереофонических технологий будет более популярной и создавать лучшее ощущение прослушивания.

Эффективное кодирование стереофонического аудиоматериала долгое время исследовалось в перцептивном аудиокодировании музыки для эффективного хранения или вещания. При высоких битовых скоростях, где важно сохранять форму волны, долгое время применялся суммарно-разностный стереосигнал, известный как средний/боковой (M/S) стереосигнал. Для низких битовых скоростей было введено кодирование стереосигнала по интенсивности, и более недавно, параметрическое кодирование стереосигнала. Последний метод принят в разных стандартах, например, HeAACv2 и Mpeg USAC. Он генерирует понижающее микширование двухканального сигнала и связывает компактную пространственную вспомогательную информацию.

Совместное кодирование стереосигнала обычно строится на основе временно-частотного преобразования сигнала высокого частотного разрешения, т.е. низкого временного разрешения, и поэтому не совместимо с низкой задержкой и обработкой во временной области, осуществляемой в большинстве речевых кодеров. Кроме того, порождаемая битовая скорость обычно высока.

С другой стороны, в параметрической стереофонии используется дополнительный банк фильтров, расположенный на входном каскаде кодера в качестве препроцессора и на выходном каскаде декодера в качестве постпроцессора. Таким образом, параметрическая стереофония может использоваться с традиционными речевыми кодерами, например ACELP, как это осуществляется в MPEG USAC. Кроме того, параметризация звуковой сцены может достигаться с минимальным объемом вспомогательной информации, пригодной для низких битовых скоростей. Однако параметрическая стереофония, например, в MPEG USAC, в частности, не предназначенном для низкой задержки и не доставляет согласованного качества для разных разговорных сценариев. В традиционном параметрическом представлении пространственной сцены, ширина стереоскопического изображения искусственно воспроизводится декоррелятором, применяемым на двух синтезированных каналах, и управляется параметрами межканальной когерентности (IC), вычисленными и переданными кодером. Для большинства речевых стереосигналов, этот способ расширения стереоскопического изображения не пригоден для воссоздания естественного окружения речи, которая является довольно прямым звуком, поскольку она создается единственным источником, расположенным в конкретной позиции в пространстве (иногда с некоторой реверберацией от комнаты). Напротив, музыкальные инструменты имеют гораздо большую естественную ширину, чем речь, которую можно лучше имитировать путем декорреляции каналов.

Проблемы также возникают при записи речи с помощью несовмещенных микрофонов, например, в конфигурации A-B, где микрофоны отдалены друг от друга или для бинауральной записи или рендеризации. Эти сценарии могут предполагаться для захвата речи в телеконференциях или для создания виртуальной звуковой сцены с отдаленными говорящими в многоточечном блоке управления (MCU). В этом случае время прихода сигнала отличается от канала к каналу в отличие от записей, производимых на совмещенных микрофонах наподобие X-Y (записи интенсивности) или M-S (записи среднего-бокового). В этом случае вычисление когерентности таких невыровненных по времени двух каналов может неверно оцениваться, что не позволяет осуществлять синтез искусственного окружения.

Ссылки на уровень техники, относящиеся к обработке стереосигнала, представляют собой патент США 5,434,948 или патент США 8,811,621.

В документе WO 2006/089570 A1 раскрыта почти прозрачная или прозрачная схема многоканального кодера/декодера. Схема многоканального кодера/декодера дополнительно генерирует остаточный сигнал типа формы волны. Этот остаточный сигнал передается совместно с одним или более многоканальными параметрами на декодер. В отличие от чисто параметрического многоканального декодера, улучшенный декодер генерирует многоканальный выходной сигнал, имеющий улучшенное выходное качество ввиду дополнительного остаточного сигнала. На стороне кодера, левый канал и правый канал фильтруются банком фильтров анализа. Затем, для сигнал каждой подполосы, значение выравнивания и значение коэффициента усиления вычисляются для подполосы. Затем такое выравнивание осуществляется до дополнительной обработки. На стороне декодера осуществляется обработка снятия выравнивания и коэффициента усиления, и затем соответствующие сигналы синтезируются банком фильтров синтеза для генерирования декодированного левого сигнала и декодированного правого сигнала.

Было установлено, что такие традиционные процедуры не обеспечивают оптимальных аудиосигналов и, в частности, речевых сигналов, где присутствует более одного говорящего, т.е. в сценарии конференции или сцене разговорной речи.

Задачей настоящего изобретения является обеспечение усовершенствованного принципа кодирования или декодирования многоканального сигнала.

Эта задача решается посредством устройства для кодирования многоканального сигнала по п. 1, способа кодирования многоканального сигнала по п. 20, устройства для декодирования кодированного многоканального сигнала по п. 21 или способа декодирования кодированного многоканального сигнала по п. 33 или компьютерной программы по п. 34.

Устройство для кодирования многоканального сигнала, имеющего, по меньшей мере, два канала содержит блок определения параметра для определения параметра широкополосного выравнивания с одной стороны и множества параметров узкополосного выравнивания с другой стороны. Эти параметры используются блоком выравнивания сигнала для выравнивания, по меньшей мере, двух каналов с использованием этих параметров для получения выровненных каналов. Затем процессор сигнала вычисляет средний сигнал и боковой сигнал с использованием выровненных каналов, и затем средний сигнал и боковой сигнал кодируются и добавляются в кодированный выходной сигнал, который дополнительно имеет, в качестве параметрической вспомогательной информации, параметр широкополосного выравнивания и множество параметров узкополосного выравнивания.

На стороне декодера декодер сигнала декодирует кодированный средний сигнал и кодированный боковой сигнал для получения декодированных среднего и боковых сигналов. Затем эти сигналы обрабатываются процессором сигнала для вычисления декодированного первого канала и декодированного второго канала. Затем эти декодированные каналы подвергаются снятию выравнивания с использованием информации о параметре широкополосного выравнивания и информации о множестве узкополосных параметров, включенных в кодированный многоканальный сигнал, для получения декодированного многоканального сигнала.

В конкретной реализации, параметр широкополосного выравнивания представляет собой параметр межканальной разницы во времени, и множество параметров узкополосного выравнивания состоит из межканальных разностей фаз.

Настоящее изобретение базируется на том факте, что, в частности, для речевых сигналов, где присутствует более одного говорящего, но также для других аудиосигналов, где присутствует несколько аудиоисточников, разные места аудиоисточников, которые оба отображаются в два канала многоканального сигнала, могут учитываться для использования параметра широкополосного выравнивания, например, параметра межканальной разницы во времени, который применяется ко всему спектру одного или обоих каналов. Помимо этого параметра широкополосного выравнивания, было установлено, что несколько параметров узкополосного выравнивания, которые отличаются от подполосы к подполосе, дополнительно приводят к лучшему выравниванию сигнала на обоих каналах.

Таким образом, широкополосное выравнивание, соответствующее одной и той же задержке по времени в каждой подполосе совместно с выравниванием по фазе, соответствующим разным фазовым сдвигам для разных подполос приводит к оптимальному выравниванию обоих каналов до того, как эти два канала преобразуются в среднее/боковое представление, которое затем дополнительно кодируется. Ввиду того, что получено оптимальное выравнивание, с одной стороны, энергия в среднем сигнале имеет максимально возможное значение, и, с другой стороны, энергия в боковом сигнале имеет минимально возможное значение, что позволяет получить оптимальный результат кодирования с минимально возможной битовой скоростью или максимально возможным качеством аудиосигнала для определенной битовой скорости.

В частности для разговорного речевого материала, обычно возникает ощущение, что в двух разных местах присутствуют активные говорящие. Дополнительно, ситуация такова, что, обычно, только один говорящий говорит из первого места, и затем второй говорящий говорит из второго места или положения. Влияние разных положений на два канала, например, первый или левый канал или второй или правый канал, отражается в различии времен прихода и, таким образом, некоторой задержке по времени между двумя каналами вследствие разных положений, и эта задержка по времени время от времени изменяется. В общем случае, это влияние отражается в двух канальных сигналах как широкополосное снятие выравнивания, которое может определяться параметром широкополосного выравнивания.

С другой стороны, другие эффекты, в частности, обусловленные реверберацией или дополнительными источниками шума могут учитываться отдельными параметрами выравнивания по фазе для отдельных полос, которые накладываются на широкополосные разные времена прихода или широкополосное снятие выравнивания обоих каналов.

В связи с этим, использование как параметра широкополосного выравнивания, так и множества параметров узкополосного выравнивания помимо параметра широкополосного выравнивания приводит к оптимальному выравниванию каналов на стороне кодера для получения хорошего и очень компактного среднего/бокового представления, тогда как, с другой стороны, соответствующее снятие выравнивания после декодирования на стороне декодера приводит к хорошему качеству аудиосигнала для определенной битовой скорости или к малой битовой скорости для определенного необходимого качества аудиосигнала.

Преимущество настоящего изобретения состоит в том, что оно обеспечивает новую схему кодирования стереосигнала, гораздо более пригодную для преобразования речевого стереосигнала, чем существующие схемы кодирования стереосигнала. В соответствии с изобретением, технологии параметрической стереофонии и технологии совместного кодирования стереосигнала объединяются, в частности, путем использования межканальной разницы во времени, возникающей на каналах многоканального сигнала, в частности, в случае речевых источников, а также в случае других аудиоисточников.

Некоторые варианты осуществления обеспечивают полезные преимущества, рассмотренные ниже.

Новый способ предусматривает гибридный подход смешивания элементов из традиционной M/S стереофонии и параметрической стереофонии. В традиционной M/S, каналы пассивно смешиваются с понижением для генерирования среднего и бокового сигналов. Процесс можно дополнительно расширить за счет вращения канала с использованием преобразования Карунена-Лева (KLT), также известного как анализ основных компонент (PCA), до суммирования и дифференцирования каналов. Средний сигнал кодируется путем кодирования первичным кодом, а боковой сигнал переносится на вторичный кодер. Усовершенствованная M/S стереофония может дополнительно использовать предсказание бокового сигнала по среднему каналу, кодированному в текущем или предыдущем кадре. Главной целью вращения и предсказание является максимизация энергии среднего сигнала при минимизации энергии бокового сигнала. M/S стереофония сохраняет форму волны и в этом отношении очень устойчива к любым стереофоническим сценариям, но может быть очень дорогостоящей в отношении расходования битов.

Для наивысшей эффективности при низких битовых скоростях, параметрическая стереофония вычисляет и кодирует параметры, например, межканальные разности уровней (ILD), межканальные разности фаз (IPD), межканальные разности по времени (ITD) и межканальную когерентность (IC). Они компактно представляют стереоскопическое изображение и являются сигналами звуковой сцены (местоположением источника, панорамированием, стереобазой …). Затем задача состоит в том, чтобы параметризовать стереофоническую сцену и кодировать только сигнал понижающего микширования, который может быть на декодере, и с помощью передаваемых стереосигналов вновь преобразовывать в пространственную область.

В нашем подходе смешаны два принципа. Первый, ITD и IPD стереосигналов вычисляются и применяются на двух каналах. Целью является представление разницы во времени в широкой полосе и по фазе в разных полосах частот. Затем два канала выравниваются по времени и фазе, и затем осуществляется кодирование M/S. Установлено, что ITD и IPD полезны для моделирования речевого стереосигнала и являются хорошей заменой вращения на основе KLT в M/S. В отличие от чисто параметрического кодирования, окружение не является более моделируемым посредством IC, но непосредственно боковым сигналом, который кодируется и/или предсказывается. Было установлено, что этот подход более надежен, особенно при обработке речевых сигналов.

Вычисление и обработка ITD является важной частью изобретения. ITD уже применялись в традиционном кодировании бинаурального сигнала (BCC), но таким образом, что это было неэффективно, поскольку ITD изменялись с течением времени. Чтобы избавиться от этого недостатка, было разработано конкретное вырезание для сглаживания переходов между двумя разными ITD, позволяющее плавно переключаться между говорящими, расположенными в разных местах.

Дополнительные варианты осуществления относятся к процедуре, в которой, на стороне кодера, определение параметров для определения множества параметров узкополосного выравнивания осуществляется с использованием каналов, которые уже выровнены с ранее определенным параметром широкополосного выравнивания.

Соответственно, узкополосное снятие выравнивания на стороне декодера осуществляется до широкополосного снятия выравнивания осуществляется с использованием обычно единственного параметра широкополосного выравнивания.

В дополнительных вариантах осуществления, предпочтительно, чтобы, либо на стороне кодера, но еще важнее, на стороне декодера, некоторого рода вырезание и операция сложения с перекрытием, либо любого рода плавный переход от блока к блоку осуществляется после всех выравниваний и, в частности, после выравнивания по времени с использованием параметра широкополосного выравнивания. Это избавляет от любых слышимых артефактов, например, щелчков, когда время или параметр широкополосного выравнивания изменяется от блока к блоку.

В других вариантах осуществления применяются разные спектральные разрешения. В частности, канальные сигналы подвергаются временно-спектральному преобразованию, имеющему высокое частотное разрешение, например, спектр DFT, тогда как параметры, например, параметры узкополосного выравнивания, определяются для параметрических полос, имеющих более низкое спектральное разрешение. Обычно параметрическая полоса имеет более одной спектральной линии, чем спектр сигнала и обычно имеет набор спектральных линий из спектра DFT. Кроме того, параметрические полосы увеличиваются от низких частот к высоким частотам для учета психоакустических вопросов.

Дополнительные варианты осуществления относятся к дополнительному использованию параметра уровня, например, разности уровней, или другим процедурам для обработки бокового сигнала, например, параметров стереозаполнения и т.д. Кодированный боковой сигнал может представляться самим фактическим боковым сигналом, или остаточным сигналом предсказания, осуществляемым с использованием среднего сигнала текущего кадра или любого другого кадра, или боковым сигналом или боковым остаточным сигналом предсказания только в поднаборе полос и параметрами предсказания только для оставшихся полос, или даже параметрами предсказания для всех полос без какой-либо информации бокового сигнала высокого частотного разрешения. Следовательно, в последней вышеописанной альтернативе, кодированный боковой сигнал представляется только параметром предсказания для каждой параметрической полосы или только поднабора параметрических полос таким образом, что для оставшихся параметрических полос не существует никакой информации о первоначальном боковом сигнале.

Кроме того, предпочтительно иметь множество параметров узкополосного выравнивания не для всех параметрических полос, отражающих всю полосу широкополосного сигнала, но только для набора более низких полос, например, более низких 50 процентов параметрических полос. С другой стороны, параметры стереозаполнения не используются для пары более низких полос, поскольку, для этих полос, сам боковой сигнал или остаточный сигнал предсказания передается для уверенности в том, что, по меньшей мере, для более низких полос, доступно представление, правильное с точки зрения формы волны. С другой стороны, боковой сигнал не передается в представлении, точном с точки зрения формы волны для более высоких полос для дополнительного снижения битовой скорости, но боковой сигнал обычно представлен параметрами стереозаполнения.

Кроме того, предпочтительно осуществлять всего анализа параметров и выравнивания в одной и той же частотной области на основании одного и того же спектра DFT. Для этого дополнительно предпочтительно использовать технологию обобщенной взаимной корреляции с фазовым преобразованием (GCC-PHAT) с целью определения межканальной разницы во времени. В предпочтительном варианте осуществления этой процедуры, сглаживание корреляционного спектра на основании информации о спектральной формы, причем информация, предпочтительно, является мерой спектральной плоскостности, осуществляется таким образом, что сглаживание будет слабым в случае шумоподобных сигналов, и сглаживание будет усиливаться в случае тоноподобных сигналов.

Кроме того, предпочтительно осуществлять особое фазовращение, где учитываются амплитуды каналов. В частности, фазовращение распределяется между двумя каналами с целью выравнивания на стороне кодера и, конечно, с целью снятия выравнивания на стороне декодера, где канал, имеющий более высокую амплитуду рассматривается как ведущий канал и будет менее подвержен фазовращению, т.е. будет меньше поворачиваться, чем канал с более низкой амплитудой.

Кроме того, вычисление суммы-разности осуществляется с использованием масштабирования энергии с масштабным коэффициентом, который выводится из энергии обоих каналов и, дополнительно, ограничивается определенным диапазоном для уверенности в том, что вычисление среднего/бокового сигнала не слишком сильно влияет на энергию. С другой стороны, однако, следует отметить, что, с целью настоящего изобретения, такого рода сохранение энергии не является столь критичным, как в традиционных процедурах, поскольку время и фаза были заранее выровнены. Таким образом, флуктуации энергия вследствие вычисления среднего сигнала и бокового сигнала из левого и правого (на стороне кодера) или вследствие вычисления левого и правого сигнала из среднего и бокового (на стороне декодера) не столь значительны, как в уровне техники.

Далее будут рассмотрены предпочтительные варианты осуществления настоящего изобретения в отношении прилагаемых чертежей, в которых:

фиг. 1 - блок-схема предпочтительной реализации устройства для кодирования многоканального сигнала;

фиг. 2 - предпочтительный вариант осуществления устройства для декодирования кодированного многоканального сигнала;

фиг. 3 - иллюстрация разных частотных разрешений и других частотных аспектов для некоторых вариантов осуществления;

фиг. 4a демонстрирует блок-схему операций процедур, осуществляемых в устройстве для кодирования с целью выравнивания каналов;

фиг. 4b демонстрирует предпочтительный вариант осуществления процедур, осуществляемых в частотной области;

фиг. 4c демонстрирует предпочтительный вариант осуществления процедур, осуществляемых в устройстве для кодирования с использованием окна анализа с участками заполнения нулями и диапазонами перекрытия;

фиг. 4d демонстрирует блок-схему операций для дополнительных процедур, осуществляемых в устройстве для кодирования;

фиг. 4e демонстрирует блок-схему операций, показывающую предпочтительную реализацию оценивания межканальной разницы во времени;

фиг. 5 демонстрирует блок-схему операций, демонстрирующую дополнительный вариант осуществления процедур, осуществляемых в устройстве для кодирования;

фиг. 6a демонстрирует блок-схему варианта осуществления кодера;

фиг. 6b демонстрирует блок-схему операций соответствующего варианта осуществления декодера;

фиг. 7 демонстрирует предпочтительный сценарий вырезания с мало перекрывающимися синусоидальными окнами с заполнением нулями для временно-частотный анализа и синтеза стереосигнала;

фиг. 8 демонстрирует таблицу, демонстрирующую расходование битов разных значений параметра;

фиг. 9a демонстрирует процедуры, осуществляемые устройством для декодирования кодированного многоканального сигнала в предпочтительном варианте осуществления;

фиг. 9b демонстрирует предпочтительную реализацию устройства для декодирования кодированного многоканального сигнала; и

фиг. 9c демонстрирует процедуру, осуществляемую в контексте широкополосного снятия выравнивания в контексте декодирования кодированного многоканального сигнала.

Фиг. 1 демонстрирует устройство для кодирования многоканального сигнала, имеющего, по меньшей мере, два канала. Многоканальный сигнал 10 поступает на блок 100 определения параметра с одной стороны и блок 200 выравнивания сигнала с другой стороны. Блок 100 определения параметра определяет, с одной стороны, параметр широкополосного выравнивания и, с другой стороны, множество параметров узкополосного выравнивания из многоканального сигнала. Эти параметры выводятся через параметрическую линию 12. Кроме того, эти параметры также выводятся через дополнительную параметрическую линию 14 на выходной интерфейс 500, как показано. На параметрической линии 14, дополнительные параметры, например, параметры уровня пересылаются от блока 100 определения параметра на выходной интерфейс 500. Блок 200 выравнивания сигнала выполнен с возможностью выравнивания, по меньшей мере, двух каналов многоканального сигнала 10 с использованием параметра широкополосного выравнивания и множества параметров узкополосного выравнивания, принятых через параметрическую линию 10 для получения выровненных каналов 20 на выходе блока 200 выравнивания сигнала. Эти выровненные каналы 20 пересылаются на процессор 300 сигнала, который выполнен с возможностью вычисления среднего сигнала 31 и бокового сигнала 32 из выровненных каналов, принятых по линии 20. Устройство для кодирования дополнительно содержит кодер 400 сигнала для кодирования среднего сигнала из линии 31 и бокового сигнала из линии 32 для получения кодированного среднего сигнала на линии 41 и кодированного бокового сигнала на линии 42. Оба эти сигнала пересылаются на выходной интерфейс 500 для генерирования кодированного многоканального сигнала на выходной линии 50. Кодированный сигнал на выходной линии 50 содержит кодированный средний сигнал из линии 41, кодированный боковой сигнал из линии 42, параметры узкополосного выравнивания и параметры широкополосного выравнивания из линии 14 и, в необязательном порядке, параметр уровня из линии 14 и, дополнительно в необязательном порядке, параметр стереозаполнения, генерируемый кодером 400 сигнала и пересылаемый на выходной интерфейс 500 через параметрическую линию 43.

Предпочтительно, блок выравнивания сигнала выполнен с возможностью выравнивания каналов из многоканального сигнала с использованием параметра широкополосного выравнивания, до того, как блок 100 определения параметра фактически вычислит узкополосные параметры. Таким образом, в этом варианте осуществления, блок 200 выравнивания сигнала отправляет широкополосные выровненные каналы обратно на блок 100 определения параметра через соединительную линию 15. Затем блок 100 определения параметра определяет множество параметров узкополосного выравнивания от уже в отношении широкополосной характеристики выровненный многоканальный сигнал. Однако в других вариантах осуществления параметры определяются без этой конкретной последовательности процедур.

Фиг. 4a демонстрирует предпочтительную реализацию, где осуществляется конкретная последовательность этапов, которая предусматривает соединительную линию 15. На этапе 16 определяется параметр широкополосного выравнивания с использованием двух каналов, и получается параметр широкополосного выравнивания, например, межканальная разница во времени или параметр ITD. Затем, на этапе 21, два канала выравниваются блоком 200 выравнивания сигнала, показанным на фиг. 1, с использованием параметра широкополосного выравнивания. Затем, на этапе 17, узкополосные параметры определяются с использованием выровненных каналов в блоке 100 определения параметра для определения множества параметров узкополосного выравнивания, например, множества параметров межканальной разности фаз для разных полос многоканального сигнала. Затем, на этапе 22, спектральные значения в каждой параметрической полосе выравниваются с использованием соответствующего параметра узкополосного выравнивания для этой конкретной полосы. Когда эта процедура на этапе 22 осуществляется для каждой полосы, для которой доступен параметр узкополосного выравнивания, выровненные первый и второй или левый/правый каналы доступны для дополнительной обработки сигнала процессором 300 сигнала, показанным на фиг. 1.

Фиг. 4b демонстрирует дополнительную реализацию многоканального кодера, показанного на фиг. 1, где несколько процедур осуществляется в частотной области.

В частности, многоканальный кодер дополнительно содержит временно-спектральный преобразователь 150 для преобразования многоканального сигнала во временной области в спектральном представлении, по меньшей мере, двух каналов в частотной области.

Кроме того, как показано на 152, блок определения параметра, блок выравнивания сигнала и процессор сигнала, проиллюстрированные на 100, 200 и 300 на фиг. 1, действуют в частотной области.

Кроме того, многоканальный кодер и, в частности, процессор сигнала дополнительно содержит спектально-временной преобразователь 154 для генерирования представления во временной области, по меньшей мере, среднего сигнала.

Предпочтительно, спектрально-временной преобразователь дополнительно преобразует спектральное представление бокового сигнала, также определенное процедурами, представленными блоком 152, в представление во временной области, и кодер 400 сигнала на фиг. 1 затем выполнен с возможностью дополнительно кодировать средний сигнал и/или боковой сигнал как сигналы во временной области в зависимости от конкретной реализации кодера 400 сигнала на фиг. 1.

Предпочтительно, временно-спектральный преобразователь 150 на фиг. 4b выполнен с возможностью реализации этапов 155, 156 и 157 на фиг. 4c. В частности, этап 155 содержит обеспечение окна анализа с, по меньшей мере, одним участком заполнения нулями на одном его конце и, в частности, участком заполнения нулями на начальном участке окна и участке заполнения нулями на конечном участке окна, как показано, например, на фиг. 7 ниже. Кроме того, окно анализа дополнительно имеет диапазоны перекрытия или участки перекрытия в первой половине окна и во второй половине окна и, дополнительно, предпочтительно среднюю часть, которая является диапазоном без перекрытия, в зависимости от обстоятельств.

На этапе 156, каждый канал вырезается с использованием окна анализа с диапазонами перекрытия. В частности, каждый канал вырезается с использованием окна анализа таким образом, что получается первый блок канала. Затем получается второй блок того же канала, который имеет определенный диапазон перекрытия с первым блоком и т.д., таким образом, что после, например, пяти операций вырезания, доступно пять блоков вырезанных выборок каждого канала, которые затем по отдельности преобразуются в спектральном представлении, как показано на 157 на фиг. 4c. Та же процедура осуществляется для другого канала, также таким образом, что, в конце этапа 157, доступна последовательность блоков спектральных значений и, в частности, комплексных спектральных значений, например, спектральных значений DFT или комплексных выборок подполосы.

На этапе 158, который осуществляется блоком 100 определения параметра на фиг. 1, определяется параметр широкополосного выравнивания и на этапе 159, который осуществляется путем выравнивания 200 сигнала на фиг. 1, круговой сдвиг осуществляется с использованием параметра широкополосного выравнивания. На этапе 160, опять же осуществляемом блоком 100 определения параметра на фиг. 1, параметры узкополосного выравнивания определяются для отдельных полос/подполос и на этапе 161, выровненные спектральные значения вращаются для каждой полосы с использованием соответствующих параметров узкополосного выравнивания определенный для конкретных полос.

Фиг. 4d демонстрирует дополнительные процедуры, осуществляемые процессором 300 сигнала. В частности, процессор 300 сигнала выполнен с возможностью вычисления среднего сигнала и бокового сигнала, как показано на этапе 301. На этапе 302 может осуществляться некоторого рода дополнительная обработка бокового сигнала и затем, на этапе 303, каждый блок среднего сигнала и бокового сигнала преобразуется обратно во временную область и, на этапе 304, окно синтеза применяется к каждому блоку, полученному на этапе 303 и, на этапе 305, операция перекрытия/сложения для среднего сигнала с одной стороны и операция перекрытия/сложения для бокового сигнала с другой стороны осуществляется для окончательного получения средних/боковых сигналов во временной области.

В частности, операции этапов 304 и 305 приводят к тому, что разновидность плавного перехода от одного блока среднего сигнала или бокового сигнала к следующему блоку среднего сигнала и бокового сигнала осуществляется таким образом, что, даже когда происходят любые изменения параметра, например, параметра межканальной разницы во времени или параметра межканальной разности фаз, это, тем не менее, не будет слышно в средних/боковых сигналах во временной области, полученных на этапе 305 на фиг. 4d.

Новое кодирование стереосигнала с низкой задержкой является совместным кодированием среднего/бокового (M/S) стереосигнала с использованием некоторых пространственных сигналов, где средний канал кодируется первичным монофоническим базовым кодер, и боковой канал кодируется вторичный базовым кодером. Принципы кодера и декодера изображены на фиг. 6a, 6b.

Обработка стереосигнала осуществляется, в основном, в частотной области (FD). В необязательном порядке, некоторая обработка стереосигнала может осуществляться во временной области (TD) до частотного анализа. Это возможно для вычисления ITD, которая может вычисляться и применяться до частотного анализа для выравнивания каналов по времени до осуществления анализ и обработка стереосигнала. Альтернативно, обработка ITD может осуществляться непосредственно в частотной области. Поскольку обычные речевые кодеры, например ACELP, не содержат никакого внутреннего временно-частотного разложения, кодирование стереосигнала добавляет дополнительный комплексный модулированный банк фильтров посредством анализа и банк фильтров синтеза до базового кодера и другой каскад банка фильтров анализа-синтеза после базового декодера. В предпочтительном варианте осуществления используется передискретизированное DFT с областью низкого перекрывания. Однако в других вариантах осуществления может использоваться любое комплекснозначное временно-частотное разложение с аналогичным временным разрешением.

Обработка стереосигнала состоит из вычисления пространственных сигналов: межканальной разницы во времени (ITD), межканальных разностей фаз (IPD) и межканальных разностей уровней (ILD). ITD и IPD используются на входном стереосигнале для выравнивания двух каналов L и R по времени и по фазе. ITD вычисляется в широкой полосе или во временной области, тогда как IPD и ILD вычисляются для каждой или части параметрических полос, соответствующих неоднородному разложению частотному пространству. После выравнивания двух каналов применяется совместная M/S стереофония, где боковой сигнал затем дополнительно предсказывается из среднего сигнала. Коэффициент усиления предсказания выводится из ILD.

Средний сигнал дополнительно кодируется первичным базовым кодером. В предпочтительном варианте осуществления, первичный базовый кодер отвечает стандарту 3GPP EVS, или осуществляет кодирование, выведенное из него, которое может переключаться между режимом кодирования речи, ACELP, и музыкальным режимом на основании преобразования MDCT. Предпочтительно, кодер на основе ACELP и MDCT поддерживаются модулями расширения полосы во временной области (TD-BWE) и/или интеллектуального заполнения промежутка (IGF), соответственно.

Сначала боковой сигнал предсказывается по среднему каналу с использованием коэффициентов усиления предсказания, выведенных из ILD. Остаток может дополнительно предсказываться по задержанной версии среднего сигнала или непосредственно кодироваться вторичным базовым кодером, осуществляемым в предпочтительном варианте осуществления в области MDCT. Обработка стереосигнала на кодере может быть представлена на фиг. 5, как будет объяснено далее.

Фиг. 2 демонстрирует блок-схему варианта осуществления устройства для декодирования кодированного многоканального сигнала, принятого на входной линии 50.

В частности, сигнал принимается входным интерфейсом 600. Ко входному интерфейсу 600 подключены декодер 700 сигнала и блок 900 снятия выравнивания сигнала. Кроме того, процессор 800 сигнала подключен к декодеру 700 сигнала с одной стороны и подключен к блоку снятия выравнивания сигнала с другой стороны.

В частности, кодированный многоканальный сигнал содержит кодированный средний сигнал, кодированный боковой сигнал, информацию о параметре широкополосного выравнивания и информацию о множестве узкополосных параметров. Таким образом, кодированный многоканальный сигнал на линии 50 может быть в точности тем сигналом, который выводится выходным интерфейсом 500 на фиг. 1.

Однако здесь важно отметить, что, в отличие от того, что проиллюстрировано на фиг. 1, параметр широкополосного выравнивания и множество параметров узкополосного выравнивания, включенные в кодированный сигнал в определенной форме, могут быть в точности параметрами выравнивания, используемыми блоком 200 выравнивания сигнала на фиг. 1, но, альтернативно, также могут быть их обратными значениями, т.е. параметрами, которые могут использоваться в точности теми же операциями, осуществляемыми блоком 200 выравнивания сигнала, но с обратными значениями, благодаря чему, получается снятие выравнивания.

Таким образом, информация о параметрах выравнивания может представлять собой параметры выравнивания, используемые блоком 200 выравнивания сигнала на фиг. 1, или может представлять собой обратные значения, т.е. фактические ''параметры снятия выравнивания''. Дополнительно, эти параметры обычно будут квантоваться в определенной форме, что будет рассмотрено далее со ссылкой на фиг. 8.

Входной интерфейс 600, показанный на фиг. 2, отделяет информацию о параметре широкополосного выравнивания и множество параметров узкополосного выравнивания от кодированных средних/боковых сигналов и пересылает эту информацию через параметрическую линию 610 на блок 900 снятия выравнивания сигнала. С другой стороны, кодированный средний сигнал пересылается на декодер 700 сигнала по линии 601, и кодированный боковой сигнал пересылается на декодер 700 сигнала через сигнальную линию 602.

Декодер сигнала выполнен с возможностью декодирования кодированного среднего сигнала и декодирования кодированного бокового сигнала для получения декодированного среднего сигнала на линии 701 и декодированного бокового сигнала на линии 702. Эти сигналы используются процессором 800 сигнала для вычисления декодированного сигнала первого канала или декодированного левого сигнала и для вычисления сигнала декодированного второго канала или декодированного правого канала из декодированного среднего сигнала и декодированного бокового сигнала, и декодированный первый канал и декодированный второй канал выводятся на линиях 801, 802, соответственно. Блок 900 снятия выравнивания сигнала выполнен с возможностью снятия выравнивания декодированного первого канала на линии 801 и декодированного правого канала 802 с использованием информации о параметре широкополосного выравнивания и дополнительно с использованием информации о множестве параметров узкополосного выравнивания для получения декодированного многоканального сигнала, т.е. декодированного сигнала, имеющего, по меньшей мере, два декодированных и со снятым выравниванием каналов на линиях 901 и 902.

Фиг. 9a демонстрирует предпочтительную последовательность этапов, осуществляемых блоком 900 снятия выравнивания сигнала из фиг. 2. В частности, этап 910 принимает выровненные левый и правый каналы, имеющиеся на линиях 801, 802 из фиг. 2. На этапе 910 блок 900 снятия выравнивания сигнала снимает выравнивание отдельных подполос с использованием информации о параметрах узкополосного выравнивания для получения декодированных первого и второго или левого и правого каналов со снятым выравниванием по фазе на 911a и 911b. На этапе 912 выравнивание каналов снимается с использованием параметра широкополосного выравнивания таким образом, что, на 913a и 913b, получаются каналы со снятым выравниванием по фазе и времени.

На этапе 914 осуществляется любая дополнительная обработка, которая содержит использование вырезания или любую операцию сложения с перекрытием или, в общем случае, любую операцию плавного перехода для получения, на 915a или 915b, декодированного сигнала с ослабленными артефактами или с отсутствующими артефактами, т.е. декодированных каналов, которые не имеют никаких артефактов, хотя обычно существуют изменяющиеся со временем параметры снятия выравнивания для широкой полосы с одной стороны и для множества узких полос с другой стороны.

Фиг. 9b демонстрирует предпочтительную реализацию многоканального декодера, проиллюстрированного на фиг. 2.

В частности, процессор 800 сигнала из фиг. 2 содержит временно-спектральный преобразователь 810.

Процессор сигнала дополнительно содержит преобразователь 820 среднего/бокового в левый/правый для вычисления из среднего сигнала M и бокового сигнала S в левый сигнал L и правый сигнал R.

Однако, важно, что для вычисления L и R путем преобразования средний/боковой-левый/правый в блоке 820, не обязательно использовать боковой сигнал S. Напротив, как рассмотрено далее, левый/правый сигналы первоначально вычисляются только с использованием параметра коэффициента усиления, выведенного из параметра межканальной разности уровней ILD. В общем случае, коэффициент усиления предсказания также может рассматриваться как форма ILD. Коэффициент усиления может выводиться из ILD, но также может непосредственно вычисляться. Предпочтительно больше не вычислять ILD, но непосредственно вычислять коэффициент усиления предсказания и передавать и использовать на декодере коэффициент усиления предсказания вместо параметра ILD.

Таким образом, в этой реализации, боковой сигнал S используется только в блоке 830 обновления канала, который действует для обеспечения лучшего левого/правого сигнала с использованием передаваемого бокового сигнала S, как показано обходной линией 821.

Таким образом, преобразователь 820 действует с использованием параметра уровня, полученного через вход 822 параметра уровня и без фактического использования бокового сигнала S, но затем блок 830 обновления канала действует с использованием бокового сигнала 821 и, в зависимости от конкретной реализации, с использованием параметра стереозаполнения, принятого по линии 831. В этом случае блок 900 выравнивания сигнала содержит блок снятия выравнивания по фазе и блок 910 масштабирования энергии. Масштабирование энергии регулируется масштабным коэффициентом, выведенным вычислителем 940 масштабного коэффициента. На вычислитель 940 масштабного коэффициента поступает выходной сигнал блока 830 обновления канала. На основании параметров узкополосного выравнивания, принятых через вход 911, осуществляется снятие выравнивания по фазе и, в блоке 920, на основании параметра широкополосного выравнивания, принятого по линии 921, осуществляется снятие выравнивания по времени. Окончательно, спектрально-временное преобразование 930 осуществляется для окончательного получения декодированного сигнала.

Фиг. 9c демонстрирует последовательность этапов, дополнительную к обычно осуществляемую в блоках 920 и 930, показанных на фиг. 9b, в предпочтительном варианте осуществления.

В частности, узкополосные каналы со снятым выравниванием поступают на функциональные возможности широкополосного снятия выравнивания, соответствующие блоку 920 на фиг. 9b. В блоке 931 осуществляется DFT или любое другое преобразование. После фактического вычисления выборок во временной области осуществляется необязательное синтетическое вырезание с использованием окна синтеза. Окно синтеза, предпочтительно, в точности такое же, как окно анализа, или выводится из окна анализа, например, путем интерполяции или прореживания, но зависит определенным образом от окна анализа. Эта зависимость, предпочтительно, такова, что коэффициенты умножения, определяемые двумя перекрывающимися окнами, суммируются до единицы для каждой точки в диапазоне перекрытия. Таким образом, после окна синтеза в блоке 932, операция перекрытия и осуществляется следующая операция сложения. Альтернативно, вместо синтетического вырезания и операции перекрытия/сложения, осуществляется любой плавный переход между следующими блоками для каждого канала для получения, как уже рассмотрено в контексте фиг. 9a, декодированного сигнала с ослабленными артефактами.

При рассмотрении фиг. 6b, становится очевидно, что фактические операции декодирования для среднего сигнала, т.е. ''декодер EVS'' с одной стороны и, для бокового сигнала, обратное векторное квантование VQ^-1 и операция обратного MDCT (IMDCT) соответствуют декодеру 700 сигнала на фиг. 2.

Кроме того, операции DFT в блоках 810 соответствуют элементу 810 на фиг. 9b, и функциональные возможности обратной обработки стереосигнала и обратного сдвига по времени соответствуют блокам 800, 900 на фиг. 2 и операции обратного DFT 930 на фиг. 6b соответствуют соответствующей операции в блоке 930 на фиг. 9b.

Теперь более подробно рассмотрим фиг. 3. В частности, фиг. 3 демонстрирует спектр DFT, имеющий отдельные спектральные линии. Предпочтительно, спектр DFT или любой другой спектр, проиллюстрированный на фиг. 3, является комплексным спектром и каждая линия является комплексной спектральной линией, имеющей величину и фазу, или имеющей действительную часть и мнимую часть.

Дополнительно, спектр также делится на разные параметрические полосы. Каждая параметрическая полоса имеет, по меньшей мере, одну и, предпочтительно, более одной спектральных линий. Дополнительно, параметрические полосы увеличиваются от более низких к более высоким частотам. Обычно параметр широкополосного выравнивания является единственным параметром широкополосного выравнивания для всего спектра, т.е. для спектра, содержащего все полосы с 1 по 6 в иллюстративном варианте осуществления на фиг. 3.

Кроме того, множество параметров узкополосного выравнивания обеспечивается таким образом, что для каждой параметрической полосы существует единственный параметр выравнивания. Это означает, что параметр выравнивания для полосы всегда применяется ко всем спектральным значениям в соответствующей полосе.

Кроме того, помимо параметров узкополосного выравнивания, параметры уровня также обеспечиваются для каждой параметрической полосы.

В отличие от параметров уровня, которые обеспечиваются для каждой параметрической полосы от полосы 1 до полосы 6, предпочтительно обеспечивать множество параметров узкополосного выравнивания только для ограниченного количества более низких полос, например, полос 1, 2, 3 и 4.

Дополнительно, параметры стереозаполнения обеспечиваются для некоторого количества полос за исключением более низких полос, например, в иллюстративном варианте осуществления, для полос 4, 5 и 6, тогда как существуют спектральные значения бокового сигнала для более низких параметрических полос 1, 2 и 3 и, следовательно, параметров стереозаполнения не существует для этих более низких полос, где совпадение формы волны получается с использованием либо самого бокового сигнала, либо остаточного сигнала предсказания, представляющего боковой сигнал.

Как указано ранее, существует больше спектральных линий в более высоких полосах, например, согласно варианту осуществления на фиг. 3, семь спектральных линий в параметрической полосе 6 и только три спектральных линии в параметрической полосе 2. Естественно, однако, количество параметрических полос, количество спектральных линий и количество спектральных линий в параметрической полосе и также разные пределы для определенных параметров будут разными.

Тем не менее, фиг. 8 демонстрирует распределение параметров и количество полос, для которого обеспечиваются параметры в определенном варианте осуществления, где присутствует, в отличие от фиг. 3, фактически 12 полос.

Как показано, параметр уровня ILD обеспечивается для каждой из 12 полос и квантуется до точности квантования, представленной пятью битами на полосу.

Кроме того, параметры узкополосного выравнивания IPD обеспечиваются только для более низких полос до граничной частоты 2,5 кГц. Дополнительно, межканальная разница во времени или параметр широкополосного выравнивания обеспечивается только как единственный параметр для всего спектра, но с очень высокой точностью квантования, представленной восемью битами для всей полосы.

Кроме того, обеспечиваются весьма грубо квантованные параметры стереозаполнения, представленные тремя битами на полосу и не для более низких полос ниже 1 кГц, поскольку, для более низких полос, включены фактически кодированный боковой сигнал или остаточные спектральные значения бокового сигнала.

Затем, предпочтительная обработка на стороне кодера описана в общих чертах со ссылкой на фиг. 5. На первом этапе осуществляется DFT-анализ левого и правого канала. Эта процедура соответствует этапам 155-157 на фиг. 4c. На этапе 158, вычисляется параметр широкополосного выравнивания и, в частности, предпочтительный параметр широкополосного выравнивания межканальная разница во времени (ITD). Как показано на 170, сдвиг по времени L и R в частотной области осуществляется. Альтернативно, этот сдвиг по времени также может осуществляться во временной области. Затем осуществляется обратное DFT, осуществляется сдвиг по времени во временной области и осуществляется дополнительное прямое DFT, чтобы, опять же, иметь спектральные представления после выравнивания с использованием параметра широкополосного выравнивания.

Параметры ILD, т.е. параметры уровня и параметры фазы (параметры IPD), вычисляются для каждой параметрической полосы на сдвинутых представлениях L и R, как показано на этапе 171. Этот этап соответствует, например, этапу 160 на фиг. 4c. Сдвинутые по времени представления L и R вращаются как функция параметров межканальной разности фаз, как показано на этапе 161 на фиг. 4c или фиг. 5. Затем вычисляются средний и боковой сигналы, как показано на этапе 301, и, предпочтительно, дополнительно с энергосберегающей операцией, как рассмотрено далее. На следующем этапе 174 осуществляется предсказание S с помощью M как функция ILD и, в необязательном порядке, с помощью прошлого сигнала M, т.е. среднего сигнала более раннего кадра. Затем осуществляется обратное DFT среднего сигнала и бокового сигнала, которое соответствует этапам 303, 304, 305 на фиг. 4d в предпочтительном варианте осуществления.

На окончательном этапе 175, средний сигнал M во временной области и, в необязательном порядке, остаточный сигнал кодируются, как показано на этапе 175. Эта процедура соответствует осуществляемой кодером 400 сигнала на фиг. 1.

На декодере при обратной обработке стереосигнала, сигнал Side генерируется в области DFT и сначала предсказывается из сигнала Mid в виде:

где g - коэффициент усиления, вычисленный для каждой параметрической полосы и является функцией передаваемой межканальной разности уровней (ILD).

Затем остаток предсказания можно уточнять двумя разными путями:

- путем вторичного кодирования остаточного сигнала:

где - глобальный коэффициент усиления, передаваемый для всего спектра;

- путем остаточного предсказания, известного как стереозаполнение, предсказывающего спектр остаточного бокового сигнала с помощью спектра предыдущий декодированный сигнала Mid из предыдущего кадра DFT:

где - предсказательный коэффициент усиления, передаваемый для каждой параметрической полосы.

Два типа уточнения кодирования могут смешиваться в одном и том же спектре DFT. В предпочтительном варианте осуществления, остаточное кодирование применяется на более низких параметрических полосах, тогда как на оставшихся полосах применяется остаточное предсказание. Остаточное кодирование в предпочтительном варианте осуществления осуществляется, как описано на фиг. 1, в области MDCT после синтеза остаточного бокового сигнала во временной области и его преобразования посредством MDCT. В отличие от DFT, MDCT критично дискретизируется и более пригодно для кодирования аудиосигнала. Коэффициенты MDCT подвергаются непосредственно векторному квантованию посредством решеточного векторного квантования, но могут альтернативно кодироваться скалярным квантователем с последующей передачей на энтропийный кодер. Альтернативно, остаточный боковой сигнал также может кодироваться во временной области методом кодирования речи или непосредственно в области DFT.

1. Временно-частотный анализ: DFT

Важно, чтобы дополнительное временно-частотное разложение из обработки стереосигнала, осуществляемой посредством DFT, допускало хороший анализ звуковой сцены без значительного увеличения общей задержки системы кодирования. По умолчанию, используется временное разрешение 10 мс (вдвое большее кадрирования 20 мс базового кодера). Окна анализа и синтеза одинаковы и симметричны. Окно представлено на частоте дискретизации 16 кГц на фиг. 7. Можно видеть, что перекрывающая область ограничена для уменьшения порождаемой задержки, и что заполнение нулями также добавляется для уравновешивания кругового сдвига при применении ITD в частотной области, как будет объяснено ниже.

2. Стереофонические параметры

Стереофонические параметры могут передаваться, как максимум, с временным разрешением стереофонического DFT. Как максимум, оно может снижаться до разрешения кадрирования базового кодера, т.е. 20 мс. По умолчанию, когда переходов не обнаружено, параметры вычисляются каждые 20 мс в 2 окнах DFT. Параметрические полосы образуют неоднородное и неперекрывающееся разложение спектра с последующими примерно 2-кратным или 4-кратным эквивалентным прямоугольным полосам (ERB). По умолчанию, масштаб 4-кратного ERB используется для всего 12 полос для полосы частот 16 кГц (частота дискретизации 32 кбит/с, сверхширокополосный стереосигнал). На фиг. 8 приведен пример конфигурации, в которой вспомогательная информация стереосигнала передается со скоростью около 5 кбит/с.

3. Вычисление ITD и выравнивание каналов по времени

ITD вычисляются путем оценивания задержки по времени прихода (TDOA) с использованием обобщенной взаимной корреляции с фазовым преобразованием (GCC-PHAT):

где L и R - частотные спектры левого и правого каналов соответственно. Частотный анализ может осуществляться независимо от DFT, используемого для последующей обработки стереосигнала или может совместно использоваться. Для вычисления ITD используется следующий псевдокод:

Фиг. 4e демонстрирует блок-схему операций для осуществления ранее проиллюстрированного псевдокода для получения надежного и эффективного вычисления межканальной разницы во времени в качестве примера параметра широкополосного выравнивания.

В блоке 451 осуществляется DFT-анализ сигналов во временной области для первого канала (l) и второго канала (r). Этот DFT-анализ обычно идентичен DFT-анализу, рассмотренному в контексте этапов 155-157, например, на фиг. 5 или фиг. 4c.

Затем взаимная корреляция осуществляется для каждого частотного бина, как показано в блоке 452.

Таким образом, спектр взаимной корреляции получается для всего спектрального диапазона левого и правого каналов.

Затем на этапе 453 мера спектральной плоскостности вычисляется из спектров величины L и R и, на этапе 454, выбирается большая мера спектральной плоскостности. Однако выбор на этапе 454 не обязан быть выбором большей, но это определение единственной SFM из обоих каналов также может быть выбором и вычислением только левого канала или только правого канала или может быть вычислением взвешенного среднего обоих значений SFM.

Затем, на этапе 455, спектр взаимной корреляции сглаживается по времени в зависимости от меры спектральной плоскостности.

Предпочтительно, мера спектральной плоскостности вычисляется делением среднего геометрического спектра величины на среднее арифметическое спектра величины. Таким образом, значения SFM заключены между нулем и единицей.

На этапе 456, затем сглаженный спектр взаимной корреляции нормализуется по своей величине и на этапе 457 вычисляется обратное DFT нормализованного и сглаженного спектра взаимной корреляции. На этапе 458 предпочтительно осуществляется определенная фильтрация во временной области, но эта фильтрация во временной области также может оставаться в стороне в зависимости от реализации, но предпочтительно, как будет изложено далее.

На этапе 459 оценивание ITD осуществляется путем отбора пика обобщенной по фильтру взаимно-корреляционной функции и путем осуществления определенной операции порогового ограничения.

Если определенный порог не получен, то IDT устанавливается на нуль и для этого соответствующего блока не осуществляется выравнивания по времени.

Ниже также кратко писано вычисление ITD. Взаимная корреляция вычисляется в частотной области до сглаживания в зависимости от измерения спектральной плоскостности. SFM заключено между 0 и 1. В случае шумоподобных сигналов SFM будет высоким (т.е. около 1), и сглаживание будет слабым. В случае тоноподобного сигнала, SFM будет низким, и сглаживание будет усиливаться. Затем сглаженная взаимная корреляция нормализуется по своей амплитуде до преобразования обратно во временную область. Нормализация соответствует фазовому преобразованию взаимной корреляции, и, как известно, демонстрирует более высокую производительность, чем нормальная взаимная корреляция в окружениях с низким шумом и относительно высокой реверберацией. Сначала полученная таким образом функция временной области фильтруется для достижения более надежного отбора пика. Индекс соответствующий максимальной амплитуде, соответствует оценке разницы во времени между левым и правым каналами (ITD). Если амплитуда максимума ниже, чем данный порог, то оценка ITD не считается надежной и устанавливается на нуль.

Если выравнивание по времени применяется во временной области, ITD вычисляется в отдельном DFT-анализе. Сдвиг осуществляется следующим образом:

Он требует дополнительной задержки на кодере, которая равна, как максимум, максимальной абсолютной ITD, которая может обрабатываться. Изменение ITD по времени сглаживается путем аналитического вырезания DFT.

Альтернативно, выравнивание по времени может осуществляться в частотной области. В этом случае, вычисление ITD и кругового сдвига находится в одной и той же области DFT, области, совместно используемой с этой другой обработкой стереосигнала. Круговой сдвиг задается согласно:

Заполнение нулями окон DFT необходимо для моделирования сдвига по времени круговым сдвигом. Размер заполнения нулями соответствует максимальной абсолютной ITD, которая может обрабатываться. В предпочтительном варианте осуществления, заполнение нулями делится однородно по обе стороны окон анализа, путем добавления 3,125 мс нулей на обоих концах. В этом случае максимально возможная абсолютная ITD равна 6,25 мс. В установке микрофонов A-B, она, в худшем случае, соответствует максимальному расстоянию около 2,15 метров между двумя микрофонами. Изменение ITD по времени сглаживается путем синтетического вырезания и сложения с перекрытием DFT.

Важно, чтобы после сдвига по времени следовало вырезание сдвинутого сигнала. В этом состоит главное отличие от традиционного кодирования бинаурального сигнала (BCC), где сдвиг по времени применяется на вырезанном сигнале, но дополнительно не вырезается на стадии синтеза. В результате, любое изменение ITD по времени создает искусственный переходный/щелчок в декодированном сигнале.

4. Вычисление IPD и вращение канала

IPDs вычисляются после выравнивания по времени двух каналов, и это для каждой параметрической полосы или, по меньшей мере, до данной , в зависимости от стереофонической конфигурации.

Затем IPD применяется к двум каналам для выравнивания их фаз:

где , и b - индекс параметрической полосы, которому принадлежит частотный индекс k. Параметр определяет распределение величины фазовращения между двумя каналами при их выравнивании по фазе. зависит от IPD, но также уровня относительной амплитуды каналов, ILD. Если канал имеет более высокую амплитуду, он будет считаться ведущим каналом и будет менее подвержен фазовращению, чем канал с более низкой амплитудой.

5. Кодирование суммарно-разностного и бокового сигнала

Преобразование суммы-разности осуществляется на выровненных по времени и фазе спектрах двух каналов таким образом, что энергия запасается в среднем сигнале.

где заключено между 1/1,2 и 1,2, т.е. от -1,58 и +1,58 дБ. Ограничение позволят устранять артефакты при регулировке энергии M и S. Напомним, что это сохранение энергии менее важно, когда время и фаза заранее выровнены. Альтернативно, границы могут увеличиваться или уменьшаться.

Боковой сигнал S дополнительно предсказывается согласно M:

где где . Альтернативно, оптимальный коэффициент усиления предсказания g можно найти путем минимизации среднеквадратической ошибки (MSE) остатка и ILD, выведенной из вышеприведенного уравнения.

Остаточный сигнал может моделироваться двумя средствами: либо путем его предсказания с помощью задержанного спектра M, либо путем его кодирования непосредственно в области MDCT.

6. Декодирование стереосигнала

Сначала средний сигнал X и боковой сигнал S преобразуются в левый и правый каналы L и R следующим образом:

где коэффициент усиления g для каждой параметрической полосы выводится из параметра ILD:

где

Для параметрических полос ниже cod_max_band, два канала обновляются декодированным боковым сигналом:

Для более высоких параметрических полос, боковой сигнал предсказывается, и каналы обновляются в виде:

Наконец, каналы умножаются на комплексное значение для восстановления начальной энергии и межканальной фазы стереосигнала:

где

где a задано и ограничено, как определено ранее, и где , и где atan2(x,y) - четырехквадрантная обратная функция тангенса x по y.

Наконец, каналы сдвигаются по времени во временной или в частотной области в зависимости от передаваемых ITD. Каналы во временной области синтезируются посредством обратного DFT и сложения с перекрытием.

Конкретные признаки изобретения относятся к комбинации пространственных сигналов и совместного суммарно-разностного кодирования стереосигнала. В частности, пространственные сигналы IDT и IPD вычисляются и применяются на стереоканалах (левом и правом). Кроме того, сигналы суммы-разности (M/S) вычисляются и, предпочтительно, применяется предсказание S с помощью M.

На стороне декодера, широкополосные и узкополосные пространственные сигналы объединяются совместно с суммарно-разностным совместным кодированием стереосигнала. В частности, боковой сигнал предсказывается с помощью среднего сигнала с использованием, по меньшей мере, одного пространственного сигнала, например ILD, и обратная сумма-разность вычисляется для получения левого и правого канала и, дополнительно, широкополосные и узкополосные пространственные сигналы применяются на левом и правом каналы.

Предпочтительно, кодер имеет окно и сложение с перекрытием в отношении выровненных по времени каналов после обработки с использованием ITD. Кроме того, декодер дополнительно имеет операцию вырезания и сложения с перекрытием сдвинутых или со снятым выравниванием версий каналов после применения межканальной разницы во времени.

Вычисление межканальной разницы во времени способом GCC-PHAT является особенно надежным способом.

Новая процедура является преимущественно традиционной, поскольку достигает кодирования битовой скорости стереофонического аудиосигнала или многоканального аудиосигнала с низкой задержкой. Она, в частности, предназначена быть надежной для разных характеров входных сигналов и разных установок многоканальной или стереофонической записи. В частности, настоящее изобретение обеспечивает хорошее качество кодирования битовой скорости речевых стереосигналов.

Предпочтительные процедуры находят использование в распространении вещания всех типов контента стереофонического или многоканального аудиосигнала, например, наподобие речи и музыки с постоянным перцептивным качеством при данной низкой битовой скорости. Такими областями применение являются цифровое радио, потоковая передача в интернете или приложения передачи аудиосигнала.

Аудиосигнал, кодированный согласно изобретению, может храниться на цифровом носителе данных или нетранзиторном носителе данных или может передаваться в среде передачи, например, беспроводной среде передачи или проводной среде передачи, например, интернете.

Хотя некоторые аспекты были описаны в контексте устройства, очевидно, что эти аспекты также представляют описание соответствующего способа, где блок или устройство соответствует этапу способа или признака этапа способа. Аналогично, аспекты, описанные в контексте этапа способа, также представляют описание соответствующего блока или элемента или признака соответствующего устройства.

В зависимости от определенных требований к реализации, варианты осуществления изобретения могут быть реализованы аппаратными средствами или программными средствами. Реализация может осуществляться с использованием цифрового носителя данных, например, флоппи-диска, DVD, CD, ROM, PROM, EPROM, EEPROM или флеш-памяти, на котором хранятся электронно считываемые сигналы управления, которые взаимодействуют (или способны взаимодействовать) с программируемой компьютерной системой таким образом, что осуществляется соответствующий способ.

Некоторые варианты осуществления согласно изобретению содержат носитель данных, имеющий электронно считываемые сигналы управления, которые способны взаимодействовать с программируемой компьютерной системой, таким образом, что осуществляется один из описанных здесь способов.

В общем случае, варианты осуществления настоящего изобретения могут быть реализованы как компьютерный программный продукт с программным кодом, причем программный код способен осуществлять один из способов, когда компьютерный программный продукт выполняется на компьютере. Программный код может, например, храниться на машиночитаемом носителе.

Другие варианты осуществления содержат компьютерную программу для осуществления одного из описанных здесь способов, хранящихся на машиночитаемом носителе или нетранзиторном носителе данных.

Другими словами, вариант осуществления способа, отвечающего изобретению, является, таким образом, компьютерной программой, имеющей программный код для осуществления одного из описанных здесь способов, когда компьютерная программа выполняется на компьютере.

Дополнительный вариант осуществления способов, отвечающих изобретению, таким образом, является носителем данных (или цифровым носителем данных, или компьютерно-считываемым носителем), на котором записана компьютерная программа для осуществления одного из описанных здесь способов.

Дополнительный вариант осуществления способа, отвечающего изобретению, является, таким образом, потоком данных или последовательностью сигналов, представляющей компьютерную программу для осуществления одного из описанных здесь способов. Поток данных или последовательность сигналов может, например, быть выполнена с возможностью переноса через соединение передачи данных, например, через интернет.

Дополнительный вариант осуществления содержит средство обработки, например, компьютер, или программируемое логическое устройство, выполненное с возможностью или адаптированное для осуществления одного из описанных здесь способов.

Дополнительный вариант осуществления содержит компьютер, на котором установлена компьютерная программа для осуществления одного из описанных здесь способов.

В некоторых вариантах осуществления, программируемое логическое устройство (например, вентильная матрица, программируемая пользователем) может использоваться для осуществления некоторых или всех из функциональных возможностей описанных здесь способов. В некоторых вариантах осуществления, вентильная матрица, программируемая пользователем, может взаимодействовать с микропроцессором для осуществления одного из описанных здесь способов. В общем случае, способы предпочтительно осуществляются любым аппаратным устройством.

Вышеописанные варианты осуществления призваны лишь иллюстрировать принципы настоящего изобретения. Следует понимать, что модификации и вариации описанных здесь конфигураций и деталей будут очевидны другим специалистам в данной области техники. Таким образом, следует ограничиваться только объемом нижеследующей формулы изобретения, но не конкретными деталями, представленными посредством описания и объяснения рассмотренных здесь вариантов осуществления.

1. Устройство для кодирования многоканального сигнала, имеющего, по меньшей мере, два канала, содержащее:

блок (100) определения параметра для определения параметра широкополосного выравнивания и множества параметров узкополосного выравнивания из многоканального сигнала;

блок (200) выравнивания сигнала для выравнивания, по меньшей мере, двух каналов с использованием параметра широкополосного выравнивания и множества параметров узкополосного выравнивания для получения выровненных каналов;

процессор (300) сигнала для вычисления среднего сигнала и бокового сигнала с использованием выровненных каналов;

кодер (400) сигнала для кодирования среднего сигнала для получения кодированного среднего сигнала и для кодирования бокового сигнала для получения кодированного бокового сигнала; и

выходной интерфейс (500) для генерирования кодированного многоканального сигнала, содержащего кодированный средний сигнал, кодированный боковой сигнал, информацию о параметре широкополосного выравнивания и информацию о множестве параметров узкополосного выравнивания.

2. Устройство по п. 1,

в котором блок (100) определения параметра выполнен с возможностью определения параметра широкополосного выравнивания с использованием широкополосного представления, по меньшей мере, двух каналов, причем широкополосное представление содержит, по меньшей мере, две подполосы каждого из, по меньшей мере, двух каналов, и

блок (200) выравнивания сигнала выполнен с возможностью осуществления широкополосного выравнивания широкополосного представления, по меньшей мере, двух каналов для получения выровненного широкополосного представления, по меньшей мере, двух каналов.

3. Устройство по п. 1,

в котором блок (100) определения параметра выполнен с возможностью определения отдельного параметра узкополосного выравнивания для, по меньшей мере, одной подполосы выровненного широкополосного представления, по меньшей мере, двух каналов, и

блок (200) выравнивания сигнала выполнен с возможностью по отдельности выравнивать каждую подполосу выровненного широкополосного представления с использованием узкополосного параметра для соответствующей подполосы для получения выровненного узкополосного представления, содержащего множество выровненных подполос для каждого из, по меньшей мере, двух каналов.

4. Устройство по п. 1,

в котором процессор (300) сигнала выполнен с возможностью вычисления множества подполос для среднего сигнала и множества подполос для бокового сигнала с использованием множества выровненных подполос для каждого из, по меньшей мере, двух каналов.

5. Устройство по п. 1,

в котором блок (100) определения параметра выполнен с возможностью вычисления, в качестве параметра широкополосного выравнивания, параметра межканальной разницы во времени или, в качестве множества параметров узкополосного выравнивания, межканальной разности фаз для каждой из множества подполос многоканального сигнала.

6. Устройство по п. 1,

в котором блок (100) определения параметра выполнен с возможностью вычисления коэффициента усиления предсказания или межканальной разности уровней для каждой из множества подполос многоканального сигнала, и

кодер (400) сигнала выполнен с возможностью осуществления предсказания бокового сигнала в подполосе с использованием среднего сигнала в подполосе и с использованием межканальной разности уровней или коэффициента усиления предсказания подполосы.

7. Устройство по п. 1,

в котором кодер (400) сигнала выполнен с возможностью вычисления и кодирования остаточного сигнала предсказания, выведенного из бокового сигнала, коэффициента усиления предсказания или межканальной разности уровней между, по меньшей мере, двумя каналами, среднего сигнала и задержанного среднего сигнала, или коэффициент усиления предсказания в подполосе вычисляется с использованием межканальной разности уровней между, по меньшей мере, двумя каналами в подполосе, или

кодер сигнала выполнен с возможностью кодирования среднего сигнала с использованием речевого кодера или коммутируемого музыкального/речевого кодера или кодера расширения полосы во временной области или кодера заполнения промежутка в частотной области.

8. Устройство по п. 1, дополнительно содержащее:

временно-спектральный преобразователь (150) для генерирования спектрального представления, по меньшей мере, двух каналов в спектральной области,

в котором блок (100) определения параметра и блок (200) выравнивания сигнала и процессор (300) сигнала выполнены с возможностью работы в спектральной области, и

процессор (300) сигнала дополнительно содержит спектрально-временной преобразователь (154) для генерирования представления во временной области среднего сигнала, и

кодер (400) сигнала выполнен с возможностью кодирования представления во временной области среднего сигнала.

9. Устройство по п. 1,

в котором блок (100) определения параметра выполнен с возможностью вычисления параметра широкополосного выравнивания с использованием спектрального представления,

блок (200) выравнивания сигнала выполнен с возможностью применения кругового сдвига (159) к спектральному представлению, по меньшей мере, двух каналов с использованием параметра широкополосного выравнивания для получения широкополосных выровненных спектральных значений для, по меньшей мере, двух каналов, или

блок (100) определения параметра выполнен с возможностью вычисления множества параметров узкополосного выравнивания из широкополосных выровненных спектральных значений, и

блок (200) выравнивания сигнала выполнен с возможностью вращения (161) широкополосных выровненных спектральных значений с использованием множества параметров узкополосного выравнивания.

10. Устройство по п. 8,

в котором временно-спектральный преобразователь (150) выполнен с возможностью применения окна анализа к каждому из, по меньшей мере, двух каналов, причем окно анализа имеет участок заполнения нулями по левую сторону или правую сторону от него, причем участок заполнения нулями определяет максимальное значение параметра широкополосного выравнивания, или

окно анализа имеет начальную перекрывающую область, среднюю неперекрывающую область и замыкающую перекрывающую область, или

временно-спектральный преобразователь (150) выполнен с возможностью применения последовательности перекрывающихся окон, причем длина перекрывающей части окна и длина неперекрывающей части окна совместно равны доле кадрирования кодера (400) сигнала.

11. Устройство по п. 8,

в котором спектрально-временной преобразователь (154) выполнен с возможностью использования окна синтеза, причем окно синтеза идентично окну анализа, используемому временно-спектральным преобразователем (150) или выводится из окна анализа.

12. Устройство по п. 1,

в котором процессор (300) сигнала выполнен с возможностью вычисления представления во временной области среднего сигнала или бокового сигнала, причем вычисление представления во временной области содержит:

вырезание (304) текущего блока выборок среднего сигнала или бокового сигнала для получения вырезанного текущего блока,

вырезание (304) следующего блока выборок среднего сигнала или бокового сигнала для получения вырезанного следующего блока и

сложение (305) выборок вырезанного текущего блока и выборок вырезанного следующего блока в диапазоне перекрытия для получения представления во временной области для диапазона перекрытия.

13. Устройство по п. 1,

в котором кодер (400) сигнала выполнен с возможностью кодирования бокового сигнала или остаточного сигнала предсказания, выведенный из бокового сигнала и среднего сигнала в первом наборе подполос, и

кодирования, во втором наборе подполос, отличном от первого набора подполос, параметра коэффициента усиления, выведенного из бокового сигнала и среднего сигнала, более раннего по времени,

причем боковой сигнал или остаточный сигнал предсказания не кодируется для второго набора подполос.

14. Устройство по п. 13,

в котором первый набор подполос имеет подполосы, более низкие по частоте, чем частоты во втором наборе подполос.

15. Устройство по п. 1,

в котором кодер (400) сигнала выполнен с возможностью кодирования бокового сигнала с использованием MDCT-преобразования и квантования, например векторного или скалярного или любого другого квантования коэффициентов MDCT бокового сигнала.

16. Устройство по п. 1,

в котором блок (100) определения параметра выполнен с возможностью определения множества параметров узкополосного выравнивания для отдельных полос, имеющих ширину полосы, причем первая ширина полосы первой полосы, имеющей первую центральную частоту, меньше второй ширины полосы второй полосы, имеющей вторую центральную частоту, причем вторая центральная частота больше первой центральной частоты, или

блок (100) определения параметра выполнен с возможностью определения параметров узкополосного выравнивания только для полос до граничной частоты, причем граничная частота ниже максимальной частоты среднего сигнала или бокового сигнала, и

блок (200) выравнивания выполнен с возможностью выравнивать только, по меньшей мере, два канала в подполосах, имеющих частоты выше граничной частоты с использованием параметра широкополосного выравнивания и выравнивать, по меньшей мере, два канала в подполосах, имеющих частоты ниже граничной частоты с использованием параметра широкополосного выравнивания и параметров узкополосного выравнивания.

17. Устройство по п. 1,

в котором блок (100) определения параметра выполнен с возможностью вычисления параметра широкополосного выравнивания с использованием оценивания задержки по времени прихода с использованием обобщенной взаимной корреляции, и блок (200) выравнивания сигнала выполнен с возможностью применения параметра широкополосного выравнивания во временной области с использованием сдвига по времени или в частотной области с использованием кругового сдвига, или

блок (100) определения параметра выполнен с возможностью вычисления широкополосного параметра с использованием:

вычисления (452) спектра взаимной корреляции между первым каналом и вторым каналом;

вычисления (453, 454) информации о спектральной форме для первого канала или второго канала или обоих каналов;

сглаживания (455) спектра взаимной корреляции в зависимости от информации о спектральной форме;

в необязательном порядке, нормализации (456) сглаженного спектра взаимной корреляции;

определения (457, 458) представления во временной области сглаженного и, в необязательном порядке, нормализованного спектра взаимной корреляции; и

анализа (459) представления во временной области для получения межканальной разницы во времени в качестве параметра широкополосного выравнивания.

18. Устройство по п. 1,

в котором процессор (300) сигнала выполнен с возможностью вычисления среднего сигнала и бокового сигнала с использованием коэффициента масштабирования энергии, причем коэффициент масштабирования энергии заключен между 2 в качестве верхней границы и 0,5 в качестве нижней границы, и

блок (100) определения параметра выполнен с возможностью вычисления нормализованного параметра выравнивания для полосы путем определения угла комплексной суммы произведений спектральных значений первого и второго каналов в полосе, или

блок (200) выравнивания сигнала выполнен с возможностью осуществления узкополосного выравнивания таким образом, что первый и второй каналы подвергаются вращению канала, причем вращение канала для канала, имеющего более высокую амплитуду, вращается в меньшей степени по сравнению с каналом, имеющим меньшую амплитуду.

19. Способ кодирования многоканального сигнала, имеющего, по меньшей мере, два канала, содержащий этапы, на которых:

определяют (100) параметр широкополосного выравнивания и множество параметров узкополосного выравнивания из многоканального сигнала;

выравнивают (200), по меньшей мере, два канала с использованием параметра широкополосного выравнивания и множества параметров узкополосного выравнивания для получения выровненных каналов;

вычисляют (300) средний сигнал и боковой сигнал с использованием выровненных каналов;

кодируют (400) средний сигнал для получения кодированного среднего сигнала и кодируют боковой сигнал для получения кодированного бокового сигнала; и

генерируют (500) кодированный многоканальный сигнал, содержащий кодированный средний сигнал, кодированный боковой сигнал, информацию о параметре широкополосного выравнивания и информацию о множестве параметров узкополосного выравнивания.

20. Устройство для декодирования кодированного многоканального сигнала, содержащего кодированный средний сигнал, кодированный боковой сигнал, информацию о параметре широкополосного выравнивания и информацию о множестве параметров узкополосного выравнивания, содержащее:

декодер (700) сигнала для декодирования кодированного среднего сигнала для получения декодированного среднего сигнала и для декодирования кодированного бокового сигнала для получения декодированного бокового сигнала;

процессор (800) сигнала для вычисления декодированного первого канала и декодированного второго канала из декодированного среднего сигнала и декодированного бокового сигнала; и

блок (900) снятия выравнивания сигнала для снятия выравнивания декодированного первого канала и декодированного второго канала с использованием информации о параметре широкополосного выравнивания и информации о множестве параметров узкополосного выравнивания для получения декодированного многоканального сигнала.

21. Устройство по п. 20,

в котором блок (900) снятия выравнивания сигнала выполнен с возможностью снятия выравнивания каждой из множества подполос декодированных первого и второго каналов с использованием параметра узкополосного выравнивания, связанного с соответствующей подполосой, для получения подполосы со снятым выравниванием для первого и второго каналов, и

блок снятия выравнивания сигнала выполнен с возможностью снятия выравнивания представления подполос со снятым выравниванием первого и второго декодированных каналов с использованием информации о параметре широкополосного выравнивания.

22. Устройство по п. 20,

в котором блок (900) снятия выравнивания сигнала выполнен с возможностью вычисления представления во временной области декодированного первого канала или декодированного второго канала с использованием вырезания текущего блока выборок левого канала или правого канала для получения вырезанного текущего блока;

вырезания следующего блока выборок первого канала и второго канала для получения вырезанного следующего блока; и

сложения выборок вырезанного текущего блока и выборок вырезанного следующего блока в диапазоне перекрытия для получения представления во временной области для диапазона перекрытия.

23. Устройство по п. 20,

в котором блок (900) снятия выравнивания сигнала выполнен с возможностью применения информации о множестве отдельных параметров узкополосного выравнивания для отдельных подполос, имеющих значения ширины, причем первая ширина полосы первой полосы, имеющей первую центральную частоту, меньше второй ширины полосы второй полосы, имеющей вторую центральную частоту, причем вторая центральная частота больше первой центральной частоты, или

блок снятия выравнивания сигнала выполнен с возможностью применения информации о множестве отдельных параметров узкополосного выравнивания для отдельных полос только для полос до граничной частоты, причем граничная частота ниже максимальной частоты первого декодированного канала или второго декодированного канала, и

блок (900) снятия выравнивания выполнен с возможностью только снятия выравнивания, по меньшей мере, двух каналов в подполосах, имеющих частоты выше граничной частоты с использованием информации о параметре широкополосного выравнивания и снятия выравнивания, по меньшей мере, двух каналов в подполосах, имеющих частоты ниже граничной частоты с использованием информации о параметре широкополосного выравнивания и с использованием информации о параметрах узкополосного выравнивания.

24. Устройство по п. 20,

в котором процессор (800) сигнала содержит:

временно-спектральный преобразователь (810) для вычисления представления в частотной области декодированного среднего сигнала и декодированного бокового сигнала,

причем процессор (800) сигнала выполнен с возможностью вычисления декодированного первого канала и декодированного второго канала в частотной области, и

блок снятия выравнивания сигнала содержит спектрально-временной преобразователь (930) для преобразования сигналов, выровненных с использованием только информации о множестве параметров узкополосного выравнивания или с использованием множества параметров узкополосного выравнивания и с использованием информации о параметре широкополосного выравнивания во временную область.

25. Устройство по п. 20,

в котором блок (900) снятия выравнивания сигнала выполнен с возможностью осуществления снятия выравнивания во временной области с использованием информации о параметре широкополосного выравнивания и осуществления операции (932) вырезания или операции (933) перекрытия и сложения с использованием следующих по времени блоков выровненных по времени каналов, или

блок (900) снятия выравнивания сигнала выполнен с возможностью осуществления снятия выравнивания в спектральной области с использованием информации о параметре широкополосного выравнивания и осуществления спектрально-временного преобразования (931) с использованием каналов со снятым выравниванием и осуществления синтетического вырезания (932) и операции (933) перекрытия и сложения с использованием следующих по времени блоков каналов со снятым выравниванием.

26. Устройство по п. 20,

в котором декодер сигнала выполнен с возможностью генерирования среднего сигнала во временной области и бокового сигнала во временной области,

процессор (800) сигнала выполнен с возможностью осуществления вырезания с использованием окна анализа для генерирования следующих блоков вырезанных выборок для среднего сигнала или бокового сигнала,

процессор сигнала содержит временно-спектральный преобразователь (810) для преобразования следующих по времени блоков для получения следующих блоков спектральных значений; и

блок (900) снятия выравнивания сигнала выполнен с возможностью осуществления снятия выравнивания с использованием информации о параметрах узкополосного выравнивания и информации о параметрах широкополосного выравнивания на блоках спектральных значений.

27. Устройство по п. 20,

в котором кодированный сигнал содержит множество коэффициентов усиления предсказания или параметров уровня,

процессор (800) сигнала выполнен с возможностью вычисления спектральных значений левого канала и правого канала с использованием спектральных значений среднего канала и коэффициента усиления предсказания или параметра уровня для полосы, с которой связаны спектральные значения (820), и

с использованием спектральных значений декодированного бокового сигнала (830).

28. Устройство по п. 20,

в котором процессор (800) сигнала выполнен с возможностью вычисления спектральных значений левого и правого каналов с использованием параметра стереозаполнения для полосы, с которой связаны спектральные значения (830).

29. Устройство по п. 20,

в котором блок (900) снятия выравнивания сигнала или процессор (800) сигнала выполнен с возможностью осуществления масштабирования (910) энергии для полосы с использованием масштабного коэффициента, причем масштабный коэффициент зависит (920) от энергий декодированного среднего сигнала и декодированного бокового сигнала, и

причем масштабный коэффициент заключен между 2,0 в качестве верхней границы и 0,5 в качестве нижней границы.

30. Устройство по п. 27,

в котором процессор (800) сигнала выполнен с возможностью вычисления спектральных значений левого канала и правого канала с использованием коэффициента усиления, выведенного из параметра уровня, причем коэффициент усиления выводится из параметра уровня с использованием нелинейной функции.

31. Устройство по п. 20,

в котором блок (900) снятия выравнивания сигнала выполнен с возможностью снятия выравнивания полосы декодированных первого и второго каналов с использованием информации о параметре узкополосного выравнивания для каналов с использованием вращения спектральных значений первого и второго каналов, причем спектральные значения одного канала, имеющего более высокую амплитуду, вращаются меньше, чем спектральные значения полосы другого канала, имеющего более низкую амплитуду.

32. Способ декодирования кодированного многоканального сигнала, содержащего кодированный средний сигнал, кодированный боковой сигнал, информацию о параметре широкополосного выравнивания и информацию о множестве параметров узкополосного выравнивания, содержащий этапы, на которых:

декодируют (700) кодированный средний сигнал для получения декодированного среднего сигнала и декодируют кодированный боковой сигнал для получения декодированного бокового сигнала;

вычисляют (800) декодированный первый канал и декодированный второй канал из декодированного среднего сигнала и декодированного бокового сигнала; и

снимают выравнивание (900) декодированного первого канала и декодированного второго канала с использованием информации о параметре широкополосного выравнивания и информации о множестве параметров узкополосного выравнивания для получения декодированного многоканального сигнала.

33. Машиночитаемый носитель, имеющий сохраненную на нем компьютерную программу для осуществления, при выполнении на компьютере или процессоре, способа по п. 19.

34. Машиночитаемый носитель, имеющий сохраненную на нем компьютерную программу для осуществления, при выполнении на компьютере или процессоре, способа по п. 32.

Группа изобретений относится к области вычислительной техники и может быть использована в искусственных нейронных сетях. Техническим результатом является обеспечение назначения оценки релевантности для искусственных нейронных сетей.

Кодер, декодер и способ кодирования и декодирования аудиоконтента с использованием параметров для улучшения маскирования // 2701707

Изобретение относится к вычислительной технике. Технический результат – улучшение маскирования ошибки.

Способ разделения речи и речеподобного шума путем анализа значений энергии и фаз частотных составляющих сигнала и шума // 2700189

Изобретение относится к области техники передачи и трансляции речевой информации и может найти применение в устройствах связи. Техническим результатом является увеличение значения вероятности правильного решения о появлении речевого сигнала и повышение точности определения момента его появления при наличии речеподобного шума.

Устройство и способ распознавания речи // 2698773

Изобретение относится к вычислительной технике для распознавания речи. Технический результат заключается в повышении точности распознавания речи пользователя.

Коммуникационное устройство, коммуникационный робот и машиночитаемый носитель данных // 2696307

Изобретение относится к коммуникационному устройству и коммуникационному роботу. Технический результат заключается в создании коммуникационного устройства, которое позволяет персонажу отображать даже для одного и того же диалога различные выражения лица в зависимости от ситуации.

Устройство преобразования коэффициентов линейного предсказания и способ преобразования коэффициентов линейного предсказания // 2694150

Изобретение относится к области кодирования аудио и речи. Технический результат – обеспечение эффективного сокращения объема вычислений при преобразовании коэффициентов линейного предсказания.

Устройство оценки качества аудиовизуального сигнала и способ оценки качества аудиовизуального сигнала // 2693027

Изобретение относится к оценке качества аудиовизуального сигнала. Техническим результатом является обеспечение оценки качества аудиовизуального сигнала с возможностью адекватного представления качества аудиовизуального сигнала, воспринимаемого зрителем.

Стереофонический кодер и декодер аудиосигналов // 2690885

Изобретение относится к средствам стереофонического кодирования и декодирования аудиосигналов. Технический результат заключается в повышении эффективности использования полосы частот.

Распознавание смешанной речи // 2686589

Изобретение относится к средствам для распознавания смешанной речи. Технический результат заключается в повышении точности распознавания смешанной речи.

Обнаружение разговора // 2685970

Изобретение относится к средствам для обнаружения разговора между пользователями. Технический результат заключается в повышении точности автоматического обнаружения разговора между пользователями.

Изобретение относится к вычислительной технике. Технический результат – улучшение маскирования ошибки.

Принцип сращивания аудиоданных // 2696602

Изобретение относится к области технологии сращивания (вставке) аудиоданных для аудиокодеков MPEG, например, AAC или MPEG-H 3D Audio. Техническим результатом является обеспечение принципа вставки аудио, более эффективного в отношении, например, процедурной сложности процесса вставки на сплайсерах потоков и/или аудиодекодерах.

Устройство и способ для кодирования или декодирования многоканального сигнала с использованием повторной дискретизации спектральной области // 2693648

Изобретение относится к средствам для кодирования и декодирования многоканального сигнала. Технический результат заключается в повышении эффективности кодирования.

Устройство кодирования аудио, способ кодирования аудио, программа кодирования аудио, устройство декодирования аудио, способ декодирования аудио и программа декодирования аудио // 2690775

Изобретение относится к средствам для маскирования ошибок при кодировании/декодировании аудио. Технический результат заключается в восстановлении качества звучания без увеличения алгоритмической задержки, когда происходит потеря пакета при кодировании аудио.

Концепция переключения частот дискретизации в устройствах обработки аудиосигналов // 2690754

Изобретение относится к кодированию речи и аудио. Технический результат изобретения заключается в усовершенствовании концепции переключения частот дискретизации на устройствах обработки аудиосигналов.

Способ и устройство для определения режима кодирования, способ и устройство для кодирования аудиосигналов и способ и устройство для декодирования аудиосигналов // 2680352

Изобретение относится к средствам для определения режима кодирования и для кодирования/декодирования аудиосигналов. Технический результат заключается в сокращении задержек, вызванных частым изменением режима кодирования.

Передискретизация звукового сигнала для кодирования/декодирования с малой задержкой // 2679228

Изобретение относится к средствам передискретизации сигнала звуковой частоты при кодировании или декодировании сигнала звуковой частоты. Технический результат заключается в повышении эффективности передискретизации.

Аудиодекодер и способ обеспечения декодированной аудиоинформации с использованием маскирования ошибки на основании сигнала возбуждения во временной области // 2678473

Изобретение относится к области декодирования аудиоинформации. Технический результат – обеспечение улучшенного маскирования ошибки аудиоинформации.

Квантование аудиопараметров // 2670377

Изобретение относится к средствам для аналого-цифрового преобразования аудио. Технический результат заключается в повышении эффективности аналого-цифрового преобразования аудио.

Устройство для квантования коэффициентов кодирования с линейным предсказанием, устройство кодирования звука, устройство для деквантования коэффициентов кодирования с линейным предсказанием, устройство декодирования звука, и электронное устройство для этого // 2669139

Изобретение относится к области декодирования звука. Технический результат – повышение эффективности декодирования битового потока.

Способ и устройство обработки сигналов // 2702265

Изобретение относится к области вычислительной техники для обработки аудио сигналов. Технический результат заключается в повышении точности обработки аудио сигналов.