Перцепционное кодирование аудио с адаптивным неравномерным расположением частотно-временными плитками с использованием субполосного объединения и уменьшения наложения спектров во временной области

Авторы патента:

ДИШ, Саша (DE)

ЭДЛЕР, Бернд (DE)

ВЕРНЕР, Нильс (DE)

G10L19/02 - с использованием спектрального анализа, например преобразовательные вокодеры, вокодеры с поддиапазонами

Владельцы патента RU 2777615:

ФРАУНХОФЕР-ГЕЗЕЛЛЬШАФТ ЦУР ФЕРДЕРУНГ ДЕР АНГЕВАНДТЕН ФОРШУНГ Е.Ф. (DE)

Настоящее техническое решение относится к области вычислительной техники для обработки аудиоданных. Технический результат заключается в уменьшении наложения спектров во временной области аудиосигнала за счет отбрасывания избыточной и перцепционно нерелевантной информации. Технический результат достигается за счёт вариантов аудиопроцессора для обработки аудиосигнала, с тем чтобы получать субполосное представление аудиосигнала с возможностью выполнять каскадное перекрывающееся критически дискретизированное преобразование, для частично перекрывающихся блоков выборок аудиосигнала; при этом выполнение каскадного перекрывающегося критически дискретизированного преобразования содержит сегментацию набора элементов разрешения; при этом выполнение каскадного перекрывающегося критически дискретизированного преобразования с сегментацией набора элементов разрешения, где наборы элементов разрешения обрабатываются со вторым перекрывающимся критически дискретизированным преобразованием из каскадного перекрывающегося критически дискретизированного преобразования. 12 н. и 14 з.п. ф-лы, 27 ил.

Варианты осуществления относятся к аудиопроцессору/способу для обработки аудиосигнала, для получения субполосного представления аудиосигнала. Дополнительные варианты осуществления относятся к аудиопроцессору/способу для обработки субполосного представления аудиосигнала, с тем чтобы получать аудиосигнал. Некоторые варианты осуществления относятся к перцепционному кодированию аудио с адаптивным неравномерным расположением частотно-временными плитками с использованием субполосного объединения и уменьшения наложения спектров во временной области. Некоторые варианты осуществления относятся к способу для помощи в управлении множеством параметров неравномерной гребенки фильтров и в расширении гребенки фильтров на многоканальный режим работы.

При перцепционном кодировании, энтропия и в силу этого скорость передачи битов совместно уменьшается за счет отбрасывания избыточной и перцепционно нерелевантной информации. Это достигается с использованием гребенки фильтров и квантования. Эта гребенка фильтров, квантователь и психоакустическая модель используются вместе, чтобы придавать определенную форму шуму квантования таким образом, что он находится максимально близко к пороговому значению маскирования, с тем чтобы максимизировать эффективность кодирования и перцепционное качество общей системы [2].

В ходе синтеза, шум квантования должен формироваться во времени и по частоте посредством спектральной и временной формы импульсного и частотного отклика гребенки фильтров. Из этого следует, что для того, чтобы обеспечивать возможность высокодетализированного управления формой шума квантования, желательно использовать гребенку фильтров с импульсной характеристикой, компактной, как по времени, так и по частоте.

Наиболее часто используемая гребенка фильтров с этими свойствами представляет собой модифицированное дискретное косинусное преобразование (MDCT), гребенку фильтров, которая имеет равномерное частотно-временное разрешение во всех полосах частот.

Тем не менее, слуховая система человека демонстрирует неравномерное частотно-временное разрешение [3], приводя к различным пороговым формам маскирования для различных частот.

Следовательно, задача настоящего изобретения заключается в том, чтобы предоставлять концепцию для управления неравномерной гребенкой фильтров, которая обеспечивает возможность увеличения уровня шума квантования при поддержании низкими слышимых артефактов.

Эта задача решается посредством независимых пунктов формулы изобретения.

Варианты осуществления предоставляют аудиопроцессор для обработки аудиосигнала, с тем чтобы получать субполосное представление аудиосигнала. Аудиопроцессор содержит каскад каскадного перекрывающегося критически дискретизированного преобразования, выполненный с возможностью выполнять каскадное перекрывающееся критически дискретизированное преобразование, по меньшей мере, для двух частично перекрывающихся блоков выборок аудиосигнала, с тем чтобы получать набор субполосных выборок на основе первого блока выборок аудиосигнала и получать соответствующий набор субполосных выборок на основе второго блока выборок аудиосигнала. Дополнительно, аудиопроцессор содержит каскад уменьшения наложения спектров во временной области, выполненный с возможностью выполнять комбинирование со взвешиванием двух соответствующих наборов субполосных выборок, причем один получен на основе первого блока выборок аудиосигнала, а другой получен на основе второго блока выборок аудиосигнала, с тем чтобы получать субполосное представление с уменьшенным наложением спектров аудиосигнала. В силу этого, каскад каскадного перекрывающегося критически дискретизированного преобразования выполнен с возможностью сегментировать набор элементов разрешения, полученный на основе первого блока выборок, с использованием, по меньшей мере, двух оконных функций, и получать, по меньшей мере, два сегментированных набора элементов разрешения на основе сегментированного набора элементов разрешения, соответствующего первому блоку выборок, при этом каскад каскадного перекрывающегося критически дискретизированного преобразования выполнен с возможностью сегментировать набор элементов разрешения, полученный на основе второго блока выборок, с использованием, по меньшей мере, двух оконных функций, и получать, по меньшей мере, два набора элементов разрешения (например, по меньшей мере, две полосы частот коэффициентов объединения) (например, по 128 коэффициентов) на основе сегментированного набора элементов разрешения, соответствующего второму блоку выборок, и при этом наборы элементов разрешения обрабатываются (например, объединяются) с использованием второго каскада перекрывающегося критически дискретизированного преобразования из каскада каскадного перекрывающегося критически дискретизированного преобразования, при этом второй каскад перекрывающегося критически дискретизированного преобразования выполнен с возможностью выполнять перекрывающиеся критически дискретизированные преобразования, имеющие идентичную длину кадра (например, коэффициент объединения), по меньшей мере, для одного (например, для каждого) набора элементов разрешения.

В вариантах осуществления, второй каскад перекрывающегося критического преобразования выполнен с возможностью выполнять N_1,1 перекрывающихся критически дискретизированных преобразований для N_1,1 поднаборов первого набора (например, 128 коэффициентов), по меньшей мере, из двух наборов элементов разрешения, полученных на основе сегментированного набора элементов разрешения, соответствующего первому блоку выборок, при этом N_1,1 перекрывающихся критически дискретизированных преобразований содержат идентичную длину кадра (например, коэффициент объединения), при этом N_1,1 является натуральным числом, большим или равным двум.

В вариантах осуществления, второй каскад перекрывающегося критического преобразования выполнен с возможностью выполнять N_1,2 перекрывающихся критически дискретизированных преобразований для N_1,2 поднаборов (например, равной длины) соответствующего первого набора (например, 128 коэффициентов), по меньшей мере, из двух наборов элементов разрешения, полученных на основе сегментированного набора элементов разрешения, соответствующего второму блоку выборок, при этом N_2,1 перекрывающихся критически дискретизированных преобразований содержат идентичную длину кадра (например, коэффициент объединения), при этом N_2,1 является натуральным числом, большим или равным двум.

В вариантах осуществления, аудиопроцессор выполнен с возможностью индивидуально выбирать длину кадра (например, коэффициент объединения) для каждого набора элементов разрешения или для каждого из соответствующих наборов элементов разрешения.

Например, процессор может выбирать для каждого набора коэффициент объединения, в силу этого достигая, например, повышенной или даже наибольшей возможной эффективности кодирования.

В вариантах осуществления, аудиопроцессор выполнен с возможностью индивидуально выбирать длину кадра (например, коэффициент объединения) для каждого блока выборок.

Например, процессор может выбирать для каждого блока коэффициент объединения, в силу этого достигая, например, повышенной или даже наибольшей возможной эффективности кодирования.

В вариантах осуществления, аудиопроцессор выполнен с возможностью активировать или поддерживать активированным каскад уменьшения наложения спектров во временной области, если идентичные длины кадров (например, коэффициенты объединения) используются для двух последующих блоков, и/или при этом аудиопроцессор выполнен с возможностью деактивировать или поддерживать деактивированным каскад уменьшения наложения спектров во временной области, если различные длины кадров используются для двух последующих блоков.

Например, вследствие TDAR, между блоками существуют зависимости. Если коэффициент объединения поддерживается, то TDAR является возможным. Если коэффициент объединения двух последующих блоков отличается, то TDAR деактивируется. В силу этого (необязательно), процессор может быть выполнен с возможностью выполнять общую/объединенную оптимизацию для адаптации коэффициентов объединения, например, решетчатую сетку в расчете на набор субполосных выборок (полосу частот коэффициентов объединения).

В вариантах осуществления, процессор выполнен с возможностью выполнять общую/объединенную оптимизацию для адаптации коэффициентов объединения (например, решетчатую сетку в расчете на набор субполосных выборок (полосу частот коэффициентов объединения)).

В вариантах осуществления, по меньшей мере, две оконные функции содержат идентичную ширину окна (например, чтобы разделять спектр, по меньшей мере, на две (например, 8) полосы частот коэффициентов объединения идентичного размера (например, по 128 коэффициентов)).

В вариантах осуществления, по меньшей мере, две оконные функции содержат различную ширину окна (например, чтобы разделять спектр, по меньшей мере, на две полосы частот коэффициентов объединения различного размера).

В вариантах осуществления, по меньшей мере, две оконные функции содержат практически прямоугольные окна.

В вариантах осуществления, наборы элементов разрешения, полученные на основе, по меньшей мере, двух оконных функций, обрабатываются (например, объединяются) с использованием второго каскада перекрывающегося критически дискретизированного преобразования, при этом второй каскад перекрывающегося критически дискретизированного преобразования выполнен с возможностью выполнять, по меньшей мере, два перекрывающихся критически дискретизированных преобразования, имеющие идентичную длину кадра (например, коэффициент объединения), по меньшей мере, для одного (например, для каждого) из наборов элементов разрешения, полученных на основе, по меньшей мере, двух оконных функций.

В вариантах осуществления, аудиопроцессор выполнен с возможностью выполнять объединенное канальное кодирование.

В вариантах осуществления, аудиопроцессор выполнен с возможностью выполнять M/S или MCT в качестве объединенной обработки каналов.

В вариантах осуществления, аудиопроцессор выполнен с возможностью активировать или деактивировать объединенную обработку каналов индивидуально для каждого, по меньшей мере, из двух сегментированных наборов элементов разрешения (например, индивидуально активировать или деактивировать объединенную обработку каналов для каждой полосы частот коэффициентов объединения; например, между первым каскадом перекрывающегося критически дискретизированного преобразования и вторым каскадом перекрывающегося критически дискретизированного преобразования из каскада каскадного перекрывающегося критически дискретизированного преобразования).

В вариантах осуществления, аудиопроцессор выполнен с возможностью формировать поток битов из кодированного субполосного представления с уменьшенным наложением спектров аудиосигнала, при этом аудиопроцессор выполнен с возможностью предоставлять поток битов, содержащий, по меньшей мере, один MF-параметр, сигнализирующий, по меньшей мере, одну длину кадра (например, коэффициент объединения) соответствующих наборов элементов разрешения в потоке битов.

В вариантах осуществления, аудиопроцессор выполнен с возможностью энтропийно кодировать, по меньшей мере, один MF-параметр.

В вариантах осуществления, аудиопроцессор выполнен с возможностью предоставлять поток битов, содержащий только поднабор MF-параметров, сигнализирующих длину кадра (например, коэффициент объединения) соответствующих наборов элементов разрешения в потоке битов.

В вариантах осуществления, аудиопроцессор выполнен с возможностью предоставлять поток битов, содержащий TDAR-параметр для соответствующих наборов элементов разрешения.

В вариантах осуществления, аудиопроцессор выполнен с возможностью выполнять объединенное энтропийное кодирование MF- и TDAR-параметров.

В вариантах осуществления, аудиопроцессор выполнен с возможностью предоставлять поток битов, содержащий, по меньшей мере, один MF-параметр, так что TDAR-параметр может извлекаться, по меньшей мере, из одного MF-параметра (например, в приемном устройстве или веб-узле декодера).

Например, вместо включения TDAR-параметра в поток битов, предоставленный посредством аудиопроцессора, упомянутый TDAR-параметр может извлекаться, по меньшей мере, из одного MF-параметра. Например, равные MF-параметры в двух последующих кадрах могут указывать то, что TDAR является активными, при этом различные MF-параметры в двух последующих кадрах могут указывать то, что TDAR является неактивным.

В вариантах осуществления, аудиопроцессор выполнен с возможностью использовать решетчатую сетку в расчете на набор субполосных выборок (полосу частот коэффициентов объединения).

Дополнительные варианты осуществления предоставляют аудиокодер, при этом аудиокодер содержит аудиопроцессор согласно одному из вышеуказанных описанных вариантов осуществления, при этом аудиокодер содержит кодер, выполненный с возможностью кодировать субполосное представление с уменьшенным наложением спектров аудиосигнала, с тем чтобы получать кодированное субполосное представление с уменьшенным наложением спектров аудиосигнала, и при этом аудиокодер содержит модуль формирования потоков битов, выполненный с возможностью формировать поток битов из кодированного субполосного представления с уменьшенным наложением спектров аудиосигнала.

Дополнительные варианты осуществления предоставляют аудиопроцессор для обработки субполосного представления аудиосигнала, с тем чтобы получать аудиосигнал. Аудиопроцессор содержит каскад обратного уменьшения наложения спектров во временной области, выполненный с возможностью выполнять комбинирование со взвешиванием двух соответствующих субполосных представлений с уменьшенным наложением спектров аудиосигнала, с тем чтобы получать субполосное представление с наложением спектров, при этом субполосное представление с наложением спектров представляет собой набор субполосных выборок. Дополнительно, аудиопроцессор содержит каскад каскадного обратного перекрывающегося критически дискретизированного преобразования, выполненный с возможностью выполнять каскадное обратное перекрывающееся критически дискретизированное преобразование для набора субполосных выборок, с тем чтобы получать набор выборок, ассоциированных с блоком выборок аудиосигнала. В силу этого, каскад каскадного обратного перекрывающегося критически дискретизированного преобразования содержит первый каскад обратного перекрывающегося критически дискретизированного преобразования, выполненный с возможностью выполнять обратное перекрывающееся критически дискретизированное преобразование для набора субполосных выборок, с тем чтобы получать набор элементов разрешения, ассоциированный с данной субполосой частот аудиосигнала, при этом первый каскад обратного перекрывающегося критически дискретизированного преобразования выполнен с возможностью выполнять обратные перекрывающиеся критически дискретизированные преобразования, имеющие идентичную длину кадра (например, коэффициент объединения) для набора субполосных выборок.

В вариантах осуществления, первый каскад обратного перекрывающегося критически дискретизированного преобразования выполнен с возможностью выполнять N_1,1 обратных перекрывающихся критически дискретизированных преобразований для N_1,1 поднаборов набора субполосных выборок, при этом N_1,1 перекрывающихся критически дискретизированных преобразований содержат идентичную длину кадра (например, коэффициент объединения), при этом N_1,1 является натуральным числом, большим или равным двум.

Дополнительные варианты осуществления предоставляют аудиодекодер, при этом аудиодекодер содержит синтаксический анализатор потоков битов, выполненный с возможностью синтаксически анализировать поток битов, с тем чтобы получать кодированное субполосное представление с уменьшенным наложением спектров, при этом аудиодекодер содержит декодер, выполненный с возможностью декодировать кодированное субполосное представление с уменьшенным наложением спектров, с тем чтобы получать субполосное представление с уменьшенным наложением спектров аудиосигнала, и при этом аудиодекодер содержит аудиопроцессор согласно одному из вышеуказанных описанных вариантов осуществления.

Дополнительные варианты осуществления предоставляют способ для обработки аудиосигнала, с тем чтобы получать субполосное представление аудиосигнала. Способ содержит этап выполнения каскадного перекрывающегося критически дискретизированного преобразования, по меньшей мере, для двух частично перекрывающихся блоков выборок аудиосигнала, с тем чтобы получать набор субполосных выборок на основе первого блока выборок аудиосигнала и получать соответствующий набор субполосных выборок на основе второго блока выборок аудиосигнала. Дополнительно, способ содержит этап выполнения комбинирования со взвешиванием двух соответствующих наборов субполосных выборок, причем один из них получен на основе первого блока выборок аудиосигнала, а другой получен на основе второго блока выборок аудиосигнала, с тем чтобы получать субполосное представление с уменьшенным наложением спектров аудиосигнала. В силу этого, выполнение каскадного перекрывающегося критически дискретизированного преобразования содержит сегментацию набора элементов разрешения, полученного на основе первого блока выборок, с использованием, по меньшей мере, двух оконных функций, с тем чтобы получать, по меньшей мере, два сегментированных набора элементов разрешения (например, по меньшей мере, две полосы частот коэффициентов объединения) на основе сегментированного набора элементов разрешения, соответствующего первому блоку выборок, при этом выполнение каскадного перекрывающегося критически дискретизированного преобразования содержит сегментацию набора элементов разрешения, полученного на основе второго блока выборок, с использованием, по меньшей мере, двух оконных функций, с тем чтобы получать, по меньшей мере, два набора элементов разрешения (например, по меньшей мере, две полосы частот коэффициентов объединения) на основе сегментированного набора элементов разрешения, соответствующего второму блоку выборок, и при этом наборы элементов разрешения обрабатываются (например, объединяются) с использованием второго перекрывающегося критически дискретизированного преобразования из каскадного перекрывающегося критически дискретизированного преобразования, при этом второе перекрывающееся критически дискретизированное преобразование содержит выполнение перекрывающихся критически дискретизированных преобразований, имеющих идентичную длину кадра (например, коэффициент объединения), по меньшей мере, для одного (например, для каждого) набора элементов разрешения.

Дополнительные варианты осуществления предоставляют способ для обработки субполосного представления аудиосигнала, с тем чтобы получать аудиосигнал. Способ содержит этап выполнения комбинирования со взвешиванием двух соответствующих субполосных представлений с уменьшенным наложением спектров аудиосигнала, с тем чтобы получать субполосное представление с наложением спектров, при этом субполосное представление с наложением спектров представляет собой набор субполосных выборок. Дополнительно, способ содержит этап выполнения каскадного обратного перекрывающегося критически дискретизированного преобразования для набора субполосных выборок, с тем чтобы получать набор выборок, ассоциированных с блоком выборок аудиосигнала, при этом выполнение каскадного обратного перекрывающегося критически дискретизированного преобразования содержит выполнение первого обратного перекрывающегося критически дискретизированного преобразования для набора субполосных выборок, с тем чтобы получать набор элементов разрешения, ассоциированный с данной субполосой частот аудиосигнала, при этом выполнение первого обратного перекрывающегося критически дискретизированного преобразования содержит выполнение обратных перекрывающихся критически дискретизированных преобразований, имеющих идентичную длину кадра (например, коэффициент объединения) для набора субполосных выборок.

Варианты осуществления предоставляют неравномерную гребенку фильтров с компактными импульсными характеристиками, что обеспечивает возможность, в силу способности более близко придерживаться порога маскирования, как при высоких, так и при низких частотах, вводить больше шума квантования, без введения слышимых артефактов, за счет этого обеспечивая более низкую скорость передачи битов, чем равномерная гребенка фильтров.

В вариантах осуществления, выполняется разделение на полосы частот коэффициентов объединения. В силу этого, множество совершенно различных схем объединения являются возможными. Тем не менее, вследствие высокой гибкости, очень затруднительно оптимизировать общую систему. Следовательно, в вариантах осуществления, спектр разделяется на полосы частот коэффициентов объединения (MFB), в которых идентичный коэффициент объединения (MF) всегда используется (ср. с нижеприведенным разделом 2.1.1). Прямоугольные окна без перекрытия на границах полосы коэффициентов объединения могут использоваться, поскольку все полосы частот коэффициентов объединения могут независимо управляться таким способом (ср. с фиг. 17).

В вариантах осуществления, выполняется объединенная обработка каналов (M/S или средство многоканального кодирования (MCT) [12]). В общем, M/S или MCT также может использоваться с субполосным объединением и TDAR. Средние каналы и боковые каналы могут независимо использовать различные MF-параметры и TDAR-параметры в расчете на кадр.

В вариантах осуществления, M/S или MCT индивидуально включаются/выключаются в расчете на полосу частот коэффициентов объединения. Расширение объединенного стерео заключается в том, чтобы включать/выключать объединенное стерео для каждой полосы частот между первым MDCT и вторым MDCT для объединения. Это обеспечивает частотно-избирательную активацию MS/MCT, например, в расчете на MFB. Тем не менее, TDAR является возможным только между двумя кадрами с идентичной объединенной стереоконфигурацией (например, без TDAR между L/R и M/S).

В вариантах осуществления, решающий модуль по переключению окон используется из существующих способов для решения по коэффициенту объединения. В существующих способах, предусмотрены средства управления решающим модулем для длинных/коротких окон. В некоторых обстоятельствах, эти решающие модули также могут использоваться для MF.

В вариантах осуществления, коэффициент объединения передается в служебных сигналах в потоке битов (включающем в себя энтропийное кодирование и взаимную обработку нескольких MF-параметров). Вообще говоря, требуется небольшое число битов в потоке битов, с тем чтобы передавать в служебных сигналах MF для текущего кадра. Эти биты также могут энтропийно кодироваться. Помимо этого, биты также могут кодироваться между собой. Исходные данные: Различные MF, такие как 2, 8, 1, 2, 16, 32, предположительно являются менее вероятными, чем более равномерные MF, такие как 4, 4, 8, 8, 16, 16. Эта корреляция может использоваться для того, чтобы уменьшать объем данных, например, посредством дифференциального кодирования.

В вариантах осуществления, меньшее число коэффициентов объединения передается, при этом пропущенные коэффициенты объединения могут извлекаться/интерполироваться из соседних узлов. Если MF реально должны быть настолько равномерными, как в предыдущих секциях, все MF также могут интерполироваться из небольшого числа MF.

В вариантах осуществления, TDAR-параметры извлекаются из MF-параметров. TDAR может передаваться как 1 бит в расчете на MFB. Альтернативно, TDAR-бит также может извлекаться из MF-битов (идентичный MF-параметр в двух последовательных кадрах=TDAR включено). В таком случае, не требуется вспомогательной информации для TDAR.

В вариантах осуществления, выполняется взаимное энтропийное кодирование MF-параметров и TDAR-параметров. MF-значения и TDAR-значения могут энтропийно кодироваться взаимным способом.

В этом случае, при 8 MFB и 6 MF, требуется не:

а только:

битов.

В вариантах осуществления, полосы частот коэффициентов объединения разделяются неравномерным способом. Для простоты, в нижеприведенном описании предполагаются равномерные MFB. Тем не менее, они также могут становиться неравномерными. Целесообразное разделение предположительно должно быть идентичным полосам частот коэффициентов масштабирования (SFB). В таком случае, один коэффициент масштабирования и один коэффициент объединения передаются в расчете на SFB.

В вариантах осуществления, выполняется решетчатая оптимизация коэффициентов объединения. Использование решетчатых сеток для кодирования аудио уже представляет собой предшествующий уровень техники [7]. Тем не менее, традиционные системы могут использовать только одну решетку; с другой стороны, согласно вариантам осуществления, одна решетка может использоваться в расчете на MFB.

Дополнительные варианты осуществления предоставляют аудиопроцессор для обработки аудиосигнала, с тем чтобы получать субполосное представление аудиосигнала. Аудиопроцессор содержит каскад каскадного перекрывающегося критически дискретизированного преобразования и каскад уменьшения наложения спектров во временной области. Каскад каскадного перекрывающегося критически дискретизированного преобразования выполнен с возможностью выполнять каскадное перекрывающееся критически дискретизированное преобразование, по меньшей мере, для двух частично перекрывающихся блоков выборок аудиосигнала, с тем чтобы получать набор субполосных выборок на основе первого блока выборок аудиосигнала и получать соответствующий набор субполосных выборок на основе второго блока выборок аудиосигнала. Каскад уменьшения наложения спектров во временной области выполнен с возможностью выполнять комбинирование со взвешиванием двух соответствующих наборов субполосных выборок, причем один из них получен на основе первого блока выборок аудиосигнала, а другой получен на основе второго блока выборок аудиосигнала, с тем чтобы получать субполосное представление с уменьшенным наложением спектров аудиосигнала.

Согласно принципу настоящего изобретения, дополнительный каскад постобработки добавляется в конвейер перекрывающегося критически дискретизированного преобразования (например, MDCT), причем дополнительный каскад постобработки содержит другое перекрывающееся критически дискретизированное преобразование (например, MDCT) вдоль частотной оси и уменьшение наложения спектров во временной области вдоль каждой субполосной временной оси. Это обеспечивает возможность извлечения произвольных шкал частот из спектрограммы перекрывающегося критически дискретизированного преобразования (например, MDCT) с улучшенной временной компактностью импульсной характеристики, при отсутствии введения дополнительной избыточности и с введением уменьшенной кадровой задержки перекрывающегося критически дискретизированного преобразования.

Дополнительные варианты осуществления предоставляют способ для обработки аудиосигнала, с тем чтобы получать субполосное представление аудиосигнала. Способ содержит:

- выполнение каскадного перекрывающегося критически дискретизированного преобразования, по меньшей мере, для двух частично перекрывающихся блоков выборок аудиосигнала, с тем чтобы получать набор субполосных выборок на основе первого блока выборок аудиосигнала и получать соответствующий набор субполосных выборок на основе второго блока выборок аудиосигнала; и

- выполнение комбинирования со взвешиванием двух соответствующих наборов субполосных выборок, причем один из них получен на основе первого блока выборок аудиосигнала, а другой получен на основе второго блока выборок аудиосигнала, с тем чтобы получать субполосное представление с уменьшенным наложением спектров аудиосигнала.

Дополнительные варианты осуществления предоставляют способ для обработки субполосного представления аудиосигнала, с тем чтобы получать аудиосигнал. Способ содержит:

- выполнение комбинирования со взвешиванием (и сдвигом) двух соответствующих субполосных представлений с уменьшенным наложением спектров (различных блоков частично перекрывающихся выборок) аудиосигнала, с тем чтобы получать субполосное представление с наложением спектров, при этом субполосное представление с наложением спектров представляет собой набор субполосных выборок; и

- выполнение каскадного обратного перекрывающегося критически дискретизированного преобразования для набора субполосных выборок, с тем чтобы получать набор выборок, ассоциированных с блоком выборок аудиосигнала.

Преимущественные реализации затрагиваются в зависимых пунктах формулы изобретения.

Далее описываются преимущественные реализации аудиопроцессора для обработки аудиосигнала, с тем чтобы получать субполосное представление аудиосигнала.

В вариантах осуществления, каскад каскадного перекрывающегося критически дискретизированного преобразования может представлять собой каскад каскадного MDCT (MDCT=модифицированное дискретное косинусное преобразование), MDST (MDST=модифицированное дискретное синусное преобразование) или MLT (MLT=модулированное перекрывающееся преобразование).

В вариантах осуществления, каскад каскадного перекрывающегося критически дискретизированного преобразования может содержать первый каскад перекрывающегося критически дискретизированного преобразования, выполненный с возможностью выполнять перекрывающиеся критически дискретизированные преобразования для первого блока выборок и второго блока выборок, по меньшей мере, из двух частично перекрывающихся блоков выборок аудиосигнала, с тем чтобы получать первый набор элементов разрешения для первого блока выборок и второй набор элементов разрешения (перекрывающихся критически дискретизированных коэффициентов) для второго блока выборок.

Первый каскад перекрывающегося критически дискретизированного преобразования может представлять собой первый MDCT-, MDST- или MLT-каскад.

Каскад каскадного перекрывающегося критически дискретизированного преобразования дополнительно может содержать второй каскад перекрывающегося критически дискретизированного преобразования, выполненный с возможностью выполнять перекрывающееся критически дискретизированное преобразование для сегмента (собственного поднабора) первого набора элементов разрешения и выполнять перекрывающееся критически дискретизированное преобразование для сегмента (собственного поднабора) второго набора элементов разрешения, причем каждый сегмент ассоциирован с субполосой частот аудиосигнала, с тем чтобы получать набор субполосных выборок для первого набора элементов разрешения и набор субполосных выборок для второго набора элементов разрешения.

Второй каскад перекрывающегося критически дискретизированного преобразования может представлять собой второй MDCT-, MDST- или MLT-каскад.

В силу этого, первый и второй каскады перекрывающегося критически дискретизированного преобразования могут иметь идентичный тип, т.е. представлять собой один из MDCT-, MDST- или MLT-каскадов.

В вариантах осуществления, второй каскад перекрывающегося критически дискретизированного преобразования может быть выполнен с возможностью выполнять перекрывающиеся критически дискретизированные преобразования, по меньшей мере, для двух частично перекрывающихся сегментов (собственных поднаборов) первого набора элементов разрешения и выполнять перекрывающиеся критически дискретизированные преобразования, по меньшей мере, для двух частично перекрывающихся сегментов (собственных поднаборов) второго набора элементов разрешения, причем каждый сегмент ассоциирован с субполосой частот аудиосигнала, с тем чтобы получать, по меньшей мере, два набора субполосных выборок для первого набора элементов разрешения, и, по меньшей мере, два набора субполосных выборок для второго набора элементов разрешения.

В силу этого, первый набор субполосных выборок может представлять собой результат первого перекрывающегося критически дискретизированного преобразования на основе первого сегмента первого набора элементов разрешения, при этом второй набор субполосных выборок может представлять собой результат второго перекрывающегося критически дискретизированного преобразования на основе второго сегмента первого набора элементов разрешения, при этом третий набор субполосных выборок может представлять собой результат третьего перекрывающегося критически дискретизированного преобразования на основе первого сегмента второго набора элементов разрешения, при этом четвертый набор субполосных выборок может представлять собой результат четвертого перекрывающегося критически дискретизированного преобразования на основе второго сегмента второго набора элементов разрешения. Каскад уменьшения наложения спектров во временной области может быть выполнен с возможностью выполнять комбинирование со взвешиванием первого набора субполосных выборок и третьего набора субполосных выборок, с тем чтобы получать первое субполосное представление с уменьшенным наложением спектров аудиосигнала, и выполнять комбинирование со взвешиванием второго набора субполосных выборок и четвертого набора субполосных выборок, с тем чтобы получать второе субполосное представление с уменьшенным наложением спектров аудиосигнала.

В вариантах осуществления, каскад каскадного перекрывающегося критически дискретизированного преобразования может быть выполнен с возможностью сегментировать набор элементов разрешения, полученный на основе первого блока выборок, использованием, по меньшей мере, двух оконных функций, и получать, по меньшей мере, два набора субполосных выборок на основе сегментированного набора элементов разрешения, соответствующего первому блоку выборок, при этом каскад каскадного перекрывающегося критически дискретизированного преобразования может быть выполнен с возможностью сегментировать набор элементов разрешения, полученный на основе второго блока выборок, с использованием, по меньшей мере, двух оконных функций, и получать, по меньшей мере, два набора субполосных выборок на основе сегментированного набора элементов разрешения, соответствующего второму блоку выборок, при этом, по меньшей мере, две оконные функции содержат различную ширину окна.

В вариантах осуществления, каскад каскадного перекрывающегося критически дискретизированного преобразования может быть выполнен с возможностью сегментировать набор элементов разрешения, полученный на основе первого блока выборок с использованием, по меньшей мере, двух оконных функций, и получать, по меньшей мере, два набора субполосных выборок на основе сегментированного набора элементов разрешения, соответствующего первому блоку выборок, при этом каскад каскадного перекрывающегося критически дискретизированного преобразования может быть выполнен с возможностью сегментировать набор элементов разрешения, полученный на основе второго блока выборок с использованием, по меньшей мере, двух оконных функций, и получать, по меньшей мере, два набора субполосных выборок на основе сегментированного набора элементов разрешения, соответствующего второму блоку выборок, при этом наклоны фильтра оконных функций, соответствующих смежным наборам субполосных выборок, являются симметричными.

В вариантах осуществления, каскад каскадного перекрывающегося критически дискретизированного преобразования может быть выполнен с возможностью сегментировать выборки аудиосигнала на первый блок выборок и второй блок выборок с использованием первой оконной функции, при этом каскад перекрывающегося критически дискретизированного преобразования может быть выполнен с возможностью сегментировать набор элементов разрешения, полученный на основе первого блока выборок, и набор элементов разрешения, полученный на основе второго блока выборок, с использованием второй оконной функции, с тем чтобы получать соответствующие субполосные выборки, при этом первая оконная функция и вторая оконная функция содержат различную ширину окна.

В вариантах осуществления, каскад каскадного перекрывающегося критически дискретизированного преобразования может быть выполнен с возможностью сегментировать выборки аудиосигнала на первый блок выборок и второй блок выборок с использованием первой оконной функции, при этом каскад перекрывающегося критически дискретизированного преобразования может быть выполнен с возможностью сегментировать набор элементов разрешения, полученный на основе первого блока выборок, и набор элементов разрешения, полученный на основе второго блока выборок, с использованием второй оконной функции, с тем чтобы получать соответствующие субполосные выборки, при этом ширина окна первой оконной функции и ширина окна второй оконной функции отличаются друг от друга, при этом ширина окна первой оконной функции и ширина окна второй оконной функции отличаются друг от друга на коэффициент, отличающийся от степени двух.

Далее описываются преимущественные реализации аудиопроцессора для обработки субполосного представления аудиосигнала, с тем чтобы получать аудиосигнал.

В вариантах осуществления, каскад обратного каскадного перекрывающегося критически дискретизированного преобразования может представлять собой каскад обратного каскадного MDCT (MDCT=модифицированное дискретное косинусное преобразование), MDST (MDST=модифицированное дискретное синусное преобразование) или MLT (MLT=модулированное перекрывающееся преобразование).

В вариантах осуществления, каскад каскадного обратного перекрывающегося критически дискретизированного преобразования может содержать первый каскад обратного перекрывающегося критически дискретизированного преобразования, выполненный с возможностью выполнять обратное перекрывающееся критически дискретизированное преобразование для набора субполосных выборок, с тем чтобы получать набор элементов разрешения, ассоциированный с данной субполосой частот аудиосигнала.

Первый каскад обратного перекрывающегося критически дискретизированного преобразования может представлять собой первый обратный MDCT-, MDST- или MLT-каскад.

В вариантах осуществления, каскад каскадного обратного перекрывающегося критически дискретизированного преобразования может содержать первый каскад суммирования с перекрытием, выполненный с возможностью выполнять конкатенацию набора элементов разрешения, ассоциированного с множеством субполос частот аудиосигнала, что содержит комбинирование со взвешиванием набора элементов разрешения, ассоциированного с данной субполосой частот аудиосигнала, с набором элементов разрешения, ассоциированным с другой субполосой частот аудиосигнала, с тем чтобы получать набор элементов разрешения, ассоциированный с блоком выборок аудиосигнала.

В вариантах осуществления, каскад каскадного обратного перекрывающегося критически дискретизированного преобразования может содержать второй каскад обратного перекрывающегося критически дискретизированного преобразования, выполненный с возможностью выполнять обратное перекрывающееся критически дискретизированное преобразование для набора элементов разрешения, ассоциированных с блоком выборок аудиосигнала, с тем чтобы получать набор выборок, ассоциированных с блоком выборок аудиосигнала.

Второй каскад обратного перекрывающегося критически дискретизированного преобразования может представлять собой второй обратный MDCT-, MDST- или MLT-каскад.

В силу этого, первый и второй каскады обратного перекрывающегося критически дискретизированного преобразования могут иметь идентичный тип, т.е. представлять собой один из обратных MDCT-, MDST- или MLT-каскадов.

В вариантах осуществления, каскад каскадного обратного перекрывающегося критически дискретизированного преобразования может содержать второй каскад суммирования с перекрытием, выполненный с возможностью суммировать с перекрытием набор выборок, ассоциированных с блоком выборок аудиосигнала, и другой набор выборок, ассоциированных с другим блоком выборок аудиосигнала, причем блок выборок и другой блок выборок аудиосигнала частично перекрываются, с тем чтобы получать аудиосигнал.

Варианты осуществления настоящего изобретения описываются в данном документе со ссылкой на прилагаемые чертежи.

Фиг. 1 показывает принципиальную блок-схему аудиопроцессора, выполненного с возможностью обрабатывать аудиосигнал, с тем чтобы получать субполосное представление аудиосигнала, согласно варианту осуществления;

Фиг. 2 показывает принципиальную блок-схему аудиопроцессора, выполненного с возможностью обрабатывать аудиосигнал, с тем чтобы получать субполосное представление аудиосигнала, согласно дополнительному варианту осуществления;

Фиг. 3 показывает принципиальную блок-схему аудиопроцессора, выполненного с возможностью обрабатывать аудиосигнал, с тем чтобы получать субполосное представление аудиосигнала, согласно дополнительному варианту осуществления;

Фиг. 4 показывает принципиальную блок-схему аудиопроцессора для обработки субполосного представления аудиосигнала, с тем чтобы получать аудиосигнал, согласно варианту осуществления;

Фиг. 5 показывает принципиальную блок-схему аудиопроцессора для обработки субполосного представления аудиосигнала, с тем чтобы получать аудиосигнал, согласно дополнительному варианту осуществления;

Фиг. 6 показывает принципиальную блок-схему аудиопроцессора для обработки субполосного представления аудиосигнала, с тем чтобы получать аудиосигнал, согласно дополнительному варианту осуществления;

Фиг. 7 показывает на схемах пример субполосных выборок (верхний график) и разброс их выборок по времени и частоте (нижний график);

Фиг. 8 показывает на схеме спектральную и временную неопределенность, полученную посредством нескольких различных преобразований;

Фиг. 9 показывает на схемах сравнение двух примерных импульсных характеристик, сформированных посредством субполосного объединения с и без TDAR, простых коротких MDCT-блоков и субполосного объединения на основе матрицы Адамара;

Фиг. 10 показывает блок-схему последовательности операций способа для обработки аудиосигнала, с тем чтобы получать субполосное представление аудиосигнала, согласно варианту осуществления;

Фиг. 11 показывает блок-схему последовательности операций способа для обработки субполосного представления аудиосигнала, с тем чтобы получать аудиосигнал, согласно варианту осуществления;

Фиг. 12 показывает принципиальную блок-схему аудиокодера, согласно варианту осуществления;

Фиг. 13 показывает принципиальную блок-схему аудиодекодера, согласно варианту осуществления;

Фиг. 14 показывает принципиальную блок-схему аудиоанализатора, согласно варианту осуществления;

Фиг. 15 показывает принципиальную блок-схему субкаскадов перекрывающегося критически дискретизированного преобразования для второго каскада перекрывающегося критически дискретизированного преобразования аудиопроцессора, показанного на фиг. 2 и 3, согласно варианту осуществления настоящего изобретения;

Фиг. 16 показывает принципиальную блок-схему субкаскадов обратного перекрывающегося критически дискретизированного преобразования первого каскада обратного перекрывающегося критически дискретизированного преобразования аудиопроцессора, показанного на фиг. 5 и 6, согласно варианту осуществления настоящего изобретения;

Фиг. 17 показывает на схеме оконные функции, используемые для сегментации набора элементов разрешения, с тем чтобы получать наборы элементов разрешения, согласно варианту осуществления настоящего изобретения;

Фиг. 18 показывает на схемах распределения вариантов выбора коэффициента объединения (MF) и уменьшения наложения спектров во временной области (TDAR), выполненных посредством кодера;

Фиг. 19 показывает на схемах средние скорости передачи битов двух систем для различных параметров q искажения для 39 тестовых элементов;

Фиг. 20 перечисляет в таблице настройки качества и их параметр q искажения и результирующую среднюю скорость передачи битов;

Фиг. 21 перечисляет в таблице различные тестовые элементы;

Фиг. 22 перечисляет в таблице результаты теста Шапиро-Вилка на предмет нормальности для попарных разностей количественных MUSHRA-показателей между гребенкой фильтров переключения окон (WS) и гребенкой фильтров субполосного объединения (SM) при немного ухудшенных (MQ) и умеренно ухудшенных (LQ) настройках качества;

Фиг. 23 показывает на схемах распределения и ядерные оценки плотности разностей количественных MUSHRA-показателей между гребенкой фильтров переключения окон (WS) и гребенкой фильтров субполосного объединения (SM) при немного ухудшенных (MQ) и умеренно ухудшенных (LQ) настройках качества;

Фиг. 24 перечисляет результаты по среднему значению, среднеквадратическому отклонению (SD) и на основе знакового рангового теста Уилкоксона для количественных MUSHRA-показателей, сравнивающих гребенку фильтров переключения окон (WS) и гребенку фильтров субполосного объединения (SM) при немного ухудшенных (MQ) и умеренно ухудшенных (LQ) настройках качества;

Фиг. 25 показывает на схемах средние и 95%-ые доверительные интервалы разностей количественных MUSHRA-показателей для отдельных элементов, гребенки фильтров переключения окон и гребенки фильтров субполосного объединения при немного ухудшенных (MQ) и умеренно ухудшенных (LQ) настройках качества;

Фиг. 26 показывает блок-схему последовательности операций способа для обработки аудиосигнала, с тем чтобы получать субполосное представление аудиосигнала, согласно варианту осуществления; и

Фиг. 27 показывает блок-схему последовательности операций способа для обработки субполосного представления аудиосигнала, с тем чтобы получать аудиосигнал, согласно варианту осуществления.

Идентичные или эквивалентные элементы либо элементы с идентичной или эквивалентной функциональностью обозначаются в нижеприведенном описании посредством идентичных или эквивалентных ссылочных позиций.

В нижеприведенном описании, множество деталей изложено с тем, чтобы предоставлять более полное пояснение вариантов осуществления настоящего изобретения. Тем не менее, специалистам в данной области техники должно быть очевидным, что варианты осуществления настоящего изобретения могут быть использованы на практике без этих конкретных деталей. В других случаях, известные структуры и устройства показаны в форме блок-схемы, а не подробно, чтобы не затруднять понимание вариантов осуществления настоящего изобретения. Помимо этого, признаки различных вариантов осуществления, описанных далее, могут комбинироваться между собой, если прямо не указано иное.

Во-первых, в разделе 1, описывается неравномерная ортогональная гребенка фильтров на основе каскадирования двух MDCT и уменьшения наложения спектров во временной области (TDAR), которая позволяет достигать импульсных характеристик, которые являются компактными во времени и по частоте [1]. После этого, в разделе 2, перцепционное качество такой неравномерной гребенки фильтров в сценарии аудиокодера оценивается и сравнивается с производительностью равномерной гребенки фильтров с переключением окон, используемой в текущих кодерах, к примеру, при усовершенствованном кодировании аудио (AAC) [2].

1. Неравномерная ортогональная гребенка фильтров на основе каскадирования двух MDCT и уменьшения наложения спектров во временной области (TDAR)

Фиг. 1 показывает принципиальную блок-схему аудиопроцессора 100, выполненного с возможностью обрабатывать аудиосигнал 102, с тем чтобы получать субполосное представление аудиосигнала, согласно варианту осуществления. Аудиопроцессор 100 содержит каскад 104 каскадного перекрывающегося критически дискретизированного преобразования (LCST) и каскад 106 уменьшения наложения спектров во временной области (TDAR).

Каскад 104 каскадного перекрывающегося критически дискретизированного преобразования выполнен с возможностью выполнять каскадное перекрывающееся критически дискретизированное преобразование, по меньшей мере, для двух частично перекрывающихся блоков 108_1 и 108_2 выборок аудиосигнала 102, с тем чтобы получать набор 110_1,1 субполосных выборок на основе первого блока 108_1 выборок (по меньшей мере, из двух перекрывающихся блоков 108_1 и 108_2 выборок) аудиосигнала 102 и получать соответствующий набор 110_2,1 субполосных выборок на основе второго блока 108_2 выборок (по меньшей мере, из двух перекрывающихся блоков 108_1 и 108_2 выборок) аудиосигнала 102.

Каскад 104 уменьшения наложения спектров во временной области выполнен с возможностью выполнять комбинирование со взвешиванием двух соответствующих наборов 110_1,1 и 110_2,1 субполосных выборок (т.е. субполосных выборок, соответствующих идентичной субполосе частот), причем один из них получен на основе первого блока 108_1 выборок аудиосигнала 102, а другой получен на основе второго блока 108_2 выборок аудиосигнала, с тем чтобы получать субполосное представление 112_1 с уменьшенным наложением спектров аудиосигнала 102.

В вариантах осуществления, каскад 104 каскадного перекрывающегося критически дискретизированного преобразования может содержать, по меньшей мере, два каскада каскадного перекрывающегося критически дискретизированного преобразования, или другими словами, причем два каскада перекрывающегося критически дискретизированного преобразования соединяются каскадным способом.

Каскад каскадного перекрывающегося критически дискретизированного преобразования может представлять собой каскад каскадного MDCT (MDCT=модифицированное дискретное косинусное преобразование). Каскадный MDCT-каскад может содержать, по меньшей мере, два MDCT-каскада.

Естественно, каскад каскадного перекрывающегося критически дискретизированного преобразования также может представлять собой каскад каскадного MDST (MDST=модифицированное дискретное синусное преобразование) или MLT (MLT=модулированное перекрывающееся преобразование), содержащий, по меньшей мере, два MDST- или MLT-каскада, соответственно.

Два соответствующих набора 110_1,1 и 110_2,1 субполосных выборок могут представлять собой субполосные выборки, соответствующие идентичной субполосе частот (т.е. полосе частот).

Фиг. 2 показывает принципиальную блок-схему аудиопроцессора 100, выполненного с возможностью обрабатывать аудиосигнал 102, с тем чтобы получать субполосное представление аудиосигнала, согласно дополнительному варианту осуществления.

Как показано на фиг. 2, каскад 104 каскадного перекрывающегося критически дискретизированного преобразования может содержать первый каскад 120 перекрывающегося критически дискретизированного преобразования, выполненный с возможностью выполнять перекрывающиеся критически дискретизированные преобразования для первого блока 108_1 (2M) выборок (x_i-1(n), 0≤n≤2M-1) и второго блока 108_2 (2M) выборок (x_i(n), 0≤n≤2M-1), по меньшей мере, из двух частично перекрывающихся блоков 108_1 и 108_2 выборок аудиосигнала 102, с тем чтобы получать первый набор 124_1 из (M) элементов разрешения (LCST-коэффициентов) (X_i-1(k), 0≤k≤M-1) для первого блока 108_1 выборок и второй набор 124_2 из (M) элементов разрешения (LCST-коэффициентов) (X_i(k), 0≤k≤M-1) для второго блока 108_2 выборок.

Каскад 104 каскадного перекрывающегося критически дискретизированного преобразования может содержать второй каскад 126 перекрывающегося критически дискретизированного преобразования, выполненный с возможностью выполнять перекрывающееся критически дискретизированное преобразование для сегмента 128_1,1 (собственного поднабора) (X_{v, i-1}(k)) первого набора 124_1 элементов разрешения и выполнять перекрывающееся критически дискретизированное преобразование для сегмента 128_2,1 (собственного поднабора) (X_{v, i}(k)) второго набора 124_2 элементов разрешения, причем каждый сегмент ассоциирован с субполосой частот аудиосигнала 102, с тем чтобы получать набор 110_1,1 субполосных выборок (ŷ_{v, i-1}(m)) для первого набора 124_1 элементов разрешения и набор 110_2,1 субполосных выборок (ŷ_{v, i}(m)) для второго набора 124_2 элементов разрешения.

Фиг. 3 показывает принципиальную блок-схему аудиопроцессора 100, выполненного с возможностью обрабатывать аудиосигнал 102, с тем чтобы получать субполосное представление аудиосигнала, согласно дополнительному варианту осуществления. Другими словами, фиг. 3 показывает схему гребенки аналитических фильтров. В силу этого, предполагаются соответствующие оконные функции. Следует отметить, что для простоты, на фиг. 3 указывается (только) обработка первой половины субполосного кадра (y[m], 0<=m<N/2) (т.е. только первая строка уравнения (6)).

Как показано на фиг. 3, первый каскад 120 перекрывающегося критически дискретизированного преобразования может быть выполнен с возможностью выполнять первое перекрывающееся критически дискретизированное преобразование 122_1 (например, MDCT i-1) для первого блока 108_1 (2M) выборок (x_i-1(n), 0≤n≤2M-1), с тем чтобы получать первый набор 124_1 из (M) элементов разрешения (LCST-коэффициентов) (X_i-1(k), 0≤k≤M-1) для первого блока 108_1 выборок, и выполнять второе перекрывающееся критически дискретизированное преобразование 122_2 (например, MDCT i) для второго блока 108_2 (2M) выборок (x_i(n), 0≤n≤2M-1), с тем чтобы получать второй набор 124_2 из (M) элементов разрешения (LCST-коэффициентов) (X_i(k), 0≤k≤M-1) для второго блока 108_2 выборок.

Подробно, второй каскад 126 перекрывающегося критически дискретизированного преобразования может быть выполнен с возможностью выполнять перекрывающиеся критически дискретизированные преобразования, по меньшей мере, для двух частично перекрывающихся сегментов 128_1,1 и 128_1,2 (собственных поднаборов) (X_{v, i-1}(k)) первого набора 124_1 элементов разрешения и выполнять перекрывающиеся критически дискретизированные преобразования, по меньшей мере, для двух частично перекрывающихся сегментов 128_2,1 и 128_2,2 (собственных поднаборов) (X_{v, i}(k)) второго набора элементов разрешения, причем каждый сегмент ассоциирован с субполосой частот аудиосигнала, с тем чтобы получать, по меньшей мере, два набора 110_1,1 и 110_1,2 субполосных выборок (ŷ_{v, i-1}(m)) для первого набора 124_1 элементов разрешения и, по меньшей мере, два набора 110_2,1 и 110_2,2 субполосных выборок (ŷ_{v, i}(m)) для второго набора 124_2 элементов разрешения.

Например, первый набор 110_1,1 субполосных выборок может представлять собой результат первого перекрывающегося критически дискретизированного преобразования 132_1,1 на основе первого сегмента 132_1,1 первого набора 124_1 элементов разрешения, при этом второй набор 110_1,2 субполосных выборок может представлять собой результат второго перекрывающегося критически дискретизированного преобразования 132_1,2 на основе второго сегмента 128_1,2 первого набора 124_1 элементов разрешения, при этом третий набор 110_2,1 субполосных выборок может представлять собой результат третьего перекрывающегося критически дискретизированного преобразования 132_2,1 на основе первого сегмента 128_2,1 второго набора 124_2 элементов разрешения, при этом четвертый набор 110_2,2 субполосных выборок может представлять собой результат четвертого перекрывающегося критически дискретизированного преобразования 132_2,2 на основе второго сегмента 128_2,2 второго набора 124_2 элементов разрешения.

В силу этого, каскад 106 уменьшения наложения спектров во временной области может быть выполнен с возможностью выполнять комбинирование со взвешиванием первого набора 110_1,1 субполосных выборок и третьего набора 110_2,1 субполосных выборок, с тем чтобы получать первое субполосное представление 112_1 с уменьшенным наложением спектров (y_1,i[m₁]) аудиосигнала, при этом каскад 106 уменьшения наложения спектров в области может быть выполнен с возможностью выполнять комбинирование со взвешиванием второго набора 110_1,2 субполосных выборок и четвертого набора 110_2,2 субполосных выборок, с тем чтобы получать второе субполосное представление 112_2 с уменьшенным наложением спектров (y_2,i[m₂]) аудиосигнала.

Фиг. 4 показывает принципиальную блок-схему аудиопроцессора 200 для обработки субполосного представления аудиосигнала, с тем чтобы получать аудиосигнал 102, согласно варианту осуществления. Аудиопроцессор 200 содержит каскад 202 обратного уменьшения наложения спектров во временной области (TDAR) и каскад 204 каскадного обратного перекрывающегося критически дискретизированного преобразования (LCST).

Каскад 202 обратного уменьшения наложения спектров во временной области выполнен с возможностью выполнять комбинирование со взвешиванием (и сдвигом) двух соответствующих субполосных представлений 112_1 и 112_2 с уменьшенным наложением спектров (y_{v, i}(m), y_{v, i-1}(m)) аудиосигнала 102, с тем чтобы получать субполосное представление 110_1 с наложением спектров (ŷ_{v, i}(m)), при этом субполосное представление с наложением спектров представляет собой набор 110_1 субполосных выборок.

Каскад 204 каскадного обратного перекрывающегося критически дискретизированного преобразования выполнен с возможностью выполнять каскадное обратное перекрывающееся критически дискретизированное преобразование для набора 110_1 субполосных выборок, с тем чтобы получать набор выборок, ассоциированных с блоком 108_1 выборок аудиосигнала 102.

Фиг. 5 показывает принципиальную блок-схему аудиопроцессора 200 для обработки субполосного представления аудиосигнала, с тем чтобы получать аудиосигнал 102, согласно дополнительному варианту осуществления. Каскад 204 каскадного обратного перекрывающегося критически дискретизированного преобразования может содержать первый каскад 208 обратного перекрывающегося критически дискретизированного преобразования (LCST) и первый каскад 210 суммирования с перекрытием.

Первый каскад 208 обратного перекрывающегося критически дискретизированного преобразования может быть выполнен с возможностью выполнять обратное перекрывающееся критически дискретизированное преобразование для набора 110_1,1 субполосных выборок, с тем чтобы получать набор 128_1,1 элементов разрешения, ассоциированных с данной субполосой частот аудиосигнала (v,i(k))..

Первый каскад 210 суммирования с перекрытием может быть выполнен с возможностью выполнять конкатенацию наборов элементов разрешения, ассоциированных с множеством субполос частот аудиосигнала, что содержит комбинирование со взвешиванием набора 128_1,1 элементов (v,i(k))разрешения, ассоциированных с данной субполосой (v) частот аудиосигнала 102, с набором 128_1,2 элементов (v,i(k))разрешения, ассоциированных с другой субполосой (v-1) частот аудиосигнала 102, с тем чтобы получать набор 124_1 элементов разрешения, ассоциированных с блоком 108_1 выборок аудиосигнала 102.

Как показано на фиг. 5, каскад 204 каскадного обратного перекрывающегося критически дискретизированного преобразования может содержать второй каскад 212 обратного перекрывающегося критически дискретизированного преобразования (LCST), выполненный с возможностью выполнять обратное перекрывающееся критически дискретизированное преобразование для набора 124_1 элементов разрешения, ассоциированных с блоком 108_1 выборок аудиосигнала 102, с тем чтобы получать набор 206_1,1 выборок, ассоциированных с блоком 108_1 выборок аудиосигнала 102.

Дополнительно, каскад 204 каскадного обратного перекрывающегося критически дискретизированного преобразования может содержать второй каскад 214 суммирования с перекрытием, выполненный с возможностью суммировать с перекрытием набор 206_1,1 выборок, ассоциированных с блоком 108_1 выборок аудиосигнала 102, и другой набор 206_2,1 выборок, ассоциированных с другим блоком 108_2 выборок аудиосигнала, причем блок 108_1 выборок и другой блок 108_2 выборок аудиосигнала 102 частично перекрываются, с тем чтобы получать аудиосигнал 102.

Фиг. 6 показывает принципиальную блок-схему аудиопроцессора 200 для обработки субполосного представления аудиосигнала, с тем чтобы получать аудиосигнал 102, согласно дополнительному варианту осуществления. Другими словами, фиг. 6 показывает схему гребенки синтезирующих фильтров. В силу этого, предполагаются соответствующие оконные функции. Следует отметить, что для простоты, на фиг. 6 указывается (только) обработка первой половины субполосного кадра (y[m], 0<=m<N/2) (т.е. только первая строка уравнения (6)).

Как описано выше, аудиопроцессор 200 содержит каскад 202 обратного уменьшения наложения спектров во временной области и каскад 204 обратного каскадного перекрывающегося критически дискретизированного преобразования, содержащий первый каскад 208 обратного перекрывающегося критически дискретизированного преобразования и второй каскад 212 обратного перекрывающегося критически дискретизированного преобразования.

Каскад 104 обратного уменьшения во временной области выполнен с возможностью выполнять первое комбинирование 220_1 со взвешиванием и сдвигом первого и второго субполосных представлений y_1,i-1[_m1] и y_1,i[_m1] с уменьшенным наложением спектров, с тем чтобы получать первое субполосное представление 110_1,1 ŷ_1,i[m₁] с наложением спектров, при этом субполосное представление с наложением спектров представляет собой набор субполосных выборок, и выполнять второе комбинирование 220_2 со взвешиванием и сдвигом третьего и четвертого субполосных представлений y_2,i-1[_m1] и y_2,i[_m1] с уменьшенным наложением спектров, с тем чтобы получать второе субполосное представление 110_2,1 ŷ_2,i[m₁] с наложением спектров, при этом субполосное представление с наложением спектров представляет собой набор субполосных выборок.

Первый каскад 208 обратного перекрывающегося критически дискретизированного преобразования выполнен с возможностью выполнять первое обратное перекрывающееся критически дискретизированное преобразование 222_1 для первого набора 110_1,1 ŷ_1,i[m₁] субполосных выборок, с тем чтобы получать набор 128_1,1 элементов разрешения, ассоциированных с данной субполосой частот аудиосигнала (v,i(k)), и выполнять второе обратное перекрывающееся критически дискретизированное преобразование 222_2 для второго набора 110_2,1 ŷ_2,i[m₁] субполосных выборок, с тем чтобы получать набор 128_2,1 элементов разрешения, ассоциированных с данной субполосой частот аудиосигнала (v,i(k)).

Второй каскад 212 обратного перекрывающегося критически дискретизированного преобразования выполнен с возможностью выполнять обратное перекрывающееся критически дискретизированное преобразование для перекрывающегося и суммированного набора элементов разрешения, полученного посредством перекрытия и суммирования наборов 128_1,1 и 128_2,1 элементов разрешения, предоставленных посредством первого каскада 208 обратного перекрывающегося критически дискретизированного преобразования, с тем чтобы получать блок 108_2 выборок.

Далее описываются варианты осуществления аудиопроцессоров, показанных на фиг. 1-6, в которых примерно предполагается, что каскад 104 каскадного перекрывающегося критически дискретизированного преобразования представляет собой MDCT-каскад, т.е. первый и второй каскады 120 и 126 перекрывающегося критически дискретизированного преобразования представляют собой MDCT-каскады, и каскад 204 обратного каскадного перекрывающегося критически дискретизированного преобразования представляет собой обратный каскадный MDCT-каскад, т.е. первый и второй каскады 120 и 126 обратного перекрывающегося критически дискретизированного преобразования представляют собой обратные MDCT-каскады. Естественно, нижеприведенное описание также является применимым к другим вариантам осуществления каскада 104 каскадного перекрывающегося критически дискретизированного преобразования и каскада 204 обратного перекрывающегося критически дискретизированного преобразования, к примеру, к каскадному MDST- или MLT-каскаду или к обратному каскадному MDST- или MLT-каскаду.

В силу этого, описанные варианты осуществления могут работать для последовательности MDCT-спектров ограниченной длины и использовать MDCT и уменьшение наложения спектров во временной области (TDAR) в качестве операции субполосного объединения. Результирующая неравномерная гребенка фильтров является перекрывающейся, ортогональной и обеспечивает субполосные ширины k=2ⁿ с n∈N. Вследствие TDAR, может достигаться временно и спектрально более компактная субполосная импульсная характеристика.

Далее описываются варианты осуществления гребенки фильтров.

Реализация гребенки фильтров непосредственно базируется на общих схемах перекрывающегося MDCT-преобразования: Исходное преобразование с перекрытием и кодированием со взвешиванием остается неизменным.

Без потери общности, следующая система обозначений допускает ортогональные MDCT-преобразования, например, в которых аналитического и синтезирующего окна являются идентичными.

где к(k, n, M) является ядром MDCT-преобразования, и h(n) является подходящим аналитическим окном.

Выводное значение этого преобразования X_i(k) после этого сегментируется на субполос частот с отдельными ширинами N_vи снова преобразуется с использованием MDCT Это приводит к гребенке фильтров с перекрытием во временном и спектральном направлении.

Для упрощения системы обозначений в данном документе, используется один общий коэффициент N объединения для всех субполос частот; тем не менее, любое допустимое переключение/упорядочение MDCT окна может использоваться для того, чтобы реализовывать требуемое частотно-временное разрешение. Ниже содержится дополнительная информация относительно проектирования разрешения.

где w(k) является подходящим аналитическим окном и, в общем, отличается от h(n) по размеру и может отличаться по типу окна. Поскольку варианты осуществления применяют окно в частотной области, следует заметить, что временная и частотная избирательность окна переставляются.

Для надлежащей обработки границ, дополнительное смещение от N/2 может вводиться в уравнении (4), комбинированное с прямоугольными половинами начального/конечного окна на границах. Также для упрощения системы обозначений, это смещение не учитывается здесь.

Вывод представляет собой список v-векторов отдельных длин N_v коэффициентов с соответствующими полосами пропускания и временным разрешением, пропорциональным этой полосе пропускания.

Тем не менее, эти векторы содержат наложение спектров из исходного MDCT-преобразования и в силу этого демонстрируют плохую временную компактность. Чтобы компенсировать это наложение спектров, TDAR может упрощаться.

Выборки, используемые для TDAR, извлекаются из двух смежных блоков v субполосных выборок в текущем и предыдущем MDCT-кадре i и i-1. Результат представляет собой уменьшенное наложение спектров во второй половине предыдущего кадра и в первой половине второго кадра.

для с:

TDAR-коэффициенты , , и могут быть спроектированы с возможностью минимизировать остаточное наложение спектров. Ниже вводится простой способ оценки на основе синтезирующего окна g(n) синтезирующего.

Также следует отметить, что, если A является несингулярным, операции (6) и (8) соответствуют биортогональной системе. Дополнительно, если и , например, оба MDCT являются ортогональными, и матрица A является ортогональной, полный конвейер составляет ортогональное преобразование.

Чтобы вычислять обратное преобразование, выполняется первое обратное TDAR,

после которого выполняется обратное MDCT, и должно выполняться подавление наложения спектров во временной области (TDAC, хотя подавление наложения спектров осуществляется вдоль частотной оси здесь), с тем чтобы подавлять наложение спектров, сформированное в уравнении 5:

В завершение, начальное MDCT в уравнении 2 инвертируется, и снова выполняется TDAC:

Далее описываются проектные ограничения частотно-временного разрешения. Хотя любое требуемое частотно-временное разрешение является возможным, некоторые ограничения для проектирования результирующих оконных функций должны соблюдаться с тем, чтобы обеспечивать обратимость. В частности, наклоны двух смежных субполос частот могут быть симметричными таким образом, что уравнение (6) удовлетворяет условию Принцена-Брэдли [J. Princen, A. Johnson и A. Bradley, "Subband/transform coding using filter bank designs based on time domain aliasing cancellation", in Acoustics, Speech and Signal Processing, IEEE International Conference on ICASSP '87, апрель года 1987, том 12, стр. 2161-2164]. Схема переключения окон, введенная в [B. Edler, "Codierung von Audiosignalen mit überlappender Transformation und adaptiven Fensterfunktionen", Frequenz, том 43, стр. 252-256, сентябрь 1989 года], первоначально спроектированная с возможностью противостоять эффектам опережающего эхо, может применяться здесь. См. [Olivier Derrien, Thibaud Necciari и Peter Balazs, "A quasi-orthogonal, invertible and perceptually relevant time-frequency transform for audio coding", in EUSIPCO, Ницца, Франция, август 2015 года].

Во-вторых, сумма всех длин вторых MDCT-преобразований должна составлять в сумме общую длину предоставленных MDCT-коэффициентов. Полосы частот могут выбираться с возможностью не преобразовываться с использованием единичного ступенчатого окна с нулями в требуемых коэффициентах. Тем не менее, свойства симметрии соседних окон должны отслеживаться [B. Edler, "Codierung von Audiosignalen mit überlappender Transformation und adaptiven Fensterfunktionen", Frequenz, том 43, стр. 252-256, сентябрь 1989 года]. Результирующее преобразование должно давать в результате нули в этих полосах частот, так что исходные коэффициенты могут непосредственно использоваться.

В качестве возможного частотно-временного разрешения, полосы частот коэффициентов масштабирования из наиболее современных аудиокодеров могут непосредственно использоваться.

Далее описывается вычисление коэффициентов уменьшения наложения спектров во временной области (TDAR).

Согласно вышеуказанному временному разрешению, каждая субполосная выборка соответствует M/N_v исходных выборок или интервалу N_v, умноженному на размер, в качестве одной исходной выборки.

Кроме того, величина наложения спектров в каждой субполосной выборке зависит от величины наложения спектров в интервале, который она представляет. Поскольку наложение спектров взвешивается с помощью аналитического окна h(n), использование приближенного значения фусинтезирующего окна в каждом интервале субполосной выборки предполагается в качестве хорошей первой оценки для TDAR-коэффициента.

Эксперименты демонстрируют, что две очень простых схемы вычисления коэффициентов обеспечивают хорошие начальные значения с улучшенной временной и спектральной компактностью. Оба способа основаны на гипотетическом синтезирующем окне длины 2N_v.

1) Для параметрических окон, таких как синусоидальные или извлеченные методом Кайзера-Бесселя, может задаваться простое более короткое окно идентичного типа.

2) Как для параметрических, так и для табличных окон без закрытого представления, окно может разделяться на 2N_v секций равного размера, обеспечивая возможность получения коэффициентов с использованием среднего значения каждой секции:

С учетом граничных MDCT-условий и зеркалирования наложения спектров, в таком случае в результате получаются TDAR-коэффициенты:

или в случае ортогонального преобразования:

Независимо от того, какое решение по аппроксимации коэффициентов выбрано, при условии, что A является несингулярным, идеальное восстановление всей гребенки фильтров сохраняется. В других отношениях субоптимальный выбор коэффициентов должен затрагивать только величину остаточного наложения спектров в субполосном сигнале ; тем не менее, не в сигнале x(n), синтезированном посредством гребенки обратных фильтров.

Фиг. 7 показывает на схемах пример субполосных выборок (верхний график) и разброс их выборок по времени и частоте (нижний график). Снабженная примечаниями выборка имеет более широкую полосу пропускания, но меньший разброс по времени, чем нижние выборки. Аналитические окна (нижний график) имеют полное разрешение одного коэффициента в расчете на исходную временную выборку. TDAR-коэффициенты в силу этого должны аппроксимироваться (снабжаться посредством точки) для каждой временной области субполосных выборок (m=256:::384).

Далее описываются результаты (моделирования).

Фиг. 8 показывает спектральную и временную неопределенность, полученную посредством нескольких различных преобразований, как показано в [Frederic Bimbot, Ewen Camberlein и Pierrick Philippe, "Adaptive filter banks using fixed size mdct and subband merging for audio coding-comparison with the mpeg aac filter banks", in Audio Engineering Society Convention 121, октябрь 2006 года].

Можно видеть, что преобразования на основе матрицы Адамара предлагают сильно ограниченные характеристики частотно-временного компромисса. Для растущих размеров объединения, дополнительное временное разрешение приводит к непропорционально высоким затратам в спектральной неопределенности.

Другими словами, фиг. 8 показывает сравнение спектрального и временного энергетического уплотнения различных преобразований. Встроенные метки обозначают длины кадров для MDCT, коэффициенты разбиения для разбиения Гейзенберга и коэффициенты объединения для всего остального.

Тем не менее, субполосное объединение с TDAR имеет линейный компромисс между временной и спектральной неопределенностью, параллельно простому равномерному MDCT. Их произведение является постоянным, хотя немного выше, чем простое равномерное MDCT. Для этого анализа, синусоидальное аналитическое окно и извлеченное методом Кайзера-Бесселя окно при субполосном объединении демонстрируют наиболее компактные результаты и в силу этого выбираются.

Тем не менее, кажется, что использование TDAR для коэффициента объединения N_v=2 снижает временную и спектральную компактность. Это обусловлено тем, что схема вычисления коэффициентов, введенная в разделе II-B, является слишком упрощенной и не аппроксимирует надлежащим образом значения для крутых наклонов оконной функции. Схема числовой оптимизации должна представляться в последующей публикации.

Эти значения компактности вычислены с использованием центра cog тяжести и эффективной длины квадратной формы импульсной характеристики , заданной как [Athanasios Papoulis, "Signal analysis", Electrical and electronic engineering series, McGraw-Hill, Нью-Йорк, Сан-Франциско, Париж, 1977 год]

Показаны средние значения всех импульсных характеристик каждой индивидуальной гребенки фильтров.

Фиг. 9 показывает сравнение двух примерных импульсных характеристик, сформированных посредством субполосного объединения с и без TDAR, простых коротких MDCT-блоков и субполосного объединения на основе матрицы Адамара, как предложено в [O.A. Niamut и R. Heusdens, "Flexible frequency decompositions for cosine-modulated filter banks", in Acoustics, Speech and Signal Processing, 2003. Proceedings (ICASSP '03), 2003 IEEE International Conference, апрель 2003 года, том 5, стр. V-449-52, том 5].

Плохая временная компактность преобразования с объединением на основе матрицы Адамара является четко видимой. Также можно четко видеть, что большинство артефактов наложения спектров в субполосе частот значительно уменьшаются посредством TDAR.

Другими словами, фиг. 9 показывает примерные импульсные характеристики объединенного субполосного фильтра, содержащего 8 из 1024 исходных элементов разрешения, с использованием способа, предложенного здесь без TDAR, с TDAR, способа, предложенного в [O.A. Niamut и R. Heusdens, "Subband merging in cosine-modulated filter banks", Signal Processing Letters, IEEE, том 10, № 4, стр. 111-114, апрель 2003 года], и с использованием меньшей длины MDCT-кадра в 256 выборок.

Фиг. 10 показывает блок-схему последовательности операций способа 300 для обработки аудиосигнала, с тем чтобы получать субполосное представление аудиосигнала. Способ 300 содержит этап 302 выполнения каскадного перекрывающегося критически дискретизированного преобразования, по меньшей мере, для двух частично перекрывающихся блоков выборок аудиосигнала, с тем чтобы получать набор субполосных выборок на основе первого блока выборок аудиосигнала и получать соответствующий набор субполосных выборок на основе второго блока выборок аудиосигнала. Дополнительно, способ 300 содержит этап 304 выполнения комбинирования со взвешиванием двух соответствующих наборов субполосных выборок, причем один из них получен на основе первого блока выборок аудиосигнала, а другой получен на основе второго блока выборок аудиосигнала, с тем чтобы получать субполосное представление с уменьшенным наложением спектров аудиосигнала.

Фиг. 11 показывает блок-схему последовательности операций способа 400 для обработки субполосного представления аудиосигнала, с тем чтобы получать аудиосигнал. Способ 400 содержит этап 402 выполнения комбинирования со взвешиванием (и сдвигом) двух соответствующих субполосных представлений с уменьшенным наложением спектров (различных блоков частично перекрывающихся выборок) аудиосигнала, с тем чтобы получать субполосное представление с наложением спектров, при этом субполосное представление с наложением спектров представляет собой набор субполосных выборок. Дополнительно, способ 400 содержит этап 404 выполнения каскадного обратного перекрывающегося критически дискретизированного преобразования для набора субполосных выборок, с тем чтобы получать набор выборок, ассоциированных с блоком выборок аудиосигнала.

Фиг. 12 показывает принципиальную блок-схему аудиокодера 150, согласно варианту осуществления. Аудиокодер 150 содержит аудиопроцессор (100), как описано выше, кодер 152, выполненный с возможностью кодировать субполосное представление с уменьшенным наложением спектров аудиосигнала, с тем чтобы получать кодированное субполосное представление с уменьшенным наложением спектров аудиосигнала, и модуль 154 формирования потоков битов, выполненный с возможностью формировать поток 156 битов из кодированного субполосного представления с уменьшенным наложением спектров аудиосигнала.

Фиг. 13 показывает принципиальную блок-схему аудиодекодера 250, согласно варианту осуществления. Аудиодекодер 250 содержит синтаксический анализатор 252 потоков битов, выполненный с возможностью синтаксически анализировать поток 154 битов, с тем чтобы получать кодированное субполосное представление с уменьшенным наложением спектров, декодер 254, выполненный с возможностью декодировать кодированное субполосное представление с уменьшенным наложением спектров, с тем чтобы получать субполосное представление с уменьшенным наложением спектров аудиосигнала, и аудиопроцессор 200, как описано выше.

Фиг. 14 показывает принципиальную блок-схему аудиоанализатора 180, согласно варианту осуществления. Аудиоанализатор 180 содержит аудиопроцессор 100, как описано выше, модуль 182 извлечения информации, выполненный с возможностью анализировать субполосное представление с уменьшенным наложением спектров, с тем чтобы предоставлять информацию, описывающую аудиосигнал.

Варианты осуществления предоставляют уменьшение наложения спектров во временной области (TDAR) в субполосах частот гребенок фильтров неравномерного ортогонального модифицированного дискретного косинусного преобразования (MDCT).

Варианты осуществления добавляют дополнительный этап постобработки в широко используемый конвейер MDCT-преобразования, причем непосредственно этап содержит только другое перекрывающееся MDCT-преобразование вдоль частотной оси и уменьшение наложения спектров во временной области (TDAR) вдоль каждой субполосной временной оси, обеспечивая возможность извлекать произвольные шкалы частот из MDCT-спектрограммы с улучшенной временной компактностью импульсной характеристики, при отсутствии введения дополнительной избыточности и с введением только одной кадровой MDCT-задержки.

2. Перцепционное кодирование аудио с адаптивными неравномерными расположениями частотно-временными плитками с использованием субполосного объединения и наложения спектров во временной области

Фиг. 15 показывает принципиальную блок-схему субкаскадов 132_1,1, 132_1,2, 132_2,1 и 132_2,2 перекрывающегося критически дискретизированного преобразования для второго каскада 126 перекрывающегося критически дискретизированного преобразования аудиопроцессора 100, показанного на фиг. 2 и 3, согласно варианту осуществления настоящего изобретения.

В силу этого, по меньшей мере, один из субкаскадов 132_1,1, 132_1,2, 132_2,1 и 132_2,2 перекрывающегося критически дискретизированного преобразования может быть выполнен с возможностью выполнять перекрывающиеся критически дискретизированные преобразования, имеющие идентичную длину кадра (например, коэффициент объединения) для соответствующего набора 128_1,1, 128_1,2, 128_2,1 и 128_2,2 элементов разрешения.

В вариантах осуществления, первый субкаскад 132_1,1 перекрывающегося критического преобразования может быть выполнен с возможностью выполнять N_1,1 перекрывающихся критически дискретизированных преобразований для N_1,1 поднаборов равной длины первого набора 128_1,1 элементов разрешения, полученных на основе сегментированного набора 124_1 элементов разрешения, соответствующих первому блоку 108_1 выборок, при этом N_1,1 перекрывающихся критически дискретизированных преобразований содержат идентичную длину кадра (например, коэффициент объединения), при этом N_1,1 является натуральным числом, большим или равным двум.

Например, при условии, что первый набор 128_1,1 элементов разрешения содержит 128 элементов разрешения (или коэффициентов), первый субкаскад 132_1,1 перекрывающегося критического преобразования может быть выполнен с возможностью выполнять, например, N_1,1=2 перекрывающихся критически дискретизированных преобразования для N_1,1=2 поднаборов по 64 элемента разрешения (т.е. 128 элементов разрешения, деленных на N_1,1), при этом N_1,1=2 перекрывающихся критически дискретизированных преобразования содержат идентичную длину кадра (например, коэффициент объединения), например, 64. Естественно, первый субкаскад 132_1,1 перекрывающегося критического преобразования также может быть выполнен с возможностью выполнять, например, N_1,1=4 (или 8) перекрывающихся критически дискретизированных преобразования для N_1,1=4 (или 8) поднаборов по 32 (или 16) элементов разрешения (т.е. 128 элементов разрешения, деленных на N_1,1), при этом N_1,1=4 (или 8) перекрывающихся критически дискретизированных преобразования содержат идентичную длину кадра (например, коэффициент объединения), например, 32 (или 16).

В вариантах осуществления, второй субкаскад 132_1,2 перекрывающегося критического преобразования может быть выполнен с возможностью выполнять N_1,2 перекрывающихся критически дискретизированных преобразований для N_1,2 поднаборов равной длины второго набора 128_1,2 элементов разрешения, полученных на основе сегментированного набора 124_1 элементов разрешения, соответствующих первому блоку 108_1 выборок, при этом N_1,2 перекрывающихся критически дискретизированных преобразований содержат идентичную длину кадра (например, коэффициент объединения), при этом N_1,2 является натуральным числом, большим или равным двум.

Например, при условии, что второй набор 128_1,2 элементов разрешения содержит 128 элементов разрешения (или коэффициентов), второй субкаскад 132_1,2 перекрывающегося критического преобразования может быть выполнен с возможностью выполнять, например, N_1,2=2 перекрывающихся критически дискретизированных преобразования для N_1,2=2 поднаборов по 64 элемента разрешения (т.е. 128 элементов разрешения, деленных на N_1,1), при этом N_1,2=2 перекрывающихся критически дискретизированных преобразования содержат идентичную длину кадра (например, коэффициент объединения), например, 64. Естественно, второй субкаскад 132_1,2 перекрывающегося критического преобразования также может быть выполнен с возможностью выполнять, например, N_1,2=4 (или 8) перекрывающихся критически дискретизированных преобразования для N_1,2=4 (или 8) поднаборов по 32 (или 16) элементов разрешения (т.е. 128 элементов разрешения, деленных на N_1,2), при этом N_1,2=4 (или 8) перекрывающихся критически дискретизированных преобразования содержат идентичную длину кадра (например, коэффициент объединения), например, 32 (или 16).

В вариантах осуществления, третий субкаскад 132_2,1 перекрывающегося критического преобразования может быть выполнен с возможностью выполнять N_2,1 перекрывающихся критически дискретизированных преобразований для N_2,1 поднаборов равной длины третьего набора 128_2,1 элементов разрешения, полученных на основе сегментированного набора 124_2 элементов разрешения, соответствующих второму блоку 108_2 выборок, при этом N_2,1 перекрывающихся критически дискретизированных преобразований содержат идентичную длину кадра (например, коэффициент объединения), при этом N_2,1 является натуральным числом, большим или равным двум.

Например, при условии, что третий набор 128_2,1 элементов разрешения содержит 128 элементов разрешения (или коэффициентов), третий субкаскад 132_2,1 перекрывающегося критического преобразования может быть выполнен с возможностью выполнять, например, N_2,1=2 перекрывающихся критически дискретизированных преобразования для N_2,1=2 поднаборов по 64 элемента разрешения (т.е. 128 элементов разрешения, деленных на N_1,1), при этом N_1,1=2 перекрывающихся критически дискретизированных преобразования содержат идентичную длину кадра (например, коэффициент объединения), например, 64. Естественно, третий субкаскад 132_2,1 перекрывающегося критического преобразования также может быть выполнен с возможностью выполнять, например, N_2,1=4 (или 8) перекрывающихся критически дискретизированных преобразования для N_2,1=4 (или 8) поднаборов по 32 (или 16) элементов разрешения (т.е. 128 элементов разрешения, деленных на N_1,1), при этом N_2,1=4 (или 8) перекрывающихся критически дискретизированных преобразования содержат идентичную длину кадра (например, коэффициент объединения), например, 32 (или 16).

В вариантах осуществления, четвертый субкаскад 132_2,2 перекрывающегося критического преобразования может быть выполнен с возможностью выполнять N_2,2 перекрывающихся критически дискретизированных преобразований для N_2,2 поднаборов равной длины четвертого набора 128_2,2 элементов разрешения, полученных на основе сегментированного набора 124_2 элементов разрешения, соответствующих второму блоку 108_2 элементов разрешения, при этом N_2,2 перекрывающихся критически дискретизированных преобразований содержат идентичную длину кадра (например, коэффициент объединения), при этом N_2,2 является натуральным числом, большим или равным двум.

Например, при условии, что четвертый набор 128_2,2 субполосных элементов разрешения содержит 128 элементов разрешения (или коэффициентов), четвертый субкаскад 132_2,2 перекрывающегося критического преобразования может быть выполнен с возможностью выполнять, например, N_2,2=2 перекрывающихся критически дискретизированных преобразования для N_2,2=2 поднаборов по 64 элемента разрешения (т.е. 128 элементов разрешения, деленных на N_2,2), при этом N_2,2=2 перекрывающихся критически дискретизированных преобразования содержат идентичную длину кадра (например, коэффициент объединения), например, 64. Естественно, четвертый субкаскад 132_2,2 перекрывающегося критического преобразования также может быть выполнен с возможностью выполнять, например, N_2,2=4 (или 8) перекрывающихся критически дискретизированных преобразования для N_2,2=4 (или 8) поднаборов по 32 (или 16) элементов разрешения (т.е. 128 элементов разрешения, деленных на N_2,2), при этом N_2,2=4 (или 8) перекрывающихся критически дискретизированных преобразования содержат идентичную длину кадра (например, коэффициент объединения), например, 32 (или 16).

В вариантах осуществления, первый набор 128_1,1 элементов разрешения и второй набор 128_1,2 элементов разрешения могут содержать идентичную или различную длину (т.е. число элементов разрешения).

В вариантах осуществления, N_1,1 и N_1,2 могут представлять собой идентичные или отличающиеся натуральные числа.

В вариантах осуществления, третий набор 128_2,1 элементов разрешения и четвертый набор 128_2,2 элементов разрешения могут содержать идентичную или различную длину (т.е. число элементов разрешения).

В вариантах осуществления, N_2,1 и N_2,2 могут представлять собой идентичные или отличающиеся натуральные числа.

В вариантах осуществления, если TDAR активируется, первый набор 128_1,1 элементов разрешения и третий набор 128_2,1 элементов разрешения могут содержать идентичную длину (т.е. идентичное число элементов разрешения). Кроме того, N_1,1 и N_2,1 могут представлять собой идентичное натуральное число. Аналогично, также второй набор 128_1,2 элементов разрешения и четвертый набор 128_2,2 элементов разрешения могут содержать идентичную длину (т.е. идентичное число элементов разрешения). Кроме того, N_2,1 и N_2,2 могут представлять собой идентичное натуральное число.

В вариантах осуществления, если TDAR деактивируется, первый набор 128_1,1 элементов разрешения и третий набор 128_2,1 элементов разрешения также могут содержать различные длины (т.е. различные числа элементов разрешения), и также N_1,1 и N_2,1 могут представлять собой различные натуральные числа. Аналогично, второй набор 128_1,2 элементов разрешения и четвертый набор 128_2,2 элементов разрешения также могут содержать различные длины (т.е. различные числа элементов разрешения), и также N_2,1 и N_2,2 могут представлять собой различные натуральные числа.

Фиг. 16 показывает принципиальную блок-схему субкаскадов 222_1 и 222_2 обратного перекрывающегося критически дискретизированного преобразования для первого каскада 208 обратного перекрывающегося критически дискретизированного преобразования аудиопроцессора 200, показанного на фиг. 5 и 6, согласно варианту осуществления настоящего изобретения.

В силу этого, по меньшей мере, один из субкаскадов 222_1 и 222_2 обратного перекрывающегося критически дискретизированного преобразования может быть выполнен с возможностью выполнять обратные перекрывающиеся критически дискретизированные преобразования, имеющие идентичную длину кадра (например, коэффициент объединения), для соответствующего набора 110_1,1 и 110_1,2 субполосных выборок, с тем чтобы получать соответствующий набор 128_1,1 и 128_1,2 элементов разрешения.

В вариантах осуществления, первый субкаскад 222_1 обратного перекрывающегося критического преобразования может быть выполнен с возможностью выполнять N_1,1 обратных перекрывающихся критически дискретизированных преобразований для N_1,1 поднаборов равной длины первого набора 110_1 субполосных выборок, при этом N_1,1 перекрывающихся критически дискретизированных преобразований содержат идентичную длину кадра (например, коэффициент объединения), при этом N_1,1 является натуральным числом, большим или равным двум.

В вариантах осуществления, второй субкаскад 222_2 обратного перекрывающегося критического преобразования может быть выполнен с возможностью выполнять обратные перекрывающиеся критически дискретизированные преобразования N_1,2 для N_1,2 поднаборов равной длины второго набора 110_1 субполосных выборок, при этом N_1,2 перекрывающихся критически дискретизированных преобразований содержат идентичную длину кадра (например, коэффициент объединения), при этом N_1,2 является натуральным числом, большим или равным двум.

Далее описываются подробные варианты осуществления неравномерной гребенки фильтров. Дополнительно, перцепционное качество такой неравномерной гребенки фильтров в сценарии аудиокодера оценивается и сравнивается с производительностью равномерной гребенки фильтров с переключением окон, используемой в текущих кодерах, к примеру, при усовершенствованном кодировании аудио (AAC) [2].

2.1. Система кодирования

Система оценки моделирует простой перцепционный кодер, с гребенкой аналитических фильтров, психоакустической моделью [4], квантователем, оценкой перцепционной энтропии [5] и гребенкой синтезирующих фильтров. В двух конкурирующих системах, гребенка фильтров или равномерным MDCT с переключением окон [6] (WS) или неравномерным MDCT с субполосным объединением и (SM) TDAR[1].

Релевантные параметры гребенки фильтров (границы переключения окон для равномерного MDCT или коэффициенты объединения и TDAR-границы для неравномерного MDCT) адаптивно и оптимально выбираются с возможностью минимизировать полную оставшуюся энтропию.

Дополнительные этапы постобработки или средства кодирования не могут использоваться.

2.1.1. Параметры гребенки фильтров

Гребенка фильтров переключения окон может использовать MDCT с обычными длинами AAC-кадров: длинные кадры по 1024 выборок или 8 коротких кадров по 128 выборок и соответствующие окна перехода с кодированием со взвешиванием между ними. Косинусоидальное окно может использоваться. Гребенка 120 фильтров субполосного объединения может использовать начальное MDCT длины кадра, например, в 1024 и затем разделять спектр на 8 полос частот коэффициентов объединения (например, 128_1,1, 128_1,2 и т.д.) по 128 коэффициентов. Каждая полоса частот коэффициентов объединения затем может объединяться с MDCT для длины кадра , называемой коэффициентом объединения. Согласно проектированию системы, во время анализа оптимальный вариант выбора в коэффициенте объединения по-прежнему неизвестен, и каждая полоса частот коэффициентов объединения не знает коэффициент объединения ни одного из своих соседних узлов. Таким образом, окна на границах полосы коэффициентов объединения могут выбираться таким образом, что они всегда являются асимметричными и достаточно крутыми для того, чтобы приспосабливать самый крутой соседний коэффициент объединения, см. фиг. 17.

Подробно, фиг. 17 показывает на схеме оконные функции, используемые для сегментации набора (124_1) элементов разрешения, с тем чтобы получать наборы (или сегменты) (128_1,1, 128_1,2) элементов разрешения. Другими словами, фиг. 16 показывает примерные варианты выбора окон в четырех полосах частот коэффициентов объединения. Крутые окна на границе полосы коэффициентов объединения выделяются черным цветом.

Это проектное решение ограничивает полную гибкость гребенки фильтров и вводит неидеальные временные пульсации для этих асимметричных окон [1], но предлагает способ для того, чтобы эффективно и независимо оптимизировать коэффициент объединения для каждой полосы частот коэффициентов объединения.

Косинусоидальное окно может использоваться в качестве окна преобразования, и извлеченное методом Кайзера-Бесселя окно с произвольно выбранным β=5,1 может выбираться в качестве окна объединения.

В завершение, размеры шагов квантования могут управляться с использованием действительнозначного параметра q искажения, который мультипликативно понижает или повышает оцененное пороговое значение маскирования из перцепционной модели на постоянный множитель q. После квантования модуль оценки перцепционной энтропии вычисляет теоретическую скорость r передачи битов, которая естественно зависит от q. Для q=1,0, психоакустическая модель прогнозирует прозрачное кодирование вообще без слышимых артефактов для больших значений q>1,0, размер шага квантования увеличивается, скорость r передачи битов падает, и воспринимаемое качество процесса предположительно должно ухудшаться.

2.1.2. Параметрическая оптимизация

Чтобы выполнять оптимальную настройку параметров, каждый сигнал преобразуется и квантуется с использованием всех возможных комбинаций параметров, и перцепционная энтропия каждого кадра для каждого параметра оценивается. Из числа всех выходных коэффициентов, вычисляется оптимальная комбинация параметров, которая минимизирует полную перцепционную энтропию, и выходной сигнал после этого синтезируется с использованием этих параметров.

Чтобы находить оптимальные параметры гребенки фильтров, каждая полоса частот коэффициентов объединения в каждом кадре (плитка объединения из 128 коэффициентов) квантуется, и ее энтропия вычисляется. Граф всех параметров всех плиток объединения в одной полосе частот коэффициентов объединения затем формирует решетку, в которой весовые коэффициенты каждой вероятности перехода задаются равными энтропии следующей плитки объединения [7].

Как отмечено выше, не все комбинации и переходы параметров должны обеспечивать возможность идеального восстановления во время синтеза, например, при переключении с длинных на короткие кадры, начальное асимметричное окно должно использоваться в промежутке. Аналогичные правила применяются для использования TDAR в неравномерной гребенке фильтров [1]. Чтобы предотвращать эти несанкционированные переходы параметров, вероятности перехода в решетке умножены на маску, которая кодирует все санкционированные и несанкционированные переходы, т.е. 1 для санкционированного и 1 для несанкционированных переходов.

После этого, тракт с минимальными весовыми коэффициентами через решетку вычисляется с использованием динамического программирования, приводя к полному оптимальному тракту параметров в каждой отдельной полосе частот коэффициентов объединения, что также гарантирует идеальное восстановление.

Этот подход требует нескольких проходов кодирования, очень большого упреждающего просмотра и в силу этого является неподходящим для фактического онлайнового кодера, тем не менее, он гарантирует то, что оба способа осуществляются с максимальной возможной эффективностью в любой момент времени. Для онлайнового кодирования, существуют способы для декодирования таких решетчатых схем с ограничениями по времени задержки [8].

Кроме того, система предполагает простую и несжатую передачу необходимой вспомогательной информации: Для переключения окон, 1 бит использован для каждого кадра, с тем чтобы передавать в служебных сигналах длинные и короткие блоки . Для субполосного объединения, 29 битов использованы в расчете на кадр, с тем чтобы передавать в служебных сигналах коэффициент объединения и TDAR-флаг (8 полос частот коэффициентов объединения с 6 коэффициентами объединения и 2 TDAR-значениями каждая, ). Коэффициенты масштабирования или пороговые значения маскирования известны на стороне декодера.

2.2. Общие наблюдения

При простом выполнении процесса кодирования/декодирования, можно наблюдать следующие свойства:

В двух-трех самых высоких полосах частот коэффициентов объединения, в диапазоне 15-24 кГц, кодер почти всегда выбирает коэффициент объединения в 1, отключая объединение. В средней секции, полосах 2-5 частот коэффициентов объединения или частотном диапазоне между 3-15 кГц, кодер главным образом выбирает коэффициент объединения в 1 или в 32. В более низкой полосе частот коэффициентов объединения, в диапазоне 0-3 кГц, кодер главным образом выбирает коэффициенты объединения в 1 и 2. Коэффициенты объединения в 4, 8 и 16 редко выбираются. См. фиг. 18.

Подробно, фиг. 18 показывает на схемах распределения вариантов выбора коэффициента объединения (MF) и уменьшения наложения спектров во временной области (TDAR), выполненных посредством кодера.

Это наблюдение согласуется с базовыми допущениями в отношении слуховой системы: вследствие высоких частот, имеющих очень высокое пороговое значение в тишине, фактически почти все квантуется до нуля, что делает выбор коэффициента объединения нерелевантным. На средних частотах, слуховая система имеет высокое временное разрешение, в то время как на нижних частотах человеческое ухо имеет более высокое частотное разрешение.

Во-вторых, следует отметить, что для любого выбранного параметра q искажения, соответствующая скорость передачи битов гребенки фильтров субполосного объединения ниже скорости передачи битов гребенки фильтров переключения окон. В среднем, неравномерная система требует на 5-13% меньшего числа битов в расчете на выборку для того, чтобы кодировать сигналы, см. фиг. 19.

Подробно, фиг. 19 показывает на схемах средние скорости передачи битов двух систем для различных параметров q искажения для 39 тестовых элементов.

2.3. Тестовая компоновка на основе прослушивания

Рассматриваются три различных настройки качества при различных коэффициентах размера шага квантователя и в силу этого средних скоростях передачи битов: прозрачное (HQ), немного ухудшенное (MQ) и умеренно ухудшенное (LQ), см. таблицу 1 на фиг. 20.

Подробно, таблица 1 на фиг. 20 перечисляет настройки качества и их параметр q искажения и результирующую среднюю скорость передачи битов.

Согласно проектированию перцепционной модели, для HQ слышимые артефакты не ожидаются [4]. Кроме того, фактически, в ходе мелкомасштабных ABC/HR-тестов (ITU-R BS.1116-3) [9] на основе прослушивания, слушатели-эксперты не могут выявлять существенные различия между ни одним способом и опорным сигналом. Поскольку маловероятно, что проведение такого теста на основе прослушивания должно обнаруживать какие-либо значимые результаты, он пропущен в пользу двух оставшихся настроек MQ и LQ качества.

Для MQ и LQ, параметр q искажения системы с гребенкой фильтров переключения окон выбирается таким образом, что его выходная скорость передачи битов совпадает с выходной скоростью передачи битов параметра q искажения гребенки фильтров субполосного объединения, что означает то, что параметр q искажения для гребенки фильтров субполосного объединения ниже, чем для гребенки фильтров переключения окон. Из этого следует, что при неравномерной гребенке фильтров более высокое воспринимаемое качество может достигаться при обеспечении скорости передачи битов, идентичной скорости передачи битов гребенки фильтров переключения окон. Чтобы тестировать это, проведен тест на основе прослушивания с использованием способа теста при использовании нескольких управляющих воздействий со скрытым опорным и привязочным сигналом (MUSHRA, ITU-R BS.1534-3) [10].

2.4. Корпус тестовых сигналов

Тестовые сигналы для этой оценки извлечены из тестового набора, широко используемого для разработки и настройки аудиокодеров. Он содержит мужскую и женскую речь и несколько музыкальных записей, содержащих гармонические и перкуссионные звуки. Все условия заключаются в громкости, нормализованной с использованием ITU-R BS.1770-4 [11]. См. таблицу 2 на фиг. 21. Подробно, таблица 2 на фиг. 21 перечисляет различные тестовые элементы.

2.5. Результаты тестирования на основе прослушивания

В общей сложности N=16 слушателей-экспертов приняли участие в тесте.

Во-первых, тест Шапиро-Вилка использован для того, чтобы тестировать попарные разности в количественных MUSHRA-показателях между двумя способами на предмет нормальности. Для LQ и MQ, разности являются существенно ненормальными, см. таблицу 3 на фиг. 22 и фиг. 4 на фиг. 23.

Подробно, таблица 3 на фиг. 22 перечисляет результаты теста Шапиро-Вилка на предмет нормальности для попарных разностей количественных MUSHRA-показателей между гребенкой фильтров переключения окон (WS) и гребенкой фильтров субполосного объединения (SM) при немного ухудшенных (MQ) и умеренно ухудшенных (LQ) настройках качества. W обозначает статистическую W-величину, p обозначает p-значение.

Следовательно, параметрический знаковый ранговый тест Уилкоксона использован вместо параметрического спаренного t-теста при всех условиях. Обобщенные результаты всех тестов приведены в таблице 4 на фиг. 24.

Подробно, таблица 4 на фиг. 24 перечисляет результаты по среднему значению, среднеквадратическому отклонению (SD) и на основе знакового рангового теста Уилкоксона для количественных MUSHRA-показателей, сравнивающих гребенку фильтров переключения окон (WS) и гребенку фильтров субполосного объединения (SM) при немного ухудшенных (MQ) и умеренно ухудшенных (LQ) настройках качества. W обозначает статистическую W-величину, p обозначает p-значение.

Знаковый ранговый тест Уилкоксона проведен, чтобы сравнивать перцепционное качество двух систем при MQ. Возникает значительная разность в количественных MUSHRA-показателях для гребенки фильтров переключения окон и гребенки фильтров субполосного объединения, p=0,000.

Во-вторых, знаковый ранговый тест Уилкоксона проведен, чтобы сравнивать перцепционное качество двух систем при настройке LQ качества. Возникает значительная разность в количественных MUSHRA-показателях для гребенки фильтров переключения окон и гребенки фильтров субполосного объединения, p=0,000.

2.6. Дополнительные варианты осуществления

Варианты осуществления предоставляют способ использования неравномерной ортогональной гребенки фильтров на основе MDCT-анализа/синтеза и TDAR в простом аудиокодере. Выше, его эффективность кодирования сравнивается с равномерной гребенкой MDCT-фильтров переключения окон. В среднем, неравномерная требует на 5-13% меньшего числа битов в расчете на выборку для того, чтобы кодировать тестовые сигналы. Эта дополнительная эффективность кодирования может использоваться для того, чтобы повышать воспринимаемое качество кодера при идентичной выходной скорости передачи битов.

В вышеописанном тесте, повышенное воспринимаемое качество в 6-7 MUSHRA-баллов выявлено с использованием MUSHRA-теста на основе прослушивания и последующего статистического анализа. Обнаружено, что разность в воспринимаемом качестве является статистически значительной.

Фиг. 26 показывает блок-схему последовательности операций способа 500 для обработки аудиосигнала, с тем чтобы получать субполосное представление аудиосигнала, согласно варианту осуществления настоящего изобретения. Способ 500 содержит этап 502 выполнения каскадного перекрывающегося критически дискретизированного преобразования, по меньшей мере, для двух частично перекрывающихся блоков выборок аудиосигнала, с тем чтобы получать набор субполосных выборок на основе первого блока выборок аудиосигнала и получать соответствующий набор субполосных выборок на основе второго блока выборок аудиосигнала. Способ 500 дополнительно содержит этап 504 выполнения комбинирования со взвешиванием двух соответствующих наборов субполосных выборок, причем один из них получен на основе первого блока выборок аудиосигнала, а другой получен на основе второго блока выборок аудиосигнала, с тем чтобы получать субполосное представление с уменьшенным наложением спектров аудиосигнала; при этом выполнение каскадного перекрывающегося критически дискретизированного преобразования содержит сегментацию набора элементов разрешения, полученного на основе первого блока выборок, с использованием, по меньшей мере, двух оконных функций, с тем чтобы получать, по меньшей мере, два сегментированных набора элементов разрешения на основе сегментированного набора элементов разрешения, соответствующего первому блоку выборок; при этом выполнение каскадного перекрывающегося критически дискретизированного преобразования содержит сегментацию набора элементов разрешения, полученного на основе второго блока выборок, с использованием, по меньшей мере, двух оконных функций, с тем чтобы получать, по меньшей мере, два набора элементов разрешения на основе сегментированного набора элементов разрешения, соответствующего второму блоку выборок; и при этом наборы элементов разрешения обрабатываются с использованием второго перекрывающегося критически дискретизированного преобразования из каскадного перекрывающегося критически дискретизированного преобразования, при этом второе перекрывающееся критически дискретизированное преобразование содержит выполнение перекрывающихся критически дискретизированных преобразований, имеющих идентичную длину кадра, по меньшей мере, для одного набора элементов разрешения.

Фиг. 27 показывает блок-схему последовательности операций способа 600 для способа для обработки субполосного представления аудиосигнала, с тем чтобы получать аудиосигнал, согласно варианту осуществления настоящего изобретения. Способ 600 содержит этап 602 выполнения комбинирования со взвешиванием двух соответствующих субполосных представлений с уменьшенным наложением спектров аудиосигнала, с тем чтобы получать субполосное представление с наложением спектров, при этом субполосное представление с наложением спектров представляет собой набор субполосных выборок. Дополнительно, способ 600 содержит этап 604 выполнения каскадного обратного перекрывающегося критически дискретизированного преобразования для набора субполосных выборок, с тем чтобы получать набор выборок, ассоциированных с блоком выборок аудиосигнала, при этом выполнение каскадного обратного перекрывающегося критически дискретизированного преобразования содержит выполнение первого обратного перекрывающегося критически дискретизированного преобразования для набора субполосных выборок, с тем чтобы получать набор элементов разрешения, ассоциированный с данной субполосой частот аудиосигнала, при этом выполнение первого обратного перекрывающегося критически дискретизированного преобразования содержит выполнение обратных перекрывающихся критически дискретизированных преобразований, имеющих идентичную длину кадра для набора субполосных выборок.

Далее описываются дополнительные варианты осуществления. В силу этого, нижеприведенные варианты осуществления могут комбинироваться с вышеуказанными вариантами осуществления.

Вариант 1 осуществления: Аудиопроцессор (100) для обработки аудиосигнала (102), с тем чтобы получать субполосное представление аудиосигнала (102), причем аудиопроцессор (100) содержит: каскад (104) каскадного перекрывающегося критически дискретизированного преобразования, выполненный с возможностью выполнять каскадное перекрывающееся критически дискретизированное преобразование, по меньшей мере, для двух частично перекрывающихся блоков (108_1; 108_2) выборок аудиосигнала (102), с тем чтобы получать набор (110_1,1) субполосных выборок на основе первого блока (108_1) выборок аудиосигнала (102) и получать соответствующий набор (110_2,1) субполосных выборок на основе второго блока (108_2) выборок аудиосигнала (102); и каскад (106) уменьшения наложения спектров во временной области, выполненный с возможностью выполнять комбинирование со взвешиванием двух соответствующих наборов (110_1,1; 110_1,2) субполосных выборок, причем один из них получен на основе первого блока (108_1) выборок аудиосигнала (102), а другой получен на основе второго блока (108_2) выборок аудиосигнала, с тем чтобы получать субполосное представление (112_1) с уменьшенным наложением спектров аудиосигнала (102).

Вариант 2 осуществления: Аудиопроцессор (100) согласно варианту 1 осуществления, в котором каскад (104) каскадного перекрывающегося критически дискретизированного преобразования содержит: первый каскад (120) перекрывающегося критически дискретизированного преобразования, выполненный с возможностью выполнять перекрывающиеся критически дискретизированные преобразования для первого блока (108_1) выборок и второго блока (108_2) выборок, по меньшей мере, из двух частично перекрывающихся блоков (108_1; 108_2) выборок аудиосигнала (102), с тем чтобы получать первый набор (124_1) элементов разрешения для первого блока (108_1) выборок и второй набор (124_2) элементов разрешения для второго блока (108_2) выборок.

Вариант 3 осуществления: Аудиопроцессор (100) согласно варианту 2 осуществления, в котором каскад (104) каскадного перекрывающегося критически дискретизированного преобразования дополнительно содержит: второй каскад (126) перекрывающегося критически дискретизированного преобразования, выполненный с возможностью выполнять перекрывающееся критически дискретизированное преобразование для сегмента (128_1,1) первого набора (124_1) элементов разрешения и выполнять перекрывающееся критически дискретизированное преобразование для сегмента (128_2,1) второго набора (124_2) элементов разрешения, причем каждый сегмент ассоциирован с субполосой частот аудиосигнала (102), с тем чтобы получать набор (110_1,1) субполосных выборок для первого набора элементов разрешения и набор (110_2,1) субполосных выборок для второго набора элементов разрешения.

Вариант 4 осуществления: Аудиопроцессор (100) согласно варианту 3 осуществления, в котором первый набор (110_1,1) субполосных выборок представляет собой результат первого перекрывающегося критически дискретизированного преобразования (132_1,1) на основе первого сегмента (128_1,1) первого набора (124_1) элементов разрешения, при этом второй набор (110_1,2) субполосных выборок представляет собой результат второго перекрывающегося критически дискретизированного преобразования (132_1,2) на основе второго сегмента (128_1,2) первого набора (124_1) элементов разрешения, при этом третий набор (110_2,1) субполосных выборок представляет собой результат третьего перекрывающегося критически дискретизированного преобразования (132_2,1) на основе первого сегмента (128_2,1) второго набора (128_2,1) элементов разрешения, при этом четвертый набор (110_2,2) субполосных выборок представляет собой результат четвертого перекрывающегося критически дискретизированного преобразования (132_2,2) на основе второго сегмента (128_2,2) второго набора (128_2,1) элементов разрешения; и при этом каскад (106) уменьшения наложения спектров во временной области выполнен с возможностью выполнять комбинирование со взвешиванием первого набора (110_1,1) субполосных выборок и третьего набора (110_2,1) субполосных выборок, с тем чтобы получать первое субполосное представление (112_1) с уменьшенным наложением спектров аудиосигнала, при этом каскад (106) уменьшения наложения спектров во временной области выполнен с возможностью выполнять комбинирование со взвешиванием второго набора (110_1,2) субполосных выборок и четвертого набора (110_2,2) субполосных выборок, с тем чтобы получать второе субполосное представление (112_2) с уменьшенным наложением спектров аудиосигнала.

Вариант 5 осуществления: Аудиопроцессор (100) согласно одному из вариантов 1-4 осуществления, в котором каскад (104) каскадного перекрывающегося критически дискретизированного преобразования выполнен с возможностью сегментировать набор (124_1) элементов разрешения, полученный на основе первого блока (108_1) выборок, с использованием, по меньшей мере, двух оконных функций и получать, по меньшей мере, два сегментированных набора (128_1,1; 128_1,2) субполосных выборок на основе сегментированного набора элементов разрешения, соответствующего первому блоку (108_1) выборок; при этом каскад (104) каскадного перекрывающегося критически дискретизированного преобразования выполнен с возможностью сегментировать набор (124_2) элементов разрешения, полученный на основе второго блока (108_2) выборок, с использованием, по меньшей мере, двух оконных функций, с тем чтобы получать, по меньшей мере, два сегментированных набора (128_2,1; 128_2,2) субполосных выборок на основе сегментированного набора элементов разрешения, соответствующего второму блоку (108_2) выборок; и при этом, по меньшей мере, две оконные функции содержат различную ширину окна.

Вариант 6 осуществления: Аудиопроцессор (100) согласно одному из вариантов 1-5 осуществления, в котором каскад (104) каскадного перекрывающегося критически дискретизированного преобразования выполнен с возможностью сегментировать набор (124_1) элементов разрешения, полученный на основе первого блока (108_1) выборок, с использованием, по меньшей мере, двух оконных функций и получать, по меньшей мере, два сегментированных набора (128_1,1; 128_1,2) субполосных выборок на основе сегментированного набора элементов разрешения, соответствующего первому блоку (108_1) выборок; при этом каскад (104) каскадного перекрывающегося критически дискретизированного преобразования выполнен с возможностью сегментировать набор (124_2) элементов разрешения, полученный на основе второго блока (108_2) выборок, с использованием, по меньшей мере, двух оконных функций, с тем чтобы получать, по меньшей мере, два набора (128_2,1; 128_2,2) субполосных выборок на основе сегментированного набора элементов разрешения, соответствующего второму блоку (108_2) выборок; и при этом наклоны фильтра оконных функций, соответствующих смежным наборам субполосных выборок, являются симметричными.

Вариант 7 осуществления: Аудиопроцессор (100) согласно одному из вариантов 1-6 осуществления, в котором каскад (104) каскадного перекрывающегося критически дискретизированного преобразования выполнен с возможностью сегментировать выборки аудиосигнала на первый блок (108_1) выборок и второй блок (108_2) выборок с использованием первой оконной функции; при этом каскад перекрывающегося критически дискретизированного преобразования (104) выполнен с возможностью сегментировать набор (124_1) элементов разрешения, полученный на основе первого блока (108_1) выборок, и набор (124_2) элементов разрешения, полученный на основе второго блока (108_2) выборок, с использованием второй оконной функции, с тем чтобы получать соответствующие субполосные выборки; и при этом первая оконная функция и вторая оконная функция содержат различную ширину окна.

Вариант 8 осуществления: Аудиопроцессор (100) согласно одному из вариантов 1-6 осуществления, в котором каскад (104) каскадного перекрывающегося критически дискретизированного преобразования выполнен с возможностью сегментировать выборки аудиосигнала на первый блок (108_1) выборок и второй блок (108_2) выборок с использованием первой оконной функции; при этом каскад (104) каскадного перекрывающегося критически дискретизированного преобразования выполнен с возможностью сегментировать набор (124_1) элементов разрешения, полученный на основе первого блока (108_1) выборок, и набор (124_2) элементов разрешения, полученный на основе второго блока (108_2) выборок, с использованием второй оконной функции, с тем чтобы получать соответствующие субполосные выборки; и при этом ширина окна первой оконной функции и ширина окна второй оконной функции отличаются друг от друга, при этом ширина окна первой оконной функции и ширина окна второй оконной функции отличаются друг от друга на коэффициент, отличающийся от степени двух.

Вариант 9 осуществления: Аудиопроцессор (100) согласно одному из вариантов 1-8 осуществления, в котором каскад (106) уменьшения наложения спектров во временной области выполнен с возможностью выполнять комбинирование со взвешиванием двух соответствующих наборов субполосных выборок согласно следующему уравнению:

для с:

с тем чтобы получать субполосное представление с уменьшенным наложением спектров аудиосигнала, при этом y_{v, i}(m) представляет собой первое субполосное представление с уменьшенным наложением спектров аудиосигнала, y_{v, i-1}(N-1-m) представляет собой второе субполосное представление с уменьшенным наложением спектров аудиосигнала, ŷ_{v, i}(m) представляет собой набор субполосных выборок на основе второго блока выборок аудиосигнала, ŷ_{v, i-1}(N-1-m) представляет собой набор субполосных выборок на основе первого блока выборок аудиосигнала, a_v(m) представляет собой ..., b_v(m) представляет собой..., c_v(m) представляет собой ..., и d_v(m) представляет собой....

Вариант 10 осуществления: Аудиопроцессор (200) для обработки субполосного представления аудиосигнала, с тем чтобы получать аудиосигнал (102), причем аудиопроцессор (200) содержит: каскад (202) обратного уменьшения наложения спектров во временной области, выполненный с возможностью выполнять комбинирование со взвешиванием двух соответствующих субполосных представлений с уменьшенным наложением спектров аудиосигнала (102), с тем чтобы получать субполосное представление с наложением спектров, при этом субполосное представление с наложением спектров представляет собой набор (110_1,1) субполосных выборок; и каскад (204) каскадного обратного перекрывающегося критически дискретизированного преобразования, выполненный с возможностью выполнять каскадное обратное перекрывающееся критически дискретизированное преобразование для набора (110_1,1) субполосных выборок, с тем чтобы получать набор (206_1,1) выборок, ассоциированных с блоком выборок аудиосигнала (102).

Вариант 11 осуществления: Аудиопроцессор (200) согласно варианту 10 осуществления, в котором каскад (204) каскадного обратного перекрывающегося критически дискретизированного преобразования содержит первый каскад (208) обратного перекрывающегося критически дискретизированного преобразования, выполненный с возможностью выполнять обратное перекрывающееся критически дискретизированное преобразование для набора (110_1,1) субполосных выборок, с тем чтобы получать набор (128_1,1) элементов разрешения, ассоциированный с данной субполосой частот аудиосигнала; и первый каскад (210) суммирования с перекрытием, выполненный с возможностью выполнять конкатенацию наборов элементов разрешения, ассоциированных с множеством субполос частот аудиосигнала, что содержит комбинирование со взвешиванием набора (128_1,1) элементов разрешения, ассоциированных с данной субполосой частот аудиосигнала (102), с набором (128_1,2) элементов разрешения, ассоциированных с другой субполосой частот аудиосигнала (102), с тем чтобы получать набор (124_1) элементов разрешения, ассоциированных с блоком выборок аудиосигнала (102).

Вариант 12 осуществления: Аудиопроцессор (200) согласно варианту 11 осуществления, в котором каскад (204) каскадного обратного перекрывающегося критически дискретизированного преобразования содержит второй каскад (212) обратного перекрывающегося критически дискретизированного преобразования, выполненный с возможностью выполнять обратное перекрывающееся критически дискретизированное преобразование для набора (124_1) элементов разрешения, ассоциированных с блоком выборок аудиосигнала (102), с тем чтобы получать набор выборок, ассоциированных с блоком выборок аудиосигнала (102).

Вариант 13 осуществления: Аудиопроцессор (200) согласно варианту 12 осуществления, в котором каскад (204) каскадного обратного перекрывающегося критически дискретизированного преобразования содержит второй каскад (214) суммирования с перекрытием, выполненный с возможностью суммировать с перекрытием набор (206_1,1) выборок, ассоциированных с блоком выборок аудиосигнала (102), и другой набор (206_2,1) выборок, ассоциированных с другим блоком выборок аудиосигнала (102), причем блок выборок и другой блок выборок аудиосигнала (102) частично перекрываются, с тем чтобы получать аудиосигнал (102).

Вариант 14 осуществления: Аудиопроцессор (200) согласно одному из вариантов 10-13 осуществления, в котором каскад (202) обратного уменьшения наложения спектров во временной области выполнен с возможностью выполнять комбинирование со взвешиванием двух соответствующих субполосных представлений с уменьшенным наложением спектров аудиосигнала (102) на основе следующего уравнения:

для с:

с тем чтобы получать субполосное представление с наложением спектров, при этом y_{v, i}(m) представляет собой первое субполосное представление с уменьшенным наложением спектров аудиосигнала, y_{v, i-1}(N-1-m) представляет собой второе субполосное представление с уменьшенным наложением спектров аудиосигнала, ŷ_{v, i}(m) представляет собой набор субполосных выборок на основе второго блока выборок аудиосигнала, ŷ_{v, i-1}(N-1-m) представляет собой набор субполосных выборок на основе первого блока выборок аудиосигнала, a_v(m) представляет собой ..., b_v(m) представляет собой ..., c_v(m) представляет собой ..., и d_v(m) представляет собой ....

Вариант 15 осуществления: Аудиокодер, содержащий: аудиопроцессор (100) согласно одному из вариантов 1-9 осуществления; кодер, выполненный с возможностью кодировать субполосное представление с уменьшенным наложением спектров аудиосигнала, с тем чтобы получать кодированное субполосное представление с уменьшенным наложением спектров аудиосигнала; и модуль формирования потоков битов, выполненный с возможностью формировать поток битов из кодированного субполосного представления с уменьшенным наложением спектров аудиосигнала.

Вариант 16 осуществления: Аудиодекодер, содержащий: синтаксический анализатор потоков битов, выполненный с возможностью синтаксически анализировать поток битов, с тем чтобы получать кодированное субполосное представление с уменьшенным наложением спектров; декодер, выполненный с возможностью декодировать кодированное субполосное представление с уменьшенным наложением спектров, с тем чтобы получать субполосное представление с уменьшенным наложением спектров аудиосигнала; и аудиопроцессор (200) согласно одному из вариантов 10-14 осуществления.

Вариант 17 осуществления: Аудиоанализатор, содержащий: аудиопроцессор (100) согласно одному из вариантов 1-9 осуществления; и модуль извлечения информации, выполненный с возможностью анализировать субполосное представление с уменьшенным наложением спектров, с тем чтобы предоставлять информацию, описывающую аудиосигнал.

Вариант 18 осуществления: Способ (300) для обработки аудиосигнала, с тем чтобы получать субполосное представление аудиосигнала, при этом способ содержит: выполнение (302) каскадного перекрывающегося критически дискретизированного преобразования, по меньшей мере, для двух частично перекрывающихся блоков выборок аудиосигнала, с тем чтобы получать набор субполосных выборок на основе первого блока выборок аудиосигнала и получать соответствующий набор субполосных выборок на основе второго блока выборок аудиосигнала; и выполнение (304) комбинирования со взвешиванием двух соответствующих наборов субполосных выборок, причем один из них получен на основе первого блока выборок аудиосигнала, а другой получен на основе второго блока выборок аудиосигнала, с тем чтобы получать субполосное представление с уменьшенным наложением спектров аудиосигнала.

Вариант 19 осуществления: Способ (400) для обработки субполосного представления аудиосигнала, с тем чтобы получать аудиосигнал, при этом способ содержит: выполнение (402) комбинирования со взвешиванием двух соответствующих субполосных представлений с уменьшенным наложением спектров аудиосигнала, с тем чтобы получать субполосное представление с наложением спектров, при этом субполосное представление с наложением спектров представляет собой набор субполосных выборок; и выполнение (404) каскадного обратного перекрывающегося критически дискретизированного преобразования для набора субполосных выборок, с тем чтобы получать набор выборок, ассоциированных с блоком выборок аудиосигнала.

Вариант 20 осуществления: Компьютерная программа для осуществления способа согласно одному из вариантов 18 и 19 осуществления.

Хотя некоторые аспекты описаны в контексте оборудования, очевидно, что эти аспекты также представляют описание соответствующего способа, при этом блок или устройство соответствует этапу способа либо признаку этапа способа. Аналогично, аспекты, описанные в контексте этапа способа, также представляют описание соответствующего блока или элемента, или признака соответствующего оборудования. Некоторые или все этапы способа могут выполняться посредством (или с использованием) аппаратного оборудования, такого как, например, микропроцессор, программируемый компьютер либо электронная схема. В некоторых вариантах осуществления, один или более из самых важных этапов способа могут выполняться посредством этого оборудования.

В зависимости от определенных требований к реализации, варианты осуществления изобретения могут реализовываться в аппаратных средствах или в программном обеспечении. Реализация может выполняться с использованием цифрового носителя хранения данных, например, гибкого диска, DVD, Blu-Ray, CD, ROM, PROM, EPROM, EEPROM или флэш-памяти, имеющего сохраненные электронно считываемые управляющие сигналы, которые взаимодействуют (или допускают взаимодействие) с программируемой компьютерной системой таким образом, что осуществляется соответствующий способ. Следовательно, цифровой носитель хранения данных может быть машиночитаемым.

Некоторые варианты осуществления, согласно изобретению, содержат носитель данных, имеющий электронночитаемые управляющие сигналы, которые допускают взаимодействие с программируемой компьютерной системой таким образом, что осуществляется один из способов, описанных в данном документе.

В общем, варианты осуществления настоящего изобретения могут реализовываться как компьютерный программный продукт с программным кодом, при этом программный код выполнен с возможностью осуществления одного из способов, когда компьютерный программный продукт работает на компьютере. Программный код, например, может сохраняться на машиночитаемом носителе.

Другие варианты осуществления содержат компьютерную программу для осуществления одного из способов, описанных в данном документе, сохраненную на машиночитаемом носителе.

Другими словами, вариант осуществления предлагаемого способа в силу этого представляет собой компьютерную программу, имеющую программный код для осуществления одного из способов, описанных в данном документе, когда компьютерная программа работает на компьютере.

Следовательно, дополнительный вариант осуществления изобретательских способов представляет собой носитель хранения данных (цифровой носитель хранения данных или машиночитаемый носитель), содержащий записанную компьютерную программу для осуществления одного из способов, описанных в данном документе. Носитель данных, цифровой носитель хранения данных или носитель с записанными данными типично является материальным и/или энергонезависимым.

Следовательно, дополнительный вариант осуществления изобретательского способа представляет собой поток данных или последовательность сигналов, представляющих компьютерную программу для осуществления одного из способов, описанных в данном документе. Поток данных или последовательность сигналов, например, может быть выполнена с возможностью передачи через соединение для передачи данных, например, через Интернет.

Дополнительный вариант осуществления содержит средство обработки, например, компьютер или программируемое логическое устройство, выполненное с возможностью осуществлять один из способов, описанных в данном документе.

Дополнительный вариант осуществления содержит компьютер, имеющий установленную компьютерную программу для осуществления одного из способов, описанных в данном документе.

Дополнительный вариант осуществления, согласно изобретению, содержит оборудование или систему, выполненную с возможностью передавать (например, электронно или оптически) компьютерную программу для осуществления одного из способов, описанных в данном документе, в приемное устройство. Приемное устройство, например, может представлять собой компьютер, мобильное устройство, запоминающее устройство и т.п. Оборудование или система, например, может содержать файловый сервер для передачи компьютерной программы в приемное устройство.

В некоторых вариантах осуществления, программируемое логическое устройство (например, программируемая пользователем вентильная матрица) может использоваться для того, чтобы выполнять часть или все из функциональностей способов, описанных в данном документе. В некоторых вариантах осуществления, программируемая пользователем вентильная матрица может взаимодействовать с микропроцессором, чтобы осуществлять один из способов, описанных в данном документе. В общем, способы предпочтительно осуществляются посредством любого аппаратного оборудования.

Оборудование, описанное в данном документе, может реализовываться с использованием аппаратного оборудования либо с использованием компьютера, либо с использованием комбинации аппаратного оборудования и компьютера.

Оборудование, описанное в данном документе, или любые компоненты оборудования, описанного в данном документе, могут реализовываться, по меньшей мере, частично в аппаратных средствах и/или в программном обеспечении.

Способы, описанные в данном документе, могут осуществляться с использованием аппаратного оборудования либо с использованием компьютера, либо с использованием комбинации аппаратного оборудования и компьютера.

Способы, описанные в данном документе, или любые компоненты оборудования, описанного в данном документе, могут выполняться, по меньшей мере, частично посредством аппаратных средств и/или посредством программного обеспечения.

Вышеописанные варианты осуществления являются просто иллюстративными в отношении принципов настоящего изобретения. Следует понимать, что модификации и изменения компоновок и подробностей, описанных в данном документе, должны быть очевидными для специалистов в данной области техники. Следовательно, они подразумеваются как ограниченные только посредством объема нижеприведенной формулы изобретения, а не посредством конкретных подробностей, представленных посредством описания и пояснения вариантов осуществления в данном документе.

Библиографический список

[1] Nils Werner и Bernd Edler, "Nonuniform orthogonal filterbanks based on MDCT analysis/synthesis and time-domain aliasing reduction", IEEE Signal Processing Letters, том 24, номер 5, стр. 589-593, май 2017 года.

[2] Fernando C. Pereira и Touradj Ebrahimi, The MPEG-4 Book, Prentice Hall PTR, Upper Saddle River, штат Нью-Джерси, США, 2002 год.

[3] B. C. Moore и B. R. Glasberg, "Suggested formulae for calculating auditory-filter bandwidths and excitation patterns", J. Acoust. Soc. Am., том 74, номер 3, стр. 750-753, сентябрь 1983 года.

[4] A. Taghipour, M. C. Jaikumar и B. Edler, "A psychoacoustic model with partial spectral flatness measure for tonality estimation", in Proc. 22nd Eur. Signal Process. Conf. (EUSIPCO), 2014 год, стр. 646-650.

[5] J. D. Johnston, "Estimation of perceptual entropy using noise masking criteria", in ICASSP-88, International Conference on Acoustics, Speech and Signal Processing, апрель 1988 года, стр. 2524-2527, том 5.

[6] B. Edler, "Codierung von Audiosignalen mit überlappender Transformation und adaptiven Fensterfunktionen", Frequenz, том. 43, стр. 252-256, сентябрь 1989 года.

[7] V. Melkote и K. Rose, "Trellis-based approaches to rate-distortion optimized audio encoding", IEEE Transactions on Audio, Speech and Language Processing, том 18, номер 2, стр. 330-341, февраль 2010 года.

[8] Mukund Narasimhan, Paul Viola и Michael Shilman, "Online decoding of markov models under latency constraints", in Proceedings of the 23rd International Conference on Machine Learning, Нью-Йорк, штат Нью-Йорк, США, 2006 год, ICML '06, стр. 657-664, ACM.

[9] ITU Radiocommunication Bureau, "BS.1116-3: methods for the subjective assessment of small impairments in audio systems", Recommendation ITU-R BS. 1116, 2015 год.

[10] ITU Radiocommunication Bureau, "BS.1534-3: method for the subjective assessment of intermediate quality level of coding systems", Recommendation ITUR BS. 1534, 2015 год.

[11] ITU Radiocommunication Bureau, "BS.1770-3: algorithms to measure audio programme loudness and truepeak audio level", Recommendation ITU-R BS. 1770, 2015 год.

[12] F. Schuh, S. Dick, R. Füg, C. R. Helmrich, N. Rettelbach и T. Schwegler, "Efficient Multichannel Audio Transform Coding with Low Delay and Complexity", Audio Engineering Society, сентябрь 2016 года [онлайн]. По адресу: http://www.aes.org/e-lib/browse.cfm? elib=18464

[13] WO 2018 019 909 A1

[14] EP 3 276 620 A1

1. Аудиопроцессор (100) для обработки аудиосигнала (102) для получения субполосного представления аудиосигнала (102), причем аудиопроцессор (100) содержит:

- каскад (104) каскадного перекрывающегося критически дискретизированного преобразования, выполненный с возможностью выполнять каскадное перекрывающееся критически дискретизированное преобразование, по меньшей мере, для двух частично перекрывающихся блоков (108_1; 108_2) выборок аудиосигнала (102) для получения набора (110_1,1) субполосных выборок на основе первого блока (108_1) выборок аудиосигнала (102) и получения соответствующего набора (110_2,1) субполосных выборок на основе второго блока (108_2) выборок аудиосигнала (102); и

- каскад (106) уменьшения наложения спектров во временной области, выполненный с возможностью выполнять комбинирование со взвешиванием двух соответствующих наборов (110_1,1; 110_1,2) субполосных выборок, причем один получен на основе первого блока (108_1) выборок аудиосигнала (102), а другой получен на основе второго блока (108_2) выборок аудиосигнала, для получения субполосного представления (112_1) с уменьшенным наложением спектров аудиосигнала (102);

- при этом каскад (104) каскадного перекрывающегося критически дискретизированного преобразования выполнен с возможностью сегментировать набор (124_1) элементов разрешения, полученный на основе первого блока (108_1) выборок, с использованием, по меньшей мере, двух оконных функций, и получать, по меньшей мере, два набора (128_1,1; 128_1,2) элементов разрешения на основе сегментированного набора элементов разрешения, соответствующего первому блоку (108_1) выборок;

- при этом каскад (104) каскадного перекрывающегося критически дискретизированного преобразования выполнен с возможностью сегментировать набор (124_2) элементов разрешения, полученный на основе второго блока (108_2) выборок, с использованием, по меньшей мере, двух оконных функций, и получать, по меньшей мере, два набора (128_2,1; 128_2,2) элементов разрешения на основе сегментированного набора элементов разрешения, соответствующего второму блоку (108_2) выборок; и

- при этом наборы (128_1,1; 128_1,2; 128_2,1; 128_2,2) элементов разрешения обрабатываются с использованием второго каскада перекрывающегося критически дискретизированного преобразования из каскада каскадного перекрывающегося критически дискретизированного преобразования, при этом второй каскад перекрывающегося критически дискретизированного преобразования выполнен с возможностью выполнять перекрывающиеся критически дискретизированные преобразования, имеющие идентичную длину кадра, по меньшей мере, для одного набора элементов разрешения;

- при этом аудиопроцессор (100) выполнен с возможностью активировать или поддерживать активированным каскад (106) уменьшения наложения спектров во временной области, если идентичные длины кадров используются для двух последующих блоков (108_1, 108_2), и/или

- при этом аудиопроцессор (100) выполнен с возможностью деактивировать или поддерживать деактивированным каскад (106) уменьшения наложения спектров во временной области, если различные длины кадров используются для двух последующих блоков (108_1, 108_2).

2. Аудиопроцессор (100) по п. 1,

- в котором второй каскад (126) перекрывающегося критического преобразования выполнен с возможностью выполнять N_1,1 перекрывающихся критически дискретизированных преобразований для N_1,1 поднаборов первого набора (128_1,1) из упомянутых, по меньшей мере, двух наборов (128_1,1; 128_1,2) элементов разрешения, полученных на основе сегментированного набора элементов разрешения, соответствующего первому блоку (108_1) выборок, при этом N_1,1 перекрывающихся критически дискретизированных преобразований содержат идентичную длину кадра, при этом N_1,1 является натуральным числом, большим или равным двум,

- при этом второй каскад (126) перекрывающегося критического преобразования выполнен с возможностью выполнять N_1,2 перекрывающихся критически дискретизированных преобразований для N_1,2 поднаборов соответствующего первого набора (128_1,2) из упомянутых, по меньшей мере, двух наборов (128_2,1; 128_2,2) элементов разрешения, полученных на основе сегментированного набора элементов разрешения, соответствующего второму блоку (108_2) выборок, при этом N_2,1 перекрывающихся критически дискретизированных преобразований содержат идентичную длину кадра, в котором N_2,1 является натуральным числом, большим или равным двум.

3. Аудиопроцессор (100) по п. 1,

- при этом аудиопроцессор (100) выполнен с возможностью индивидуально выбирать длину кадра для каждого набора (128_1,1, 128_1,2, 128_2,1, 128_2,2) элементов разрешения или для каждого из соответствующих наборов (128_1,1 и 128_2,1; 128_1,2 и 128_2,2) элементов разрешения.

4. Аудиопроцессор (100) по п. 1,

- при этом аудиопроцессор выполнен с возможностью индивидуально выбирать длину кадра для каждого блока (108_1, 108_2) выборок.

5. Аудиопроцессор (100) по п. 1,

- при этом процессор (100) выполнен с возможностью выполнять общую/объединенную оптимизацию для адаптации длин кадров.

6. Аудиопроцессор (100) по п. 1,

- в котором упомянутые, по меньшей мере, две оконные функции содержат идентичную ширину окна.

7. Аудиопроцессор (100) по п. 1,

- в котором упомянутые, по меньшей мере, две оконные функции содержат различную ширину окна.

8. Аудиопроцессор (100) по п. 1,

- в котором упомянутые, по меньшей мере, две оконные функции содержат практически прямоугольные окна.

9. Аудиопроцессор (100) по п. 6,

- в котором наборы элементов разрешения, полученные на основе, по меньшей мере, двух оконных функций, обрабатываются с использованием второго каскада перекрывающегося критически дискретизированного преобразования,

- при этом второй каскад перекрывающегося критически дискретизированного преобразования выполнен с возможностью выполнять, по меньшей мере, два перекрывающихся критически дискретизированных преобразования, имеющих идентичную длину кадра для, по меньшей мере, одного из наборов элементов разрешения, полученных на основе, по меньшей мере, двух оконных функций.

10. Аудиопроцессор (100) по п. 1,

- при этом аудиопроцессор (100) выполнен с возможностью выполнять объединенное канальное кодирование.

11. Аудиопроцессор по п. 10,

- при этом аудиопроцессор (100) выполнен с возможностью выполнять M/S или средство многоканального кодирования (MCT) в качестве объединенной обработки каналов.

12. Аудиопроцессор (100) по п. 10,

- при этом аудиопроцессор (100) выполнен с возможностью активировать или деактивировать объединенную обработку каналов индивидуально для каждого из упомянутых, по меньшей мере, двух сегментированных наборов (128_1,1; 128_1,2) элементов разрешения.

13. Аудиопроцессор (100) по п. 1,

- при этом аудиопроцессор (100) выполнен с возможностью формировать поток битов из кодированного субполосного представления (112_1, 112_2) с уменьшенным наложением спектров аудиосигнала,

- при этом аудиопроцессор (100) выполнен с возможностью предоставлять поток битов, содержащий, по меньшей мере, один параметр коэффициента объединения (MF), сигнализирующий, по меньшей мере, одну длину кадра соответствующих наборов (128_1,1 и 128_2,1; 128_1,2 и 128_2,2) элементов разрешения в потоке битов.

14. Аудиопроцессор (100) по п. 13,

- при этом аудиопроцессор (100) выполнен с возможностью энтропийно кодировать упомянутый, по меньшей мере, один параметр коэффициента объединения (MF).

15. Аудиопроцессор (100) для обработки аудиосигнала (102), для получения субполосного представления аудиосигнала (102), причем аудиопроцессор (100) содержит:

- каскад (104) каскадного перекрывающегося критически дискретизированного преобразования, выполненный с возможностью выполнять каскадное перекрывающееся критически дискретизированное преобразование, по меньшей мере, для двух частично перекрывающихся блоков (108_1; 108_2) выборок аудиосигнала (102), с тем чтобы получать набор (110_1,1) субполосных выборок на основе первого блока (108_1) выборок аудиосигнала (102) и получать соответствующий набор (110_2,1) субполосных выборок на основе второго блока (108_2) выборок аудиосигнала (102); и

- каскад (106) уменьшения наложения спектров во временной области, выполненный с возможностью выполнять комбинирование со взвешиванием двух соответствующих наборов (110_1,1; 110_1,2) субполосных выборок, причем один получен на основе первого блока (108_1) выборок аудиосигнала (102), а другой получен на основе второго блока (108_2) выборок аудиосигнала, с тем чтобы получать субполосное представление (112_1) с уменьшенным наложением спектров аудиосигнала (102);

- при этом аудиопроцессор (100) выполнен с возможностью предоставлять поток битов, содержащий только поднабор параметров коэффициента объединения (MF), сигнализирующих длину кадра соответствующих наборов (128_1,1 и 128_2,1; 128_1,2 и 128_2,2) элементов разрешения в потоке битов.

16. Аудиопроцессор (100) для обработки аудиосигнала (102), для получения субполосного представления аудиосигнала (102), причем аудиопроцессор (100) содержит:

- каскад (104) каскадного перекрывающегося критически дискретизированного преобразования, выполненный с возможностью выполнять каскадное перекрывающееся критически дискретизированное преобразование, по меньшей мере, для двух частично перекрывающихся блоков (108_1; 108_2) выборок аудиосигнала (102), с тем чтобы получать набор (110_1,1) субполосных выборок на основе первого блока (108_1) выборок аудиосигнала (102) и получать соответствующий набор (110_2,1) субполосных выборок на основе второго блока (108_2) выборок аудиосигнала (102); и

- каскад (106) уменьшения наложения спектров во временной области, выполненный с возможностью выполнять комбинирование со взвешиванием двух соответствующих наборов (110_1,1; 110_1,2) субполосных выборок, причем один получен на основе первого блока (108_1) выборок аудиосигнала (102), а другой получен на основе второго блока (108_2) выборок аудиосигнала, с тем чтобы получать субполосное представление (112_1) с уменьшенным наложением спектров аудиосигнала (102);

- при этом аудиопроцессор выполнен с возможностью предоставлять поток битов, содержащий параметр уменьшения наложения спектров во временной области (TDAR) для соответствующих наборов (128_1,1 и 128_2,1; 128_1,2 и 128_2,2) элементов разрешения.

17. Аудиопроцессор (100) по п. 16,

- при этом аудиопроцессор (100) выполнен с возможностью выполнять объединенное энтропийное кодирование параметров коэффициента объединения (MF) и уменьшения наложения спектров во временной области (TDAR).

18. Аудиопроцессор (100) для обработки аудиосигнала (102), для получения субполосного представления аудиосигнала (102), причем аудиопроцессор (100) содержит:

- каскад (104) каскадного перекрывающегося критически дискретизированного преобразования, выполненный с возможностью выполнять каскадное перекрывающееся критически дискретизированное преобразование, по меньшей мере, для двух частично перекрывающихся блоков (108_1; 108_2) выборок аудиосигнала (102), с тем чтобы получать набор (110_1,1) субполосных выборок на основе первого блока (108_1) выборок аудиосигнала (102) и получать соответствующий набор (110_2,1) субполосных выборок на основе второго блока (108_2) выборок аудиосигнала (102); и

- каскад (106) уменьшения наложения спектров во временной области, выполненный с возможностью выполнять комбинирование со взвешиванием двух соответствующих наборов (110_1,1; 110_1,2) субполосных выборок, причем один из них получен на основе первого блока (108_1) выборок аудиосигнала (102), а другой получен на основе второго блока (108_2) выборок аудиосигнала, с тем чтобы получать субполосное представление (112_1) с уменьшенным наложением спектров аудиосигнала (102);

- при этом аудиопроцессор (100) выполнен с возможностью предоставлять поток битов, содержащий, по меньшей мере, один параметр коэффициента объединения (MF), так что параметр уменьшения наложения спектров во временной области (TDAR) может извлекаться, по меньшей мере, из одного параметра коэффициента объединения (MF).

19. Аудиопроцессор (100) для обработки аудиосигнала (102), для получения субполосного представления аудиосигнала (102), причем аудиопроцессор (100) содержит:

- каскад (104) каскадного перекрывающегося критически дискретизированного преобразования, выполненный с возможностью выполнять каскадное перекрывающееся критически дискретизированное преобразование, по меньшей мере, для двух частично перекрывающихся блоков (108_1; 108_2) выборок аудиосигнала (102), с тем чтобы получать набор (110_1,1) субполосных выборок на основе первого блока (108_1) выборок аудиосигнала (102) и получать соответствующий набор (110_2,1) субполосных выборок на основе второго блока (108_2) выборок аудиосигнала (102); и

- каскад (106) уменьшения наложения спектров во временной области, выполненный с возможностью выполнять комбинирование со взвешиванием двух соответствующих наборов (110_1,1; 110_1,2) субполосных выборок, причем один получен на основе первого блока (108_1) выборок аудиосигнала (102), а другой получен на основе второго блока (108_2) выборок аудиосигнала, с тем чтобы получать субполосное представление (112_1) с уменьшенным наложением спектров аудиосигнала (102);

- при этом аудиопроцессор (100) выполнен с возможностью выполнять общую/объединенную оптимизацию для адаптации длин кадров с использованием решетчатой сетки в расчете на набор субполосных выборок.

20. Аудиокодер, содержащий:

- аудиопроцессор (100) по любому из пп. 1, 15, 16, 18 или 19;

- кодер, выполненный с возможностью кодировать субполосное представление с уменьшенным наложением спектров аудиосигнала, с тем чтобы получать кодированное субполосное представление с уменьшенным наложением спектров аудиосигнала; и

- модуль формирования потоков битов, выполненный с возможностью формировать поток битов из кодированного субполосного представления с уменьшенным наложением спектров аудиосигнала.

21. Способ обработки аудиосигнала (102) для получения субполосного представления аудиосигнала (102), при этом способ содержит этапы, на которых:

- выполняют каскадное перекрывающееся критически дискретизированное преобразование, по меньшей мере, для двух частично перекрывающихся блоков (108_1; 108_2) выборок аудиосигнала (102), с тем чтобы получать набор (110_1,1) субполосных выборок на основе первого блока (108_1) выборок аудиосигнала (102) и получать соответствующий набор (110_2,1) субполосных выборок на основе второго блока (108_2) выборок аудиосигнала (102); и

- выполняют комбинирование со взвешиванием двух соответствующих наборов (110_1,1; 110_1,2) субполосных выборок, причем один получен на основе первого блока (108_1) выборок аудиосигнала (102), а другой получен на основе второго блока (108_2) выборок аудиосигнала, с тем чтобы получать субполосное представление (112_1) с уменьшенным наложением спектров аудиосигнала (102);

при этом выполнение каскадного перекрывающегося критически дискретизированного преобразования содержит этап, на котором сегментируют набор (124_1) элементов разрешения, полученный на основе первого блока (108_1) выборок, с использованием, по меньшей мере, двух оконных функций, и получают, по меньшей мере, два набора (128_1,1; 128_1,2) элементов разрешения на основе сегментированного набора элементов разрешения, соответствующего первому блоку (108_1) выборок;

- при этом выполнение каскадного перекрывающегося критически дискретизированного преобразования содержит этап, на котором сегментируют набор (124_2) элементов разрешения, полученный на основе второго блока (108_2) выборок, с использованием, по меньшей мере, двух оконных функций, и получают, по меньшей мере, два набора (128_2,1; 128_2,2) элементов разрешения на основе сегментированного набора элементов разрешения, соответствующего второму блоку (108_2) выборок; и

- при этом наборы (128_1,1; 128_1,2; 128_2,1; 128_2,2) элементов разрешения обрабатывают с использованием второго перекрывающегося критически дискретизированного преобразования из каскадного перекрывающегося критически дискретизированного преобразования, при этом второе перекрывающееся критически дискретизированное преобразование содержит этап, на котором выполняют перекрывающиеся критически дискретизированные преобразования, имеющие идентичную длину кадра, по меньшей мере, для одного набора элементов разрешения;

- при этом комбинирование со взвешиванием двух соответствующих наборов (110_1,1; 110_1,2) субполосных выборок выполняют, если идентичные длины кадров используются для двух последующих блоков (108_1, 108_2),

- и/или комбинирование со взвешиванием двух соответствующих наборов (110_1,1; 110_1,2) субполосных выборок не выполняют, если различные длины кадров используются для двух последующих блоков (108_1, 108_2).

22. Способ обработки аудиосигнала (102) для получения субполосного представления аудиосигнала (102), при этом способ содержит этапы, на которых:

- формируют поток битов из кодированного субполосного представления (112_1, 112_2) с уменьшенным наложением спектров аудиосигнала,

- предоставляют поток битов, содержащий, по меньшей мере, один параметр коэффициента объединения (MF), сигнализирующий, по меньшей мере, одну длину кадра соответствующих наборов (128_1,1 и 128_2,1; 128_1,2 и 128_2,2) элементов разрешения в потоке битов;

- при этом предоставление потока битов содержит этап, на котором предоставляют поток битов, содержащий только поднабор параметров коэффициента объединения (MF), сигнализирующих длину кадра соответствующих наборов (128_1,1 и 128_2,1; 128_1,2 и 128_2,2) элементов разрешения в потоке битов.

23. Способ обработки аудиосигнала (102) для получения субполосного представления аудиосигнала (102), при этом способ содержит этапы, на которых:

- выполняют комбинирование со взвешиванием двух соответствующих наборов (110_1,1; 110_1,2) субполосных выборок, причем один получен на основе первого блока (108_1) выборок аудиосигнала (102), и один получен на основе второго блока (108_2) выборок аудиосигнала, с тем чтобы получать субполосное представление (112_1) с уменьшенным наложением спектров аудиосигнала (102);

- при этом выполнение каскадного перекрывающегося критически дискретизированного преобразования содержит этап, на котором сегментируют набор (124_1) элементов разрешения, полученный на основе первого блока (108_1) выборок, с использованием, по меньшей мере, двух оконных функций, и получают, по меньшей мере, два набора (128_1,1; 128_1,2) элементов разрешения на основе сегментированного набора элементов разрешения, соответствующего первому блоку (108_1) выборок;

- при этом предоставление потока битов содержит этап, на котором предоставляют поток битов, содержащий параметр уменьшения наложения спектров во временной области (TDAR) для соответствующих наборов (128_1,1 и 128_2,1; 128_1,2 и 128_2,2) элементов разрешения.

24. Способ обработки аудиосигнала (102) для получения субполосного представления аудиосигнала (102), при этом способ содержит этапы, на которых:

- при этом предоставление потока битов содержит этап, на котором предоставляют поток битов, содержащий, по меньшей мере, один параметр коэффициента объединения (MF), так что параметр уменьшения наложения спектров во временной области (TDAR) может извлекаться, по меньшей мере, из одного параметра коэффициента объединения (MF).

25. Способ обработки аудиосигнала (102) для получения субполосного представления аудиосигнала (102), при этом способ содержит этапы, на которых:

- выполняют общую/объединенную оптимизацию для адаптации длин кадров с использованием решетчатой сетки в расчете на набор субполосных выборок.

26. Носитель данных, содержащий сохраненную на нем компьютерную программу для осуществления способа по любому из пп. 21-25.

Группа решений относится к системам кодирования исходного звукового сигнала, которые используют способ гармонического преобразования для высокочастотной реконструкции (HFR), а также к процессорам цифровых эффектов, например эксайтерам, в которых генерирование гармонического искажения добавляет яркость в обрабатываемый сигнал, и к временным расширителям, в которых длительность сигнала увеличивается при сохранении спектрального состава.

Устройство для обработки сигнала, имеющее множество акустико-электрических преобразователей // 2771919

Использование: для обработки аудиосигнала. Сущность изобретения заключается в том, что устройство для обработки аудиосигнала, содержит первый акустико-электрический преобразователь, имеющий первую частотную характеристику, причем первый акустико-электрический преобразователь включает в себя первую комбинационную структуру из акустического канального компонента и акустического чувствительного компонента, при этом первый акустико-электрический преобразователь выполнен с возможностью приема аудиосигнала и генерирования первого сигнала поддиапазона в соответствии с аудиосигналом, принятым первым акустико-электрическим преобразователем; и второй акустико-электрический преобразователь, имеющий вторую частотную характеристику, причем вторая частотная характеристика отличается от первой частотной характеристики, причем второй акустико-электрический преобразователь включает в себя вторую комбинационную структуру из акустического канального компонента и акустического чувствительного компонента, при этом второй акустико-электрический преобразователь выполнен с возможностью приема аудиосигнала и генерирования второго сигнала поддиапазона в соответствии с аудиосигналом, принятым вторым акустико-электрическим преобразователем.

Аудиокодеры, аудиодекодеры, способы и компьютерные программы, применяющие кодирование и декодирование младших значащих битов // 2769255

Изобретение относится к области вычислительной техники для обработки аудиоданных. Технический результат заключается в обеспечении минимальных искажений аудиоданных с одновременным созданием количества битов ниже бюджета битов.

Аудиокодеры, аудиодекодеры, способы и компьютерные программы, применяющие кодирование и декодирование младших значащих битов // 2769218

Изобретение относится к области вычислительной техники для обработки аудиоданных. Технический результат заключается в обеспечении минимального искажения аудиоданных с одновременным созданием количества битов ниже бюджета битов.

Аудиокодеры, аудиодекодеры, способы и компьютерные программы, применяющие кодирование и декодирование младших значащих битов // 2767286

Изобретение относится к области вычислительной техники для обработки аудиоданных. Технический результат заключается в повышении качества обработки аудиоданных.

Устройство и способ обработки сигнала и программа // 2765345

Изобретение относится к акустике. Способ обработки аудиосигнала заключается в декодировании принятого сигнала, получении энергетического спектра, в котором возник энергетический провал, фильтрации декодированного сигнала и его разделении на полосы низкочастотного диапазона; в вычислении средней энергии для множества сигналов полос низкочастотного диапазона, вычислении отношения одного выбранного из сигналов полос низкочастотного диапазона, посредством вычисления отношения средней энергии сигналов полос низкочастотного диапазона к энергии выбранного сигнала полос низкочастотного диапазона, умножении сигнала низкочастотного диапазона на отношение для сглаживания энергетического провала сигналов полос низкочастотного диапазона.

Устройство и способ декодирования // 2764260

Изобретение относится к средствам для декодирования аудио. Технический результат заключается в повышении эффективности декодирования аудио.

Устройство и способ для кодирования и декодирования аудиосигнала с использованием понижающей дискретизации или интерполяции масштабных параметров // 2762301

Изобретение относится к области обработки аудиосигналов. Технический результат заключается в повышении точности аудиообработки при большом числе масштабных коэффициентов.

Система воспроизведения аудио-видеоданных // 2759666

Настоящее изобретение относится к области вычислительной техники для обработки аудио- и видеоданных. Технический результат заключается в уменьшении времени задержки при воспроизведении аудио- и видеоданных.

Система и способ для генерирования ряда сигналов высокочастотных поддиапазонов // 2758466

Изобретение относится к средствам для высокочастотной реконструкции звуковых сигналов. Технический результат заключается в повышении качества высокочастотной составляющей звукового сигнала.

Оптимизация громкости и динамического диапазона через различные устройства воспроизведения // 2777880

Настоящее техническое решение относится к области вычислительной техники для обработки аудиоданных. Технический результат заключается в оптимизации динамического диапазона за счёт возможности уменьшения уровня громких звуков и/или усиливания уровня тихих звуков, чтобы вмещать исходный контент с широким динамическим диапазоном в более узкий записанный динамический диапазон. Технический результат достигается за счёт устройства и способа, которые позволяют осуществлять синтаксический анализ кодированного потока аудиобитов и извлечение кодированных аудиоданных и метаданных для одного или более профилей DRC; декодировать кодированные аудиоданные и применять усиления DRC к декодированным аудиоданным, при этом каждый профиль DRC подходит по меньшей мере для одного типа устройства или окружения прослушивания; один или более профилей DRC выбираются в ответ на информацию об устройстве аудиообработки или окружении прослушивания и усиления DRC, применяемые к декодированным аудиоданным, соответствуют одному или более выбранным профилям DRC. 3 н.п. ф-лы, 16 ил.