Сокращенное декодирование

Изобретение относится к области вычислительной техники для декодирования аудиоданных. Технический результат заключается в повышении точности аудиодекодирования. Технический результат достигается за счет подавления искажений во временной области, подвергая обработанный с помощью оконной функции временной участок кадров процессу наложения с суммированием таким образом, чтобы часть заднего конца длиной (E+1)/(E+2) обработанного с помощью оконной функции временного участка текущего кадра наложилась на передний конец длиной (E+1)/(E+2) обработанного с помощью оконной функции временного участка предыдущего кадра. 8 н. и 12 з.п. ф-лы, 9 ил.

 

Настоящая заявка относится к концепции сокращенного декодирования.

Стандарт MPEG-4 с улучшенным AAC с малой задержкой (AAC-ELD) обычно работает на частотах дискретизации до 48 кГц, что приводит к алгоритмической задержке в 15 мс. Для некоторых приложений, например, передачи аудиоданных с синхронизацией артикуляции, желательна еще меньшая задержка. Стандарт AAC-ELD уже обеспечивает такую возможность, работая на более высоких частотах дискретизации, например, 96 кГц, и, таким образом, предоставляет режимы работы с еще меньшей задержкой, например, 7,5 мс. Однако этот режим работы сопровождается излишне высокой сложностью вследствие высокой частоты дискретизации.

Решение этой проблемы состоит в том, чтобы применить сокращенную версию набора фильтров и, таким образом, рендеризовать аудиосигнал на более низкой частоте дискретизации, например, 48 кГц вместо 96 кГц. Операция сокращения уже является частью стандарта AAC-ELD, поскольку он унаследован от кодека MPEG-4 AAC-LD, который служит в качестве основы для стандарта AAC-ELD.

Однако вопрос, который остается открытым, состоит в том, как найти сокращенную версию конкретного набора фильтров. Таким образом, единственной неопределенностью является метод, которым выводятся оконные коэффициенты при предоставлении возможности четкой проверки на совместимость сокращенных режимов работы декодера AAC-ELD.

Далее описаны принципы сокращенного режима работы кодеков AAC-(E)LD.

Сокращенный режим работы или AAC-LD описан для стандарта AAC-LD в документе ISO/IEC 14496-3:2009 в разделе 4.6.17.2.7 ʺАдаптация к системам, использующим более низкие частоты дискретизацииʺ следующим образом:

«В некоторых приложениях может быть необходимо интегрировать декодер с малой задержкой в аудиосистему, работающую на более низких частотах дискретизации (например, 16 кГц), хотя номинальная частота дискретизации полезной нагрузки битового потока намного выше (например, 48 кГц, что соответствует алгоритмической задержке кодека приблизительно 20 мс). В таких случаях удобно декодировать выходные данные кодека с малой задержкой непосредственно на целевой частоте дискретизации вместо того, чтобы использовать дополнительную операцию преобразования частоты дискретизации после декодирования.

Это может быть приближенно выражено посредством подходящего сокращения как размера кадра, так и частоты дискретизации с некоторым целочисленным коэффициентом (например, 2, 3), что приводит к тому же самому частотно-временному разрешению кодека. Например, выходные данные кодека могут формироваться с частотой дискретизации 16 кГц вместо номинальных 48 кГц с поддержкой только наименьшей трети (т.е. 480/3=160) спектральных коэффициентов перед набором фильтров синтеза и уменьшением размера обратного преобразования до одной трети (т.е. размер окна 960/3=320).

Как следствие, декодирование для более низких частот дискретизации уменьшает требования и к памяти, и к вычислениям, но может не произвести точно такие же выходные данные, как декодирование с полной шириной диапазона, за которым следует ограничение полосы и преобразование частоты дискретизации.

Следует отметить, что декодирование на более низкой частоте дискретизации, как описано выше, не затрагивает интерпретацию уровней, которые относятся к номинальной частоте дискретизации полезной нагрузки битового потока AAC с малой задержкой."

Следует отметить, что стандарт AAC-LD работает со стандартной структурой преобразования MDCT и двумя формами окна, т.е., с синусным окном и с окном с малым наложением. Оба окна полностью описаны формулами, и, таким образом, могут быть определены оконные коэффициенты для любых длин преобразования.

По сравнению со стандартом AAC-LD кодек AAC-ELD демонстрирует два существенных отличия:

- Окно преобразования MDCT с малой задержкой (LD-MDCT)

- Возможность использования инструмента SBR с малой задержкой

Алгоритм преобразования IMDCT, использующий окно преобразования MDCT с малой задержкой, описан в разделе 4.6.20.2 в документе [1], который очень похож на стандартную версию преобразования IMDCT, использующую, например, синусное окно. Коэффициенты окон преобразования MDCT с малой задержкой (размер кадра 480 и 512 отсчетов) даны в таблице 4. A.15 и 4. A.16 в документе [1]. Следует отметить, что коэффициенты не могут быть определены формулой, поскольку коэффициенты являются результатом алгоритма оптимизации. Фиг. 9 показывает график формы окна для размера кадра 512.

В случае, если инструмент SBR с малой задержкой (LD-SBR) используется вместе с кодером AAC-ELD, наборы фильтров модуля LD-SBR также сокращаются. Это гарантирует, что модуль SBR работает с таким же частотным разрешением, и, таким образом, не требуется больше адаптаций.

Таким образом, приведенное выше описание раскрывает, что существует потребность в сокращении операций декодирования, например, в сокращении декодирования в стандарте AAC-ELD. Было бы возможно найти коэффициенты для сокращенной оконной функции синтеза снова, но это трудоемкая задача, которая требует дополнительной памяти для хранения сокращенной версии и реализует проверку совместимости между не сокращенным декодированием и сокращенным декодированием более сложно или, с другой точки зрения, например, не отвечает требованиям метода сокращения в стандарте AAC-ELD. В зависимости от отношения сокращения, т.е., отношения между первоначальной частотой дискретизации и сокращенной частотой дискретизации, возможно вывести сокращенную оконную функцию синтеза просто посредством дискретизации с понижением, т.е., выбора каждого второго, третьего и т.д. оконного коэффициента первоначальной оконной функции синтеза, но эта процедура не приводит к достаточной совместимости не сокращенного декодирования и сокращенного декодирования, соответственно. Использование более сложной процедуры прореживания, применяемой к оконной функции синтеза приводит к недопустимым отклонениям от первоначальной формы оконной функции синтеза. Таким образом, в области техники существует потребность в концепции улучшенного сокращенного декодирования.

В соответствии с этим задача настоящего изобретения состоит в том, чтобы обеспечить схему аудиодекодирования, которая допускает такое улучшенное сокращенное декодирование.

Задача решается посредством предмета независимых пунктов формулы изобретения.

Настоящее изобретение основано на обнаружении, что сокращенная версия процедуры аудиодекодирования может быть достигнута более эффективно и/или с поддержанием улучшенного соблюдения требований, если окно синтеза, используемое для сокращенного аудиодекодирования, является дискретизированной с понижением версией опорного окна синтеза, включенного в процедуру не сокращенного аудиодекодирования, посредством дискретизации с коэффициентом понижающей дискретизации, на который отклоняются сокращенная частота дискретизации и первоначальная частота дискретизации, и дискретизировано с понижением с использованием сегментной интерполяции с сегментами длиной 1/4 длины кадра.

Выгодными аспектами настоящего приложения является субъект зависимых пунктов формулы изобретения. Предпочтительные варианты осуществления настоящего приложения описаны ниже относительно следующих фигур.

Фиг. 1 показывает схему, иллюстрирующую требования точного воссоздания, которым необходимо подчиняться при сокращенном декодировании, чтобы обеспечить сохранность точного воссоздания;

Фиг. 2 показывает блок-схему аудиодекодера для сокращенного декодирования в соответствии с вариантом осуществления;

Фиг. 3 показывает схему, иллюстрирующую в верхней половине метод, которым аудиосигнал был закодирован на первоначальной частоте дискретизации в поток данных, и в нижней половине, отделенной от верхней половины штриховой горизонтальной линией, операцию сокращенного декодирования для восстановления аудиосигнала из потока данных на уменьшенной или сокращенной частоте дискретизации, чтобы проиллюстрировать режим работы аудиодекодера фиг. 2;

Фиг. 4 показывает схему, иллюстрирующую взаимодействие блока оконной обработки и блока подавления искажений во временной области на фиг. 2;

Фиг. 5 иллюстрирует возможную реализацию для достижения воссоздания в соответствии с фиг. 4 с использованием специальной обработки нагруженных нулевыми весовыми коэффициентами участков спектрально-временных модулированных участков времени;

Фиг. 6 показывает схему, иллюстрирующую понижающую дискретизацию для получения дискретизированного с понижением окна синтеза;

Фиг. 7 показывает блок-схему, иллюстрирующую сокращенную операцию стандарта AAC-ELD, включающую в себя инструмент SBR с малой задержкой;

Фиг. 8 показывает блок-схему аудиодекодера для сокращенного декодирования в соответствии с вариантом осуществления, в которой модулятор, блок оконной обработки и блок подавления реализованы в соответствии с лифтинговой реализацией; и

Фиг. 9 показывает график оконных коэффициентов окна с малой задержкой в соответствии со стандартом AAC-ELD для размера кадра с 512 отсчетами в качестве примера опорного окна синтеза, которое должно быть дискретизировано с понижением.

Следующее описание начинается с иллюстрации варианта осуществления для сокращенного декодирования относительно кодека AAC-ELD. Таким образом, следующее описание начинается с варианта осуществления, который может сформировать сокращенный режим для стандарта AAC-ELD. Это описание одновременно формирует своего рода разъяснение мотивации, лежащей в основе вариантов осуществления настоящего приложения. Позже это описание обобщается и тем самым приводит к описанию аудиодекодера и способа аудиодекодирования в соответствии с вариантом осуществления настоящего приложения.

Как описано во вводной части описания настоящей заявки, стандарт AAC-ELD использует окна преобразования MDCT с малой задержкой. Чтобы формировать его сокращенные версии, т.е., сокращенные окна с малой задержкой, разъясненное далее предложение для формирования сокращенного режима для стандарта AAC-ELD использует алгоритм сегментной сплайновой интерполяции, который поддерживает свойство точного воссоздания (PR) окна преобразования LD-MDCT с очень высокой точностью. Таким образом, алгоритм позволяет формировать оконные коэффициенты в прямой форме, как описано в документе ISO/IEC 14496-3:2009, а также в лифтинговой форме, как описано в документе [2], совместимым образом. Это означает, что обе реализации формируют выходные данные с 16-битной совместимостью.

Интерполяция окна преобразования MDCT с малой задержкой выполняется следующим образом.

В целом сплайновая интерполяция должна использоваться для формирования сокращенных оконных коэффициентов для поддержания частотной характеристики и, главным образом, свойства точного воссоздания (приблизительно 170 дБ SNR). Интерполяция должна быть ограничена в некоторых сегментах для поддержания свойства точного воссоздания. Для оконных коэффициентов c, покрывающих ядро преобразования DCT (см. также фиг. 1, c(1024),..., c(2048)), требуется следующее ограничение,

(1)

где обозначает размер кадра. Некоторая реализация может использовать разные знаки для оптимизации сложности, обозначенные здесь как sgn. Требование в уравнении (1) может быть проиллюстрировано на фиг. 1. Следует помнить, что даже просто в случае F=2, т.е., при разделении частоты дискретизации пополам, отбрасывание каждого второго оконного коэффициента опорного окна синтеза для получения сокращенного окна синтеза не выполняет требование.

Коэффициенты перечислены вдоль ромбовидной формы. нулей в оконных коэффициентах, которые ответственны за уменьшение задержки набора фильтров, отмечены с использованием жирной стрелки. Фиг. 1 показывает зависимости коэффициентов, вызванные сворачиванием, включенным в преобразование MDCT, а также точки, в которых интерполяция должна быть ограничена, чтобы избежать каких-либо нежеланных зависимостей.

- На каждом коэффициенте интерполяция должна останавливаться, чтобы поддержать (1)

- Дополнительно алгоритм интерполяции должен останавливаться на каждых коэффициентах вследствие вставленных нулей. Это гарантирует, что нули сохраняются, и ошибка интерполяции не распространяется, в результате чего поддерживается точное воссоздание.

Второе ограничение требуется не только для сегмента, содержащего нули, но также и для других сегментов. Зная, что некоторые коэффициенты в ядре преобразования DCT не были определены алгоритмом оптимизации, но были определены формулой (1) для обеспечения возможности точного воссоздания, могут быть разъяснены некоторые разрывы в форме окна, например, вокруг c(1536+128) на фиг. 1. Чтобы минимизировать ошибку точного воссоздания, интерполяция должна останавливаться в таких точках, которые появляются в решетке N/4.

Вследствие этой причины для сегментной сплайновой интерполяции выбран размер сегмента , чтобы формировать сокращенные оконные коэффициенты. Исходные оконные коэффициенты всегда задаются коэффициентами, используемыми для , также для операций сокращения, приводящими к размерам кадра или . Далее очень кратко обрисован основной алгоритм как код MATLAB:

FAC=Downscaling factor % например, 0,5

sb=128; % размер сегмента исходного окна

w_down=[]; % сокращенное окно

nSegments=length(W)/(sb); % количество сегментов; W=LD оконные коэффициенты для N=512

xn=((0:(FAC*sb-1))+0.5)/FAC-0.5; % инициализация сплайна

for i=1:nSegments,

w_down=[w_down,spline([0:(sb-1)],W((i-1)*sb+(1:(sb))),xn)];

end;

Поскольку сплайновая функция может не являться полностью детерминированной, полный алгоритм точно описан в следующем разделе, который может быть включен в документ 14496-3:2009 ISO/IEC, чтобы сформировать улучшенный сокращенный режим в стандарте AAC-ELD.

Другими словами, следующий раздел обеспечивает предложение относительно того, каким образом обрисованная выше идея может быть применена к ER AAC ELD, т.е., относительно того, каким образом декодер с низкой сложностью может декодировать битовый поток ER AAC ELD, закодированный на первой скорости передачи данных, на второй скорости передачи данных, которая ниже первой скорости передачи данных. Однако подчеркивается, что используемое далее определение N придерживается стандарта. Здесь N соответствует длине ядра преобразования DCT, тогда как выше, в формуле изобретения и в описанных далее обобщенных вариантах осуществления N соответствует длине кадра, а именно, длине взаимного наложения ядер преобразований DCT, т.е., половине длины ядра преобразования DCT. В соответствии с этим, хотя выше было указано, что N равно 512, далее указывается, что N равно 1024.

Следующие абзацы предложено включить в документ 14496-3:2009 в качестве дополнения.

A.0 Адаптация к системам, использующим более низкие частоты дискретизации

Для некоторых приложений ER AAC LD может изменять частоту дискретизации воспроизведения, чтобы избежать дополнительных этапов повторной дискретизации (см. 4.6.17.2.7). ER AAC ELD может применять аналогичные этапы сокращения с использованием окна преобразования MDCT с малой задержкой и инструмента LD-SBR. В случае, если стандарт AAC-ELD работает с инструментом LD-SBR, коэффициент сокращения ограничен числами, кратными 2. Без инструмента LD-SBR сокращенный размер кадра должен являться целым числом.

A.1 Сокращение окна преобразования MDCT с малой задержкой

Окно преобразования LD-MDCT wLD для N=1024 сокращается с коэффициентом F с использованием сегментной сплайновой интерполяции. Количество начальных нулей в оконных коэффициентах, т.е. N/8, определяет размер сегмента. Сокращенные оконные коэффициенты wLD_d используются для обратного преобразования MDCT, как описано в 4.6.20.2, но с сокращенной длиной окна Nd=N/F. Следует отметить, что алгоритм также в может формировать сокращенные коэффициенты лифтинга преобразования LD-MDCT.

A.2 Сокращение инструмента SBR с малой задержкой

В случае, если инструмент SBR с малой задержкой используется вместе с ELD, этот инструмент может быть сокращен до более низких частот дискретизации, по меньшей мере для коэффициентов сокращения, кратных 2. Коэффициент сокращения F управляет количеством полос, используемых для набора фильтров CLDFB анализа и синтеза. Следующие два абзаца описывают сокращенный набор фильтров CLDFB анализа и синтеза, см. также 4.6.19.4.

4.6.20.5.2.1 Сокращенный набор фильтров CLDFB анализа

- Определить количество сокращенных полос CLDFB .

- Сместить отсчеты в массиве на позиций. Самые старые отсчетов отбрасываются, и новых отсчетов сохраняются в позициях от до .

- Умножить отсчеты массива на коэффициент окна , чтобы получить массив . Оконные коэффициенты получены посредством линейной интерполяции коэффициентов , т.е., через уравнение

.

Оконные коэффициенты c могут быть найдены в таблице 4.A.90.

- Суммировать отсчеты, чтобы создать -элементный массив :

.

- Вычислить новых отсчетов поддиапазона посредством матричной операции , где

.

В уравнении обозначает комплексную экспоненциальную функцию, и является мнимой единицей.

4.6.20.5.2.2 Сокращенный набор фильтров CLDFB синтеза

- Определить количество сокращенных полос CLDFB .

- Сместить отсчеты в массиве на позиций. Самые старые отсчетов отбрасываются.

- новых отсчеты поддиапазона с комплексными значениями умножаются на матрицу , где

.

В уравнении обозначает комплексную экспоненциальную функцию, и является мнимой единицей. Действительная часть выходных данных этой операции сохраняется в позициях от до массива .

- Извлечь отсчеты из , чтобы создать -элементный массив .

- Умножить отсчеты массива на коэффициент окна , чтобы произвести массив . Оконные коэффициенты получены посредством линейной интерполяции коэффициентов , т.е. через уравнение

.

Оконные коэффициенты могут быть найдены в таблице 4.A.90.

- Вычислить новых выходных отсчетов посредством суммирования отсчетов из массива в соответствии с

.

Следует отметить, что установка обеспечивает дискретизированный с понижением набор фильтров синтеза в соответствии с 4.6.19.4.3. Таким образом, чтобы обработать дискретизированный с понижением битовый поток LD-SBR с дополнительным коэффициентом сокращения , коэффициент должен быть умножен на 2.

4.6.20.5.2.3 Сокращенный набор фильтров CLDFB с действительными значениями

Сокращение набора фильтров CLDFB также может быть применено для версий с действительными значениями режима SBR малой мощности. Для иллюстрации также см. 4.6.19.5.

Для сокращенного набора фильтров анализа и синтеза с действительными значениями следуйте описанию в 4.6.20.5.2.1 и 4.6.20.2.2 и замените модулятор exp() в на модулятор cos().

A.3 Анализ MDCT с малой задержкой

Этот подпункт описывает набор фильтров преобразования MDCT c малой задержкой, используемый в кодере AAC ELD. Базовый алгоритм преобразования MDCT в основном не изменен, но имеет более длинное окно, в результате чего n теперь пробегает значения от -N до N-1 (а не от 0 до N-1)

Спектральный коэффициент Xi,k определен следующим образом:

где:

zin=обработанная с помощью оконной функции входная последовательность

N=индекс отсчета

K=индекс спектрального коэффициента

I=индекс блока

N=длина окна

n0=(-N/2+1)/2

Длина окна N (на основе синусного окна) составляет 1024 или 960.

Длина окна с малой задержкой составляет 2*N. Оконная обработка распространяется на прошлое следующим образом:

для n=-N, …, N-1, с окном синтеза w, используемым в качестве окна анализа посредством инверсии порядка.

A.4 Синтез MDCT с малой задержкой

Набор фильтров синтеза модифицирован по сравнению со стандартным алгоритмом преобразования IMDCT с использованием синусного окна, чтобы применить набор фильтров с малой задержкой. Базовый алгоритм преобразования IMDCT в основном не изменен, но имеет более длинное окно, в результате чего n теперь пробегает значения до 2N-1 (а не до N-1).

где:

n=индекс отсчета

i=индекс окна

k=индекс спектрального коэффициента

N=длина окна/удвоенная длина кадра

n0=(-N/2+1)/2

и N=960 или 1024.

Оконная обработка и наложение с суммированием проводятся следующим образом:

Окно с длиной N заменено на окно с длиной 2N с большим наложением в прошлом и меньшим наложением на будущее (N/8 значений фактически равны нулю).

Оконная обработка для окна с малой задержкой:

Где окно теперь имеет длину 2N, следовательно, n=0, …, 2N-1.

Наложение с суммированием:

для 0 <= n < N/2

Здесь абзацы, предложенные для включения в документ 14496-3:2009 в качестве дополнения, заканчиваются.

Естественным образом, приведенное выше описание возможного сокращенного режима для стандарта AAC-ELD представляет лишь один вариант осуществления настоящей заявки, и возможны некоторые модификации. В целом варианты осуществления настоящей заявки не ограничены аудиодекодером, выполняющим сокращенную версию декодирования стандарта AAC-ELD. Другими словами, варианты осуществления настоящего приложения, например, могут быть выведены посредством формирования аудиодекодера, способного выполнять процесс обратного преобразования только сокращенным методом без поддержки или использования различных специфичных для стандарта AAC-ELD дополнительных задач, таких как, например, передача огибающей спектра на основе масштабного коэффициента, фильтрация с формированием шума во временной области (TNS), копирование спектральной полосы (SBR) и т.п.

Далее описывается более общий вариант осуществления для аудиодекодера. Обрисованный выше пример для аудиодекодера стандарта AAC-ELD, поддерживающий описанный сокращенный режим, таким образом, может представлять реализацию описанного далее аудиодекодера. В частности, разъясненный далее декодер показан на фиг. 2, в то время как фиг. 3 иллюстрирует этапы, выполняемые декодером на фиг. 2.

Аудиодекодер на фиг. 2, который в целом обозначается с использованием ссылочной позиции 10, содержит приемник 12, блок 14 захвата, спектрально-временной модулятор 16, блок 18 оконной обработки 18 и блок 20 подавления искажений во временной области, все из них соединены последовательно друг с другом в порядке их упоминания. Взаимодействие и функциональность блоков 12-20 аудиодекодера 10 описаны далее относительно фиг. 3. Как описано в конце описания настоящей заявки, блоки 12-20 могут быть реализованы в программном обеспечении, в программируемых аппаратных средствах или в аппаратных средствах, например, в форме компьютерной программы, программируемой пользователем вентильной матрицы (FPGA) или должным образом запрограммированного компьютера, запрограммированного микропроцессора или специализированной интегральной схемы, причем блоки 12-20 представляют соответствующие подпрограммы, пути в схеме и т.п.

Посредством метода, обрисованного более подробно ниже, аудиодекодер 10 на фиг. 2 выполнен с возможностью (и элементы аудиодекодера 10 выполнены с возможностью должным образом взаимодействовать) декодировать аудиосигнал 22 из потока 24 данных с той примечательностью, что аудиодекодер 10 декодирует сигнал 22 на частоте дискретизации, составляющей 1/F от частоты дискретизации, на которой аудиосигнал 22 был закодирован с преобразованием в поток 24 данных на стороне кодирования. F может являться, например, любым рациональным числом больше 1. Аудиодекодер может быть выполнен с возможностью работать с разными или переменными коэффициентами сокращения F или с фиксированным коэффициентом сокращения F. Альтернативы описаны более подробно ниже.

Метод, которым аудиосигнал 22 кодируется с преобразованием на частоте дискретизации кодировании или первоначальной частоте дискретизации в поток данных, проиллюстрирован на фиг. 3 в верхней половине. В позиции 26 фиг. 3 иллюстрирует спектральные коэффициенты с использованием маленьких прямоугольников или квадратов 28, размещенных спектрально-временным образом вдоль оси 30 времени, которая проходит горизонтально на фиг. 3, и оси 32 частот, которая проходит вертикально на фиг. 3, соответственно. Спектральные коэффициенты 28 передаются в потоке 24 данных. Метод, которым спектральные коэффициенты 28 были получены, и тем самым метод, через который спектральные коэффициенты 28 представляют аудиосигнал 22, проиллюстрирован на фиг. 3 в позиции 34, которая иллюстрирует для участка оси 30 времени, каким образом спектральные коэффициенты 28, принадлежащие соответствующему участку времени или представляющие соответствующий участок времени, были получены из аудиосигнала.

В частности, коэффициенты 28, переданные в потоке 24 данных, являются коэффициентами преобразования с наложением аудиосигнала 22, и аудиосигнал 22, дискретизированный на первоначальной частоте дискретизации или частоте дискретизации кодирования, разбивается на непосредственно последовательные во времени и не накладывающиеся кадры предварительно заданной длины N, причем N спектральных коэффициентов передаются в потоке данных 24 для каждого кадра 36. Таким образом, коэффициенты 28 преобразования получаются из аудиосигнала 22 с использованием критически дискретизированного преобразования с наложением. В спектрально-временном представлении спектрограммы 26 каждый столбец временной последовательности из столбцов спектральных коэффициентов 28 соответствует одному из кадров 36 последовательности кадров. N спектральных коэффициентов 28 получаются для соответствующего кадра 36 посредством преобразования спектрального разложения или временно-спектральной модуляции, функции модуляции которой простираются во времени, однако, не только через кадр 36, которому принадлежат полученные в результате спектральные коэффициенты 28, но также и через E+1 предыдущих кадров, где E может являться любым целым числом или любым четным целым числом больше нуля. Таким образом, спектральные коэффициенты 28 из одного столбца спектрограммы в позиции 26, которые принадлежал некоторому кадру 36, получаются посредством применения преобразования к окну преобразования, которое в дополнение к соответствующему кадру содержит E+1 кадров, лежащих в прошлом относительно текущего кадра. Спектральное разложение отсчетов аудиосигнала в этом окне 38 преобразования, которое проиллюстрировано на фиг. 3 для столбца коэффициентов 28 преобразования, принадлежащих среднему кадру 36 участка, показанного в позиции 34, достигается посредством использования унимодальной оконной функции 40 анализа с малой задержкой, с использованием которой спектральные отсчеты в окне 38 преобразования нагружаются весовыми коэффициентами перед применением к ним преобразования MDCT, или преобразования MDST, или другого преобразования спектрального разложения. Чтобы уменьшить задержку на стороне кодера, окно 40 анализа содержит нулевой интервал 42 на своем переднем во времени конце, чтобы кодеру не нужно было ожидать соответствующего участка самых новых отсчетов в текущем кадре 36 для вычисления спектральных коэффициентов 28 для этого текущего кадра 36. Таким образом, в нулевом интервале 42 оконная функция 40 с малой задержкой равна нулю или имеет нулевые оконные коэффициенты, и, таким образом, совмещенные отсчеты аудиоданных текущего кадра 36 вследствие нагружения 40 окна не вносят вклад в коэффициенты 28 преобразования, переданные для этого кадра и потока 24 данных. Таким образом, обобщая упомянутое выше, коэффициенты 28 преобразования, принадлежащие текущему кадру 36, получаются посредством оконной обработки и спектрального разложения отсчетов аудиосигнала в окне 38 преобразования, которое содержит текущий кадр, а также предшествующие по времени кадры, и которое накладывается во времени на соответствующие окна преобразования, используемые для определения спектральных коэффициентов 28, принадлежащих соседним по времени кадрам.

Прежде, чем продолжить описание аудиодекодера 10, следует отметить, что представленное на данный момент описание передачи спектральных коэффициентов 28 в потоке 24 данных было упрощено относительно метода, которым спектральные коэффициенты 28 квантуются или кодируются в потоке 24 данных, и/или метода, которым аудиосигнал 22 был предварительно обработан, прежде чем подвергнуть аудиосигнал преобразованию с наложением. Например, аудиокодером, кодирующим с преобразованием аудиосигнал 22 в поток 24 данных, можно управлять с помощью психоакустической модели или можно использовать психоакустическую модель, чтобы поддерживать шум квантования и квантование спектральных коэффициентов 28 незаметными для слушателя и/или ниже пороговой функции маскирования, тем самым определяя масштабные коэффициенты для спектральных полос, с использованием которых масштабируются квантованные и переданные спектральные коэффициенты 28. Масштабные коэффициенты также были сообщены в потоке 24 данных. В качестве альтернативы аудиокодер может являться кодером типа TCX (с возбуждением посредством кода с преобразованием). Затем аудиосигнал подвергается фильтрации анализа с линейным предсказанием перед формированием спектрально-временного представления 26 спектральных коэффициентов 28 посредством применения преобразование с наложением к сигналу возбуждения, т.е., к разностному сигналу линейного предсказания. Например, коэффициенты линейного предсказания также могут быть сообщены в потоке 24 данных, и может быть применено спектральное однородное квантование для получения спектральных коэффициентов 28.

Кроме того, представленное на настоящий момент описание также было упрощено относительно длины кадра из кадров 36 и/или относительно оконной функции 40 с малой задержкой. Фактически аудиосигнал 22 может быть закодирован в поток 24 данных с использованием переменных размеров кадра и/или разных окон 40. Однако представленное далее описание сосредотачивается на одном окне 40 и одной длине кадра, хотя последующее описание может быть легко распространено на случай, в котором энтропийный кодер изменяет эти параметры во время кодирования аудиосигнала в поток данных.

Вернемся обратно к аудиодекодеру 10 на фиг. 2 и его описанию. Приемник 12 принимает поток 24 данных и тем самым для каждого кадра 36 принимает N спектральных коэффициентов 28, т.е., соответствующий столбец коэффициентов 28, показанный на фиг. 3. Следует помнить, что длина кадров 36 во времени, измеренная в отсчетах первоначальной частоты дискретизации или частоты дискретизации кодирования, равна N, как указано на фиг. 3 в позиции 34, но аудиодекодер 10 на фиг. 2 выполнен с возможностью декодировать аудиосигнал 22 на сокращенной частоте дискретизации. Аудиодекодер 10 поддерживает, например, лишь эту сокращенную функциональность декодирования, описанную далее. В качестве альтернативы аудиодекодер 10 может воссоздавать аудиосигнал на первоначальной частоте дискретизации или частоте дискретизации кодирования, но может быть переключен между сокращенным режимом декодирования и не сокращенным режимом декодирования, причем сокращенный режим декодирования совпадает с разъясненным далее режимом работы аудиодекодера 10. Например, аудиокодер 10 может быть на сокращенный режим декодирования в случае низкого уровня заряда батареи, сокращенных возможностях среды воспроизведения и т.п. Каждый раз, когда ситуация изменяется, аудиодекодер 10 может, например, переключаться обратно из сокращенного режима декодирования в не сокращенный. В любом случае в соответствии с процессом сокращенного декодирования декодера 10, как описано далее, аудиосигнал 22 воссоздается на частоте дискретизации, на которой кадры 36 имеют на сокращенной частоте дискретизации меньшую длину, измеренную в отсчетах этой сокращенной частоты дискретизации, а именно, длину N/F отсчетов на сокращенной частоте дискретизации.

Выходные данные приемника 12 представляют собой последовательность из N спектральных коэффициентов, а именно, одно множество из N спектральных коэффициентов, т.е., один столбец на фиг. 3, на каждый кадр 36. Из приведенного выше краткого описания процесса кодирования с преобразованием для формирования потока 24 данных уже выяснилось, что приемник 12 может применить различные задачи при получении N спектральных коэффициентов на каждый кадр 36. Например, приемник 12 может использовать энтропийное декодирование для считывания спектральных коэффициентов 28 из потока 24 данных. Приемник 12 также может сформировать спектральные коэффициенты, считанные из потока данных, с помощью масштабных коэффициентов, обеспеченных в потоке данных, и/или масштабных коэффициентов, выведенных посредством коэффициентов линейного предсказания, переданных в потоке 24 данных. Например, приемник 12 может получить масштабные коэффициенты из потока 24 данных, а именно, для каждого кадра и для каждого поддиапазона, и использовать эти масштабные коэффициенты, чтобы масштабировать масштабные коэффициенты, переданные в потоке 24 данных. В качестве альтернативы приемник 12 может вывести масштабные коэффициенты из коэффициентов линейного предсказания, переданных в потоке 24 данных, для каждого кадра 36 и использовать эти масштабные коэффициенты, чтобы масштабировать переданные спектральные коэффициенты 28. Факультативно приемник 12 может выполнить заполнение промежутка, чтобы синтетически заполнить квантованные как нуль участки в множествах из N спектральных коэффициентов 18 для каждого кадра. Дополнительно или в качестве альтернативы приемник 12 может применить фильтр TNS-синтеза для переданного коэффициента фильтра TNS для каждого кадра, чтобы помочь воссозданию спектральных коэффициентов 28 из потока данных с коэффициентами TNS, также переданными в потоке 24 данных. Только что обрисованные возможные задачи приемника 12 должны пониматься как не исключающий список возможных мер, и приемник 12 может выполнять дополнительные или другие задачи в связи со считыванием спектральных коэффициентах 28 из потока 24 данных.

Блок 14 захвата, таким образом, принимает от приемника 12 спектрограмму 26 из спектральных коэффициентов 28 и захватывает для каждого кадра 36 низкочастотный участок 44 из N спектральных коэффициентов соответствующего кадра 36, а именно, N/F спектральных коэффициентов самой низкой частоты.

Таким образом, спектрально-временной модулятор 16 принимает от блока 14 захвата поток или последовательность 46 из N/F спектральных коэффициентов 28 на кадр 36, соответствующих низкочастотному слою из спектрограммы 26, спектрально совмещенных со спектральными коэффициентами самой низкой частоты, проиллюстрированными с использованием индекса "0" на фиг. 3 и простирающимися до спектральных коэффициентов с индексом N/F - 1.

Спектрально-временной модулятор 16 для каждого кадра 36 подвергает соответствующий низкочастотный участок 44 спектральных коэффициентов 28 обратному преобразованию 48, имеющему функции модуляции длиной (E+2) · N/F, простирающиеся во времени по соответствующему кадру и E+1 предыдущим кадрам, как проиллюстрировано в позиции 50 на фиг. 3, и тем самым получается временной участок длиной (E+2) · N/F, т.е., еще не обработанный с помощью оконной функции сегмент 52 времени. Таким образом, спектрально-временной модулятор может получить сегмент времени из (E+2) · N/F отсчетов сокращенной частоты дискретизации посредством нагружения весовыми коэффициентами и суммирования функций модуляции одинаковой длины с использованием, например, первых формул из предложенного приведенного выше заменяющего раздела A.4. Самые новые N/F отсчетов сегмента 52 времени принадлежат текущему кадру 36. Функции модуляции, как указано, например, могут представлять собой косинусные функции в случае обратного преобразования, являющегося обратным преобразованием MDCT, или синусными функциями в случае обратного преобразования, являющегося обратным преобразованием MDCT.

Таким образом, блок 52 оконной обработки для каждого кадра принимает временной участок 52, N/F отсчетов на переднем конце которого соответствуют по времени соответствующему кадру, в то время как другие отсчеты соответствующего временного участка 52 принадлежат соответствующим предыдущим по времени кадрам. Блок 18 оконной обработки для каждого кадра 36 выполняет оконную обработку временного участка 52 с использованием унимодального окна 54 синтеза длиной (E+2) · N/F, содержащего нулевой участок 56 длиной 1/4 · N/F на своем переднем конце, т.е. 1/F · N/F оконных коэффициентов с нулевым значением, и имеющего пик 58 в своем временном интервале, который следует по времени за нулевым участком 56, т.е., во временном интервале временного участка 52, не охваченном нулевым участком 52. Последний временной интервал можно назвать не нулевым участком окна 58, и он имеет длину 7/4 · N/F, измеренную в отсчетах сокращенной частоты дискретизации, т.е. 7/4 · N/F оконных коэффициентов. Блок 18 оконной обработки нагружает весовыми коэффициентами, например, временной участок 52 с использованием окна 58. Эта нагрузка или умножение 58 каждого временного участка 52 с помощью окна 54 дает в результате обработанный с помощью оконной функции временной участок 60, один для каждого кадра 36, совпадающий с соответствующим временным участком 52 с точки зрения временного покрытия. В предложенном выше разделе A.4 оконная обработка, которая может использоваться окном 18, описана формулами, устанавливающими связь между zi,n и xi,n, где xi,n соответствует упомянутым выше временным участкам 52, еще не обработанным с помощью оконной функции, и zi,n соответствует обработанным с помощью оконной функции временным участкам 60 с индексом i для последовательности кадров/окон и индексом n для отсчетов или значений соответствующих участков 52/60 в каждом временном участке 52/60 в соответствии с сокращенной частотой дискретизации.

Таким образом, блок 20 подавления искажений во временной области принимает от блока 18 оконной обработки последовательность обработанных с помощью оконной функции временных участков 60, а именно, один участок на каждый кадр 36. Блок 20 подавления подвергает обработанные с помощью оконной функции временные участки 60 кадров 36 процессу 62 наложения с суммированием, совмещая каждый обработанный с помощью оконной функции временной участок 60 таким образом, чтобы его передние N/F значений совпали с соответствующим кадром 36. Посредством этого часть заднего конца длиной (E+1)/(E+2) обработанного с помощью оконной функции временного участка 60 текущего кадра, т.е. остаток, имеющий длину (E+1) ⋅ N/F, накладывается на соответствующую равную по длине переднюю часть временного участка непосредственно предыдущего кадра. В формулах блок 20 подавления искажений во временной области может действовать, как показано в последней формуле предложенной выше версии раздела A.4, где outi,n соответствует отсчетам аудиоданных воссозданного аудиосигнала 22 на сокращенной частоте дискретизации.

Процессы оконной обработки 58 и наложения 62 с суммированием, выполняемые блоком 18 оконной обработки и блоком 20 подавления искажений во временной области, проиллюстрированы более подробно ниже относительно фиг. 4. Фиг. 4 использует и терминологию, применяемую в предложенном выше разделе A.4, и ссылочные позиции, применяемые на фиг. 3 и 4. Значения с x0,0 по x0,(E+2)·N/F-1 представляют нулевой временной участок 52, полученный пространственно-временным модулятором 16 для нулевого кадра 36. Первый индекс для x индексирует кадры 36 вдоль последовательности во времени, и второй индекс для x упорядочивает отсчеты вдоль последовательности во времени, шаг между отсчетами принадлежит сокращенной частоте дискретизации. Затем на фиг. 4 значения с w0 по w(E+2)·N/F-1 указывают оконные коэффициенты окна 54. Как и второй индекс для x, т.е., временного участка 52, выданного модулятором 16, индекс для w является таким, что индекс 0 соответствует самому старому значению отсчета, и индекс (E+2) · N/F - 1 соответствует самому новому значению отсчета, когда окно 54 применяется к соответствующему временному участку 52. Блок 18 оконной обработки выполняет оконную обработку временного участка 52 с использованием окна 54 для получения обработанного с помощью оконной функции временного участка 60 таким образом, что значения с z0,0 по z0,(E+2)·N/F-1, которые обозначают обработанный с помощью оконной функции временной участок 60 для нулевого кадра, получаются в соответствии с z0,0=x0,0 · w0, …, z0,(E+2)·N/F-1=x0,(E+2)·N/F-1 · w(E+2)·N/F-1. Индексы для z имеют такое же значение, как для x. Таким образом, модулятор 16 и блок 18 оконной обработки действуют для каждого кадра, индексированного первым индексом для x и z. Блок 20 подавления суммирует E+2 обработанных с помощью оконной функции временных участков 60 из E+2 непосредственно последовательных кадров со смещением отсчетов обработанных с помощью оконной функции временных участков 60 относительно друг друга на один кадр, т.е., на количество отсчетов на кадр 36, а именно, N/F, чтобы получить отсчеты u одного текущего кадра, здесь u-(E+1),0, …, u-(E+1),N/F-1). Здесь снова первый индекс для u указывает номер кадра, и второй индекс упорядочивает отсчеты этого кадра вдоль последовательности во времени. Блок подавления соединяет воссозданные кадры, полученные таким образом, чтобы отсчеты воссозданного аудиосигнала 22 в последовательных кадрах 36 следовали друг за другом в соответствии с u-(E+1),0, …, u-(E+1),N/F-1, u-E,0, …, u-E,N/F-1, u-(E-1),0, …. Блок 22 подавления вычисляет каждый отсчет аудиосигнала 22 в кадре с порядковым номером -(E+1) в соответствии с u-(E+1),0=z0,0+z-1,N/F+… z-(E+1),(E+1)⋅N/F, …, u-(E+1)⋅N/F-1=z0,N/F-1+z-1,2·N/F-1+…+z-(E+1),(E+2)·N/F-1, т.е., суммируя (e+2) слагаемых для каждых отсчетов u текущего кадра.

Фиг. 5 иллюстрирует возможное использование того факта, что среди только что обработанных с помощью оконной функции отсчетов, вносящих вклад в отсчеты u аудиоданных кадра -(E+1), те отсчеты, которые соответствуют нулевому участку 56 окна 54 или обработаны с помощью оконной функции с использованием нулевого участка 56 окна 54, а именно, z-(E+1),(E+7/4)·N/F, …, z-(E+1),(E+2)·N/F-1, равны нулю. Таким образом, вместо того, чтобы получать все N/F отсчетов в кадре 36 с порядковым номером -(E+1) аудиосигнала u с использованием E+2 слагаемых, блок 20 подавления может вычислить четверть его передней части, а именно, u-(E+1),(E+7/4)·N/F, …, u-(E+1),(E+2)·N/F-1, используя лишь E+1 слагаемых в соответствии с u-(E+1),(E+7/4)·N/F=z0,3/4·N/F+z-1,7/4·N/F+…+z-E,(E+3/4)·N/F, …, u-(E+1),(E+2)·N/F-1=z0,N/F-1+z-1,2·N/F-1+…+z-E,(E+1)·N/F-1. Таким образом, блок оконной обработки даже может фактически исключить выполнение нагружения 58 относительно нулевого участка 56. Отсчеты u-(E+1),(E+7/4)·N/F, …, u-(E+1),(E+2)·N/F-1 текущего кадра с порядковым номером -(E+1), таким образом, будут получены с использованием только E+1 слагаемых, в то время как u-(E+1),(E+1)·N/F, …, u-(E+1),(E+7/4)·N/F-1 будут получены с использованием E+2 слагаемых.

Таким образом, обрисованный выше аудиодекодер 10 на фиг. 2 воспроизводит сокращенным образом аудиосигнал, закодированный в поток 24 данных. С этой целью аудиодекодер 10 использует оконную функцию 54, которая сама является дискретизированной с понижением версией опорного окна синтеза длиной (E+2) · N. Как разъяснено относительно фиг. 6, эта дискретизированная с понижением версия, т.е., окно 54, получена посредством понижающей дискретизации опорного окна синтеза с коэффициентом F, т.е., коэффициентом понижающей дискретизации с использованием сегментной интерполяции, а именно, в сегментах длиной 1/4 · N, измеренной в еще не сокращенном режиме, в сегментах длиной 1/4 · N/F в дискретизированном с понижением режиме, в сегментах диной четверть длины кадра из кадров 36, измеренной во времени и выраженной независимо от частоты дискретизации. Таким образом, в 4 ⋅ (E+2) выполняется интерполяция, приводящая к сегментам длиной 4 ⋅ (E+2) по 1/4 · N/F, конкатенация которых представляет дискретизированную с понижением версию опорного окна синтеза длиной (E+2) · N. См. фиг. 6 для иллюстрации. Фиг. 6 показывает окно 54 синтеза, которое является унимодальным и используется аудиодекодером 10 в соответствии с дискретизированной с понижением процедурой аудиодекодирования под опорным окном 70 синтеза, которое имеет длину (E+2) · N. Таким образом, посредством процедуры 72 понижающей дискретизации, ведущей от опорного окна 70 синтеза к окну 54 синтеза, фактически используемому аудиодекодером 10 для дискретизированного с понижением декодирования, количество оконных коэффициентов сокращается с коэффициентом F. Фиг. 6 придерживается терминологии фиг. 5 и 6, т.е. w используется для обозначения окна 54 дискретизированной с понижением версии, в то время как w' используется для обозначения оконных коэффициентов опорного окна 70 синтеза.

Как только что упомянуто, чтобы выполнить понижающую дискретизацию 72, опорное окно 70 синтеза обрабатывается в сегментах 74 равной длины. Что касается количества, имеется (E+2) · 4 таких сегментов 74. При измерении на первоначальной частоте дискретизации, т.е., в количестве оконных коэффициентов опорного окна 70 синтеза, каждый сегмент 74 имеет длину 1/4 · N оконных коэффициентов w', и при измерении на сокращенной частоте дискретизации каждый сегмент 74 имеет длину 1/4 · N/F оконных коэффициентов w.

Естественным образом, было бы возможно выполнить понижающую дискретизацию 72 для каждого дискретизированного с понижением оконного коэффициента wi, случайно совпадающего с каким-либо из оконных коэффициентов опорного окна 70 синтеза, посредством простой установки wi= с временем отсчета для wi, совпадающим с временем для , и/или посредством линейной интерполяции каких-либо оконных коэффициентов wi, находящихся во времени между двумя оконными коэффициентами и , посредством линейной интерполяции, но эта процедура приведет к плохому приближению опорного окна 70 синтеза, т.е., окно 54 синтеза, используемое аудиодекодером 10 для дискретизированного с понижением декодирования, будет представлять плохое приближение опорного окна 70 синтеза, тем самым не выполняя требование гарантии совместимости со стандартом сокращенного декодирования относительно не сокращенного декодирования аудиосигнала из потока 24 данных. Таким образом, понижающая дискретизация 72 включает в себя процедуру интерполяции, в соответствии с которой большинство оконных коэффициентов wi дискретизированного с понижением окна 54, а именно, те, которые размещены со смещением от границ сегментов 74, зависят посредством процедуры 72 понижающей дискретизации от более чем двух оконных коэффициентов w' опорного окна 70. В частности, хотя большинство оконных коэффициентов wi дискретизированного с понижением окна 54 зависят более чем от двух оконных коэффициентов опорного окна 70, чтобы улучшить качество результата интерполяции/понижающей дискретизации, т.е. качество приближения, для каждого оконного коэффициента wi дискретизированной с понижением версии 54 поддерживается то, что они не зависят от оконных коэффициентов , принадлежащих другим сегментам 74. Вместо этого процедура 72 понижающей дискретизации является сегментной процедурой интерполяции.

Например, окно 54 синтеза может представлять собой конкатенацию сплайновых функций длиной 1/4 · N/F. Могут использоваться кубические сплайновые функции. Такой пример был обрисован выше в разделе A.1, где внешний цикл for-next последовательно обрабатывает сегменты 74, причем в каждом сегменте 74 понижающая дискретизация или интерполяция 72 включают в себя математическую комбинацию последовательных оконных коэффициентов w' в текущем сегменте 74, например, в первом операторе for-next в разделе ʺвычислить вектор r, необходимый для вычисления коэффициентов cʺ. Однако интерполяция, примененная в сегментах, также может быть выбрана по-другому. Таким образом, интерполяция не ограничена сплайнами или кубическими сплайнами. Вместо этого также может использоваться линейная интерполяция или любой другой метод интерполяции. В любом случае сегментная реализация интерполяции приводит к вычислению отсчетов сокращенного окна синтеза, т.е. самых крайних отсчетов сегментов сокращенного окна синтеза, граничащих с другим сегментом, чтобы не зависеть от оконных коэффициентов опорного окна синтеза, находящихся в других сегментах.

Может случиться так, что блок 18 оконной обработки получает дискретизированное с понижением окно 54 синтеза из запоминающего устройства, причем оконные коэффициенты wi этого дискретизированного с понижением окна 54 синтеза были сохранены после их получения с использованием понижающей дискретизации 72. В качестве альтернативы, как проиллюстрировано на фиг. 2, аудиодекодер 10 может содержать блок 76 сегментной понижающей дискретизации, выполняющий понижающую дискретизацию 72 на фиг. 6 на основе опорного окна 70 синтеза.

Следует отметить, что аудиодекодер 10 на фиг. 2 может быть выполнен с возможностью поддерживать лишь один фиксированный коэффициент понижающей дискретизации F или может поддерживать разные значения. В этом случае аудиодекодер 10 может реагировать на входное значение для F, как проиллюстрировано на фиг. 2 в позиции 78. Блок 14 захвата, например, может реагировать на это значению F, чтобы захватывать, как упомянуто выше, N/F спектральных значений на каждый спектр кадра. Подобным образом, факультативный блок 76 сегментной понижающей дискретизации также может реагировать на это значение F для работы, как указано выше. Спектрально-временной модулятор 16 также может реагировать на F, например, чтобы посредством вычислений выводить сокращенные/дискретизированные с понижением версии функций модуляции относительно версий, используемых в не сокращенном режиме работы, когда воссоздание приводит к полной частоте дискретизации аудиоданных.

Естественным образом, модулятор 16 также реагирует на вывод 78 F, поскольку модулятор 16 использует должным образом дискретизированные с понижением версии функций модуляции, и то же самое относится к блоку 18 оконной обработки и блоку 20 подавления относительно адаптации фактической длины кадров на сокращенной или дискретизированной с понижением частоте дискретизации.

Например, F может находиться между 1,5 и 10 включительно.

Следует отметить, что декодер на фиг. 2 и 3 или любая его модификация, обрисованная в настоящем документе, могут быть реализованы для выполнения спектрально-временного перехода с использованием лифтинговой реализации преобразования MDCT с малой задержкой, как изложено, например, в документе EP 2378516 B1.

Фиг. 8 иллюстрирует реализацию декодера с использованием концепции лифтинга. Спектрально-временной модулятор 16 выполняет в качестве примера обратное преобразование DCT-IV и показан как следующий за блоком, представляющим конкатенацию блока 18 оконной обработки и блока 20 подавления искажений во временной области. В примере на фиг. 8 E=2.

Модулятор 16 содержит частотно-временной конвертер обратного дискретного косинусного преобразования типа IV. Вместо того, чтобы выдавать последовательность временных участков 52 длиной (E+2)N/F, он выдает лишь временные участки 52 длиной 2⋅N/F, все выведенные из последовательности спектров 46 длиной N/F, эти укороченные участки 52 соответствуют ядру преобразования DCT, т.е. 2⋅N/F самым новым отсчетам описанных ранее участков.

Блок 18 оконной обработки действует, как описано ранее, и формирует обработанный с помощью оконной функции временной участок 60 для каждого временного участка 52, но он работает лишь с ядром преобразования DCT. С этой целью блок 18 оконной обработки 18 использует оконную функцию ωi, i=0, …, 2N/F-1, имеющую размер ядра. Соотношение между wi, i=0, …, (E+2) ⋅ N/F-1, описано позже просто как соотношение между упомянутыми далее коэффициентами лифтинга и wi, i=0, …, (E+2) ⋅ N/F-1.

С использованием применяемой выше терминологии описанный на данный момент процесс в результате дает:

zk,nn ⋅ xk,n для n=0, …, 2M-1,

с переопределением M=N/F, чтобы M соответствовало размеру кадра, выраженному в сокращенной области, и с использованием терминологии фиг. 2-6, однако причем zk,n и xk,n должен содержать лишь отсчеты обработанного с помощью оконной функции временного участка и еще не обработанного с помощью оконной функции временного участка в ядре преобразования DCT, имеющем размер 2⋅M и соответствующем во времени отсчетам E⋅N/F, …, (E+2) ⋅N/F-1 на фиг. 4. Таким образом, n является целым числом, указывающим индекс отсчета, и ωn является коэффициентом оконной функции с действительным значением, соответствующим индексу n отсчета.

Процесс наложения с суммированием блока 20 подавления работает по-другому по сравнению с приведенным выше описанием. Он формирует промежуточные временные участки mk(0), …, mk(M-1) на основе уравнения или выражения

mk,n=zk,n+zk-1,n+M для n=0, …, M-1.

В реализации фиг. 8 устройство дополнительно содержит блок 80 лифтинга, который может быть интерпретирован как часть модулятора 16 и блока 18 оконной обработки, поскольку блок 80 лифтинга компенсирует тот факт, что обработка модулятора и блока оконной обработки ограничена ядром преобразования DCT вместо того, чтобы обрабатывать расширение функций модуляции и окна синтеза вне ядра в прошлое, и это расширение было введено для компенсации нулевого участка 56. Блок 80 лифтинга с использованием структуры блоков задержки и умножителей 82 и сумматоров 84 производит окончательно воссозданные временные участки или кадры длиной M в парах непосредственно последовательных кадров на основе уравнения или выражения

uk,n=mk,n+ln-M/2 ⋅ mk-1,M-1-n для n=M/2, …, M-1,

и

uk,n=mk,n+lM-1-n ⋅ outk-1,M-1-n для n=0, …, M/2-1,

где ln, n=0, …, M-1, - коэффициенты лифтинга с действительным значением, относящиеся к сокращенному окну синтеза описанным более подробно ниже методом.

Другими словами, для расширенного наложения E кадров в прошлое требуются только M дополнительных операций умножения-сложения, как видно в структуре блока 80 лифтинга. Эти дополнительные операции иногда также упоминаются как ʺматрицы нулевой задержкиʺ. Иногда эти операции также известны как ʺшаги лифтингаʺ. Эффективная реализация, показанная на фиг. 8, может при некоторых обстоятельствах быть более эффективной, чем прямая реализация. А точнее, в зависимости от конкретной реализации, такая более эффективная реализация может привести к экономии M операций, как в случае прямой реализации для M операций, может быть желательно реализовать как реализацию, показанную на фиг. 19, которая теоретически требует 2M операций в структуре модуля 820 и M операций в структуре блока 830 лифтинга.

Что касается зависимости ωn, n=0, …, 2M-1, и ln, n=0, …, M-1, на окне синтеза wi, i=0, …, (E+2)M-1, (следует помнить, что здесь E=2), следующие формулы описывают соотношение между ними, однако с перемещением используемых до настоящего момента нижних индексов в круглую скобку после соответствующей переменной:

Следует отметить, что окно wi содержит пиковые значения на правой стороне в этой формулировке, т.е., между индексами и . Приведенные выше формулы устанавливают связь между коэффициентами ln, n=0, …, M-1, и ωn, n=0, …, 2M-1, с одной стороны, и коэффициентами wn, n=0, …, (E+2)M-1 сокращенного окна синтеза, с другой стороны. Как видно, ln, n=0, …, M-1, фактически зависят лишь от ¾ коэффициентов дискретизированного с понижением окна синтеза, а именно, от wn, n=0, …, (E+1)M-1, в то время как ωn, n=0, …, 2M-1, зависят от всех wn, n=0, …, (E+2)M-1.

Как указано выше, может случиться так, что блок 18 оконной обработки получает дискретизированное с понижением окно 54 синтеза wn, n=0, …, (E+2)M-1, из запоминающего устройства, причем оконные коэффициенты wi этого дискретизированного с понижением окна 54 синтеза были сохранены после их получения с использованием понижающей дискретизации 72, и они считываются оттуда для вычисления коэффициентов ln, n=0, …, M-1, и ωn, n=0, …, 2M-1, с использованием приведенного выше отношения, но в качестве альтернативы блок 18 оконной обработки может извлечь коэффициенты ln, n=0, … M-1, и ωn, n=0, …, 2M-1, вычисленные таким образом, из предварительно дискретизированного с понижением окна синтеза непосредственно из запоминающего устройства. В качестве альтернативы, как указано выше, аудиодекодер 10 может содержать блок 76 сегментной понижающей дискретизации, выполняющий понижающую дискретизацию 72 на фиг. 6 на основе опорного окна 70 синтеза, тем самым получая в результате wn, n=0, …, (E+2)M-1, на основе которых блок 18 оконной обработки вычисляет коэффициенты ln, n=0, …, M-1, и ωn, n=0, …, 2M-1, с использованием приведенного выше отношения/формулы. Даже с использованием лифтинговой реализацию может поддерживаться более чем одно значение для F.

Кратко обобщая лифтинговую реализацию, она в результате дает аудиодекодер 10, выполненный с возможностью декодировать аудиосигнал 22 на первой частоте дискретизации из потока 24 данных, в который аудиосигнал закодирован с преобразованием на второй частоте дискретизации, первая частота дискретизации составляет 1/F от второй частоты дискретизации, аудиодекодер 10 содержит приемник 12, который для каждого кадра длиной N аудиосигнала принимает N спектральных коэффициентов 28, блок 14 захвата, который для каждого кадра захватывает низкочастотный участок длиной N/F из N спектральных коэффициентов 28, спектрально-временной модулятор 16, выполненный с возможностью для каждого кадра 36 подвергать низкочастотный участок обратному преобразованию, имеющему функции модуляции длиной 2⋅N/F, простирающиеся во времени по соответствующему кадру и предыдущему кадру, чтобы получить временной участок длиной 2⋅N/F, и блок 18 оконной обработки, который для каждого кадра 36 выполняет оконную обработку временного участка xk,n в соответствии с zk,nn ⋅ xk,n для n=0, …, 2M-1, чтобы получить обработанный с помощью оконной функции временной участок zk,n, n=0, …, 2M-1. Блок 20 подавления искажений во временной области формирует промежуточный временной участок mk(0), …, mk(M-1) в соответствии с mk,n=zk,n+zk-1,n+M для n=0, …, M-1. Наконец, блок 80 лифтинга вычисляет кадры uk,n аудиосигнала, n=0, …, M-1, в соответствии с uk,n=mk,n+ln-M/2 ⋅ mk-1,M-1-n для n=M/2, …, M-1, и uk,n=mk,n+lM-1-n ⋅ outk-1,M-1-n для n=0, …, M/2-1, где ln, n=0, …, M-1 - коэффициенты лифтинга, причем обратным преобразованием является обратное преобразование MDCT или обратное преобразование MDST, и причем ln, n=0, …, M-1, и ωn, n=0, …, 2M-1, зависят от коэффициентов wn, n=0, …, (E+2)M-1, окон синтеза, и окно синтеза является дискретизированной с понижением версией опорного окна синтеза длиной 4 ⋅ N, дискретизированной с понижением с коэффициентом F посредством сегментной интерполяции в сегментах длины 1/4 ⋅ N.

Из приведенного выше обсуждения предложения для расширения стандарта AAC-ELD относительно сокращенного режима декодирования уже выяснилось, что аудиодекодер на фиг. 2 может сопровождаться инструментом SBR с малой задержкой. Далее обрисовано, например, каким образом кодер стандарта AAC-ELD, расширенный для поддержки предложенного выше сокращенного режима работы, будет работать с использованием инструмента SBR с малой задержкой. Как уже упомянуто во вводной части описания настоящей заявки, в случае, если инструмент SBR с малой задержкой используется вместе с кодером стандарта AAC-ELD, наборы фильтров модуля SBR с малой задержкой также являются сокращенными. Это гарантирует, что модуль SBR работает с таким же частотным разрешением, и, таким образом, дополнительная адаптация не требуется. Фиг. 7 обрисовывает путь прохождения сигнала декодера стандарта AAC-ELD, работающего на частоте 96 кГц, с размером кадра 480 отсчетов, в дискретизированном с понижением режиме SBR и с коэффициентом сокращения =2.

На фиг. 7 битовый поток, прибывающий как обработанный посредством последовательности блоков, а именно, декодером AAC, блоком обратного преобразования LD-MDCT, блоком CLDFB анализа, декодером SBR и блоком CLDFB синтеза (CLDFB=комплексный набор фильтров с малой задержкой). Битовый поток эквивалентен потоку 24 данных, поясненному ранее относительно фиг. 3-6, но дополнительно сопровождается параметрическими данными SBR, помогающими формированию спектра спектральной копии полосы спектрального расширения, расширяющей спектральную частоту аудиосигнала, полученного посредством сокращенного аудиодекодирования на выходе блока обратного преобразования MDCT с малой задержкой, формирование спектра выполняется декодером SBR. В частности, декодер AAC извлекает все необходимые синтаксические элементы посредством подходящего синтаксического разбора и энтропийного декодирования. Декодер AAC может частично совпадать с приемником 12 аудиодекодера 10, который на фиг. 7 воплощен посредством блока обратного преобразования MDCT с малой задержкой. На фиг. 7 в качестве примера F=2. Таким образом, блок обратного преобразования MDCT с малой задержкой на фиг. 7 выдает, в качестве примера для воссозданного аудиосигнала 22 на фиг. 2, временной сигнал с 48 кГц, дискретизированный с понижением на половине частоты, на которой аудиосигнал был первоначально закодирован в прибывающий битовый поток. Блок CLDFB анализа подразделяет этот временной сигнал с 48 кГц, т.е., аудиосигнал, полученный посредством сокращенного аудиодекодирования, на N полос, здесь N=16, и декодер SBR вычисляет коэффициенты повторного формирования для этих полос, соответствующим образом повторно формирует N полос под управляем данных SBR во входном битовом потоке, прибывающем на вход декодера AAC, и блок CLDFB синтеза выполняет повторный переход из спектральной области во временную область, тем самым получая высокочастотный дополнительный сигнал, который будет добавлен к первоначальным декодированным аудиосигналам, выданным блоком обратного преобразования MDCT с малой задержкой.

Следует обратить внимание на то, что стандартная операция SBR использует набор фильтров CLDFB с 32 полосами. Алгоритм интерполяции для оконных коэффициентов CLDFB с 32 полосами уже дан в 4.6.19.4.1 в [1],

где - оконные коэффициенты окна с 64 полосами, заданные в таблице 4.A.90 в [1]. Эта формула также может быть далее обобщена для определения оконных коэффициентов для меньшего количества полос

где обозначает коэффициент сокращения, равный . Посредством этого определение оконных коэффициентов набор фильтров CLDFB анализа и синтеза может быть полностью описано, как обрисовано в приведенном выше примере раздела A.2.

Таким образом, приведенные выше примеры обеспечили некоторые недостающие определения для кодека стандарта AAC-ELD, чтобы приспособить этот кодек к системам с низкими частотами дискретизации. Эти определения могут быть включены в стандарт ISO/IEC 14496-3:2009.

Таким образом, в приведенном выше обсуждении среди прочего было описано следующее.

Аудиодекодер может быть выполненным с возможностью декодировать аудиосигнал на первой частоте дискретизации из потока данных, в который аудиосигнал закодирован с преобразованием на второй частоте дискретизации, первая частота дискретизации составляет 1/F от второй частоты дискретизации, аудиодекодер содержит: приемник, выполненный с возможностью принимать N спектральных коэффициентов для каждого кадра длиной N аудиосигнала; блок захвата, выполненный с возможностью для каждого кадра захватывать низкочастотный участок длиной N/F из N спектральных коэффициентов; спектрально-временной модулятор, выполненный с возможностью для каждого кадра подвергать низкочастотный участок обратному преобразованию, имеющему функции модуляции длиной (E+2) ⋅ N/F, простирающиеся во времени по соответствующему кадру и E+1 предыдущим кадрам, чтобы получить временной участок длиной (E+2) ⋅ N/F; блок оконной обработки, выполненный с возможностью для каждого кадра выполнять оконную обработку временного участка с использованием унимодального окна синтеза длиной (E+2) ⋅ N/F, содержащего нулевой участок длиной 1/4⋅N/F на своем переднем конце и имеющего пик во временном интервале унимодального окна синтеза, временной интервал следует за нулевым участком и имеет длину 7/4 ⋅ N/F, таким образом, блок оконной обработки получает обработанный с помощью оконной функции временной участок длиной (E+2) ⋅ N/F; и блок подавления искажений во временной области, выполненный с возможностью подвергать обработанный с помощью оконной функции временной участок кадров процессу наложения с суммированием таким образом, чтобы часть заднего конца длиной (E+1)/(E+2) обработанного с помощью оконной функции временного участка текущего кадра наложилась на передний конец длиной (E+1)/(E+2) обработанного с помощью оконной функции временного участка предыдущего кадра, причем обратным преобразованием является обратное преобразование MDCT или обратное преобразование MDST, и причем унимодальное окно синтеза является дискретизированной с понижением версией опорного унимодального окна синтеза длиной (E+2) ⋅ N, дискретизированной с понижением с коэффициентом F посредством сегментной интерполяции в сегментах длиной 1/4 ⋅ N.

Аудиодекодер в соответствии с вариантом осуществления, в котором унимодальное окно синтеза является конкатенацией сплайновых функций длиной 1/4 ⋅ N/F.

Аудиодекодер в соответствии с вариантом осуществления, в котором унимодальное окно синтеза является конкатенацией кубических сплайновых функций длиной 1/4 ⋅ N/F.

Аудиодекодер в соответствии с любым из предыдущих вариантов осуществления, в котором E=2.

Аудиодекодер в соответствии с любым из предыдущих вариантов осуществления, в котором обратным преобразованием является обратное преобразование MDCT.

Аудиодекодер в соответствии с любым из предыдущих вариантов осуществления, в котором более 80% массы унимодального окна синтеза содержатся во временном интервале, следующем за нулевым участком и имеющем длину 7/4 ⋅ N/F.

Аудиодекодер в соответствии с любым из предыдущих вариантов осуществления, причем аудиодекодер выполнен с возможностью выполнять интерполяцию или получать унимодальное окно синтеза из запоминающего устройства.

Аудиодекодер в соответствии с любым из предыдущих вариантов осуществления, причем аудиодекодер выполнен с возможностью поддерживать разные значения для F.

Аудиодекодер в соответствии с любым из предыдущих вариантов осуществления, в котором F находится между 1,5 и 10 включительно.

Способ, выполняемый аудиодекодером в соответствии с любым из предыдущих вариантов осуществления.

Компьютерная программа, имеющая программный код для выполнения способа в соответствии с вариантом осуществления при его исполнении на компьютере.

Что касается термина ʺдлиной...ʺ, следует отметить, что этот термин должен интерпретироваться как измерение длины в отсчетах. Что касается длины нулевого участка и сегментов, следует отметить, что она может являться целыми числами. В качестве альтернативы она может являться не целым числом.

Что касается временного интервала, в котором размещен пик, следует отметить, что фиг. 1 показывает этот пик, а также временной интервал, иллюстративно для примера опорного унимодального окна синтеза с E=2 и N=512: пик имеет свой максимум приблизительно в отсчете № 1408, и временной интервал простирается от отсчета № 1024 до отсчета № 1920. Временной интервал, таким образом, составляет 7/8 длины ядра преобразования DCT.

Что касается термина ʺдискретизированная с понижением версияʺ, следует отметить, что в приведенном выше описании вместо этого термина синонимично использовался термин ʺсокращенная версияʺ.

Что касается термина ʺмасса функции в некотором интервалеʺ, следует отметить, что это должно обозначить определенный интеграл соответствующей функции в соответствующем интервале.

В случае аудиодекодера, поддерживающего разные значения для F, он может содержать запоминающее устройство, имеющее соответствующим образом сегментно интерполированные версии опорного унимодального окна синтеза, или может выполнять сегментную интерполяцию для текущего активного значения F. Общее между разными сегментно интерполированными версиями состоит в том, что интерполяция отрицательно не затрагивает разрывы на границах сегмента. Как описано выше, они могут являться сплайновыми функциями.

Посредством вывода унимодального окна синтеза с помощью сегментной интерполяции из опорного унимодального окна синтеза, такого как показанное на фиг. 1 выше, 4 ⋅ (E+2) сегментов могут быть сформированы посредством сплайнового приближения, например, кубическими сплайнами, и несмотря на интерполяцию, разрывы, которые должны присутствовать в унимодальном окне синтеза с шагом 1/4 ⋅ N/F вследствие искусственно введенного нулевого участка в качестве средства для уменьшения задержки, сохраняются.

Литература

[1] ISO/IEC 14496-3:2009

[2] M13958, ʺProposal for an Enhanced Low Delay Coding Modeʺ, October 2006, Hangzhou, China

1. Аудиодекодер (10), выполненный с возможностью декодировать аудиосигнал (22) на первой частоте дискретизации из потока (24) данных, в который аудиосигнал закодирован с преобразованием на второй частоте дискретизации, при этом первая частота дискретизации составляет 1/F от второй частоты дискретизации, причем аудиодекодер (10) содержит:

приемник (12), выполненный с возможностью принимать N спектральных коэффициентов (28) для каждого кадра длиной N аудиосигнала;

блок (14) захвата, выполненный с возможностью для каждого кадра захватывать низкочастотный участок длиной N/F из N спектральных коэффициентов (28);

спектрально-временной модулятор (16), выполненный с возможностью для каждого кадра (36) подвергать низкочастотный участок обратному преобразованию, имеющему функции модуляции длиной (E+2) ⋅ N/F, простирающиеся во времени по соответствующему кадру и E+1 предыдущим кадрам, чтобы получить временной участок длиной (E+2) ⋅ N/F;

блок (18) оконной обработки, выполненный с возможностью для каждого кадра (36) выполнять оконную обработку временного участка с использованием окна синтеза длиной (E+2) ⋅ N/F, содержащего нулевой участок длиной 1/4 ⋅ N/F на своем переднем конце и имеющего пик во временном интервале окна синтеза, причем временной интервал следует за нулевым участком и имеет длину 7/4 ⋅ N/F, таким образом блок оконной обработки получает обработанный с помощью оконной функции временной участок длиной (E+2) ⋅ N/F; и

блок (20) подавления искажений во временной области, выполненный с возможностью подвергать обработанный с помощью оконной функции временной участок кадров процессу наложения с суммированием таким образом, чтобы часть заднего конца длиной (E+1)/(E+2) обработанного с помощью оконной функции временного участка текущего кадра наложилась на передний конец длиной (E+1)/(E+2) обработанного с помощью оконной функции временного участка предыдущего кадра,

причем обратным преобразованием является обратное преобразование MDCT или обратное преобразование MDST, и

причем окно синтеза является дискретизированной с понижением версией опорного окна синтеза длиной (E+2) ⋅ N, дискретизированной с понижением с коэффициентом F посредством сегментной интерполяции в сегментах длиной 1/4 ⋅ N.

2. Аудиодекодер (10) по п. 1, в котором окно синтеза является конкатенацией сплайновых функций длиной 1/4 ⋅ N/F.

3. Аудиодекодер (10) по п. 1, в котором окно синтеза является конкатенацией кубических сплайновых функций длиной 1/4 ⋅ N/F.

4. Аудиодекодер (10) по п. 1, в котором E=2.

5. Аудиодекодер (10) по п. 1, в котором обратным преобразованием является обратное преобразование MDCT.

6. Аудиодекодер (10) по п. 1, в котором более 80% массы окна синтеза содержатся во временном интервале, следующем за нулевым участком и имеющем длину 7/4 ⋅ N/F.

7. Аудиодекодер (10) по п. 1, причем аудиодекодер (10) выполнен с возможностью выполнять интерполяцию или получать окно синтеза из запоминающего устройства.

8. Аудиодекодер (10) по п. 1, причем аудиодекодер (10) выполнен с возможностью поддерживать разные значения для F.

9. Аудиодекодер (10) по п. 1, в котором F находится между 1,5 и 10 включительно.

10. Аудиодекодер (10) по п. 1, в котором опорное окно синтеза является унимодальным.

11. Аудиодекодер (10) по п. 1, причем аудиодекодер (10) выполнен с возможностью выполнять интерполяцию таким образом, что большинство коэффициентов окна синтеза зависят более чем от двух коэффициентов опорного окна синтеза.

12. Аудиодекодер (10) по п. 1, причем аудиодекодер (10) выполнен с возможностью выполнять интерполяцию таким образом, что каждый коэффициент окна синтеза, отделенный более чем на два коэффициента от границ сегмента, зависит более чем от двух коэффициентов опорного окна синтеза.

13. Аудиодекодер (10) по п. 1, в котором блок (18) оконной обработки и блок подавления искажений во временной области взаимодействуют таким образом, что блок оконной обработки пропускает нулевой участок в весовых коэффициентах временного участка с использованием окна синтеза и блок (20) подавления искажений во временной области игнорирует соответствующий невзвешенный участок обработанного с помощью оконной функции временного участка в процессе наложения с суммированием таким образом, что суммируются лишь E+1 обработанных с помощью оконной функции временных участков, чтобы получить в результате соответствующий невзвешенный участок соответствующего кадра, и суммируются E+2 обработанных с помощью оконной функции участков в оставшейся части соответствующего кадра.

14. Аудиодекодер для формирования сокращенной версии окна синтеза аудиодекодера (10) по п. 1, причем E=2, чтобы оконная функция синтеза содержала половину, относящуюся к ядру, длиной 2⋅N/F, которой предшествует оставшаяся половина длиной 2⋅N/F, и причем спектрально-временной модулятор (16), блок (18) оконной обработки и блок (20) подавления искажений во временной области реализованы таким образом, чтобы взаимодействовать в лифтинговой реализации, в соответствии с которой

спектрально-временной модулятор (16) для каждого кадра (36) ограничивает применение к низкочастотной части обратного преобразования, имеющего функции модуляции длиной (E+2) ⋅ N/F, простирающиеся во времени по соответствующему кадру и E+1 предыдущим кадрам, ядром преобразования, совпадающим с соответствующим кадром и одним предыдущим кадром, чтобы получить временной участок xk,n, n=0, …, 2M-1, где M=N/F - индекс отсчета, и k - индекс кадра;

блок (18) оконной обработки для каждого кадра (36) выполняет оконную обработку временного участка xk,n в соответствии с zk,nn ⋅ xk,n для n=0, …, 2M-1, чтобы получить обработанный с помощью оконной функции временной участок zk,n, n=0, …, 2M-1;

блок (20) подавления искажений во временной области формирует промежуточные временные участки mk(0), …, mk(M-1) в соответствии с mk,n=zk,n+zk-1,n+M для n=0, …, M-1, и

аудиодекодер содержит блок (80) лифтинга, выполненный с возможностью получать кадры uk,n, n=0, …, M-1, в соответствии с

uk,n=mk,n+ln-M/2 ⋅ mk-1,M-1-n для n=M/2, …, M-1,

и

uk,n=mk,n+lM-1-n ⋅ outk-1,M-1-n for n=0,…,M/2-1,

где ln, n=0, …, M-1 - коэффициенты лифтинга, и причем ln, n=0, …, M-1, и ωn, n=0, …, 2M-1, зависят от коэффициентов wn, n=0, …, (E+2)M-1 окна синтеза.

15. Устройство для формирования сокращенной версии окна синтеза аудиодекодера (10) по п. 1, причем устройство выполнено с возможностью дискретизировать с понижением опорное окно синтеза длиной (E+2) ⋅ N с коэффициентом F посредством сегментной интерполяции в 4 · (E+2) сегментах равной длины.

16. Способ формирования сокращенной версии окна синтеза аудиодекодера (10) по п. 1, причем способ содержит этап, на котором выполняют понижающую дискретизацию опорного окна синтеза длиной (E+2) ⋅ N с коэффициентом F посредством сегментной интерполяции в 4 · (E+2) сегментах равной длины.

17. Аудиодекодер (10), выполненный с возможностью декодировать аудиосигнал (22) на первой частоте дискретизации из потока (24) данных, в который аудиосигнал закодирован с преобразованием на второй частоте дискретизации, при этом первая частота дискретизации составляет 1/F от второй частоты дискретизации, причем аудиодекодер (10) содержит:

приемник (12), выполненный с возможностью для каждого кадра длиной N аудиосигнала принимать N спектральных коэффициентов (28);

блок (14) захвата, выполненный с возможностью для каждого кадра захватывать низкочастотный участок длиной N/F из N спектральных коэффициентов (28);

спектрально-временной модулятор (16), выполненный с возможностью для каждого кадра (36) подвергать низкочастотный участок обратному преобразованию, имеющему функции модуляции длиной 2⋅N/F, простирающиеся во времени по соответствующему кадру и предыдущему кадру, чтобы получить временной участок длиной 2⋅N/F;

блок (18) оконной обработки, выполненный с возможностью для каждого кадра (36) выполнять оконную обработку временного участка xk,n в соответствии с zk,nn ⋅ xk,n для n=0, …, 2M-1, чтобы получить обработанный с помощью оконной функции временной участок zk,n, n=0, …, 2M-1;

блок (20) подавления искажений во временной области, выполненный с возможностью формировать промежуточные временные участки mk(0), …, mk(M-1) в соответствии с mk,n=zk,n+zk-1,n+M для n=0, …, M-1, и

блок (80) лифтинга, выполненный с возможностью получать кадры uk,n аудиосигнала, n=0, …, M-1, в соответствии с

uk,n=mk,n+ln-M/2 ⋅ mk-1,M-1-n для n=M/2, …, M-1,

и

uk,n=mk,n+lM-1-n ⋅ outk-1,M-1-n для n=0, …, M/2-1,

где ln, n=0, …, M-1 - коэффициенты лифтинга,

причем обратным преобразованием является обратное преобразование MDCT или обратное преобразование MDST, и

причем ln, n=0, …, M-1, и ωn, n=0, …, 2M-1, зависят от коэффициентов wn, n=0, …, (E+2)M-1, окна синтеза и окно синтеза является дискретизированной с понижением версией опорного окна синтеза длиной 4 ⋅ N, дискретизированного с понижением с коэффициентом F посредством сегментной интерполяции с сегментами длиной 1/4 ⋅ N.

18. Устройство для формирования сокращенной версии окна синтеза аудиодекодера (10) по п. 17, причем устройство выполнено с возможностью дискретизировать с понижением опорное окно синтеза длиной (E+2) ⋅ N с коэффициентом F посредством сегментной интерполяции в 4 · (E+2) сегментах равной длины.

19. Способ формирования сокращенной версии окна синтеза аудиодекодера (10) по п. 17, причем способ содержит этап, на котором выполняют понижающую дискретизацию опорного окна синтеза длиной (E+2) ⋅ N с коэффициентом F посредством сегментной интерполяции в 4 · (E+2) сегментах равной длины.

20. Способ декодирования аудиосигнала (22) на первой частоте дискретизации из потока (24) данных, в который аудиосигнал закодирован с преобразованием на второй частоте дискретизации, при этом первая частота дискретизации составляет 1/F от второй частоты дискретизации, причем способ содержит этапы, на которых:

принимают для каждого кадра длиной N аудиосигнала N спектральных коэффициентов (28);

захватывают для каждого кадра низкочастотную часть длиной N/F из N спектральных коэффициентов (28);

выполняют спектрально-временную модуляцию, подвергая, для каждого кадра (36), низкочастотный участок обратному преобразованию, имеющему функции модуляции длиной (E+2) ⋅ N/F, простирающиеся во времени по соответствующему кадру и E+1 предыдущим кадрам, чтобы получить временной участок длиной (E+2) ⋅ N/F;

выполняют для каждого кадра (36) оконную обработку временного участка с использованием окна синтеза длиной (E+2) ⋅ N/F, содержащего нулевой участок длиной 1/4⋅N/F на своем переднем конце и имеющего пик во временном интервале окна синтеза, причем временной интервал следует за нулевым участком и имеет длину 7/4 ⋅ N/F, таким образом блок оконной обработки получает обработанный с помощью оконной функции временной участок длиной (E+2) ⋅ N/F; и

выполняют подавление искажений во временной области, подвергая обработанный с помощью оконной функции временной участок кадров процессу наложения с суммированием таким образом, чтобы часть заднего конца длиной (E+1)/(E+2) обработанного с помощью оконной функции временного участка текущего кадра наложилась на передний конец длиной (E+1)/(E+2) обработанного с помощью оконной функции временного участка предыдущего кадра,

причем обратным преобразованием является обратное преобразование MDCT или обратное преобразование MDST, и причем окно синтеза является дискретизированной с понижением версией опорного окна синтеза длиной (E+2) ⋅ N, дискретизированной с понижением с коэффициентом F посредством сегментной интерполяции в сегментах длиной 1/4 ⋅ N.



 

Похожие патенты:

Изобретение относится к акустике. Устройство содержит процессор метаданных объекта и средство рендеринга объекта.

Изобретение относится к средствам стереофонического кодирования на основе MDCT с комплексным предсказанием. Технический результат заключается в повышении эффективности стереофонического кодирования при передаче данных с высокой битовой скоростью.

Изобретение относится к обработке аудиосигналов. Технический результат – уменьшение разрыва аудио при восстановлении пакета в начальной точке аудио и повышение субъективного качества аудио.

Изобретение относится к области обработки звуковых сигналов. Технический результат заключается в повышении качества обработки звукового сигнала при расширении частотного диапазона звукового сигнала.

Изобретение относится к вычислительной технике для обработки цифрового аудиосигнала. Технический результат заключается в повышении качества аудиосигнала после коррекции потери кадра.

Группа изобретений относится к эффективной реализации высокочастотной реконструкции (HFR), усиленной перекрестными произведениями. Технический результат – возможность воспроизведения звукового сигнала с высокой точностью при условии снижения вычислительных затрат.

Изобретение относится к средствам для определения параметра межканальной разности времени. Технический результат заключается в повышении точности определения параметра межканальной разности времени.

Изобретение относится к средствам для кодирования и декодирования аудио. Технический результат заключается в повышении эффективности кодирования при переключении между различными режимами.

Изобретение относится к аудиокодеку для использования параллельно с кодированным видео. Техническим результатом является обеспечение синхронизации и выравнивания аудио и видео.

Изобретение относится к обработке аудиосигнала. Технический результат - уменьшение разрыва аудио при восстановлении пакета в начальной точке аудио.

Изобретение относится к области обработки звуковых сигналов. Технический результат заключается в повышении качества обработки звукового сигнала при расширении частотного диапазона звукового сигнала.

Группа изобретений относится к эффективной реализации высокочастотной реконструкции (HFR), усиленной перекрестными произведениями. Технический результат – возможность воспроизведения звукового сигнала с высокой точностью при условии снижения вычислительных затрат.

Изобретение относится к средствам для кодирования и декодирования аудио. Технический результат заключается в повышении эффективности кодирования при переключении между различными режимами.

Изобретение относится к средствам для кодирования и декодирования речи. Технический результат заключается в уменьшении опережающего и запаздывающего эха.

Изобретение относится к области декодирования аудиоинформации. Технический результат – обеспечение улучшенного маскирования ошибки аудиоинформации.

Изобретение относится к области обработки аудиосигналов. Технический результат заключается в повышении эффективности обработки аудиосигналов.

Изобретение относится к обработке звука, в частности, к обработке звука с перекрывающимися окнами для анализа или синтеза в цепочке обработки звукового сигнала. Технический результат – повышение качества обработки звукового сигнала.

Изобретение относится к обработке аудиосигнала. Технический результат - повышение качества аудиосигнала.

Изобретение относится к средствам для обработки аудиосигнала с использованием горизонтальной фазовой коррекции. Технический результат заключается в повышении эффективности обработки аудиосигнала.

Изобретение относится к средствам для обработки аудиосигнала с использованием вертикальной фазовой коррекции. Технический результат заключается в повышении эффективности обработки аудиосигнала.

Изобретение относится к способам распознавания образов. Технический результат заключается в расширении арсенала средств. Предложен способ интеллектуального графического обучения системы распознавания образов, при котором воспроизводят осциллограмму целиком либо частично на дисплее аналитической системы в виде статического изображения; проводят обучение аналитической системы путем указания на часть осциллограммы, которую необходимо принять за образец для анализа на предмет наличия в анализируемой осциллограмме периодов, отличных от указанных, указывают два или более периода осциллограммы, причем для полного достижения технического эффекта достаточно указания только двух периодов и нет необходимости точного указания периодов, возможно указание двух полных периодов с избыточными данными до начала первого и после окончания второго периода; определяют минимальное Ymin и максимальное Ymax значения осциллограммы по оси ординат в рамках указанного образца. 11 ил.

Изобретение относится к области вычислительной техники для декодирования аудиоданных. Технический результат заключается в повышении точности аудиодекодирования. Технический результат достигается за счет подавления искажений во временной области, подвергая обработанный с помощью оконной функции временной участок кадров процессу наложения с суммированием таким образом, чтобы часть заднего конца длиной обработанного с помощью оконной функции временного участка текущего кадра наложилась на передний конец длиной обработанного с помощью оконной функции временного участка предыдущего кадра. 8 н. и 12 з.п. ф-лы, 9 ил.

Наверх