Оптимизированный масштабный коэффициент для расширения диапазона частот в декодере сигналов звуковой частоты
Настоящее изобретение относится к области вычислительной техники для обработки аудиоданных. Технический результат заключается в повышении точности определения оптимизированного масштабного коэффициента для применения к сигналу возбуждения или к фильтру. Технический результат достигается за счет вычисления частотной характеристики R фильтра линейного предсказания диапазона частот, сглаживания значения R для получения значения Rsmoothed, причем способ сглаживания выбирают из группы способов сглаживания, включающей по меньшей мере два способа сглаживания в зависимости от набора параметров, содержащих множество параметров, включающих значение крутизны спектра, наклона, причем набор способов сглаживания содержит экспоненциальное сглаживание с фиксированным во времени коэффициентом. 2 н. и 6 з.п. ф-лы, 10 ил.
Настоящее изобретение относится к области кодирования/декодирования и обработки сигналов звуковой частоты (например, речи, музыки или других подобных сигналов) для их передачи или их хранения.
Более конкретно, изобретение относится к способу и устройству для определения оптимизированного масштабного коэффициента, который может использоваться для регулировки уровня сигнала возбуждения или, эквивалентным образом, фильтра в качестве компонента расширения диапазона частот в декодере или улучшения сигналов звуковой частоты посредством процессора.
Существуют многочисленные методы сжатия (с потерей) сигнала звуковой частоты, такого как речь или музыка.
Традиционные способы кодирования для разговорных приложений, как правило, делятся на кодирование формы сигнала (РСМ «кодово-импульсная модуляция», ADCPM «адаптивная дифференциальная кодово-импульсная модуляция», кодирование с преобразованием и т.д.), параметрическое кодирование (LPC «кодирование с линейным предсказанием», синусоидальное кодирование и т.д.) и параметрическое гибридное кодирование с квантованием параметров посредством «анализа через синтез», самым известным примером которого является кодирование CELP («линейное предсказание с кодовым возбуждением»).
Для неразговорных приложений в уровень техники для кодирования (монофонического) звукового сигнала входит перцептуальное кодирование с преобразованием или в поддиапазонах с параметрическим кодированием высоких частот посредством репликации диапазона.
Обзор способов кодирования обычной речи и звука можно найти в работах W.B. Kleijn and K.K. Paliwal (eds.), Speech Coding and Synthesis, Elsevier, 1995; M. Bosi, R.E. Goldberg, Introduction to Digital Audio Coding and Standards, Springer 2002; J. Benesty, M.M. Sondhi, Y. Huang (Eds.), Handbook of Speech Processing, Springer 2008.
Внимание в данных работах сосредоточено, в частности, на 3GPP стандартизированном AMR-WB («адаптивном многоскоростном широкополосном») кодеке (кодере и декодере), который работает на входной/выходной частоте 16 кГц, и в котором сигнал разделяется на два поддиапазона, нижний диапазон (0-6,4 кГц), который дискретизируется с частотой 12,8 кГц и кодируется посредством CELP модели, и верхний диапазон (6,4-7 кГц), который параметрически восстанавливается посредством «расширения диапазона» (или BWE «расширения полосы пропускания») с или без дополнительной информации в зависимости от режима текущего кадра. Можно отметить, что ограничение кодированного диапазона кодека AMR-WB на частоте 7 кГц, по существу, связано с тем, что частотная характеристика при передаче широкополосных терминалов была аппроксимирована в момент стандартизации (ETSI/3GPP, в дальнейшем ITU-T) в соответствии с частотной маской, определенной в стандарте ITU-T P.341 и, более конкретно посредством так называемого фильтра «P341», определенного в стандарте ITU-T G.191, который отсекает частоты выше 7 кГц (данный фильтр соблюдает маску, определенную в P.341). Тем не менее, в теории хорошо известно, что сигнал, подвергнутый дискретизации с частотой 16 кГц, может иметь определенный звуковой диапазон от 0 до 8000 Гц; поэтому AMR-WB-кодек вводит ограничение верхнего диапазона по сравнению с теоретической полосой пропускания 8 кГц.
3GPP AMR-WB речевой кодек был стандартизирован в 2001 году, главным образом, для режима с коммутацией каналов (CS) телефонных приложений на GSM (2G) и UMTS (3G). Этот же кодек также был стандартизирован в 2003 году в стандарте ITU-T в виде рекомендации G.722.2 «Широкополосное кодирование речи при приблизительно 16 кбит/с с применением адаптивного многоскоростного широкополосного кодирования (AMR-WB)».
Он имеет девять скоростей цифрового потока, называемых режимами, от 6,6 до 23,85 кбит/с, и содержит механизмы непрерывной передачи (DTX «прерывистой передачи») с определением присутствия голосового сигнала (VAD) и генерацией комфортного шума (CNG) из кадров описания периода молчания (SID «дескриптор информации о паузе») и механизмы коррекции потерянных кадров (FEC «маскирование стирания кадров», иногда называемое PLC «маскирование потери пакетов»).
Подробная информация о AMR-WB кодировании и алгоритме декодирования не повторяется в данной заявке; подробное описание этого кодека можно найти в спецификациях 3GPP (TS 26.190, 26.191, 26.192, 26.193, 26.194, 26.204) и в ITU-T-G.722.2 (и соответствующих дополнениях и приложениях), и в статье B. Bessette и другие, озаглавленной «The adaptive multirate wideband speech codec (AMR-WB)ʺ, IEEE Transactions on Speech and Audio Processing, vol. 10, no. 8, 2002, pp. 620-636, и исходном коде связанных стандартов 3GPP и ITU-T.
Принцип расширения диапазона в кодеке AMR-WB довольно слабо развит. Действительно, верхний диапазон (6,4-7 кГц) генерируется посредством формирования белого шума во времени (применяемого при формировании коэффициентов усиления на подкадр) и частотной огибающей (посредством применения синтезирующего фильтра линейного предсказания или LPC «кодирование с линейным предсказанием»). Данный метод расширения диапазона показан на фиг. 1.
Белый шум , генерируется на частоте 16 кГц для каждого подкадра длительностью 5 мс посредством линейного конгруэнтного генератора (блок 100). Этот шум формируется во времени посредством применения коэффициентов усиления для каждого подкадра; эта операция разбивается на два этапа обработки (блоки 102, 106 или 109):
Вычисляют (блок 101) первый коэффициент, чтобы установить белый шум (блок 102) на том же уровне, что и возбуждение , , декодированное на частоте 12,8 кГц в нижнем диапазоне:
Можно отметить, что нормализация энергий выполняется путем сравнения блоков разного размера (64 для и 80 для ) без компенсации отличий в частотах дискретизации (12,8 или 16 кГц).
Затем получают возбуждение в верхнем диапазоне (блок 106 или 109) в виде:
где коэффициент усиления получают по-разному в зависимости от скорости цифрового потока. Если скорость цифрового потока текущего кадра <23,85 кбит/с, коэффициент усиления оценивают «вслепую» (то есть без дополнительной информации); в этом случае блок 103 фильтрует сигнал, декодированный в нижнем диапазоне, посредством фильтра высоких частот с частотой среза 400 Гц для получения сигнала , - данный фильтр высоких частот устраняет влияние очень низких частот, которые могут исказить оценку, выполненную в блоке 104 - затем «наклон» (индикатор крутизны спектра), обозначенный сигнала вычисляют с помощью нормированной автокорреляции (блок 104 ):
и, наконец, вычисляют в виде:
где - коэффициент усиления, применяемый в активных речевых (SP) кадрах, - коэффициент усиления, применяемый в неактивных речевых кадрах, относящихся к фоновому (BG) шуму, и - весовая функция, которая зависит от определения присутствия голосового сигнала (VAD). Понятно, что оценка наклона () позволяет адаптировать уровень верхнего диапазона в зависимости от спектрального характера сигнала; эта оценка особенно важна, когда крутизна спектра CELP декодированного сигнала такой, что средняя энергия уменьшается, когда частота увеличивается (в случае вокализованного сигнала, где близка к 1, поэтому соответственно снижается). Следует также отметить, что коэффициент в AMR-WB декодировании ограничивается для приема значений в диапазоне [0,1; 1,0]. Более того, для сигналов, энергия которых увеличивается при увеличении частоты ( близко к -1, близко к 2), коэффициент усиления обычно занижается.
При скорости 23,85 кбит/с корректирующее информационное сообщение передается на AMR-WB кодер и декодируется (блоки 107, 108) с целью уточнения коэффициента усиления, оцененного для каждого подкадра (4 бита каждые 5 мс или 0,8 кбит/с). Затем искусственное возбуждение фильтруется (блок 111) посредством LPC синтезирующего фильтра (блок 111) передаточной функции и работает на частоте дискретизации 16 кГц. Структура данного фильтра зависит от скорости передачи текущего кадра:
При скорости 6,6 кбит/с фильтр получают путем взвешивания посредством коэффициента = 0,9 фильтра LPC 20-го порядка , который «экстраполирует» фильтр LPC 16-го порядка , декодированный в нижнем диапазоне (12,8 кГц) - подробности экстраполяции параметров области ISF (спектральной частоты иммитанса) описываются в стандарте G.722.2 в разделе 6.3.2.1; в этом случае,
при скорости цифрового потока > 6.6 кбит/с фильтр имеет 16-й порядок и фактически соответствует:
где = 0,6. Следует отметить, что в этом случае фильтр используется на частоте 16 кГц, что приводит к расширению (посредством пропорционального преобразования) частотной характеристики этого фильтра от [0;6,4 кГц] до [0;8 кГц].
В заключение, результат обрабатывается посредством полосового фильтра (блок 112) типа FIR («конечной импульсной характеристики»), чтобы сохранить только диапазон 6-7 кГц; при скорости 23,85 кбит/с низкочастотный фильтр также типа FIR (блок 113) добавляется к обработке для дополнительного подавления частот выше 7 кГц. В заключение, высокочастотный (HF) синтез добавляется (блок 130) к низкочастотному (LF) синтезу, полученному с помощью блоков 120-122 и подвергнутом повторной дискретизации с частотой 16 кГц (блок 123). Таким образом, даже если верхний диапазон расширяется в теории от 6,4 до 7 кГц в кодеке AMR-WB, HF синтез скорее содержится в полосе 6-7 кГц перед суммированием с LF синтезом.
В методе расширения диапазона кодека AMR-WB может быть выявлен ряд недостатков, в частности:
оценка коэффициентов усиления для каждого подкадра (блок 101, 103-105) не является оптимальной. Отчасти она основывается на выравнивании «абсолютной» энергии в расчете на один подкадр (блок 101) между сигналами на различных частотах: искусственным возбуждением на частоте 16 кГц (белый шум) и сигналом на частоте 12,8 кГц (декодированное возбуждение ACELP). Можно отметить, в частности, что этот подход неявно вызывает подавление возбуждения верхнего диапазона (в соотношении 12,8/16=0,8); фактически, это также будет отмечено, что восстановление предыскаженного сигнала не выполняется в верхнем диапазоне в кодеке AMR-WB, который неявно вызывает усиление относительно близкое к 0,6 (что соответствует значению частотной характеристики при частоте 6400 Гц). В действительности, коэффициенты 1/0,8 и 0,6 компенсируются приблизительно.
Что касается речи, 3GPP характеристические тесты кодека AMR-WB, задокументированные в 3GPP отчете TR 26.976, показали, что режим при скорости 23,85 кбит/с имеет менее хорошее качество, чем при скорости 23,05 кбит/с, его качество в действительности подобно режиму при скорости 15,85 кбит/с. Это показывает, в частности, что уровень искусственного HF сигнала необходимо контролировать очень аккуратно, так как качество ухудшается при скорости 23,85 кбит/с, при этом считается, что 4 бита на кадр наилучшим образом обеспечивают возможность аппроксимации энергии исходных высоких частот.
Фильтр низких частот на частоте 7 кГц (блок 113) вводит сдвиг почти 1 мс между нижним и верхним диапазонами, которые могут потенциально ухудшить качество определенных сигналов посредством незначительной десинхронизации двух диапазонов при скорости 23,85 кбит/с - данная десинхронизация может также приводить к проблемам при переключении скорости цифрового потока со скорости 23,85 кбит/с на другие режимы.
Пример расширения диапазона с помощью временного подхода описывается в 3GPP стандарте TS 26.290, описывающем кодек AMR-WB+ (стандартизованный в 2005 году). Данный пример показан на структурной схеме фиг. 2a (общая структурная схема) и 2b (предсказание коэффициента усиления по реакции коррекции уровня), которые соответствуют соответственно фиг. 16 и 10 3GPP спецификации TS 26.290.
В кодеке AMR-WB+ (монофонический) входной сигнал, подвергнутый дискретизации на частоте Fs (в Гц), делится на два отдельных частотных диапазона, в которых два фильтра LPC вычисляются и кодируются по отдельности:
один фильтр LPC, обозначенный , в нижем диапазоне (0-Fs/4) -его квантованная версия обозначается
другой фильтр LPC, обозначенный , в спектрально смешанном верхнем диапазоне (Fs/4-Fs/2) -его квантованная версия обозначается
Расширение диапазона выполняется в кодеке AMR-WB+, как подробно описано в разделах 5.4 (HF кодирование) и 6.2 (HF декодирование) 3GPP спецификации TS 26.290. Его принцип кратко изложен здесь: расширение заключается в использовании возбуждения, декодированного на низких частотах (возбужд. LFC) и в формировании данного возбуждения посредством временного коэффициента усиления в расчете на подкадр (блок 205) и синтезирующей фильтрации LPC (блок 207); кроме того реализуются операции обработки для увеличения (пост-обработки) возбуждения (блок 206) и сглаживания энергии восстановленного сигнала HF (блок 208), как показано на фиг. 2a.
Важно отметить, что данное расширение в AMR-WB+ требует передачи дополнительной информации: коэффициентов фильтра в 204 и временного формирующего усиления на подкадр (блок 201). Один конкретный признак алгоритма расширения диапазона в AMR-WB+ состоит в том, что коэффициент усиления на каждый подкадр определяется посредством прогнозирующего подхода; другими словами, коэффициенты усиления не кодируются непосредственно, а кодируются коррекции усиления, которые относятся к оценке коэффициента усиления, обозначенного . Эта оценка, , фактически соответствует коэффициенту выравнивания уровня между фильтрами и на частоте разделения между нижним диапазоном и верхним диапазоном (Fs/4). Вычисление коэффициента (блок 203) подробно описано на фиг.10 3GPP спецификации TS 26.290, воспроизведенной в данной заявке на фиг. 2b. Эта фигура не будет дополнительно подробно описываться в данной заявке. Просто следует отметить, что блоки 210-213 используются для вычисления энергии импульсной характеристики , в то же время напоминая, что фильтр моделирует спектрально смешанный верхний диапазон (из-за спектральных свойств разделения нижнего и верхнего диапазонов банка фильтров). Поскольку фильтры интерполируются по подкадрам, коэффициент усиления вычисляется только один раз за кадр, и он интерполируется по подкадрам.
Метод кодирования коэффициента усиления расширения диапазона в AMR-WB+, и, в частности, компенсация уровней фильтров LPC при их соединении является подходящим способом в контексте расширения диапазона посредством моделей LPC в нижнем и верхнем диапазоне, и можно отметить, что такая компенсация уровня между фильтрами LPC отсутствует в расширении диапазона кодека AMR-WB. Тем не менее, на практике можно проверить, что непосредственное выравнивание уровня между двумя фильтрами LPC на частоте разделения не является оптимальным способом и может вызвать завышенную оценку энергии в верхнем диапазоне и в некоторых случаях слышимые искажения; следует помнить, что фильтр LPC представляет собой спектральную огибающую, и принцип выравнивания уровня между двумя фильтрами LPC для данной частоты сводится к регулировке относительного уровня двух огибающих LPC. Тогда, такое выравнивание, выполняемое при частоте, погрешность которой не превышает эталонно допустимую, не обеспечивает полную непрерывность и общую согласованность энергии (по частоте) в области точки выравнивания, когда частотная огибающая сигнала значительно колеблется в данной области. Математический способ установления проблемы состоит в обнаружении того, что может обеспечиваться непрерывность между двумя кривыми, что приводит к их пересечению в одной и той же точке, но ничто не гарантирует того, что локальные свойства (последовательные производные) совпадают так, чтобы обеспечить более глобальную совместимость. Риск в обеспечении места непрерывности между огибающими LPC нижнего и верхнего диапазонов включает установку огибающей LPC в верхнем диапазоне на относительный уровень, который является слишком сильным или слишком слабым, причем случай слишком сильного уровня является более опасным, потому что он приводит к более раздражающим искажениям.
Кроме того, компенсация усиления в AMR-WB+ является первичным предсказанием коэффициента усиления, известного для кодера и декодера, и который предназначен для уменьшения скорости цифрового потока, необходимой для передачи информации усиления, масштабирующей сигнал возбуждения в верхнем диапазоне. Тогда, в контексте функционально совместимого улучшения кодирования/декодирования AMR-WB, нельзя изменить существующее кодирование коэффициентов усиления в отношении подкадров (0,8 кбит/с) расширения диапазона в режиме AMR-WB при скорости 23,85 кбит/с. Кроме того, для скоростей цифрового потока строго меньше 23,85 кбит/с, компенсация уровней фильтров LPC в нижнем и верхнем диапазонах может применяться в расширении диапазона декодирования, совместимого с AMR-WB, но опыт показывает, что данный единственный метод, получаемый из AMR-WB+ кодирования, применяемого без оптимизации, может создавать проблемы завышения оценки энергии верхнего диапазона (> 6 кГц).
Следовательно, существует потребность в улучшении компенсации коэффициентов усиления между фильтрами линейного предсказания различных диапазонов частот для расширения диапазона частот в кодеке типа AMR-WB или функционально совместимой версии этого кодека без какой-либо завышенной оценки энергии в диапазоне частот и без необходимости дополнительной информации из кодера.
Настоящее изобретение улучшает ситуацию.
В связи с этим, целью изобретения является способ определения оптимизированного масштабного коэффициента для применения к сигналу возбуждения или к фильтру в способе расширения диапазона частот сигнала звуковой частоты, причем способ расширения диапазона включает этап декодирования или извлечения в первом диапазоне частот сигнала возбуждения и параметров первого диапазона частот, содержащих коэффициенты фильтра линейного предсказания, этап генерации расширенного сигнала возбуждения по меньшей мере в одном втором диапазоне частот и этап фильтрации посредством фильтра линейного предсказания для второго диапазона частот. Способ определения включает следующие этапы:
- определение фильтра линейного предсказания, называемого дополнительным фильтром, более низкого порядка, чем фильтр линейного предсказания первого диапазона частот, при этом коэффициенты дополнительного фильтра получают из параметров, декодированных или извлеченных из первого диапазона частот; и
- вычисление оптимизированного масштабного коэффициента в зависимости по меньшей мере от коэффициентов дополнительного фильтра.
Таким образом, использование дополнительного фильтра более низкого порядка, чем фильтр первого диапазона частот, для выравнивания позволяет избежать завышения оценки энергии на высоких частотах, которые могут возникнуть в результате локальных колебаний огибающей, и которые могут нарушить выравнивание фильтров предсказания.
Таким образом, улучшается выравнивание коэффициентов усиления между фильтрами линейного предсказания первого и второго диапазонов частот.
В преимущественном применении надлежащим образом полученного оптимизированного масштабирующего коэффициента способ расширения диапазона включает этап применения оптимизированного масштабного коэффициента к расширенному сигналу возбуждения.
В соответствующем варианте осуществления применение оптимизированного масштабного коэффициента объединяют с этапом фильтрации во втором диапазоне частот.
Таким образом, этапы фильтрации и применения оптимизированного масштабного коэффициента объединяют в один этап фильтрации для уменьшения сложности обработки.
В конкретном варианте осуществления коэффициенты дополнительного фильтра получают усечением передаточной функции фильтра линейного предсказания первого диапазона частот для получения более низкого порядка.
Поэтому данный дополнительный фильтр более низкого порядка получают простым способом.
Кроме того, для получения устойчивого фильтра коэффициенты дополнительного фильтра изменяются в зависимости от критерия устойчивости дополнительного фильтра.
В конкретном варианте осуществления вычисление оптимизированного масштабного коэффициента включает следующие этапы:
- вычисление частотных характеристик фильтров линейного предсказания первого и второго диапазонов частот для общей частоты;
- вычисление частотной характеристики дополнительного фильтра для данной общей частоты;
- вычисление оптимизированного масштабного коэффициента в зависимости от надлежащим образом вычисленных частотных характеристик.
Таким образом, оптимизированный масштабный коэффициент вычисляется таким образом, чтобы избежать раздражающих искажений, которые могут возникнуть в случае, если частотная характеристика фильтра более высокого порядка первого диапазона вблизи от общей частоты демонстрирует пик сигнала или точку минимума.
В конкретном варианте осуществления способ дополнительно включает следующие этапы, реализуемые на предопределенной скорости цифрового потока декодирования:
- первое масштабирование расширенного сигнала возбуждения посредством коэффициента усиления, вычисленного в расчете на подкадр в зависимости от отношения энергии декодированного сигнала возбуждения и расширенного сигнала возбуждения;
- второе масштабирование сигнала возбуждения, полученное из первого масштабирования посредством декодированного коэффициента усиления коррекции;
- регулирование энергии возбуждения для текущего подкадра посредством регулировочного коэффициента, вычисленного в зависимости от энергии сигнала, полученного после второго масштабирования, и в зависимости от сигнала, полученного после применения оптимизированного масштабного коэффициента.
Таким образом, дополнительная информация может использоваться для повышения качества расширенного сигнала для предопределенного режима работы.
Целью настоящего изобретения также является устройство для определения оптимизированного масштабного коэффициента, применяемого к сигналу возбуждения или к фильтру в устройстве расширения диапазона частот сигнала звуковой частоты, причем устройство расширения диапазона содержит модуль для декодирования или извлечения в первом диапазоне частот сигнала возбуждения и параметров первого диапазона частот, содержащих коэффициенты фильтра линейного предсказания, модуль для генерации расширенного сигнала возбуждения по меньшей мере одного второго диапазона частот и модуль для фильтрации посредством фильтра линейного предсказания для второго диапазона частот. Устройство определения содержит:
- модуль определения фильтра линейного предсказания, называемого дополнительным фильтром, более низкого порядка, чем фильтр линейного предсказания первого диапазона частот, при этом коэффициенты дополнительного фильтра получают из параметров, декодированных или извлеченных из первого диапазона частот; и
- модуль вычисления оптимизированного масштабного коэффициента в зависимости по меньшей мере от коэффициентов дополнительного фильтра.
Целью настоящего изобретения является декодер, содержащий описанное устройство.
Целью настоящего изобретения является компьютерная программа, содержащая команды программного кода для реализации этапов описанного способа определения оптимизированного масштабного коэффициента при выполнении этих команд процессором.
Наконец, настоящее изобретение относится к носителю данных, который может считываться процессором, встроенным или нет в устройство определения оптимизированного масштабного коэффициента, по возможности съемному, хранящему компьютерную программу, реализующую способ определения оптимизированного масштабного коэффициента, как описано выше.
Другие признаки и преимущества настоящего изобретения станут более очевидными из нижеследующего описания, приведенного только в качестве неограничивающего примера и со ссылкой на прилагаемые графические материалы, на которых:
- на фиг. 1 изображена часть декодера типа AMR-WB, реализующего этапы расширения диапазона частот согласно уровню техники и как описано ранее;
- на фиг. 2a и 2b представлено кодирование верхнего диапазона в кодеке AMR-WB+ в соответствии с уровнем техники и как описано ранее;
- на фиг. 3 изображен декодер, который может взаимодействовать с кодированием AMR-WB, включающий устройство расширения диапазона, применяемое в соответствии с одним вариантом осуществления настоящего изобретения;
- на фиг. 4 изображено устройство определения масштабного коэффициента, оптимизированного посредством подкадра в зависимости от скорости цифрового потока, в соответствии с одним вариантом осуществления настоящего изобретения; и
- на фиг. 5а и 5b изображены частотные характеристики фильтров, применяемых для вычисления оптимизированного масштабного коэффициента в соответствии с одним вариантом осуществления настоящего изобретения;
- на фиг. 6 изображены в форме блок-схемы основные этапы способа определения оптимизированного масштабного коэффициента в соответствии с одним вариантом осуществления настоящего изобретения;
- на фиг. 7 изображен один вариант осуществления в частотной области устройства определения оптимизированного масштабного коэффициента в рамках расширения диапазона;
- на фиг. 8 изображена аппаратная реализация устройства определения оптимизированного масштабного коэффициента для расширения диапазона в соответствии с настоящим изобретением.
На фиг. 3 изображен примерный декодер, совместимый со стандартом AMR-WB/G.722.2, в котором присутствует расширение диапазона, включающее определение оптимизированного масштабного коэффициента в соответствии с одним вариантом осуществления способа согласно настоящему изобретению, реализованный посредством устройства расширения диапазона, показанного в виде блока 309.
В отличие от декодирования AMR-WB, которое работает с выходной частотой дискретизации 16 кГц, в данном случае рассматривается декодер, который может работать с выходным сигналом (синтеза) на частоте fs=8, 16, 32 или 48 кГц. Следует отметить, что в данном случае предполагается, что кодирование выполнено в соответствии с алгоритмом AMR-WB с внутренней частотой 12,8 кГц для кодирования CELP в нижнем диапазоне и кодировании посредством коэффициента усиления при скорости 23,85 кбит/с на подкадр на частоте 16 кГц; несмотря на то, что изобретение описывается здесь на уровне декодирования, при этом предполагается, что кодирование может также работать с входным сигналом на частоте fs=8, 16, 32 или 48 кГц, и подходящие операции передискретизации вне контекста настоящего изобретения применяются в кодировании в зависимости от величины fs. Следует отметить, что, когда fs=8 кГц, в случае декодирования, совместимого с AMR-WB, нет необходимости расширять нижний диапазон 0-6,4 кГц, потому что диапазон звуковых частот, восстановленный на частоте fs, ограничивается диапазоном 0-4000 Гц.
На фиг. 3 декодирование CELP (LF для низких частот) по-прежнему работает на внутренней частоте 12,8 кГц, как в AMR-WB, и расширение диапазона (HF для высоких частот), применяемое для изобретения, работает на частоте 16 кГц, и LF и HF синтезы объединяются (блок 312) на частоте fs после соответствующей передискретизации (блок 306 и внутренней обработки в блоке 311). В альтернативных вариантах осуществления объедение нижнего и верхнего диапазонов может выполняться на частоте 16 кГц после передискретизации нижнего диапазона от 12,8 до 16 кГц, перед передискретизацией объединенного сигнала на частоте fs.
Декодирование в соответствии с фиг. 3 зависит от режима AMR-WB (или скорости цифрового потока), связанного с текущим принятым кадром. В качестве индикатора, и без воздействия на блок 309, декодирование части CELP в нижнем диапазоне включает следующие этапы:
демультиплексирование кодированных параметров (блок 300) в случае правильно принятого кадра (bfi=0, где bfi - «признак поврежденного кадра» со значением 0 для принятого кадра и 1 для потерянного кадра);
декодирование параметров ISF с интерполяцией и преобразованием в коэффициенты LPC (блок 301), как описано в пункте 6.1 стандарта G.722.2;
декодирование возбуждения CELP (блок 302) с адаптивной и фиксированной частью для восстановления возбуждения (exc или ) в каждом подкадре длиной 64 на частоте 12,8 кГц:
,
в соответствии с обозначениями пункта 7.1.2.1 Рекомендации ITU-T G.718 декодера, функционально совместимого с AMR-WB кодером/декодером, в отношении декодирования CELP, где и - соответственно кодовые слова адаптивного и фиксированного словарей, и и - связанные декодированные коэффициенты усиления. Данное возбуждение применяется в адаптивном словаре следующего подкадра; затем оно подвергается пост-обработке и, как и в G.718, возбуждение (также обозначаемое exc) отличается от его модифицированной подвергнутой пост-обработке версии (также обозначаемой exc2), которая служит в качестве входного сигнала для синтезирующего фильтра в блоке 303;
синтезирующую фильтрацию (блок 303), где декодированный фильтр LPC имеет 16-й порядок;
узкополосную пост-обработку (блок 304) в соответствии с пунктом 7.3 G.718, если fs=8 кГц;
компенсацию предыскажений (блок 305) посредством фильтра ;
пост-обработку низких частот (называемую «постфильтром низкой звуковой частоты») (блок 306), подавляющую перекрестные гармонические помехи на низких частотах, как описано в пункте 7.14.1.1 в G.718. Данная обработка вводит задержку, которая учитывается при декодировании верхнего диапазона (> 6,4 кГц);
передискретизацию внутренней частоты 12,8 кГц на выходной частоте fs (блок 307). Возможен ряд вариантов осуществления. Без потери общности, здесь рассматривается, в качестве примера, что если fs=8 или 16 кГц, то передискретизация, описанная в пункте 7.6 в G.718 повторяется здесь, а если fs=32 или 48 кГц, то применяются дополнительные фильтры с конечной импульсной характеристикой (FIR);
вычисление параметров «порогового шумоподавителя» (блок 308), преимущественно проводимое, как описано в пункте 7.14.3 в G.718, чтобы «повысить» качество периодов паузы посредством снижения уровня.
В вариантах, которые могут реализовываться для изобретения, операции пост-обработки, применяемые к возбуждению могут изменяться (например, дисперсия фазы может увеличиваться) или данные операции пост-обработки могут быть расширены (например, может реализовываться снижение перекрестных гармонических помех), не влияя на характер расширения диапазона.
Следует отметить, что использование блоков 306, 308, 314 не является обязательным.
Кроме того, следует отметить, что декодирование нижнего диапазона, описанное выше, предполагает так называемый «активный» текущий кадр со скоростью цифрового потока от 6,6 до 23,85 кбит/с. Фактически, когда режим DTX активируется, определенные кадры могут кодироваться как «неактивные», и в этом случае можно либо передать дескриптор паузы (по 35 бит), либо не передавать ничего. В частности, следует напомнить, что кадр SID описывает ряд параметров: параметры ISF, усредненные по 8 кадрам, среднюю энергию по 8 кадрам, флаг «сглаживания» для восстановления нестационарного шума. Во всех случаях в декодере используется такая же модель декодирования, как и для активного кадра, с восстановлением возбуждения и фильтра LPC для текущего кадра, что дает возможность применять расширение диапазона даже к неактивным кадрам. То же самое замечание относится к декодированию «потерянных кадров» (или FEC, PLC), в которых применяется LPC модель.
В варианте осуществления, описанном здесь, и со ссылкой на фиг. 7, декодер дает возможность расширить декодированный нижний диапазон (50-6400 Гц, учитывающий 50 Гц высокочастотной фильтрации в декодере, 0-6400 Гц в общем случае) до расширенного диапазона, ширина которого изменяется в диапазоне приблизительно от 50-6900 Гц до 50-7700 Гц в зависимости от режима, реализованного в текущем кадре. Таким образом, его можно отнести к первому диапазону частот от 0 до 6400 Гц и второй диапазон частот от 6400 до 8000 Гц. В действительности, в предпочтительном варианте осуществления расширение возбуждения выполняется в частотной области в диапазоне от 5000 до 8000 Гц, чтобы обеспечить возможность полосовой фильтрации с шириной от 6000 до 6900 или 7700 Гц.
При скорости 23,85 кбит/с корректирующая информация HF усиления (0,8 кбит/с), передаваемая при 23,85 кбит/с, здесь декодируется. Ее использование подробно описано ниже со ссылкой на фиг. 4. Синтезирующую часть верхнего диапазона получают в блоке 309, представляющем устройство расширения диапазона, используемое для изобретения, и которое подробно изображено на фиг. 7 в варианте осуществления.
В целях совмещения декодированных нижних и верхних диапазонов, вводится задержка (блок 310) для синхронизации выходных сигналов блоков 306 и 307, и верхний диапазон, синтезируемый на частоте 16 кГц, подвергается передискретизации из 16 кГц в частоту fs (выходной сигнал блока 311). Значение задержки T зависит от того, как синтезируется сигнал верхнего диапазона, и от частоты fs как в пост-обработке низких частот. Таким образом, в целом, значение Т в блоке 310 должно регулироваться в соответствии с конкретной реализацией.
Затем нижние и верхние диапазоны объединяются (складываются) в блоке 312 и полученный синтез подвергается пост-обработке посредством высокочастотной фильтрации (типа IIR) 50 Гц порядка 2, коэффициенты которой зависят от частоты fs (блок 313) и выходной пост-обработки с необязательным применением «порогового шумоподавителя» способом, подобным G.718 (блок 314).
На фиг. 3 описывается один вариант осуществления устройства определения оптимизированного масштабного коэффициента для применения к сигналу возбуждения в процессе расширения диапазона частот. Данное устройство входит в блок 309 расширения диапазона, описанный выше.
Таким образом, в блоке 400 из сигнала возбуждения, декодированного в первом диапазоне частот , выполняется расширение диапазона для получения расширенного сигнала возбуждения по меньшей мере одного второго диапазона частот.
Следует отметить, что в данном случае оценка оптимизированного масштабного коэффициента в соответствии с изобретением не зависит от того, как получен сигнал. Одно условие относительно его энергии все-таки является важным. Действительно, энергия верхнего диапазона от 6000 до 8000 Гц должна быть на уровне, подобном энергии диапазона от 4000 до 6000 Гц декодированного сигнала возбуждения на выходе блока 302. Кроме того, поскольку в сигнале нижнего диапазона компенсируются предыскажения (блок 305), компенсация предыскажений должна также применяться к сигналу возбуждения верхнего диапазона либо посредством специального фильтра компенсации предыскажений, либо посредством умножения на постоянный коэффициент, который соответствует среднему коэффициенту подавления упомянутого фильтра. Это условие не распространяется на случай скорости цифрового потока 23,85 кбит/сек, при которой используется дополнительная информация, передаваемая кодером. В этом случае энергия сигнала верхнего диапазона возбуждения должна согласовываться с энергией сигнала, соответствующего кодеру, как описано ниже.
Расширение диапазона частот может, например, реализовываться таким же образом, как для декодера типа AMR-WB, описанного со ссылкой на фиг. 1, в блоках 100-102 из белого шума.
В другом варианте осуществления это расширение диапазона может выполняться из объединения белого шума и декодированного сигнала возбуждения, как показано и описано ниже для блоков 700-707 на фиг. 7.
Конечно для блока 400 могут предусматриваться и другие способы расширения диапазона частот при сохранении уровня энергии между декодированным сигналом возбуждения и расширенным сигналом возбуждения, как описано ниже.
Кроме того, модуль расширения диапазона может быть также зависимым от декодера и может выполнять расширение диапазона для существующего звукового сигнала, хранящегося или передающегося на модуль расширения с анализом звукового сигнала, чтобы извлечь из него возбуждение и фильтр LPC. В этом случае, сигнал возбуждения на входе в модуль расширения больше не является декодированным сигналом, а является сигналом, извлеченным после анализа, подобно коэффициентам фильтра линейного предсказания первого диапазона частот, используемым в способе определения оптимизированного масштабного коэффициента в реализации настоящего изобретения.
В примере, показанном на фиг. 4, первым рассматривается случай скоростей цифрового потока <23,85 кбит/с, для которых определение оптимизированного масштабного коэффициента ограничивается блоком 401.
В этом случае вычисляется оптимизированный масштабный коэффициент, обозначаемый . В одном варианте осуществления данное вычисление выполняется преимущественно для каждого подкадра и заключается в выравнивании уровней частотных характеристик фильтров LPC и , применяемых для низких и высоких частот, как описано ниже со ссылкой на фиг. 7, с дополнительными мерами предосторожности, чтобы избежать случаев завышения оценки, которые могут привести к чрезмерной энергии синтезированного верхнего диапазона и, следовательно, генерировать слышимые искажения.
В альтернативном варианте осуществления можно будет оставить экстраполированный HF синтезирующий фильтр , как это реализовано в декодере AMR-WB или декодере, который может взаимодействовать с кодером/декодером AMR-WB, например, в соответствии с Рекомендацией ITU-T G.718, вместо фильтра . Затем согласно изобретению выполняется компенсация посредством фильтров и .
Определение оптимизированного масштабного коэффициента также выполняется посредством определения (в блоке 401а) фильтра линейного предсказания, называемого дополнительным фильтром, более низкого порядка, чем фильтр линейного предсказания в первом диапазоне частот , при этом коэффициенты дополнительного фильтра получают из параметров, декодированных или извлеченных из первого диапазона частот. Затем вычисляется (в 401b) оптимизированный масштабный коэффициент в зависимости по меньшей мере от этих коэффициентов для применения к расширенному сигналу возбуждения .
Принцип определения оптимизированного масштабного коэффициента, реализованный в блоке 401, показан на фиг. 5а и 5b на конкретных примерах, полученных из сигналов, подвергнутых дискретизации на частоте 16 кГц; амплитудные значения частотных характеристик 3 фильтров, обозначенные ниже, как R, P, Q, вычисляются на общей частоте 6000 Гц (вертикальная пунктирная линия) в текущем подкадре, индекс m которых не упоминается здесь в обозначениях фильтров LPC, интерполированных по подкадру, для упрощения текста. Значение 6000 Гц выбирается потому, что оно близко к частоте Найквиста в нижнем диапазоне, то есть 6400 Гц. Предпочтительно не принимать данную частоту Найквиста для определения оптимизированного масштабного коэффициента. Действительно, энергия декодированного сигнала в области низких частот, как правило, уже подавляется на частоте 6400 Гц. Кроме того, расширение диапазона, описанное здесь, выполняется во втором диапазоне частот, называемым верхним диапазоном, который находится в пределах от 6000 до 8000 Гц. Следует отметить, что в вариантах осуществления настоящего изобретения может быть выбрана частота, отличная от 6000 Гц, без потери общности для определения оптимизированного масштабного коэффициента. Также можно будет рассмотреть случай, когда два фильтра LPC определяются для отдельных диапазонов (как в AMR-WB+). В этом случае, R, Р и Q будут вычисляться на частоте разделения.
На фиг. 5а и 5b изображено, как определяются величины R, P, Q.
Первый этап состоит в вычислении частотных характеристик и соответственно фильтра линейного предсказания первого диапазона частот (нижнего диапазона) и второго диапазона частот (верхнего диапазона) на частоте 6000 Гц. Сначала вычисляется следующее:
где - порядок декодированного фильтра LPC, , и соответствует частоте 6000 Гц, нормированной для частоты дискретизации 12,8 кГц, а именно:
.
Затем, подобным образом, вычисляется следующее:
где
.
В предпочтительном варианте осуществления величины и вычисляются по следующему псевдокоду:
px=py=0
rx=ry=0
for i=0 to 16
px=px+Ap[i]*exp_tab_p[i]
py=py+Ap[i]*exp_tab_p[33-i]
rx=rx+Aq[i]*exp_tab_q[i]
ry=ry+Aq[i]*exp_tab_q[33-i]
end for
P=1/sqrt(px*px+py*py)
R=1/sqrt(rx*rx+ry*ry)
где Aq[i]= соответствует коэффициентам (16-го порядка), Ap[i]= соответствует коэффициенту , sqrt() соответствует операции извлечения квадратного корня и таблицы exp_tab_p и exp_tab_q размером 34 содержат реальные и мнимые части комплексных экспонент, связанных с частотой 6000 Гц, с
exp_tab_p[i]=
exp_tab_q[i]=
Дополнительный фильтр предсказания получают, например, соответствующим усечением полинома до 2-го порядка.
Фактически, непосредственное усечение порядка приводит к получению фильтра , который может представлять собой проблему, потому что в основном ничто не может гарантировать, что этот фильтр 2-го порядка является устойчивым. Вследствие этого, в предпочтительном варианте осуществления выявляется устойчивость фильтра , и применяется фильтр , коэффициенты которого выводят из в зависимости от обнаружения неустойчивости. Более конкретно, задается следующее:
, i=1, 2
Устойчивость фильтра может быть проверена по-разному; в данном случае используется преобразование в области коэффициентов PARCOR (или коэффициентов отражения) посредством вычисления:
Устойчивость подтверждается, если , i=1, 2. Следовательно, значение условно изменяется до проверки устойчивости фильтра с помощью следующих этапов:
где min(.,.) и max(.,.) соответственно дают минимум и максимум из 2 операндов.
Следует отметить, что пороговые значения, 0,99 для и 0,6 для , могут регулироваться в вариантах изобретения. Следует напомнить, что первый коэффициент отражения характеризует крутизну спектра (или наклон) сигнала, смоделированного 1-м порядком; в изобретении величина насыщается при величине, близкой к границе устойчивости, с целью сохранения данного наклона и удержания наклона, подобного . Также следует напомнить, что второй коэффициент отражения характеризует резонансный уровень сигнала, смоделированного 2-м порядком; так как применение фильтра 2-го порядка имеет целью устранить влияние таких резонансов поблизости частоты 6000 Гц, значение ограничивается более сильно; данное ограничение устанавливается на уровне 0,6.
Затем получают коэффициенты :
В заключение, в следствие этого, вычисляется частотная характеристика дополнительного фильтра:
с . Эта величина вычисляется преимущественно в соответствии со следующим псевдокодом:
qx=qy=0
for i=0 to 2
qx=qx+As[i]*exp_tab_q[i];
qy=qy+As[i]*exp_tab_q[33-i];
end for
Q=1/sqrt(qx*qx+qy*qy)
где As[i]=.
Без потери общности можно вычислить коэффициенты фильтра 2-го порядка иным способом, например, путем применения к фильтру LPC 16-го порядка процедуры снижения порядка LPC, называемой «понижающей», описанной в J.D. Markel and A.H. Gray, Linear Prediction of Speech, Springer Verlag, 1976, или выполняя две итерации алгоритма Левинсона-Дарбина (или повышающего) из автокорреляций, вычисленных по сигналу, синтезированному (декодированному) на частоте 12,8 кГц и обработанными методом окна.
Для некоторых сигналов, величина , вычисленная из первых 3 декодированных коэффициентов LPC, лучше учитывает влияние крутизны спектра (или наклона) в спектре и позволяет избежать влияния «ложных» пиков или минимумов, близких к 6000 Гц, которые могут исказить или повысить значение величины , вычисленной из всех коэффициентов LPC.
В предпочтительном варианте осуществления оптимизированный масштабный коэффициент условно выводится из предварительно вычисленных величин R, P, Q, а именно:
Если наклон (вычисляется как в AMR-WB в блоке 104 посредством нормализованной автокорреляции в виде r(1)/r(0), где r(i) - автокорреляция) является отрицательным (наклон <0 как представлено на фиг. 5b), вычисление масштабного коэффициента происходит следующим образом:
чтобы избежать искажений вследствие слишком резких изменений энергии верхнего диапазона, к значению применяется сглаживание. В предпочтительном варианте осуществления экспоненциальное сглаживание выполняется с фиксированным во времени коэффициентом (0,5) в виде:
где соответствует величине в предыдущем подкадре, и коэффициент 0,5 оптимизирован эмпирически - очевидно, что коэффициент 0,5 может меняться для другого значения, и также возможны другие способы сглаживания. Следует отметить, что сглаживание позволяет снизить временные видоизменения и, следовательно, избежать искажений.
Затем оптимизированный масштабный коэффициент задается по формуле:
В альтернативном варианте осуществления возможна замена сглаживания на сглаживание таким образом, что:
Если наклон (вычисляется как в AMR-WB в блоке 104) является положительным (наклон> 0, как на фиг. 5a), вычисление масштабного коэффициента выполняется следующим образом:
величина сглаживается адаптивно во времени посредством более сильного сглаживания, когда низкая - как и в предыдущем случае это сглаживание позволяет сократить временные изменения и, следовательно, позволяет избежать искажений:
при
Затем оптимизированный масштабный коэффициент определяется по формуле:
В альтернативном варианте осуществления возможна замена сглаживания на сглаживание , как вычислено выше.
, ,
где - масштаб или коэффициент усиления, вычисленный для последнего подкадра предыдущего кадра.
Минимум из R, P, Q в данном случае берется для того, чтобы избежать завышенной оценки масштабного коэффициента.
В одном варианте указанное выше условие, зависящее только от наклона, может расширяться, чтобы учитывать не только параметр наклона, но и другие параметры для того, чтобы уточнить решение. Кроме того, вычисление может регулироваться в соответствии с этими указанными дополнительными параметрами.
Примером дополнительного параметра является количество переходов через нуль (ZCR, частота переходов через нуль), которые можно определить как:
где
Параметр , как правило, дает результаты, аналогичные наклону. Удовлетворительным критерием классификации является отношение , вычисленного для синтезированного сигнала , к , вычисленному для сигнала возбуждения на частоте 12800 Гц. Это отношение находится в диапазоне от 0 до 1, где 0 означает, что сигнал имеет снижающийся спектр, а 1 означает, что спектр возрастает (что соответствует . В этом случае отношение > 0,5 соответствует случаю <0, а отношение <0,5 соответствует > 0.
В одном варианте возможно использование функции параметра , где - наклон, вычисленный для синтезированного сигнала , фильтруемого фильтром высоких частот с частотой среза, например, 4800 Гц; в этом случае характеристика от 6 до 8 кГц (применяемая на 16 кГц) соответствует взвешенной характеристике от 4,8 до 6,4 кГц. Так как имеет более уплощенную характеристику, необходимо компенсировать это изменение наклона. Затем в варианте осуществления задается функция масштабного коэффициента в соответствии с по: . и , таким образом, умножаются на , если >0 или на , если <0.
Теперь рассматривается случай скорости цифрового потока 23,85 кбит/с, для которого осуществляется коррекция усиления посредством блоков 403-408. Кроме того, данная коррекция усиления может быть объектом отдельного изобретения. В этом конкретном варианте осуществления в соответствии с изобретением, информация коррекции усиления, обозначенная , передаваемая посредством AMR-WB (совместимого) кодирования со скоростью цифрового потока 0,8 кбит/с используется для улучшения качества при 23,85 кбит/с.
В данном случае предполагается, что AMR-WB (совместимое) кодирование осуществляет квантование коррекции усиления по 4 битам, как описано в пункте G.722.2/5.11 Рекомендации ITU-T или, что эквивалентно, в пункте TS 26.190/5.11 спецификации 3GPP.
В кодере AMR-WB коррекция усиления вычисляется путем сравнения энергии исходного сигнала, подвергнутого дискретизации с частотой 16 кГц и отфильтрованного посредством полосового фильтра с полосой 6-7 кГц, , с энергией белого шума на частоте 16 кГц, отфильтрованного синтезирующим фильтром и полосовым фильтром с полосой 6-7 кГц (до фильтрации энергия шума устанавливается на уровне, подобном возбуждению на частоте 12,8 кГц), . Коэффициент усиления равен корню из отношения энергии исходного сигнала к энергии шума, разделенной на два. В одном возможном варианте осуществления возможна замена полосового фильтр на фильтр с более широкой полосой (например, от 6 до 7,6 кГц).
,
Для возможности применения информации усиления, полученной при 23,85 кбит/с (в блоке 407), важно приблизить возбуждение до уровня, близкого к тому, что ожидается от (совместимого) кодирования AMR-WB. Таким образом, в блоке 404 выполняется масштабирование сигнала возбуждения в соответствии с уравнением:
,
где - коэффициент усиления на отдельный подкадр, вычисленный в блоке 403 в виде:
где коэффициент 5 в знаменателе предназначен для компенсации разности между пропускной способностью сигнала и сигнала , учитывая, что в кодировании AMR-WB возбуждение HF является белым шумом в диапазоне 0-8000 Гц.
Индекс из 4 битов на подкадр, обозначенный , посылаемый при скорости 23,85 кбит/с демультиплексируется из битового потока (блок 405) и декодируется блоком 406 следующим образом:
где - словарь квантования усиления HF, определенный в AMR-WB кодировании и выведенный ниже:
Таблица 1 (словарь усиления при скорости 23,85 кбит/с)
i | HP_gain(i) | I | HP_gain(i) |
0 | 0,110595703125000 | 8 | 0,342102050781250 |
1 | 0,142608642578125 | 9 | 0,372497558593750 |
2 | 0,170806884765625 | 10 | 0,408660888671875 |
3 | 0,197723388671875 | 11 | 0,453002929687500 |
4 | 0,226593017578125 | 12 | 0,511779785156250 |
5 | 0,255676269531250 | 13 | 0,599822998046875f |
6 | 0,284545898437500 | 14 | 0,741241455078125 |
7 | 0,313232421875000 | 15 | 0,998779296875000 |
В блоке 407 выполняется масштабирование сигнала возбуждения согласно следующему уравнению:
,
В заключение, энергия возбуждения регулируется на уровне текущего подкадра при следующих условиях (блок 408). Ниже приводится вычисление:
Числитель здесь представляет энергию сигнала верхнего диапазона, который был бы получен в режиме 23.05. Как объяснено выше, для скоростей цифрового потока <23,85 кбит/с, необходимо сохранить уровень энергии между декодированным сигналом возбуждения и расширенным сигналом возбуждения, но это ограничение не является необходимым в случае скорости цифрового потока 23,85 кбит/с, так как в этом случае масштабируется коэффициентом усиления . Чтобы избежать операций двойного умножения, некоторые операции умножения, применяемые к сигналу в блоке 400, применяются в блоке 402 посредством умножения на . Значение зависит от алгоритма синтеза и должно регулироваться таким образом, чтобы уровень энергии между декодированным сигналом возбуждения в нижнем диапазоне и сигналом сохранялся.
В конкретном варианте осуществления, который описывается более подробно ниже со ссылкой на фиг. 7, , где - коэффициент усиления, который обеспечивает для сигнала то же самое отношение энергии на подкадр и энергии на кадр, что и для сигнала , и 0,6 соответствует среднему значению амплитуды частотной характеристики фильтра компенсации предыскажений в диапазоне от 5000 до 6400 Гц.
Предполагается, что в блоке 408 существует информация о наклоне сигнала нижнего диапазона - в предпочтительном варианте осуществления этот наклон вычисляется как в кодеке AMR-WB в соответствии с блоками 103 и 104, но для оценки наклона возможны и другие способы без изменения принципа изобретения.
Если > 1 или наклон < 0, предполагается следующее:
,
В противном случае:
,
Следует отметить, что вычисление оптимизированного масштабного коэффициента, описанное в данном документе, в частности, в блоках 401 и 402, отличается от вышеуказанного выравнивания уровней фильтра, выполняемого в кодеке AMR-WB+, рядом аспектов:
Оптимизированный масштабный коэффициент вычисляется непосредственно из передаточных функций фильтров LPC без привлечения какой-либо временной фильтрации. Это упрощает способ.
Выравнивание выполняется предпочтительно на частоте, отличающейся от частоты Найквиста (6400 Гц), относящейся к нижнему диапазону. Действительно, моделирование LPC неявно представляет подавление сигнала, как правило, вызванное операциями передискретизации и, следовательно, частотная характеристика фильтра LPC может подвергаться снижению на частоте Найквиста, которая не является выбранной общей частотой.
При этом выравнивание опирается на фильтр низкого порядка (в данном случае 2-го порядка), в дополнение к 2 фильтрам, которые будут выравниваться. Этот дополнительный фильтр делает возможным предотвращение последствий локальных спектральных отклонений (пиков или минимумов), которые могут присутствовать на общей частоте для вычисления частотной характеристики фильтров предсказания.
Для блоков 403-408 преимущество настоящего изобретения состоит в том, что качество сигнала, декодированного при скорости 23,85 кбит/с, в соответствии с изобретением улучшается по сравнению с сигналом, декодированным при 23,05 кбит/с, что не является случаем в декодере AMR-WB. Фактически, данный аспект изобретения позволяет использовать дополнительную информацию (0,8 кбит/с), получаемую при скорости 23,85 кбит/с, но управляемым способом (блок 408), чтобы улучшить качество расширенного сигнала возбуждения при скорости цифрового потока 23,85.
Устройство определения оптимизированного масштабного коэффициента, как показано блоками 401-408 на фиг. 4, реализует способ определения оптимизированного масштабного коэффициента, описанный ниже со ссылкой на фиг. 6.
Основные этапы осуществляются в блоке 401.
Таким образом, расширенный сигнал возбуждения uHB(n) получают в способе E601 расширения диапазона частот, который включает этап декодирования или извлечения в первом диапазоне частот, называемом нижним диапазоном, сигнала возбуждения и параметров первого диапазона частот, таких как, например, коэффициенты фильтра линейного предсказания первого диапазона частот.
Этап E602 определяет фильтр линейного предсказания, называемый дополнительным фильтром, более низкого порядка, чем фильтр первого диапазона частот. Чтобы определить этот фильтр, применяются декодированные или извлеченные параметры первого диапазона частот.
В одном варианте осуществления данный этап выполняется усечением передаточной функции фильтра линейного предсказания нижнего диапазона для получения более низкого порядка фильтра, например, 2-го. Данные коэффициенты могут изменяться в зависимости от критерия устойчивости, как описано выше со ссылкой на фиг. 4.
Из коэффициентов дополнительного фильтра, определенных таким образом, реализуется этап E603 для вычисления оптимизированного масштабного коэффициента, который должен применяться к расширенному сигналу возбуждения. Данный оптимизированный масштабный коэффициент, например, вычисляется по частотной характеристике дополнительного фильтра на общей частоте между нижним диапазоном (первым диапазоном частот) и верхним диапазоном (вторым диапазоном частот). Минимальное значение может выбираться между частотной характеристикой данного фильтра и фильтров нижнего диапазона и верхнего диапазона.
Таким образом, это позволяет избежать завышенной оценки энергии, что могло бы иметь место в способах уровня техники.
Данный этап вычисления оптимизированного масштабного коэффициента, например, описывается выше со ссылкой на фиг. 4 и фиг. 5a и 5b.
Этап E604, выполняемый в блоке 402 или 409 (в зависимости от скорости декодирования цифрового потока) для расширения диапазона, применяет надлежащим образом вычисленный оптимизированный масштабный коэффициент к расширенному сигналу возбуждения таким образом, чтобы получить оптимизированный расширенный сигнал возбуждения uHB'(n).
В конкретном варианте осуществления устройство определения оптимизированного масштабного коэффициента 708 встраивается в устройство расширения диапазона, описанное со ссылкой на фиг. 7. Данное устройство определения оптимизированного масштабного коэффициента, показанное в виде блока 708, реализует способ определения оптимизированного масштабного коэффициента, описанный выше со ссылкой на фиг. 6.
В этом варианте осуществления блок 400 расширения диапазона на фиг. 4 содержит блоки 700-707 на фиг. 7, описанные далее.
Таким образом, на входе устройства расширения диапазона принимается сигнал нижнего диапазона возбуждения, декодированный или оцененный посредством анализа (). При расширении диапазона в данном случае применяется возбуждение, декодированное на частоте 12,8 кГц (exc2 или ) на выходе блока 302, показанного на фиг. 3.
Следует отметить, что в этом варианте осуществления генерация расширенного возбуждения с избыточной частотой дискретизации выполняется в диапазоне частот 5-8 кГц, следовательно, включающем второй диапазон частот (6,4-8 кГц), находящийся выше первого диапазона частот (0-6,4 кГц).
Таким образом, генерация расширенного сигнала возбуждения осуществляется по меньшей мере во втором диапазоне частот, но и в части первого диапазона частот.
Очевидно, что значения, определяющие эти диапазоны частот, могут быть разными в зависимости от декодера или устройства обработки, в котором применяется изобретение.
Для этого примерного варианта осуществления данный сигнал преобразуется для получения спектра сигнала возбуждения модулем 500 частотно-временного преобразования.
В конкретном варианте осуществления преобразование использует DCT-IV («дискретное косинусное преобразование» IV типа) (блок 700) на текущем кадре 20 мс (256 отсчетов), без применения окна, что сводится к непосредственному преобразованию с в соответствии со следующей формулой:
где и .
Следует отметить, что преобразование без обработки методом окна (или, что эквивалентно, преобразованию с неявным прямоугольным окном длины кадра) возможно потому, что обработка выполняется в области возбуждения, а не в области сигнала, таким образом, чтобы не были слышны искажения (влияния блоков), что является важным преимуществом данного варианта осуществления настоящего изобретения.
В данном варианте осуществления преобразование DCT-IV реализуется посредством FFT в соответствии с так называемым « Evolved DCT (EDCT)» алгоритмом, описанным в статье D.M. Zhang, H.T. Li, A Low Complexity Transform - Evolved DCT, IEEE 14th International Conference on Computational Science and Engineering (CSE), Aug. 2011, pp. 144-149, and implemented in the ITU-T standards G.718 Annex B and G.729.1 Annex E.
В вариантах осуществления изобретения и без ограничения общности преобразование DCT-IV может быть заменено другими краткосрочными частотно-временными преобразованиями той же длины в области возбуждения, такими как FFT («быстрое преобразование Фурье») или DCT-II (дискретное косинусное преобразование II типа). В альтернативном варианте возможна замена DCT-IV в кадре на преобразование с перекрытием-сложением и применением окна с длиной, большей, чем длина текущего кадра, например с помощью MDCT («модифицированного дискретного косинусного преобразования»). В этом случае задержка T в блоке 310, показанном на фиг. 3, должна быть должным образом отрегулирована (уменьшена) в зависимости от дополнительной задержки из-за анализа/синтеза посредством данного преобразования.
Затем спектр DCT 256 отсчетов, охватывающих диапазон 0-6400 Гц (на частоте 12,8 кГц), расширяется (блок 701) в спектр 320 отсчетов, охватывающих диапазон 0-8000 Гц (на частоте 16 кГц) в следующем виде:
где предпочтительно принимается, что start_band=160.
Блок 701 работает как модуль генерации расширенного сигнала возбуждения с избыточной частотой дискретизации и выполняет передискретизацию с частоты 12,8 до 16 кГц в частотной области посредством добавления ¼ отсчетов () в спектр, при этом отношение 16 к 12,8 составляет 5/4.
Кроме того, блок 701 выполняет неявную высокочастотную фильтрацию в диапазоне 0-5000 Гц, так как первые 200 отсчетов устанавливаются на ноль; как описано ниже, данная высокочастотная фильтрация также дополняется частью монотонно возрастающего затухания спектральных значений индексов в диапазоне 5000-6400 Гц; это монотонно возрастающее затухание реализуется в блоке 704, но может быть выполняться отдельно вне блока 704. Равносильно тому, что и в вариантах настоящего изобретения, внедрение высокочастотной фильтрации, разделенной на блоки коэффициентов индекса , установленных в ноль, затухающих коэффициентов в преобразованной области, можно будет, в силу вышесказанного, выполнять в ходе одного этапа.
В этом примерном варианте осуществления и в соответствии с определением , следует отметить, что диапазон 5000-6000 Гц (что соответствует индексам ) копируется из диапазона 5000-6000 Гц . Данный подход позволяет сохранить исходный спектр в этом диапазоне и позволяет избежать введения искажения в диапазоне 5000-6000 Гц при сложении синтеза HF с синтезом LF, в частности, фаза сигнала (неявно представленная в обрасти DCT-IV) в данном диапазоне сохраняется.
Диапазон 6000-8000 Гц в данном случае определяется посредством копирования диапазона 4000-6000 Гц , поскольку значение start_band предпочтительно устанавливается равным 160.
В одном варианте варианта осуществления значение start_band может подстраиваться вблизи значения 160. Подробности подстройки значения start_band в данном документе не описываются, потому что они выходят за рамки изобретения без изменения его объема.
Для некоторых широкополосных сигналов (подвергнутых дискретизации на частоте 16 кГц) верхний диапазон (> 6 кГц), может быть зашумленным, гармоническим или содержать смесь шума и гармоник. Кроме того, уровень гармоничности в диапазоне 6000-8000 Гц полосы, как правило, коррелирует с уровнем в более низкочастотных диапазонах. Таким образом, блок 702 генерации шума выполняет генерацию шума в частотной области, UHBN(k) для (80 отсчетов), что соответствует второму диапазону частот, называемому высокочастотным, с целью последующего объединения этого шума со спектром в блоке 703.
В конкретном варианте осуществления шум (в диапазоне 6000-8000 Гц) генерируется псевдослучайно посредством линейного конгруэнтного генератора на 16 бит:
с правилом, что в текущем кадре соответствует значению предыдущего кадра. В вариантах изобретения возможна замена данной генерации шума посредством других способов.
Блок 703 объединения может быть получен различными путями. В предпочтительном варианте адаптивное аддитивное микширование учитывается в следующем виде:
,
где - нормирующий множитель, предназначенный для выравнивания уровня энергии между двумя сигналами,
при = 0,01, и коэффициент (между 0 и 1) регулируется в зависимости от параметров, оцененных из декодированного нижнего диапазона, и коэффициент (между 0 и 1) зависит от .
В предпочтительном варианте осуществления энергия шума вычисляется в трех диапазонах: 2000-4000 Гц, 4000-6000 Гц и 6000-8000 Гц, с
где
и - множество индексов , для которых коэффициент индекса классифицируется как связанный с шумом. Данное множество может, например, быть получено посредством выявления локальных пиков в , что проверяет , и посредством учета того, что эти лучи не связаны с шумом, т. е. (посредством применения отрицания предыдущего условия):
.
Следует отметить, что возможны другие способы вычисления энергии шума, например, посредством медианного значения спектра на рассматриваемом диапазоне или посредством применения сглаживания к каждому частотному лучу перед вычислением энергии в расчете на диапазон.
устанавливается таким образом, что отношение энергии шума в диапазонах 4-6 кГц и 6-8 кГц является таким же, что и в диапазонах 2-4 кГц и 4-6 кГц:
где
В вариантах изобретения вычисление возможно заменить другими способами. Например, как вариант, возможно извлечение (вычисление) различных параметров (или «признаков»), характеризующих сигнал в нижнем диапазоне, включая параметр «наклон», подобно вычисляемому в кодеке AMR-WB, и коэффициент будет оцениваться в зависимости от линейной регрессии этих различных параметров посредством ограничения его значения между 0 и 1. Линейную регрессию, например, можно оценить контролируемым образом посредством оценки коэффициента путем замены оригинального верхнего диапазона в обучающей базе. Следует отметить, что то, каким образом вычисляется , не ограничивает сущность изобретения.
В предпочтительном варианте осуществления принимается следующее:
с целью сохранения энергии расширенного сигнала после микширования.
В одном варианте коэффициенты и могут быть адаптированы для принятия во внимание того факта, что шум, введенный в заданный диапазон сигнала, как правило, воспринимается сильнее, чем гармонический сигнал с той же энергией в том же диапазоне. Таким образом, возможно изменение коэффициентов и следующим образом:
где - убывающая функция от , например, , , , , ограниченные от 0,3 до 1. Следует отметить, что после умножения на , , так что энергия сигнала ниже, чем энергия (разность энергий зависит от , чем больше добавляется шума, тем больше подавляется энергия).
В других вариантах изобретения можно принять:
что дает возможность сохранить уровень амплитуды (при объединении сигналов одинакового знака); однако данный вариант имеет недостаток, в результате которого общая энергия (на уровне ) не является монотонной, как функция .
Таким образом, следует отметить, что в блоке 703 выполняются действия, эквивалентные блоку 101, приведенному на фиг. 1, для нормализации белого шума в зависимости от возбуждения, который, в отличие от данного случая, уже расширен в частотной области до частоты 16 кГц; кроме того, микширование ограничивается диапазоном 6000-8000 Гц.
В простом варианте можно считать реализацию блока 703, в котором спектры, или выбираются (переключаются) адаптивно, что сводится к допущению значений только 0 или 1 для α; этот подход сводится к классификации типа возбуждения для генерации в диапазоне 6000-8000 Гц.
В блоке 704 необязательно выполняется двойная операция применения частотной характеристики полосового фильтра и фильтрации предыскажений в частотной области.
В одном варианте изобретения фильтрация предыскажений может выполняться во временной области после блока 705 до блока 700; однако, в этом случае полосовая фильтрация, выполняемая в блоке 704, может оставить определенные низкочастотные компоненты очень низких уровней, которые усиливаются посредством компенсации предыскажений, что может несущественно изменять декодированный нижний диапазон. По этой причине, в данном случае предпочтительно выполнять компенсацию предыскажений в частотной области. В предпочтительном варианте осуществления коэффициенты индекса устанавливаются равными нулю, таким образом, компенсация предыскажений ограничивается старшими коэффициентами.
Сначала компенсируются предыскажения возбуждения в соответствии со следующем уравнением:
где - частотная характеристика фильтра в ограниченном дискретном диапазоне частот. Принимая во внимание дискретные (нечетные) частоты DCT-IV, определяется в данном случае как:
,
где
.
В случае, когда применяется преобразование, отличное от DCT-IV, определение можно регулировать (например, для четных частот).
Следует отметить, что компенсация предыскажений применяется в два этапа для , соответствующий диапазону частот 5000-6400 Гц, где характеристика применяется как на частоте 12,8 кГц, и , соответствующий диапазону частот 6400-8000 Гц, где характеристика расширяется от частоты 16 кГц до постоянного значения в диапазоне 6,4-8 кГц.
Следует отметить, что в кодеке AMR-WB для HF синтеза не компенсируются предыскажения.
В варианте осуществления, представленном здесь, для высокочастотного сигнала, наоборот, компенсируются предыскажения для того, чтобы ввести его в область, согласованную с низкочастотным сигналом (0-6,4 кГц), который выходит из блока 305, приведенного на фиг. 3. Это важно для оценки и последующей регулировки энергии синтеза HF.
В одном варианте варианта осуществления с целью уменьшения сложности можно установить равным постоянному значению, независимому от , принимая, например, что примерно соответствует среднему значению для в условиях описанного выше варианта осуществления.
В другом варианте варианта осуществления устройства расширения компенсация предыскажений может выполняться равноценным образом во временной области после обратного DCT.
В дополнение к компенсации предыскажений применяется полосовая фильтрация с двумя отдельными частями: одна - фиксированная высокочастотная, другая - адаптивная низкочастотная (функция скорости цифрового потока).
Данная фильтрация выполняется в частотной области.
В предпочтительном варианте осуществления частичная характеристика фильтра низких частот вычисляется в частотной области следующим образом:
где = 60 при скорости 6,6 кбит/с, 40 при скорости 8,85 кбит/с и 20 при скоростях цифрового потока > 8,85 бит/с.
Затем полосовой фильтр применяется в виде:
Определение , , дается, например, в таблице 2 ниже.
Таблица 2
K | ghp(k) | K | ghp(k) | K | ghp(k) | K | ghp(k) |
0 | 0,001622428 | 14 | 0,114057967 | 28 | 0,403990611 | 42 | 0,776551214 |
1 | 0,004717458 | 15 | 0,128865425 | 29 | 0,430149896 | 43 | 0,800503267 |
2 | 0,008410494 | 16 | 0,144662643 | 30 | 0,456722014 | 44 | 0,823611104 |
3 | 0,012747280 | 17 | 0,161445005 | 31 | 0,483628433 | 45 | 0,845788355 |
4 | 0,017772424 | 18 | 0,179202219 | 32 | 0,510787115 | 46 | 0,866951597 |
5 | 0,023528982 | 19 | 0,197918220 | 33 | 0,538112915 | 47 | 0,887020781 |
6 | 0,030058032 | 20 | 0,217571104 | 34 | 0,565518011 | 48 | 0,905919644 |
7 | 0,037398264 | 21 | 0,238133114 | 35 | 0,592912340 | 49 | 0,923576092 |
8 | 0,045585564 | 22 | 0,259570657 | 36 | 0,620204057 | 50 | 0,939922577 |
9 | 0,054652620 | 23 | 0,281844373 | 37 | 0,647300005 | 51 | 0,954896429 |
10 | 0,064628539 | 24 | 0,304909235 | 38 | 0,674106188 | 52 | 0,968440179 |
11 | 0,075538482 | 25 | 0,328714699 | 39 | 0,700528260 | 53 | 0,980501849 |
12 | 0,087403328 | 26 | 0,353204886 | 40 | 0,726472003 | 54 | 0,991035206 |
13 | 0,100239356 | 27 | 0,378318805 | 41 | 0,751843820 | 55 | 1,000000000 |
Следует отметить, что в вариантах изобретения значения могут изменяться при сохранении монотонно возрастающего затухания. Аналогичным образом, низкочастотная фильтрация с переменной полосой пропускания может регулироваться с помощью значений или частотной среды, которые отличаются, не изменяя принцип этого этапа фильтрации.
Кроме того, следует отметить, что полосовая фильтрация может адаптироваться посредством определения единого этапа фильтрации, объединяющего высокочастотную и низкочастотную фильтрацию.
В другом варианте осуществления полосовая фильтрация может выполняться равноценным образом во временной области (как и в блоке 112 на фиг. 1) с различными коэффициентами фильтра в соответствии со скоростью цифрового потока после этапа обратного DCT. Тем не менее, следует отметить, что предпочтительно выполнить этот этап непосредственно в частотной области, так как фильтрация выполняется в области возбуждения LPC и, следовательно, проблемы циклической свертки и краевых эффектов очень ограничены в этой области.
Кроме того, следует отметить, что, в случае скорости цифрового потока 23,85 кбит/с компенсация предыскажений возбуждения не выполняется, чтобы оставаться в соответствии с тем способом, в котором коррекция усиления вычисляется в кодере AMR-WB, и чтобы избежать операций двойного умножения. В этом случае в блоке 704 выполняется только низкочастотная фильтрация.
В блоке 705 обратного преобразования выполняется обратное DCT на 320 отсчетах, чтобы найти высокочастотное возбуждение, подвергнутое дискретизации с частотой 16 кГц. Его реализация идентична блоку 700, потому что DCT-IV является ортонормированным, за исключением того, что длина преобразования составляет 320 вместо 256, и получается следующее:
где и .
Данное возбуждение, подвергнутое дискретизации с частотой 16 кГц, затем необязательно масштабируется посредством коэффициентов усиления, определенных для каждого подкадра 80 отсчетов (блок 707).
В предпочтительном варианте осуществления коэффициент усиления gHB1(m) сначала вычисляется (этап 706) в расчете на подкадр посредством отношений энергий подкадров таким образом, что в каждом подкадре индекса m=0, 1, 2 или 3 текущего кадра:
где
при = 0,01. Коэффициент усиления на подкадр можно записать в виде:
что показывает, что в сигнале обеспечивается такое же отношение энергии на подкадр и энергии на кадр, как в сигнале .
В блоке 707 выполняется масштабирование объединенного сигнала в соответствии со следующим уравнением:
,
Следует отметить, что реализация блока 706 отличается от блока 101, приведенного на фиг. 1, так как энергия на текущем уровне кадра учитывается в дополнение к этому подкадру. Это обеспечивает отношение энергии каждого подкадра в зависимости от энергии кадра. Следовательно, сравниваются отношения энергий (или относительные энергии), а не абсолютные энергии нижнего диапазона и верхнего диапазона.
Таким образом, данный этап масштабирования позволяет сохранять в верхнем диапазоне отношение энергий подкадра и кадра таким же образом, как в нижнем диапазоне.
В данном случае следует отметить, что в случае скорости цифрового потока 23,85 кбит/с коэффициенты усиления вычисляются, но применяются в следующем этапе, как описано со ссылкой на фиг. 4, чтобы избежать операций двойного умножения. В этом случае .
В соответствии с изобретением затем в блоке 708 выполняется вычисление масштабного коэффициента на подкадр сигнала (этапы E602-E603, показанные на фиг. 6), как описано выше со ссылкой на фиг. 6 и подробно изображено на фиг. 4 и 5.
В заключение, скорректированное возбуждение фильтруется посредством модуля 710 фильтрации, что может выполняться в данном случае посредством принятия в качестве передаточной функции , где = 0,9 при скорости 6,6 кбит/с и = 0,6 при других скоростях цифрового потока, что ограничивает порядок фильтра 16-м порядком.
В одном варианте этот фильтр можно будет выполнять таким же образом, как описано для блока 111 на фиг. 1 AMR-WB декодера, но порядок фильтра изменятся до 20 при скорости цифрового потока 6,6, что не существенно меняет качество синтезированного сигнала. В другой варианте возможно выполнение синтезирующей фильтрации LPC в частотной области после вычисления частотной характеристики фильтра, реализованного в блоке 710.
В альтернативном варианте осуществления этап фильтрации посредством фильтра 710 линейного предсказания для второго диапазона частот объединяется с применением оптимизированного масштабного коэффициента, что позволяет снизить сложность обработки. Таким образом, этапы фильтрации и применения оптимизированного масштабного коэффициента объединяются в единый этап фильтрации для снижения сложности обработки.
В альтернативных вариантах осуществления настоящего изобретения кодирование нижнего диапазона (0-6,4 кГц) может заменяться кодером CELP, отличающимся от того, что используется в AMR-WB, таким как, например, кодер CELP в G.718 при скорости 8 кбит/с. Без потери общности могли бы применяться другие широкополосные кодеры или кодеры, работающие на частотах выше 16 кГц, в которых кодирование нижнего диапазона производится на внутренней частоте 12,8 кГц. Кроме того, очевидно, что изобретение может быть адаптировано к частотами дискретизации, отличающимся от частоты 12,8 кГц, когда низкочастотный кодер работает с частотой дискретизации ниже, чем у исходного или восстановленного сигнала. Когда при низкочастотном декодировании не используется линейное предсказание, отсутствует сигнал возбуждения для расширения, в этом случае возможно выполнение анализа LPC сигнала, восстановленного в текущем кадре, и возбуждение LPC будет вычисляться таким образом, чтобы была возможность применения изобретения.
В заключение, в другом варианте изобретения возбуждение () подвергается передискретизации, например, посредством линейной интерполяции или кубического «сплайна», из частоты 12,8 в 16 кГц перед преобразованием (например, DCT-IV) длины 320. Недостатком данного видоизменения является то, что оно является более сложными, поскольку преобразование (DCT-IV) возбуждения вычисляется в дальнейшем по большей длине и передискретизация не выполняется в области преобразования.
Кроме того, в вариантах изобретения все вычисления, необходимые для оценки коэффициентов усиления (, , , ,...), могут выполняться в логарифмической области.
В вариантах диапазона расширения возбуждение в нижнем диапазоне и фильтр LPC будут оцениваться в каждом кадре посредством анализа LPC сигнала нижнего диапазона, для которого диапазон должен быть расширен. Затем сигнал возбуждения нижнего диапазона извлекается посредством анализа звукового сигнала.
В возможном варианте осуществления этого варианта звуковой сигнал нижнего диапазона подвергается передискретизации перед этапом извлечения возбуждения таким образом, что возбуждение, извлеченное из звукового сигнала (посредством линейного предсказания) уже подвергнуто передискретизации.
Расширение диапазона, показанное на фиг. 7, применяется в данном случае к нижнему диапазону, который не декодируется, но анализируется.
Фиг. 8 представляет примерный физический вариант осуществления устройства определения оптимизированного масштабного коэффициента 800 в соответствии с изобретением. Последнее может быть неотъемлемой частью декодера сигнала звуковой частоты или единицы оборудования, принимающей сигналы звуковой частоты, декодируемые или нет.
Данный тип устройства содержит процессор PROC, взаимодействующий с блоком памяти BM, содержащим запоминающее и/или оперативное запоминающее устройство MEM.
Такое устройство содержит входной модуль E, подходящий для приема звукового сигнала возбуждения, декодированного или извлеченного в первом диапазоне частот, называемом нижним диапазоном ( или ), и параметров синтезирующего фильтра линейного предсказания (). Оно содержит модуль S вывода, подходящий для передачи синтезированного и оптимизированного высокочастотного сигнала (uHB'(n)), например, в фильтрующий модуль, как блок 710 на фиг. 7, или в модуль передискретизации, как модуль 311 на фиг. 3.
Блок памяти может преимущественно содержать компьютерную программу, содержащую команды программного кода для реализации этапов способа определения оптимизированного масштабного коэффициента для применения к сигналу возбуждения или к фильтру в пределах сущности настоящего изобретения, когда эти команды выполняются процессором PROC, и, в частности, этапы определения (E602) фильтра линейного предсказания, называемого дополнительным фильтром, более низкого порядка, чем фильтр линейного предсказания первого диапазона частот, при этом коэффициенты дополнительного фильтра получают из параметров, декодированных или извлеченных из первого диапазона частот, и вычисления (E603) оптимизированного масштабного коэффициента в зависимости по меньшей мере от коэффициентов дополнительного фильтра.
Как правило, описание на фиг. 6 повторяет этапы алгоритма такой компьютерной программы. Компьютерная программа также может храниться в системе памяти, которая может считываться считывателем устройства или которая может загружаться в его пространство памяти.
Память MEM хранит, как правило, все данные, необходимые для реализации способа.
В возможном варианте осуществления описанное таким образом устройство также может включать функции для применения оптимизированного масштабного коэффициента в расширенном сигнале возбуждения, расширения диапазона частот, декодирования низкой частоты и других функций обработки, описанных, например, на фигурах 3 и 4 в дополнение к функциям определения оптимизированного масштабного коэффициента в соответствии с изобретением.
1. Способ определения оптимизированного масштабного коэффициента для применения к сигналу возбуждения или к фильтру в способе расширения диапазона частот сигнала звуковой частоты, причем способ расширения диапазона частот сигнала звуковой частоты включает: этап декодирования или извлечения в первом диапазоне частот сигнала возбуждения и параметров первого диапазона частот, содержащих коэффициенты фильтра линейного предсказания, этап генерации расширенного сигнала возбуждения по меньшей мере в одном втором диапазоне частот и этап фильтрации посредством фильтра линейного предсказания для второго диапазона частот,
при этом способ содержит этапы:
вычисления частотной характеристики R фильтра линейного предсказания диапазона частот,
сглаживания значения R для получения значения Rsmoothed, причем способ сглаживания выбирают из группы способов сглаживания, включающей по меньшей мере два способа сглаживания в зависимости от набора параметров, содержащих множество параметров, включающих значение крутизны спектра, наклона, причем набор способов сглаживания содержит экспоненциальное сглаживание с фиксированным во времени коэффициентом.
2. Способ по п. 1, отличающийся тем, что экспоненциальное сглаживание представлено в форме:
Rsmoothed=0,5 Rprecomputed+0,5 Rprev,
причем Rprev соответствует значению Rsmoothed в предыдущем подкадре, Rprecomputed соответствует значению R, вычисленному во время этапа вычисления частотной характеристики R фильтра линейного предсказания диапазона частот.
3. Способ по п. 1, отличающийся тем, что набор способов сглаживания дополнительно содержит способ сглаживания, являющийся адаптивным во времени.
4. Способ по п. 3, отличающийся тем, что сглаживание является более сильным для меньших значений R.
5. Способ по п. 3 или 4, отличающийся тем, что адаптивное сглаживание представлено в форме:
Rsmoothed=(1-α)Rprecomputed+α.Rprev, где α=1-Rprecomputed^2,
причем Rprev соответствует значению Rsmoothed в предыдущем подкадре, Rprecomputed соответствует значению R, вычисленному во время этапа вычисления частотной характеристики R фильтра линейного предсказания диапазона частот.
6. Способ по п. 1 или 2, дополнительно содержащий этап определения оптимизированного масштабного коэффициента, и этот этап определения оптимизированного масштабного коэффициента содержит вычисление
max(min(Rsmoothed, Q),P)/P,
где P - частотная характеристика фильтра линейного предсказания по второму диапазону частот, причем второй диапазон частот является выше, чем первый диапазон частот, Q - частотная характеристика дополнительного фильтра, полученного усечением полинома фильтра линейного предсказания.
7. Способ по п.2 или 5, отличающийся тем, что
,
где - порядок декодированного фильтра, соответствует частоте 6000 Гц, нормированной для частоты дискретизации 12,8 кГц, коэффициенты представляют собой коэффициенты полинома фильтра линейного предсказания.
8. Устройство для определения оптимизированного масштабного коэффициента для применения к сигналу возбуждения или к фильтру в устройстве для расширения диапазона частот сигнала звуковой частоты,
причем устройство для расширения диапазона частот сигнала звуковой частоты содержит: блок декодирования или извлечения в первом диапазоне частот сигнала возбуждения и параметров первого диапазона частот, содержащих коэффициенты фильтра линейного предсказания, блок генерации расширенного сигнала возбуждения по меньшей мере в одном втором диапазоне частот и блок фильтрации посредством фильтра линейного предсказания для второго диапазона частот,
при этом устройство содержит:
процессор для вычисления частотной характеристики R фильтра линейного предсказания диапазона частот,
блок сглаживания, выполненный с возможностью сглаживания значения R для получения значения Rsmoothed, причем способ сглаживания выбирают из группы способов сглаживания, включающей по меньшей мере два способа сглаживания в зависимости от набора параметров, содержащих множество параметров, включающих значение крутизны спектра, наклона, причем набор способов сглаживания содержит экспоненциальное сглаживание с фиксированным во времени коэффициентом.