Кодер, декодер и способ кодирования и декодирования аудиоконтента с использованием параметров для улучшения маскирования



Кодер, декодер и способ кодирования и декодирования аудиоконтента с использованием параметров для улучшения маскирования
Кодер, декодер и способ кодирования и декодирования аудиоконтента с использованием параметров для улучшения маскирования
Кодер, декодер и способ кодирования и декодирования аудиоконтента с использованием параметров для улучшения маскирования
Кодер, декодер и способ кодирования и декодирования аудиоконтента с использованием параметров для улучшения маскирования
Кодер, декодер и способ кодирования и декодирования аудиоконтента с использованием параметров для улучшения маскирования
Кодер, декодер и способ кодирования и декодирования аудиоконтента с использованием параметров для улучшения маскирования
Кодер, декодер и способ кодирования и декодирования аудиоконтента с использованием параметров для улучшения маскирования
Кодер, декодер и способ кодирования и декодирования аудиоконтента с использованием параметров для улучшения маскирования
Кодер, декодер и способ кодирования и декодирования аудиоконтента с использованием параметров для улучшения маскирования
Кодер, декодер и способ кодирования и декодирования аудиоконтента с использованием параметров для улучшения маскирования
Кодер, декодер и способ кодирования и декодирования аудиоконтента с использованием параметров для улучшения маскирования
Кодер, декодер и способ кодирования и декодирования аудиоконтента с использованием параметров для улучшения маскирования

Владельцы патента RU 2701707:

ФРАУНХОФЕР-ГЕЗЕЛЛЬШАФТ ЦУР ФЕРДЕРУНГ ДЕР АНГЕВАНДТЕН ФОРШУНГ Е.Ф. (DE)

Изобретение относится к вычислительной технике. Технический результат – улучшение маскирования ошибки. Кодер для кодирования речеподобного контента и/или общего аудиоконтента, причём кодер встраивает параметры в битовый поток в некоторых кадрах, причем параметры обеспечивают направленное маскирование в случае потери, повреждения или задержки исходного кадра, причем кодер создает первичный кадр и частичную копию, причем частичная копия не является версией с низкой битовой скоростью первичного кадра, но при этом частичная копия содержит параметры, и при этом частичная копия передается в полосе как часть полезной нагрузки кодека, причём кодер выполнен с возможностью выбора среди множества режимов частичной копии, которые используют разные объемы информации и/или разные наборы параметров, причем выбор режима частичной копии основан на параметрах, и при этом один из множества режимов частичной копии является режимом маскирования в частотной области, и два из множества режимов частичной копии являются разными режимами маскирования во временной области. 16 н. и 39 з.п. ф-лы, 11 ил., 1 табл.

 

Настоящее изобретение относится к аудиокодеку, использующему кодер и декодер, в котором дефектные кадры аудиоданных, например, потерянные, поврежденные или задержанные, по меньшей мере частично реконструируются с использованием механизма маскирования ошибки. Настоящее изобретение улучшает традиционные механизмы маскирования ошибки за счет обеспечения выбранных вспомогательных параметров маскирования ошибки в битовом потоке, причем вспомогательные параметры маскирования ошибки улучшают маскирование на стороне декодера.

УРОВЕНЬ ТЕХНИКИ

В системах VoIP пакеты поступают на приемник с разными задержками или даже с нарушением хронологического порядка. Поскольку предполагается, что каждый пакет поступает на речевой/аудиодекодер в определенный, периодический момент времени для декодирования, требуется так называемый противоджиттерный буфер для устранения временного джиттера и восстановления, по возможности, правильного порядка между пакетами.

Наличие противоджиттерного буфера позволяет использовать кодирование с учётом информации о канале, в котором частичная избыточная копия текущего кадра кодируется поверх первичной копии будущего кадра на кодере. Если текущий кадр теряется или поступает на приемник слишком поздно, его частичную избыточную копию, которая поступает в более позднем кадре, можно использовать для синтеза потерянного кадра. Задержка (или количество кадров) между первичным кадром и его частичной избыточной копией, так называемое смещение FEC, а также решение, нужно ли вообще передавать частичную избыточную копию конкретного кадра, может динамически управляться на кодере, в зависимости от фактически доступных системной задержки и коэффициента ошибочных кадров (FER), т.е. текущих условий канала.

Хотя этот метод требует уменьшения полного размера первичного кадра для поддержания постоянной битовой скорости, он позволяет добиться более высокого качества по сравнению с подходами на основе неосведомленности о канале /избыточности на средних и высоких FER.

Сети, например интернет, используются для связи VoIP, например, конференцсвязи, помимо передачи данных. Соответственно, множество голосов или музыка кодируется в цифровые данные, данные организуются в пакеты, и пакеты передаются получателю по сети. VoIP требует, чтобы этот процесс происходил в реальном времени.

Недостаток протоколов, которые допускают использование в реальном времени, состоит в том, что они ненадежны, поскольку допускают потерю пакетов без возможности восстановления. Когда это случается, голосовые или аудиосегменты, переносимые ими, не реконструируются, и в приёмнике слышны раздражающие перерывы в речи или музыке. Эти перерывы воспринимаются как сниженное качество обслуживания.

Для маскирования факта потери пакета, предложены избыточностные схемы. Кодируются и передаются избыточные пакеты, повторяющие аспекты исходных данных. В случае потери пакета, его данные восстанавливаются и/или реконструируются из его соответствующего избыточного пакета, который, предположительно, не потерян. Буфер компенсации джиттера на принимающей стороне собирает первичные и избыточные пакеты и подает их на декодер, который их воспроизводит.

Первая зависящая от среды схема исправление ошибок, заданная для RTP, представляла собой кодирование с избыточностью аудиосигнала, заданное в RFC 2198 [1]. Она предназначалась для голосовых телеконференций. Каждый пакет содержит как исходный кадр аудиоданных, так и избыточную копию предшествующего кадра, в более сжатым формате.

Пакетный трафик в высокой степени подвержен потере пакетов, джиттеру и переупорядочению. Прямое исправление ошибок (FEC) является одним методом решения проблемы потерянных пакетов. В общем случае, FEC предусматривает передачу избыточной информации совместно с кодированной речью. Декодер пытается использовать избыточную информацию для реконструкции потерянных пакетов. Независимые от среды методы FEC добавляют избыточную информацию на основании битов в аудиопотоке (независимо от информации более высокого уровня о характеристиках речевого потока). С другой стороны, зависимые от среды методы FEC добавляют избыточную информацию на основании характеристик речевого потока.

В выданном патенте US 6,757,654 [2] описан улучшенный метод FEC для кодирования речевых данных. В US 6,757,654 раскрыто:

«[Этот метод состоит в том, что] модуль кодера первично кодирует входной речевой сигнал с использованием модели первичного синтеза для создания первичных кодированных данных и кодирует с избыточностью входной речевой сигнал с использованием модели избыточного синтеза для создания кодированных с избыточностью данных. Формирователь пакетов объединяет первичные кодированные данные и кодированные с избыточностью данные в последовательность пакетов и передает пакеты по сети на основе пакетов, например сети интернет-протокола (IP). Модуль декодирования первично декодирует пакеты с использованием модели первичного синтеза и декодирует с избыточностью пакеты с использованием модели избыточного синтеза. Метод обеспечивает взаимодействие между моделью первичного синтеза и моделью избыточного синтеза в ходе и после декодирования для повышения качества синтезированного выходного речевого сигнала. Такое «взаимодействие», например, может принимать форму обновления состояний в одной модели с использованием другой модели.

Кроме того, настоящий метод пользуется FEC-ступенчатым сцеплением первичных и избыточных кадров (т.е. сцеплением первичных данных для кадра n с избыточными данными для кадра n-1) для обеспечения опережающей обработки на модуле кодера и модуле декодера. Опережающая обработка дополняет доступную информацию, касающуюся речевого сигнала, и, таким образом, повышает качество выходной синтезированной речи.

Интерактивная кооперация обеих моделей для кодирования речевых сигналов значительно расширяет использование кодирования с избыточностью, ранее рассматриваемого традиционными системами».

В докладе [3] представлены буфер совместного воспроизведения и схема регулировки прямого исправления ошибок (FEC) для интернет-телефонии, которая включает в себя негативное влияние сквозной задержки на воспринимаемое качество аудиосигнала. В докладе [3] представлено воспринимаемое качество аудиосигнала как функция сквозной задержки и искажения голосового сигнала. Разработан алгоритм совместного управления скоростью/ошибкой/задержки воспроизведения, который оптимизирует эту меру качества.

Как упомянуто в [3], зависящий от среды FEC используется в большинстве инструментов аудиоконференцсвязи. Принцип обработки сигнала FEC состоит в передаче каждого сегмента аудиосигнала, кодированного кодерами разного качества, во множестве пакетов. В случае потери пакета, другой пакет, содержащий тот же сегмент (возможно иначе кодированный), способен компенсировать потерю.

Уровень техники целиком основан на избыточности, то есть отправке версии действительно низкой битовой скорости текущего кадра с более поздним кадром. Хотя аудиокодирование с избыточностью может обеспечивать точное восстановление (если избыточная копия идентична первичной), более вероятно, что будет использоваться более низкая битовая скорость, и, таким образом, будет достигаться более низкое качество. В отношении передового речевого и аудиокодирования скорость передачи данных увеличивается для каждого кадра, и передача его версии действительно низкой битовой скорости приводит к относительно низкому качеству.

Таким образом, желательно усовершенствовать существующие механизмы маскирования ошибки.

РАСКРЫТИЕ ИЗОБРЕТЕНИЯ

Варианты осуществления настоящего изобретения предусматривают улучшенное решение за счет обеспечения кодера, имеющего по меньшей мере признаки независимого пункта 1, декодера, имеющего по меньшей мере признаки независимого пункта 22, системы по пункту 42, способа кодирования, содержащего по меньшей мере признаки независимого пункта 43, способа декодирования, содержащего по меньшей мере признаки независимого пункта 44, компьютерной программы по пункту 45, кодера, имеющего по меньшей мере признаки по пункту 46, декодера, имеющего по меньшей мере признаки по пункту 55, устройства по по меньшей мере одному из независимых пунктов 62-64, переключаемого кодера или декодера, имеющего по меньшей мере признаки независимого пункта 65, кодера или декодера области преобразования, имеющего по меньшей мере признаки независимого пункта 66, и способа или компьютерной программы по независимому пункту 68.

Согласно пункту 1, предлагается обеспечить кодер для кодирования речеподобного контента и/или общего аудиоконтента, причем кодер выполнен с возможностью встраивания параметров в битовый поток по меньшей мере в некоторых кадрах, причем параметры улучшают маскирование в случае потери, повреждения или задержки исходного кадра. Хотя можно использовать стандартные механизмы маскирования для потерянного кадра, параметры, встраиваемые в кадры, будет использоваться для улучшения этого маскирования. Соответственно, это изобретение предлагает не пользоваться частичной копией, которая является всего лишь версией низкой битовой скорости первичного кадра, но передавать лишь некоторые выбранные параметры, которые будут улучшать маскирование. Поэтому декодер может работать иначе, чем декодеры, предложенные в уровне техники.

Было установлено, что обеспечение некоторых выбранных параметров, улучшающих маскирование ошибки (например, задающих характеристики потерянного кадра, которые иначе пришлось бы оценивать на основании предыдущего кадра, предшествующего дефектному кадру, который был потерян, поврежден или задержан), способствует хорошему маскированию ошибки (дефектного кадра), при этом необходимая битовая скорость остается низкой.

Иначе говоря, передача параметров, которые улучшают маскирование, позволяет реконструировать дефектный кадр на основании информации о ранее декодированных кадрах, причем информация замаскированного кадра, в основном, выводится из одного или более кадров, предшествующих дефектному кадру (или следующих за ним), но при этом одна или более из наиболее значимых характеристик дефектного кадра (или один или более из наиболее важных параметров маскирования ошибки), которые обычно требуется выводить из предшествующих или следующих правильно кодированных кадров, удается сравнительно точно представить параметрами, которые улучшают маскирование.

Иначе выражаясь, встроенных параметров для улучшения маскирования ошибки, предположительно, недостаточно для реконструкции дефектного кадра, поскольку они не содержат все необходимые типы информации, но поддерживают маскирование ошибки, в том смысле, что наиболее важные типы информации обеспечены параметрами, тогда как другие типы информации для маскирования должны выводиться из ранее декодированных кадров на стороне декодера.

Соответственно, достигается хороший компромисс между качеством маскирования ошибки и битовой скоростью.

Согласно варианту осуществления, кодер может быть выполнен с возможностью создания первичного кадра и так называемой «частичной копии», причем «частичная копия» не является версией низкой битовой скорости первичного кадра, но содержит параметры (например, некоторые из наиболее значимых параметров, необходимых для маскирования, если рассматриваемый кадр является дефектным). Другими словами, используемый здесь термин «частичная копия» не означает представление низкой битовой скорости (исходного) аудиоконтента, встраиваемое в качестве избыточной информации в битовый поток, и которое позже можно использовать для полного синтеза выходного сигнала. Вместо этого, принцип изобретения предусматривает встраивание некоторых данных параметров, а именно, вышеупомянутых параметров, которые улучшают маскирование на стороне декодера, если упомянутые данные параметров доступны. При использовании этой информации, декодер должен находиться в режиме маскирования. Соответственно, декодер будет декодировать «частичную копию» дефектного, т.е. потерянного, поврежденного или задержанного кадра (возможно доступный вследствие задержки противоджиттерного буфера) и использовать упомянутые декодированные параметры в помощь процедуре маскирования на стороне декодера. Таким образом, размер, который может потребоваться для кодирования частичной копии, содержащей только один или более параметров, может уменьшаться по сравнению с размером, необходимым для кодирования избыточной копии путем кодирования с избыточностью контента всего первичного кадра (например, на сниженной битовой скорости), тогда как, в общем случае, также возможно использовать такую же битовую скорость или более высокую битовую скорость для кодирования частичной копии. Однако принцип изобретения, т.е. улучшение маскирования вспомогательными параметрами маскирования ошибки, обеспечивает более высокое качество по сравнению с традиционным декодированием версии низкой битовой скорости соответствующего первичного кадра.

Согласно варианту осуществления, кодер может быть выполнен с возможностью задержки параметров на некоторое время и встраивания параметров в пакет, который кодируется и отправляется в более позднее время. Другими словами, кодер сначала отправляет первичный кадр в первом пакете. Затем, с некоторой задержкой по времени, кодер отправляет ʺчастичную копиюʺ в другом пакете, который отправляется позже, чем первый пакет. Соответственно, кодер по-прежнему квантует параметры, но добавляет их в битовый поток в более позднем пакете. Таким образом, даже когда первичный кадр недоступен или дефектен, например, потерян, поврежден или задержан, его контент все еще можно правильно реконструировать (или по меньшей мере аппроксимировать без серьезных артефактов) на стороне декодера посредством маскирования с помощью параметров, которые были отправлены позднее и поэтому могут быть доступны на декодере.

Согласно варианту осуществления, кодер может быть выполнен с возможностью снижения битовой скорости первичного кадра, причем снижение битовой скорости первичного кадра и механизм кодирования кадра частичной копии совместно определяют выделение битовой скорости между первичными кадрами и кадрам частичной копии для включения в постоянную полную битовую скорость. Таким образом, кодер обеспечивает постоянную полную битовую скорость при отправке первичных кадров и кадров частичной копии, в то же время, обеспечивая хорошее качество аудиосигнала с низким негативным влиянием на восприятие.

Согласно варианту осуществления, кодер может быть выполнен с возможностью создания первичного кадра одного из речеподобного типа контента и общего типа аудиоконтента совместно с частичной копией другого одного из речеподобного типа контента и общего типа аудиоконтента. Таким образом, кодер является универсальным, поскольку может обрабатывать различные типы аудиоконтента по отдельности или совместно. Это особенно полезно, поскольку кодер, таким образом, адаптируется для объединения, например, первичного кадра ACELP с частичной избыточной копией TCX, или наоборот.

Согласно варианту осуществления, кодер может входить в состав кодека, использующего схему кодирования TCX. Согласно этому варианту осуществления, кодер, предпочтительно, использует кодирование TCX для эффективного кодирования общего аудиоконтента, музыки, фонового шума и т.п. Кодер может надежно определять и передавать конкретные параметры TCX, которые можно использовать для маскирования TCX на стороне декодера, когда частично избыточный кадр может, например, не включать в себя никаких кодированных спектральных значений, и поэтому его может быть достаточно для реконструкции дефектного кадра.

Согласно варианту осуществления, кодер может быть выполнен с возможностью обнаружения, содержит ли кадр шумовой или шумоподобный аудиосигнал, или содержит ли кадр минимальный уровень шума с резкими спектральными линиями, не меняющими свое положение в течение периода времени, и встраивания параметров в кадр TCX на основании обнаружения. Таким образом, решение о текущей характеристике сигнала может приниматься уже на стороне кодера таким образом, что конкретные параметры для этих сигналов кодируются и отправляются на декодер для улучшения маскирования.

Согласно варианту осуществления, параметры могут содержать параметры ISF или LSF, в частности, кодированные с прогнозированием параметры ISF или LSF. Представление параметров ISF и LSF используется для квантования кодирования параметров LPC. В схеме кодирования TCX LPC используется для представления порога маскирования. Этот параметр важен, и очень полезно, чтобы он был правильно доступен на стороне декодера в случае потери кадра. В особенности, если ISF/LSF кодируются с прогнозированием, качество маскирования будет повышаться благодаря доступности этой информации в ходе маскирования, поскольку состояния блока прогнозирования на стороне декодера будут оставаться правильными, т.е. синхронизированными с кодером, и это будет приводить к быстрому восстановлению недоступного первичного кадра.

Согласно варианту осуществления, параметры могут содержать параметры классификации сигналов. Классификация сигналов используется для сигнализации типов контента: невокализованного, невокализованного переходного, вокализованного переходного, вокализованного и вступления. Обычно этот тип классификации используется при кодировании речи и указания, присутствуют ли тональные компоненты/компоненты прогнозирования в сигнале, или изменяются ли тональные компоненты/компоненты прогнозирования. Благодаря доступности этой информации на стороне декодера в ходе маскирования упрощается определение прогнозируемости сигнала, что способствует регулировке скорости плавного уменьшения амплитуды, скорости интерполяции параметров LPC.

Согласно варианту осуществления, параметры могут содержать глобальный коэффициент усиления TCX или глобальный уровень TCX. Глобальный коэффициент усиления может передаваться для облегчения установки энергии замаскированного кадра на правильный (определенный кодером) уровень, при его наличии.

Согласно варианту осуществления, параметры могут содержать по меньшей мере одну из информации окна и позиции спектрального пика. Благодаря доступности этой информации уже на стороне кодера, полезно избирательно передавать эти параметры на декодер для маскирования.

Согласно варианту осуществления, кодер может входить в состав переключаемого кодека, причем переключаемый кодек состоит из по меньшей мере двух схем основного кодирования, причем первая схема основного кодирования использует ACELP, и вторая схема основного кодирования использует TCX. Например, кодер использует ACELP для кодирования речеподобный аудиоконтент и TCX для кодирования общего аудиоконтента. Таким образом, использование нескольких схем кодирования для кодирования аудиоконтента делает кодер универсальным. Кроме того, кодер обеспечивает хорошие результаты за счет использования зависящей от сигнала схемы кодирования для каждого сигнала.

Согласно варианту осуществления, кодер может быть выполнен с возможностью не помещать «частичную копию» поверх кадра TCX после переключения при наличии первого кадра TCX после кадра ACELP. Например, в этом случае, обеспечение параметров, улучшающих маскирование, может быть избирательно исключено. При потере первого кадра TCX, невозможно осуществлять маскирование в режиме TCX. Таким образом, вместо этого будет использоваться маскирование ACELP. В этом случае одних только частичных копий TCX будет недостаточно для полного синтеза кадра, декодер должен находиться в режиме маскирования и может поддерживаться частичными копиями. Таким образом, поскольку для маскирования требуется, чтобы предшествующий кадр экстраполировал контент сигнала, в этом случае предпочтительно использовать маскирование ACELP (поскольку предыдущий кадр был ACELP), из-за чего частичная копия TCX станет менее полезной. Поскольку кодер выполнен с возможностью обнаружения переключения и избирательного, т.е. в зависимости от события переключения, обеспечения того или иного типа частичной копии, маскирование на стороне декодера будет обеспечивать хороший результат.

Согласно варианту осуществления, кодер может быть выполнен с возможностью анализировать сигнал до кодирования и отключать использование частичной копии (например, не обеспечивать никаких параметров) или обеспечивать сокращенную частичную копию (например, обеспечивать меньше параметров, чем в обычном случае) на основании проанализированного сигнала. Например, если сигнал можно достаточно хорошо замаскировать без помощи дополнительной информации частичной копии на декодере, но производительность чистого канала страдает вследствие сокращенного первичного кадра, использование частичной копии можно отключать или можно использовать конкретно сокращенную частичную копию на кодере. Таким образом, кодер выполнен с возможностью избирательно обеспечивать частичную копию, т.е. обеспечивать частичную копию только если параметры маскирования требуются на стороне декодера для реконструкции аудиоконтента недоступного первичного кадра. Кроме того, можно оптимизировать использование полосы передачи первичного кадра.

Согласно варианту осуществления, кодер может быть выполнен с возможностью выбрать среди множества режимов частичной копии, которые используют разные объемы информации и/или разные наборы параметров, причем выбор режима частичной копии основан на параметрах (например, параметрах, описывающих сигнал, подлежащий кодированию). Таким образом, кодер может избирательно выбирать определенный режим частичной копии для обеспечения частичной копии, пригодной для маскирования определенного недоступного первичного кадра на стороне декодера. Выбор среди множества режимов частичной копии основан на различных параметрах, например характеристиках сигнала текущего и/или предыдущего кадра, включающих в себя стабильность основного тона, основной тон LTP, коэффициент усиления LTP, временной тренд сигнала, режим двух последних кадров и класс кадров.

Согласно варианту осуществления по меньшей мере один из множества режимов частичной копии может быть режимом маскирования в частотной области. кодер может избирательно выбирать этот режим для обеспечения частичной копии, содержащей определенные параметры, пригодные для обеспечения на стороне декодера хорошего результата маскирования недоступного первичного кадра, содержащего сигнал в частотной области.

Согласно варианту осуществления по меньшей мере два из множества режимов частичной копии могут быть разными режимами маскирования во временной области. Например, первый режим частичной копии можно выбирать, если соответствующий сигнал во временной области содержит по меньшей мере определенную характеристику. В противном случае, если сигнал во временной области не содержит этой определенной характеристики, или если сигнал во временной области содержит другую характеристику сигнала, выбирается второй режим частичной копии. Таким образом, кодер обеспечивает зависящий от сигнала выбор параметров, содержащихся в частичной копии.

Согласно варианту осуществления, один из по меньшей мере двух режимов маскирования во временной области можно выбирать, если кадр содержит переход или если глобальный коэффициент усиления кадра ниже (например по меньшей мере на заданную величину), чем глобальный коэффициент усиления предыдущего кадра. Таким образом, кодер избирательно выбирает режим для обеспечения параметров, которые используются на стороне декодера для улучшения маскирования дефектного или недоступного первичного кадра, даже если характеристики сигнала этого дефектного или недоступного первичного кадра отклоняются в определенной степени от характеристики сигнала предыдущего кадра.

Согласно варианту осуществления, кодер может быть выполнен с возможностью отправлять (в качестве параметра для улучшения маскирования) отставание LTP при наличии данных LTP. Таким образом, кодер избирательно обеспечивает параметры используемый на стороне декодера для декодирования с долгосрочным прогнозированием.

Согласно варианту осуществления, кодер может быть выполнен с возможностью отправлять (в качестве параметра для улучшения маскирования) информацию классификатора. Классификация сигналов используется для сигнализации типов контента: невокализованного, невокализованного переходного, вокализованного переходного, вокализованного и вступления. Обычно, этот тип классификации используется при кодировании речи и указания, присутствуют ли тональные компоненты/компоненты прогнозирования в сигнале, или изменяются ли тональные компоненты/компоненты прогнозирования. Доступность этой информации на стороне декодера (отправленной кодером) в ходе маскирования способствует определению прогнозируемости сигнала, что способствует регулировке скорости плавного уменьшения амплитуды и/или скорости интерполяции параметров LPC и может управлять возможным использованием высоко- или низкочастотной фильтрации вокализованных или невокализованных сигналов возбуждения (например, для устранения шумов).

Согласно варианту осуществления, кодер может быть выполнен с возможностью отправлять (в качестве параметра для улучшения маскирования) по меньшей мере один из параметров LPC, коэффициента усиления LTP, уровня шума и позиции импульса. Таким образом, кодер передает определенные параметры, пригодные для маскирования на стороне декодера контента дефектного или недоступного первичного кадра (т.е. для улучшения маскирования).

Другой вариант осуществления предусматривает декодер для декодирования речеподобного контента и/или общего аудиоконтента, причем декодер выполнен с возможностью использовать параметры, которые отправляются в более позднее время, для улучшения маскирования в случае потери, повреждения или задержки исходного кадра. Соответственно, на приемнике (или декодере), параметры, которые отправляются в более позднее время, можно использовать для улучшения маскирования ошибки на стороне декодера и, таким образом, воссоздания сигнала (например, замаскированного сигнала без серьезных артефактов), если исходный кадр является дефектным, например, потерянным, поврежденным или задержанным. Таким образом, принцип изобретения позволяет надежно реконструировать недоступный аудиоконтент с использованием параметров, улучшающих маскирование, при этом эффективно используя данную полосу.

Например, параметры, которые отправляются для улучшения маскирования (и которые оцениваются) аудиодекодером, могут содержать один или более из наиболее важных типов информации, которые требуются при маскировании дефектного кадра блоком маскирования декодера. Однако параметры обычно выбираются таким образом, что одних только параметров недостаточно для осуществления полного маскирования ошибки. Напротив, для фактического осуществлению маскирования ошибки, блок маскирования декодера обычно получает дополнительные типы информации, например, на основании ранее (или впоследствии) декодированных кадров. Таким образом, параметры, которые отправляются в более позднее время, лишь улучшают маскирование, но не образуют полной информации маскирования.

Соответственно, использование параметров, которые отправляются в более позднее время, позволяет иметь точную информацию о наиболее важных параметрах маскирования, доступных на аудиодекодере даже с использованием низкой битовой скорости, тогда как дополнительная информация, необходимая для обеспечения замаскированного кадра, формируется самим аудиодекодером, например, на основании одного или более ранее (или впоследствии) декодированных кадров с использованием экстраполяции или интерполяции.

Согласно варианту осуществления, декодер может быть выполнен с возможностью приема первичного кадра и «частичной копии», причем «частичная копия» не является версией низкой битовой скорости первичного кадра, но содержит параметры для улучшения маскирования. Поскольку «частичная копия» содержит эти параметры, полоса, используемая для передачи этих параметров, еще ниже по сравнению с полосой, используемой для передачи версии низкой битовой скорости первичного кадра.

Согласно варианту осуществления, параметры содержатся в частичной копии, и декодер выполнен с возможностью приема из противоджиттерного буфера частичной копии текущего потерянного кадра при её наличии. Противоджиттерный буфер, в котором можно буферизовать некоторое количество кадров, дополнительно улучшает принцип изобретения, поскольку способен обеспечивать задержку джиттера. Таким образом, кадры, поступающие на декодер в неправильном хронологическом порядке (т.е. первый кадр, отправленный на стороне кодера до второго кадра, поступает позже на сторону декодера, чем второй кадр, хотя предполагается, что первый кадр должен поступать на сторону декодера раньше, чем второй кадр), можно буферизовать и обеспечивать в правильном хронологическом порядке. Это особенно полезно в случае задержки кадра.

Согласно варианту осуществления, декодер может быть выполнен с возможностью приема первичного кадра одного из речеподобного типа контента и общего типа аудиоконтента совместно с частичной копией другого одного из речеподобного типа контента и общего типа аудиоконтента. Таким образом, декодер является универсальным, поскольку может обрабатывать различные типы аудиоконтента по отдельности или совместно. Это особенно полезно, когда декодер выполнен с возможностью извлечения, например, частичной избыточной копии TCX, переносимой поверх первичного кадра ACELP, или наоборот.

Согласно варианту осуществления, декодер может входить в состав кодека, использующего схему кодека TCX. Согласно этому варианту осуществления, декодер предпочтительно использует декодирование TCX для эффективного декодирования общего аудиоконтента, музыки, фонового шума и т.п. Декодер может надежно извлекать конкретные параметры TCX (для улучшения маскирования) из частичной копии для улучшения маскирования TCX.

Согласно варианту осуществления, параметры могут содержать параметры ISF или LSF, в частности, кодированные с прогнозированием параметры ISF или LSF. Представление параметров ISF и LSF используется для квантования кодирования параметров LPC. В схеме кодирования TCX LPC используется для представления порога маскирования. Этот параметр важен, и очень полезно, чтобы он был правильно доступен на стороне декодера в случае потери кадра. В особенности, если ISF/LSF кодируются с прогнозированием, качество маскирования будет повышаться благодаря доступности этой информации в ходе маскирования, поскольку состояния блока прогнозирования на стороне декодера будут оставаться правильными, т.е. синхронизированными с кодером, и это будет приводить к быстрому восстановлению недоступного первичного кадра.

Согласно варианту осуществления, параметры могут содержать параметры классификации сигналов. Классификация сигналов используется для сигнализации типов контента: невокализованного, невокализованного переходного, вокализованного переходного, вокализованного и вступления. Обычно этот тип классификации используется при кодировании речи и указания, присутствуют ли тональные компоненты/компоненты прогнозирования в сигнале, или изменяются ли тональные компоненты/компоненты прогнозирования. Благодаря доступности этой информации на стороне декодера в ходе маскирования упрощается определение прогнозируемости сигнала, что способствует регулировке скорости плавного уменьшения амплитуды, скорости интерполяции параметров LPC.

Согласно варианту осуществления, параметры могут содержать глобальный коэффициент усиления TCX или глобальный уровень TCX. Глобальный коэффициент усиления может передаваться для облегчения установки энергии замаскированного кадра на правильный (определенный кодером) уровень, при наличии.

Согласно варианту осуществления, параметры могут содержать по меньшей мере одну из информации окна и позиции спектрального пика. Доступность этой информации на стороне декодера позволяет избирательно улучшать маскирование.

Согласно варианту осуществления, декодер может входить в состав переключаемого кодека, причем переключаемый кодек состоит из по меньшей мере двух схем основного кодирования, причем первая схема основного кодирования использует ACELP, и вторая схема основного кодирования использует TCX. Например, декодер использует схему декодирования ACELP для декодирования речеподобного аудиоконтента и схему декодирования TCX для декодирования общего аудиоконтента. Таким образом, использование нескольких схем декодирования для декодирования различного аудиоконтента делает декодер универсальным.

Согласно варианту осуществления, декодер может быть выполнен с возможностью использовать, после переключения, маскирование ACELP в случае, когда первый кадр TCX после кадра ACELP недоступен декодеру. Если первый кадр TCX является дефектным, т.е. потерянным, поврежденным или задержанным, невозможно осуществлять маскирование в режиме TCX. Таким образом, вместо этого будет использоваться маскирование ACELP. В этом случае одних только частичных копий TCX будет недостаточно для полного синтеза кадра, декодер должен находиться в режиме маскирования и может поддерживаться частичными копиями. Поскольку для маскирования требуется, чтобы предшествующий кадр экстраполировал контент сигнала, в этом случае предпочтительно использовать маскирование ACELP (поскольку предыдущий кадр был ACELP), из-за чего частичная копия TCX станет менее полезной.

Согласно варианту осуществления, декодер может быть выполнен с возможностью выбрать среди множества режимов частичной копии или режимов маскирования, которые используют разные объемы информации и/или разные наборы параметров из множества режимов, доступных на декодере. Согласно варианту осуществления, декодер выбирает режим маскирования, если декодер не получил соответствующий режим, т.е. если он не может определить или иначе извлечь его, из частичной копии. В противном случае, режим маскирования определяется доступной частичной копией, причем решение принимает именно кодер. Соответственно, декодер использует соответственно кодированные разные объемы информации и/или разные наборы параметров непосредственно из битового потока, отправленного на стороне кодера. Таким образом, декодер может применять подходящий режим маскирования на основании режима частичной копии, причем в одном режиме информации поддержки (улучшения) (т.е. параметров) больше, чем в другом режиме. Другими словами, в режиме CA, кодер определяет надлежащий режим маскирования и, соответственно, подготавливает частичную копию. Если частичная копия доступна декодеру, и ее следует использовать для улучшения маскирования, декодер может следовать решению, принятому кодером, иначе информацию в частичной копии нельзя будет правильно использовать. Декодер самостоятельно принимает решение по режиму маскирования в отсутствие доступных частичных копий или если частичная копия не используется и/или не должна использоваться по другим причинам.

Согласно варианту осуществления по меньшей мере один из множества режимов частичной копии может быть режимом маскирования в частотной области. Декодер может избирательно выбирать этот режим для использования частичной копии, содержащей определенные параметры, пригодные для обеспечения хорошего результата маскирования недоступного первичного кадра, содержащего сигнал в частотной области.

Согласно варианту осуществления по меньшей мере два из множества режимов частичной копии могут быть разными режимами маскирования во временной области. Например, первая частичная копия содержит параметры соответствующего сигнала во временной области, содержащего по меньшей мере определенную характеристику, тогда как вторая частичная копия содержит параметры соответствующего сигнала во временной области, содержащего другую характеристику сигнала. Декодер может избирательно выбирать один из этих двух режимов во временной области для использования частичной копии, содержащей определенные параметры, пригодные для обеспечения хорошего результата маскирования недоступного первичного кадра, содержащего сигнал во временной области.

Согласно варианту осуществления, декодер может быть выполнен с возможностью приема отставания LTP при наличии данных LTP в соответствующем первичном кадре. Таким образом, декодер получает возможность реконструировать контент недоступного первичного кадра путем декодирования с долгосрочным прогнозированием, таким образом, используя параметры LTP, которые были приняты в частичной копии.

Согласно варианту осуществления, декодер может быть выполнен с возможностью приема информации классификатора. Классификация сигналов используется для сигнализации типов контента: невокализованного, невокализованного переходного, вокализованного переходного, вокализованного и вступления. Обычно, этот тип классификации используется при кодировании речи и указания, присутствуют ли тональные компоненты/компоненты прогнозирования в сигнале, или изменяются ли тональные компоненты/компоненты прогнозирования. Доступность этой информации на стороне декодера (отправленной кодером) в ходе маскирования способствует определению прогнозируемости сигнала, что способствует регулировке скорости плавного уменьшения амплитуды, скорости интерполяции параметров LPC и может управлять возможным использованием высоко- или низкочастотной фильтрации вокализованных или невокализованных сигналов возбуждения (например, для устранения шумов).

Согласно варианту осуществления, декодер может быть выполнен с возможностью приема (в качестве параметров для улучшения маскирования) по меньшей мере одного из параметров LPC, коэффициента усиления LTP, уровня шума и позиции импульса. Таким образом, декодер получает возможность реконструировать контент недоступного первичного кадра с использованием по меньшей мере одного из этих параметров, которые были приняты в частичной копии.

Согласно варианту осуществления, декодер может быть выполнен с возможностью уменьшения коэффициента усиления основного тона и коэффициента усиления кода с двумя разными коэффициентами в зависимости от режима маскирования. Это позволяет избегать наличия длинного стационарного сигнала всякий раз, когда исходный сигнал является более переходоподобным.

Согласно варианту осуществления, первый коэффициент для уменьшения коэффициента усиления основного тона и коэффициента усиления кода равен 0,4, и второй коэффициент равен 0,7. Эти два коэффициента наилучшим образом позволяют избегать наличия длинного стационарного сигнала всякий раз, когда исходный сигнал является более переходоподобным.

Согласно варианту осуществления, декодер может быть выполнен с возможностью не учитывать основной тон, декодированный из частичной копии, если предыдущий первичный кадр потерян, и при этом декодер выполнен с возможностью фиксирования, т.е. регулировки, основного тона до прогнозируемого основного тона для следующего потерянного первичного кадра вместо использования передаваемого основного тона. Соответственно, основной тон, декодированный из частичной копии, не следует учитывать, если предыдущий кадр потерян, поскольку основной тон, отправленный в битовом потоке был вычислен на стороне кодера на основании реальной ситуации, but если предыдущий кадр потерян, синтез ранее потерянного и замаскированного синтеза может реально отличаться от реальной ситуации кодера. Поэтому, в общем случае, лучше не рисковать опираться на синхронию кодера/декодера в случае потери множества кадров и фиксировать основной тон на прогнозируемый основной тон для следующего потерянного кадра вместо использования передаваемого основного тона.

Другой вариант осуществления предусматривает способ кодирования речеподобного контента и/или общего аудиоконтента, причем способ содержит этап, на котором встраивают параметры в битовый поток по меньшей мере в некоторых кадрах, причем параметры улучшают маскирование в случае потери, повреждения или задержки исходного кадра. Хотя можно использовать стандартные механизмы маскирования для дефектного, т.е. потерянного, поврежденного или задержанного кадра, параметры, встраиваемые в кадры, используются способом согласно изобретению для улучшения этого маскирования (и параметры битового потока могут заменять параметры, традиционно получаемые на стороне декодера). Соответственно, это изобретение предлагает не пользоваться частичной копией, которая является всего лишь версией низкой битовой скорости первичного кадра, но передавать параметры, которые будут улучшать маскирование (но обычно не образуют полную информацию маскирования ошибки). Поэтому декодер можно несколько модифицировать по сравнению с уровнем техники.

Другой вариант осуществления предусматривает способ декодирования речеподобного контента и/или общего аудиоконтента, причем способ содержит этап, на котором используют параметры, которые отправляются в более позднее время, для улучшения маскирования в случае потери, повреждения или задержки исходного кадра. Соответственно, на приемнике, параметры, которые отправляются в более позднее время, можно использовать для улучшения маскирования ошибки на стороне декодера и, таким образом, воссоздания сигнала, если исходный кадр является дефектным, т.е. потерянным, поврежденным или задержанным. Таким образом, используя способ согласно изобретению, дефектный, поврежденный или недоступный аудиоконтент можно надежно реконструировать (по меньшей мере, частично) с использованием параметров вместо всего избыточного кодированного кадра.

Другой вариант осуществления предусматривает кодер для кодирования аудиоконтента, причем кодер выполнен с возможностью обеспечения первичного кодированного представления текущего кадра и кодированного представления по меньшей мере одного параметра маскирования ошибки для улучшения маскирования ошибки на стороне декодера текущего кадра, причем кодер выполнен с возможностью выбора по меньшей мере одного параметра маскирования на основании (или в зависимости от) одного или более параметров, представляющих характеристику сигнала аудиоконтента, содержащегося в текущем кадре. В порядке примера, но не ограничения, параметры, представляющие характеристику сигнала, можно выбирать по меньшей мере из характеристик сигнала текущего и предыдущего кадра, включающих в себя стабильность основного тона, основной тон LTP, коэффициент усиления LTP, временной тренд сигнала, режим двух последних кадров и класс кадров. На основании этих параметров характеристик сигнала, кодер избирательно выбирает один или более параметров маскирования, пригодных для маскирования ошибки на стороне декодера. Эти параметры маскирования ошибки кодируются по отдельности, т.е. отдельно от первичного кодированного представления сигнала, подлежащего передаче. Таким образом, декодер может реконструировать сигнал из этих параметров маскирования ошибки с использованием маскирования ошибки, даже если первичное кодированное представление этого сигнала потеряно, повреждено или задержано. Соответственно, в по меньшей мере некоторых кадрах (или пакетах) параметры маскирования ошибки (также указанные как параметры кодирования с избыточностью) встраиваются в битовый поток и передаются на сторону декодера. Таким образом, не требуется обеспечивать «частичную копию» всего сигнала, который обычно кодируется на более низкой битовой скорости и поэтому может содержать более низкое качество. Таким образом, настоящее изобретение обеспечивает улучшенный принцип маскирования дефектных, например, потерянных, поврежденных или задержанных кадров посредством выбранных параметров маскирования ошибки, которые уже выбраны (например, в соответствии с характеристиками сигнала) на стороне кодера и встроены в битовый поток. Таким образом, изобретение остается в данной полосе, в то же время, сохраняя хорошее качество передаваемого сигнала, даже если участок (например, кадр) этого сигнала реконструируется путем маскирования на стороне декодера.

Согласно варианту осуществления, маскирование ошибки на стороне декодера является маскированием ошибки на основе экстраполяции. Соответственно, процедура маскирования может использовать экстраполяцию для оценивания или прогнозирования будущих характеристик сигнала, которые могут дополнительно помогать и способствовать маскированию дефектных первичных кадров.

Согласно варианту осуществления, кодер может быть выполнен с возможностью объединения кодированного представления по меньшей мере одного параметра маскирования ошибки текущего кадра с первичным кодированным представлением будущего кадра в транспортный пакет таким образом, что кодированное представление по меньшей мере одного параметра маскирования ошибки текущего кадра отправляется с задержкой по времени относительно первичного кодированного представления текущего кадра. Другими словами, кодер сначала отправляет первичный кадр (т.е. первичное кодированное представление кадра) в первом пакете. Затем, с некоторой задержкой по времени, кодер отправляет «частичную копию» (т.е. кодированное представление по меньшей мере одного параметра маскирования ошибки) в другом пакете, который отправляется позже, чем первый пакет. Соответственно, кодер по-прежнему квантует параметры, но добавляет их в битовый поток в более позднем пакете. Таким образом, изобретение особенно полезно в сетях на основе пакетов, например, Voice-over-IP (VoIP), Voice-over-LTE (VoLTE) и т.п. Хотя первичное кодированное представление кадра может быть уже передано стороне декодера, его соответствующие параметры маскирования ошибки будет отправляться с одним из следующих транспортных пакетов. Таким образом, если пакет, содержащий первичное кодированное представление, потерян, поврежден или задержан, пакет, содержащий параметры маскирования ошибки, может, однако, правильно поступать на сторону декодера, поскольку он был отправлен в более позднее время. Кроме того, благодаря объединению в один пакет этих параметров маскирования ошибки с первичным кодированным представлением другого кадра, полосу можно эффективно использовать.

Согласно варианту осуществления, кодер может быть выполнен с возможностью избирательно выбирать среди по меньшей мере двух режимов для обеспечения кодированного представления параметров маскирования ошибки. Таким образом, кодер является универсальным, поскольку обеспечивает разные режимы для обработки различных сигналов, которые могут иметь различные характеристики сигнала, причем различные наборы параметров маскирования ошибки могут обеспечиваться в разных режимах. Поскольку эти два режима используются для обеспечения кодированного представления по меньшей мере одного параметра маскирования ошибки, эти по меньшей мере два режима также именуются режимами частичной копии.

Согласно варианту осуществления, выбор кодера режима для обеспечения кодированного представления по меньшей мере одного параметра маскирования ошибки может быть основан на одном или более параметрах, которые содержат по меньшей мере одно из класса кадров, основного тона LTP, коэффициента усиления LTP и режима для обеспечения кодированного представления по меньшей мере одного параметра маскирования ошибки одного или более предшествующих кадров. Эти параметры пригодны для определения режима маскирования ошибки на стороне декодера.

Согласно варианту осуществления по меньшей мере один из режимов для обеспечения кодированного представления по меньшей мере одного параметра маскирования ошибки может быть режимом маскирования во временной области таким образом, что кодированное представление по меньшей мере одного параметра маскирования ошибки содержит одно или более из отставания LTP TCX и информации классификатора. Например, первый режим, который является режимом маскирования во временной области, можно выбирать при наличии сигнала во временной области, содержащего по меньшей мере определенную характеристику. В противном случае, если сигнал во временной области не содержит этой определенной характеристики, или если сигнал во временной области содержит другую характеристику сигнала, выбирается второй режим. Таким образом, кодер обеспечивает зависящий от сигнала выбор параметров маскирования ошибки.

Согласно варианту осуществления по меньшей мере один из режимов для обеспечения кодированного представления по меньшей мере одного параметра маскирования ошибки может быть режимом маскирования во временной области, который выбирается, если аудиоконтент содержащийся в текущем кадре, содержит переход, или если глобальный коэффициент усиления аудиоконтента, содержащегося в текущем кадре, ниже, чем глобальный коэффициент усиления предшествующего кадра. Таким образом, кодер избирательно выбирает режим для обеспечения параметров маскирования ошибки, которые используются на стороне декодера для маскирования недоступного первичного кодированного представления, даже если эти недоступные характеристики сигнала первичного кадра отклоняются в определенной степени от характеристики сигнала предшествующего кадра.

Согласно варианту осуществления по меньшей мере один из режимов для обеспечения кодированного представления по меньшей мере одного параметра маскирования ошибки может быть режимом маскирования в частотной области таким образом, что кодированное представление по меньшей мере одного параметра маскирования ошибки содержит один или более из параметра LSF, глобального коэффициента усиления TCX и информации классификатора. Кодер может избирательно выбирать этот режим для обеспечения кодированного представления по меньшей мере одного параметра маскирования ошибки, пригодного для обеспечения на стороне декодера хорошего результата маскирования недоступного первичного кодированного представления, содержащего сигнал в частотной области.

Согласно варианту осуществления, кодер может использовать по меньшей мере схему кодирования TCX. Согласно этому варианту осуществления, кодер, предпочтительно, использует кодирование TCX для эффективного кодирования общего аудиоконтента, музыки, фонового шума и т.п. Таким образом, кодер может надежно определять и передавать конкретные параметры TCX, которые можно использовать для маскирования TCX на стороне декодера.

Вариант осуществления предусматривает декодер для декодирования аудиоконтента, причем декодер выполнен с возможностью приема первичного кодированного представления текущего кадра и/или кодированного представления по меньшей мере одного параметра маскирования ошибки для улучшения маскирования ошибки на стороне декодера текущего кадра, причем декодер выполнен с возможностью использовать маскирование ошибки для по меньшей мере частичной реконструкции аудиоконтента текущего кадра с использованием по меньшей мере одного параметра маскирования ошибки в случае, когда первичное кодированное представление текущего кадра потеряно, повреждено или задержано. В общем случае, декодер способен принимать битовый поток, который может быть либо единичным первичным кадром (т.е. первичным кодированным представлением текущего кадра) без каких-либо побочных данных (т.е. по меньшей мере одного параметра маскирования ошибки), если кодер решил не отправлять никаких побочных данных для конкретного прошлого кадра, либо первичным кадром (т.е. первичным кодированным представлением текущего кадра) и по меньшей мере одним или более параметрами маскирования ошибки. Таким образом, декодер может по меньшей мере частично реконструировать сигнал с использованием этих одного или более параметров маскирования ошибки с использованием маскирования ошибки, даже если первичное кодированное представление этого сигнала является дефектным, например, потерянным, поврежденным или задержанным. Соответственно, в по меньшей мере некоторых кадрах параметры маскирования ошибки (параметры кодирования с избыточностью) встраиваются в битовый поток и передаются на сторону декодера. Таким образом, не требуется для обеспечения частичной копии всего сигнала, который обычно кодируется на более низкой битовой скорости и поэтому может содержать более низкое качество. Таким образом, настоящее изобретение обеспечивает улучшенный принцип маскирования дефектных, например, потерянных, поврежденных или задержанных кадров с использованием выбранных параметров маскирования ошибки, которые уже выбраны на стороне кодера, встроены в битовый поток и передаются на сторону декодера, когда маскирование, которое использует информацию, полученную на основании одного или более ранее декодированных кадров, «направляется» (например, усовершенствуются или улучшается) с использованием принятых параметров маскирования ошибки. Таким образом, принцип изобретения остается в данной полосе (с использованием маскирования ошибки на основе экстраполяции, для которого не требуется передача всей информации маскирования ошибки с кодера на декодер), в то же время, сохраняя хорошее качество декодированного сигнала (благодаря улучшению маскирования ошибки с использованием параметров маскирования ошибки), даже если сигнал реконструируется путем маскирования на стороне декодера.

Согласно варианту осуществления, маскирование ошибки на стороне декодера является маскированием ошибки на основе экстраполяции. Соответственно, процедура маскирования, обеспеченная на стороне декодера, может использовать экстраполяцию для оценивания или прогнозирования будущих характеристик сигнала, которые могут дополнительно помогать и способствовать маскированию дефектных первичных кадров.

Согласно варианту осуществления, декодер может быть выполнен с возможностью извлечения параметра маскирования ошибки текущего кадра из пакета, который отделен от пакета, в котором содержится первичное кодированное представление текущего кадра. Таким образом, при наличии двух отдельных пакетов, декодер может использовать параметр маскирования ошибки, содержащийся в одном из этих отдельных пакетов в случае, когда пакет, содержащий первичное кодированное представление текущего кадра, потерян, поврежден или задержан.

Согласно варианту осуществления, декодер может быть выполнен с возможностью избирательно выбирать среди по меньшей мере двух режимов маскирования ошибки, которые используют разные кодированные представления одного или более параметров маскирования ошибки для по меньшей мере частичной реконструкции аудиоконтента с использованием маскирования ошибки на основе экстраполяции. Декодер выбирает один из по меньшей мере двух режимов маскирования ошибки, если декодер не получил соответствующий режим, т.е. если декодер не может определить или иначе извлечь соответствующий режим, из частичной копии (т.е. из кодированного представления по меньшей мере одного параметра маскирования ошибки). В противном случае, режим маскирования определяется доступной частичной копией, т.е. кодированным представлением по меньшей мере одного параметра маскирования ошибки. В этом случае, кодер уже сделал выбор, тогда как декодер использует выбранный один из по меньшей мере двух режимов. Другими словами, в режиме CA, кодер определяет надлежащий режим маскирования и, соответственно, подготавливает частичную копию. Если частичная копия доступна декодеру, и ее следует использовать для улучшения маскирования, декодер может следовать решению, принятому кодером, иначе информацию в частичной копии нельзя будет правильно использовать. Декодер самостоятельно принимает решение по режиму маскирования в отсутствие доступных частичных копий или если частичная копия не используется и/или не должна использоваться по другим причинам. Соответственно, декодер обеспечивает зависящее от сигнала декодирование одного или более параметров маскирования ошибки и улучшенное маскирование ошибки.

Согласно варианту осуществления по меньшей мере один из режимов маскирования ошибки которые используют разные кодированные представления одного или более параметров маскирования ошибки, может быть режимом маскирования во временной области, причем кодированное представление по меньшей мере одного параметра маскирования ошибки содержит по меньшей мере одно из отставания LTP TCX и информации классификатора. Например, первый режим, который является режимом маскирования во временной области, можно выбирать при наличии сигнала во временной области, содержащего по меньшей мере определенную характеристику. В противном случае, если сигнал во временной области не содержит этой определенной характеристики, или если сигнал во временной области содержит другую характеристику сигнала, выбирается второй режим. Таким образом, кодер может обеспечивать зависящий от сигнала выбор параметров маскирования ошибки, когда декодер может следовать этому выбору кодера.

Согласно варианту осуществления по меньшей мере один из по меньшей мере двух режимов маскирования ошибки, которые используют разные кодированные представления одного или более параметров маскирования ошибки, может быть режимом маскирования в частотной области, причем кодированное представление по меньшей мере одного параметра маскирования ошибки содержит один или более из параметра LSF, глобального коэффициента усиления TCX и информации классификатора. Декодер может избирательно выбирать этот режим для обеспечения хорошего результата маскирования недоступного первичного кодированного представления, содержащего сигнал в частотной области.

Согласно варианту осуществления, декодер может использовать по меньшей мере схему кодирования TCX. Согласно этому варианту осуществления, декодер предпочтительно использует декодирование TCX для эффективного декодирования общего аудиоконтента, музыки, фонового шума и т.п. Таким образом, декодер может использовать конкретные для TCX параметры маскирования ошибки для реконструкции сигнал TCX в случае потери, повреждения или задержки первичного кодированного представления.

Вариант осуществления предусматривает устройство для маскирования ошибки, причем устройство выполнено с возможностью осуществления стандартного механизма маскирования для потерянного кадра и использования передающихся параметров для улучшения маскирования. Таким образом, настоящее изобретение улучшает стандартный механизм маскирования с использованием определенных параметров.

Вариант осуществления предусматривает устройство для маскирования ошибки, причем устройство выполнено с возможностью не использовать частичную копию, которая является всего лишь версией низкой битовой скорости первичного кадра, но использовать частичную копию, состоящую из множества ключевых параметров, для улучшения маскирования. Таким образом, можно эффективно использовать полосу.

Вариант осуществления предусматривает устройство для маскирования ошибки, имеющее приемник, содержащий противоджиттерный буфер, для обеспечения частичной избыточной копии текущего потерянного кадра при наличии в любом из будущих кадров, причем устройство выполнено с возможностью считывания битового потока частичной избыточной информации и обновления соответствующих параметров. Таким образом, если текущий кадр потерян, поврежден или задержан, устройство согласно изобретению может использовать частичную избыточную копию, отправленную в более позднее время, т.е. с будущим кадром, для реконструкции кадра.

Вариант осуществления предусматривает переключаемый кодер или декодер, в котором присутствуют две или более схемы основного кодирования, одна из которых, например, использует ACELP для кодирования речеподобного контента, и вторая использует TCX для кодирования общего аудиоконтента, причем кадры ACELP обрабатываются с использованием кодирования частичной избыточной копии, и кадры TCX обрабатываются с использованием другого подхода, причем в кадрах, находящихся вблизи переключения основного кодера, возможны два особых случая, а именно: первичный кадр ACELP с частичной копией, формируемой из будущего кадра TCX поверх, или первичный кадр TCX с частичной копией, формируемой из будущего кадра ACELP поверх, причем, для этих случаев, оба основных кодера выполнены с возможностью создания первичных кадров совместно с частичными копиями из кодера другого типа, без нарушения необходимого полного размера кадра, для обеспечения постоянной битовой скорости, или: первый кадр TCX после кадра ACELP, где, если этот кадр потерян и, таким образом, недоступен декодеру, предложенный метод будет маскировать согласно TCX кадр с использованием информации частичной копии перенесенной поверх другого кадра, причем для маскирования требуется, чтобы предшествующий кадр экстраполировал контент сигнала, используется маскирование ACELP (поскольку предыдущий кадр был ACELP), и при этом на кодере заранее принимается решение, не помещать частичную копию поверх кадра TCX после переключения, или где выбор частичной копии осуществляется в соответствии с сигналом, где сигнал анализируется до кодирования для определения, полезно ли использовать частичную копию, причем, если сигнал можно достаточно хорошо замаскировать без помощи дополнительной информации частичной копии на декодере, но производительность чистого канала страдает вследствие сокращенного первичного кадра, использование частичной копии отключается, или конкретно сокращенная частичная копия используется на кодере. Таким образом, кодер или декодер согласно изобретению является универсальным, поскольку обеспечивает объединение разных схем кодирования.

Вариант осуществления предусматривает кодер или декодер области преобразования, в котором используется схема кодирования/декодирования, где, в по меньшей мере некоторых кадрах параметры кодирования с избыточностью встраиваются в битовый поток и передаются на сторону декодера, или избыточная информация задерживается на некоторое время и встраивается в пакет, который кодируется и отправляется в более позднее время, что позволяет использовать информацию в случае, когда декодеру уже доступен будущий кадр, и исходный кадр потерян, поврежден или задержан еще более. Таким образом, за счет обеспечения параметров кодирования с избыточностью в битовом потоке, можно эффективно использовать данную полосу.

Вышеописанный кодер или декодер области преобразования может использовать избыточную информацию, содержащую параметры ISF/LSF: представление параметров ISF/LSF используется для квантования кодирования параметров LPC. В TCX LPC используется для представления порога маскирования. Этот параметр важен, и очень полезно, чтобы он был правильно доступен на стороне декодера в случае потери кадра. В особенности, если ISF/LSF кодируются с прогнозированием, качество маскирования будет значительно повышаться благодаря доступности этой информации в ходе маскирования, поскольку состояния блока прогнозирования на стороне декодера будут оставаться правильными (синхронизированными с кодером) и это будет приводить к очень быстрому восстановлению после потери; классификация сигналов: классификация сигналов используется для сигнализации типов контента: невокализованного, невокализованного переходного, вокализованного переходного, вокализованного и вступления. Обычно этот тип классификации используется при кодировании речи и указания, присутствуют ли тональные компоненты/компоненты прогнозирования в сигнале, или изменяются ли тональные компоненты/компоненты прогнозирования. Благодаря доступности этой информации на стороне декодера в ходе маскирования упрощается определение прогнозируемости сигнала, что способствует регулировке скорости плавного уменьшения амплитуды, скорости интерполяции параметров LPC; глобальный коэффициент усиления/уровень TCX: глобальный коэффициент усиления может передаваться для облегчения установки энергии замаскированного кадра на правильный (определенный кодером) уровень, при наличии; информацию окна наподобие длины перекрытия; или позиции спектральных пиков для помощи в тональном маскировании.

Термины «избыточный», «избыточная копия», «частичная избыточная копия» и другие сочетания выражений, содержащих термин «избыточный», можно использовать в смысле обеспечения «частичной» информации. Частичная информация не содержит избыточного и, возможно, низкой битовой скорости, представления первичного кодированного кадра, т.е. кодированного аудиосигнала. Вместо этого, частичная информация может содержать параметры, в частности, вспомогательные параметры маскирования, которые улучшают механизм маскирования, доступный на стороне декодера, для маскирования соответствующего первичного кадра, т.е. первичных кодированных аудиоданных, в случае, когда этот первичный кодированный кадр является дефектным, например, потерянным, поврежденным или задержанным. Другими словами, термины «избыточный» и «частичный» и их производные, например «избыточная копия» и «частичная копия», могут использоваться в этом документе взаимозаменяемо, поскольку оба термина представляют информацию, которая может содержать вышеупомянутые параметры.

ОСУЩЕСТВЛЕНИЕ ИЗОБРЕТЕНИЯ

Варианты осуществления настоящего изобретения будут подробно описаны ниже со ссылкой на прилагаемые чертежи, в которых:

фиг. 1 демонстрирует схематическое представление кодера согласно изобретению,

фиг. 2 демонстрирует схематическое представление варианта осуществления кодера согласно изобретению,

фиг. 3 демонстрирует схематическое представление варианта осуществления кодера согласно изобретению,

фиг. 4 демонстрирует схематическое представление варианта осуществления кодера согласно изобретению,

фиг. 5 демонстрирует схематическое представление варианта осуществления декодера согласно изобретению,

фиг. 6 демонстрирует схематическое представление варианта осуществления на основе принципа частичной избыточности в режиме осведомленности о канале,

фиг. 7 демонстрирует схематическое представление варианта осуществления на основе принципа частичной избыточности в режиме осведомленности о канале,

фиг. 8 демонстрирует схематическое представление варианта осуществления структуры кодера, осведомленного о канале,

фиг. 9 демонстрирует схематическое представление варианта осуществления структуры декодера, осведомленного о канале,

фиг. 10 демонстрирует диаграмму, представляющую результаты испытаний на MOS типа ACR на основе ITU-T P.800 для широкой полосы, и

фиг. 11 демонстрирует диаграмму, представляющую результаты испытаний на MOS типа DCR на основе ITU-T P.800 для сверхширокой полосы.

Фиг. 1 демонстрирует кодер 1 в соответствии с изобретением. Кодер 1 выполнен с возможностью кодирования аудиоконтента 2. В частности, кодер 1 выполнен с возможностью кодирования речеподобного контента и/или общего аудиоконтента. Соответствующий кодированный аудиоконтент 3 встраивается в битовый поток 5 по меньшей мере в кадре 4.

Кодер 1 дополнительно выполнен с возможностью встраивания параметров 6 в битовый поток 5 по меньшей мере в некоторых кадрах 7. Эти параметры 6 используются для улучшения маскирования в случае потери, повреждения или задержки исходного кадра 4.

Битовый поток 5 отправляется на приемник, содержащий декодер.

Как показано на фиг. 2, кодер 1 выполнен с возможностью создания первичного кадра 4b и частичной копии 8b. Однако частичная копия 8b не является просто версией низкой битовой скорости первичного кадра 4b. Напротив, частичная копия 8b содержит параметры 6, которые улучшают маскирование на стороне декодера, но, с другой стороны, не включает в себя полную информацию для реконструкции аудиоконтента дефектного, например, потерянного, поврежденного или задержанного первичного кадра. Другими словами, частичная копия включает в себя один или более параметров для улучшения маскирования ошибки на стороне декодера, но не всю информацию, необходимую для маскирования ошибки.

Кодер 1 выполнен с возможностью задержки параметров 6 на некоторое время и встраивания параметров 6 в пакет 9, который кодируется и отправляется в более позднее время, чем пакет, который содержит первичный кадр 4b.

Кодер 1 может создавать один или более первичных кадров 4b, 4c и одну или более частичных копий 8a, 8b. Например по меньшей мере некоторая часть аудиоконтента 2 кодируется и встраивается в первичный кадр 4b. Та же часть аудиоконтента 2 анализируется кодером 1 в отношении определенных характеристик сигнала. На этом основании, кодер 1 определяет выбор одного или более параметров 6, которые улучшают маскирование на стороне декодера. Эти параметры 6 встраиваются в соответствующую «частичную копию» 8b.

Другими словами, первичный кадр 4b содержит кодированное представление по меньшей мере части аудиоконтента 2. Соответствующая частичная копия 8b содержит один или более параметров 6, которые используются при маскировании ошибки на стороне декодера для реконструкции кодированного представления аудиоконтента 2 в случае потери, повреждения или задержки первичного кадра 4b.

Первичная копия 4b упаковывается в транспортный пакет 9 совместно с частичной копией 8a, причем частичная копия 8a является частичной копией аудиоконтента, закодированного в первичном кадре 4a, который уже отправлен до этого. Соответственно, кодер 1 задерживает параметры 6 на некоторое время. Как дополнительно следует из фиг. 2, частичная копия 8b (принадлежащая первичному кадру 4b), которая следует за частичной копией 8a, будет упакована совместно с первичным кадром 4c в более позднем транспортном пакете. Между первичными кадрами 4c и 4b также могут существовать один или более дополнительных первичных кадров.

Важным признаком является тот факт, что описанный здесь принцип использует схему кодирования/декодирования, где, в по меньшей мере некоторых кадрах 8a, 8b параметры 6 кодирования с избыточностью встраиваются в битовый поток 5 и передаются на сторону декодера. Избыточная информация (параметры 6) задерживается на некоторое время и встраивается в пакет 9, который кодируется и отправляется в более позднее время, что позволяет использовать информацию в случае, когда декодеру уже доступен будущий кадр 4b, 8a, но исходный кадр 4a потерян, поврежден или задержан еще более.

Битовый поток 5 может, например, содержать постоянную полную битовую скорость. Кодер 1 может быть выполнен с возможностью снижения битовой скорости первичного кадра, т.е. битовой скорости, которая требуется для кодирования первичного кадра 4b, 4c, по сравнению с постоянной полной битовой скоростью. Снижение битовой скорости для первичных кадров 4b, 4c и механизм кодирования частичного избыточного кадра совместно определяют выделение битовой скорости между первичными и избыточными кадрами (частичными копиями) 4b, 4c, 8a, 8b для включения в постоянную полную битовую скорость битового потока 5. Таким образом, кодер 1 выполнен с возможностью обеспечения пакета 9, содержащего первичный кадр 4b и частичную копию 8a, причем размер, т.е. битовая скорость пакета 9, находится на или ниже постоянной полной битовой скорости.

Другими словами, снижение битовой скорости первичного кадра и механизмы кодирования частичного избыточного кадра совместно определяют выделение битовой скорости между первичными и избыточными кадрами 4b, 4c, 8a, 8b для включения в постоянную полную битовую скорость. Полная битовая скорость кадра 4b, поддерживающая параметры 8a частичной копии (помимо первичных кадров) не увеличивается.

Схема кодирования TCX

Согласно варианту осуществления, кодер 1 составляет часть кодека, использующего схему кодирования TCX. Кодер 1 согласно изобретению использует TCX, предпочтительно, для кодирования общего аудиоконтента. В случае TCX, частичная копия 8a, 8b используется для улучшения алгоритма маскирования ошибки потери кадра на стороне декодера путем передачи некоторых вспомогательных параметров 6.

При использовании кодека области преобразования, встраивание избыточной информации 8a, 8b в кадры 4b, 4c TCX можно выбирать, если:

- кадр содержит действительно зашумленный аудиосигнал. Это может указывать низкая мера автокорреляции или невокализованный или невокализованный переходный выходной сигнал классификатора кадров. Классификация невокализованного или невокализованного переходного сигнала указывает низкий коэффициент усиления прогнозирования.

- кадр содержит минимальный уровень шума с резкими спектральными линиями, которые не меняют своего положения в течение более длинного периода времени. Это можно обнаруживать посредством алгоритма обнаружения пиков, который ищет локальные максимумы в спектре TCX (спектре мощности или действительном спектре) и сравнивает результат с результатом обнаружения пиков предыдущего кадра. В случае, когда пики не перемещаются, вероятно, что существуют неподвижные тоны, которые легко замаскировать после маскирования спектра шума путем постобработки спектра фазовым экстраполятором, именуемым тональным маскированием.

- при наличии информации LTP и стабильном отставании по фактическому и прошлому кадру тональное маскирование [6] следует применять на декодере.

Избыточная информация (параметры 6) может представлять собой:

- параметры ISF/LSF:

представление параметров ISF/LSF используется для квантования кодирования параметров LPC. В TCX LPC используется для представления порога маскирования. Этот параметр важен, и очень полезно, чтобы он был правильно доступен на стороне декодера в случае потери кадра. В особенности, если ISF/LSF кодируются с прогнозированием, качество маскирования будет значительно повышаться благодаря доступности этой информации в ходе маскирования, поскольку состояния блока прогнозирования на стороне декодера будут оставаться правильными (синхронизированными с кодером) и это будет приводить к очень быстрому восстановлению после потери.

- классификацию сигналов:

классификация сигналов используется для сигнализации типов контента: невокализованного, невокализованного переходного, вокализованного переходного, вокализованного и вступления. Обычно этот тип классификации используется при кодировании речи и указывает, присутствуют ли тональные компоненты/компоненты прогнозирования в сигнале, или изменяются ли тональные компоненты/компоненты прогнозирования. Благодаря доступности этой информации на стороне декодера в ходе маскирования упрощается определение прогнозируемости сигнала, что способствует регулировке скорости плавного уменьшения амплитуды, скорости интерполяции параметров LPC.

- глобальный коэффициент усиления/уровень TCX:

Глобальный коэффициент усиления может передаваться для облегчения установки энергии замаскированного кадра на правильный (определенный кодером) уровень, при наличии.

- информацию окна наподобие длины перекрытия.

- позиции спектральных пиков для помощи в тональном маскировании

Возможен особый случай, когда, на кодере 1 для частичной копии частотной области, осуществляется проверка, содержит ли сигнал 2 вступление. Если коэффициент усиления (может быть квантован) фактического кадра 4c больше определенного коэффициента (например, 1,6), умноженного на коэффициент усиления предыдущего кадра 4b, и корреляция между фактическим кадром 4c и предыдущим кадром 4b низка, передается лишь ограниченный (урезанный) коэффициент усиления. Это позволяет избегать артефактов опережающего эха в случае маскирования. В случае вступления, предыдущий кадр 4b действительно раскоррелирован с фактическим кадром 4c. Таким образом, он не может опираться на коэффициент усиления, вычисленный на фактическом кадре 4c, если маскирование осуществляется на основании спектральных бинов предыдущего кадра 4b.

Схема переключаемого кодека (TCX - ACELP)

В дополнительном варианте осуществления, кодер 1 составляет часть переключаемого кодека, причем переключаемый кодек состоит из по меньшей мере двух схем основного кодирования. Первая схема основного кодирования использует ACELP, и вторая схема основного кодирования использует TCX. Согласно фиг. 3, кодер 1 содержит основной кодер 10, который может переключаться между схемами основного кодирования ACELP и TCX.

Кодер дополнительно содержит процессор 11 ACELP для обработки контента 13, кодированного по ACELP, и процессор 12 TCX для обработки контента 14, кодированного по TCX. Процессор 11 ACELP представляет собой общеизвестный процессор, использующий традиционный подход частичной копии, согласию которому первичные кадры 15 первично кодируются, и избыточные кадры 16 кодируются с избыточностью. Избыточные кадры 16 являются версией низкой битовой скорости соответствующих им первичных кадров 15.

Процессор 12 TCX обрабатывает кадры, кодированные согласно принципу изобретения. В первой ветви 17 кодированный контент 3 обеспечивается в форме первичных кадров 4b, 4c. Во второй ветви 18 параметры 6, которые улучшают маскирование, обеспечены в форме «частичных копий» 8a, 8b, например, показанных на фиг. 2. Контент 15, 16 ACELP и контент 17, 18 TCX упаковываются в последовательность транспортных пакетов 9, как описано выше, и отправляются в битовом потоке 5 стороне декодера.

Согласно фиг. 3, но выражаясь иначе, использование принципа изобретения описано совместно с традиционным подходом на основе частичной избыточной копии в переключаемой системе кодирования. Такая система состоит из двух (или более) схем основного кодирования, где одна использует ACELP для кодирования речеподобного контента, и вторая использует TCX для кодирования общего аудиоконтента.

Предполагая, что кадры 15, 16 ACELP обрабатываются с использованием традиционного кодирования частичной избыточной копии, и кадры 4b, 4c TCX, 8a, 8b обрабатываются с использованием подхода согласно изобретению, возможны два основных случая, когда никаких особых действий не требуется, и кадры 4b, 4c, 8a, 8b, 15, 16 можно обрабатывать с использованием подхода частичной копии, на который опирается основной кодер 10:

- первичный кадр 15 ACELP с частичной копией 16, формируемой из будущего кадра ACELP поверх

- первичный кадр 4c TCX с частичной копией 8b, формируемой из будущего кадра TCX 4b поверх

Однако, в кадрах, находящихся вблизи переключения основного кодера, возможны два особых случая, а именно

- первичный кадр 15 ACELP с частичной копией 8, формируемой из будущего кадра TCX поверх

- первичный кадр TCX 4 с частичной копией 16, формируемой из будущего кадра ACELP поверх

Для этих случаев, оба основных кодера должны быть выполнены с возможностью создания первичных кадров 4, 15 совместно с частичными копиями 8, 16 из кодера другого типа, без нарушения необходимого полного размера кадра, для обеспечения постоянной битовой скорости.

Соответственно, кодер 1 выполнен с возможностью создания первичного кадра 4, 15 одного из речеподобного типа контента (ACELP) и общего типа аудиоконтента (TCX) совместно с частичной копией 8, 16 другого одного из речеподобного типа контента и общего типа аудиоконтента.

Однако возможны более частные случаи, когда следует использовать более сложный выбор частичных копий 8, 16, например:

Первый кадр TCX 4 после кадра 15 ACELP:

если этот кадр 4 потерян и, таким образом недоступен декодеру, способ согласно изобретению будет маскировать по TCX кадр 4 с использованием информации частичной копии (параметров 6), переносимой поверх другого (предположительно, не потерянного) кадра. Но поскольку для маскирования требуется, чтобы предшествующий кадр экстраполировал контент сигнала, в этом случае предпочтительно использовать маскирование ACELP (поскольку предыдущий кадр был ACELP) таким образом, что частичная копия TCX станет ненужной. Таким образом, на кодере заранее принимается решение 1 не помещать частичную копию 8 поверх кадра TCX 4 после переключения.

Соответственно, кодер 1 выполнен с возможностью не помещать частичную копию 8 поверх кадра TCX 4 после переключения при наличии первого кадра TCX 4 после кадра 15 ACELP.

Выбор частичной копии в соответствии с сигналом:

сигнал (аудиоконтент) 2 можно анализировать до кодирования для определения, полезно ли использовать частичную копию, согласно изобретению (с использованием параметров 6). Например, если сигнал 2 можно достаточно хорошо замаскировать без помощи дополнительной информации частичной копии, т.е. параметров 6, на декодере, но производительность чистого канала страдает вследствие сокращенного первичного кадра 4, использование частичной копии согласно изобретению (т.е. встраивание параметров 6 в битовый поток 5) можно, например, отключать, или конкретно сокращенную частичную копию 8 можно использовать на кодере 1.

Соответственно, кодер 1 выполнен с возможностью анализировать сигнал 2 до кодирования и отключать использование частичной копии или обеспечивать сокращенную частичную копию на основании проанализированного сигнала 2.

В общем случае, кодер 1 выполнен с возможностью обеспечения частичных избыточных копий 8, которые строятся в режиме частичной копии. Согласно варианту осуществления, кодер 1 выполнен с возможностью выбирать среди множества режимов частичной копии, которые используют разные объемы информации и/или разные наборы параметров, причем выбор режима частичной копии основан на различных параметрах.

Построение частичного избыточного кадра для кадра TCX

В случае частичного избыточного кадра типа TCX, частичная копия 8, состоящая из некоторых вспомогательных параметров 6, используется для улучшения алгоритма маскирования потери кадра. Согласно варианту осуществления, возможны три разных режима частичной копии, а именно, RF_TCXFD, RF_TCXTD1 и RF_TCX_TD2. Аналогично решению режима PLC на стороне декодера, выбор режима частичной копии для TCX основан на различных параметрах, например, режиме двух последних кадров, классе кадров, основном тоне LTP и коэффициенте усиления. Параметры, используемые для выбора режима, могут быть идентичны или отличаться от параметров для улучшения маскирования, включенных в «частичную копию».

a) Тип маскирования в частотной области (RF_TCXFD) частичного избыточного кадра

Согласно варианту осуществления по меньшей мере один из множества режимов частичной копии являлся режимом маскирования в частотной области (ʺFDʺ), пример которого описан ниже.

Для режима частичной копии RF_TCXFD используются 29 битов.

- 13 битов используются для квантователя LSF (например, для кодирования параметров LPC), такого же, как используется для обычного низкоскоростного кодирования TCX.

- глобальный коэффициент усиления TCX квантуется с использованием 7 битов.

- информация классификатора (например, вокализованный, невокализованный и т.д.) кодируется в 2 битах.

b) Тип маскирования во временной области (RF_TCXTD1 и RF_TCXTD2) частичного избыточного кадра

Согласно варианту осуществления по меньшей мере два из множества режимов частичной копии являются разными режимами маскирования во временной области (ʺTDʺ), примеры которых описаны ниже. Первый режим маскирования во временной области, а именно, режим частичной копии RF_TCXTD1, выбирается, если кадр 4c содержит переход, или если глобальный коэффициент усиления кадра 4c (много) ниже, чем глобальный коэффициент усиления предыдущего кадра 4b. В противном случае, выбирается второй режим маскирования во временной области, а именно RF_TCXTD2.

Для обоих режимов используется всего 18 битов побочных данных.

- 9 битов используются для сигнализации отставания TCX LTP (долгосрочного прогнозирования)

- 2 бита для сигнализации информации классификатора (например, вокализованный, невокализованный и т.д.)

Маскирование во временной области

В зависимости от реализации, кодек может быть только кодеком области преобразования или переключающимся кодеком (области преобразования/временной области), использующим маскирование во временной области, описанное в [4] или [5]. Аналогично описанному здесь решению режима маскирования потери пакетов на стороне декодера, выбор режима частичной копии согласно настоящему изобретению основан на различных параметрах, как упомянуто выше, например, режима двух последних кадров, классе кадров, основном тоне LTP и коэффициенте усиления.

В случае выбора режима временной области, могут передаваться следующие параметры 6:

- при наличии данных LTP, передается отставание LTP,

- сигнализируется информация классификатора (невокализованный, невокализованный переходный, вокализованный, вокализованный переходный, вступление...): классификация сигналов используется для сигнализации типов контента: невокализованного, невокализованного переходного, вокализованного переходного, вокализованного и вступления. Обычно этот тип классификации используется при кодировании речи и указания, присутствуют ли тональные компоненты/компоненты прогнозирования в сигнале, или изменяются ли тональные компоненты/компоненты прогнозирования. Благодаря доступности этой информации на стороне декодера в ходе маскирования упрощается определение прогнозируемости сигнала, что способствует регулировке скорости плавного уменьшения амплитуды, скорости интерполяции параметров LPC и может управлять возможным использованием высоко- или низкочастотной фильтрации вокализованных или невокализованных сигналов возбуждения (например, для устранения шумов).

При необходимости, также могут передаваться по меньшей мере один из следующих параметров 6:

- параметры LPC, описывающие полный спектральный диапазон в случае, когда расширение полосы используется для обычного кодирования,

- коэффициент усиления LTP,

- уровень шума, и

- позиция импульса

Большинство отправляемых параметров 6 выводятся непосредственно из фактического кадра 4, кодированного в области преобразования, не приводя ни к какому дополнительному усложнению. Но если сложность не представляет проблемы, то можно добавлять имитацию маскирования на кодере 1 для уточнения переменной 6, которая может отправляться.

Как упомянуто выше, также можно использовать множество режимов для обеспечения частичной копии 8. Это позволяет отправлять разные объемы информации или разные наборы параметров. Например, существует два режима для временной области (TD). Режим частичной копии TD1 можно выбирать, если кадр 4c содержит переход, или если глобальный коэффициент усиления кадра 4c гораздо ниже, чем глобальный коэффициент усиления предыдущего кадра 4b. В противном случае выбирается TD2. Затем, на декодере, коэффициент усиления основного тона и коэффициент усиления кода будут снижаться с двумя разными коэффициентами (0,4 и 0,7, соответственно) во избежание длинного стационарного сигнала всякий раз, когда исходный сигнал 2 больше похож на переход.

Потеря множества кадров

Возможен еще один особый случай, а именно случай потери множества кадров. Основной тон, декодированный из частичной копии 8b, не следует учитывать в случае потери предыдущего кадра 4a, поскольку основной тон, отправленный в битовом потоке 5, был вычислен на стороне кодера на основании реальной ситуации, но в случае потери предыдущего кадра 4a, синтез ранее потерянного и замаскированного синтеза может реально отличаться от реальной ситуации кодера. Поэтому, в общем случае, лучше не рисковать опираться на синхронию кодера/декодера в случае потери множества кадров и фиксировать основной тон на прогнозируемый основной тон для следующего потерянного кадра вместо использования передаваемого основного тона.

Принцип изобретения кодера 1 кратко изложен ниже со ссылкой на вариант осуществления, представленный на фиг. 4.

Кодер 1 принимает входной сигнал, который содержит аудиоконтент 2. Аудиоконтент 2 может быть речеподобным контентом и/или общим аудиоконтентом, например, музыкой, фоновым шумом и т.п.

Кодер 1 содержит основной кодер 10. Основной кодер 10 может использовать схему основного кодирования для кодирования речеподобного контента, например, ACELP, или схему основного кодирования для кодирования общего аудиоконтента, например TCX. Основной кодер 10 также может формировать часть переключаемого кодека, т.е. основной кодер 10 может переключаться между схемой основного кодирования речеподобного контента и схемой основного кодирования общего аудиоконтента. В частности, основной кодер 10 может переключаться между ACELP и TCX.

Как указано в ветви 20, основной кодер 10 создает первичные кадры 4, которые содержат кодированное представление аудиоконтента 2.

Кодер 1 может дополнительно содержать источник 21 частичных избыточных кадров. Как указано в ветви 30, основной кодер 10 может передавать один или более параметров 6 в источник 21 частичных избыточных кадров. Эти параметры 6 являются параметрами, которые улучшают маскирование на стороне декодера.

Дополнительно или в качестве альтернативы, кодер 1 может содержать блок 22 извлечения параметров маскирования. Блок 22 извлечения параметров маскирования извлекает параметры 6 маскирования непосредственно из аудиосигнала, т.е. из контента 2, как указано в ветви 40. Блок 22 извлечения параметров маскирования передает извлеченные параметры 6 в источник 21 частичных избыточных кадров.

Кодер 1 дополнительно содержит блок 23 выбора режима. Блок 23 выбора режима избирательно выбирает режим маскирования, который также именуется режимом частичной избыточной копии. В зависимости от режима частичной избыточной копии, блок 23 выбора режима определяет, какие параметры 6 пригодны для маскирования ошибки на стороне декодера.

Таким образом, основной кодер 10 анализирует сигнал, т.е. аудиоконтент 2, и определяет, на основании проанализированных характеристик сигнала, определенные параметры 24, которые поступают на блок 23 выбора режима. Эти параметры 24 также именуются параметрами 24 выбора режима. Например, параметры выбора режима могут представлять собой по меньшей мере один из класса кадров, режима двух последних кадров, основного тона LTP и коэффициента усиления LTP. Основной кодер 10 передает эти параметры 24 выбора режима блоку 23 выбора режима.

На основании параметров 24 выбора режима, блок 23 выбора режима выбирает режим частичной избыточной копии. Блок 23 выбора режима может избирательно выбирать среди трех разных режимов частичной избыточной копии. В частности, блок 23 выбора режима может избирательно выбирать между режимом частичной избыточной копии в частотной области и двумя разными режимами частичной избыточной копии во временной области, например TD1 и TD2, как описано выше.

Как указано в ветви 50, информация 25 выбора режима, т.е. информация, касающаяся выбранного режима частичной избыточной копии, сообщается в источник 21 частичных избыточных кадров. На основании информации 25 выбора режима, источник 21 частичных избыточных кадров избирательно выбирает параметры 6, которые будет использоваться на стороне декодера для маскирования ошибки. Таким образом, источник 21 частичных избыточных кадров создает и обеспечивает частичные избыточные кадры 8, которые содержат кодированное представление упомянутых параметров 6 маскирования ошибки.

Другими словами, источник 21 частичных избыточных кадров обеспечивает зависящие от сигнала частичные избыточные копии. Эти частичные избыточные копии обеспечиваются в частичных избыточных кадрах 8, причем каждый частичный избыточный кадр 8 содержит по меньшей мере один параметр 6 маскирования ошибки.

Как указано в ветвях 20 и 60, кодер 1 объединяет первичные кадры 4 и частичные избыточные кадры 8 в выходной битовый поток 5. В случае сети на основе пакетов, первичные кадры 4 и частичные избыточные кадры 8 упаковываются совместно в транспортный пакет, который отправляется в битовом потоке стороне декодера. Однако следует отметить, что первичный кадр 4c текущего кадра аудиоданных упаковывается в пакет 9 совместно с частичным избыточным кадром 8b (содержащим только параметры 6 для улучшения маскирования) предыдущего кадра (т.е. кадром, который уже отправлен до этого).

Битовый поток 5 содержит постоянную полную битовую скорость. Чтобы гарантировать, что битовый поток 5 находится на или ниже постоянной полной битовой скорости, кодер 1 управляет битовой скоростью транспортного пакета, содержащего комбинацию первичного кадра и частичного избыточного кадра 8. Дополнительно или в качестве альтернативы, кодер 1 может содержать регулятор 26 битовой скорости, который берет на себя эти функциональные возможности.

Другими словами, кодер 1 выполнен с возможностью объединения кодированного представления 8 по меньшей мере одного параметра 6 маскирования текущего кадра с первичным кодированным представлением 4 будущего кадра (т.е. кадра, который будет отправлен в более позднее время, чем текущий кадр). Таким образом, кодированное представление 8 по меньшей мере одного параметра 6 маскирования ошибки текущего кадра отправляется с задержкой по времени относительно первичного кодированного представления 4 этого текущего кадра.

Другими словами, и согласно фиг. 4, на первом этапе, контент 2a кодируется и обеспечивается как первичный кадр 4a. Его соответствующие один или более параметров 6a маскирования ошибки выбираются и обеспечиваются как частичный избыточный кадр 8a. Затем, на втором этапе, последующий контент 2b кодируется и обеспечивается как (последующий) первичный кадр 4b, и один или более его параметров 6b маскирования ошибки выбираются и обеспечиваются как (последующий) частичный избыточный кадр 8b. Далее кодер 1 объединяет частичный избыточный кадр 8a (текущего контента) с первичным кадром 4b (последующего контента) в общий транспортный пакет 9b. Соответственно, если предшествующий пакет 9a содержащий первичный кадр 4a, потерян, поврежден или задержан, его частичный избыточный кадр 8a, который отправляется в более позднее время в вышеупомянутом последующем транспортном пакете 9b (содержащим частичный избыточный кадр 8a и первичный кадр 4b), можно использовать на стороне декодера для маскирования аудиоконтента, который первоначально содержался в кодированном представлении в (дефектном) первичном кадре 4a.

Описание декодера

Согласно варианту осуществления, изобретение использует сети с коммутацией пакетов или сети на основе пакетов. В этом случае кадры отправляются в транспортных пакетах 9a, 9b, как показано на фиг. 5. Транспортный пакет 9a содержит первичный кадр 4b и частичную копию 8a. Транспортный пакет 9b содержит первичный кадр 4c и частичную копию 8b.

Другими словами, частичная копия 8a является кодированным представлением по меньшей мере одного параметра 6 маскирования ошибки текущего кадра. По меньшей мере, один параметр 6 маскирования ошибки избирательно выбран кодером 1, как описано выше со ссылкой на фиг. 1-4. По меньшей мере, один параметр 6 маскирования ошибки улучшает маскирование на декодере 31, как будет более подробно описано ниже.

На декодере 31, возможны два разных случая, касающихся передаваемых кадров 4, 8 или транспортных пакетов 9a, 9b, соответственно.

Стандартное декодирование первичных кодированных представлений

В первом случае, указанном ветвью 70, передаваемые транспортные пакеты 9a, 9b принимаются в правильном порядке, т.е. в том же порядке, в каком они были отправлены на стороне кодера.

Декодер 31 содержит блок 34 декодирования для декодирования передаваемого кодированного аудиоконтента 2, содержащегося в кадрах. В частности, блок 34 декодирования выполнен с возможностью декодирования передаваемых первичных кодированных представлений 4b, 4c определенных кадров. В зависимости от схемы кодирования соответствующего кадра, декодер 31 может использовать для декодирования ту же схему, т.е. схему декодирования TCX для общего аудиоконтента или схему декодирования ACELP для речеподобного контента. Таким образом, декодер 31 выводит соответственно декодированный аудиоконтент 35.

Улучшенное маскирование ошибки с использованием кодированных представлений по меньшей мере одного параметра маскирования ошибки

Второй случай может иметь место, если первичное кодированное представление 4 кадра является дефектным, т.е. если первичное кодированное представление 4 потеряно, повреждено или задержано (например, ввиду того, что транспортный пакет 9a потерян, поврежден или задержан более чем на длину буфера декодера), например, как указано ветвью 80. Затем аудиоконтент будет по меньшей мере частично реконструироваться путем маскирования ошибки.

Таким образом, декодер 31 содержит блок 36 маскирования. Блок 36 маскирования может использовать механизм маскирования, который основан на традиционном механизме маскирования, в котором, однако, маскирование улучшается (или поддерживается) одним или более параметрами 6 маскирования ошибки, принятыми от кодера 1. Согласно варианту осуществления изобретения, блок 36 маскирования использует механизм маскирования на основе экстраполяции, например, описанный в заявках на патенты [4] и [5], которые включены в данное описание путём ссылки.

Упомянутый механизм маскирования ошибки на основе экстраполяции используется для реконструкции аудиоконтента, который был доступен в первичном кодированном представлении 4 кадра, в случае, когда это первичное кодированное представление 4 является дефектным, т.е. потерянным, поврежденным или задержанным. Принцип изобретения использует по меньшей мере один параметр 6 маскирования ошибки для улучшения этих традиционных механизмов маскирования ошибки.

Это будет объяснено более подробно со ссылкой на вариант осуществления, показанный на фиг. 5. Декодер 31 обычно принимает транспортный пакет 9a и транспортный пакет 9b. Транспортный пакет 9a содержит первичное кодированное представление 4b текущего кадра и кодированное представление 8a по меньшей мере одного параметра 6 маскирования ошибки предшествующего кадра (не показан). Транспортный пакет 9b содержит кодированное представление 8b по меньшей мере одного параметра 6 маскирования ошибки текущего кадра для улучшения маскирования ошибки на основе экстраполяции на стороне декодера текущего кадра. Транспортный пакет 9b дополнительно содержит первичное кодированное представление 4c последующего кадра, т.е. кадра, следующего (непосредственно или через один или более кадров) за текущим кадром.

Другими словами, кодированное представление 8b по меньшей мере одного параметра 6 маскирования ошибки для реконструкции дефектного аудиоконтента текущего кадра содержится в транспортном пакете 9b, тогда как первичное кодированное представление 4b этого текущего кадра содержится в транспортном пакете 9a.

Если декодер 31 обнаруживает, например, что первичное кодированное представление 4b текущего кадра является дефектным, т.е. потерянным, поврежденным или задержанным, дефектный аудиоконтент реконструируется с использованием вышеупомянутого доступного механизма маскирования ошибки. Согласно настоящему изобретению, доступный механизм маскирования ошибки улучшается с использованием по меньшей мере одного параметра 6 маскирования ошибки в ходе маскирования ошибки.

По этой причине, декодер 31 извлекает по меньшей мере один параметр 6 маскирования ошибки из кодированного представления 8b, содержащегося в транспортном пакете 9b. На основании по меньшей мере одного извлеченного параметра 6, декодер 31 избирательно выбирает среди по меньшей мере двух режимов маскирования для по меньшей мере частичной реконструкции дефектного аудиоконтента (в смысле обеспечения замаскированного аудиоконтента, который предполагается в какой-то степени аналогичным аудиоконтенту потерянного первичного кодированного представления). В частности, декодер 31 может выбирать между режимом маскирования в частотной области и по меньшей мере один режим маскирования во временной области.

Тип маскирования в частотной области (RF_TCXFD) частичного избыточного кадра

В случае режима маскирования в частотной области, кодированное представление 8b по меньшей мере одного параметра 6 маскирования ошибки содержит один или более из параметра ISF/LSF, глобального коэффициента усиления TCX, глобального уровня TCX, информации классификатора сигналов, информации окна наподобие длины перекрытия и позиции спектральных пиков для помощи в тональном маскировании.

Соответствующий извлеченный один или более параметров 6 поступают на блок 36 маскирования ошибки, который использует по меньшей мере один параметр 6 для улучшения маскирования ошибки на основе экстраполяции, чтобы по меньшей мере частично реконструировать дефектный аудиоконтент. В результате, декодер 31 выводит замаскированный аудиоконтент 35.

Ниже описан вариант осуществления настоящего изобретения, который использует пример маскирования в частотной области, в котором

Для режима частичной копии RF_TCXFD используются 29 битов (т.е. 29 битов включены в кодированное представление параметров 6 маскирования ошибки и используются блоком 36 маскирования).

- 13 битов используются для квантователя LSF такого же, как используется для обычного низкоскоростного кодирования TCX.

- глобальный коэффициент усиления TCX квантуется с использованием 7 битов.

- информация классификатора кодируется в 2 битах.

Тип маскирования во временной области (RF_TCXTD1 и RF_TCXTD2) частичного избыточного кадра

В случае режима маскирования во временной области, декодер 31 может избирательно выбирать среди по меньшей мере двух разных режимов маскирования во временной области, чтобы по меньшей мере частично реконструировать дефектный аудиоконтент.

Например, первый режим RF_TCXTD1 выбирается, если кадр содержит переход, или если глобальный коэффициент усиления кадра гораздо ниже, чем глобальный коэффициент усиления предыдущего кадра. В противном случае выбирается второй режим RF_TCXTD2.

В случае режима маскирования во временной области, кодированное представление 8b по меньшей мере одного параметра 6 маскирования ошибки содержит одно или более из параметра LSF, отставания LTP TCX, информации классификатора, параметров LPC, коэффициента усиления LTP, уровня шума и позиции импульса. Соответствующий извлеченный один или более параметров 6 поступают на блок 36 маскирования ошибки, который использует по меньшей мере один параметр 6 для улучшения маскирования ошибки на основе экстраполяции, чтобы по меньшей мере частично реконструировать (или аппроксимировать) дефектный аудиоконтент. В результате, декодер 31 выводит замаскированный аудиоконтент 35.

Ниже описан вариант осуществления настоящего изобретения, который использует пример маскирования во временной области, в котором

для обоих режимов используется всего 18 битов побочных данных (т.е. параметров 6).

- 9 битов используются для сигнализации отставания LTP TCX

- 2 бита для сигнализации информации классификатора

Декодер 31 может входить в состав кодека, использующего схему декодирования TCX для декодирования и/или маскирования кадров TCX, как описано выше. Декодер 31 также может быть частью кодека, использующего схему кодирования ACELP для декодирования и/или маскирования кадров ACELP. В случае схемы кодирования ACELP, кодированное представление 8b по меньшей мере одного параметра 6 маскирования ошибки может содержать один или более из параметров адаптивной кодовой книги и параметров фиксированной кодовой книги.

Согласно изобретению, на декодере 31 идентифицируется тип кодированного представления по меньшей мере одного параметра 6 маскирования ошибки текущего кадра 4b, и декодирование и маскирование ошибки осуществляется на основании того, кодируются ли только один или более параметров адаптивной кодовой книги (например, ACELP), только один или более параметров фиксированной кодовой книги (например, ACELP), или один или более параметров адаптивной кодовой книги и один или более параметров фиксированной кодовой книги, параметры 6 маскирования ошибки TCX, или параметры линейного прогнозирования с шумовым возбуждением. Если текущий кадр 4b или предыдущий кадр 4a замаскирован с использованием кодированного представления по меньшей мере одного параметра 6 маскирования ошибки соответствующего кадра по меньшей мере один параметр 6 маскирования ошибки текущего кадра 4b, например, параметры LSP, коэффициент усиления адаптивной кодовой книги, фиксированной кодовой книги или коэффициент усиления BWE, сначала получается и затем обрабатывается совместно с параметрами декодирования, информацией классификации или наклоном спектра из кадров, предшествующих текущему кадру 4b, или из кадров, следующих за текущим кадром 4b, для реконструкции выходного сигнала 35, как описано выше. Наконец, кадр реконструируется на основании схемы маскированию (например, маскирования во временной области или маскирования в частотной области). Частичная информация TCX декодируется, но, в отличие от режима частичной копии ACELP, декодер 31 действует в режиме маскирования. Отличие от вышеописанного традиционного маскирования на основе экстраполяции состоит в том, что по меньшей мере один параметр 6 маскирования ошибки, доступный из битового потока 5, непосредственно используется и не получен упомянутым традиционным маскированием.

Первый вариант осуществления EVS

В нижеследующем описании обеспечено краткое описание принципа изобретения в отношении синергичного взаимодействия между кодером 1 и декодером 31 с использованием так называемого кодека EVS (улучшенных голосовых услуг).

Введение в вариант осуществления EVS

EVS (улучшенные голосовые услуги) предлагает устойчивый к ошибкам режим осведомленности о канале на основе частичной избыточности на 13,2 кбит/с для широкополосного и сверхширокополосного аудиосигнала. В зависимости от критичности кадра, частичная избыточность динамически включается или отключается для конкретного кадра, при поддержании фиксированного битового бюджета 13,2 кбит/с.

Принципы кодирования с учётом информации о канале

В системе VoIP, пакеты поступают на декодер со случайными флуктуациями их времени прихода. Пакеты также могут поступать на декодер с нарушением порядка. Поскольку декодер ожидает получения речевого пакета каждые 20 мс для вывода речевых выборок в периодических блоках, требуется, чтобы противоджиттерный буфер [6] поглощал джиттер по времени прихода пакета. Чем больше размер противоджиттерного буфера, тем выше его способность поглощать джиттер по времени прихода и, следовательно, тем меньше отбрасывается пакетов, приходящих с опозданием. Голосовая связь также является системой, чувствительной к задержке, что обуславливает важность поддержания как можно более низкой сквозной задержки для обеспечения устойчивой двусторонней голосовой связи.

Конструкция адаптивного противоджиттерного буфера отражает вышеупомянутые компромиссы. Пытаясь минимизировать потери пакетов, алгоритм управления буфером компенсации джиттера на декодере также отслеживает задержку доставки пакетов в результате буферизации. Алгоритм управления буфером компенсации джиттера надлежащим образом регулирует глубину противоджиттерного буфера для достижения компромисса между задержкой и потерями вследствие опоздания.

Согласно фиг. 6, режим осведомленности о канале EVS использует частичные избыточные копии 8a текущих кадров 4a совместно с будущим кадром 4b для маскирования ошибки. Технология частичной избыточности передает частичные копии 8a текущего кадра 4a совместно с будущим кадром 4b в расчете на то, что в случае потери текущего кадра 4a (либо вследствие потери в сети, либо вследствие прихода с опозданием), частичная копия 8a из будущего кадра 4b можно будет извлечь из буфера компенсации джиттера для улучшения восстановления после потери.

Разница по времени между моментом передачи первичной копии 4a кадра и моментом передачи избыточной копии 8a кадра (прицепленной к будущему кадру 4b) называется смещением FEC. Если глубина буфера компенсации джиттера в любой данный момент времени по меньшей мере равна смещению FEC, то весьма вероятно, что будущий кадр доступен в противоджиттерном буфере в текущий момент времени. смещение FEC является конфигурируемым параметром на кодере, который может динамически регулироваться в зависимости от условий сети.

Принцип частичной избыточности в EVS со смещением FEC, равным [7], показан на фиг. 6.

Избыточная копия 8a являлся только частичной копией, которая включает в себя лишь поднабор параметров, наиболее критичных для декодирования или воспрепятствования распространению ошибки.

Режим осведомленности о канале EVS предусматривает передачу избыточности в полосе как часть полезной нагрузки кодека вместо передачи избыточности на транспортном уровне (например, путем включения множества пакетов в единую полезную нагрузку RTP). Благодаря включению избыточности в полосе передача избыточности становится либо управляемой каналом (например, для предотвращения перегрузки сети), либо управляемой источником. В последнем случае, кодер может использовать свойства входного сигнала источника для определения, какие кадры наиболее критичны для реконструкции с высоким качеством на декодере и избирательно передавать избыточность только для этих кадров. Другое преимущество избыточности в полосе состоит в том, что управление источником можно использовать для определения, какие кадры входного сигнала лучше всего кодировать на сниженной скорости передачи кадров для приспособления присоединения избыточности без изменения полного размера пакета. Таким образом, режим осведомленности о канале предусматривает включение избыточности в канал постоянной битовой скорости (13,2 кбит/с).

Выделение битовой скорости для кодирования первичного и частичного избыточного кадра

Снижение битовой скорости первичного кадра

Мера сжимаемости первичного кадра используется для определения, какие кадры лучше всего кодировать на сниженной скорости передачи кадров. Для кадра TCX настройка 9,6 кбит/с применяется для WB, а также для SWB. Для ACELP применяют следующее. Сначала проверяется решение по режиму кодирования, принимаемое согласно алгоритму классификация сигналов. Речевые кадры, классифицированные для невокализованного кодирования (UC) или вокализованного кодирования (VC), пригодны для сжатия. Для режима универсального кодирования (GC), для определения сжимаемости используется корреляция (при отставании основного тона) между соседний подкадрами в кадре. Кодирование первичного кадра сигнала верхней полосы (т.е. от 6,4 до 14,4 кГц в SWB и от 6,4 до 8 кГц в WB) в режиме осведомленности о канале использует расширение полосы во временной области (TBE). Для TBE в режиме осведомленности о канале SWB, пониженная версия структуры режима неосведомленности о канале используется для получения сокращенного числа битов, используемых для первичного кадра. Квантование LSF осуществляется с использованием 8-битового векторного квантования в режиме осведомленности о канале, тогда как подход на основе 21-битового скалярного квантования используется в режиме неосведомленности о канале. Параметры коэффициента усиления первичного кадра TBE SWB в режиме осведомленности о канале кодируются аналогично режиму неосведомленности о канале на 13,2 кбит/с, т.е. 8 битов для параметров коэффициента усиления. TBE в режиме осведомленности о канале WB использует кодирование, аналогичное используемому в режиме неосведомленности о канале TBE WB 9,6 кбит/с, т.е. 2 бита для LSF и 4 бита для параметров коэффициента усиления.

Кодирование частичного избыточного кадра

Размер частичного избыточного кадра является переменным и зависит от характеристик входного сигнал. Мера критичности также является важной метрикой. Кадр считается критичным для защиты, когда потеря кадра оказывает значительное негативное влияние на качество речи на приемнике. Критичность также зависит от того, были ли потеряны предыдущие кадры. Например, кадр может превращаться из некритичного в критичный, если предыдущие кадры также были потеряны. Параметры, вычисленные из первичной копии, кодирующие, например, информацию классификации типов кодера, отставание основного тона подкадра, коэффициент M и т.д., используются для измерения критичности кадра. Порог для определения, критичен ли конкретный кадр, является конфигурируемым параметром на кодере, который может динамически регулироваться в зависимости от условий сети. Например, в условиях высокого FER может быть желательным регулировать порог для классификации большего числа кадров как критичных. Кодирование частичных кадров сигнала верхней полосы опирается на грубое кодирование параметров коэффициента усиления и интерполяцию/экстраполяцию параметров LSF из первичного кадра. Параметры коэффициента усиления TBE, оцененные в ходе кодирования первичного кадра, кадр с номером (n - смещение FEC) повторно передается в течение n-го кадра как информация частичной копии. В зависимости от режима кодирования частичного кадра, т.е. универсального или вокализованного или невокализованного, для повторной передачи коэффициента усиления кадра, использует разные разрешение квантования и сглаживание коэффициента усиления.

В следующих раздела описаны различные типы частичных избыточных кадров и их состав.

Построение частичного избыточного кадра для режимов универсального и вокализованного кодирования

При кодировании избыточной версии кадра, коэффициент M определяется на основании энергии адаптивной и фиксированной кодовой книги.

В этом уравнении, E(ACB) обозначает энергию адаптивной кодовой книги, и E(FCB) обозначает энергию фиксированной кодовой книги. Низкое значение M указывает, что информация в текущем кадре переносится в основном с участием фиксированной кодовой книги. В подобных случаях, частичная избыточная копия (RF_NOPRED) строится с использованием только одного или более параметров фиксированной кодовой книги (импульсов и коэффициента усиления FCB). Высокое значение M указывает, что информация в текущем кадре переносится в основном с участием адаптивной кодовой книги. В подобных случаях, частичная избыточная копия (RF_ALLPRED) строится с использованием только одного или более параметров адаптивной кодовой книги (отставания и коэффициента усиления основного тона). Если M принимает промежуточные значения, то выбирается смешанный режим кодирования, в котором кодируются один или более параметров адаптивной кодовой книги и один или более параметров фиксированной кодовой книги (RF_GENPRED). В режимах универсального и вокализованного кодирования, значения коэффициента усиления TBE кадра обычно низки и демонстрируют меньшую изменчивость. Поэтому используется грубое квантование коэффициента усиления TBE кадра со сглаживанием коэффициента усиления.

Построение частичного избыточного кадра для невокализованного режима кодирования

Для построения частичной избыточной копии кадра невокализованного типа (RF_NELP) используется схема кодирования на основе линейного прогнозирования с шумовым возбуждением на низкой битовой скорости. В невокализованном режиме кодирования, коэффициент усиления TBE кадра имеет более широкий динамический диапазон. Для сохранения этого динамического диапазона, при квантовании коэффициента усиления TBE кадра в невокализованном режиме кодирования используется диапазон квантования, аналогичный используемому в первичном кадре.

Построение частичного избыточного кадра для кадра TCX

В случае частичного избыточного кадра типа TCX, частичная копия, состоящая из некоторых вспомогательных параметров используется для улучшения алгоритма маскирования потери кадра. Возможны три разных режима частичной копии, а именно, RF_TCXFD, RF_TCXTD1 и RF_TCX_TD2. Аналогично решению режима PLC на стороне декодера, выбор режима частичной копии для TCX основан на различных параметрах, например, режиме двух последних кадров, классе кадров, основном тоне LTP и коэффициенте усиления.

Тип маскирования в частотной области (RF_TCXFD) частичного избыточного кадра

Для режима частичной копии RF_TCXFD используются 29 битов.

- 13 битов используются для квантователя LSF такого же, как используется для обычного низкоскоростного кодирования TCX.

- глобальный коэффициент усиления TCX квантуется с использованием 7 битов.

- информация классификатора кодируется в 2 битах.

Тип маскирования во временной области (RF_TCXTD1 и RF_TCXTD2) частичного избыточного кадра

Режим частичной копии RF_TCXTD1 выбирается, если кадр содержит переход, или если глобальный коэффициент усиления кадра гораздо ниже, чем глобальный коэффициент усиления предыдущего кадра. В противном случае RF_TCXTD2 выбирается.

Для обоих режимов используется всего 18 битов побочных данных.

- 9 битов используются для сигнализации отставания LTP TCX

- 2 бита используются для сигнализации информации классификатора

Тип частичного избыточного кадра RF_NO_DATA

Используется для сигнализации конфигурации, в которой частичная избыточная копия не отправляется, и все биты используются для кодирования первичного кадра.

Снижение битовой скорости первичного кадра и механизмы кодирования частичного избыточного кадра совместно определяют выделение битовой скорости между первичными и избыточными кадрами для включения в полезную нагрузку 13,2 кбит/с.

Декодирование

На приемнике, противоджиттерный буфер обеспечивает частичную избыточную копию текущего потерянного кадра при наличии в любом из будущих кадров. При наличии, частичная избыточная информация используется для синтеза потерянного кадра. При декодировании, тип частичного избыточного кадра идентифицируется, и декодирование осуществляется на основании того, кодируются ли только один или более параметров адаптивной кодовой книги, только один или более параметров фиксированной кодовой книги, или один или более параметров адаптивной кодовой книги и один или более параметров фиксированной кодовой книги, вспомогательные параметры маскирования потери кадра TCX, или параметры линейного прогнозирования с шумовым возбуждением. Если текущий кадр или предыдущий кадр является частичным избыточным кадром, параметр декодирования текущего кадра, например, параметры LSP, коэффициент усиления адаптивной кодовой книги, фиксированной кодовой книги или коэффициент усиления BWE, сначала получается и затем постобрабатывается согласно параметрам декодирования, информации классификации или наклону спектра из кадров, предшествующих текущему кадру, или кадров, следующих за текущим кадром. Постобработанные параметры используются для реконструкции выходного сигнала. Наконец, кадр реконструируется на основании схемы кодирования. Частичная информация TCX декодируется, но, в отличие от режима частичной копии ACELP, декодер действует в режиме маскирования. Отличие от обычного маскирования состоит только в том, что параметры, доступные из битового потока, используются непосредственно и не получаются путем маскирования.

Конфигурируемые параметры кодера, работающего в режиме осведомленности о канале

Кодер, работающий в режиме осведомленности о канале, может использовать следующие конфигурируемые параметры для адаптации своей работы к отслеживанию характеристик канала, воспринимаемых на приемнике. Эти параметры можно вычислять на приемнике и передавать на кодер через инициируемый приемником механизм обратной связи.

Оптимальное смещение частичной избыточности (ο): Разница по времени между моментом передачи первичной копии кадра (n) и моментом передачи избыточной копии кадра, прицепленного к будущему кадру (n+X), называется смещением X FEC. Оптимальное смещение FEC это значение, при котором вероятность наличия частичной избыточной копии в случае потери кадра на приемнике достигает максимума.

Указатель коэффициента удаления кадра (p) принимает следующие значения: LO (низкое) для FER<5% или HI (высокое) для FER>5%. Этот параметр определяет порог, используемый для определения, критичен ли конкретный кадр. Такая регулировка порога критичности используется для управления частотой передачи частичной копии. Настройка HI регулирует порог критичности для классификации большего числа кадров как критичных для передачи по сравнению с настройкой LO.

Заметим, что эти конфигурируемые параметры кодера являются факультативными и по умолчанию заданы равными p=HI и ο=3.

Второй вариант осуществления EVS

Ниже описан иллюстративный вариант осуществления принципа изобретения, который используется в сетях с коммутацией пакетов, например Voice-over-IP (VoIP), Voice-over-LTE (VoLTE) или Voice-over-WiFi (VoWiFi).

Опишем режим с высокой устойчивостью к ошибкам недавно стандартизованного речевого кодека EVS 3GPP. По сравнению с кодеком AMR-WB и другими речевыми кодеками, режим осведомленности о канале EVS предлагает значительно повышенную устойчивость к ошибкам в голосовой связи по сетям с коммутацией пакетов, например, Voice-over-IP (VoIP) и Voice-over-LTE (VoLTE). Устойчивость к ошибкам достигается с использованием разновидности прямого исправления ошибок в полосе. Методы кодирования, управляемого источником, используются для идентификации речевых кадров, пригодных для снижения битовой скорости, с оставлением резервных битов для передачи частичных копий предшествующих кадров таким образом, что поддерживается постоянная битовая скорость. Отдельные частичные копии используются для повышения устойчивости к ошибкам в случае, когда исходный первичный кадр потерян или отброшен вследствие прихода с опозданием. Результаты субъективного оценивания обеспечиваются из испытаний на оценку качества передачи речи (MOS) ITU-T P.800, демонстрирующих повышенное качество при плохих условиях канала, а также незначительное негативное влияние на производительность чистого канала.

Введение

В сетях с коммутацией пакетов пакеты могут находиться в изменяющихся условиях планирования и маршрутизации, что приводит к изменяющейся со временем сквозной задержке. Джиттеру по задержке подвержено большинство традиционных речевых декодеров и алгоритмов постобработки голоса, которые обычно ожидают приема пакетов с фиксированными интервалами времени. Следовательно, противоджиттерный буфер (также именуемый управлением буфером компенсации джиттера (JBM) [8], [13]) обычно используется на принимающем терминале для устранения джиттера и доставки пакетов на декодер в правильном последовательном порядке.

Чем длиннее противоджиттерный буфер, тем выше его способность к устранению джиттера и тем выше вероятность того, что джиттер можно будет терпеть, не отбрасывая пакеты вследствие их прихода с опозданием (или незаполнения буфера). Однако сквозная задержка является ключевым фактором качества вызова в сетях речевой связи, и способность JBM поглощать джиттер, не добавляя чрезмерную задержку буферизации, является важным требованием. Таким образом, возможен компромисс между задержкой JBM и потерей пакетов на приемнике, вызванной джиттером. Развитие конструкций JBM позволило повысить уровни производительности при поддержании минимальной средней задержки [8]. Помимо джиттера по задержке, другой первичной характеристикой сетей с коммутацией пакетов является наличие множества последовательных потерь пакетов (спорадическое возникновение ошибок), которые встречаются чаще, чем в сетях с коммутацией каналов. Такое спорадическое возникновение ошибок может иметь место вследствие группирования пакетов на разных сетевых уровнях, поведения средства планирования, плохого радиочастотного покрытия или даже медленной адаптации JBM. Однако противоджиттерный буфер - важный компонент для VoIP - может применяться для улучшения предотвращения незаполнения и более сложного маскирования потери пакетов [8]. Один такой метод предусматривает использование прямого исправления ошибок путем передачи кодированной информации с избыточностью для использования в случае потери исходной информации на приемнике.

Режим учёта информации о канале в кодеке EVS

Режим учёта информации о канале EVS предусматривает новый метод передачи избыточности в полосе как части полезной нагрузки кодека в потоке постоянной битовой скорости, и реализован для широкой полосы (WB) и сверхширокой полосы (SWB) на 13,2 кбит/с. Этот метод отличается от предшествующих кодеков, для которых избыточность обычно добавляется как запоздалая мысль путем задания механизмов для передачи избыточности на транспортном уровне. Например, формат полезной нагрузки RTP AMR-WB позволяет группировать множество речевых кадров для включения избыточности в единую полезную нагрузку RTP [9]. В качестве альтернативы, пакеты RTP, содержащие единичные речевые кадры, можно просто повторно передавать в более позднее время.

Фиг. 7 демонстрирует принцип частичной избыточности в режиме осведомленности о канале EVS. Идея состоит в том, чтобы кодировать и передавать частичную избыточную копию 8a, связанную с N-ым кадром, совместно с первичным кодированием 4b (N+K)-го кадра. Параметр смещения, K, который определяет разнесение между первичными 4 и частичными кадрами 8, также передается совместно с частичной копией 8. В сети с коммутацией пакетов при потере пакета N-го кадра 4a, противоджиттерный буфер 71 проверяется на наличие будущих пакетов. При наличии, передаваемый параметр смещения используется для идентификации надлежащего будущего пакета для извлечения частичной копии и синтеза потерянного кадра. В порядке примера, на фиг. 7 используется смещение 3 для показа процесса. Параметр смещения может иметь фиксированное значение или может конфигурироваться на кодере на основании условий сети. Включение избыточности в полосе в режиме осведомленности о канале EVS позволяет передавать избыточность либо под управлением канала (например, для предотвращения перегрузки сети), либо под управлением источника. В последнем случае, кодер может использовать свойства входного сигнала источника для определения кадров, которые наиболее критичны для реконструкции с высоким качеством, и избирательно передавать избыточность только для этих кадров. Кроме того, кодер также может идентифицировать кадры, которые лучше всего кодировать на сниженной битовой скорости для приспособления присоединения избыточности, поддерживая битовый поток на постоянной скорости 13,2 кбит/с. Эти новые методы значительно повышают производительность при ухудшенных условиях канала при поддержании качества чистого канала.

Кодирование с учётом информации о канале

Фиг. 8 демонстрирует высокоуровневое описание кодера 1, осведомленного о канале. Входной аудиосигнал 2, дискретизированный на частоте 16 кГц (WB) или 32 кГц (SWB), сегментируется на кадры длительностью 20 мс. Каскад 81 «предобработки» используется для передискретизации входного кадра до 12,8 кГц и осуществления таких этапов, как обнаружение речевой активности (VAD) и классификации сигналов [16]. На основании определенных параметров анализа (например, нормализованной корреляции, VAD, типа кадра и отставания основного тона), модуль 82 «конфигурации избыточного кадра (RF)» определяет:

1. сжимаемость текущего кадра 4b, т.е. допускает ли текущий кадр 4b снижение битовой скорости, с минимальным негативным влиянием на восприятие, для обеспечения включения частичной копии 8a, связанной с предыдущим кадром 4a, и

2. классификацию типа RF кадра, которая определяет количество битов, необходимое для верной реконструкции текущего кадра 4b посредством частичной копии 8b, которая передается в будущем кадре 4c. Согласно фиг. 8, частичная копия 8b передается совместно с будущей первичной копией 4c при смещении маскирования удаления кадра (FEC) в 2 кадра.

Сильно вокализованные и невокализованные кадры пригодны для переноса частичных копий предыдущего кадра с незначительным негативным влиянием на восприятие качества первичного кадра. Если текущему кадру разрешено нести частичную копию, это сигнализируется путем установления RfFlag в битовом потоке равным 1, или 0 в противном случае. Если RfFlag задан равным 1, то количество битов, Bprimary, доступных для кодирования текущего первичного кадра, определяется путем компенсации количества битов, BRF, уже использованных сопутствующей частичной копией, т.е. Bprimary=264-BRF при постоянной полной битовой скорости 13,2 кбит/с. Количество битов, BRF, может составлять от 5 до 72 битов в зависимости от критичности кадра и типа RF кадра (раздел 3.2).

Кодирование первичного кадра

Модуль 83 «кодирования первичного кадра», показанный на фиг. 8, использует технологию кодирования ACELP [21], [23] для кодирования низкополосной основы до 6,4 кГц, тогда как верхняя полоса, которая простирается от 6,4 кГц и вплоть до частоты Найквиста, кодируется с использованием технологии расширения полосы во временной области (TBE) [17]. Верхняя полоса параметризуется в LSP и параметры коэффициента усиления для захвата как временной эволюции для каждого подкадра, так и по всему кадру [17]. Модуль 83 «кодирования первичного кадра» также использует технологии кодирования с возбуждением, кодированным преобразованием (TCX) на основе MDCT и интеллектуальным заполнением промежутка (IGF) [11], [18] для более эффективного кодирования кадров фонового шума и смешанного/музыкального контента. Классификатор открытого цикла на основе SNR [22] используется для принятия решения, выбрать ли технологию ACELP/TBE или технологию TCX/IGF для кодирования первичного кадра.

Dietz et al. [16] дают обзор различных усовершенствований до первичных режимов EVS, которые дополнительно повышают эффективность кодирования технологии ACELP по сравнению с эффективностью кодирования AMR-WB 3GPP [21]. Режим осведомленности о канале EVS применяет эти основные усовершенствования ACELP и TCX для кодирования первичного кадра. Дополнительно, поскольку частичная копия использует разное количество битов для разных кадров, кодирование первичного кадра также необходимо, соответственно, приспосабливаться к адаптивному выделению битов.

Кодирование избыточного кадра

Модуль 84 «кодирования избыточного кадра (RF)» осуществляет компактное перекодирование только тех параметров, которые критичны для защиты. Набор критичных параметров идентифицируется на основании характеристик сигнала кадра и перекодируется на гораздо более низкой битовой скорости (например, менее 3,6 кбит/с). Модуль 85 «средства упаковки битов» размещает битовый поток 86 первичного кадра и частичную копия 87 совместно с определенными параметрами RF, например, типом RF кадра и смещением FEC (см. Таблицу I) в фиксированных положениях в битовом потоке.

Таблица I

Выделение битов для кодирования с учётом информации о канале на 13,2 кбит/с

Основной кодер ACELP TCX-IGF
Полоса WB SWB
Информация сигнализации
(полоса, тип кодера, RfFlag)
первичный кадр основа 181-248 169-236 232-254
TBE 6 18
частичный кадр основа 0-62 0-62 0-22
TBE 0-5 0-5
смещение FEC 2
тип RF кадра 3

Кадр считается критичным для защиты, когда потеря этого кадра оказывает значительное негативное влияние на качество речи на приемнике. Порог для определения, критичен ли конкретный кадр, является конфигурируемым параметром на кодере, который может динамически регулироваться в зависимости от условий сети. Например, в условиях высокого FER может быть желательным регулировать порог для классификации большего числа кадров как критичных. Критичность также может зависеть от способности к быстрому восстановлению после потери предыдущего кадра. Например, если текущий кадр сильно зависит от синтеза предыдущего кадра, то текущий кадр можно переклассифицировать из некритичного в критичный, чтобы препятствовать распространению ошибки в случае потери предыдущего кадра на декодере.

a) Кодирование частичных кадров ACELP

Для кадров ACELP, кодирование частичной копии использует один из четырех типов RF кадра, RF_NOPRED, RF_ALLPRED, RF_GENPRED и RF_NELP в зависимости от характеристик сигнала кадра. Параметры, вычисленные из кодирования первичного кадра, например, тип кадра, отставание основного тона и коэффициент τ используются для определения типа RF кадра и критичности, где

EACB обозначает энергию адаптивной кодовой книги (ACB), и EFCB обозначает энергию фиксированной кодовой книги (FCB). Низкое значение τ (например, 0,15 и ниже) указывает, что информация в текущем кадре переносится в основном с участием FCB. В подобных случаях, кодирование частичной копии RF_NOPRED использует только один или более параметров FCB (например, импульсов и коэффициента усиления FCB). С другой стороны, высокое значение τ (например, 0,35 и выше) указывает, что информация в текущем кадре переносится в основном с участием ACB. В подобных случаях, кодирование частичной копии RF_ALLPRED использует только один или более параметров ACB (например, отставания и коэффициента усиления основного тона). Если τ находится в диапазоне [0,15, 0,35], то смешанный режим кодирования RF_GENPRED использует для кодирования частичной копии параметры как ACB, так и FCB. В случае невокализованных кадров, для кодирования частичной копии RF_NELP используется линейное прогнозирование с шумовым возбуждением (NELP) на низкой битовой скорости [16]. Кодирование частичной копии в верхней полосе опирается на грубое кодирование параметров коэффициента усиления и экстраполяцию параметров LSF из предыдущего кадра [11].

b) Кодирование частичных кадров TCX

Для получения полезной частичной копии TCX, приходится тратить много битов для кодирования спектральных данных MDCT, что значительно сокращает доступное количество битов для первичного кадра и, таким образом, снижает качество чистого канала. По этой причине, количество битов для первичных кадров TCX поддерживается максимально возможным, в то время как частичная копия несет набор параметров управления, обеспечивающих высоконаправленное маскирование TCX.

Кодирование частичной копии TCX использует один из трех типов RF кадра, RF_TCXFD, RF_TCXTD1 и RF_TCXTD2. В то время как RF_TCXFD несет параметры управления для улучшения маскирования в частотной области, RF_TCXTD1 и RF_TCXTD2 используются при маскировании во временной области [20]. Выбор типа RF кадра TCX основан на характеристиках сигнала текущего и предыдущего кадра, включающих в себя стабильность основного тона, коэффициент усиления LTP и временной тренд сигнала. Определенные критичные параметры, например, классификация сигналов, LSP, коэффициент усиления TCX и отставание основного тона, кодируются в частичной копии TCX.

В кадрах фонового шума или в неактивных речевых кадрах, ненаправленного маскирования удаления кадра достаточно для минимизации перцептивных артефактов, обусловленных потерянными кадрам. В кадрах фонового шума сигнализируется RF_NO_DATA, указывающий отсутствие частичной копии в битовом потоке. Кроме того, первый кадр TCX после переключения от кадра ACELP, также использует RF_NO_DATA вследствие недостатка данных экстраполяции в таком сценарии переключения типа кодирования.

Декодирование с учётом информации о канале

Фиг. 9 представляет высокоуровневое описание декодера 31, осведомленного о канале. На приемнике 90, если текущий кадр 91 не потерян, JBM 95 обеспечивает пакет для «декодирования первичного кадра» 96 и игнорирует любую информацию RF (избыточного кадра), присутствующую в пакете. В случае потери текущего кадра и наличия будущего кадра 94 в противоджиттерном буфере, JBM 95 обеспечивает пакет для «декодирования частичного кадра» 97. Если будущего кадра 93 нет в противоджиттерном буфере, то осуществляется ненаправленное маскирование удаления [20].

Взаимодействие с JBM

Как описано ранее, если N-й кадр недоступен (потерян или задержан) во время воспроизведения, JBM проверяется на наличие будущего (N+K)-го кадра, который содержит частичную избыточность текущего кадра, где K ∈ {2, 3, 5, 7}. Частичная копия кадра обычно поступает после первичного кадра. Механизмы адаптации к задержке JBM используются для повышения вероятности наличия частичных копий в будущих кадрах, в особенности, для более высоких смещений FEC 5 и 7. JBM EVS согласуется с требованиями джиттера по задержке, заданными в 3GPP TS 26.114 [10] для всех режимов EVS, в том числе, режима осведомленности о канале.

Помимо вышеописанных функциональных возможностей, JBM EVS [13] вычисляет коэффициент ошибок канала и оптимальное смещение FEC, K, которое максимизирует доступность частичной избыточной копии на основании статистики канала. Вычисленные оптимальное смещение FEC и коэффициент ошибок канала могут передаваться обратно на кодер посредством механизма обратной связи приемника (например, посредством запроса режима кодека (CMR) [9]) для адаптации смещения FEC и скорости, с которыми передается частичная избыточность, для улучшения восприятия конечным пользователем.

Декодирование частичного кадра ACELP и TCX

Модуль 98 «анализа битового потока» на фиг. 9 извлекает информацию типа RF кадра и передает информацию частичной копии на модуль 97 «декодирования частичного кадра». В зависимости от типа RF кадра, если текущий кадр соответствует частичной копии ACELP, то параметры RF (например, LSP, коэффициенты усиления ACB и/или FCB и коэффициент усиления верхней полосы) декодируются для синтеза ACELP. Синтез частичной копии ACELP проходит примерно такие же этапы, как декодирование первичного кадра 96 за исключением того, что недостающие параметры (например, определенные коэффициенты усиления и отставания основного тона передаются только в чередующихся подкадрах), экстраполируются.

Кроме того, если предыдущий кадр использовал для синтеза частичную копию, то в текущем кадре осуществляется постобработка для более плавной временной эволюции LSP и коэффициентов усиления. Управление постобработкой осуществляется на основании типа кадра (например, вокализованного или невокализованного) и наклона спектра, оцененного в предыдущем кадре. Если текущий кадр соответствует частичной копии TCX, то параметры RF используются для осуществления высоконаправленного маскирования.

Субъективные испытания на качество

Обширное тестирование режима осведомленности о канале EVS было проведено посредством субъективных испытаний на оценку качества передачи речи (MOS) ITU-T P.800, проведенных в независимой испытательной лаборатории с 32 наивными слушателями. Испытания проводились для WB и SWB с использованием методологий испытаний на оценку по абсолютным категориям (ACR) и оценку ухудшения категории качества (DCR) [24], соответственно. Поскольку режим осведомленности о канале конкретно предназначен для повышения производительности для сетей VoLTE, оценивание производительности в таких сетях критично для обеспечения возможных преимуществ. Поэтому испытание проводилось с использованием выходных сигналов кодека из имитаций, в которых VoLTE-образные картины задержек и потерь пакетов применялись к принятым пакетам RTP до вставки в противоджиттерный буфер. Четыре из этих картин - или профилей потерь из-за задержки - было выведено из журналов реальных вызовов по времени прихода пакетов RTP, собранных в сетях VoLTE в Южной Корее и США.

Полученные профили сильно напоминают характеристики сети VoLTE в разных условиях канальной ошибки. При получении профилей рассматривались такие характеристики, как джиттер, временная эволюция джиттера и неравномерность ошибок. Эти четыре профиля указаны на фиг. 10 как профили 7, 8, 9 и 10 и соответствуют коэффициентам удаления кадра (FER) на декодере приблизительно 3%, 6%, 8% и 10%, соответственно. Эти же четыре профиля также выбраны в 3GPP для использования этим телом для его собственного характеризационного испытания режима осведомленности о канале EVS при плохих условиях канала.

Помимо профилей VoLTE, все рассматриваемые здесь кодеки тестировались в условиях отсутствия ошибок и также для профиля HSPA, включенного в спецификацию MTSI 3GPP [10] что дает коэффициент удаления кадра на декодере около 6%. Во всех экспериментах, условия EVS использовали эталонный противоджиттерный буфер EVS [13]. Условия AMR-WB, использовали буфер фиксированной задержки для преобразования профилей потерь из-за задержки в профили потери пакетов таким образом, что пакеты, испытывающие задержку сверх фиксированного порога, отбрасываются, как описано в спецификации требований к производительности EVS [14].

Показатели ACR для случая WB представлены на фиг. 10. Для каждого профиля, начиная с безошибочного («чистого») профиля, диаграмма позволяет сравнивать (слева направо) AMR-WB, режим EVS AMR-WB IO, эталон EVS WB и WB осведомленность о канале EVS (ʺRFʺ). Условия AMR-WB и EVS AMR-WB IO использовали более высокую битовую скорость 15,85 кбит/с, тогда как оба условия EVS использовали одну и ту же скорость 13,2 кбит/с. Эти результаты показывают, что режим осведомленности о канале обеспечивает статистически значительное усовершенствование по сравнению с режимом неосведомленности о канале во всех условиях удаления кадра, даже при поддержании эквивалентного качества в условиях отсутствия ошибок. Примечательно, что качество режима осведомленности о канале снижается гораздо медленнее, даже за пределами 10% FER профиля 10. По сравнению с условиями AMR-WB и AMR-WB-IO, преимущество в качестве еще заметнее при этих FER и позволяет восстанавливать разборчивость в периоды высоких потерь, которые могут встречаться при выполнении передачи обслуживания, при плохих условиях радиосвязи, в сценариях края соты, или даже в обычных сетях [8].

Преимущество в производительности режима осведомленности о канале столь же значительно в сверхширокополосном режиме, результаты которого представлены на фиг. 11. Как и в WB, режим осведомленности о канале не снижает производительность в условиях отсутствия ошибок, но имеет статистически значительное преимущество в производительности в каждом из профилей с потерями, при этом степень повышения возрастает с увеличением коэффициента ошибок. Фиг. 11 также демонстрирует существенное усовершенствование режима осведомленности о канале EVS SWB при 13,2 кбит/с по сравнению с AMR-WB-IO при его максимальной скорости 23,85 кбит/с.

Заключение

Режим кодирования с учётом информации о канале нового кодека EVS 3GPP предлагает пользователям и операторам сети режим кодирования с высокой устойчивостью к ошибкам для VoLTE в рабочей точке емкости аналогично наиболее широко используемым битовым скоростям действующих в настоящее время услуг на основе AMR и AMR-WB. Режим позволяет кодеку поддерживать высококачественные голосовые услуги WB и SWB даже при наличии высокого FER, который может иметь место при перегрузке сети, плохом радиочастотном покрытии, передаче обслуживания или на обычных каналах. Даже при постепенном снижении качества при высоких потерях, негативное влияние на качество незначительно в условиях низких потерь или даже в отсутствие потерь. Эта устойчивость к ошибкам, обеспечиваемая режимом осведомленности о канале, дополнительно позволяет ослаблять определенные аспекты системного уровня, например, частоту повторных передач, и снижать задержки средства планирования. Это, в свою очередь, дает потенциальные преимущества, например, увеличение емкости сети, снижение издержек сигнализации и энергосбережение в мобильных телефонах. Поэтому использование режима осведомленности о канале может приносить пользу в большинстве сетей, не оказывая негативного влияния на емкость, чтобы гарантировать высококачественную связь.

В итоге, настоящее изобретение использует тот факт, что кодеру известно качество канала, для повышения качества речевого/аудиосигнала в условиях ошибок. В отличие от кодирования с учётом информации о канале согласно уровню техники, идея состоит в том, чтобы не пользоваться частичной копией, которая является всего лишь версией низкой битовой скорости первичного кодированного кадра, но частичная копия состоят из множества ключевых параметров, что будет существенно улучшать маскирование. Поэтому декодеру необходимо отличать обычный режим маскирования, где все параметры замаскированы, от режима потери кадров, где параметры частичной копии доступны. Особое внимание нужно уделить пакетной потере кадров в случаях, когда маскирование нужно переключать между частичным и полным маскированием.

Хотя настоящее изобретение было описано в отношении некоторых вариантов осуществления, возможны изменения, перестановки и эквиваленты, входящие в объем настоящего изобретения. Следует также заметить, что существует много альтернативных путей реализации способов и композиций настоящего изобретения. Поэтому предполагается, что нижеследующая формула изобретения включает в себя все подобные изменения, перестановки и эквиваленты как соответствующие истинной сущности и объему настоящего изобретения.

Хотя некоторые аспекты были описаны в отношении устройства, ясно, что эти аспекты также представляют описание соответствующего способа, в котором блок или устройство соответствует этапу способа или признаку этапа способа. Аналогично, аспекты, описанные в отношении этапа способа, также представляют описание соответствующего блока или элемента или признака соответствующего устройства. Некоторые или все из этапов способа могут выполняться посредством (или с использованием) аппаратного оборудования, например, микропроцессора, программируемого компьютера или электронной схемы. В некоторых вариантах осуществления, некоторые один или более из наиболее важных этапов способа могут выполняться таким оборудованием.

Кодированный аудиосигнал согласно изобретению может храниться на цифровом носителе данных или может передаваться по среде передачи, например, беспроводной среде передачи или проводной среде передачи, например, через интернет.

В зависимости от определенных требований реализации, варианты осуществления изобретения можно реализовать в оборудовании или в программном обеспечении. Реализация может осуществляться с использованием цифрового носителя данных, например, флоппи-диск, DVD, Blu-Ray, CD, ROM, PROM, EPROM, EEPROM или флеш-памяти, где хранятся электронно считываемые сигналы управления, которые взаимодействуют (или способны взаимодействовать) с программируемой компьютерной системой таким образом, что осуществляется соответствующий способ. Поэтому цифровой носитель данных может быть машиночитаемым.

Некоторые варианты осуществления согласно изобретению содержат носитель данных, на котором хранятся электронно считываемые сигналы управления, которые способны взаимодействовать с программируемой компьютерной системой таким образом, что осуществляется один из описанных здесь способов.

В общем случае, варианты осуществления настоящего изобретения можно реализовать в виде компьютерного программного продукта с программным кодом, причем программный код пригоден для осуществления одного из способов, когда компьютерный программный продукт выполняется на компьютере. Программный код может, например, храниться на машиночитаемом носителе.

Другие варианты осуществления содержат компьютерную программу, хранящуюся на машиночитаемом носителе, для осуществления одного из описанных здесь способов.

Другими словами, вариант осуществления способа согласно изобретению предусматривает компьютерную программу, имеющую программный код для осуществления одного из описанных здесь способов, когда компьютерная программа выполняется на компьютере.

Дополнительный вариант осуществления способов согласно изобретению предусматривает носитель данных (или цифровой носитель данных или машиночитаемый носитель), на котором записана компьютерная программа для осуществления одного из описанных здесь способов. Носитель данных, цифровой носитель данных или носитель записи обычно является материальным и/или постоянным.

Дополнительный вариант осуществления способа согласно изобретению предусматривает поток данных или последовательность сигналов, представляющих компьютерную программу для осуществления одного из описанных здесь способов. Поток данных или последовательность сигналов может, например, быть выполнен(а) с возможностью переноситься через соединение для передачи данных, например, через интернет.

Дополнительный вариант осуществления содержит средство обработки, например, компьютер или программируемое логическое устройство, выполненный(ое) с возможностью или адаптированный(ое) для осуществления одного из описанных здесь способов.

Дополнительный вариант осуществления содержит компьютер, на котором установлена компьютерная программа для осуществления одного из описанных здесь способов.

Дополнительный вариант осуществления согласно изобретению содержит устройство или систему, выполненное(ую) с возможностью переноса (например, электронного или оптического) компьютерной программы для осуществления одного из описанных здесь способов на получатель. Получателем, например, может быть компьютер, мобильное устройство, запоминающее устройство и т.п. Устройство или система может, например, содержать файловый сервер для переноса компьютерной программы на получатель.

В некоторых вариантах осуществления, программируемое логическое устройство (например, вентильную матрицу, программируемую пользователем) можно использовать для осуществления некоторых или все из функциональных возможностей описанных здесь способов. В некоторых вариантах осуществления, вентильная матрица, программируемая пользователем может взаимодействовать с микропроцессором для осуществления одного из описанных здесь способов. В общем случае, способы предпочтительно осуществлять посредством любого аппаратного оборудования.

Описанное здесь устройство можно реализовать с использованием аппаратного оборудования или с использованием компьютера или с использованием комбинации аппаратного оборудования и компьютера.

Описанные здесь способы можно осуществлять с использованием аппаратного оборудования или с использованием компьютера или с использованием комбинации аппаратного оборудования и компьютера.

Вышеописанные варианты осуществления призваны лишь иллюстрировать принципы настоящего изобретения. Следует понимать, что специалисты в данной области техники могут предложить модификации и вариации описанных здесь конфигураций и деталей. Поэтому они ограничиваются только объемом нижеследующей формулы изобретения, а не конкретными деталями, представленными здесь в порядке описания и объяснениями вариантов осуществления.

СПИСОК ИСТОЧНИКОВ

[1] "RTP Payload for Redundant Audio Data", Internet Engineering Task Force, RFC 2198, September 1997

[2] US 6,757,654 - "Forward error correction in speech coding", Westerlund, M. and al., 29 June 2004

[3] "Adaptive joint playout buffer and FEC adjustment for Internet telephony" C. Boutremans, J.-Y. Le Boudec, INFOCOM 2003. Twenty-Second Annual Joint Conference of the IEEE Computer and Communications. IEEE Societies; 04/2003

[4] Заявка на патент: AUDIO DECODER AND METHOD FOR PROVIDING A DECODED AUDIO INFORMATION USING AN ERROR CONCEALMENT BASED ON A TIME DOMAIN EXCITATION SIGNAL

[5] Заявка на патент: AUDIO DECODER AND METHOD FOR PROVIDING A DECODED AUDIO INFORMATION USING AN ERROR CONCEALMENT MODIFYING A TIME DOMAIN EXCITATION SIGNAL

[6] 3GPP TS 26.448: "Codec for Enhanced Voice Services (EVS); Jitter Buffer Management".

[7] 3GPP TS 26.442: "Codec for Enhanced Voice Services (EVS); ANSI C code (fixed-point)".

[8] D. J. Sinder, I. Varga, V. Krishnan, V. Rajendran and S. Villette, ʺRecent Speech Coding Technologies and Standards,ʺ in Speech and Audio Processing for Coding, Enhancement and Recognition, T. Ogunfunmi, R. Togneri, M. Narasimha, Eds., Springer, 2014.

[9] J. Sjoberg, M. Westerlund, A. Lakaniemi and Q. Xie, ʺRTP Payload Format and File Storage Format for the Adaptive Multi-Rate (AMR) and Adaptive Multi-Rate Wideband (AMR-WB) Audio Codecs,ʺ April 2007. Доступно по адресу: http://tools.ietf.org/html/rfc4867.

[10] 3GPP TS 26.114, ʺMultimedia Telephony Service for IMS,ʺ V12.7.0, September 2014.

[11] 3GPP TS 26.445: ʺEVS Codec Detailed Algorithmic Description; 3GPP Technical Specification (Release 12),ʺ 2014.

[12] 3GPP, TS 26.447, ʺCodec for Enhanced Voice Services (EVS); Error Concealment of Lost Packets (Release 12),ʺ 2014.

[13] 3GPP TS 26.448: ʺEVS Codec Jitter Buffer Management (Release 12),ʺ 2014.

[14] 3GPP Tdoc S4-130522, ʺEVS Permanent Document (EVS-3): EVS performance requirements,ʺ Version 1.4.

[15] S. Bruhn, et al., ʺStandardization of the new EVS Codec,ʺ поданный в IEEE ICASSP, Brisbane, Australia, April, 2015.

[16] M. Dietz, et al., ʺOverview of the EVS codec architecture,ʺ поданный в IEEE ICASSP, Brisbane, Australia, April, 2015.

[17] V. Atti, et al., ʺSuper-wideband bandwidth extension for speech in the 3GPP EVS codec,ʺ поданный в IEEE ICASSP, Brisbane, Australia, April, 2015.

[18] G. Fuchs, et al., ʺLow delay LPC and MDCT-based Audio Coding in EVS,ʺ поданный в IEEE ICASSP, Brisbane, Australia, April, 2015.

[19] S. Disch et al., ʺTemporal tile shaping for spectral gap filling within TCX in EVS Codec,ʺ поданный в IEEE ICASSP, Brisbane, Australia, April, 2015.

[20] J. Lecomte et al., ʺPacket Loss Concealment Technology Advances in EVS,ʺ поданный в IEEE ICASSP, Brisbane, Australia, April, 2015.

[21] B. Bessette, et al, ʺThe adaptive multi-rate wideband speech codec (AMR-WB),ʺ IEEE Trans. on Speech and Audio Processing, vol. 10, no. 8, pp. 620-636, November 2002.

[22] E. Ravelli, et al., ʺOpen loop switching decision based on evaluation of coding distortions for audio codecs,ʺ поданный в IEEE ICASSP, Brisbane, Australia, April, 2015.

[23] M. Jelínek, T. Vaillancourt, and Jon Gibbs, ʺG.718: A New Embedded Speech and Audio Coding Standard with High Resilience to Error-Prone Transmission Channels,ʺ IEEE Communications Magazine, vol. 47, no. 10, pp. 117-123, October 2009.

[24] ITU-T P.800, ʺMethods for Subjective Determination of Transmission Quality,ʺ International Telecommunication Union (ITU), Series P., August 1996.

1. Кодер (1) для кодирования речеподобного контента и/или общего аудиоконтента (2),

причём кодер (1) выполнен с возможностью встраивания параметров (6) в битовый поток (5) по меньшей мере в некоторых кадрах (8), причем параметры (6) обеспечивают направленное маскирование в случае потери, повреждения или задержки исходного кадра (4),

причем кодер (1) выполнен с возможностью создания первичного кадра (4) и частичной копии (8), причем частичная копия (8) не является версией с низкой битовой скоростью первичного кадра (4), но при этом частичная копия (8) содержит параметры (6), и при этом частичная копия (8) передается в полосе как часть полезной нагрузки кодека,

причём кодер (1) выполнен с возможностью выбора среди множества режимов частичной копии, которые используют разные объемы информации и/или разные наборы (6) параметров, причем выбор режима частичной копии основан на параметрах,

и при этом по меньшей мере один из множества режимов частичной копии является режимом маскирования в частотной области и по меньшей мере два из множества режимов частичной копии являются разными режимами маскирования во временной области.

2. Кодер по п. 1, причём кодер (1) выполнен с возможностью задержки параметров (6) на некоторое время и встраивания параметров (6) в пакет (9), который кодируется и отправляется в более позднее время.

3. Кодер по п. 1, причём кодер (1) выполнен с возможностью снижения битовой скорости первичного кадра, причем снижение битовой скорости первичного кадра и механизм кодирования кадра частичной копии вместе определяют выделение битовой скорости между первичными кадрами (4) и кадрами (8) частичной копии для включения в постоянную полную битовую скорость.

4. Кодер по п. 1, причём кодер (1) выполнен с возможностью создания первичного кадра (4) одного из речеподобного типа контента и общего типа аудиоконтента совместно с частичной копией (8) другого из речеподобного типа контента и общего типа аудиоконтента.

5. Кодер по п. 1, причём кодер (1) составляет часть кодека, использующего схему кодирования преобразования кодированного возбуждения (TCX).

6. Кодер по п. 5, причём кодер (1) выполнен с возможностью обнаружения, содержит ли кадр зашумленный аудиосигнал или содержит ли кадр минимальный уровень шума с резкими спектральными линиями, не меняющими свое положение в течение периода времени, и встраивания параметров (6) в кадр TCX на основании упомянутого обнаружения.

7. Кодер по п. 5, в котором параметры (6) содержат параметры спектральных частот полной проводимости (ISF) или линейных спектральных частот (LSF), в частности кодированные с прогнозированием параметры ISF или LSF.

8. Кодер по п. 5, в котором параметры (6) содержат параметры классификации сигналов.

9. Кодер по п. 5, в котором параметры (6) содержат глобальный коэффициент усиления TCX или глобальный уровень TCX.

10. Кодер по п. 5, в котором параметры (6) содержат по меньшей мере одно из информации окна и позиции спектрального пика.

11. Кодер по п. 1, причём кодер (1) составляет часть переключаемого кодека, причем переключаемый кодек состоит из по меньшей мере двух схем основного кодирования, причем первая схема основного кодирования использует линейное предсказание с возбуждением от алгебраического кода (ACELP) и вторая схема основного кодирования использует TCX.

12. Кодер по п. 11, причём кодер (1) выполнен с возможностью не помещать частичную копию (8) поверх кадра TCX (4) после переключения при наличии первого кадра TCX после кадра ACELP.

13. Кодер по п. 5, причём кодер (1) выполнен с возможностью анализа сигнала до кодирования и отключения использования частичной копии или обеспечения сокращенной частичной копии (8) на основании проанализированного сигнала.

14. Кодер по п. 1, в котором выбирается один из по меньшей мере двух режимов маскирования во временной области, если кадр содержит переход или если глобальный коэффициент усиления кадра ниже, чем глобальный коэффициент усиления предыдущего кадра.

15. Кодер по п. 1, причём кодер (1) выполнен с возможностью отправки отставания долгосрочного предсказания (LTP) при наличии данных LTP.

16. Кодер по п. 1, причём кодер (1) выполнен с возможностью отправки информации классификатора.

17. Кодер по п. 1, причём кодер (1) выполнен с возможностью отправки по меньшей мере одного из параметров кодирования с линейным предсказанием (LPC), коэффициента усиления LTP, уровня шума и позиции импульса.

18. Декодер (31) для декодирования речеподобного контента и/или общего аудиоконтента (2),

причём декодер (31) выполнен с возможностью использования параметров (6), отправляемых в более позднее время в битовом потоке (5), для обеспечения направленного маскирования в случае потери, повреждения или задержки исходного кадра (4), причем декодер (31) выполнен с возможностью приема первичного кадра (4) и частичной копии (8), причем частичная копия (8) не является версией с низкой битовой скоростью первичного кадра (4), но при этом частичная копия (8) содержит параметры (6), и при этом частичная копия (8) передается в полосе как часть полезной нагрузки кодека,

причём декодер (31) выполнен с возможностью выбора среди множества режимов частичной копии, которые используют разные объемы информации и/или разные наборы параметров (6),

и при этом по меньшей мере один из множества режимов частичной копии является режимом маскирования в частотной области, и по меньшей мере два из множества режимов частичной копии являются разными режимами маскирования во временной области.

19. Декодер по п. 18, причём декодер (31) выполнен с возможностью непосредственного использования параметров (6), доступных из битового потока (5), для направленного маскирования.

20. Декодер (31) по п. 18, в котором параметры (6) содержатся в частичной копии (8), и при этом декодер (31) выполнен с возможностью приема из противоджиттерного буфера частичной копии (8b) текущего потерянного кадра (4b), при её наличии.

21. Декодер по п. 18, причём декодер (31) выполнен с возможностью приема первичного кадра (4) одного из речеподобного типа контента и общего типа аудиоконтента совместно с частичной копией (8) другого из речеподобного типа контента и общего типа аудиоконтента.

22. Декодер по п. 18, причём декодер (31) составляет часть кодека, использующего схему кодека TCX.

23. Декодер по п. 18, в котором параметры (6) содержат параметры ISF или LSF, в частности кодированные с прогнозированием параметры ISF или LSF.

24. Декодер по п. 18, в котором параметры (6) содержат параметры классификации сигналов.

25. Декодер по п. 18, в котором параметры (6) содержат глобальный коэффициент усиления TCX или глобальный уровень TCX.

26. Декодер по п. 18, в котором параметры (6) содержат по меньшей мере одну из информации окна и позиции спектрального пика.

27. Декодер по п. 18, причём декодер (31) составляет часть переключаемого кодека, причем переключаемый кодек состоит из по меньшей мере двух схем основного кодирования, причем первая схема основного кодирования использует ACELP и вторая схема основного кодирования использует TCX.

28. Декодер по п. 27, причём декодер (31) выполнен с возможностью использования маскирования ACELP после переключения в случае, когда первый кадр TCX после кадра ACELP недоступен декодеру (31).

29. Декодер по п. 18, причём декодер (31) выполнен с возможностью приема отставания LTP при наличии данных LTP.

30. Декодер по п. 18, причём декодер (31) выполнен с возможностью приема информации классификатора.

31. Декодер по п. 18, причём декодер (31) выполнен с возможностью приема по меньшей мере одного из параметров LPC, коэффициента усиления LTP, уровня шума и позиции импульса.

32. Декодер по п. 18, причём декодер (31) выполнен с возможностью уменьшения коэффициента усиления основного тона и коэффициента усиления кода с двумя разными коэффициентами в зависимости от режима маскирования.

33. Декодер по п. 32, в котором первый коэффициент равен 0,4 и второй коэффициент равен 0,7.

34. Декодер по п. 18, причём декодер (31) выполнен с возможностью не учитывать основной тон, декодированный из частичной копии (8b), если предыдущий первичный кадр (4a) потерян, и при этом декодер (31) выполнен с возможностью фиксирования основного тона до прогнозируемого основного тона для следующего потерянного первичного кадра вместо использования передаваемого основного тона.

35. Система для кодирования и декодирования аудиоконтента, содержащая кодер (1) по п. 1 и декодер (31) по п. 18.

36. Способ кодирования речеподобного контента и/или общего аудиоконтента (2), причем способ содержит этапы, на которых:

встраивают параметры (6) в битовый поток (5) по меньшей мере в некоторых кадрах (8), причем параметры (6) обеспечивают направленное маскирование в случае потери, повреждения или задержки исходного кадра (4),

создают первичный кадр (4) и частичную копию (8), причем частичная копия (8) не является версией с низкой битовой скоростью первичного кадра (4), но при этом частичная копия (8) содержит параметры (6), и передают частичную копию (8) в полосе как часть полезной нагрузки кодека,

и выбирают среди множества режимов частичной копии, которые используют разные объемы информации и/или разные наборы (6) параметров,

причем по меньшей мере один из множества режимов частичной копии является режимом маскирования в частотной области и по меньшей мере два из множества режимов частичной копии являются разными режимами маскирования во временной области.

37. Способ декодирования речеподобного контента и/или общего аудиоконтента, причем способ содержит этапы, на которых:

используют параметры (6), отправляемые в более позднее время в битовом потоке (5) для обеспечения направленного маскирования в случае потери, повреждения или задержки исходного кадра (4),

принимают первичный кадр (4) и частичную копию (8), причем частичная копия (8) не является версией с низкой битовой скоростью первичного кадра (4), но при этом частичная копия (8) содержит параметры (6), и при этом частичная копия (8) передается в полосе как часть полезной нагрузки кодека,

и выбирают среди множества режимов частичной копии, которые используют разные объемы информации и/или разные наборы (6) параметров,

причем по меньшей мере один из множества режимов частичной копии является режимом маскирования в частотной области, и по меньшей мере два из множества режимов частичной копии являются разными режимами маскирования во временной области.

38. Машиночитаемый носитель, на котором сохранена компьютерная программа для осуществления способа по п. 36 при выполнении компьютером или процессором сигнала.

39. Машиночитаемый носитель, на котором сохранена компьютерная программа для осуществления способа по п. 37 при выполнении компьютером или процессором сигнала.

40. Кодер (1) для кодирования аудиоконтента (2), причём кодер (1) выполнен с возможностью

обеспечения первичного кодированного представления (4) текущего кадра и кодированного представления (8) по меньшей мере одного параметра (6) маскирования ошибки для обеспечения на стороне декодера направленного маскирования ошибки текущего кадра, причем кодированное представление (8) по меньшей мере одного параметра (6) маскирования ошибки передается в полосе как часть полезной нагрузки кодека, причем

кодер (1) выполнен с возможностью выбора по меньшей мере одного параметра (6) маскирования ошибки на основании одного или более параметров, представляющих характеристику сигнала аудиоконтента (2), содержащегося в текущем кадре,

причем кодер (1) выполнен с возможностью избирательного выбора среди по меньшей мере двух режимов для обеспечения кодированного представления (8) по меньшей мере одного параметра (6) маскирования ошибки,

причем по меньшей мере один из режимов для обеспечения кодированного представления (8) по меньшей мере одного параметра (6) маскирования ошибки является режимом маскирования во временной области таким образом, что кодированное представление (8) по меньшей мере одного параметра (6) маскирования ошибки содержит одно или более из отставания долгосрочного предсказания с использованием преобразования кодированного возбуждения (LTP TCX) и информации классификатора,

и при этом по меньшей мере один из режимов для обеспечения кодированного представления (8) по меньшей мере одного параметра (6) маскирования ошибки является режимом маскирования в частотной области таким образом, что кодированное представление (8) по меньшей мере одного параметра (6) маскирования ошибки содержит одно или более из параметра LSF, глобального коэффициента усиления TCX и информации классификатора.

41. Кодер (1) для кодирования аудиоконтента (2), причём кодер (1) выполнен с возможностью

обеспечения первичного кодированного представления (4) текущего кадра и кодированного представления (8) по меньшей мере одного параметра (6) маскирования ошибки для обеспечения на стороне декодера направленного маскирования ошибки текущего кадра, причем кодированное представление (8) по меньшей мере одного параметра (6) маскирования ошибки передается в полосе как часть полезной нагрузки кодека, причем

кодер (1) выполнен с возможностью выбора по меньшей мере одного параметра (6) маскирования ошибки на основании одного или более параметров, представляющих характеристику сигнала аудиоконтента (2), содержащегося в текущем кадре,

причем кодер (1) выполнен с возможностью избирательного выбора среди по меньшей мере двух режимов для обеспечения кодированного представления (8) по меньшей мере одного параметра (6) маскирования ошибки,

причем по меньшей мере один из режимов для обеспечения кодированного представления (8) по меньшей мере одного параметра (6) маскирования ошибки является режимом маскирования во временной области, который выбирается, если аудиоконтент (2), содержащийся в текущем кадре, содержит переход или если глобальный коэффициент усиления аудиоконтента (2), содержащегося в текущем кадре, ниже, чем глобальный коэффициент усиления предшествующего кадра,

и при этом по меньшей мере один из режимов для обеспечения кодированного представления (8) по меньшей мере одного параметра (6) маскирования ошибки является режимом маскирования в частотной области таким образом, что кодированное представление (8) по меньшей мере одного параметра (6) маскирования ошибки содержит один или более из параметра LSF, глобального коэффициента усиления TCX и информации классификатора.

42. Кодер (1) по п. 40 или 41, в котором маскирование ошибки на стороне декодера является маскированием ошибки на основе экстраполяции.

43. Кодер по п. 40 или 41, причём кодер (1) выполнен с возможностью объединения кодированного представления (8b) по меньшей мере одного параметра (6) маскирования ошибки текущего кадра с первичным кодированным представлением (4c) будущего кадра в транспортный пакет (9) таким образом, что кодированное представление (8b) по меньшей мере одного параметра (6) маскирования ошибки текущего кадра отправляется с задержкой по времени относительно первичного кодированного представления (4b) текущего кадра.

44. Кодер по п. 40 или 41, в котором выбор режима для обеспечения кодированного представления (8) по меньшей мере одного параметра (6) маскирования ошибки основан на параметрах, которые содержат по меньшей мере одно из класса кадров, основного тона LTP, коэффициента усиления LTP и режима для обеспечения кодированного представления (8) по меньшей мере одного параметра (6) маскирования ошибки одного или более предшествующих кадров.

45. Кодер по п. 40 или 41, причём кодер (1) использует по меньшей мере схему кодирования TCX.

46. Декодер (31) для декодирования аудиоконтента (2), причём декодер (31) выполнен с возможностью

приёма первичного кодированного представления (4) текущего кадра и/или кодированного представления (8) по меньшей мере одного параметра (6) маскирования ошибки для обеспечения на стороне декодера направленного маскирования ошибки текущего кадра, причем кодированное представление (8) по меньшей мере одного параметра (6) маскирования ошибки передается в полосе как часть полезной нагрузки кодека, причем

декодер (31) выполнен с возможностью использования направленного маскирования ошибки для по меньшей мере частичной реконструкции аудиоконтента (2) текущего кадра с использованием по меньшей мере одного параметра (6) маскирования ошибки в случае потери, повреждения или задержки первичного кодированного представления (4) текущего кадра,

причем декодер (31) выполнен с возможностью избирательного выбора среди по меньшей мере двух режимов маскирования ошибки, которые используют разные кодированные представления (8) одного или более параметров (6) маскирования ошибки для по меньшей мере частичной реконструкции аудиоконтента (2) с использованием направленного маскирования ошибки,

причем по меньшей мере один из по меньшей мере двух режимов маскирования ошибки, которые используют разные кодированные представления (8) одного или более параметров (6) маскирования ошибки, является режимом маскирования во временной области, причем кодированное представление (8) по меньшей мере одного параметра (6) маскирования ошибки содержит по меньшей мере одно из отставания LTP TCX и информации классификатора,

и при этом по меньшей мере один из по меньшей мере двух режимов маскирования ошибки, которые используют разные кодированные представления (8) одного или более параметров (6) маскирования ошибки, является режимом маскирования в частотной области, причем кодированное представление (8) по меньшей мере одного параметра (6) маскирования ошибки содержит один или более из параметра LSF, глобального коэффициента усиления TCX и информации классификатора.

47. Декодер (31) по п. 46, в котором направленное маскирование ошибки на стороне декодера является маскированием ошибки на основе экстраполяции.

48. Декодер по п. 46, причём декодер (31) выполнен с возможностью извлечения параметра (6) маскирования ошибки текущего кадра из пакета (9b), который отделен от пакета (9a), в котором содержится первичное кодированное представление (4) текущего кадра.

49. Декодер по п. 46, причём декодер (31) использует по меньшей мере схему кодирования TCX.

50. Система для кодирования и декодирования аудиоконтента, содержащая кодер по п. 40 или 41 и декодер по п. 46.

51. Способ кодирования аудиоконтента (2), содержащий этапы, на которых:

обеспечивают первичное кодированное представление (4) текущего кадра и кодированное представление (8) по меньшей мере одного параметра (6) маскирования ошибки для обеспечения на стороне декодера направленного маскирования ошибки текущего кадра и передают кодированное представление (8) по меньшей мере одного параметра (6) маскирования ошибки в полосе как часть полезной нагрузки кодека,

выбирают по меньшей мере один параметр (6) маскирования ошибки на основании одного или более параметров, представляющих характеристику сигнала аудиоконтента (2), содержащегося в текущем кадре,

и избирательно выбирают среди по меньшей мере двух режимов для обеспечения кодированного представления (8) по меньшей мере одного параметра (6) маскирования ошибки,

причем по меньшей мере один из режимов для обеспечения кодированного представления (8) по меньшей мере одного параметра (6) маскирования ошибки является режимом маскирования во временной области таким образом, что кодированное представление (8) по меньшей мере одного параметра (6) маскирования ошибки содержит одно или более из отставания LTP TCX и информации классификатора,

и при этом по меньшей мере один из режимов для обеспечения кодированного представления (8) по меньшей мере одного параметра (6) маскирования ошибки является режимом маскирования в частотной области таким образом, что кодированное представление (8) по меньшей мере одного параметра (6) маскирования ошибки содержит одно или более из параметра LSF, глобального коэффициента усиления TCX и информации классификатора.

52. Способ кодирования аудиоконтента (2), содержащий этапы, на которых:

обеспечивают первичное кодированное представление (4) текущего кадра и кодированное представление (8) по меньшей мере одного параметра (6) маскирования ошибки для обеспечения на стороне декодера направленного маскирования ошибки текущего кадра и передают кодированное представление (8) по меньшей мере одного параметра (6) маскирования ошибки в полосе как часть полезной нагрузки кодека, причем

выбирают по меньшей мере один параметр (6) маскирования ошибки на основании одного или более параметров, представляющих характеристику сигнала аудиоконтента (2), содержащегося в текущем кадре,

и избирательно выбирают среди по меньшей мере двух режимов для обеспечения кодированного представления (8) по меньшей мере одного параметра (6) маскирования ошибки,

причем по меньшей мере один из режимов для обеспечения кодированного представления (8) по меньшей мере одного параметра (6) маскирования ошибки является режимом маскирования во временной области, который выбирается, если аудиоконтент (2), содержащийся в текущем кадре, содержит переход или если глобальный коэффициент усиления аудиоконтента (2), содержащегося в текущем кадре, ниже, чем глобальный коэффициент усиления предшествующего кадра

и при этом по меньшей мере один из режимов для обеспечения кодированного представления (8) по меньшей мере одного параметра (6) маскирования ошибки является режимом маскирования в частотной области таким образом, что кодированное представление (8) по меньшей мере одного параметра (6) маскирования ошибки содержит один или более из параметра LSF, глобального коэффициента усиления TCX и информации классификатора.

53. Способ декодирования аудиоконтента (2), содержащий этапы, на которых:

принимают первичное кодированное представление (4) текущего кадра и/или кодированное представление (8) по меньшей мере одного параметра (6) маскирования ошибки для обеспечения на стороне декодера направленного маскирования ошибки текущего кадра, причем кодированное представление (8) по меньшей мере одного параметра (6) маскирования ошибки передается в полосе как часть полезной нагрузки кодека, причем

используют на стороне декодера направленное маскирование ошибки для по меньшей мере частичной реконструкции аудиоконтента (2) текущего кадра с использованием по меньшей мере одного параметра (6) маскирования ошибки в случае потери, повреждения или задержки первичного кодированного представления (4) текущего кадра,

и избирательно выбирают среди по меньшей мере двух режимов маскирования ошибки, которые используют разные кодированные представления (8) одного или более параметров (6) маскирования ошибки для по меньшей мере частичной реконструкции аудиоконтента (2) с использованием направленного маскирования ошибки,

причем по меньшей мере один из по меньшей мере двух режимов маскирования ошибки, которые используют разные кодированные представления (8) одного или более параметров (6) маскирования ошибки, является режимом маскирования во временной области, причем кодированное представление (8) по меньшей мере одного параметра (6) маскирования ошибки содержит по меньшей мере одно из отставания LTP TCX и информации классификатора,

и при этом по меньшей мере один из по меньшей мере двух режимов маскирования ошибки, которые используют разные кодированные представления (8) одного или более параметров (6) маскирования ошибки, является режимом маскирования в частотной области, причем кодированное представление (8) по меньшей мере одного параметра (6) маскирования ошибки содержит один или более из параметра LSF, глобального коэффициента усиления TCX и информации классификатора.

54. Машиночитаемый носитель, на котором сохранена компьютерная программа для осуществления способа по одному из пп. 51, 52 при выполнении на компьютере или процессоре сигнала.

55. Машиночитаемый носитель, на котором сохранена компьютерная программа для осуществления способа по п. 53 при выполнении на компьютере или процессоре сигнала.



 

Похожие патенты:

Изобретение относится к вычислительной технике. Технический результат – повышение эффективности обработки видеопотока для передачи данных в сетевой среде.

Изобретение относится к области кодирования и декодирования без потерь с сокращением избыточности передаваемой информации и может использоваться для сжатия и восстановления телеметрических кадров данных в информационно-измерительных системах.

Изобретение относится к области вычислительной техники и предназначено для использования в системах обработки информации, а также может быть применено в блоках сжатия и распаковки данных без потерь в системах для рационального использования устройств хранения и передачи данных, обработки данных физических экспериментов.

Изобретение относится к системам обработки медиаданных и, в частности, к адаптивной обработке медиаданных на основе состояний обработки медиаданных для медиаданных.

Изобретение относится к области вычислительной техники. Технический результат заключается в обеспечении достоверной оценки радиационной обстановки.

Изобретение относится к области вычислительной техники. Техническим результатом является снижение пространства памяти, занимаемого XML-файлом, в контейнере печатающего материала, выполненном для установки в принтер.

Изобретение относится к кодированию и декодированию аудиосигнала. Технический результат – улучшение реконструкции высокочастотных полос аудиосигнала.

Заявленное изобретение относится к области передачи телеметрической информации. Технический результат заключается в увеличении потока информации от датчиков с возросшей динамикой.

Заявленное изобретение относится к области передачи телеметрической информации. Технический результат заключается в увеличении потока информации от датчиков с возросшей динамикой.

Изобретение относится к средствам для маскирования ошибок при кодировании/декодировании аудио. Технический результат заключается в восстановлении качества звучания без увеличения алгоритмической задержки, когда происходит потеря пакета при кодировании аудио.

Изобретение относится к области техники передачи и трансляции речевой информации и может найти применение в устройствах связи. Техническим результатом является увеличение значения вероятности правильного решения о появлении речевого сигнала и повышение точности определения момента его появления при наличии речеподобного шума.

Изобретение относится к вычислительной технике для распознавания речи. Технический результат заключается в повышении точности распознавания речи пользователя.

Изобретение относится к коммуникационному устройству и коммуникационному роботу. Технический результат заключается в создании коммуникационного устройства, которое позволяет персонажу отображать даже для одного и того же диалога различные выражения лица в зависимости от ситуации.

Изобретение относится к области кодирования аудио и речи. Технический результат – обеспечение эффективного сокращения объема вычислений при преобразовании коэффициентов линейного предсказания.

Изобретение относится к оценке качества аудиовизуального сигнала. Техническим результатом является обеспечение оценки качества аудиовизуального сигнала с возможностью адекватного представления качества аудиовизуального сигнала, воспринимаемого зрителем.

Изобретение относится к средствам стереофонического кодирования и декодирования аудиосигналов. Технический результат заключается в повышении эффективности использования полосы частот.

Изобретение относится к средствам для распознавания смешанной речи. Технический результат заключается в повышении точности распознавания смешанной речи.

Изобретение относится к средствам для обнаружения разговора между пользователями. Технический результат заключается в повышении точности автоматического обнаружения разговора между пользователями.

Изобретение относится к средствам для подавления шума. Технический результат заключается в повышении эффективности подавления шума.

Изобретение относится к средствам для получения кадра модификации речевой активности. Технический результат заключается в повышении эффективности обработки речевых сигналов.

Изобретение относится к средствам для принятия решений относительно управления инструментами фильтрации гармоник. Технический результат заключается в повышении эффективности кодирования.

Изобретение относится к вычислительной технике. Технический результат – улучшение маскирования ошибки. Кодер для кодирования речеподобного контента иили общего аудиоконтента, причём кодер встраивает параметры в битовый поток в некоторых кадрах, причем параметры обеспечивают направленное маскирование в случае потери, повреждения или задержки исходного кадра, причем кодер создает первичный кадр и частичную копию, причем частичная копия не является версией с низкой битовой скоростью первичного кадра, но при этом частичная копия содержит параметры, и при этом частичная копия передается в полосе как часть полезной нагрузки кодека, причём кодер выполнен с возможностью выбора среди множества режимов частичной копии, которые используют разные объемы информации иили разные наборы параметров, причем выбор режима частичной копии основан на параметрах, и при этом один из множества режимов частичной копии является режимом маскирования в частотной области, и два из множества режимов частичной копии являются разными режимами маскирования во временной области. 16 н. и 39 з.п. ф-лы, 11 ил., 1 табл.

Наверх