Устройство и способ маскирования последствий потери кадров

Авторы патента:

G10L9/18 - (Рубрика аннулирована. Содержание перенесено в G10L 15/24)

Приемник системы радиосвязи на основе передачи кадров содержит декодер речи типа источник-фильтр, который управляется средствами, содержащими переменные внутреннего состояния, обновляемые кадр за кадром, и предназначенными для модификации переданных по каналу связи параметров, определяющих фильтр и представляющих фоновые шумы. Приемник содержит средства для обнаружения потери кадров и средства маскирования последствий потери кадров путем ограничения обновления по меньшей мере одной из переменных внутреннего состояния. Технический результат настоящего изобретения состоит в разработке устройства и способа, в которых применяется маскирование потерянных кадров принятого сигнала, чтобы сделать декодирование речи более устойчивым или нечувствительным к потере кадров. 2 с. и 14 з.п.ф-лы, 1 ил.

Изобретение относится к маскированию потери кадров в системе связи, например в системе радиосвязи, и касается, в частности, устройства и способа улучшения декодирования фоновых шумов в таких системах.

Известные средства для улучшения кодирования/декодирования фоновых шумов в цифровых сотовых системах радиотелефонной связи предназначены главным образом для такой ситуации, когда связь между кодером и декодером речи близка к идеальной в том смысле, что кадры не теряются. Однако, например, согласно американскому стандарту IS-54 для цифровой сотовой связи быстродействующий совмещенный канал управления (FACCH) образуется при помощи изъятия кадров речи из канала полезного трафика (аналогичный канал предусмотрен в европейской сотовой системе подвижной связи GSM). Похожая ситуация возникает и в сетях с коммутацией пакетов, когда пакеты (кадры) теряются или приходят слишком поздно для того, чтобы использовать их для воспроизведения речи в реальном времени (пакеты могут иметь различные маршруты между передатчиком и приемником).

Целью настоящего изобретения является разработка устройства и способа, в которых применяется так называемое маскирование потерянных кадров принятого сигнала, чтобы сделать декодирование речи более устойчивым или нечувствительным к потере кадров.

В соответствии с изобретением в приемнике системы связи, основанной на передаче кадров, данная цель достигается при помощи устройства маскирования последствий потери кадров в декодере речи, который является декодером типа "источник-фильтр" и управляется средствами, в которых переменные внутреннего состояния обновляются кадр за кадром для модификации определяющих фильтр принятых параметров, представляющих фоновые шумы, указанное устройство отличается тем, что оно содержит: а) средства обнаружения потери кадров; б) средства маскирования последствий потери кадров путем ограничения обновления по меньшей мере одной из упомянутых переменных внутреннего состояния.

Кроме того, в соответствии с изобретением в приемнике системы радиосвязи, основанной на передаче кадров, данная цель достигается при помощи способа маскирования последствий потери кадров в декодере речи. Декодер речи является декодером типа "источник-фильтр" и включает средства, в которых переменные внутреннего состояния обновляются кадр за кадром, для модификации принятых определяющих фильтр параметров, представляющих фоновые шумы. Указанный способ отличается тем, что: а) обнаруживают потерю кадров; б) маскируют последствия потери кадров путем ограничения обновления по меньшей мере одной из упомянутых переменных внутреннего состояния.

Изобретение поясняется чертежом, который представляет собой блок-схему соответствующих частей приемника системы радиосвязи, содержащей устройство в соответствии с настоящим изобретением.

Для пояснения изобретения кратко рассмотрим типичное соединение в цифровой сотовой системе радиосвязи и типичные методы и алгоритмы маскирования потерянных кадров.

В линии связи цифровой сотовой радиотелефонной системы звуковой сигнал сначала преобразуется в цифровую форму, а затем к нему применяется алгоритм кодирования речи (см., например, [1]). Этот алгоритм сжимает речевой сигнал и преобразует его в несколько квантованных параметров (обычно на основе кадров). Затем полученные в результате биты защищаются путем создания избыточности при кодировании с использованием методов канального кодирования (см., например, [2]). Полученная последовательность битов модулирует несущую (см. , например, [3]) и передается, например, с использованием метода многостанционного доступа с временным разделением каналов. В приемнике сигнал демодулируется. Возможная временная дисперсия или дисперсия, обусловленная многоречевым распространением, может быть скомпенсирована различными способами выравнивания, например выравниванием по методу Витерби или коррекцией с решающей обратной связью (см. , например, [3]). Затем используется канальное декодирование (см. например, [2] ) для того, чтобы декодировать квантованные параметры, которые необходимы декодеру речи для восстановления переданного речевого сигнала. Из вышеизложенного очевидно, что потерянные кадры могут влиять на восстановленный речевой сигнал, ухудшая его качество.

Например, в американской цифровой сотовой системе связи в соответствии со стандартом IS-54 кадр, изъятый для быстродействующего совмещенного канала управления, приводит к потере кадра речи в декодере речи приемника. Декодер речи решает эту проблему путем "замещения" подходящей информацией. Обычно вместо потерянного кадра используется соответствующая информация из предыдущего кадра. Однако если декодер предусматривает так называемые "антивихревые" операции для фоновых шумов (эти операции будут описаны ниже), то в случае применения этого способа качество полученного в результате сигнала звуковой частоты будет неприемлемым.

С учетом этой информации о современном уровне техники обратимся к чертежу. На нем показаны необходимые для описания настоящего изобретения блоки приемника системы радиосвязи с подвижными объектами. Антенна 10 принимает переданный сигнал и подает его на демодулятор 12. Демодулятор 12 демодулирует принятый сигнал и подает его на выравниватель 13, например на выравниватель Витерби, который преобразует принятый и демодулированный сигнал в одну или несколько последовательностей битов, подаваемых на средства обнаружения потери кадров, выполненные в виде решающих средств 14. Решающие средства 14 определяют, содержит ли принятый кадр биты из канала полезной нагрузки или же из быстродействующего совмещенного канала управления. Если принятый кадр содержит биты из канала полезной нагрузки, то последовательность битов направляется на канальный декодер 16. Канальный декодер 16 преобразует последовательность битов в последовательность параметров фильтра и последовательность параметров возбуждения для декодирования речи. Если же принятый кадр содержит биты из быстродействующего совмещенного канала управления, то последовательность битов на канальный декодер 16 на направляется. Вместо этого средства 18 маскирования информируются о том, что данный кадр не содержит данных речи.

Приемник содержит также детектор 20 речи (называемый также детектором голосовой активности). Подходящий детектор речи описан в заявке WO 89/08910 компании "British Telecom PLC". Детектор 20 речи с помощью упомянутых параметров фильтра и возбуждения определяет, содержит принятый кадр главным образом речь или же фоновые шумы. Решение детектора 20 речи может быть подано на детектор стационарности, выполненный в виде дискриминатора 22 сигналов (наличие которого необязательно), который использует некоторые из параметров возбуждения для того, чтобы определить, являются ли принятые сигналы, представляющие фоновые шумы, стационарными или нет. Если кадр объявлен содержащим стационарные фоновые шумы, выходной сигнал дискриминатора 22 сигналов управляет модификатор 24 параметров так, чтобы модифицировать принятые параметры фильтра. Указанные детектор 20 речи, дискриминатор 22 сигналов и модификатор 24 параметров представляют собой средства, переменные внутреннего состояния которых обновляются кадр за кадром, для модификации принятых определяющих фильтр параметров, представляющих фоновые шумы. Параметры фильтра, возможно модифицированные (если принятый сигнал представляет стационарные фоновые шумы), и параметры возбуждения подают на декодер 26 речи, который формирует на выходе сигнал звуковой частоты, подаваемый на выходную линию 28.

Чтобы описать методы маскирования ошибок в соответствии с настоящим изобретением, необходимо кратко рассмотреть воздействия потери кадров (которые появляются, когда в кадре быстродействующего совмещенного канала управления заменяют кадры речи) на так называемые "антивихревые" алгоритмы. Эти воздействия можно грубо разделить на следующие.

1. Детектор 20 голосовой активности или речи, который используется для управления антивихревым алгоритмом, обычно является адаптивным (см. [4] и заявку WO 89/089910 компании "British Telecom PLC"). Это означает, что имеются пороги и соответствующие состояния, которые автоматически обновляются внутри в детекторе голосовой активности с использованием или измеренного сигнала, или, если этот детектор входит в состав приемника, как в данном описании, декодированных параметров от канального декодера. Когда кадры теряются, необходимые параметры должны формироваться в приемнике. Одним из способов является использование тех же самых параметров, что и в предыдущем кадре. Однако при этом пороги или переменные внутреннего состояния не обновляются правильным образом, что может привести к ошибочным решениям. Следствием этого будет ухудшенное качество восстановления звукового сигнала.

2. Детектор 20 речи или голосовой активности формирует решение о наличии речи или фоновых шумов, используя входящие параметры фильтра и возбуждения, а также обновленные внутренние состояния, то есть старые входящие параметры и дополнительную априорную информацию. Поэтому потерянные кадры могут сразу же привести к неправильным решениям в приемнике, что приводит к ухудшению качества восстановленного звукового сигнала. Кроме того, поскольку текущее решение зависит также от старых входящих параметров, потерянные кадры могут влиять и на будущие решения.

3. Дискриминатор 22 сигналов, который может быть частью системы в предпочтительном варианте осуществления настоящего изобретения, исследует входящие статистические моменты, предпочтительно значения энергии, которые характеризуют среднюю энергию сигнала для каждого кадра. Необходимо хранить большое число таких значений энергии как для текущего кадра, так и для прежних кадров в одном или нескольких буферах. Если в этих входящих значениях энергии будут иметься ошибки, то эти ошибки также будут храниться в буферах, вызывая ошибочные решения в течение значительного времени. Результатом этого будет ухудшение качества восстановленных сигналов фоновых шумов.

4. Обусловленное потерей кадров неправильное решение отрицательно влияет на операции, используемые для предотвращения "завихрения", которые применяются в случае стационарного сигнала фонового шума. Одним из последствий является разрушение речи, когда ошибочно опознается стационарный фоновый шум и навиваются антивихревые операции. Может появиться также противоположное ошибочное решение (обнаружение речи, когда в действительности присутствует стационарный фоновый шум), вследствие чего характер фонового шума мгновенно изменится, что может вызывать неприятные ощущения при восприятии. Многократные переходы от решения, указывающего на речь, к решению, указывающему на стационарные фоновые шумы, и наоборот, также являются нежелательными, так как такие переходы имеют постоянные времени. Если будут иметь место частые переходы от одного решения к другому, то это будет создавать значительные помехи.

5. Потеря кадров также отрицательно влияет на реальные антивихревые операции в модификаторе 24 параметров (по существу спектральную фильтрацию нижних частот в сочетании с расширением полосы частот). При этом одно из последствий возникает из-за неправильных решений, поступающих от детектора 20 речи или голосовой активности, или от дискриминатора 22 сигналов. В этих случаях обновление фильтра нижних частот может начинаться или прерываться в отличие от случая, когда не было потеряно никаких кадров. Другое последствие потери кадров проявляется в поражении спектральной информации, которая используется в фильтрах нижних частот и для увеличения полосы пропускания. Оба эти эффекта могут вызывать ухудшение качества.

6. В пост-фильтре декодера 26 речи (если он имеется) возникают проблемы, аналогичные описанным выше в п. 5. Кроме того, чувствительность слуха к восприятию так называемого спектрального наклона велика и, так как на этот наклон может влиять антивихревой алгоритм, потеря кадров может значительно ухудшить качество восстановленного речевого сигнала.

7. Описанные выше эффекты могут сочетаться и влиять друг на друга. Например, неправильное решение в детекторе 20 речи может привести к прекращению обновления содержимого буферов дискриминатора 22 сигналов. В свою очередь, это будет оказывать влияние на дискриминатор 22 сигналов в течение значительного периода времени, вызывая ухудшение качества антивихревых операций.

Из вышеизложенного ясно, что потерянные кадры могут приводить к неправильному обновлению внутренних переменных детектора 20 речи, дискриминатора 22 сигналов, модификатора 24 параметров или к комбинации этих эффектов. В соответствии с настоящим изобретением эти недостатки полностью или частично устраняются при помощи модификации процесса обновления, если обнаружена потеря кадров. Это модифицированное обновление более подробно описано ниже.

Когда обнаружена потеря кадра, средства 18 маскирования могут управлять ходом процесса обновления соответствующих переменных внутреннего состояния в детекторе 20 речи, дискриминаторе 22 сигналов и модификаторе 24 параметров, как показано линиями 30, 32 и 34 управления соответственно. Эти модификации включают в себя прекращение обновления переменных внутреннего состояния (например, порогов) в детекторе 20 речи, если обнаружена потеря кадра. Это подразумевает, что внутренние переменные детектора 20 речи сохраняются равными тем же значениям, что и в предыдущем кадре, или что обновление этих переменных состояния ограничивается (переменные состояния могут корректироваться на меньшие, чем обычно, величины).

Другим действием является сохранение в детекторе 20 речи решения из предыдущего кадра в случае, когда обнаружена потеря кадра.

Если обнаружена потеря кадра, то обновление буферов в дискриминаторе 22 сигналов может быть остановлено или ограничено.

Другой возможностью является сохранение в дискриминаторе 22 сигналов решения для предыдущего кадра.

Если обнаружена потеря кадра, то обновление внутренних коэффициентов фильтра модификатора 24 параметров, управляющего фильтрацией нижних частот и/или расширением полосы пропускания, может быть остановлено или ограничено.

Спектральный наклон пост-фильтра (если он имеется), может быть сохранен равным наклону для предыдущего кадра.

Так как различные параметры влияют на различные блоки, показанные на чертеже (детектор 20 речи, дискриминатор 22 сигналов, модификатор 24 параметров и пост-фильтр, если он имеется), ясно, что в случае потери кадра может выполняться одно или несколько из этих действий.

Из вышесказанного также понятно, что если теряется несколько последовательных кадров, то переменные внутреннего состояния приемника будут сохраняться (или по существу сохраняться) равными значениям, соответствующим последнему принятому кадру.

Изобретение было описано применительно к системе радиосвязи, основанной на передаче кадров, в которой кадры иногда "изымаются" из канала основного трафика, чтобы быть использованными для других целей. Однако те же самые принципы могут быть применены, если кадры теряются по другим причинам, например, в сети с коммутацией пакетов, где пакеты (они могут рассматриваться или как целые кадры, или как части кадра) используют различные маршруты от передатчика до приемника и могут быть "потеряны" из-за слишком позднего прибытия или действительной потери пакетов во время передачи.

Предпочтительный вариант осуществления способа согласно изобретению поясняется с помощью двух программных модулей на языке Паскаль в Приложении.

Очевидно, что возможны различные усовершенствования и изменения настоящего изобретения, не выходящие за пределы его сущности и объема, определенного формулой изобретения.

Список литературы 1. Atal B.S., Cuperman V. and A. Gersho, eds. Advances in Speech Coding. - Kluwer Academic Publishers, 1991.

2. Clark G. C., Cain J.B. Error Correction Coding for Digital Communication. - Plenum Press, 1981.

3. Proakis J.G. Digital Communication. - 2nd edition, McGraw-Hill, 1989.

4. Voice Activity Detection. Recommendation GSM 06.32, ETSI/GSM, 1991.

Формула изобретения

1. Устройство для маскирования последствий потери кадров в декодере речи приемника системы связи, основанной на передаче кадров, который представляет собой декодер типа источник-фильтр, управляемый средствами, переменные внутреннего состояния которых обновляются кадр за кадром, для модификации принятых определяющих фильтр параметров, представляющих фоновые шумы, отличающееся тем, что в него введены средства обнаружения потери кадров и средства маскирования последствий потери кадра путем ограничения обновления по меньшей мере одной из указанных переменных внутреннего состояния.

2. Устройство по п. 1, отличающееся тем, что указанные средства модификации параметров фильтра содержат детектор голосовой активности, который имеет по меньшей мере порог для принятия решений о наличии речи/фонового шума, а средства маскирования выполнены с возможностью ограничения обновления указанного порога в случае потери кадра.

3. Устройство по п. 1, отличающееся тем, что указанные средства модификации параметров фильтра содержат детектор голосовой активности для принятия решений о наличии речи/фонового шума кадр за кадром, а средства маскирования выполнены с возможностью запрещения, в случае потери кадра, обновления решения о наличии речи/фонового шума, которое получено для предыдущего кадра.

4. Устройство по п. 2 или 3, отличающееся тем, что указанные средства модификации параметров фильтра дополнительно включают детектор стационарности для распознавания стационарных и нестационарных фоновых шумов, подключенный к выходу детектора голосовой активности и включающий по меньшей мере один буфер, содержащий оценки статистических моментов последних кадров с преобладанием фоновых шумов для принятия решения о стационарности, причем средства маскирования выполнены с возможностью ограничения обновления содержимого буфера в случае потери кадра.

5. Устройство по п. 2 или 3, отличающееся тем, что указанные средства модификации параметров фильтра дополнительно содержат подключенный к выходу детектора голосовой активности детектор стационарности для распознавания стационарных и нестационарных фоновых шумов, причем средства маскирования выполнены с возможностью запрещения, в случае потери кадра, обновления решения о стационарности/нестационарности, полученного для предыдущего кадра.

6. Устройство по одному из пп. 2 - 5, отличающееся тем, что указанные средства модификации параметров фильтра содержат средства фильтрации нижних частот параметров, определяющих фильтр, а средства маскирования выполнены с возможностью ограничения, в случае потери кадра, обновления коэффициентов фильтра процесса фильтрации нижних частот.

7. Устройство по одному из пп. 2 - 6, отличающееся тем, что средства модификации параметров фильтра содержат средства увеличения полосы пропускания фильтра, представленного определяющими его параметрами, а средства маскирования выполнены с возможностью ограничения, в случае потери кадра, обновления коэффициентов фильтра.

8. Устройство по п. 6 или 7, отличающееся тем, что в него введен пост-фильтр для модификации наклона спектра декодированного сигнала, а средства маскирования выполнены с возможностью ограничения, в случае потери кадра, обновления информации о наклоне спектра.

9. Способ маскирования последствий потери кадров в декодере речи приемника системы радиосвязи, основанной на передаче кадров, в соответствии с которым используют декодер речи типа источник-фильтр, включающий средства, переменные внутреннего состояния которых обновляются кадр за кадром, для модификации принятых определяющих фильтр параметров, представляющих фоновые шумы, отличающийся тем, что обнаруживают потерю кадров и маскируют последствия потери кадров путем ограничения обновления по меньшей мере одной из указанных переменных внутреннего состояния.

10. Способ по п. 9, отличающийся тем, что используют средства модификации параметров фильтра, включающие детектор голосовой активности, имеющий по меньшей мере порог для принятия решения о наличии речи/фонового шума, а при выполнении операции маскирования ограничивают обновление указанного порога в случае потери кадра.

11. Способ по п. 9, отличающийся тем, что используют средства модификации параметров фильтра, включающие детектор голосовой активности для принятия решения о наличии речи/фонового шума кадр за кадром, а при выполнении операции маскирования в случае потери кадра запрещают обновление решения о наличии речи/фонового шума, которое получено для предыдущего кадра.

12. Способ по п. 10 или 11, отличающийся тем, что используют средства модификации параметров фильтра, включающие детектор стационарности для распознавания стационарных и нестационарных фоновых шумов, соединенный с выходом детектора голосовой активности и содержащий по меньшей мере один буфер для хранения оценок статистических моментов последних кадров с преобладанием фоновых шумов для принятия решения о стационарности, а при выполнении операции маскирования ограничивают обновление содержимого указанного буфера в случае потери кадра.

13. Способ по п. 10 или 11, отличающийся тем, что используют средства модификации параметров фильтра, включающие детектор стационарности для распознавания стационарных и нестационарных фоновых шумов, соединенный с выходом детектора голосовой активности, а при выполнении операции маскирования в случае потери кадра запрещают обновление решения о стационарности/нестационарности, полученного для предыдущего кадра.

14. Способ по одному из пп. 10 - 13, отличающийся тем, что используют средства модификации параметров фильтра, включающие средства фильтрации нижних частот параметров фильтра, и ограничивают обновление коэффициентов фильтра процесса фильтрации нижних частот в случае потери кадра.

15. Способ по одному из пп. 10 - 14, отличающийся тем, что используют средства модификации параметров фильтра, включающие средства расширения полосы пропускания фильтра, представленного этими параметрами, и ограничивают обновление коэффициентов фильтра в случае потери кадра.

16. Способ по п. 14 или 15, отличающийся тем, что наклон спектра декодированного сигнала модифицируют с помощью пост-фильтра и ограничивают обновление информации о наклоне спектра в случае потери кадра.

РИСУНКИ

Рисунок 1, Рисунок 2, Рисунок 3, Рисунок 4, Рисунок 5, Рисунок 6, Рисунок 7, Рисунок 8, Рисунок 9, Рисунок 10, Рисунок 11, Рисунок 12, Рисунок 13, Рисунок 14, Рисунок 15, Рисунок 16, Рисунок 17, Рисунок 18

Изобретение относится к речевой информатике и может быть использовано в различных системах речевого взаимодействия человека с ЭВМ

Устройство для синтеза речевых сигналов // 1798814

Способ и устройство для маскирования отброшенных кадров // 2120667

Изобретение относится к маскированию отброшенных кадров в системе радиосвязи и касается, в частности, устройства и способа для улучшения декодирования сигналов звуковой частоты в таких системах

Устройство и способ маскирования ошибок // 2120668

Изобретение относится к маскированию ошибок передачи в системе радиосвязи и касается, в частности устройства и способа для улучшения декодирования фоновых шумов в такой системе

Способ фоностенографирования // 2140103

Изобретение относится к способам регистрации речевых сообщений и может найти применение при фоностенографировании