Оценивание фонового шума в аудиосигналах
Изобретение относится к области вычислительной техники для обработки аудиосигналов. Технический результат заключается в повышении точности оценивания фонового шума в аудиосигналах. Технический результат достигается за счет первого коэффициента усиления линейного предсказания, вычисленного как соотношение между энергией остаточного сигнала из первого линейного предсказания и энергией остаточного сигнала из второго линейного предсказания для сегмента аудиосигнала, причем второе линейное предсказание происходит из более высокого порядка, чем первое линейное предсказание; и второго коэффициента усиления линейного предсказания, вычисленного как соотношение между энергией остаточного сигнала из второго линейного предсказания и энергией остаточного сигнала из третьего линейного предсказания для сегмента аудиосигнала, причем третье линейное предсказание происходит из более высокого порядка, чем второе линейное предсказание; определения, содержит ли сегмент аудиосигнала паузу, на основе, по меньшей мере, упомянутого по меньшей мере одного параметра; и если определено, что сегмент аудиосигнала содержит паузу, обновления оценки фонового шума на основе сегмента аудиосигнала. 4 н. и 10 з.п. ф-лы, 24 ил.
ОБЛАСТЬ ТЕХНИКИ, К КОТОРОЙ ОТНОСИТСЯ ИЗОБРЕТЕНИЕ
Варианты осуществления настоящего изобретения относятся к обработке аудиосигнала, и в частности к оцениванию фонового шума, например, для поддержки заключения по активности звука.
УРОВЕНЬ ТЕХНИКИ
В системах связи, использующих прерывистую передачу (DTX), важно найти баланс между эффективностью и не уменьшением качества. В таких системах используется детектор активности для указания активных сигналов, например, речи или музыки, которые должны активно кодироваться, и сегментов с фоновыми сигналами, которые могут быть заменены комфортным шумом, сгенерированным на стороне приемника. Если детектор активности слишком эффективен в определении неактивности, он будет вносить усечение в активный сигнал, которое тогда воспринимается как субъективное ухудшение качества, когда усеченный активный сегмент заменяется комфортным шумом. В то же время, эффективность DTX уменьшается, если детектор активности недостаточно эффективен и классифицирует сегменты фонового шума как активные и затем активно кодирует фоновый шум вместо вхождения в DTX-режим с комфортным шумом. В большинстве случаев проблема усечения рассмотрена плохо.
Фигура 1 показывает обзорную блок-схему обобщенного детектора активности звука, SAD или детектора активности голоса, VAD, который принимает аудиосигнал в качестве ввода и выдает заключение по активности в качестве вывода. Входной сигнал делится на кадры данных, т.е. сегменты аудиосигнала, например, по 5-30 мс, в зависимости от реализации, и одно заключение по активности по каждому кадру выдается в качестве вывода.
Первичное заключение, "первичное", делается первичным детектором, проиллюстрированным на Фигуре 1. Первичное заключение является по существу лишь сравнением признаков текущего кадра с признаками фона, которые оцениваются исходя из предыдущих входных кадров. Разность между признаками текущего кадра и признаками фона, которая больше, чем порог, вызывает первичное заключение по активности. Блок добавления размытия используется для расширения первичного заключения на основе прошлых первичных заключений для формирования итогового заключения, "флага". Причина для использования размытия состоит главным образом в уменьшении/устранении риска усечения средней и задней частей всплеска активности. Как указано на Фигуре, контроллер операций может регулировать порог(и) для первичного детектора и длительность добавления размытия согласно характеристикам входного сигнала. Блок оценщика фона используется для оценивания фонового шума во входном сигнале. Фоновый шум в настоящем документе может также называться "фоном" или "признаком фона".
Оценивание признака фона может быть сделано согласно двум принципиально разным принципам, либо посредством использования первичного заключения, т.е. с обратной связью заключения (принятия решения) или метрики заключения, которое указано штрихпунктирной линией на Фигуре 1, или посредством использования некоторых других характеристик входного сигнала, т.е. без обратной связи заключения. Также возможно использовать комбинации двух стратегий.
Примером кодека, использующего обратную связь заключения для оценивания фона, является AMR-NB (адаптированный многоскоростной узкополосный кодек), и примерами кодеков, где обратная связь заключения не используется, являются EVRC (усовершенствованный кодек с переменной скоростью) и G.718.
Есть некоторое число разных характеристик или признаков сигнала, которые могут быть использованы, но одним общим признаком, используемым в VAD, являются частотные характеристики входного сигнала. Широко используемым типом частотных характеристик является энергия кадра поддиапазона, из-за его низкой сложности и надежного функционирования при низком SNR. Вследствие этого предполагается, что входной сигнал разбивается на разные частотные поддиапазоны, и уровень фона оценивается для каждого из поддиапазонов. Таким образом, одним из признаков фонового шума является вектор со значениями энергии для каждого поддиапазона. Это значения, которые характеризуют фоновый шум во входном сигнале в частотной области.
Для достижения отслеживания фонового шума обновление актуальной оценки фонового шума может совершаться по меньшей мере тремя разными способами. Одним способом является использование авторегрессивного, AR, процесса по каждому частотному элементу для осуществления обновления. Примерами таких кодеков являются AMR-NB и G.718. В основном, для этого типа обновления, размер шага обновления пропорционален наблюдаемой разности между текущим вводом и текущей оценкой фона. Другим способом является использование мультипликативного масштабирования текущей оценки с ограничением, что оценка никогда не может быть больше, чем текущий ввод, или меньше, чем минимальное значение. Это означает, что оценка увеличивается с каждым кадром, пока она не станет выше, чем текущий ввод. В этой ситуации текущий ввод используется как оценка. EVRC является примером кодека, использующего этот способ для обновления оценки фона для функции VAD. Следует отметить, что EVRC использует разные оценки фона для VAD и подавления шума. Следует отметить, что VAD может быть использован в других контекстах, нежели DTX. Например, кодеках с переменной скоростью, таких как EVRC, VAD может быть использован как часть функции определения скорости.
Третьим способом является использование так называемого способа минимума, где оценка имеет минимальное значение в течение скользящего временного окна предыдущих кадров. Это в основном дает минимальную оценку, которая масштабируется, с использованием компенсационного коэффициента, чтобы получить и аппроксимировать среднюю оценку для стационарного шума.
В случаях с высоким SNR, где уровень сигнала для активного сигнала гораздо выше, чем фоновый сигнал, может быть достаточно просто сделать заключение о том, является ли входной аудиосигнал активным или неактивным. Однако, очень трудно разделить активные и неактивные сигналы в случаях с низким SNR, и в частности, когда фон является нестационарным или даже схожим с активным сигналом по своим характеристикам.
Эксплуатационные характеристики VAD зависят от способности оценщика фонового шума отслеживать характеристики фона, в частности, когда это касается нестационарных фонов. При лучшем отслеживании, возможно сделать VAD более эффективным без увеличения риска усечения речи.
Хотя корреляция является важными признаком, который используется для обнаружения речи, в основном, голосовой части речи, есть также сигналы шума, которые показывают высокую корреляцию. В этих случаях шум с корреляцией будет препятствовать обновлению оценок фонового шума. Результатом является высокая активность, так как речь и фоновый шум кодируются как активный контент. Хотя для высоких SNR (приблизительно > 20 дБ) будет возможно уменьшить проблему с использованием обнаружения паузы на основе энергии, это ненадежно для SNR-диапазона 20 дБ - 10 дБ или возможно 5 дБ. Оно находится в таком диапазоне, что решение, описанное в настоящем документе имеет влияние.
СУЩНОСТЬ ИЗОБРЕТЕНИЯ
Было бы желательно достичь улучшенного оценивания фонового шума в аудиосигналах. "Улучшенное" здесь может предполагать выдачу более точного заключения (решения) в отношении того, содержит аудиосигнал активную речь или музыку или нет, и таким образом более частое оценивание, например, обновление предыдущей оценки, причем фоновый шум в сегментах аудиосигнала фактически свободен от активного контента, такого как речь и/или музыка. Здесь предусматривается улучшенный способ генерирования оценки фонового шума, который может обеспечить, например, детектору активности звука возможность делать более адекватные заключения.
Для оценивания фонового шума в аудиосигналах важно иметь возможность нахождения надежных признаков для идентификации характеристик сигнала фонового шума, также когда входной сигнал содержит неизвестную смесь активных и фоновых сигналов, где активные сигналы могут содержать речь и/или музыку.
Изобретатель понял, что признаки, относящиеся к остаточным энергиям для разных порядков моделей линейного предсказания, могут быть использованы для обнаружения пауз в аудиосигналах. Эти остаточные энергии могут быть извлечены, например, из анализа линейного предсказания, что является общим для кодеков речи. Признаки могут быть отфильтрованы и объединены, чтобы сделать набор признаков или параметров, которые могут быть использованы для обнаружения фонового шума, что делает решение подходящим для использования при оценивании шума. Решение, описанное в настоящем документе, является частично эффективным для условий, когда SNR находится в диапазоне 10-20 дБ.
Другим признаком, предусмотренным в настоящем документе, является показатель спектральной близости к фону, который может быть сделан, например, посредством использования энергий поддиапазона частотной области, которые используются, например, в поддиапазоне SAD. Показатель спектральной близости может также быть использован, чтобы сделать заключение, содержит ли аудиосигнал паузу или нет.
Согласно первому аспекту, предусматривается способ оценивания фонового шума. Способ содержит получение по меньшей мере одного параметра, ассоциированного с сегментом аудиосигнала, таким как кадр или часть кадра, на основе первого коэффициента усиления линейного предсказания, вычисленного как соотношение между остаточным сигналом из линейного предсказания 0-го порядка и остаточным сигналом из линейного предсказания 2-го порядка для сегмента аудиосигнала; и, второго коэффициента усиления линейного предсказания, вычисленного как соотношение между остаточным сигналом из линейного предсказания 2-го порядка и остаточным сигналом из линейного предсказания 16-го порядка для сегмента аудиосигнала. Способ дополнительно содержит определение, содержит ли сегмент аудиосигнала паузу, на основе, по меньшей мере, полученного по меньшей мере одного параметра; и, обновление оценки фонового шума на основе сегмента аудиосигнала, когда сегмент аудиосигнала содержит паузу.
Согласно второму аспекту предусматривается оценщик фонового шума. Оценщик фонового шума выполнен с возможностью получения по меньшей мере одного параметра, ассоциированного с сегментом аудиосигнала, на основе первого коэффициента усиления линейного предсказания, вычисленного как соотношение между остаточным сигналом из линейного предсказания 0-го порядка и остаточным сигналом из линейного предсказания 2-го порядка для сегмента аудиосигнала; и, второго коэффициента усиления линейного предсказания, вычисленного как соотношение между остаточным сигналом из линейного предсказания 2-го порядка и остаточным сигналом из линейного предсказания 16-го порядка для сегмента аудиосигнала. Оценщик фонового шума дополнительно выполнен с возможностью определения, содержит ли сегмент аудиосигнала паузу, на основе, по меньшей мере, упомянутого полученного по меньшей мере одного параметра; и, обновления оценки фонового шума на основе сегмента аудиосигнала, когда сегмент аудиосигнала содержит паузу.
Согласно третьему аспекту предусматривается SAD, который содержит оценщик фонового шума согласно второму аспекту.
Согласно четвертому аспекту предусматривается кодек, который содержит оценщик фонового шума согласно второму аспекту.
Согласно пятому аспекту предусматривается устройство связи, которое содержит оценщик фонового шума согласно второму аспекту.
Согласно шестому аспекту предусматривается узел сети, который содержит оценщик фонового шума согласно второму аспекту.
Согласно седьмому аспекту предусматривается компьютерная программа, содержащая инструкции, которые при исполнении, по меньшей мере, на одном процессоре предписывают по меньшей мере одному процессору осуществить способ согласно первому аспекту.
Согласно восьмому аспекту предусматривается носитель, который содержит компьютерную программу согласно седьмому аспекту.
КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ
Вышеприведенные и другие объекты, признаки и преимущества технологии, раскрытой в настоящем документе, будут понятны из нижеследующего более конкретного описания вариантов осуществления, которые проиллюстрированы на прилагаемых чертежах. Чертежи необязательно находятся в масштабе, акцент вместо этого смещен на иллюстрацию принципов технологии, раскрытой в настоящем документе.
Фигура 1 является блок-схемой, иллюстрирующей детектор активности и логику определения размытия.
Фигура 2 является схемой последовательности операций, иллюстрирующей способ оценивания фонового шума, согласно примерному варианту осуществления.
Фигура 3 является блок-схемой, иллюстрирующей вычисление признаков, относящихся к остаточным энергиям для линейного предсказания порядка 0 и 2, согласно примерному варианту осуществления.
Фигура 4 является блок-схемой, иллюстрирующей вычисление признаков, относящихся к остаточным энергиям для линейного предсказания порядка 2 и 16, согласно примерному варианту осуществления.
Фигура 5 является блок-схемой, иллюстрирующей вычисление признаков, относящихся к показателю спектральной близости, согласно примерному варианту осуществления.
Фигура 6 является блок-схемой, иллюстрирующей поддиапазон оценщика фона на основе энергии поддиапазона.
Фигура 7 является схемой последовательности операций, иллюстрирующей логику заключения по обновлению фона, исходя из решения, описанного в Приложении A.
Фигуры 8-10 являются схемами, иллюстрирующими поведение разных параметров, представленных в настоящем документе, при вычислении для аудиосигнала, содержащего два всплеска речи.
Фигуры 11a-11c и 12-13 являются блок-схемами, иллюстрирующими разные реализации оценщика фонового шума, согласно примерным вариантам осуществления.
Фигуры A2-A9 на страницах с Фигурами, отмеченных как "Приложение A", ассоциированы с Приложением A, и на них ссылаются в упомянутом Приложении A с помощью номера, следующего за буквой "A", т.е. 2-9.
ПОДРОБНОЕ ОПИСАНИЕ
Решение, раскрытое в настоящем документе, относится к оцениванию фонового шума в аудиосигналах. В обобщенном детекторе активности, проиллюстрированном на Фигуре 1, функция оценивания фонового шума выполняется блоком, обозначенным как "оценщик фона". Некоторые варианты осуществления решения, описанного в настоящем документе, можно увидеть в отношении решений, описанных ранее в WO2011/049514, WO2011/049515, которые включены в настоящий документ посредством ссылки, и также в Приложении A (Приложении A). Решение, раскрытое в настоящем документе, будет сравнивается с реализациями этих ранее описанных решений. Даже если решения, раскрытые в WO2011/049514, WO2011/049515 и Приложении A, являются хорошими решениями, решение, представленное в настоящем документе, все равно имеет преимущества относительно этих решений. Например, решение, представленное в настоящем документе, является даже более адекватным в своем отслеживании фонового шума.
Эксплуатационные характеристики VAD зависят от способности оценщика фонового шума отслеживать характеристики фона, в частности, когда это касается нестационарных фонов. При лучшем отслеживании, возможно сделать VAD более эффективным без увеличения риска усечения речи.
Одна проблема с текущим способом оценивания шума состоит в том, что для того, чтобы достичь хорошего отслеживания фонового шума при низком SNR, требуется надежный детектор паузы. Для ввода только речи, возможно использовать частоту следования слогов или тот факт, что человек не может говорить все время, чтобы находить паузы в речи. Такие решения могут предусматривать, что спустя достаточное время не совершения обновлений фона, требования для обнаружения паузы "ослабляются", так чтобы вероятность обнаружить паузу в речи была больше. Это обеспечивает возможность для ответа на резкие изменения в уровне или характеристиках шума. Некоторыми примерами такой логики восстановления шума являются: 1) Так как фрагменты речи содержат сегменты с высокой корреляцией, обычно безопасно предполагать, что в речи есть пауза после достаточного числа кадров без корреляции. 2) Когда соотношение сигнал-шум SNR > 0, энергия речи выше, чем фоновый шум, так если энергия кадра близка к минимальной энергии в течение длительного времени, например 1-5 секунд, также безопасно предположить, что энергия кадра находится в паузе речи. Хотя предыдущие способы хорошо работают с вводом только речи, они недостаточны, когда музыка считается активным вводом. В музыке могут быть длинные сегменты с низкой корреляцией, которые все равно являются музыкой. К тому же, динамика энергии в музыке может также запустить обнаружение ложной паузы, что может привести к нежелательным, ошибочным обновлениям оценки фонового шума.
В идеальном случае обратная функция детектора активности, или то, что будет называться "детектором возникновения паузы", потребуется для управления оцениванием шума. Это будет гарантировать, что обновление характеристик фонового шума совершено, только когда в текущем кадре нет активного сигнала. Однако, как указано выше, определение, содержит ли сегмент аудиосигнала активный сигнал или нет, является непростой задачей.
Обычно, когда было известно, что активный сигнал является речевым сигналом, детектор активности назывался детектором активности голоса (VAD). Термин VAD для детекторов активности часто используется также, когда входной сигнал может содержать музыку. Однако, в современных кодеках, детектор активности также обычно называют детектором активности звука (SAD), когда также музыка должна обнаруживаться как активный сигнал.
Оценщик фона, проиллюстрированный на Фигуре 1, использует обратную связь от первичного детектора и/или блок размытия для локализации неактивных сегментов аудиосигнала. При разработке технологии, описанной в настоящем документе, было желание устранить, или по меньшей мере уменьшить, зависимость от такой обратной связи. Для раскрытого в настоящем документе оценивания фона, вследствие этого изобретателем было идентифицировано, что важно иметь возможность нахождения надежных признаков для идентификации характеристик фоновых сигналов, когда доступен только входной сигнал с неизвестной смесью активного и фонового сигнала. Изобретатель кроме того понял, что нельзя предполагать, что входной сигнал начинается с сегмента шума, или даже что входной сигнал является речью, смешанной с шумом, так как может быть, что активный сигнал является музыкой.
Один аспект состоит в том, что даже если текущий кадр может иметь такой же уровень энергии как и текущая оценка шума, частотные характеристики могут быть очень разными, что делает нежелательным выполнение обновления оценки шума с использованием текущего кадра. Представленный признак близости, имеющий отношение к обновлению фонового шума, может быть использован для препятствования обновлению в этих случаях.
К тому же, во время инициализации желательно обеспечить возможность начала оценивания шума как можно раньше, при этом избегая неправильных заключений, так как это в может привести к усечению от SAD, если обновление фонового шума совершается с использованием активного контента. Использование характерной для инициализации версии признака близости во время инициализации может по меньшей мере частично решить эту проблему.
Решение, описанное в настоящем документе относится к способу оценивания фонового шума, в частности к способу обнаружения пауз в аудиосигнале, который хорошо выполняется в ситуациях со сложным SNR. Решение будет описано ниже со ссылкой на Фигуры 2-5.
В области кодирования речи широко используется так называемое линейное предсказание для анализа спектральной формы входного сигнала. Анализ обычно делается два раза на кадр, и для улучшенной точности по времени результаты затем интерполируются, вследствие чего есть фильтр, сгенерированный для каждого 5 мс блока входного сигнала.
Линейное предсказание является математической операцией, где будущие значения дискретного по времени сигнала оцениваются как линейная функция предыдущих выборок. При цифровой обработке сигналов, линейное предсказание часто называется кодированием с линейным предсказанием (LPC) и таким образом может рассматриваться как поднабор теории фильтров. В линейном предсказании в кодере речи, фильтр линейного предсказания A(z) применяется к входному речевому сигналу. A(z) является фильтром с одними нулями, который при применении к входному сигналу, удаляет избыточность, которая может быть смоделирована с использованием фильтра A(z) из входного сигнала. Вследствие этого выходной сигнал из фильтра имеет меньшую энергию, чем входной сигнал, когда фильтр успешен в моделировании некоторого аспекта или аспектов входного сигнала. Этот выходной сигнал обозначен как "остаток", "остаточная энергия" или "остаточный сигнал". Такие фильтры линейного предсказания, в качестве альтернативы обозначение остаточными фильтрами, могут иметь разный порядок моделей, имеющий разное число коэффициентов фильтра. Например, для того, чтобы правильно смоделировать речь, может потребоваться фильтр линейного предсказания с порядком модели 16. Таким образом, в кодере речи может быть использован фильтр линейного предсказания A(z) с порядком модели 16.
Изобретатель понял, что признаки, относящиеся к линейному предсказанию, могут быть использованы для обнаружения пауз в аудиосигналах в SNR-диапазоне 20 дБ - 10 дБ или возможно 5дБ. Согласно вариантам осуществления решения, описанного в настоящем документе, отношение между остаточными энергиями для разных порядков моделей для аудиосигнала используется для обнаружения пауз в аудиосигнале. Используемое отношение является соотношением между остаточной энергией более низкого порядка модели и более высокого порядка модели. Соотношение между остаточными энергиями может называться "коэффициентом усиления линейного предсказания", так как оно является указателем того, сколько энергии сигнала фильтр линейного предсказания имеет возможность смоделировать, или удалить, между одним порядком модели и другим порядком модели.
Остаточная энергия будет зависеть от порядка модели M фильтра линейного предсказания A(z). Общим способом вычисления коэффициентов фильтра для фильтра линейного предсказания является алгоритм Левинсона-Дарбина. Этот алгоритм является рекурсивным и будет в процессе создания фильтра A(z) предсказания порядка M также, в качестве "побочного продукта", производить остаточные энергии более низких порядков моделей. Этот факт может быть использован согласно вариантам осуществления данного изобретения.
Фигура 2 показывает примерный общий способ оценивания фонового шума в аудиосигнале. Способ может быть выполнен оценщиком фонового шума. Способ содержит получение 201 по меньшей мере одного параметра, ассоциированного с сегментом аудиосигнала, таким как кадр или часть кадра, на основе первого коэффициента усиления линейного предсказания, вычисленного как соотношение между остаточным сигналом из линейного предсказания 0-го порядка и остаточным сигналом из линейного предсказания 2-го порядка для сегмента аудиосигнала; и, второго коэффициента усиления линейного предсказания, вычисленного как соотношение между остаточным сигналом из линейного предсказания 2-го порядка и остаточным сигналом из линейного предсказания 16-го порядка для сегмента аудиосигнала.
Способ дополнительно содержит определение 202, содержит ли сегмент аудиосигнала паузу, т.е. свободен от активного контента, такого как речь и музыка, на основе по меньшей мере полученного по меньшей мере одного параметра; и, обновление 203 оценки фонового шума на основе сегмента аудиосигнала, когда сегмент аудиосигнала содержит паузу. То есть, способ содержит обновление оценки фонового шума, когда в сегменте аудиосигнала обнаружена пауза, на основе, по меньшей мере, полученного по меньшей мере одного параметра.
Коэффициенты усиления линейного предсказания могут быть описаны как первый коэффициент усиления линейного предсказания, относящийся к линейному предсказанию, начиная с 0-го порядка до 2-го порядка, для сегмента аудиосигнала; и второй коэффициент усиления линейного предсказания, относящийся к линейному предсказанию, начиная со 2-го порядка до 16-го порядка, для сегмента аудиосигнала. К тому же, получение по меньшей мере одного параметра может в качестве альтернативы быть описано как определение, вычисление, выведение или создание. Остаточные энергии, относящиеся к линейным предсказаниям порядка модели 0, 2 и 16, могут быть получены, приняты или извлечены, т.е. предоставлены каким-то образом, из части кодера, где линейное предсказание выполняется как часть обычного процесса кодирования. Тем самым, вычислительная сложность решения, описанного в настоящем документе, может быть уменьшена, в сравнении с тем, когда остаточные энергии должны быть выведены специально для оценивания фонового шума.
По меньшей мере один параметр, описанный на основе признаков линейного предсказания, может обеспечить независимый от уровня анализ входного сигнала, который улучшает заключение, выполнять ли обновление фонового шума или нет. Решение особенно полезно в SNR-диапазоне 10-20 дБ, где SAD на основе энергии имеют ограниченные эксплуатационные характеристики из-за нормального динамического диапазона речевых сигналов.
Здесь, среди прочего, переменные E(0), …,E(m), …, E(M) представляют остаточные энергии для порядков моделей от 0 до M для M+1 фильтров Am(z). Следует отметить, что E(0) является просто входной энергией. Анализ аудиосигнала согласно решению, описанному в настоящем документе, предоставляет несколько новых признаков или параметров посредством анализа коэффициента усиления линейного предсказания, вычисленного как соотношение между остаточным сигналом из линейного предсказания 0-го порядка и остаточным сигналом из линейного предсказания 2-го порядка, и коэффициента усиления линейного предсказания, вычисленного как соотношение между остаточным сигналом из линейного предсказания 2-го порядка и остаточным сигналом из линейного предсказания 16-го порядка. То есть, коэффициент усиления линейного предсказания, начиная с линейного предсказания 0-го порядка до 2-го порядка, является таким же, как и "остаточная энергия" E(0) (для 0-го порядка модели), деленная на остаточную энергию E(2) (для 2-го порядка модели). Соответственно, коэффициент усиления линейного предсказания, начиная с линейного предсказания 2-го порядка до линейного предсказания 16-го порядка, является таким же, как и остаточная энергия E(2) (для 2-го порядка модели), деленная на остаточную энергию E(16) (для 16-го порядка модели). Примеры параметров и определение параметров на основе коэффициентов усиления предсказания будут дополнительно подробно рассмотрены ниже. По меньшей мере один параметр, полученный согласно основному варианту осуществления, описанному выше, может образовать часть критерия заключения, используемого для оценивания, обновить ли оценку фонового шума или нет.
Для того, чтобы улучшить долгосрочную стабильность по меньшей мере одного параметра или признака, может быть вычислена ограниченная версия коэффициента усиления предсказания. То есть, получение по меньшей мере одного параметра может содержать ограничение коэффициентов усиления линейного предсказания, относящихся к линейному предсказанию начиная с 0-го порядка до 2-го порядка и со 2-го порядка до 16-го порядка, чтобы принять значения в предварительно заданном интервале. Например, коэффициенты усиления линейного предсказания могут быть ограничены так, чтобы принимать значения между 0 и 8, как проиллюстрировано, например, в Ур. 1 и Ур. 6 ниже.
Получение по меньшей мере одного параметра может дополнительно содержать создание по меньшей мере одной долгосрочной оценки каждого из первого и второго коэффициента усиления линейного предсказания, например, посредством низкочастотной фильтрации. Такая по меньшей мере одна долгосрочная оценка будет дополнительно основываться на соответствующих коэффициентах усиления линейного предсказания, ассоциированных по меньшей мере с одним предшествующим сегментом аудиосигнала. Может быть создана более, чем одна долгосрочная оценка, где например, первая и вторая долгосрочная оценка, относящиеся к коэффициенту усиления линейного предсказания, по-разному реагируют на изменения в аудиосигнале. Например, первая долгосрочная оценка может реагировать на изменения быстрее, чем вторая долгосрочная оценка. Такая первая долгосрочная оценка может в качестве альтернативы обозначаться как краткосрочная оценка.
Получение по меньшей мере одного параметра может дополнительно содержать определение разности, такой как абсолютная разность Gd_0_2 (Ур. 3), описанная ниже, между одним из коэффициентов усиления линейного предсказания, ассоциированным с сегментом аудиосигнала, и долгосрочной оценкой упомянутого коэффициента усиления линейного предсказания. В качестве альтернативы или в дополнение, может быть определена разность между двумя долгосрочными оценками, так как в Ур. 9 ниже. Термин "определение" может в качестве альтернативы быть заменен на "вычисление", "создание" или "выведение".
Получение по меньшей мере одного параметра может, как указано выше, содержать низкочастотную фильтрацию коэффициентов усиления линейного предсказания, таким образом выведение долгосрочных оценок, некоторые из которых могут в качестве альтернативы быть обозначены как краткосрочные оценки, в зависимости от того, сколько сегментов, которые учитываются в оценке. Коэффициенты фильтра по меньшей мере одного низкочастотного фильтра могут зависеть от отношения между коэффициентом усиления линейного предсказания, относящимся, например, только к текущему сегменту аудиосигнала, и средним, обозначенным, например, долгосрочным средним, или долгосрочной оценкой, соответствующего коэффициента усиления предсказания, полученного на основе множества предшествующих сегментов аудиосигнала. Это может быть выполнено для создания, например, дополнительно, долгосрочных оценок коэффициентов усиления предсказания. Низкочастотная фильтрация может быть выполнена за два или более этапов, где каждый этап может дать в результате параметр, или оценку, который используется для выдачи заключения в зависимости от присутствия паузы в сегменте аудиосигнала. Например, разные долгосрочные оценки (такие как G1_0_2 (Ур. 2) и Gad_0_2 (Ур. 4), и/или, G1_2_16 (Ур. 7), G2_2_16 (Ур. 8) и Gad_2_16 (Ур. 10), описанные ниже), которые отражают изменения в аудиосигнале разным образом, можно проанализировать или сравнить, для того, чтобы обнаружить паузу в текущем сегменте аудиосигнала.
Определение 202, содержит ли сегмент аудиосигнала паузу или нет, может дополнительно основываться на показателе спектральной близости, ассоциированном с сегментом аудиосигнала. Показатель спектральной близости будет указывать, как близко уровень энергии "по каждому частотному диапазону" для обрабатываемого в текущий момент сегмента аудиосигнала находится к уровню энергии "по каждому частотному диапазону" для текущей оценки фонового шума, например, первоначального значения или оценки, которая является результатом предыдущего обновления, сделанного до анализа текущего сегмента аудиосигнала. Пример определения или выведения показателя спектральной близости приведен ниже в уравнениях Ур. 12 и Ур. 13. Показатель спектральной близости может быть использован для препятствования обновлениям шума на основе кадров с низкой энергией с большой разностью в частотных характеристиках, по сравнению с текущей оценкой фона. Например, средняя энергия по частотным диапазонам может быть в равной степени низкой для текущего сегмента сигнала и текущей оценки фонового шума, но показатель спектральной близости будет выявлен, если энергия по-разному распределяется по частотным диапазонам. Такая разность в распределении энергии может предполагать, что текущий сегмент сигнала, например, кадр, может быть контентом с низким уровнем активности, и обновление оценки фонового шума на основе кадра может, например, препятствовать обнаружению будущих кадров с аналогичным контентом. Так как поддиапазон SNR наиболее чувствителен к увеличениям энергии, использование даже контента с низким уровнем активности может привести к большому обновлению оценки фона, если этот конкретный частотный диапазон не существует в фоновом шуме, как например, высокочастотная часть речи в сравнении с низкочастотным шумом автомобиля. После такого обновления будет гораздо сложнее обнаружить речь.
Как уже предложено выше, показатель спектральной близости может быть выведен, получен или вычислен на основе энергий для набора частотных диапазонов, в качестве альтернативы обозначенных как поддиапазоны, анализируемого в текущий момент сегмента аудиосигнала, и текущей оценки фонового шума, соответствующей набору частотных диапазонов. Это будет также приведено в качестве примера и дополнительно описано более подробно ниже, и проиллюстрировано на Фигуре 5.
Как указано выше, показатель спектральной близости может быть выведен, получен или вычислен посредством сравнения текущего уровня энергии по каждому частотному диапазону для обрабатываемого в текущий момент сегмента аудиосигнала с уровнем энергии по каждому частотному диапазону для текущей оценки фонового шума. Однако, для начала, т.е. во время первого периода или первого числа кадров в начале анализа аудиосигнала, может не быть надежной оценки фонового шума, например, так как еще не было выполнено надежное обновление оценки фонового шума. Вследствие этого, период инициализации может быть применен для определения значения спектральной близости. Во время такого периода инициализации, уровни энергии по каждому частотному диапазону для текущего сегмента аудиосигнала будут вместо этого сравниваться с первоначальной оценкой фона, которая может иметь, например, конфигурируемое постоянное значение. Дополнительно в примерах ниже, этой первоначальной оценке фонового шума задается примерное значение Emin=0,0035. После периода инициализации процедура может переключиться на нормальную операцию, и сравнить текущий уровень энергии по каждому частотному диапазону для обрабатываемого в текущий момент сегмента аудиосигнала с уровнем энергии по каждому частотному диапазону для текущей оценки фонового шума. Длительность периода инициализации может быть сконфигурирована, например, на основе симуляций или тестов, указывающих время, которое оно занимает до предоставления, например, надежной и/или удовлетворяющей оценки фонового шума. Используемый ниже пример, сравнение с первоначальной оценкой фонового шума (вместо с "реальной" оценкой, выведенной на основе текущего аудиосигнала) выполняется во время первых 150 кадров.
По меньшей мере одним параметром может быть параметр, приведенный в качестве примера дополнительно ниже в коде, обозначенный NEW_POS_BG, и/или один или более из множества параметров, описанных дополнительно ниже, приводящих к образованию критерия заключения или компонента в критерии заключения для обнаружения паузы. Другими словами, по меньшей мере один параметр, или признак, полученный 201 на основе коэффициентов усиления линейного предсказания, может быть одним или более из параметров, описанных ниже, может содержать один или более из параметров, описанных ниже, и/или основываться на одном или более из параметров, описанных ниже.
Признаки или параметры, относящиеся к остаточным энергиям E(0) и E(2)
Фигура 3 показывает обзорную блок-схему выведения признаков или параметров, относящихся к E(0) и E(2), согласно примерному варианту осуществления. Как может быть видно на Фигуре 3, коэффициент усиления предсказания сначала вычисляется как E(0)/E(2). Ограниченная версия коэффициента усиления предсказания вычисляется как
G_0_2=max(0,min(8,E(0)/E(2))) (Ур. 1)
где E(0) представляет собой энергию входного сигнала, и E(2) является остаточной энергией после линейного предсказания 2-го порядка. Выражение в уравнении 1 ограничивает коэффициент усиления предсказания интервалом между 0 и 8. Коэффициент усиления предсказания для обычных случаев должен быть больше, чем ноль, но могут возникнуть аномалии, например, для значений, близких к нулю, и вследствие этого ограничение "больше, чем ноль" (0<) может быть полезным. Причина ограничения коэффициента усиления предсказания до максимума 8 состоит в том, в целях решения, описанного в настоящем документе, что достаточно знать, что коэффициент усиления предсказания составляет около 8 или больше, чем 8, что указывает значительный коэффициент усиления линейного предсказания. Следует отметить, что когда нет разности между остаточной энергией между двумя разными порядками моделей, коэффициентом усиления линейного предсказания будет 1, который указывает, что фильтр более высокого порядка модели не является более успешным при моделировании аудиосигнала, чем фильтр более низкого порядка модели. К тому же, если коэффициент усиления предсказания G_0_2 будет принимать слишком высокие значения в нижеследующих выражениях, может быть риск стабильности выведенных параметров. Следует отметить, что 8 является лишь примерным значением, которое может быть выбрано для конкретного варианта осуществления. Параметр G_0_2 может в качестве альтернативы быть обозначен, например, как epsP_0_2, или .
Ограниченный коэффициент усиления предсказания затем фильтруется за два этапа для создания долгосрочных оценок для этого коэффициента усиления. Первая низкочастотная фильтрация, и таким образом выведение первого долгосрочного признака или параметра, осуществляется как:
G1_0_2=0,85 G1_0_2+0,15 G_0_2, (Ур. 2)
Где второй "G1_0_2" в выражении следует читать как значение из предшествующего сегмента аудиосигнала. Этот параметр будет обычно либо 0, либо 8, в зависимости от типа фонового шума на входе, если на входе будет только сегмент фона. Параметр G1_0_2 может в качестве альтернативы быть обозначен, например, epsP_0_2_lp или . Другой признак или параметр может быть затем создан или вычислен с использованием разности между первым долгосрочным признаком G1_0_2 и покадрово ограниченным коэффициентом усиления предсказания G_0_2, согласно:
Gd_0_2=abs(G1_0_2-G_0_2) (Ур. 3)
Это даст указание коэффициента усиления предсказания текущего кадра в сравнении с долгосрочной оценкой коэффициента усиления предсказания. Параметр Gd_0_2 может в качестве альтернативы быть обозначен, например, epsP_0_2_ad или . На Фигуре 4, эта разность используется для создания второй долгосрочной оценки или признака Gad_0_2. Это делается с использованием применения фильтром разных коэффициентов фильтра в зависимости от того, больше ли долгосрочная разность или меньше, чем оцененная в текущий момент средняя разность, согласно:
Gad_0_2=(1-a) Gad_0_2+a Gd_0_2 (Ур. 4)
где, если Gd_0_2 < Gad_0_2, то a=0,1, иначе a=0,2
Где второй "Gad_0_2" в выражении следует читать, как значение из предшествующего сегмента аудиосигнала. Параметр Gad_0_2 может в качестве альтернативы быть обозначен, например, Glp_0_2, epsP_0_2_ad_lp или . Для того, чтобы предохранить фильтрацию от маскирования эпизодических высоких разностей кадров, может быть выведен другой параметр, который не показан на Фигуре. То есть, второй долгосрочный признак Gad_0_2 может быть объединен с разностью кадров для того, чтобы препятствовать такому маскированию. Этот параметр может быть выведен посредством принятия максимума версии кадра Gd_0_2 и долгосрочной версии Gad_0_2 признака коэффициента усиления предсказания как:
Gmax_0_2=max(Gad_0_2,Gd_0_2) (Ур. 5)
Параметр Gmax_0_2 может в качестве альтернативы быть обозначен, например, epsP_0_2_ad_lp_max или .
Признаки или параметры, относящиеся к остаточным энергиям E(2) и E(16)
Фигура 4 показывает обзорную блок-схему выведения признаков или параметров, относящихся к E(2) и E(16), согласно примерному варианту осуществления. Как может быть видно на Фигуре 4, коэффициент усиления предсказания сначала вычисляется как E(2)/E(16). Признаки или параметры, созданные с использованием разности или отношения между остаточной энергии 2-го порядка и остаточной энергией 16-го порядка, выводятся несколько иначе, чем признаки и параметры, описанные выше, относящиеся к отношению между остаточными энергиями 0-го и 2-го порядка.
Здесь, так же, ограниченный коэффициент усиления предсказания вычисляется как
G_2_16=max(0,min(8,E(2)/E(16))) (Ур. 6)
где E(2) представляет собой остаточную энергию после линейного предсказания 2-го порядка, и E(16) представляет собой остаточную энергию после линейного предсказания 16-го порядка. Параметр G_2_16 может в качестве альтернативы быть обозначен, например, epsP_2_16 или . Этот ограниченный коэффициент усиления предсказания затем используется для создания двух долгосрочных оценок этого коэффициента усиления: одна, где коэффициент фильтра отличает, должна ли долгосрочная оценка быть увеличена или нет, как показано в:
G1_2_16=(1-a) G1_2_16+a G_2_16 (Ур. 7)
где если G_2_16 > G1_2_16, то a=0,2, иначе a=0,03
Параметр G1_2_16 может в качестве альтернативы быть обозначен, например, epsP_2_16_lp или .
Вторая долгосрочная оценка использует постоянный коэффициент фильтра, как согласно:
G2_2_16=(1-b) G2_2_16+b G_2_16, где b=0,02 (Ур. 8)
Параметр G2_2_16 может в качестве альтернативы быть обозначен, например, epsP_2_16_lp2 или .
Для большинства типов фоновых сигналов, и G1_2_16, и G2_2_16 будут близки к 0, но они будут иметь разные отклики на контент, где нужно линейное предсказание 16-го порядка, что типично для речи и другого активного контента. Первая долгосрочная оценка, G1_2_16, обычно будет выше, чем вторая долгосрочная оценка G2_2_16. Эта разность между долгосрочными признаками измеряется согласно:
Gd_2_16=G1_2_16 - G2_2_16 (Ур. 9)
Параметр Gd_2_16 может в качестве альтернативы быть обозначен как epsP_2_16_dlp или .
Gd_2_16 может быть затем использован как ввод в фильтр, который создает третий долгосрочный признак согласно:
Gad_2_16=(1-c) Gad_2_16+c Gd_2_16 (Ур. 10)
где если Gd_2_16 < Gad_2_16, то c=0,02, иначе c=0,05
Этот фильтр применяет разные коэффициенты фильтра в зависимости от того, должен ли быть увеличен третий долгосрочный сигнал или нет. Параметр Gad_2_16 может здесь также в качестве альтернативы обозначаться, например, epsP_2_16_dlp_lp2 или . Также здесь, долгосрочный сигнал Gad_2_16 может быть объединен с входным сигналом фильтра Gd_2_16 для предохранения фильтрации от маскирования эпизодических высоких вводов для текущего кадра. Итоговый параметр является тогда максимумом кадра или сегмента и долгосрочной версией признака
Gmax_2_16=max(Gad_2_16, Gd_2_16) (Ур. 11)
Параметр Gmax_2_16 может в качестве альтернативы быть обозначен, например, epsP_2_16_dlp_max или .
Показатель спектральной близости/разности
Признак спектральной близости использует частотный анализ текущего входного кадра или сегмента, где энергия поддиапазона вычисляется и сравнивается с оценкой фона поддиапазона. Признак или параметр спектральной близости может быть использован в комбинации с параметром, относящимся к коэффициентам усиления линейного предсказания, описанным выше, например, чтобы гарантировать, что текущий сегмент или кадр относительно близок к предыдущей оценке фона, или, по меньшей мере, не далек от нее.
Фигура 5 показывает блок-схему вычисления показателя спектральной близости или разности. Во время периода инициализации, например, 150 первых кадров, сравнение совершается с константой, соответствующей первоначальной оценке фона. После инициализации переходит к нормальной операции и сравнивается с оценкой фона. Следует отметить, что хотя спектральный анализ дает энергии поддиапазона для 20 поддиапазонов, вычисление nonstaB здесь только использует поддиапазоны i=2, … 16, так как оно в основном в этих диапазонах, в которых размещается энергия речи. Здесь nonstaB отражает нестационарность.
Так, во время инициализации, nonstaB вычисляется с использованием Emin, которое здесь задано в Emin=0,0035, как:
nonstaB=sum(abs(log(Ecb(i)+1)-log(Emin+1))) (Ур. 12)
где sum выполняется при i=2...16.
Это делается, чтобы уменьшить эффект ошибок заключения при оценивании фонового шума во время инициализации. После периода инициализации вычисление делается с использованием текущей оценки фонового шума соответствующего поддиапазона, согласно:
nonstaB=sum(abs(log(Ecb(i)+1)-log(Ncb(i)+1))) (Ур. 13)
где sum выполняется при i=2...16.
Прибавление константы 1 к каждой энергии поддиапазона до логарифма уменьшает чувствительность для спектральной разности к кадрам с низкой энергией. Параметр nonstaB может в качестве альтернативы быть обозначен, например, как non_staB или .
Блок-схема, иллюстрирующая примерный вариант осуществления оценщика фона, показана на Фигуре 6. Вариант осуществления на Фигуре 6 содержит блок для разбиения 601 ввода на кадры, который делит входной аудиосигнал на кадры или сегменты подходящей длины, например 5-30 мс. Вариант осуществления дополнительно содержит блок для извлечения 602 признаков, который вычисляет признаки, также обозначенные здесь параметры, для каждого кадра или сегмента входного сигнала. Вариант осуществления дополнительно содержит блок для логики 603 заключения по обновлению, для определения, может ли быть обновлена оценка фона на основе сигнала в текущем кадре или нет, т.е. свободен ли сегмент сигнала от активного контента, такого как речь и музыка. Вариант осуществления дополнительно содержит блок 604 обновления фона, для обновления оценки фонового шума, когда логика заключения по обновлению указывает, что это следует сделать. В проиллюстрированном варианте осуществления, оценка фонового шума может быть выведена по каждому поддиапазону, т.е. для некоторого числа частотных диапазонов.
Решение, описанное в настоящем документе, может быть использовано для повышения предыдущего решения для оценивания фонового шума, описанного в Приложении A в настоящем документе, и также в документе WO2011/049514. Ниже, решение, описанное в настоящем документе, будет описано в контексте этого ранее описанного решения. Будут даны примеры кода из реализации кода варианта осуществления оценщика фонового шума.
Ниже, фактические подробности реализация описываются для варианта осуществления данного изобретения в кодере на основе G.718. Эта реализация использует многие из признаков энергии, описанные в решении в Приложении A и WO2011/049514, включенном в настоящий документ посредством ссылки. Для дополнительных сведений, помимо указанных ниже, обратитесь к Приложению A и WO2011/049514.
Нижеследующие признаки энергии заданы в WO2011/049514:
Нижеследующие признаки корреляции заданы в WO2011/049514:
Нижеследующие признаки были заданы в решении, приведенном в Приложение A:
Логика обновления шума из решения, приведенного в Приложении A, показана на Фигуре 7. Улучшения, относящиеся к решению, описанному в настоящем документе, оценщика шума из Приложения A в основном относятся к части 701, где вычисляются признаки; части 702, где заключения в отношении паузы делаются на основе разных параметров; и дополнительно к части 703, где разные действия предпринимаются на основе того, обнаружена ли пауза или нет. К тому же, улучшения могут иметь воздействие на обновление 704 оценки фонового шума, которая может, например, быть обновлена, когда пауза обнаруживается на основе новых признаков, которая не обнаруживалась до представления решения, описанного в настоящем документе. В примерной реализации, описанной в настоящем документе, новые признаки, представленные в настоящем документе, вычисляются как следует ниже, начиная с non_staB, который вычисляется с использованием энергий поддиапазона текущего кадра enr[i], который соответствует Ecb(i) выше и на Фигуре 6, и текущей оценки фонового шума bckr[i], которая соответствует Ncb(i) выше и на Фигуре 6. Первая часть первой секции кода ниже относится к специальной первоначальной процедуре для первых 150 кадров аудиосигнала, до того как получена верная оценка фона.
Секции кода ниже показывают, как вычисляются новые признаки для остаточных энергий линейного предсказания, т.е. для коэффициента усиления линейного предсказания. Здесь остаточные энергии называются epsP[m] (см. E(m), использованную ранее).
Код ниже иллюстрирует создание обновленных метрик, порогов и флагов, используемых для фактического заключения по обновлению, т.е. определения, обновлять ли оценку фонового шума или нет. По меньшей мере, некоторые из параметров, относящихся к коэффициентам усиления линейного предсказания и/или спектральной близости, указаны жирным в тексте.
Так как важно не делать обновление оценки фонового шума, когда текущий кадр или сегмент содержит активный контент, оцениваются несколько условий, для того, чтобы решить, должно ли быть сделано обновление. Главным этапом заключения в логике обновления шума является, должно ли быть сделано обновление или нет, и это формируется посредством оценивания логического выражения, что подчеркивается ниже. Новый параметр NEW_POS_BG (новый относительно решения в Приложении A и WO2011/049514) является детектором паузы, и получается на основе коэффициентов усиления линейного предсказания, начиная с 0-го по 2-й, и со 2-го по 16-й порядок модели фильтра линейного предсказания, и tn_ini получается на основе признаков, относящихся к спектральной близости. Здесь следует логика заключения, использующая новые признаки, согласно примерному варианту осуществления.
Как указано ранее, признаки из линейного предсказания обеспечивают независимый от уровня анализ входного сигнала, который улучшает заключение для обновления фонового шума, что особенно полезно в SNR-диапазоне 10-20дБ, где SAD на основе энергии имеет ограниченные эксплуатационные характеристики из-за нормального динамического диапазона речевых сигналов.
Признаки близости фона также улучшают оценивание фонового шума, так как она может быть использована как для инициализации, так и для нормальной операции. Во время инициализации, может быть обеспечена возможность быстрой инициализации для фонового шума (более низкого уровня) с в основном низкочастотным контентом, обычно для шума автомобиля. Также признаки могут быть использованы для препятствования обновлениям шума при использовании кадров с низкой энергией с большой разностью частотных характеристик по сравнению с текущей оценкой фона, предполагая, что текущий кадр может быть контентом с низким уровнем активности, и обновление может препятствовать обнаружению будущих кадров с аналогичным контентом.
Фигуры 8-10 показывают, как соответствующие параметры или метрики ведут себя для речи в фоне при шуме автомобиля с SNR 10дБ. На Фигурах 8-10 каждая из точек, "•", представляет энергию кадра. Для Фигур 8 и 9a-c, энергия была поделена на 10, чтобы быть более сопоставимой с признаками на основе G_0_2 и G_2_16. Схемы соответствуют аудиосигналу, содержащему два фрагмента речи, где приблизительное положение для первого фрагмента речи находится в кадрах 1310-1420 и для второго фрагмента речи, в кадрах 1500-1610,
Фигура 8 показывает энергию кадра (/10) (точка, "•") и признаки G_0_2 (круг, "○") и Gmax_0_2 (плюс, "+"), для SNR речи 10дБ с шумом автомобиля. Следует отметить, что G_0_2 составляет 8 во время шума автомобиля, так как есть некоторая корреляция в сигнале, который может быть смоделирован с использованием линейного предсказания с порядком модели 2. Во время фрагментов речи признак Gmax_0_2 становится выше 1,5 (в этом случае), и после всплеска речи он падает до 0. В конкретной реализации логики заключения, Gmax_0_2 должен быть ниже 0,1, чтобы обеспечить возможность обновлений шума с использованием этого признака.
Фигура 9a показывает энергию кадра (/10) (точка, "•") и признаки G_2_16 (круг, "○"), G1_2_16 (крест, "×"), G2_2_16 (плюс, "+"). Фигура 9b показывает энергию кадра (/10) (точка, "•"), и признаки G_2_16 (круг, "○") Gd_2_16 (крест, "×") и Gad_2_16 (плюс, "+"). Фигура 9c показывает энергия кадра (/10) (точка, "•") и признаки G_2_16 (круг, "○") и Gmax_2_16 (плюс, "+").Схемы, показанные на Фигурах 9a-c, также относятся к речи с SNR 10дБ с шумом автомобиля. Признаки показаны на этих трех схемах для того, чтобы было проще видеть каждый параметр. Следует отметить, что G_2_16 (круг, "○") находится чуть выше 1 во время шума автомобиля (т.е. фрагментов речи), указывая, что коэффициент усиления более высокого порядка модели является низким для этого типа шума. Во время фрагментов речи признак Gmax_2_16 (плюс, "+" на Фигуре 9c) увеличивается и затем начинает падать обратно до 0. В конкретной реализации логики заключения признак Gmax_2_16 также должен стать меньше, чем 0,1 для обеспечения возможности обновлений шума. В этой конкретной выборке аудиосигнала, этого не происходит.
Фигура 10 показывает энергию кадра (точка, "•") (не разделенную на 10 на этот раз) и признак nonstaB (плюс, "+") для речи с SNR 10дБ с шумом автомобиля. Признак nonstaB находится в диапазоне 0-10 во время сегментов только шума, и для фрагментов речи он становится гораздо больше (так как частотные характеристики отличаются для речи). Хотя следует отметить, что даже во время фрагментов речи есть кадры, где признак nonstaB попадает в диапазон 0-10. Для этих кадров может быть возможность сделать обновления фонового шума и тем самым лучше отслеживать фоновый шум.
Решение, раскрытое в настоящем документе, также относится к оценщику фонового шума, реализованному аппаратно и/или программно.
Оценщик фонового шума, Фигуры 11a-11c
Примерный вариант осуществления оценщика фонового шума проиллюстрирован в общем виде на Фигуре 11a. Посредством оценщика фонового шума речь идет о модуле или объекте, сконфигурированном для оценивания фонового шума в аудиосигналах, содержащих, например, речь и/или музыку. Кодер 1100 выполнен с возможностью выполнения по меньшей мере одного способа, соответствующего способам, описанным выше со ссылкой, например, на Фигуры 2 и 7. Кодер 1100 ассоциирован с теми же признаками, целями и преимуществами, как и описанные ранее варианты осуществления способа. Оценщик фонового шума будет описан кратко, для того, чтобы избежать нежелательного повторения.
Оценщик фонового шума может быть реализован и/или описан как следует ниже:
Оценщик 1100 фонового шума сконфигурирован для оценивания фонового шума аудиосигнала. Оценщик 1100 фонового шума содержит схему обработки, или средства 1101 обработки и интерфейс 1102 связи. Схема 1101 обработки выполнена с возможностью предписания кодеру 1100 получить, например, определить или вычислить, по меньшей мере один параметр, например NEW_POS_BG, на основе первого коэффициента усиления линейного предсказания, вычисленного как соотношение между остаточным сигналом из линейного предсказания 0-го порядка и остаточным сигналом из линейного предсказания 2-го порядка для сегмента аудиосигнала; и, второго коэффициента усиления линейного предсказания, вычисленного как соотношение между остаточным сигналом из линейного предсказания 2-го порядка и остаточным сигналом из линейного предсказания 16-го порядка для сегмента аудиосигнала.
Схема 1101 обработки дополнительно выполнена с возможностью предписания оценщику фонового шума определить, содержит ли сегмент аудиосигнала паузу, т.е. свободен от активного контента, такого как речь и музыка, на основе по меньшей мере одного параметра. Схема 1101 обработки дополнительно выполнена с возможностью предписания оценщику фонового шума обновить оценку фонового шума на основе сегмента аудиосигнала, когда сегмент аудиосигнала содержит паузу.
Интерфейс 1102 связи, который может также быть обозначен, например, как интерфейс ввода/вывода (I/O), включает в себя интерфейс для отправки данных разным объектам или модулям и приема данных от них. Например, остаточные сигналы, относящиеся к порядкам моделей линейного предсказания 0, 2 и 16 могут быть получены, например, приняты, посредством интерфейса I/O из кодера аудиосигнала, выполняющего кодирование с линейным предсказанием.
Схема 1101 обработки может, как проиллюстрировано на Фигуре 11b, содержать средства обработки, такие как процессор 1103, например, CPU, и память 1104 для хранения или содержания инструкций. Память может тогда содержать инструкции, например, в виде компьютерной программы 1105, которые при исполнении средствами 1103 обработки, предписывают кодеру 1100 выполнить действия, описанные выше.
Альтернативная реализация схемы 1101 обработки показана на Фигуре 11c. Здесь схема обработки содержит блок или модуль 1106 получения или определения, выполненный с возможностью предписания оценщику 1100 фонового шума получить, например, определить или вычислить, по меньшей мере один параметр, например NEW_POS_BG, на основе первого коэффициента усиления линейного предсказания, вычисленного как соотношение между остаточным сигналом из линейного предсказания 0-го порядка и остаточным сигналом из линейного предсказания 2-го порядка для сегмента аудиосигнала; и второго коэффициента усиления линейного предсказания, вычисленного как соотношение между остаточным сигналом из линейного предсказания 2-го порядка и остаточным сигналом из линейного предсказания 16-го порядка для сегмента аудиосигнала. Схема обработки дополнительно содержит блок или модуль 1107 определения, выполненный с возможностью предписания оценщику 1100 фонового шума определить, содержит ли сегмент аудиосигнала паузу, т.е. свободен от активного контента, такого как речь и музыка, на основе, по меньшей мере, упомянутого по меньшей мере одного параметра. Схема 1101 обработки дополнительно содержит блок или модуль 1110 оценки или обновления, выполненный с возможностью предписания оценщику фонового шума обновить оценку фонового шума на основе сегмента аудиосигнала, когда сегмент аудиосигнала содержит паузу.
Схема 1101 обработки может содержать больше блоков, таких как блок или модуль фильтра, выполненный с возможностью предписания оценщику фонового шума осуществить низкочастотную фильтрацию коэффициентов усиления линейного предсказания, таким образом создавая одну или более долгосрочных оценок коэффициентов усиления линейного предсказания. Действия, такие как низкочастотная фильтрация, могут быть выполнены иным образом, например, посредством блока или модуля 1107 определения.
Варианты осуществления оценщика фонового шума, описанные выше, могут быть сконфигурированы для разных вариантов осуществления способа, описанных в настоящем документе, такие как ограничение и низкочастотная фильтрация коэффициентов усиления линейного предсказания; определение разности между коэффициентами усиления линейного предсказания и долгосрочными оценками и между долгосрочными оценками; и/или получение и использование показателя спектральной близости, и т.д.
Может предполагаться, что оценщик 1100 фонового шума содержит дополнительную функциональность, для выполнения оценивания фонового шума, такую как, например, функциональность, приведенная в качестве примера в Приложении A.
Фигура 12 иллюстрирует оценщик 1200 фона согласно примерному варианту осуществления. Оценщик 1200 фона содержит блок ввода, например, для приема остаточных энергий для порядков моделей 0, 2 и 16. Оценщик фона дополнительно содержит процессор и память, причем упомянутая память, содержит инструкции, исполняемые упомянутым процессором, тем самым упомянутый оценщик фона функционирует для: выполнения способа согласно варианту осуществления, описанному в настоящем документе.
Соответственно, оценщик фона может содержать, как проиллюстрировано на Фигуре 13, блок 1301 ввода/вывода, калькулятор 1302 для вычисления первых двух наборов признаков из остаточных энергий для порядков моделей 0, 2 и 16, и частотный анализатор 1303 для вычисления признака спектральной близости.
Оценщик фонового шума, как оценщики фонового шума, описанные выше, может содержаться, например, в VAD или SAD, кодере и/или декодере, т.е. кодеке, и/или в устройстве, таком как устройство связи. Устройством связи может быть пользовательское оборудование (UE) в виде мобильного телефона, видеокамеры, устройства записи звука, планшета, настольного компьютера, переносного компьютера, телевизионной приставки или домашнего сервера/домашнего шлюза/домашней точки доступа/домашнего маршрутизатора. Устройством связи может в некоторых вариантах осуществления быть сетевое устройство связи, адаптированное для кодирования и/или транскодирования аудиосигналов. Примерами таких сетевых устройств связи являются серверы, такие как медиасерверы, серверы приложений, маршрутизаторы, шлюзы и базовые радиостанции. Устройство связи может также быть адаптировано для размещения, т.е. встраивания, на судне, таком как корабль, летающий дрон, самолет и дорожное транспортное средство, такое как машина, автобус или грузовик. Такое встроенное устройство будет обычно принадлежать к блоку телематики транспортного средства или информационно-развлекательной системе транспортного средства.
Этапы, функции, процедуры, модули и/или блоки, описанные в настоящем документе, могут быть реализованы в аппаратном виде с использованием любой обыкновенной технологии, такой как технология дискретных схем или интегральных схем, включая в себя как электронную схему общего назначения, так и специализированную интегральную схему.
Конкретные примеры включают в себя один или более соответствующим образом сконфигурированных процессоров цифровой обработки сигналов и других известных электронных схем, например, дискретных логических вентилей, взаимосоединенных для выполнения специализированной функции, или специализированных интегральных схем (ASIC).
В качестве альтернативы, по меньшей мере, некоторые из этапов, функций, процедур, модулей и/или блоков, описанных выше, могут быть реализованы в программном виде, таком как компьютерная программа для исполнения подходящей схемой обработки, включающей в себя один или более блоков обработки. Программное обеспечение может переноситься посредством носителя, такого как электронный сигнал, оптический сигнал, радиосигнал или компьютерно-читаемый носитель информации, до и/или во время использования компьютерной программы в узлах сети.
Схема или схемы последовательности операций, представленные в настоящем документе, могут рассматриваться как схема или схемы последовательности операций компьютера при выполнении одним или более процессорами. Соответствующее устройство может быть задано как группа функциональных модулей, где каждый этап, выполняемый процессором, соответствует функциональному модулю. В этом случае, функциональные модули реализованы в виде компьютерной программы, выполняющейся на процессоре.
Примеры схемы обработки включают в себя, но не ограничены этим, один или более микропроцессоров, один или более процессоров цифровой обработки сигналов, DSP, один или более центральных процессоров, CPU, и/или любую подходящую программируемую логическую схему, такую как одна или более программируемых пользователем вентильных матриц, FPGA, или один или более программируемых логических контроллеров, PLC. То есть, блоки или модули в компоновках в разных узлах, описанных выше, могут быть реализованы посредством комбинации аналоговых и цифровых схем, и/или одного или более процессоров, сконфигурированных с помощью программного обеспечения и/или программно-аппаратных средств, например, хранящихся в памяти. Один или более из этих процессоров, также как и другие цифровые аппаратные средства, могут быть включены в одиночную специализированную интегральную схему, ASIC, или несколько процессоров и различные цифровые аппаратные средства могут быть распределены среди нескольких отдельных компонентов, либо по-отдельности объединены, либо собраны в систему на кристалле, SoC.
Также следует понимать, что может быть возможно повторно использовать возможности основной обработки любого обыкновенного устройства или блока, в которой реализована предложенная технология. Также может быть возможно повторно использовать существующее программное обеспечение, например, посредством перепрограммирования существующего программного обеспечения или посредством добавления новых программных компонентов.
Варианты осуществления, описанные выше, даны лишь в качестве примеров, и следует понимать, что предложенная технология ими не ограничивается. Специалисты в данной области техники поймут, что различные модификации, комбинации и изменения могут быть сделаны в вариантах осуществления без отступления от настоящего объема. В частности, разные части решений в разных вариантах осуществления могут быть объединены в других конфигурациях, где технически возможно.
Когда используется слово "содержат" или "содержащий", оно должно интерпретироваться как неограничивающее, т.е. обозначающее "состоящее, по меньшей мере, из".
Также следует отметить, что в некоторых альтернативных реализациях, функции/действия, указанные в блоках, могут происходить не в порядке, указанном на схемах последовательности операций. Например, два блока, показанные последовательно, могут в действительности исполняться по существу параллельно, или блоки могут иногда исполняться в обратном порядке, в зависимости от предусмотренной функциональности/действий. Более того, функциональность данного блока из схем последовательности операций и/или блок-схем могут быть разделены на многочисленные блоки, и/или функциональность двух или более блоков из схем последовательности операций и/или блок-схем могут быть, по меньшей мере, частично интегрированы. Наконец, другие блоки могут быть добавлены/вставлены между блоками, которые проиллюстрированы, и/или блоки/операции могут быть опущены без отступления от объема идей изобретения.
Следует понимать, что выбор взаимодействующих блоков, так же как и именование блоков в рамках этого раскрытия приводятся только в целях примера, и узлы, подходящие для выполнения любых из способов, описанных выше, могут быть сконфигурированы множеством альтернативных способов, для того, чтобы иметь возможность выполнения действий предложенных процедур.
Следует отметить, что блоки, описанные в этом раскрытии должны рассматриваться как логические объекты и не обязательно как отдельные физические объекты.
Ссылка на элемент в единичной форме не предназначена для обозначения "один и только один", пока так не указано явным образом, а скорее "один или более". Все структурные и функциональные эквиваленты для элементов вышеописанных вариантов осуществления, которые известны среднему специалисту в данной области техники, явно включены в настоящий документ посредством ссылки и предназначены для охвата в настоящем документе. Более того, для устройства или способа необязательно решать каждую проблему, которую стремятся решить посредством технологии, раскрытой в настоящем документе, она должна быть охвачена в настоящем документе.
В некоторых случаях в настоящем документе, подробные описания известных устройств, схем и способов опущены, так чтобы не запутывать описание раскрытой технологии необязательными сведениями. Все утверждения в настоящем документе, перечисляющие принципы, аспекты и варианты осуществления раскрытой технологии, равно как и конкретные их примеры, предназначены для охвата как структурных, так и функциональных их эквивалентов. Дополнительно, предполагается, что такие эквиваленты включают в себя как известные в настоящее время эквиваленты, так и эквиваленты, разработанные в будущем, например, любые разработанные элементы, которые выполняют те же функции, независимо от структуры.
ПРИЛОЖЕНИЕ A
Ссылки на Фигуры в тексте ниже являются ссылками на Фигуры A2-A9, такими что "Фигура 2" ниже соответствует Фигуре A2 на чертежах.
Фигура 2 является схемой последовательности операций, иллюстрирующей примерный вариант осуществления способа оценивания фонового шума согласно предложенной здесь технологии. Способ предназначен для выполнения оценщиком фонового шума, который может быть частью SAD. Оценщик фонового шума, и SAD, могут дополнительно содержаться в аудиокодере, который в свою очередь может содержаться в беспроводном устройстве или узле сети. Для описанного оценщика фонового шума, регулирование оценки шума в меньшую сторону не запрещается. Для каждого кадра вычисляется возможная новая оценка шума поддиапазона, независимо от того, является ли кадр фоном или активным контентом, если новое значение меньше, чем текущее, оно используется прямо как, если бы оно наиболее вероятно было из кадра фона. Нижеследующая логика оценивания шума является вторым этапом, где делается заключение, может ли быть увеличена оценка шума поддиапазона, и если может, то на сколько, увеличение основывается на ранее вычисленной возможной новой оценке шума поддиапазона. Обычно это логика формирует заключение, что текущий кадр является кадром фона, и если это не наверняка, может быть обеспечена возможность небольшого увеличения в сравнении с тем, что было оценено ранее.
Способ, проиллюстрированный на Фигуре 2, содержит: когда уровень энергии сегмента аудиосигнала больше, чем порог, выше 202:1, чем долгосрочный минимальный уровень энергии, lt_min, или, когда уровень энергии сегмента аудиосигнала меньше, чем порог, выше 202:2, чем lt_min, но в сегменте аудиосигнала пауза не обнаружена 204:1:
- уменьшение 206 текущей оценки фонового шума, когда определяется 203:2, что сегмент аудиосигнала содержит музыку, и текущая оценка фонового шума превышает минимальное значение 205:1, обозначенное "T" на Фигуре 2, и дополнительно приводится в качестве примера, например, как 2*E_MIN в коде ниже.
Посредством выполнения вышеуказанного, и предоставления оценки фонового шума в SAD, для SAD обеспечивается возможность выполнения более адекватного обнаружения активности звука. К тому же, обеспечена возможность восстановления из ошибочных обновлений оценки фонового шума.
Уровень энергии сегмента аудиосигнала, используемый в способе, описанном выше, может в качестве альтернативы называться, например, энергией текущего кадра, Etot, или энергией сегмента сигнала, или кадра, которая может быть вычислена посредством суммирования энергии поддиапазона для текущего сегмента сигнала.
Другой признак энергии, используемый в способе выше, т.е. долгосрочный минимальный уровень энергии, lt_min, является оценкой, которая определяется на множестве предыдущих сегментов аудиосигнала или кадров. lt_min может в качестве альтернативы обозначаться, например, как Etot_l_lp. Одним основным способом выведения lt_min будет использование минимального значения из истории энергии текущего кадра за некоторое число прошлых кадров. Если значение, вычисленное как: "энергия текущего кадра - долгосрочная минимальная оценка" ниже порогового значения, обозначенного, например, THR1, говорится, в настоящем документе что энергия текущего кадра близка к долгосрочной минимальной энергии, или находится вблизи долгосрочной минимальной энергии. То есть, когда (Etot - lt_min) < THR1, энергия текущего кадра, Etot, может быть определена 202 находящейся вблизи долгосрочной минимальной энергии lt_min. Случай, когда (Etot - lt_min)=THR1, может относиться к заключениям, либо 202:1, либо 202:2, в зависимости от реализации. Нумерация 202:1 на Фигуре 2 указывает заключение, что энергия текущего кадра не находится вблизи lt_min, тогда как 202:2 указывает заключение, что энергия текущего кадра находится вблизи lt_min. Другая нумерация на Фигуре 2 в виде XXX:Y указывает соответствующие заключения. Признак lt_min будет дополнительно описан ниже.
Минимальное значение, которое текущая оценка фонового шума должна превысить, для того, чтобы уменьшиться, может предполагаться равным нулю или иметь небольшое положительное значение. Например, как будет приведено в качестве примера в коде ниже, может требоваться, чтобы текущая общая энергия оценки фона, которая может быть обозначена "totalNoise" и быть определена, например, как 10*log10∑backr[i], превышала минимальное значение ноль, для того, чтобы уменьшение стало актуальным. В качестве альтернативы, или в дополнение, каждая запись в векторе backr[i], содержащем поддиапазон оценки фона, можно сравнить с минимальным значением, E_MIN, для того, чтобы выполнить уменьшение. В примере кода ниже, E_MIN имеет небольшое положительное значение.
Следует отметить, что согласно предпочтительному варианту осуществления решения, предложенного в настоящем документе, заключение, является ли уровень энергии сегмента аудиосигнала большим, чем порог, выше, чем lt_min, основывается только на информации, выведенной из входного аудиосигнала, то есть, не основывается на обратной связи из заключения детектора активности звука.
Определение 204, содержит текущий кадр паузу или нет, может быть выполнено разными способами на основе одного или более критериев. Критерий паузы может также называться детектором паузы. Может быть применен одиночный детектор паузы или комбинация разных детекторов паузы. При комбинации детекторов паузы, каждый может быть использован для обнаружения паузы при разных условиях. Одним указателем того, что текущий кадр может содержать паузу, или неактивность, является то, что признак корреляции для кадра является низким, и что число предшествующих кадров также имеет низкие признаки корреляции. Если текущий энергия близка к долгосрочной минимальной энергии, и пауза обнаружена, фоновый шум может быть обновлен согласно текущему вводу, как проиллюстрировано на Фигуре 2. Пауза может считаться обнаруженной, когда, в дополнение к этому, уровень энергии сегмента аудиосигнала меньше, чем порог, выше, чем lt_min: предварительно заданное число последовательных предшествующих сегментов аудиосигнала были определены, как не содержащие активный сигнал, и/или динамическая характеристика аудиосигнала превышает порог. Это также дополнительно проиллюстрировано в примере кода ниже.
Уменьшение 206 оценки фонового шума обеспечивает возможность обращения с ситуациями, где оценка фонового шума стала "слишком высокой", т.е. относительно фонового шума. Это также может быть выражено, например, так что оценка фонового шума отклоняется от фактического фонового шума. Слишком высокая оценка фонового шума может привести к неадекватным заключениям SAD, где текущий сегмент сигнала определяется как неактивный, даже если он содержит активную речь или музыку. Причиной для становления оценки фонового шума слишком высокой являются, например, ошибочные или нежелательные обновления фонового шума в музыке, где оценивание шума имеет ошибочную музыку для фона и обеспечивается возможность увеличения оценки шума. Раскрытый способ обеспечивает возможность регулирования такой ошибочно обновленной оценки фонового шума, например, когда определено, что нижеследующий кадр входного сигнала содержит музыку. Это регулирование совершается посредством принудительного уменьшения оценки фонового шума, где оценка шума масштабируется с понижением, даже если текущая энергия сегмента входного сигнала выше, чем текущая оценка фонового шума, например, в поддиапазоне. Следует отметить, что вышеописанная логика для оценивания фонового шума используется для управления увеличением энергии поддиапазона фона. Всегда обеспечивается возможность понижения энергии поддиапазона, когда энергия поддиапазона текущего кадра ниже, чем оценка фонового шума. Эта функция не показана явно на Фигуре 2. Такое уменьшение обычно имеет фиксированное задание для размера шага. Однако, должна быть обеспечена возможность увеличения оценки фонового шума только совместно с логикой заключения согласно способу, описанному выше. Когда пауза обнаружена, энергия и признаки корреляции могут также быть использованы для выдачи решения 207, насколько большим должен быть размер шага регулирования для увеличения оценки фона до совершения обновления фонового шума.
Как упоминалось ранее, некоторые сегменты музыки может быть трудно отделить от фонового шума, из-за того, что они очень похожи на шум. Таким образом, логика обновления шума может случайно обеспечить возможность увеличенных оценок энергии поддиапазона, даже если входным сигналом был активный сигнал. Это может вызвать проблемы, так как оценка шума может стать выше, чем должна быть.
В устройствах оценки фонового шума предшествующего уровня техники, оценки энергии поддиапазона могли быть только уменьшены, когда входящая энергия поддиапазона опускалась ниже текущей оценки шума. Однако, так как некоторые сегменты музыки может быть трудно отделить от фонового шума, из-за того, что они очень похожи на шум, изобретатели поняли, что нужна стратегия восстановления для музыки. В вариантах осуществления, описанных в настоящем документе, такое восстановление может быть совершено посредством принудительного уменьшения оценки шума, когда входной сигнал возвращается к похожим для музыки характеристикам. То есть, когда энергия и логика паузы, описанные выше, предохраняют, 202:1, 204:1, оценивание шума от увеличения, тестируется 203, подозревается ли, что ввод является музыкой, и если так 203:2, энергии поддиапазона уменьшаются 206 на небольшую величину для каждого кадра, пока оценки шума не достигнут наименьшего уровня 205:2.
Оценщик фона, как оценщики фона, описанные выше, может содержаться или быть реализован в VAD или SAD и/или в кодере и/или декодере, при этом кодер и/или декодер может быть реализован в пользовательском устройстве, таком как мобильный телефон, переносной компьютер, планшет и т.д. Оценщик фона может к тому же содержаться в узле сети, таком как медиашлюз, например, как часть кодека.
Фигура 5 является блок-схемой, схематически иллюстрирующей реализацию оценщика фона, согласно примерному варианту осуществления. Блок 51 разбиения ввода на кадры сначала разбивает входной сигнал на кадры подходящей длины, например 5-30 мс. Для каждого кадра, блок 52 извлечения признаков вычисляет по меньшей мере нижеследующие признаки из ввода: 1) Блок извлечения признаков анализирует кадр в частотной области, и вычисляется энергия для набора поддиапазонов. Поддиапазоны являются такими же поддиапазонами, как которые должны быть использованы для оценивания фона. 2) Блок извлечения признаков дополнительно анализирует кадр во временной области и вычисляет корреляцию, обозначенную, например, cor_est и/или lt_cor_est, которая используется при определении, содержит ли кадр активный контент или нет. 3) Блок извлечения признаков дополнительно использует общую энергию текущего кадра, например обозначенную Etot, для обновления признаков для истории энергии текущего и прежнего входных кадров, таких как долгосрочная минимальная энергия, lt_min. Корреляция и признаки энергии затем подаются в блок 53 логики заключения по обновлению.
Здесь, логика заключения, согласно раскрытому здесь решению, реализована в блоке 53 логики заключения по обновлению, где корреляция и признаки энергии используются для формирования заключений в отношении того, близка ли энергия текущего кадра к долгосрочной минимальной энергии или нет; в отношении того, является ли текущий кадр частью паузы (не активный сигнал) или нет; и является ли текущий кадр частью музыки или нет. Решение согласно вариантам осуществления, описанным в настоящем документе, предусматривает как эти признаки и заключения используются для обновления оценивания фонового шума надежным образом.
Ниже, будут описаны некоторые подробности реализации вариантов осуществления решения, раскрытого в настоящем документе. Подробности реализации ниже взяты из варианта осуществления в кодере на основе G.718. Этот вариант осуществления использует некоторые из признаков, описанных в WO2011/049514 и WO2011/049515.
Нижеследующие признаки заданы в модифицированном G.718, описанном в WO2011/09514
Etot; | Общая энергия для текущего входного кадра |
Etot_l | Отслеживает минимальную энергетическую огибающую |
Etot_l_lp; | Сглаженная версия минимальной энергетической огибающей Etot_l |
totalNoise; | Текущая общая энергия оценки фона |
bckr[i]; | Вектор с оценками фона поддиапазона |
tmpN[i]; | Предварительно вычисленная потенциальная новая оценка фона |
aEn; | Детектор фона, который использует многочисленные признаки (счетчик) |
harm_cor_cnt | Подсчитывает кадры с последнего кадра с событием корреляции или гармоническим событием |
act_pred | Предсказание активности только исходя из признаков входного кадра |
cor[i] | Вектор с оценками корреляции для, i=0 конца текущего кадра, i=1 начала текущего кадра, i=2 конца предыдущего кадра |
Нижеследующие признаки заданы в модифицированном G.718, описанном в WO2011/09515
Etot_h | Отслеживает максимальную энергетическую огибающую |
sign_dyn_lp; | Сглаженные динамические характеристики входного сигнала |
Также признак Etot_v_h был задан в WO2011/049514, но в этом варианте осуществления он был изменен и теперь реализован как следует ниже:
Etot_v измеряет абсолютную вариацию энергии между кадрами, т.е. абсолютное значение мгновенной вариации энергии между кадрами. В примере выше, вариация энергии между двумя кадрами определяется как "низкая", когда разность между энергией последнего и текущего кадра меньше, чем 7 единиц. Это используется как указатель, что текущий кадр (и предыдущий кадр) могут быть частью паузы, т.е. содержат только фоновый шум. Однако, такая низкая вариативность может в качестве альтернативы быть найдена, например, в середине всплеска речи. Переменная Etot_last является уровнем энергии предыдущего кадра.
Вышеуказанные этапы, описанные в коде, могут быть выполнены как часть этапов "вычислить/обновить корреляцию и энергию" в схеме последовательности операций на Фигуре 2, т.е. как часть действий 201. В реализации WO2011/049514, флаг VAD был использован для определения, содержит ли текущий сегмент аудиосигнала фоновый шум или нет. Изобретатели поняли, что зависимость от информации обратной связи может быть проблематичной. В раскрытом здесь решении, заключение, обновить ли оценку фонового шума или нет, не зависит от заключения VAD (или SAD).
К тому же, в раскрытом здесь решении, нижеследующие признаки, которые не являются частью реализации WO2011/049514, могут быть вычислены/обновлены как часть одних и тех же этапов, т.е. этапов "вычислить/обновить корреляцию и энергию", проиллюстрированных на Фигуре 2. Эти признаки также используются в логике заключения, обновить ли оценку фона или нет.
Для того, чтобы достичь более адекватной оценки фонового шума, ниже заданы некоторое число признаков. Например, заданы признаки, относящиеся к новой корреляции cor_est и It_cor_est. Признак cor_est является оценкой корреляции в текущем кадре, и cor_est также используется, чтобы произвести It_cor_est, который является сглаженной долгосрочной оценкой корреляции.
Как задано выше, cor[i] является вектором, содержащим оценки корреляции, и cor[0] представляет конец текущего кадра, cor[1] представляет начало текущего кадра, и cor[2] представляет конец предыдущего кадра.
К тому же, вычисляется новый признак, It_tn_track, который дает долгосрочную оценку того, как часто оценки фона близки к энергии текущего кадра. Когда энергия текущего кадра достаточно близка к текущей оценке фона, это регистрируется посредством условия, которое сигнализирует (1/0), близок ли фон или нет. Этот сигнал используется для формирования долгосрочного показателя It_tn_track.
В этом примере, 0,03 добавляется, когда энергия текущего кадра близка к оценке фонового шума, и иначе единственным остающимся членом является 0,97 умножить на предыдущее значение. В этом примере, "близкий" задает, что разность между энергией текущего кадра, Etot, и оценкой фонового шума, totalNoise, меньше, чем 10 единиц. Также возможны другие определения термина "близкий".
К тому же, расстояние между текущей оценкой фона, Etot, и энергией текущего кадра, totalNoise, используется для определения признака, lt_tn_dist, который дает долгосрочную оценку этого расстояния. Аналогичный признак, lt_Ellp_dist, создается для расстояния между долгосрочной минимальной энергией Etot_l_lp и энергией текущего кадра, Etot.
Признак harm_cor_cnt, представленный выше, используется для подсчета числа кадров с последнего кадра, имеющего событие корреляции или гармоническое событие, т.е. с кадра, удовлетворяющего некоторым критериям, относящимся к активности. То есть, когда условие harm_cor_cnt==0, это предполагает, что текущий кадр наиболее вероятно является активным кадром, так как это показывает событие корреляции или гармоническое событие. Это может быть использовано для формирования долгосрочной сглаженной оценки, lt_haco_ev, того, как часто происходят такие события. В этом случае обновление не является симметричным, то есть используются разные временные константы, если оценка увеличена или уменьшена, как может быть видно ниже.
Низкое значение признака It_tn_track, представленного выше, указывает, что энергия входящего кадра не была близкой к энергии для некоторых кадров. Это потому, что It_tn_track уменьшается для каждого кадра, где энергия текущего кадра не близка к оценке энергии фона. It_tn_track увеличивается, только когда энергия текущего кадра близка к оценке энергии фона, как показано выше. Чтобы получить лучшую оценку того, сколько длится это "не отслеживание", т.е. энергия кадра является далекой от оценки фона, счетчик, low_tn_track_cnt, для данного числа кадров с помощью этого присутствия отслеживания формируется как:
В примере выше, "низкий" задан как ниже значения 0,05. Это должно рассматриваться как примерное значение, которое может быть выбрано иным.
Для этапа "Сформировать заключения о паузе и музыке", проиллюстрированного на Фигуре 2, три нижеследующих кодовых выражения используются для формирования обнаружения паузы, также обозначенного как обнаружение фона. В других вариантах осуществления и реализациях, для обнаружения паузы также могут быть добавлены другие критерии. Фактическое заключение о музыке формируется в коде с использованием признаков корреляции и энергии.
1:
bg_bgd станет "1" или "истина", когда Etot будет близким к оценке фонового шума. bg_bgd служит в качестве маски для других детекторов фона. То есть, если bg_bgd не "истина", детекторы 2 и 3 фона ниже не нужно оценивать. Etot_v_h является оценкой вариативности шума, которая может в качестве альтернативы быть обозначена как Nvar. Etot_v_h выводится из входной общей энергии (в логарифмической области) с использованием Etot_v, который измеряет абсолютную вариацию энергии между кадрами. Следует отметить, что признак Etot_v_h ограничивается только увеличением максимума небольшого постоянного значения, например 0,2 для каждого кадра. Etot_l_lp является сглаженной версией минимальной энергетической огибающей Etot_l
2:
Когда aEn является нулевым, aE_bgd становится "1" или "истина". aEn является счетчиком, который увеличивается, когда определяется, что активный сигнал присутствует в текущем кадре, и уменьшается, когда определяется, что активный сигнал не содержится в текущем кадре. aEn не может увеличиваться более, чем некоторое число, например 6, и не может уменьшаться менее, чем до нуля. После некоторого числа последовательных кадров, например 6, без активного сигнала, aEn будет равняться нулю.
3:
Здесь, sd1_bgd будет "1" или "истина", когда истиной будут три разных условия: Динамических характеристик сигнала, sign_dyn_lp является высоким, в этом примере больше, чем 15; Энергия текущего кадра близка к оценке фона; и: Некоторое число кадров прошли без событий корреляции или гармонических событий, в этом примере 20 кадров.
Функция bg_bgd должна быть флагом для обнаружения, что энергия текущего кадра близка к долгосрочной минимальной энергии. Последние два, aE_bgd и sd1_bgd, представляют обнаружение паузы или фона при разных условиях. aE_bgd является самым главным детектором из двух, тогда как sd1_bgd в основном обнаруживает паузы речи при высоком SNR.
Новая логика заключения согласно варианту осуществления технологии, раскрытой в настоящем документе, построена как следует в коде ниже. Логика заключения содержит условие маскирования bg_bgd, и два детектора паузы aE_bgd и sd1_bgd. Также может быть третий детектор паузы, который оценивает долгосрочную статистику, насколько хорошо totalNoise отслеживает оценку минимальной энергии. Условиями, оцениваемыми, если первая линия является истиной, является логика заключения в отношении того, насколько большим должен быть размер шага, updt_step, и фактическим обновлением оценивания шума является присвоение значения для "st->bckr[i] =-". Следует отметить, что tmpN[i] является ранее вычисленным потенциальным новым уровнем шума, вычисленным согласно решению, описанному в WO2011/049514. Логика заключения ниже следует за частью 209 Фигуры 2, которая частично указана применительно к коду ниже
Сегмент кода в последнем блоке кода, начинающийся с "/*Если в музыке... */ содержит принудительное масштабирование с понижением оценки фона, которое используется, если подозревается, что текущий ввод является музыкой. Это считается функцией: длительный период слабого отслеживания фонового шума в сравнении с оценкой минимальной энергии, и, частые возникновения гармонических событий или событий корреляции, и, последнее условие "totalNoise>0" является проверкой, что текущая общая энергия оценки фона больше, чем ноль, что предполагает, что может быть рассмотрено уменьшение оценки фона. К тому же, определяется, истина ли "bckr[i] > 2 * E_MIN", где E_MIN является небольшим положительным значением. Это проверка каждой записи в векторе, содержащем оценки фона поддиапазона, такая что запись должна превышать E_MIN, для того, чтобы быть уменьшенной (в примере посредством умножения на 0,98). Эти проверки делаются для того, чтобы избежать уменьшения оценок фона до слишком малых значений.
Варианты осуществления улучшают оценивание фонового шума, которое обеспечивает возможность улучшенных эксплуатационных характеристик SAD/VAD для достижения высокоэффективного DTX-решения и избегания ухудшения качества речи или музыки, вызванного усечением.
С помощью удаления обратной связи заключения, описанной в WO2011/09514, из Etot_v_h, есть лучшее разделение между оцениванием шума и SAD. Это имеет преимущества, что оценивание шума не изменяется если/когда изменяется функция/настройка SAD. То есть, определение оценки фонового шума становится независимым от функции SAD. Также настройка логики оценивания шума становится проще, так как на нее не влияют вторичные эффекты от SAD, когда изменяются оценки фона.
1. Способ для обновления оценки фонового шума в аудиосигнале, при этом способ содержит этапы, на которых:
- получают (201) по меньшей мере один параметр, ассоциированный с сегментом входного аудиосигнала, на основе:
- первого коэффициента усиления линейного предсказания, вычисленного как соотношение между энергией остаточного сигнала из первого линейного предсказания и энергией остаточного сигнала из второго линейного предсказания для сегмента аудиосигнала, причем второе линейное предсказание происходит из более высокого порядка, чем первое линейное предсказание; и
- второго коэффициента усиления линейного предсказания, вычисленного как соотношение между энергией остаточного сигнала из второго линейного предсказания и энергией остаточного сигнала из третьего линейного предсказания для сегмента аудиосигнала, причем третье линейное предсказание происходит из более высокого порядка, чем второе линейное предсказание;
- определяют (202), содержит ли сегмент аудиосигнала паузу, на основе, по меньшей мере, упомянутого по меньшей мере одного параметра; и:
если определено, что сегмент аудиосигнала содержит паузу:
- обновляют (203) оценку фонового шума на основе сегмента аудиосигнала.
2. Способ по п. 1, в котором этап, на котором получают по меньшей мере один параметр, содержит этап, на котором:
- ограничивают первый и второй коэффициенты усиления линейного предсказания, чтобы взять значения в предварительно заданном интервале.
3. Способ по п. 1 или 2, в котором этап, на котором получают по меньшей мере один параметр, содержит этап, на котором:
- создают по меньшей мере одну долгосрочную оценку каждого из первого и второго коэффициентов усиления линейного предсказания, при этом долгосрочная оценка дополнительно основывается на соответствующих коэффициентах усиления линейного предсказания, ассоциированных с по меньшей мере одним предшествующим сегментом аудиосигнала.
4. Способ по любому из пп. 1-3, в котором этап, на котором получают по меньшей мере один параметр, содержит этап, на котором:
определяют разность между одним из коэффициентов усиления линейного предсказания, ассоциированным с сегментом аудиосигнала, и долгосрочной оценкой упомянутого коэффициента усиления линейного предсказания.
5. Способ по любому из пп. 1-4, в котором этап, на котором получают по меньшей мере один параметр, содержит этап, на котором:
определяют разность между двумя долгосрочными оценками, ассоциированными с одним из коэффициентов усиления линейного предсказания.
6. Способ по любому из пп. 1-5, в котором этап, на котором получают по меньшей мере один параметр, содержит этап, на котором осуществляют низкочастотную фильтрацию первого и второго коэффициентов усиления линейного предсказания.
7. Способ по п. 6, в котором коэффициенты фильтра по меньшей мере одного низкочастотного фильтра зависят от отношения между коэффициентом усиления линейного предсказания, ассоциированным с сегментом аудиосигнала, и средним соответствующего коэффициента усиления линейного предсказания, полученным на основе множества предшествующих сегментов аудиосигнала.
8. Способ по любому из предшествующих пунктов, в котором этап, на котором определяют, содержит ли сегмент аудиосигнала паузу, дополнительно основывается на показателе спектральной близости, ассоциированном с сегментом аудиосигнала.
9. Способ по п. 8, дополнительно содержащий этап, на котором получают показатель спектральной близости на основе энергий для набора частотных диапазонов сегмента аудиосигнала и оценок фонового шума, соответствующих этому набору частотных диапазонов.
10. Способ по п. 9, в котором, во время периода инициализации, первоначальное значение, Emin, используется в качестве оценок фонового шума на основе того, какой получен показатель спектральной близости.
11. Устройство (1100) для обновления оценки фонового шума в аудиосигнале, содержащем множество сегментов аудиосигнала, причем устройство выполнено с возможностью:
- получения по меньшей мере одного параметра на основе:
- первого коэффициента усиления линейного предсказания, вычисленного как соотношение между энергией остаточного сигнала из первого линейного предсказания и энергией остаточного сигнала из второго линейного предсказания для сегмента аудиосигнала, причем второе линейное предсказание происходит из более высокого порядка, чем первое линейное предсказание; и
- второго коэффициента усиления линейного предсказания, вычисленного как соотношение между энергией остаточного сигнала из второго линейного предсказания и энергией остаточного сигнала из третьего линейного предсказания для сегмента аудиосигнала, причем третье линейное предсказание происходит из более высокого порядка, чем второе линейное предсказание;
- определения, содержит ли сегмент аудиосигнала паузу, на основе, по меньшей мере, упомянутого по меньшей мере одного параметра; и
если определено, что сегмент аудиосигнала содержит паузу:
- обновления оценки фонового шума на основе сегмента аудиосигнала.
12. Устройство по п. 11, при этом устройство дополнительно выполнено с возможностью выполнения способа по любому из пп. 2-10.
13. Аудио кодек, содержащий устройство по п. 11 или 12.
14. Устройство связи, содержащее устройство по п. 11 или 12.