Эхоподавление, содержащее моделирование компонентов поздней реверберации

Авторы патента:

КЮХ Фабиан (DE)

ШМИДТ Маркус (DE)

ФАЛЛЕР Кристоф (CH)

ФАВРО Алексис (CH)

G10L21/02 - усиление речи, например подавление шума, нейтрализация эхо-сигнала (подавление эхо-сигнала в громкоговорящих телефонных системах H04M 9/08, в аппаратах для людей с дефектами слуха H04R 15/00)

Владельцы патента RU 2569006:

ФРАУНХОФЕР-ГЕЗЕЛЛЬШАФТ ЦУР ФЕРДЕРУНГ ДЕР АНГЕВАНДТЕН ФОРШУНГ Е.Ф. (DE)

Изобретение относится к устройствам для вычисления коэффициентов (H[k,m]) фильтрации для адаптивного фильтра. Технический результат заключается в повышении качества звука системы эхоподавления или системы эхокомпенсации. Адаптивный фильтр используется для фильтрации сигнала микрофона, чтобы подавлять эхо-сигнал вследствие сигнала громкоговорителя. Устройство содержит: средство моделирования затухания эхо-сигнала для моделирования характера изменения затухания акустической среды и для предоставления соответствующего параметра (τ; α_m) затухания эхо-сигнала; и средство вычисления для вычисления коэффициентов (H[k,m]) фильтрации адаптивного фильтра на основе параметра (τ; α_m) затухания эхо-сигнала. Соответствующий способ содержит: предоставление параметров (τ; Ĝ[k,m]; α_m) затухания эхо-сигнала, определенных посредством средства моделирования затухания эхо-сигнала; и вычисление коэффициентов (H[k,m]) фильтрации адаптивного фильтра на основе параметров (τ; α_m) затухания эхо-сигнала. 9 н. и 12 з.п. ф-лы, 12 ил.

Варианты осуществления настоящего изобретения относятся к устройствам и способам для вычисления коэффициентов фильтрации для адаптивного фильтра для фильтрации сигнала микрофона, чтобы подавлять эхо-сигнал вследствие сигнала громкоговорителя, которые могут использоваться, например, в контексте систем проведения конференций. Примеры систем проведения конференций включают в себя системы проведения телефонных конференций, системы проведения видеоконференций или другие системы проведения двунаправленных конференций.

УРОВЕНЬ ТЕХНИКИ

Акустические эхо-сигналы возникают каждый раз, когда тоны, звуки и шумы из громкоговорителя снимаются посредством микрофона, расположенного в этой комнате или в этой акустической среде. В системах связи этот сигнал акустической обратной связи передается обратно абоненту на дальнем конце, которые замечает задержанную версию собственной речи. В этом контексте, эхо-сигналы представляют сильно раздражающее возмущение и могут даже препятствовать интерактивной полнодуплексной связи. Дополнительно, акустические эхо-сигналы могут приводить к эффектам нелинейных искажений звука и другим видам нестабильности контура с акустической обратной связью.

WO 2006/111370 A1 относится к способу и устройству для удаления эхо-сигнала в многоканальном аудиосигнале. Управление акустическими эхо-сигналами и подавление шума представляет собой важную часть любой системы громкой связи, к примеру, системы проведения телефонных, аудио- или видеоконференций. Способ, описанный в документе, для обработки многоканальных аудиосигналов громкоговорителя и, по меньшей мере, одного сигнала микрофона в этом контексте включает в себя этапы преобразования входного сигнала микрофона во входные кратковременные спектры микрофона, вычисления комбинированного кратковременного спектра сигнала громкоговорителя из сигналов громкоговорителя, вычисление комбинированного кратковременного спектра сигнала микрофона из входного сигнала микрофона, оценки спектра абсолютной величины или спектра мощности эхо-сигнала в комбинированном кратковременном спектре сигнала микрофона, вычисления фильтра усиления для модификации абсолютной величины входного кратковременного спектра микрофона, применения фильтра усиления, по меньшей мере, к одному входному спектру микрофона и преобразования отфильтрованного входного спектра микрофона во временную область.

Системы эхоподавления и эхокомпенсации, которые используются сегодня и также могут упоминаться как системы удаления эхо-сигналов в разделе сущности изобретения, зачастую имеют такую проблему, что они не обрабатывают различные компоненты звука, тона, шума и компоненты эхо-сигнала оптимальным способом, несмотря на использование адаптивных фильтров. Если один компонент является преобладающим по сравнению с другим, неоптимальное подавление эхо-сигнала для сигнала громкоговорителя может возникать, например, в сигнале микрофона этой системы связи. С другой стороны, в случае отклоняющегося состава компонентов различных источников, тональные артефакты могут возникать вследствие использования системы эхоподавления или эхокомпенсации, причем эти тональные артефакты также воспринимаются как чрезвычайно раздражающее.

EP 1429315 A1 упоминает способ и систему для подавления эхо-сигналов и шума в окружениях при переменных акустических условиях, а также в условиях большой пропорции обратной связи. Система для компенсации эхо-сигналов и шумов в окружениях с переменными акустическими условиями и высокой обратной связью, к примеру, в салоне автомобильного транспортного средства, обеспечения звуковой связи между пассажирами содержит один или несколько микрофонов для речевого сигнала и аналого-цифровых, цифро-аналоговых преобразователей, средство усиления и фильтрации, формирующее электрический сигнал, воспроизводимый в качестве акустического сигнала посредством динамика, и модуль эхокомпенсации с использованием сигнала и электрического сигнала из микрофона, интегрирующий сигнал обратной связи для сигнала, другой речевой сигнал и шум, захваченный микрофоном. Система применяется к исключению обратной связи посредством предоставления дополнительной фильтрации электрического выходного сигнала устройства компенсации после обработки сигнала, содержащего изменяющийся во времени фильтр, который подавляет остаточный акустический эхо-сигнал, не компенсируемый посредством системы, и шум, захваченный микрофонами.

WO 2009/095161 A1 относится к устройству и способу для вычисления коэффициентов фильтрации для эхоподавления. Коэффициенты фильтрации предназначены для использования с адаптивным фильтром для фильтрации сигнала микрофона, чтобы подавлять эхо-сигнал вследствие сигнала громкоговорителя. Устройство включает в себя средство извлечения для извлечения стационарного компонентного сигнала или нестационарного компонентного сигнала из сигнала громкоговорителя или из сигнала, извлекаемого из сигнала громкоговорителя. Устройство также содержит средство вычисления для вычисления коэффициентов фильтрации для адаптивного фильтра на основе извлеченного стационарного компонентного сигнала и нестационарного компонентного сигнала. Устройство и способ, раскрытые в WO 2009/095161, анализируют сигнал на дальнем конце на предмет статистических свойств компонентного сигнала, который составляет сигнал громкоговорителя.

Исходя из предшествующего уровня техники цель настоящего изобретения, следовательно, состоит в том, чтобы повышать качество звука системы эхоподавления или системы эхокомпенсации при приемлемой трудоемкости вычислений.

Это цель достигается посредством устройства по п.1, способа по п.12 или программы по п.15.

РАСКРЫТИЕ ИЗОБРЕТЕНИЯ

Один вариант осуществления устройства для вычисления коэффициентов фильтрации для адаптивного фильтра для фильтрации сигнала микрофона, захватываемого посредством микрофона, чтобы подавлять эхо-сигнал вследствие сигнала громкоговорителя, выводимого посредством громкоговорителя, содержит средство моделирования затухания эхо-сигнала для моделирования характера изменения затухания акустической среды и для предоставления соответствующего параметра затухания эхо-сигнала или множества параметров затухания эхо-сигнала; и средство вычисления для вычисления коэффициентов фильтрации адаптивного фильтра на основе параметра(ов) затухания эхо-сигнала.

Один вариант осуществления способа для вычисления коэффициентов фильтрации для адаптивного фильтра для фильтрации сигнала микрофона, чтобы подавлять эхо-сигнал вследствие сигнала громкоговорителя, содержит: предоставление параметров затухания эхо-сигнала, определенных посредством средства моделирования затухания эхо-сигнала; и вычисление коэффициентов фильтрации адаптивного фильтра на основе параметров затухания эхо-сигнала.

Варианты осуществления устройства, способа и компьютерной программы согласно идеям, раскрытым в данном документе, основаны на полученных сведениях о том, что повышение качества звука и/или уменьшение трудоемкости вычислений может достигаться посредством моделирования, в частности, компонентов позднего эхо-сигнала посредством модели затухания эхо-сигнала. Модель затухания эхо-сигнала может основываться на рекурсивных вычислениях, которые требуют относительно небольшой трудоемкости вычислений. Затухание эхо-сигнала акустической среды, в которой используется адаптивный фильтр, может представлять изменяющиеся свойства, которые могут быть оценены из выборок сигнала микрофона и/или сигнала громкоговорителя.

Хотя компоненты раннего эхо-сигнала типично являются весьма похожими на исходный звук, компоненты более позднего эхо-сигнала становятся все более и более нечеткими и менее похожими на исходный звук. Устройство, способ и компьютерная программа согласно идеям, раскрытым в данном документе, отличают между подавлением компонентов раннего эхо-сигнала, которые требуют более высокой точности, и подавлением компонентов позднего эхо-сигнала, которые могут быть оценены менее точно за все время реверберации. В отличие от использования различных статистических свойств различных составляющих сигнала, к примеру, стационарных или нестационарных, которые внутренне присущи соответствующим составляющим исходных сигналов микрофона и громкоговорителя (т.е. на них не оказывает влияние акустическая среда), идеи, раскрытые в данном документе, используют свойства эхо-сигнала, вызываемого посредством сигнала громкоговорителя. Эти связанные с эхо-сигналом свойства ассоциированы с акустической средой 120 и в силу этого варьируются после изменения или переконфигурирования акустической среды. Тем не менее, связанные с эхо-сигналом свойства не варьируются или, по меньшей мере, не варьируются значительно, когда сигналы громкоговорителя или микрофона варьируются, например, в соответствии с отношением между стационарными компонентами и нестационарными компонентами.

Дополнительные варианты осуществления поясняются ниже в ходе настоящего описания касательно их структур и режимов работы. В зависимости от конкретного варианта осуществления, параметр(ы) затухания эхо-сигнала может быть оценен из соответствующих сигналов, например, сигнала микрофона, на который оказывает влияние системная характеристика акустической среды. Устройство в соответствии с вариантом осуществления идей этого документа дополнительно может содержать средство фильтрации при эхоподавлении, выполненное с возможностью фильтровать сигнал микрофона на основе коэффициентов фильтрации. Устройство в соответствии с идеями, раскрытыми в данном документе, может содержать средство оценки эхо-сигнала для оценки частотного спектра эхо-сигнала или спектра мощности эхо-сигнала для эхо-сигнала в сигнале микрофона. Оценка частотного спектра эхо-сигнала или спектра мощности эхо-сигнала может быть разделена на оценку компонентов раннего эхо-сигнала и оценку компонентов позднего эхо-сигнала. Оценка компонентов раннего эхо-сигнала может отличаться от оценки компонентов позднего эхо-сигнала. Оценка компонентов позднего эхо-сигнала может охватывать относительно длительный временной интервал после исходного звука при относительно низкой трудоемкости вычислений. Оценка компонентов раннего эхо-сигнала может быть относительно точной и охватывать относительно короткий временной интервал после исходного звука.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ

Варианты осуществления решений, раскрытых в этом документе, поясняются ниже подробнее со ссылкой на прилагаемые чертежи. Поэтому варианты осуществления решений, раскрытых в данном документе, можно лучше понять со ссылками на следующие чертежи:

Фиг.1 показывает общее положение дел касательно проблемы удаления акустических эхо-сигналов;

Фиг.2 показывает общую структуру типичной импульсной характеристики комнаты;

Фиг.3 показывает принципиальную блок-схему модуля подавления кратковременных акустических эхо-сигналов спектральной области;

Фиг.4 показывает экспоненциальное затухание реверберации;

Фиг.5 показывает принципиальную блок-схему устройства в соответствии с различными вариантами осуществления идей этого документа;

Фиг.6 показывает принципиальную блок-схему дополнительного варианта осуществления согласно идеям этого документа;

Фиг.7 показывает принципиальную блок-схему дополнительного варианта осуществления согласно идеям этого документа;

Фиг.8 показывает принципиальную блок-схему дополнительного варианта осуществления согласно идеям этого документа;

Фиг.9 показывает принципиальную блок-схему дополнительного варианта осуществления согласно идеям этого документа;

Фиг.10 показывает временную диаграмму, иллюстрирующую исходные импульсы и соответствующие поздние реверберации;

Фиг.11 показывает временную диаграмму оценки эхо-сигнала и моделирования реверберации; и

Фиг.12 показывает блок-схему варианта осуществления идей, раскрытых в этом документе, для многоканальной реализации.

ОСУЩЕСТВЛЕНИЕ ИЗОБРЕТЕНИЯ

В настоящем описании идентичные ссылочные позиции обозначают средства, модули и объекты, которые являются идентичными по принципу действия, функции, структуре или аналогичными по принципу действия, функции или структуре. Это дает возможность более короткого и сжатого представления вариантов осуществления настоящего изобретения, поскольку фрагменты описания могут переноситься между вариантами осуществления, если это не исключается в явном виде.

Помимо этого, в настоящем описании, обобщающие ссылочные позиции должны использоваться для средств, структур и объектов, которые появляются несколько раз на одном чертеже или в одном варианте осуществления. Например, двум непрямым трактам 180-1, 180-2, которые показаны на фиг.1, фактически присвоены различные ссылки с номерами на фиг.1, но если непрямые тракты указываются по существу, либо если описываются их общие признаки, только обобщающая ссылка 180 с номером должна быть использована в настоящем описании. Это также служит для того, чтобы повышать понятность и краткость настоящего описания.

Перед описанием, со ссылкой на фиг.2-12, различных вариантов осуществления идей, раскрытых в данном документе, которые обеспечивают подавление акустических эхо-сигналов при одновременном использовании разделения компонентов стационарного и нестационарного сигнала, сначала проиллюстрировано общее положение дел касательно проблемы удаления акустических эхо-сигналов со ссылкой на фиг.1.

В системе полнодуплексной громкой связи управление эхо-сигналами типично требуется для подавления соединения между громкоговорителем и микрофоном.

Фиг.1 показывает громкоговоритель 100, который может предоставляться, наряду с микрофоном 110, в акустической среде 120, которая может представлять собой, например, комнату. Аналогично, акустическая среда 120 также может представлять собой салон транспортного средства.

В этом контексте, сигнал 130 громкоговорителя, который на фиг.1 также обозначается x[n] с целочисленным временным индексом n, становится доступным для громкоговорителя 100. Микрофон 110 снимает шумы, звуки и тоны, исходящие из акустической среды 120, и формирует сигнал 140 микрофона, который также обозначается y[n] на фиг.1. Как сигнал 130 громкоговорителя, так и сигнал 140 микрофона предоставляются в качестве входных сигналов в модуль 150 обработки удаления эхо-сигналов, который предоставляет, в выводе, сигнал 160 после эхоподавления сигнала 140 микрофона, который также обозначается e[n] на фиг.1.

Таким образом, фиг.1 по существу иллюстрирует проблему акустических эхо-сигналов, которая может возникать в системах двунаправленной связи. Сигнал дальнего конца системы связи, который выводится посредством громкоговорителя, достигает микрофона по прямому тракту 170 и через отраженные тракты 180-1, 180-2, которые также упоминаются как непрямые тракты. По этой причине, микрофон 110 не только снимает речь на локальном, ближнем конце, но также и регистрирует эхо-сигнал, который затем возвращается пользователю на дальнем конце.

Другими словами, сигнал x[n] громкоговорителя возвращается в сигнал y[n] микрофона. Процесс удаления эхо-сигналов, выполняемый в модуле 150 обработки удаления эхо-сигналов, идеально удаляет этот эхо-сигнал при том, что он дает возможность прохождения речи локального, ближнего конца системы связи.

Традиционный способ обработки этого эхо-сигнала заключается в том, чтобы размещать модуль компенсации акустических эхо-сигналов (AEC) параллельно с трактом распространения эхо-сигнала, как описано в [1]. В таком модуле компенсации акустических эхо-сигналов цифровая реплика эхо-сигнала оценивается и затем вычитается из измеренного или наблюдаемого сигнала микрофона. Стандартные подходы для компенсации акустических эхо-сигналов базируются на таком допущении, что тракт эхо-сигнала может моделироваться посредством линейного FIR-фильтра (FIR - конечная импульсная характеристика), и реализуют модули компенсации акустических эхо-сигналов, соответственно, как также описано в [1]. Поскольку тракт эхо-сигнала типично неизвестен и, кроме того, может изменяться во время работы, линейный фильтр такого модуля компенсации акустических эхо-сигналов типично реализуется адаптивно. Чтобы иметь возможность моделировать типичные тракты эхо-сигнала, применяются FIR-фильтры с длинами типично в несколько сотен миллисекунд, что (относительно соответствующей частоты дискретизации) также подразумевает высокий уровень вычислительной сложности.

На практике, достижимые ослабления эхо-сигнала для этих традиционных подходов часто являются не достаточными по различным причинам. Различные причины включают в себя, например, длительные времена реверберации (эффект хвоста эхо-сигнала), которые приводят к недостаточному моделированию тракта эхо-сигнала, нелинейные компоненты эхо-сигнала, вызываемые, например, посредством эффектов вибрации или нелинейного характера изменения особенно дешевого аудиооборудования, и проблемы сходимости в случае высокой временной скорости изменения относительно трактов эхо-сигнала, как описано в [2]. Следовательно, модули компенсации акустических эхо-сигналов комбинируются с нелинейными постпроцессорами, чтобы удалять остаточные эхо-сигналы и компоненты эхо-сигнала, которые не может исключать модуль эхокомпенсации, как описано в [3]. Обычно, подавление остаточных эхо-сигналов выполняется частотно-избирательным способом, как описано в [4]. Реально, практически все модули компенсации акустических эхо-сигналов используют такие постпроцессоры, поскольку они часто не могут в достаточной степени уменьшить эхо-сигнал, чтобы он становился неслышимым.

В последнее время в [5, 6] предложен ряд модулей подавления акустических эхо-сигналов для подполосной области, которые имеют сходство с вышеуказанными нелинейными постпроцессорами, но им не требуется модуль компенсации акустических эхо-сигналов и оценка импульсной характеристики тракта эхо-сигнала. Заявляется, что эти системы имеют низкую вычислительную сложность и являются надежными при достижении высокой степени дуплексности.

Схема модуля подавления эхо-сигналов, предложенная в [6], применяет кратковременное преобразование Фурье (STFT) для того, чтобы вычислять спектры сигналов громкоговорителя и микрофона. Значение d задержки между подвергнутыми кратковременному преобразованию Фурье сигналами из этих двух сигналов применяется к соответствующему сигналу громкоговорителя, причем упомянутое значение задержки выбирается таким образом, что учитывается большая часть эффекта импульсной характеристики тракта эхо-сигнала.

Затем оценивается действительнозначная оценочная функция эхо-сигнала, которая имитирует эффект начального тракта эхо-сигнала. Чтобы получать оцененный спектр абсолютной величины эхо-сигнала, оцененное значение задержки и оценочная функция эхо-сигнала применяются к спектрам громкоговорителя. С использованием оценки спектра абсолютной величины эхо-сигнала действительнозначный фильтр эхоподавления вычисляется и применяется к спектру сигнала микрофона, чтобы подавлять эхо-сигнал.

Вышеуказанные системы подавления акустических эхо-сигналов рассматривают эффект поздней реверберации в комнате при оценке спектра мощности эхо-сигнала, т.е. эффект поздней реверберации рассматривается идентично эффекту ранних отражений в тракте эхо-сигнала, хотя поздние реверберации типично имеют различные свойства по сравнению с ранними отражениями. Чтобы обрабатывать компоненты эхо-сигнала, возникающие в результате поздней реверберации, иногда используется временное сглаживание фильтра удаления эхо-сигналов. На практике этот подход может увеличивать нежелательное искажение на ближнем конце.

Кроме того, поздние реверберации типично имеют тенденцию быть более случайными, чем ранние отражения, что может быть обусловлено наложением различных трактов распространения и отражения между громкоговорителем и микрофоном в акустической среде 120.

Сигнал x[n] на дальнем конце, испускаемый посредством громкоговорителя, движется в микрофон как непосредственно, так и через отраженные тракты. Сигнал y[n] микрофона содержит локальную речь на ближнем конце, а также шум w[n] и эхо-сигнал, который тем самым возвращается пользователю на дальнем конце:

y [n] = h [n] * x [n] + w [n]

(1)

где h является импульсной характеристикой комнаты, и * обозначает свертку.

Как проиллюстрировано на фиг.2, импульсная характеристика h комнаты может быть разложена на прямой звук, раннее отражение (или несколько ранних отражений) и позднюю реверберацию. Последняя также упоминается как хвост эхо-сигнала. В ранее предложенных способах, описанных в [6], только параметр d глобальной задержки и оценочная функция g эхо-сигнала используются для того, чтобы моделировать тракт эхо-сигнала, чтобы захватывать прямой звук и ранние отражения. Поздние отражения не моделируются в ранее предложенных способах, но рассматриваются посредством временного сглаживания фильтра эхоподавления. Сигнал y[n] микрофона тем самым может выражаться посредством:

y [n] = g [n] * x [n - d] + w [n]

(2)

Параметр d глобальной задержки может быть объяснен тем фактом, что тракт с минимальным расстоянием для сигнала громкоговорителя до микрофона задается посредством расстояния от громкоговорителя до микрофона, т.е. сигнал громкоговорителя должен проходить, по меньшей мере, расстояние от громкоговорителя до микрофона через прямой тракт. Ранние отражения являются типично относительно аналогичными исходному сигналу громкоговорителя и прямому звуку, поскольку ранние отражения соответствуют числу первичных трактов 180 отражения (фиг.1), причем это число типично является относительно небольшим в обычной акустической среде. Хвост эхо-сигнала вызывается посредством различных эффектов, таких как рассеяние звука, эффекты резонанса и многоточечные отражения, помимо прочего. В микрофоне 110 возникает наложение сигнала x[n] громкоговорителя, прошедшего через множество различных трактов в акустической среде 120. Вследствие растущего числа возможных трактов распространения между громкоговорителем 100 и микрофоном 110 с увеличивающейся задержкой на распространение (т.е. существует только один прямой тракт 170 и только ограниченное число одиночных трактов 180 отражения, но огромное число множественных трактов отражения), наложенные сигналы громкоговорителя, поступающие в микрофон 110, могут считаться практически случайными за пределами данного временного интервала после поступления прямого звука. Эффекты демпфирования акустической среды 120 вызывают затухание в поздней реверберации, которое может моделироваться в качестве экспоненциального затухания.

Как проиллюстрировано на фиг.3, спектры кратковременного дискретного преобразования Фурье (STFT) вычисляются из сигнала 420 громкоговорителя и сигнала 430 микрофона. Временные интервалы, рассматриваемые для STFT-преобразования сигнала 420 громкоговорителя и сигнала 430 микрофона, указываются посредством ссылок 440 и 450 с номерами, соответственно, на фиг.3. Задержка d (ссылка 460 с номером) вводится между сигналом 420 громкоговорителя и сигналом 430 микрофона, поскольку акустический сигнал, испускаемый посредством громкоговорителя 100, требует определенного минимального времени для того, чтобы распространяться в микрофон 110. Задержка d между STFT-окнами, применяемая к сигналу 420 громкоговорителя, выбирается таким образом, что захватывается большая часть энергии импульсной характеристики тракта эхо-сигнала. Представление в STFT-области уравнения (2) задается посредством следующего выражения:

Y [k, m] = G [k, m] X_{d} [k, m] + W [k, m]

(3)

где k является временным индексом блока, и m обозначает частотный индекс. X_d[k,m] представляет собой соответствие в STFT-области задержанного сигнала x[n-d] громкоговорителя. Из уравнения (3) также становится очевидным, что поздняя реверберация тракта акустического эхо-сигнала не захватывается в модели, поскольку промежуток времени, который охватывается посредством G[k,m], соответствует длине одного STFT-блока. Типично, эти блоки имеют длину 10-30 мс, которая намного меньше стандартных времен реверберации вплоть до нескольких сотен мс.

Фактическое подавление акустических эхо-сигналов выполняется посредством модификации абсолютной величины STFT сигнала Y[k,m] микрофона при поддержании неизменной его фазы. Это может выражаться следующим образом:

E [k, m] = H [k, m] Y [k, m]

(4)

где фильтр 370 эхоподавления (ESF) выводит действительнозначный положительный коэффициент H[k,m] усиления. Во временной и частотной дискретной реализации (которая имеет место при кратковременном преобразовании Фурье), значение H[k,m] типично является одним элементом матрицы H, которая является допустимой для рассматриваемого в данный момент STFT-блока.

Действительнозначный положительный коэффициент(ы) H[k,m] усиления предоставляется в фактический адаптивный фильтр 210 (SM: спектральная модификация), который предоставляет сигнал E[k,m] микрофона после эхоподавления в STFT-области. Преобразование обратно из STFT-области во временную область выполняется посредством обратного кратковременного преобразования 300 Фурье (ISTFT), чтобы выводить сигнал e[n].

Согласно блок-схеме по фиг.3, фильтр 370 эхоподавления использует оценку передаточной функции G[k,m] акустической среды, причем оценка обозначается посредством Ĝ[k,m]. Оптимальные значения для фильтра 370 эхоподавления и его вывода H[k,m] могут быть извлечены посредством минимизации доли компонентов эхо-сигнала в выходном сигнале E[k,m] в смысле среднеквадратической ошибки (MSE). Оценка спектра мощности эхо-сигнала получается посредством применения оцененной задержки и оцененной оценочной функции 470 эхо-сигнала (EEF) к спектру мощности сигнала громкоговорителя, например:

{| \hat{Y} [k, m] |}^{2} = {| \hat{G} [k, m] |}^{2} {| X_{d} [k, m] |}^{2}

(5)

Следует отметить, что на практике передаточная функция |G[k,m]|² мощности эхо-сигнала неизвестна и должна быть заменена посредством ее оценки, а именно, |Ĝ[k,m]|².

Оценка передаточной функции G[k,m] эхо-сигнала или ее передаточной функции мощности в оценочной функции 470 эхо-сигнала, например, может быть выполнена так, как описано в [11]. Оценка может быть оценена из корреляции спектров мощности сигналов 420, 430 микрофона и громкоговорителя, соответственно.

{| \hat{G} [k, m] |}^{2} = \frac{E {{| X_{d} [k,] |}^{2} {| Y [k, m] |}^{2}}}{E {{| X_{d} [k, m] |}^{2} {| X_{d} [k, m] |}^{2}}}

(6)

Следует отметить, что на практике математическое ожидание E{ }, используемое здесь, может быть заменено посредством соответствующих кратковременных средних. В качестве примера, рассмотрим следующее:

Φ_{A B} [k, m] = E {A [k, m] B [k, m]}

(7)

Кратковременное среднее _AB[k,m], соответствующее Φ_AB[k,m], например, может быть получено посредством рекурсивного сглаживания согласно следующему:

{\hat{Φ}}_{A B} [k, m] = (1 - a_{a v g}) {\hat{Φ}}_{A B} [k - 1, m] + a_{a v g} A [k, m] B [k, m]

(8)

Коэффициент α_avg определяет степень сглаживания во времени, и он может регулироваться согласно любым данным требованиям.

Практический подход для вычисления фильтра 370 эхоподавления, например, предложен в [6]:

H [k, m] = \frac{{| Y [k, m] |}^{2} - β {| \hat{Y} [k, m] |}^{2}}{{| Y [k, m] |}^{2}}

(9)

где β представляет расчетный параметр, чтобы управлять величиной эхо-сигнала, который должен подавляться, как описано в [12].

Следующий параграф обобщает структуру устройства 200 согласно относительно подробно представленному варианту осуществления идей, раскрытых в данном документе. Этот вариант осуществления, возможно, содержит больше компонентов и/или признаков, чем требуется для базовой реализации раскрытых идей.

Модель затухания эхо-сигнала предоставляет параметры затухания эхо-сигнала в средство определения оценочной функции эхо-сигнала. Средство определения оценочной функции эхо-сигнала определяет оценочную функцию эхо-сигнала, которая учитывает параметры затухания эхо-сигнала. Оценочная функция эхо-сигнала затем применяется к сигналу громкоговорителя, чтобы определять оценку эхо-сигнала, когда он возникает в фактической акустической среде. Оценка эхо-сигнала затем может быть использована посредством средства определения значений фильтра эхоподавления (также называемого средством 270 вычисления в этом описании). Средство определения значений фильтра эхоподавления реализуется, чтобы определять фильтр, который, при применении к сигналу микрофона, подавляет компонент эхо-сигнала в сигнале микрофона, который обусловлен сигналом громкоговорителя. С этой целью, коэффициенты фильтрации, которые составляют фильтр эхоподавления, предоставляются в соответствующую структуру фильтра, которая принимает сигнал микрофона в качестве ввода и предоставляет сигнал после эхоподавления в выводе.

На фиг.4 показана огибающая q[n] части поздней реверберации импульсной характеристики комнаты, если предполагается модель экспоненциального затухания:

q [n] = e^{- \frac{n}{τ}}

(10)

С учетом двух временных выборок d_τ и d_τ+Δd_τ и соответствующих значений q[d_τ] и q[d_τ+Δd_τ], соответственно, постоянная τ времени может быть оценена на основе следующего отношения:

Δ q = \frac{q [d_{τ} + Δ d_{τ}]}{q [d_{τ}]}

(11)

которое может записываться следующим образом:

Δ q = e^{- \frac{Δ d_{τ}}{τ}}

(12)

Решение для постоянной τ времени дает в результате:

τ = - \frac{Δ d_{τ}}{\ln Δ q}

(13)

В случае если значение q огибающей представляется в частотно-временной области, например, после кратковременного преобразования Фурье (STFT), каждая полоса частот может демонстрировать отдельную постоянную τ_m времени, называемую постоянной блока во времени. Вычисление постоянной τ_m блока во времени, используемое в модели STFT-области согласно уравнению (29), поясненному ниже, может быть выполнено аналогичным способом.

Q [k, m] = e^{- \frac{k}{F_{S} τ_{m}}}

(14)

С учетом двух временных выборок d_τ и d_τ+Δd_τ и соответствующих значений Q[d_τ,m] и Q[d_τ+Δd_τ,m] огибающей, соответственно, постоянная τ_m времени может быть оценена на основе следующего отношения:

$Δ Q [m] = \frac{Q [d_{τ} + Δ d_{τ}, m]}{Q [d_{τ}, m]}$	(15)
$Δ Q [m] = e^{- \frac{Δ d_{τ}}{F_{S} τ_{m}}}$	(16)

τ_{m} = - \frac{Δ d_{τ}}{F_{S} \ln (Δ Q [m])}

(17)

В следующем разделе представлен способ для того, чтобы определять ΔQ[m] для данного значения Δd_τ. Способ основан на подходе, аналогичном подходу, используемому для определения оценочной функции эхо-сигнала в уравнении (6):

${\| \hat{Q} d_{τ} [k, m] \|}^{2} = \frac{E {X d_{τ} [k, m] Y [k, m]}}{E {X d_{τ} [k, m] X d_{τ} [k, m]}}$	(18)
${\| \hat{Q} d_{τ} + Δ d_{τ} [k, m] \|}^{2} = \frac{E {X d_{τ} + Δ d_{τ} [k, m] Y [k, m]}}{E {X d_{τ} + Δ d_{τ} [k, m] X d_{τ} + Δ d_{τ} [k, m]}}$	(19)

Из этого вычисляется:

Δ Q [k, m] = \sqrt{\frac{{| \hat{Q} d_{τ} + Δ d_{τ} [k, m] |}^{2}}{{| \hat{Q} d_{τ} [k, m] |}^{2}}}

(20)

Время RT₆₀ реверберации для модели экспоненциального затухания может быть вычислено в качестве времени n, где q[n] в уравнении (10) снижено на -60 дБ:

e^{- \frac{R T_{60}}{τ}} = 10^{- 6}

(21)

Решение для требуемой постоянной τ времени дает в результате:

τ = \frac{R T_{60}}{\ln (10^{6})}

(22)

С использованием этой постоянной τ времени может быть определен подходящий коэффициент α пропорциональности. Вычисление соответствующего коэффициента α_m пропорциональности для STFT-области из времени RT₆₀ реверберации может быть выполнено аналогичным способом.

Вместо измерения времени RT₆₀ реверберации, как описано выше, посредством наблюдения двух временных выборок d_τ и d_τ+Δd_τ и соответствующих значений Q[d_τ,m] и Q[d_τ+Δd_τ,m] огибающей, соответственно, также можно предоставлять априорные значения для времени RT₆₀ реверберации. Априорные значения могут предоставляться в качестве функции от типа акустической среды 120, например, салона автомобиля, офиса, конференц-зала, аудитории или концертного зала. Время реверберации концертного зала (2-4 секунды) типично на два порядка величины превышает время реверберации в салоне автомобиля (приблизительно 40 мс). Даже без измерения фактического времени RT₆₀ реверберации для данной акустической среды, априорные значения типично дают хорошую аппроксимацию для соответствующего типа акустической среды. Устройство 200 для вычисления коэффициентов фильтрации может содержать избирательный переключатель и т.п., посредством которого пользователь может выбирать, например, небольшое время реверберации, среднее время реверберации и длительное время реверберации.

Для каждой полосы частот, рассматриваемой в модели STFT-области, может быть определена отдельная постоянная τ_m времени. Определение множества отдельных постоянных τ_m времени для различных полос частот отражает тот факт, что времена реверберации, наблюдаемые в различных полосах частот, могут отличаться друг от друга вследствие частотно-зависимой характеристики акустической среды 120. Например, длительные времена реверберации для низких и средних полос частот могут наблюдаться в больших комнатах, в то время как более высокая частота имеет тенденцию иметь меньшие времена реверберации. В альтернативе, также можно определять одну постоянную τ времени в качестве среднего по всем полосам частот.

Фиг.5 показывает первый вариант осуществления устройства 200 для вычисления коэффициентов фильтрации для адаптивного фильтра 210, причем упомянутое устройство использует, аналогично ассоциированному способу, средство 465 моделирования затухания эхо-сигнала для того, чтобы улучшать эхоподавление и, таким образом, повышать достижимое качество звука. Варианты осуществления настоящего изобретения тем самым предоставляют различные виды обработки подавления сигналов в соответствии со свойствами и признаками эхо-сигнала, что приводит к более эффективному эхоподавлению, которое является менее подверженным артефактам.

В качестве введения, сначала должна поясняться блок-схема устройства 200 в соответствии с вариантом осуществления настоящего изобретения, до того как поясняются дополнительные сведения по реализации, в связи с фиг.6-8, относительно различных вариантов осуществления настоящего изобретения. В этом контексте полезно указать, что, даже если блок-схемы устройств в соответствии с вариантами осуществления настоящего изобретения показаны и описываются на чертежах, упомянутые блок-схемы также могут пониматься как блок-схемы последовательности операций соответствующих способов, которые иллюстрируют соответствующие этапы способа с указанием направлений последовательности операций. Другими словами, блок-схемы, проиллюстрированные в связи с настоящим описанием, также могут пониматься как соответствующие блок-схемы последовательности операций способа, которые отражают отдельные этапы способа для отдельных средств и модулей.

Устройство 200 может быть реализовано, например, в модуле 150 обработки удаления эхо-сигналов, показанном на фиг.1.

До того, как подробнее поясняется режим работы варианта осуществления, показанного на фиг.5, устройства 200, также следует отметить, что варианты осуществления настоящего изобретения по существу могут быть реализованы как в дискретных схемах, так и в интегральных схемах либо в других более сложных схемах. Например, варианты осуществления настоящего изобретения также могут быть реализованы в средствах обработки данных, т.е. в процессорах, интегрированных системах (SOC - внутрикристальная система), специализированных интегральных схемах (ASIC) либо других интегральных схемах и процессорах специального назначения. В этом контексте, весьма вероятно использование идентичных схемных частей соответствующего средства обработки данных в различных средствах временно последовательным способом. Например, идентичный логический вентиль арифметико-логического устройства (ALU) процессора может быть использован, во-первых, в контексте функциональности средства 465 моделирования затухания эхо-сигнала и, во-вторых, в контексте функциональности средства 270 вычисления. Однако два средства отличаются не в последнюю очередь в отношении дополнительных признаков, к примеру, в вышеуказанном случае, в отношении различных команд управления, которые совместно задают, например, различные средства. Следовательно, частичное или полное перекрытие схемотехнических реализаций различных средств является весьма вероятным.

Это не в последнюю очередь обусловлено этой причиной, что в настоящем описании средства, компоненты и структуры, которые соединяются друг с другом, понимаются как средства, компоненты и структуры, которые взаимно соединяются косвенно или непосредственно. Если существует реализация на основе средства обработки данных, например, соединение может осуществляться посредством ячейки запоминающего устройства, которая имеет промежуточный результат в форме зафиксированного сигнала.

Помимо этого, тем не менее, варианты осуществления настоящего изобретения по существу не ограничены цифровыми реализациями, даже если в основном цифровые реализации поясняются ниже в ходе описания. Например, аналоговая реализация или смешанная реализация, содержащая аналоговые и цифровые компоненты, осуществима в принципе. В таком случае, могут использоваться дополнительные аналого-цифровые или цифро-аналоговые преобразователи (аналого-цифровые и цифро-аналоговые преобразователи), например, чтобы возможно выполнять преобразование сигналов одного типа в другой.

Фиг.5 показывает принципиальную блок-схему устройства 200 в соответствии с различными вариантами осуществления идей этого документа. Устройство 200 содержит средство 465 моделирования затухания эхо-сигнала. Средство 465 моделирования затухания эхо-сигнала предоставляет в варианте осуществления, проиллюстрированном на фиг.5, параметр τ затухания эхо-сигнала в средство 270 вычисления. Параметр τ затухания эхо-сигнала моделирует время реверберации акустической среды 120. Средство 270 вычисления определяет функцию фильтра, представленную посредством коэффициентов H[k,m] фильтрации. Коэффициенты H[k,m] фильтрации предоставляются в адаптивный фильтр 210, который применяет результирующий фильтр к сигналу y[n] микрофона. Сигнал e[n] после эхоподавления предоставляется посредством адаптивного фильтра 210 в качестве вывода в средство обработки сигналов выше адаптивного фильтра 210. Хотя сигнал y[n] микрофона, сигнал e[n] после эхоподавления и коэффициенты H[k,m] фильтрации представлены на фиг.5 в качестве дискретных во времени цифровых сигналов, они также могут быть непрерывными во времени аналоговыми сигналами.

Относительно режима работы устройства 200, как проиллюстрировано на фиг.5, сигнал громкоговорителя, возможно, преобразуется в частотно-зависимую область посредством средства преобразователя из времени в частоту, которое необязательно присутствует (фиг.6). Средство преобразователя из времени в частоту обеспечивает, в случае реализации, работающей с блоками данных (кадрами), преобразование в спектральное представление соответствующего блока данных, так что спектральное представление, предоставляемое в выводе средства 230 преобразователя из времени в частоту (фиг.6), соответствует блоку данных во временной области. В зависимости от конкретной реализации средство преобразователя на основе преобразования Фурье, средство преобразователя на основе подполос частот или средство преобразователя на основе QMF (QMF - квадратурный зеркальный фильтр) может быть использовано в контексте средства преобразователя из времени в частоту. Независимо от точного режима работы реализованного средства преобразователя из времени в частоту упомянутое средство преобразователя преобразует сигнал (присутствующий во временной области), предоставляемый на вводе, во множество полосовых сигналов. Каждый полосовой сигнал, например, имеет ассоциированную характерную частоту, которая может быть, например, центральной частотой, нижней частотой отсечки соответствующей полосы частот или верхней частотой отсечки соответствующей полосы частот. В зависимости от конкретной реализации отдельные полосовые сигналы могут иметь несколько характерных частот или дополнительный характерный параметр, ассоциированный с ними.

До того, как подробнее описываются отдельные компоненты блок-схемы, показанной на фиг.5, устройства 200 в связи с фиг.6-8, следует отметить в этот момент, что обработка сигнала громкоговорителя или сигнала, извлекаемого из сигнала громкоговорителя, в общем, может выполняться в частотно-зависимой области, так что отдельный ассоциированный полосовой сигнал, множество полосовых сигналов, множество полосовых сигналов или все полосовые сигналы обрабатываются соответствующим образом.

Следует также отметить, что отдельные средства и фильтры могут работать при использовании энергозависимых значений, например, в зависимости от конкретных реализаций. Энергозависимое значение является значением, которое формируется в качестве степени действительного базисного значения с экспонентой с четным номером или формируется в качестве степени абсолютной величины значения (абсолютного значения) с любой степенью. Если, например, кратковременные спектры обрабатываются в отдельных фильтрах или в отдельных средствах, упомянутые спектры могут работать на основе энергозависимых значений, например, на основе значений энергии, которые формируются в качестве квадратов абсолютной величины ассоциированных спектральных коэффициентов. Аналогично, спектры абсолютной величины, т.е. абсолютные значения соответствующих спектральных коэффициентов, могут быть использованы с экспонентой 1. Другими словами, значения, которые являются пропорциональными |z|^m, где m является положительным числом, например, натуральным числом, могут быть использованы в качестве энергозависимых значений, начиная с любого значения z, которое является действительным или комплексным значением. В случае действительного значения z значения, которые являются пропорциональными z^2m, дополнительно могут быть использованы в качестве энергозависимых значений.

Относительно моделирования сигналов следует констатировать, что оценка спектра доли эхо-сигнала или спектра мощности эхо-сигнала с использованием оценочной функции эхо-сигнала типично является не очень точной в практических условиях, поскольку может рассматриваться только часть настоящей длины тракта эхо-сигнала. Чтобы предотвращать то, что эти неточности приводят к остаточным эхо-сигналам, фильтры удаления эхо-сигналов вычисляются таким образом, что они активно подавляют эхо-сигналы, так что не остается остаточных эхо-сигналов. Это достигается посредством переоценки спектра мощности эхо-сигнала и посредством выполнения временного сглаживания, которое предпочтительно применяет небольшие значения фильтра усиления.

Вышеуказанные активные фильтры эхоподавления часто приводят к ухудшению (стационарного) шума на ближнем конце и речи на ближнем конце.

Подход, предложенный здесь, снижает остроту этой проблемы посредством использования двух различных моделей эхоподавления для ранних и поздних эхо-сигналов, соответственно, как также проиллюстрировано на фиг.6.

Фиг.6 показывает блок-схему устройства 200 в соответствии с вариантом осуществления идей, раскрытых в данном документе, содержащего громкоговоритель 100 и микрофон 110. Громкоговоритель 100 имеет сигнал x[n] громкоговорителя, доступный для него. DFT-блок 230 преобразует сигнал x[n] громкоговорителя в DFT-версию X[k,m]. Помимо этого, средство 270 вычисления также имеет сигнал y[n] микрофона 110, доступный для него, снова в форме соответствующего представления Y[k,m] в DFT-области, полученного из DFT-блока 290.

На основе сигналов, доступных для него в каждом случае, средство 270 вычисления значений фильтра подавления вычисляет коэффициенты H[k,m] фильтрации. Коэффициенты H[k,m] фильтрации предоставляются в адаптивный фильтр 210.

Чтобы в конечном счете получать сигнал e[n] после эхоподавления из сигнала y[n] микрофона, адаптивный фильтр 210 дополнительно соединяется с микрофоном таким образом, чтобы принимать сигнал микрофона при вводе. Вывод адаптивного фильтра 210 соединяется с обратным дискретным преобразованием 300 Фурье (IDFT), чтобы предоставлять DFT-представление сигнала после эхоподавления в IDFT 300. Сигнал e[n] после эхоподавления присутствует в выводе блока 300 обратного дискретного преобразования Фурье. Вместо использования дискретного преобразования Фурье, кратковременное преобразование Фурье (STFT) может быть использовано в блоках 230 и 290. Аналогично, обратное кратковременное преобразование Фурье (ISTFT) может быть использовано вместо обратного дискретного преобразования Фурье.

Относительно оценки мощности эхо-сигнала оценка спектра эхо-сигнала для эхо-сигнала может осуществляться посредством применения оценочной функции Ĝ[k,m] эхо-сигнала к задержанной во времени версии спектра мощности громкоговорителя в соответствии со следующим выражением:

{| \hat{Y} [k, m] |}^{2} = \hat{G} {[k, m]}^{2} {| X [k - d, m] |}^{2}

(23)

где |Ŷ[k,m]|² обозначает оценку спектра мощности эхо-сигнала в сигнале микрофона.

В зависимости от конкретной реализации варианта осуществления настоящего изобретения, как проиллюстрировано, например, в связи с фиг.6-8, функциональность, описанная посредством уравнения (23), может быть реализована, например, в фильтре 270 эхоподавления.

Относительно фильтра удаления эхо-сигналов ассоциированный фильтр H[k,m] удаления эхо-сигналов вычисляется и применяется к сигналу микрофона, чтобы подавлять эхо-сигнал. Это осуществляется в соответствии со следующим выражением:

Компоненты фильтрации фильтра удаления эхо-сигналов могут быть вычислены, например, в соответствии со следующим выражением:

H [k, m] = {[\frac{\max ({| Y [k, m] |}^{y} - β {| \hat{Y} [k, m] |}^{y} {,10}^{\frac{y L}{20}})}{{| Y [k, m] |}^{y}}]}^{\frac{1}{y}}

(25)

Расчетные параметры β и γ могут быть использованы для того, чтобы управлять целевой производительностью для фильтра удаления эхо-сигналов. В зависимости от конкретной реализации вариантов осуществления настоящего изобретения, упомянутые расчетные параметры могут быть выбраны как фиксированные, рассчитаны как адаптируемые, программируемые или модифицируемые любым другим способом. Типичным выбором экспоненциального параметра является, например, γ=2.

Так называемый коэффициент β переоценки используется для управления активностью ослабления эхо-сигнала. Например, активность соответствующего фильтра удаления эхо-сигналов может быть увеличена посредством увеличения коэффициента переоценки. Следовательно, типичным выбором фильтра H[k,m] удаления эхо-сигналов относительно параметра β является β=2, чтобы применять только умеренное ослабление эхо-сигнала.

С другой стороны, фильтр удаления эхо-сигналов может быть рассчитан очень активным способом, чтобы эффективно ослаблять мешающие речевые компоненты в эхо-сигнале. Коэффициент β переоценки затем может выбираться, например, в качестве β=4.

Предельное значение L определяет разрешенное максимальное ослабление эхо-сигнала в децибелах (дБ). Типичное значение фильтра удаления эхо-сигналов для практически стационарного шума составляет L=-10 дБ или-15 дБ, что надлежаще ограничивает ослабление для стационарных эхо-сигналов, чтобы уменьшать случайные артефакты. В случае нестационарной речи на дальнем конце, ослабление должно обеспечивать полное ослабление соответствующих компонентов эхо-сигнала, которое соответствует предельному значению для L приблизительно в -60 дБ для нестационарных компонентных сигналов.

Функциональность, как указано посредством уравнения (25), может быть реализована и осуществлена, в вариантах осуществления, описанных на фиг.5-8, в контексте средства 270 вычисления фильтра.

В некоторых вариантах осуществления настоящего изобретения, фактическое эхоподавление не выполняется непосредственно за счет применения фильтров удаления эхо-сигналов, как описано в уравнении (25). Наоборот, соответствующее удаление эхо-сигналов выполняется на основе соответствующей сглаженной во времени версии. Временное сглаживание фильтра(ов) удаления эхо-сигналов может быть полезным для того, чтобы предотвращать возникновение слишком резких изменений, которые могут раздражать слушателя. Как и в случае вышеописанных расчетных параметров, параметры временного сглаживания типично настраиваются вручную и оптимизируются отдельно для эхоподавления ранних отражений и поздней реверберации, соответственно. Тем не менее, при использовании идей, раскрытых в данном документе, такое временное сглаживание типично более не требуется или, по меньшей мере, не требуется в степени, реализованной в предыдущих системах эхоподавления.

Такая функциональность временного сглаживания может быть выполнена, например, в контексте самого средства 270 вычисления фильтра или в любом нижерасположенном средстве. Также можно выполнять такое временное сглаживание непосредственно в контексте адаптивного фильтра 210 в случае необходимости.

Следующий раздел задает введение и пояснение фундаментальных принципов, лежащих в основе моделирования реверберации и оценки эхо-сигнала реверберации позднего эхо-сигнала, которые могут быть полезными, чтобы понимать идеи, раскрытые в данном документе. Предлагается способ для того, чтобы учитывать конкретные свойства акустики комнат, чтобы регулировать интенсивность эхоподавления, так что не остается остаточных эхо-сигналов вследствие компонентов позднего реверберирующего эхо-сигнала. Так называемый хвост эхо-сигнала вызывается посредством поздних отражений в комнате. Уровень отражений может быть оценен через время RT₆₀ реверберации, т.е. время, требуемое для затухания отражений прямого звука на 60 дБ ниже уровня прямого звука. Далее описывается надлежащий подход для того, чтобы моделировать эффект реверберации на уровне эхо-сигнала и оценку времени реверберации.

Моделирование реверберации

Целесообразно предположить, что мощность реверберирующего звука в комнате затухает приблизительно экспоненциальным способом. Для компонентов поздней реверберации также целесообразно предположить, что отражения, поступающие в микрофон, считаются случайными и статистически независимыми. На основе этого допущения, поздние реверберации импульсной характеристики h комнаты, которая схематично проиллюстрирована на фиг.3, могут моделироваться в качестве последовательности b[n] белых шумов, взвешиваемой посредством функции экспоненциального затухания:

h_{r e v} [n] = b [n] e^{- \frac{n}{τ}}

(26)

Постоянная τ времени определяет уровень затухания. Далее интерес представляет затухание уровня эхо-сигнала после импульсообразного звука. Без потери общности предположим, что импульс испущен в n=0. Затем, из (26) следует, что наблюдаемый сигнал, соответствующий поздней реверберации, соответствует следующему:

y [n] = y_{0} b [n] e^{- \frac{n}{τ}}

(27)

Поскольку коэффициенты b[k] представляют последовательность белых шумов, мощность компонентов реверберации задается посредством следующего выражения:

E {y^{2} [n]} = y_{0}^{2} σ_{b}^{2} e^{- \frac{2 n}{τ}}

(28)

где σ_b ² обозначает дисперсию шумовой модели b[n].

STFT-версия (28) получается посредством применения аналогичной модели в спектральной области:

E {{| Y [k, m] |}^{2}} = Y_{0}^{2} (m) σ_{b}^{2} e^{- \frac{2 k}{F_{s} τ_{m}}}

(29)

Аналогично τ в (27), τ_m обозначает постоянную затухания блока во времени, применимую для m-той полосы частот. F_s обозначает связанную с блоком частоту дискретизации STFT, т.е.:

F_{s} = \frac{f_{s}}{K_{S T F T}}

(30)

где f_s является частотой дискретизации, и K_STFT является размером для перескока к STFT-окну. Размер для перескока к окну также упоминается как размер кадра, обозначающий число новых временных выборок, рассматриваемых при вычислении нового STFT-значения.

Модель для компонентов эхо-сигнала, соответствующих поздней реверберации, как предложено в этом изобретении, выводится из (29). Компоненты поздней реверберации спектра |Ŷ[k,m]|2 мощности эхо-сигнала получаются посредством мгновенной реализации (29):

{| {\hat{Y}}_{r e v} [k, m] |}^{2} = Y_{0}^{2} (m) σ_{b}^{2} e^{- \frac{2 k}{F_{s} τ_{m}}}

(31)

Из (31) немедленно следует, что мощность компонентов реверберирующего эхо-сигнала в момент k блока во времени может быть оценена из соответствующей оценки в предыдущий момент k-1 времени:

{| {\hat{Y}}_{r e v} [k, m] |}^{2} = {| {\hat{Y}}_{r e v} [k - 1, m] |}^{2} e^{- \frac{2}{F_{s} τ_{m}}}

(32)

Оценка эхо-сигнала поздней реверберации

Вышеприведенное пояснение приводит к процедуре для оценки спектра мощности эхо-сигнала с учетом прямого тракта и ранних отражений наряду с компонентами поздней реверберации: Пусть |Ŷ_rev[k,m]|² обозначает оценку спектра мощности позднего реверберирующего эхо-сигнала, и пусть |Ŷ[k,m]|² обозначает оценку спектра мощности прямого тракта и ранних отражений. Оценка мощности общего эхо-сигнала обозначается с помощью |Ŷ_tot[k,m]|². Оценка спектра мощности прямого тракта и ранних отражений выполняется согласно (5). Для удобства повторим его здесь:

{| \hat{Y} [k, m] |}^{2} = {| \hat{G} [k, m] |}^{2} {| X_{d} [k, m] |}^{2}

(33)

Компоненты поздней реверберации определяются аналогично (32) посредством рекурсивного уравнения:

{| {\hat{Y}}_{r e v} [k, m] |}^{2} = α_{m} {| {\hat{Y}}_{t o t} [k - 1, m] |}^{2}

(34)

Коэффициент α_m пропорциональности, например, может выбираться согласно модели экспоненциального затухания:

α_{m} = e^{- \frac{2}{F_{s} τ_{m}}}

(35)

Требуемый коэффициент α_m пропорциональности тем самым может быть получен из уравнений (17) и (35).

Хотя индекс m в α_m указывает, что коэффициент пропорциональности выбирается по-разному для каждой полосы частот, он также может быть одинаковым для всех полос частот.

Следует отметить, что в отличие от (32), рекурсивное вычисление реверберирующего эхо-сигнала для предложенного способа (34) основано на оценке мощности общего эхо-сигнала предыдущего кадра |Ŷ_tot[k-1,m]|². Это проиллюстрировано на фиг.8 и пояснено подробнее в соответствующей части описания.

Общая оценка спектра мощности эхо-сигнала определяется из рассмотрения как |Ŷ_rev[k,m]|² (оценки спектра мощности позднего реверберирующего эхо-сигнала), так и |Ŷ[k,m]|² (оценки спектра мощности прямого тракта и ранних отражений). Надлежащий подход заключается в том, чтобы использовать максимум обоих в качестве оценки спектра мощности общего эхо-сигнала:

{| {\hat{Y}}_{t o t} [k, m] |}^{2} = \max {{| \hat{Y} [k, m] |}^{2}, {| {\hat{Y}}_{r e v} [k, m] |}^{2}}

(36)

Следует отметить, что (36) наряду с (34) подразумевает, что после того, как прямой компонент эхо-сигнала считается доминирующим в оценке общего эхо-сигнала, рекурсивная модель для оценки компонентов реверберирующего эхо-сигнала всегда сбрасывается к новым прямым компонентам эхо-сигнала: рекурсивная оценка всегда учитывает предыдущую оценку спектра мощности общего эхо-сигнала, т.е. она не связана с предыдущей оценкой компонентов реверберирующего эхо-сигнала.

Оценка спектра мощности эхо-сигнала затем используется для того, чтобы определять фильтр эхоподавления аналогично (9):

H [k, m] = \frac{{| Y [k, m] |}^{2} - β {| {\hat{Y}}_{t o t} [k, m] |}^{2}}{{| Y [k, m] |}^{2}}

(37)

Чтобы различать между ситуациями, когда только речь на дальнем конце выводится посредством сигнала громкоговорителя, могут быть вычислены два различных параметра. Они первоначально включают в себя так называемое усиление для прогнозирования, которое соответствует полнополосному усреднению функций когерентности между каналом громкоговорителя и каналом микрофона. В качестве второго параметра применяется речевая активность в канале громкоговорителя, которая, например, может извлекаться из сравнения временных уровней сигнала для сигнала громкоговорителя или из конкретных для кодека параметров, которые используются, например, в частности, с кодеками, подходящими для передачи речи. Эти кодеки включают в себя, например, кодеки на основе LPC или кодеки на основе CELP (CELP - линейное прогнозирование с возбуждением по коду или линейное прогнозирование с возбуждением по таблице кодирования), при этом термин "кодек" является искусственным словом, созданным посредством комбинирования сокращений от английских терминов "кодер" и "декодер".

Усиление для прогнозирования или усиление ω[k] для прогнозирования эхо-сигнала описывает уровень подобия между сигналом микрофона и задержанным сигналом громкоговорителя. Вычисление усиления ω[k] для прогнозирования выполняется на основе возведенной в квадрат функции когерентности между задержанным спектром мощности сигнала |X_d[k,m]|² громкоговорителя и спектром мощности сигнала |Y[k,m]|² микрофона в соответствии со следующим выражением:

где E{…} обозначает значение математического ожидания. Упомянутое значение математического ожидания может быть получено в контексте кратковременной оценки функции Г_d[k,m] когерентности посредством вычисления или аппроксимации значения $E {{| X_{d} [k, m] |}^{2} {| Y [k, m] |}^{2}}$ математического ожидания в соответствии со следующим выражением:

E {{| X_{d} [k, m] |}^{2} {| Y [k, m] |}^{2}}

α {| X_{d} [k, m] |}^{2} {| Y [k, m] |}^{2}

(1 - α) E {{| X_{d} [k - 1, m] |}^{2} {| Y [k - 1, m] |}^{2}}

(39)

В контексте вычисления усиления для прогнозирования коэффициент α определяет степень сглаживания оценки во времени. Этот коэффициент имеет связанную постоянную времени, поскольку уравнение (39) примерно соответствует экспоненциальному затуханию. Постоянная T_α времени экспоненциального затухания в секундах составляет приблизительно:

где f_s обозначает частоту дискретизации. Другими словами, отношение пропорциональности (40) иллюстрирует то, как коэффициенты, которые являются фактически безразмерными (здесь α), связанные с частотой f_s дискретизации, могут указываться в качестве постоянной времени (здесь T_α).

Усиление ω[k] для прогнозирования затем вычисляется в качестве среднего значения функций Г_d[k,m] когерентности по частотам, которые указываются посредством индексов m=0, …, M-1, в соответствии со следующим выражением:

где M обозначает настоящее число полос частот.

Коэффициент усиления эхо-сигнала, близкий к 1, подразумевает, что сигнал микрофона может быть (почти) полностью прогнозирован на основе задержанного сигнала громкоговорителя. Следовательно, вероятность того, что сигнал микрофона содержит только речь на дальнем конце, стремится к 1. Параметр β управления затем может управляться относительно усиления ω для прогнозирования. Каждый раз, когда усиление для прогнозирования является высоким, присутствует только речь на дальнем конце, и ослабление эхо-сигнала должно быть достаточно активным, чтобы удалять все (эхо-)сигналы. Таким образом, шум удаляется с наименьшим предельным значением L в децибелах (дБ), при котором выбирается параметр управления β=0. Каждый раз, когда усиление для прогнозирования является низким, может присутствовать речь как на ближнем конце, так и на дальнем конце, так что эхоподавление должно быть менее активным, чтобы не вводить артефакты. В этом случае, шум обрабатывается и удаляется с помощью предельного значения L в децибелах (дБ).

В этом случае, тем не менее, следует отметить, что усиление для прогнозирования может быть высоким, если сигнал громкоговорителя содержит только шум, который снимается посредством микрофона без наличия речи. Чтобы предотвращать то, что значение параметра β управления выбирается слишком большим в этом случае, что должно приводить к чрезмерному подавлению, используется второй параметр управления, а именно, речевая активность в канале громкоговорителя. Следовательно, вышеописанные правила для вычисления параметра β управления в качестве функции усиления ω для прогнозирования фактически применяются только тогда, когда речь является активной в канале громкоговорителя.

В варианте осуществления, проиллюстрированном на фиг.6, эта функциональность, которая описывается посредством уравнений (38)-(41), может быть выполнена посредством средства 270 вычисления.

Напомним, что устройство 200, проиллюстрированное на фиг.6, включает в себя громкоговоритель 100 или терминал для громкоговорителя 100, или ввод для соответствующего сигнала x[n] громкоговорителя. Упомянутый сигнал x[n] громкоговорителя преобразуется в спектральное представление X[k,m] сигнала громкоговорителя в контексте средства 230 преобразователя из времени в частоту, называемого DFT (дискретным преобразованием Фурье). Упомянутый сигнал громкоговорителя предоставляется в средство 480 задержки, которое формирует его задержанную версию X[k-d(k,m),m], причем d(k,m) представляет собой соответствующее значение задержки.

Сигнал, задержанный посредством средства 480 задержки, затем предоставляется в первую оценочную функцию 240 эхо-сигнала, которая формирует сигнал Ŷ[k,m] оценки эхо-сигнала на основе коэффициентов Ĝ[k,m] фильтрации. Упомянутый сигнал Ŷ[k,m] оценки эхо-сигнала предоставляется в средство 250 разделения, которое формирует, на основе спектральных коэффициентов этого оцененного эхо-сигнала, спектры мощности раннего и позднего эхо-сигнала этого сигнала в качестве (извлеченных) компонентных сигналов сигнала громкоговорителя. Таким образом, средство 250 извлечения выводит сигналы |Ŷ_e[k,m]|² (оцененный спектр мощности компонентов раннего эхо-сигнала) и |Ŷ_e[k,m]|² (оцененный спектр мощности компонентов позднего эхо-сигнала) в средство 270 вычисления. В качестве альтернативы варианту осуществления, показанному на фиг.6, оценочная функция 240 эхо-сигнала может выводить компоненты |Ŷ_e[k,m]|²оцененного раннего эхо-сигнала и компоненты |Ŷ_l[k,m]|² оцененного позднего эхо-сигнала непосредственно, и в этом случае средство 250 разделения не требуется.

Сигнал y[n] микрофона от микрофона 110 также предоставляется в средство 290 преобразователя из времени в частоту, сконфигурированное в качестве DFT, которое формирует спектральное представление Y[k,m] временного сигнала y[n] из него. Этот сигнал предоставляется через средство 490 вычисления значений энергии, которое, на основе спектральных компонентов сигнала микрофона, определяет спектр мощности упомянутых спектральных компонентов посредством возведения в квадрат (абсолютной) величины отдельных значений. Спектр мощности, полученный таким образом, также предоставляется в средство 270 вычисления, которое наряду с вышеописанными спектрами мощности вычисляет два фильтра H_e[k,m] и H_l[k,m] удаления эхо-сигналов, т.е. коэффициенты фильтрации фактического адаптивного фильтра H[k,m], и перенаправляет их в адаптивный фильтр 210. Фактический адаптивный фильтр H[k,m] может быть определен на основе двух фильтров H_e[k,m] и H_l[k,m] удаления эхо-сигналов, например, посредством взятия минимума H_e[k,m] и H_l[k,m]. Два фильтра H_e[k,m] и H_l[k,m] удаления эхо-сигналов могут быть определены аналогичным способом, как описано выше относительно уравнения (37):

и:

Как упомянуто выше, фактический адаптивный фильтр H[k,m] затем может быть определен в качестве минимума двух фильтров H_e[k,m] и H_l[k,m] удаления эхо-сигналов:

Адаптивный фильтр 210 также соединяется с выводом средства 290 преобразователя из времени в частоту и тем самым также принимает спектральные компоненты Y[k,m] сигнала y[n] микрофона, из которых он формирует сигнал после эхоподавления в частотной области или частотно-зависимой области E[k,m] с учетом коэффициентов H[k,m] фильтрации. Этот сигнал после эхоподавления затем предоставляется в средство 300 преобразователя из частоты во время, сконфигурированное в качестве IDFT (обратного DFT), которое в конечном счете преобразует этот сигнал обратно во временную область, давая в результате сигнал e[n].

Для определения значения d(k,m) задержки для средства 480 задержки и для определения коэффициентов оценки эхо-сигнала для оценочной функции 240 эхо-сигнала, как спектральные представления сигнала X[k,m] громкоговорителя, так и спектральные представления сигнала Y[k,m] микрофона передаются в соответствующие средства 500, 510 вычисления энергии, которые соединяются с выводами двух средств 230, 290 преобразователя из времени в частоту. Средство 500 вычисления энергии соединяется с выводом средства 230 преобразователя из времени в частоту, и средство 510 вычисления энергии соединяется с выводом средства 300 преобразователя из частоты во время.

Оба средства 500, 510 вычисления значений энергии вычисляют, по аналогии со средством 490 вычисления энергии, спектры мощности посредством возведения в квадрат абсолютных величин соответствующих спектральных компонентов и предоставляют эти значения в дополнительное средство 520 вычисления. Дополнительное средство 520 вычисления или его часть является компонентом средства 465 моделирования затухания эхо-сигнала. Дополнительное средство 520 вычисления затем определяет, на основе значений, доступных для него, оценку для задержки d(k,m) и значения для коэффициентов Ĝ[k,m] для оценочной функции 240 эхо-сигнала. Соответствующие вышеуказанные значения затем передаются в средство 480 задержки, с одной стороны, и в оценочную функцию 240 эхо-сигнала, с другой стороны, с которыми также соединяется дополнительное средство 520 вычисления.

Как также можно видеть из варианта осуществления, показанного на фиг.6, разделение соответствующих компонентных сигналов |Ŷ_e[k,m]|² и |Ŷ_l[k,m]|² тем самым может быть выполнено на основе оценки спектра Ŷ[k,m] эхо-сигнала, который вычисляется в соответствии со следующим выражением:

Это вычисление осуществляется в оценочной функции 240 эхо-сигнала.

Задание двух фильтров H_e[k,m] и H_l[k,m] удаления эхо-сигналов в соответствии с уравнением (25) остается неизменным. То же применимо к определению комбинированного фильтра H[k,m] удаления эхо-сигналов. Следует отметить, что в зависимости от варианта осуществления, комбинация двух фильтров H_e[k,m] и H_l[k,m] удаления эхо-сигналов может быть реализована как временный выбор одного из двух фильтров удаления эхо-сигналов на основе в данный момент наблюдаемых условий эхо-сигнала. В частности, выбор в данный момент активного фильтра удаления эхо-сигналов может быть основан на оценке того, являются в данный момент преобладающими компоненты раннего эхо-сигнала или компоненты позднего эхо-сигнала. Выбор фильтров удаления эхо-сигналов (H_e[k,m] или H_l[k,m]) может быть реализован косвенно посредством выбора либо оцененного спектра мощности компонентов |Ŷ_е[k,m]|² раннего эхо-сигнала, либо оцененного спектра мощности компонентов |Ŷ_l[k,m]|² позднего эхо-сигнала в качестве величины Ŷ_tot[k,m] в уравнении (37), посредством которого вычисляются коэффициенты H[k,m] фильтрации.

Следует отметить в этот момент то, что вариант осуществления, показанный на фиг.6, относится к случаю, в котором оцененный спектр эхо-сигнала Ŷ[k,m] уже доступен. Конечно, соответствующий способ также является применимым, когда известен только оцененный спектр мощности оцененного эхо-сигнала |Ŷ[k,m]|² в соответствии с уравнением (23). Этот случай описывается подробнее в связи с вариантом осуществления, показанным на фиг.7.

Тогда как фиг.6 показывает блок-схему подхода на основе ослабления акустического эхо-сигнала, блок-схема, проиллюстрированная на фиг.7, иллюстрирует аналогичный подход. В отличие от этого, тем не менее, вторая из них основана на подходе на основе ослабления акустического эхо-сигнала, который функционирует на основе оцененного спектра мощности эхо-сигнала |Ŷ[k,m]|².

Следовательно, очень похожи не только режимы работы двух вариантов осуществления, показанных на фиг.6 и 7, но также и их структуры, как показывает нижеследующее описание.

Более конкретно, вариант осуществления, показанный на фиг.7, отличается от варианта осуществления, показанного на фиг.6, по существу тем, что средство 500 вычисления энергии больше не соединяется исключительно выше дополнительного средства 520 вычисления относительно сигнала x[n] громкоговорителя, передаваемого в частотную область, а вместо этого соединяется непосредственно с выводом средства 230 преобразователя из времени в частоту, снова сконфигурированного в качестве DFT. Таким образом, не только дополнительное средство 520 вычисления, но также и средство 480 задержки, оценочная функция 240 эхо-сигнала и средство 250 разделения более не содержат фактических спектральных компонентов, а вместо этого содержат их спектры мощности.

Кроме этого, тем не менее, два варианта осуществления, показанные на фиг.6 и 7, отличаются только тем, что соответствующие вычисления могут продолжаться с незначительным отличием друг от друга в отдельных компонентах и средствах. Например, соответствующее вычисление энергозависимых значений отдельных спектральных компонентов больше не выполняется в средстве 250 разделения, поскольку оно уже выполнено ранее посредством средства 500 вычисления значений энергии.

Фиг.8 показывает дополнительный вариант осуществления устройства или способа согласно идеям, раскрытым в данном документе. Средство 472 определения функции раннего эхо-сигнала выводит оценку |Ĝ[k,m]|² передаточной функции мощности акустической среды 120. Оценка |Ĝ[k,m]|² может быть определена посредством корреляции между сигналом микрофона и сигналом громкоговорителя. Средство 475 определения оценочной функции позднего эхо-сигнала выводит параметр α_m затухания эхо-сигнала. Оценка |Ĝ[k,m]|² предоставляется в функциональный блок 240, т.е. в оценочную функцию эхо-сигнала. Функциональный блок 240 использует оценку |Ĝ[k,m]|² передаточной функции мощности системной характеристики акустической среды 120 и спектр |X[k,m]|² мощности сигнала громкоговорителя для того, чтобы определять оцененный спектр |Ŷ[k,m]|² мощности микрофона в качестве текущей системной характеристики акустической среды 120 после возбуждения посредством сигнала громкоговорителя. Типично оценка |Ŷ[k,m]|² в данный момент рассматриваемой системной характеристики для сигнала громкоговорителя фактически охватывает ранние отражения, только: временной горизонт оценок |Ĝ[k,m]|² и |Ŷ[k,m]|² является ограниченным. Оценка |Ŷ[k,m]|² предоставляется в качестве одного из двух вводов в модуль 550 выбора максимума. Другой ввод в модуль 550 выбора максимума предоставляется посредством предыдущего вывода модуля 550 выбора максимума, возможно масштабированного на коэффициент α_m, который представляет компонент позднего реверберирующего эхо-сигнала |Y_rev[k,m]|²=α_m*|Y_tot[k-1,m]|². Вывод модуля 550 выбора максимума представляет собой общую оценку спектра |Y_tot[k,m]|² мощности эхо-сигнала, которая определяется из рассмотрения как |Ŷ[k,m]|², так и α_m*|Y_tot[k-1,m]|². Второй член α_m*|Y_tot[k-1,m]|² вычисляется из вывода модуля 550 выбора максимума посредством элемента 560 задержки и скалярного множителя 570 для параметра α_m. Компоновка элемента 560 задержки и скалярного множителя 570 представляет средство 241 оценки позднего эхо-сигнала и обеспечивает рекурсивное вычисление реверберирующего эхо-сигнала на основе экспоненциальной модели для реверберирующей части общего эхо-сигнала, как пояснено выше. Использование максимума из вводов в модуль 550 выбора максимума представляет полученные сведения о том, что ранние отражения типично являются доминирующими в течение первого временного интервала после возбуждения акустической среды 120. Эти ранние отражения, которые могут быть вычислены с использованием оцененного спектра |Ĝ[k,m]|² мощности передачи характеристики эхо-сигнала, являются в первую очередь целью эхокомпенсации в течение этого первого временного интервала. Несомненно, ранние отражения типично являются доминирующими в течение первой фазы после возбуждения, так что другими компонентами эхо-сигнала (поздними реверберациями) можно пренебрегать. В отсутствие дополнительных возбуждений в акустической среде 120 ранние отражения должны снижаться по абсолютной величине и в конечном счете полностью обращаться в нуль со временем. Другая причина обращения оцененных ранних отражений в нуль от |Ŷ[k,m]|² состоит только в том, что передаточная функция |Ĝ[k,m]|² типично имеет ограниченную длину. Когда абсолютная величина оцененных ранних отражений падает до определенного значения, другой ввод (т.е. ввод для Ŷ_rev[k,m]) в модуль 550 выбора максимума может переносить сигнал, имеющий большую абсолютную величину, чем спектр мощности ранних оцененных отражений |Ŷ[k,m]|². Как упомянуто выше, рекурсивная модель для оценки компонентов реверберирующего эхо-сигнала посредством элемента 560 задержки и скалярного множителя 570 всегда сбрасывается до новых прямых компонентов |Ŷ[k,m]|² эхо-сигнала, если новые прямые компоненты эхо-сигнала имеют большую абсолютную величину, чем компоненты реверберирующего эхо-сигнала. Другими словами, компоненты реверберирующего эхо-сигнала не связаны с предыдущей оценкой компонентов реверберирующего эхо-сигнала.

Вывод модуля 550 выбора максимума |Y_tot[k,m]|² затем используется для того, чтобы определять фильтр эхоподавления способом, аналогичным уравнению (9). В частности, оценка спектра |Y_tot[k,m]|² мощности эхо-сигнала умножается на скалярный множитель β_m (ссылка 580 с номером) и затем вычитается из спектра мощности сигнала |Y[k,m]|² микрофона. Действие модуля 550 выбора максимума может рассматриваться в качестве одной возможной реализации, чтобы комбинировать компонент (Ŷ[k,m]) раннего эхо-сигнала и компонент (Ŷ_rev[k,m]) позднего эхо-сигнала. Альтернативная реализация комбинирования ранних и поздних компонентов может состоять в вычислении взвешенного среднего.

Результирующая разность затем нормализуется согласно спектру мощности сигнала микрофона, как указано посредством блока 590. Скалярный множитель 580, точка суммирования и блок 590 нормализации совместно образуют средство 270 вычисления (или, по меньшей мере, его часть), которое предоставляет коэффициенты фильтрации для адаптивного фильтра 210 (H[k,m]).

Параметр α_m, регулирующий показатель модели экспоненциального затухания, используемый в скалярном множителе 570, может быть определен посредством средства 475 определения оценочной функции позднего эхо-сигнала. Скалярный множитель 570 затем может регулироваться согласно значению для параметра α_m, определенного посредством оценочной функции 475 позднего эхо-сигнала, на основе спектра мощности сигнала громкоговорителя и спектра мощности сигнала микрофона. Оценка времени реверберации и ее взаимосвязь с параметром экспоненциального затухания уже пояснена выше.

Средство 475 определения оценочной функции позднего эхо-сигнала, на входной стороне, может принимать, например, постоянную τ времени затухания эхо-сигнала (или другие измерения, параметры и т.д.) из средства 465 моделирования затухания эхо-сигнала. Средство 465 моделирования затухания эхо-сигнала может соединяться со средствами 500, 510 вычисления значений энергии и тем самым принимать спектры мощности сигналов микрофона и громкоговорителя. Средство 465 моделирования затухания эхо-сигнала, например, может определять корреляцию между спектрами мощности сигналов микрофона и громкоговорителя, чтобы определять параметры затухания эхо-сигнала. В альтернативе, может быть достаточным наблюдать только сигнал микрофона. Оценочная функция 475 позднего эхо-сигнала также может содержать необязательные вводы для сигналов микрофона и громкоговорителя (не показаны на фиг.8).

Фиг.8 показывает в качестве пунктирного прямоугольника средство 340 обработки эхо-сигналов, которое содержит средство 465 моделирования затухания эхо-сигнала, средства 472 и 475 определения оценочной функции эхо-сигнала, оценочную функцию 240 эхо-сигнала, модуль 550 выбора максимума и средство 241 оценки позднего эхо-сигнала. Средство 340 обработки эхо-сигналов предоставляет оценку эхо-сигнала, сформированного посредством акустической среды 120 в ответ на данный сигнал громкоговорителя. Оценка эхо-сигнала может быть вычислена либо на основе средства 472 определения функции раннего эхо-сигнала, либо на основе рекурсивного моделирования компонентов реверберирующего эхо-сигнала, реализованного посредством средства 241 оценки позднего эхо-сигнала.

В варианте осуществления, показанном на фиг.8, модуль 550 выбора максимума использует спектры мощности компонента |Ŷ[k,m]|² оцененного раннего эхо-сигнала и компонента |Ŷ_rev[k,m]|² оцененного позднего эхо-сигнала в качестве входных значений, и, следовательно, также формирует спектр мощности полного эхо-сигнала |Ŷ_tot[k,m]|² в своем выводе. В альтернативе, частотные спектры (т.е. Ŷ[k,m], Ŷ_rev[k,m] и Ŷ_tot[k,m]) могут быть использованы вместо спектров мощности. Термины "компонент раннего эхо-сигнала" и "компонент позднего эхо-сигнала", используемые в соответствующем зависимом пункте(ах) формулы изобретения, имеют намерение охватывать как частотные спектры, так и спектры мощности.

Фиг.9 показывает принципиальную блок-схему варианта осуществления, который является аналогичным варианту осуществления, показанному на фиг.8. Вплоть до оценочной функции 240 эхо-сигнала блок-схемы на фиг.8 и 9 являются практически идентичными. Оценочная функция 240 эхо-сигнала выводит спектр мощности компонента |Ŷ[k,m]|² оцененного раннего эхо-сигнала. Этот спектр мощности компонента раннего оцененного эхо-сигнала |Ŷ[k,m]|² затем распределяется в первое средство 270_e вычисления и в модуль 553 выбора. Средство 270_e вычисления соответствует средству 270 вычисления, показанному на фиг.8. Отличие между фиг.8 и фиг.9 заключается в том, что на фиг.9 средство 270_e вычисления всегда рассматривает спектр мощности компонента |Ŷ[k,m]|² оцененного раннего эхо-сигналав качестве ввода. Таким образом, вывод средства 270_e вычисления на фиг.9 может рассматриваться в качестве фильтра Ĥ_e[k,m] удаления эхо-сигналов для компонентов раннего эхо-сигнала. Помимо средства 270_e вычисления, спектр мощности компонента |Ŷ[k,m]|² оцененного раннего эхо-сигналатакже распределяется в первый ввод модуля 553 выбора. Вывод модуля 553 выбора соединяется со вторым средством 270_l вычисления, а также со средством 241 оценки позднего эхо-сигнала, аналогичным средству, показанному на фиг.8. Соответственно, средство 241 оценки позднего эхо-сигнала содержит элемент 560 задержки и скалярный множитель α_m. Вывод средства 241 оценки позднего эхо-сигнала соединяется со вторым вводом модуля 553 выбора. Когда модуль 553 выбора имеет конфигурацию, в которой выбран второй ввод, рекурсивное вычисление компонентов (позднего) эхо-сигнала выполняется так, как пояснено выше со ссылкой на фиг.8. Когда модуль 553 выбора имеет конфигурацию, в которой выбран первый ввод, рекурсивное вычисление сбрасывается или повторно инициализируется как текущее значение спектра мощности компонента |Ŷ[k,m]|² оцененного раннего эхо-сигнала.

Второе средство 270_l вычисления принимает компонент |Y_rev[k,m]|² позднего реверберирующего эхо-сигналаи выполняет вычисление, аналогичное вычислению первого средства 270_e вычисления, приводящее к оценке фильтра Ĥ_l[k,m] удаления эхо-сигналов для компонентов позднего эхо-сигнала. Фильтр Ĥ_e[k,m] удаления ранних эхо-сигналов и фильтр Ĥ_l[k,m] удаления поздних эхо-сигналов предоставляются в средство 551 задания коэффициентов фильтрации и в модуль 552 сравнения. Средство 551 задания коэффициентов фильтрации определяет коэффициенты H[k,m] фильтрации адаптивного фильтра 210 на основе фильтра Ĥ_e[k,m] удаления ранних эхо-сигналов и фильтра Ĥ_l[k,m] удаления поздних эхо-сигналов. Другими словами, средство 270 вычисления дополнительно выполнено с возможностью определять фильтр Ĥ_e[k,m] удаления ранних эхо-сигналов и фильтр Ĥ_l[k,m] удаления поздних эхо-сигналов. Устройство 200 дополнительно содержит средство 551 задания коэффициентов фильтрации, выполненное с возможностью определять коэффициенты H[k,m] фильтрации адаптивного фильтра 210 на основе комбинации коэффициентов фильтрации фильтра Ĥ_e[k,m] удаления ранних эхо-сигналов и фильтра Ĥ_l[k,m] удаления поздних эхо-сигналов. Комбинация фильтра Ĥ_e[k,m] удаления ранних эхо-сигналов и фильтра Ĥ_l[k,m] удаления поздних эхо-сигналов может быть линейной комбинацией, выбором на основе коэффициентов фильтрации из фильтра Ĥ_e[k,m] удаления ранних эхо-сигналов и фильтра Ĥ_l[k,m] удаления поздних эхо-сигналов либо другой подходящей комбинацией двух фильтров Ĥ_e[k,m] и Ĥ_l[k,m] удаления эхо-сигналов. В варианте осуществления, проиллюстрированном на фиг.9, средство 551 задания коэффициентов фильтрации скомпоновано в качестве модуля выбора минимума, который выбирает минимум из фильтра Ĥ_e[k,m] удаления ранних эхо-сигналов и фильтра Ĥ_l[k,m] удаления поздних эхо-сигналов, который затем предоставляется в адаптивный фильтр 210. Другими словами, и, как описано выше, средство 270 вычисления (содержащее первое средство 270_e вычисления и второе средство 270_l вычисления) дополнительно выполнено с возможностью определять фильтр Ĥ_e[k,m] удаления ранних эхо-сигналов и фильтр Ĥ_l[k,m] удаления поздних эхо-сигналов. Устройство 200 дополнительно содержит средство 551 задания коэффициентов фильтрации в форме модуля выбора минимума, который выполнен с возможностью определять коэффициенты H[k,m] фильтрации адаптивного фильтра 210 на основе выбора минимума из фильтра Ĥ_e[k,m] удаления ранних эхо-сигналов и фильтра Ĥ_l[k,m] удаления поздних эхо-сигналов.

Модуль 552 сравнения формирует управляющий сигнал для модуля 553 выбора на основе сравнения между фильтром Ĥ_e[k,m] удаления ранних эхо-сигналов и фильтром Ĥ_l[k,m] удаления поздних эхо-сигналов. В примерном проиллюстрированном варианте осуществления, управляющий сигнал (пунктирная линия с отметкой "сброс" на фиг.9) является высоким, если фильтр Ĥ_e[k,m] удаления ранних эхо-сигналов меньше фильтра Ĥ_l[k,m] удаления поздних эхо-сигналов, что приводит к тому, что модуль 553 выбора выбирает свой первый ввод, т.е. ввод, который соединяется с оценочной функцией 240 эхо-сигнала. Таким образом, вычисление компонентов |Ŷ_rev[k,m]|² реверберирующего эхо-сигналасбрасывается или повторно инициализируется как текущая оценка компонента |Ŷ[k,m]|² раннего эхо-сигнала.

Последующая обработка является аналогичной обработке, проиллюстрированной и описанной относительно варианта осуществления, показанного на фиг.8.

Фиг.10 иллюстрирует то, как поздние реверберации, вызываемые посредством нескольких импульсов в акустической среде 120, могут перекрываться. Три импульса различной абсолютной величины выведены в акустическую среду 120 в различные моменты времени. Ранние отражения не проиллюстрированы на фиг.10 для понятности. Тем не менее, показаны поздние реверберации импульсов. В частности, можно видеть, что функция экспоненциального затухания, соответствующая поздней реверберации первого импульса, еще не обращена в нуль, когда вторая функция экспоненциального затухания, соответствующая второму импульсу, накладывается на первую экспоненциально затухающую позднюю реверберацию. Аналогичный эффект возникает в начале вследствие третьей экспоненциально затухающей поздней реверберации, соответствующей третьему импульсу. Кроме того, даже если исходные импульсы и прямые звуки являются относительно короткими по длительности, поздние реверберации длятся в течение большего временного интервала. Следует отметить, что поздние реверберации чрезмерно увеличены по абсолютной величине для иллюстрации. Типично, поздние реверберации приблизительно на один или несколько порядков величины меньше исходных импульсов.

Фиг.11 иллюстрирует то, как моделирование эхо-сигнала может переключаться с модели на основе ранних эхо-сигналов на модель экспоненциального затухания. Как пояснено в контексте фиг.8, максимум может быть определен из оценок раннего эхо-сигнала и модели экспоненциального затухания. Вплоть до момента, указываемого посредством n_switch на фиг.11, оценки раннего эхо-сигнала больше по абсолютной величине, чем эхо-сигнал, оцененный посредством модели экспоненциального затухания. Следовательно, оценки раннего эхо-сигнала используются для того, чтобы моделировать характеристику эхо-сигнала акустической среды 120. После момента n_switch, эхо-сигнал, оцененный посредством модели экспоненциального затухания, превышает все оставшиеся оценки эхо-сигнала. Типично, функция(и) оценки раннего эхо-сигнала не реализуется для того, чтобы вычислять оценки эхо-сигнала за пределами предварительно определенного временного горизонта, чтобы поддерживать трудоемкость вычислений в обоснованных пределах. Это означает то, что за пределами этого временного горизонта модель экспоненциального затухания является единственной моделью на основе эхо-сигналов, предоставляющей ненулевую оценку для компонентов позднего эхо-сигнала. До временного горизонта, обе модели на основе эхо-сигналов могут давать в результате ненулевые оценки эхо-сигнала, и выбирается модель, имеющая большую абсолютную величину.

На фиг.11 можно видеть, что модель экспоненциального затухания всегда сбрасывается до абсолютной величины оценок раннего эхо-сигнала при условии, что оценки раннего эхо-сигнала имеют абсолютную величину, превышающую текущую абсолютную величину эхо-сигнала, оцененного посредством модели экспоненциального затухания. В альтернативе, должно быть возможным измерять модель экспоненциального затухания, например, на прямом звуке, вызываемом посредством исходного импульса.

Фиг.12 показывает дополнительный вариант осуществления настоящего изобретения, в котором, например, несколько сигналов громкоговорителя или несколько сигналов микрофона предоставляются в соответствующее устройство 200. Другими словами, вариант осуществления, проиллюстрированный на фиг.12, представляет собой многоканальное устройство.

Хотя варианты осуществления настоящего изобретения пояснены и описаны выше только для отдельных каналов или случая отдельного канала, в котором доступны только один сигнал громкоговорителя и один сигнал микрофона, варианты осуществления настоящего изобретения не ограничены случаем отдельного канала, как пояснено ниже. Упомянутые варианты осуществления также могут применяться, по аналогии, к системам ослабления акустического эхо-сигнала с поддержкой многоканального режима.

Поскольку вариант осуществления, показанный на фиг.12, устройства 200 является аналогичным по структуре варианту осуществления, показанному на фиг.6, следует обратиться к нижеприведенному описанию в связи с фиг.6-8 касательно режима работы, соединения и других аспектов.

Многоканальная разновидность, показанная на фиг.12, устройства 200 содержит множество вводов 220-1, 220-2, …, на которых несколько сигналов громкоговорителя могут подаваться в устройство 200. Соответственно, устройство 200 также содержит соответствующее множество необязательных средств 230-1, 230-2, …, преобразователя из времени в частоту, которые могут выполнять трансляцию или преобразование соответствующих сигналов громкоговорителя из временной области в частотно-зависимую область.

Множество средств 230 преобразователя из времени в частоту соединяются с соответствующим числом вводов средства 530 объединения, которое на основе входящих сигналов громкоговорителя формирует общий извлеченный сигнал громкоговорителя, которое затем перенаправляет его в первую оценочную функцию 240 эхо-сигнала или в средство 250 разделения, в зависимости от того, присутствует или нет необязательная первая оценочная функция 240 эхо-сигнала. Средство 250 разделения возможно соединяется с необязательной второй оценочной функцией эхо-сигнала 260 или непосредственно со средством 270 вычисления. Упомянутое средство в завершение выводит вычисленные коэффициенты фильтрации в своем выводе.

Многоканальная разновидность устройства 200 на фиг.12 дополнительно содержит дополнительное средство 540 объединения, которое соединяется, на входной стороне, с соответствующим числом вводов 280-1, 280-2, …, для соответствующих сигналов микрофона через необязательное средство 290-1, 290-2, …, преобразователя из времени в частоту. Дополнительное средство 540 объединения определяет, по аналогии со средством 530 объединения, на основе сигналов микрофона, которые присутствуют во временной области или в частотно-зависимой области и становится доступными для него, извлеченный, эффективный или общий сигнал микрофона, который необязательно может становиться доступным для средства 250 разделения или для средства 270 вычисления.

Многоканальная разновидность устройства 200, как показано на фиг.12, дополнительно содержит адаптивный фильтр 210-1, 210-2, …, для каждого сигнала микрофона или каждого из вводов 280 сигнала микрофона, причем упомянутый адаптивный фильтр 210-1, 210-2, …, соединяется, возможно через необязательное средство 290-1, 290-2, …, преобразователя из времени в частоту, с соответствующими вводами 280-1, 280-2, …,. Соответственно, адаптивные фильтры 210-1, 210-2, …, соединяются, возможно через множество необязательных средств 300-1, 300-2, …, преобразователя из частоты во время, с выводом 310-1, 310-2, …, соответственно. Выходные сигналы, которые фильтруются посредством адаптивных фильтров 210, очищаются от эхо-сигналов или спектрально модифицируются, затем доступны для устройства 200 в упомянутых выводах 310.

Адаптивные фильтры 210-1, 210-2, …, соединяются параллельно с выводом средства 270 вычисления, причем на этом выводе упомянутое средство 270 вычисления предоставляет коэффициенты фильтрации для адаптивных фильтров. Другими словами, все сигналы микрофона из множества сигналов микрофона фильтруются в варианте осуществления настоящего изобретения, как проиллюстрировано на фиг.12, с помощью идентичного адаптивного фильтра с функциональной точки зрения, т.е. на основе идентичных коэффициентов фильтрации, чтобы получать спектрально модифицированные версии или версии после эхокомпенсации соответствующих сигналов микрофона.

Таким образом, если x_w[n] является сигналом w-того громкоговорителя, где w является целым числом в пределах от 0 до W-1, и где W обозначает число различных громкоговорителей или сигналов громкоговорителя, может быть вычислено представление X_w[k,m] в STFT-области сигнала w-того громкоговорителя.

Объединенный спектр мощности для всех каналов громкоговорителя затем вычисляется посредством комбинирования спектров для отдельных спектров сигнала громкоговорителя:

где W обозначает число каналов громкоговорителя.

По аналогии с этим, общий или объединенный спектр мощности для каналов микрофона также вычисляется в соответствии со следующим выражением:

где Yp[k,m] обозначает сигнал p-того микрофона 110, и P представляет число микрофонов. Индекс p так же является целым числом в пределах от 0 до P-1. Это вычисление может выполняться в варианте осуществления, показанном на фиг.12, посредством дополнительного средства 540 объединения.

Для определения фильтра удаления эхо-сигналов в соответствии с уравнением (25), спектры |Х[k,m]|² (мощности) громкоговорителя в соответствии с уравнением (46) и спектр |Y[k,m]|² (мощности) микрофона в соответствии с уравнением (47) используются в ходе дополнительных алгоритмических этапов, как пояснено в предыдущих абзацах описания. Определение параметра β управления, описанного в связи с управлением производительностью в соответствии с уравнениями (38)-(41), также может быть выполнено на основе общих или объединенных спектров в соответствии с уравнениями (46) и (47).

Фактическое эхоподавление в контексте спектральной модификации затем выполняется по отдельности для каждого сигнала микрофона, но с использованием идентичного фильтра 210 удаления эхо-сигналов для каждого канала микрофона в соответствии со следующим выражением:

для p=0, 1, …, P-1. По аналогии с этим, фильтры 210 удаления эхо-сигналов также могут быть реализованы по-другому, как пояснено выше.

В этом контексте необходимо отметить, что в контексте многоканальной разновидности устройства 200, как показано, например, на фиг.12, число W сигналов громкоговорителя и число P сигналов микрофона должно быть идентичным и отличаться друг от друга. Любое число вводов может предоставляться, в принципе, как для сигналов громкоговорителя, так и для сигналов микрофона. Кроме того, совершенно необязательно предоставлять как множество вводов сигнала громкоговорителя, так и множество вводов сигнала микрофона с соответствующими средствами 530, 540 объединения. В вариантах осуществления настоящего изобретения, весьма вероятно, что только множество вводов сигнала громкоговорителя реализуется с соответствующим средством 530 объединения без необходимости реализовывать несколько вводов сигнала микрофона с соответствующим дополнительным средством 540 объединения. Эта система может использоваться, например, когда существует один одиночный микрофон, но множество громкоговорителей, например, поскольку сигнал связи абонента на дальнем конце воспроизводится через аудиосистему, содержащую несколько громкоговорителей, которая может быть реализована, например, в легковых автомобилях.

Помимо этого, необязательно можно реализовывать несколько вводов для сигнала громкоговорителя с соответствующим средством 530 объединения, когда реализуется только один центральный громкоговоритель, например, в контексте системы проведения конференций, но множество динамиков имеет собственный микрофон, доступный им. В таком случае, только реализация дополнительного средства 540 объединения может быть желательной.

Помимо этого, в данный момент необходимо отметить, что средства 530, 540 объединения, разумеется, могут иметь такую конфигурацию, в которой они предназначены для большего числа сигналов громкоговорителя или сигналов микрофона, чем в конечном счете предоставляется для них. Соответственно, устройство 200 может содержать больше соответствующих вводов 220, 280, чем в конечном счете должно использоваться. В этом случае, например, вышерасположенная схема, к примеру, сами необязательные средства 230, 290 преобразователя из времени в частоту или средства 530, 540 объединения, может определять число активных каналов и выбирать параметры W и P соответствующим образом. Конечно, также может быть реализовано внешнее предоставление числа каналов и возможно числа сигналов микрофона и громкоговорителя, которые должны учитываться.

Также следует отметить в этот момент то, что вариант осуществления, показанный на фиг.12, разумеется, также работает только с одним одиночным сигналом громкоговорителя и одним одиночным сигналом микрофона, если соответствующие параметры W и P передаются в средства 530, 540 объединения. В принципе, уравнения (46) и (47) также являются применимыми к случаям P=1 и/или W=1. Таким образом, вариант осуществления, показанный на фиг.12, представляет "обратно совместимое" расширение вариантов осуществления, показанных, например, на фиг.6-8, для этого раскрытия сущности.

Временные колебания спектров мощности

В [11] предложено использовать временные колебания спектров мощности для улучшенной оценки параметров, используемых в вариантах применения для подавления акустических эхо-сигналов. Временные колебания спектров мощности определяются в качестве центрированных версий относительно соответствующих средних значений:

На практике, операторы математического ожидания заменяются посредством временных средних, например, согласно (8). Временные колебания спектров мощности задержанного сигнала $\tilde{X} [k, m]$ громкоговорителя и сигнала $\tilde{y} [k, m]$ микрофона затем используются в уравнениях (18) и (19) для того, чтобы оценивать постоянную τ_m времени затухания.

Альтернативы кратковременному преобразованию Фурье

Что касается частотного разрешения, может быть желательным отклоняться от частотного разрешения для STFT. Равномерное спектральное разрешение STFT в определенной степени отличается от спектрального разрешения человеческого восприятия. Следовательно, может быть преимущественным группировать равномерно разнесенные коэффициенты |Х[k,m]|² и |Y[k,m]|² в определенное число неперекрывающихся сегментов или групп, как также показано в [9], причем эти сегменты или группы содержат полосы пропускания, которые имитируют частотное разрешение слуховой системы человека, как представлено, например, в [10].

Для частоты дискретизации в 16 кГц длина DFT-блока для STFT в 512 выборок и 15 групп или сегментов представляют собой обоснованный выбор, причем каждый сегмент имеет полосу пропускания, которая примерно соответствует удвоению эквивалентной прямоугольной полосы пропускания (ERB), как описано в [10].

Как показывает вышеприведенное описание вариантов осуществления настоящего изобретения, варианты осуществления настоящего изобретения в некоторых случаях содержат функциональные модули, которые включают в себя следующие этапы в качестве краткой сводки. Некоторые варианты осуществления настоящего изобретения реализуют прием, по меньшей мере, одного сигнала громкоговорителя, прием, по меньшей мере, одного сигнала микрофона, преобразование сигнала громкоговорителя и сигнала микрофона в кратковременные спектры, вычисление соответствующих спектров мощности громкоговорителя и микрофона, предоставление параметров затухания эхо-сигнала из предварительно определенной модели затухания эхо-сигнала или динамически оцененной модели затухания эхо-сигнала, вычисление фильтра усиления для удаления эхо-сигналов, моделирующего эхо-сигнал, который учитывает параметры затухания эхо-сигнала, применение фильтра усиления к спектру микрофона, чтобы подавлять эхо-сигнал, и преобразование спектра микрофона после эхоподавления во временную область.

Хотя некоторые аспекты описаны в контексте устройства, очевидно, что эти аспекты также представляют описание соответствующего способа, при этом блок или устройство соответствует этапу способа либо признаку этапа способа. Аналогично, аспекты, описанные в контексте этапа способа, также представляют описание соответствующего блока или элемента, или признака соответствующего устройства. Некоторые или все этапы способа могут быть выполнены посредством (или с использованием) устройства, такого как, например, микропроцессор, программируемый компьютер либо электронная схема. В некоторых вариантах осуществления, некоторые из одного или более самых важных этапов способа могут выполняться посредством этого устройства.

В зависимости от определенных требований к реализации, варианты осуществления изобретения могут быть реализованы в аппаратных средствах или в программном обеспечении. Реализация может выполняться с использованием цифрового носителя хранения данных, например, гибкого диска, DVD, Blu-Ray, CD, ROM, PROM, EPROM, EEPROM или флэш-памяти, имеющего сохраненные электронночитаемые управляющие сигналы, которые взаимодействуют (или допускают взаимодействие) с программируемой компьютерной системой, так что осуществляется соответствующий способ. Следовательно, цифровой носитель хранения данных может быть машиночитаемым.

Некоторые варианты осуществления согласно изобретению содержат носитель данных, имеющий электронночитаемые управляющие сигналы, которые допускают взаимодействие с программируемой компьютерной системой таким образом, что осуществляется один из способов, описанных в данном документе.

В общем, варианты осуществления настоящего изобретения могут быть реализованы как компьютерный программный продукт с программным кодом, при этом программный код выполнен с возможностью осуществления одного из способов, когда компьютерный программный продукт работает на компьютере. Программный код, например, может быть сохранен на машиночитаемом носителе.

Другие варианты осуществления содержат компьютерную программу для осуществления одного из способов, описанных в данном документе, сохраненную на машиночитаемом носителе.

Другими словами, следовательно, вариант осуществления изобретаемого способа представляет собой компьютерную программу, имеющую программный код для осуществления одного из способов, описанных в данном документе, когда компьютерная программа работает на компьютере.

Следовательно, дополнительный вариант осуществления изобретаемых способов представляет собой носитель данных (цифровой носитель хранения данных или машиночитаемый носитель), содержащий записанную компьютерную программу для осуществления одного из способов, описанных в данном документе. Носитель данных, цифровой носитель хранения данных или носитель с записанными данными типично является материальным и/или энергонезависимым.

Следовательно, дополнительный вариант осуществления изобретаемого способа представляет собой поток данных или последовательность сигналов, представляющих компьютерную программу для осуществления одного из способов, описанных в данном документе. Поток данных или последовательность сигналов, например, может быть выполнена с возможностью передачи через соединение для передачи данных, например, через Интернет.

Дополнительный вариант осуществления содержит средство обработки, например, компьютер или программируемое логическое устройство, выполненное с возможностью осуществлять один из способов, описанных в данном документе.

Дополнительный вариант осуществления содержит компьютер, имеющий установленную компьютерную программу для осуществления одного из способов, описанных в данном документе.

Дополнительный вариант осуществления согласно изобретению содержит устройство или систему, выполненное с возможностью передавать (например, электронно или оптически) компьютерную программу для осуществления одного из способов, описанных в данном документе, в приемное устройство. Приемное устройство, например, может быть компьютером, мобильным устройством, запоминающим устройством и т.п. Устройство или система, например, может содержать файловый сервер для передачи компьютерной программы в приемное устройство.

В некоторых вариантах осуществления, программируемое логическое устройство (например, программируемая пользователем вентильная матрица) может быть использовано для того, чтобы выполнять часть или все из функциональностей способов, описанных в данном документе. В некоторых вариантах осуществления, программируемая пользователем вентильная матрица может взаимодействовать с микропроцессором, чтобы осуществлять один из способов, описанных в данном документе. В общем, способы предпочтительно осуществляются посредством любого устройства.

Вышеописанные варианты осуществления являются просто иллюстративными в отношении принципов настоящего изобретения. Следует понимать, что модификации и изменения компоновок и подробностей, описанных в данном документе, должны быть очевидными для специалистов в данной области техники. Следовательно, они подразумеваются как ограниченные только посредством объема нижеприведенной формулы изобретения, а не посредством конкретных подробностей, представленных посредством описания и пояснения вариантов осуществления в данном документе.

Процессор может состоять из компьютера, микропроцессорной карты (смарт-карты), интегрированной системы (SOC - внутрикристальная система), специализированной интегральной схемы (ASIC) либо любой другой интегральной схемы (IC).

Источники информации

[1] C. Breining, P. Dreiseitel, E. Hänsler, A. Mader, B. Nitsch, H. Puder, T. Schertler, G. Schmidt и J. Tilp, "Acoustic echo control", IEEE Signal Processing Magazine, 16(4): 42-69, июль 1999 года.

[2] A. N. Birkett и R. A. Goubran, "Limitations of handsfree acoustic echo cancellers due to nonlinear loudspeaker distortion and enclosure vibration effects", In Proc. IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, стр. 13-16, Нью-Пальтц, октябрь 1995 года.

[3] G. Schmidt и E. Hänsler, "Acoustic echo and noise control: the practical approach", Hoboken: Wiley, 2004 год.

[4] W. L. B. Jeannes, P. Scalart, G. Faucon и C. Beaugeant, "Combined noise and echo reduction in hands-free systems: the survey", IEEE Transactions on Speech and Audio Processing, 9(8): 808-820, ноябрь 2001 года.

[5] C. Faller и J. Chen, "Suppressing acoustic echo in the sampled auditory envelope space", IEEE Trans. on Speech and Audio Proc., 13(5): 1048-1062, сентябрь 2005 года.

[6] C. Faller и C. Tournery, "Estimating the delay and coloration effect of the acoustic echo path for low complexity echo suppression", In Proc. Intl. Works. on Acoust. Echo and Noise Control (IWAENC), сентябрь 2005 года.

[7] W. Etter и G. S. Moschytz, "Noise reduction by noise-adaptive spectral magnitude expansion", J. Audio Eng. Soc., 42: 341-349, май 1994 года.

[8] O. Capp'e, "Elimination of the musical noise phenomenon with the ephrain and malah noise suppressor", IEEE Trans. Speech and Audio Processing, 2(2): 345-349, апрель 1994 года.

[9] C. Faller и F. Baumgarte, "Binaural Cue Coding - Part II: Schemes and applications", IEEE Trans. on Speech and Audio Proc., 11(6): 520-531, ноябрь 2003 года.

[10] B. R. Glasberg и B. C. J. Moore, "Derivation of auditory filter shapes from notched-noise data", Hear. Res., 47: 103-138, 1990 год.

[11] A. Favrot, C. Faller, M. Kallinger, F. Kuech и M. Schmidt, "Acoustic echo control based on temporal fluctuations of short-time spectra", In Proc. Intl. Works. on Acoust. Echo and Noise Control (IWAENC), сентябрь 2008 года.

[12] M. Berouti, R. Schwartz и J. Makhoul, "Enhancement of speech corrupted by musical noise", In Proc. ICASSP, стр. 208-211, 1979 год.

Список номеров ссылок

100 - громкоговоритель

110 - микрофон

120 - акустическая среда

130 - сигнал громкоговорителя

140 - сигнал микрофона

150 - модуль обработки удаления эхо-сигналов

160 - сигнал после эхоподавления

170 - прямой тракт

180 - непрямой тракт

200 - устройство

210 - адаптивный фильтр

220 - вводы

230 - средство преобразователя из времени в частоту

240 - фильтр оценки эхо-сигнала

241 - фильтр оценки позднего эхо-сигнала

242 - фильтр оценки раннего эхо-сигнала

250 - средство разделения

260 - дополнительный фильтр оценки эхо-сигнала

270 - средство вычисления

270_e - первое средство вычисления (для фильтра Ĥ_e[k,m] удаления ранних эхо-сигналов)

270_l - второе средство вычисления (для фильтра Ĥ_l[k,m] удаления поздних эхо-сигналов)

280 - ввод

290 - средство преобразователя из времени в частоту

300 - средство преобразователя из частоты во время

310 - вывод

340 - средство обработки эхо-сигналов

370 - фильтр эхоподавления

380 - средство комбинирования/модуль комбинирования фильтров

420 - кривая (сигнал громкоговорителя)

430 - кривая (сигнал микрофона)

440 - группировка; STFT-интервал

450 - группировка; STFT-интервал

460 - задержка между сигналом микрофона и сигналом громкоговорителя

465 - средство моделирования затухания эхо-сигнала

470 - средство оценочной функции эхо-сигнала

472 - средство определения фильтра раннего эхо-сигнала

475 - средство определения фильтра позднего эхо-сигнала

480 - средство задержки

490 - средство вычисления значений энергии

500 - средство вычисления значений энергии

510 - средство вычисления значений энергии

520 - дополнительное средство вычисления; вычисление оценочной функции(й) эхо-сигнала

540 - дополнительное средство объединения

550 - модуль выбора максимума

551 - средство задания коэффициентов фильтрации

552 - модуль сравнения

553 - модуль выбора

560 - элемент задержки

570 - скалярный множитель α_m

580 - скалярный множитель β_m

590 - средство нормализации

940 - фильтр оценки эхо-сигнала

d[k,m] - значение задержки для задержки между сигналами микрофона и громкоговорителя

x[n] - сигнал громкоговорителя

y[n] - сигнал микрофона

E[k,m] - спектр сигнала после эхоподавления

Ĝ[k,m] - фильтр оценки эхо-сигнала

H[k,m] - фильтр эхоподавления

H_e[k,m] - фильтр подавления ранних эхо-сигналов

H_l[k,m] - фильтр подавления поздних эхо-сигналов

X[k,m] - спектр сигнала громкоговорителя

X_d[k,m] - спектр задержанного сигнала громкоговорителя

Y[k,m] - спектр сигнала микрофона

Ŷ_e[k,m] - спектр компонента оцененного раннего эхо-сигнала в сигнале микрофона

Ŷ_rev[k,m] - спектр оцененного компонента позднего (реверберирующего) эхо-сигнала в сигнале микрофона

Ŷ_tot[k,m] - спектр оцененного полного эхо-сигнала в сигнале микрофона

1. Устройство (200) для вычисления коэффициентов (H[k,m]) фильтрации для адаптивного фильтра (210) для фильтрации сигнала (140, 430) микрофона, захваченного посредством микрофона (110), чтобы подавлять эхо-сигнал вследствие сигнала (130, 420) громкоговорителя, выводимого посредством громкоговорителя (100), содержащее:
- средство (465) моделирования затухания эхо-сигнала для моделирования характера изменения затухания акустической среды (120) и для предоставления соответствующего параметра (τ; α_m) затухания эхо-сигнала;
- средство (270; 370) вычисления для вычисления коэффициентов (H[k,m]) фильтрации адаптивного фильтра (210) на основе параметра (τ; α_m) затухания эхо-сигнала, при этом средство (270) вычисления выполнено с возможностью определять фильтр Ĥ_e[k,m] удаления ранних эхо-сигналов и фильтр Ĥ_l[k,m] удаления поздних эхо-сигналов, и
средство (551) задания коэффициентов фильтрации, выполненное с возможностью определять коэффициенты H[k,m] фильтрации адаптивного фильтра (210) на основе линейной комбинации коэффициентов фильтрации фильтра Ĥ_e[k,m] удаления ранних эхо-сигналов и фильтра Ĥ_l[k,m] удаления поздних эхо-сигналов.

2. Устройство (200) по п. 1, в котором параметр затухания эхо-сигнала является коэффициентом (τ) экспоненциального затухания, при этом устройство (200) дополнительно содержит средство (241) оценки эхо-сигнала для оценки компонента реверберирующего эхо-сигнала посредством рекурсивного вычисления с использованием коэффициента (τ) экспоненциального затухания.

3. Устройство (200) по п. 1, дополнительно содержащее средство (340) обработки эхо-сигналов для оценки частотного спектра (Ŷ_tot[k,m]) эхо-сигнала или спектра (|Ŷ_tot[k,m]|²) мощности эхо-сигнала для эхо-сигнала в сигнале (140, 430) микрофона;
- при этом средство (340) обработки эхо-сигналов выполнено с возможностью оценивать компонент (Ŷ[k,m]) раннего эхо-сигнала и компонент (Ŷ_rev[k,m]) позднего эхо-сигнала, причем, по меньшей мере, оценка компонента позднего эхо-сигнала использует параметр (τ; α_m) затухания эхо-сигнала; и дополнительно выполнено с возможностью оценивать частотный спектр (Ŷ_tot[k,m]) эхо-сигнала или спектр (|Ŷ_tot[k,m]|²) мощности эхо-сигнала на основе компонента (Ŷ[k,m]) раннего эхо-сигнала и компонента (Ŷ_rev[k,m]) позднего эхо-сигнала;
- при этом средство (270; 370) вычисления выполнено с возможностью вычисления коэффициентов (H[k,m]) фильтрации на основе частотного спектра (Ŷ_tot[k,m]) эхо-сигнала или спектра (|Ŷ_tot[k,m]|²) мощности эхо-сигнала.

4. Устройство (200) по п. 3, в котором средство (340) обработки эхо-сигналов содержит модуль (550) выбора максимума для выбора оценки (|Ŷ_tot[k,m]|²; Ŷ_tot[k,m]) максимального эхо-сигнала из оценки (Ŷ[k,m]) раннего эхо-сигнала и оценки (Ŷ_rev[k,m]) позднего эхо-сигнала в качестве частотного спектра (Ŷ_tot[k,m]) эхо-сигнала или спектра (|Ŷ_tot[k,m]|²) мощности эхо-сигнала.

5. Устройство (200) по п. 3, в котором средство обработки эхо-сигналов выполнено с возможностью определять компонент (Ŷ_rev[k,m]) позднего эхо-сигнала на основе предыдущего значения оцененного частотного спектра (Ŷ_tot[k-1,m]) эхо-сигнала или предыдущего значения оцененного спектра (|Ŷ_tot[k-1,m]|²) мощности эхо-сигнала, определенного в предыдущий момент, и на основе параметра (τ; α_m) затухания эхо-сигнала, применяемого к предыдущей оценке (Y_tot[k-1,m]; |Ŷ_tot[k-1,m]|²) полного эхо-сигнала, чтобы моделировать затухание оценки позднего эхо-сигнала между предыдущим моментом и последующим моментом.

6. Устройство (200) по п. 1, дополнительно содержащее:
- средство (230; 290) для преобразования, по меньшей мере, одного из сигнала (140, 430) микрофона и сигнала (130; 420) громкоговорителя из представления во временной области в частотно-временное представление в частотно-временной области; и
- средство (300) для преобразования сигнала (E[k,m], е[n]) после эхоподавления из частотно-временной области обратно во временную область.

7. Устройство (200) по п. 1, в котором средство (465) моделирования затухания эхо-сигнала содержит модуль (520) оценки параметров затухания эхо-сигнала для оценки сигнала (140, 430) микрофона относительно затухания эхо-сигнала, наблюдаемого в сигнале (140, 430) микрофона, и для предоставления результирующего оцененного параметра (τ; α_m) затухания эхо-сигнала для последующей обработки.

8. Устройство (200) по п. 7, в котором модуль (520) оценки параметров затухания эхо-сигнала выполнен с возможностью определения параметра (τ, α_m) затухания эхо-сигнала на основе предоставленного времени (RT₆₀) реверберации.

9. Устройство (200) по п. 8, в котором модуль (520) оценки параметров затухания эхо-сигнала также выполнен с возможностью определения предоставленного времени (RT₆₀) реверберации.

10. Устройство (200) по п. 1, в котором средство (270; 370) вычисления выполнено с возможностью определения коэффициентов (H[k,m]) фильтрации на основе разности между спектром (|Y[k,m]|²) мощности сигнала (140, 430) микрофона и спектром мощности оценки (|Ŷ_tot[k,m]|²) полного эхо-сигнала.

11. Устройство (200) по п. 1, в котором модель (465) затухания эхо-сигнала выполнена с возможностью определения временного среднего спектра мощности сигнала микрофона и временного среднего спектра мощности сигнала громкоговорителя, дополнительно выполнена с возможностью определения временных колебаний спектров мощности сигнала (140, 430) микрофона и сигнала (130; 420) громкоговорителя через вычитание временного среднего из соответствующих мгновенных спектров (|Y[k,m]|², |X[k,m]|²) мощности, и дополнительно выполнена с возможностью использования временных колебаний для определения параметра (τ; α_m) затухания эхо-сигнала.

12. Способ для вычисления коэффициентов (H[k,m]) фильтрации для адаптивного фильтра (210) для фильтрации сигнала (140; 430) микрофона, чтобы подавлять эхо-сигнал вследствие сигнала (130; 420) громкоговорителя, содержащий этапы, на которых:
- предоставляют параметр (τ; Ĝ[k,m]; α_m) затухания эхо-сигнала, определенный посредством средства (465) моделирования затухания эхо-сигнала;
- определяют фильтр Ĥ_e[k,m] удаления ранних эхо-сигналов и фильтр Ĥ_l[k,m] удаления поздних эхо-сигналов на основе параметра (τ; Ĝ[k,m]; α_m) затухания эхо-сигнала;
- вычисляют коэффициенты (H[k,m]) фильтрации адаптивного фильтра (210) на основе линейной комбинации коэффициентов фильтрации фильтра Ĥ_e[k,m] удаления ранних эхо-сигналов и фильтра Ĥ_l[k,m] удаления поздних эхо-сигналов.

13. Способ по п. 12, в котором параметр затухания эхо-сигнала является коэффициентом (τ) экспоненциального затухания, при этом способ дополнительно содержит этап, на котором:
- оценивают компонент реверберирующего эхо-сигнала посредством рекурсивного вычисления с использованием коэффициента (τ) экспоненциального затухания.

14. Способ по п. 12, дополнительно содержащий этапы, на которых:
- оценивают компонент (Ŷ[k,m]) раннего эхо-сигнала и компонент (Ŷ_rev[k,m]) позднего эхо-сигнала, причем, по меньшей мере, оценка компонента позднего эхо-сигнала использует параметр (τ; α_m) затухания эхо-сигнала; и
- определяют частотный спектр (Ŷ[k,m]) эхо-сигнала или спектр (|Ŷ[k,m]|²) мощности эхо-сигнала для эхо-сигнала в сигнале (140, 430) микрофона в качестве комбинации компонента (Ŷ[k,m]) раннего эхо-сигнала и компонента (Ŷ_rev[k,m]) позднего эхо-сигнала;
- вычисляют коэффициенты (H[k,m]) фильтрации на основе частотного спектра (Ŷ_tot[k,m]) эхо-сигнала или спектра (|Ŷ_tot[k,m]|²) мощности эхо-сигнала.

15. Машиночитаемый носитель, имеющий хранящуюся на нем программу, содержащую программный код для осуществления способа по п. 12, когда программа работает на процессоре.

16. Устройство (200) для вычисления коэффициентов (H[k,m]) фильтрации для адаптивного фильтра (210) для фильтрации сигнала (140, 430) микрофона, захваченного посредством микрофона (110), чтобы подавлять эхо-сигнал вследствие сигнала (130, 420) громкоговорителя, выводимого посредством громкоговорителя (100), содержащее:
- средство (465) моделирования затухания эхо-сигнала для моделирования характера изменения затухания акустической среды (120) и для предоставления соответствующего параметра (τ; α_m) затухания эхо-сигнала;
- средство (340) обработки эхо-сигналов для оценки частотного спектра (Ŷ_tot[k,m]) эхо-сигнала или спектра (|Ŷ_tot[k,m]|²) мощности эхо-сигнала для эхо-сигнала в сигнале (140, 430) микрофона, причем средство (340) обработки эхо-сигналов выполнено с возможностью оценивать компонент (Ŷ[k,m]) раннего эхо-сигнала и компонент (Ŷ_rev[k,m]) позднего эхо-сигнала, причем, по меньшей мере, оценка компонента позднего эхо-сигнала использует параметр (τ; α_m) затухания эхо-сигнала, и дополнительно выполнено с возможностью оценивать частотный спектр (Ŷ_tot[k,m]) эхо-сигнала или спектр (|Ŷ_tot[k,m]|²) мощности эхо-сигнала на основе компонента (Ŷ[k,m]) раннего эхо-сигнала и компонента (Ŷ_rev[k,m]) позднего эхо-сигнала; и
- средство (270; 370) вычисления для вычисления коэффициентов (H[k,m]) фильтрации адаптивного фильтра (210) на основе параметра (τ; α_m) затухания эхо-сигнала и на основе частотного спектра (Ŷ_tot[k,m]) эхо-сигнала или спектра (|Ŷ_tot[k,m]|²) мощности эхо-сигнала для эхо-сигнала в сигнале микрофона (140; 340);
- отличающееся тем, что средство (340) обработки эхо-сигналов содержит модуль (550) выбора максимума для выбора оценки (|Ŷ_tot[k,m]|²; Ŷ_tot[k,m]) максимального эхо-сигнала из оценки (Ŷ[k,m]) раннего эхо-сигнала и оценки (Ŷ_rev[k,m]) позднего эхо-сигнала в качестве частотного спектра (Ŷ_tot[k,m]) эхо-сигнала или спектра (|Ŷ_tot[k,m]|²) мощности эхо-сигнала.

17. Способ для вычисления коэффициентов (H[k,m]) фильтрации для адаптивного фильтра (210) для фильтрации сигнала (140; 430) микрофона, чтобы подавлять эхо-сигнал вследствие сигнала (130; 420) громкоговорителя, содержащий этапы, на которых:
- предоставляют параметры (τ; Ĝ[k,m]; α_m) затухания эхо-сигнала, определенные посредством средства (465) моделирования затухания эхо-сигнала;
- оценивают частотный спектр (Ŷ_tot[k,m]) эхо-сигнала или спектр (|Ŷ_tot[k,m]|²) мощности эхо-сигнала для эхо-сигнала в сигнале (140, 430) микрофона посредством оценки компонента (Ŷ[k,m]) раннего эхо-сигнала и компонента (Ŷ_rev[k,m]) позднего эхо-сигнала, причем, по меньшей мере, оценка компонента позднего эхо-сигнала использует параметр (τ; α_m) затухания эхо-сигнала;
- оценивают частотный спектр (Ŷ_tot[k,m]) эхо-сигнала или спектр (|Ŷ_tot[k,m]|²) мощности эхо-сигнала на основе компонента (Ŷ[k,m]) раннего эхо-сигнала и компонента (Ŷ_rev[k,m]) позднего эхо-сигнала;
- выбирают оценку (|Ŷ_tot[k,m]|²; Ŷ_tot[k,m]) максимального эхо-сигнала из оценки (Ŷ[k,m]) раннего эхо-сигнала и оценки (Ŷ_rev[k,m]) позднего эхо-сигнала в качестве частотного спектра (Ŷ_tot[k,m]) эхо-сигнала или спектра (|Ŷ_tot[k,m]|²) мощности эхо-сигнала; и
- вычисляют коэффициенты (H[k,m]) фильтрации адаптивного фильтра (210) на основе параметров (τ; α_m) затухания эхо-сигнала и на основе частотного спектра (Ŷ_tot[k,m]) эхо-сигнала или спектра (|Ŷ_tot[k,m]|²) мощности эхо-сигнала для эхо-сигнала в сигнале микрофона (140; 340).

18. Машиночитаемый носитель, имеющий хранящуюся на нем программу, содержащую программный код для осуществления способа по п. 17, когда программа работает на процессоре.

19. Устройство (200) для вычисления коэффициентов (H[k,m]) фильтрации для адаптивного фильтра (210) для фильтрации сигнала (140, 430) микрофона, захваченного посредством микрофона (110), чтобы подавлять эхо-сигнал вследствие сигнала (130, 420) громкоговорителя, выводимого посредством громкоговорителя (100), содержащее:
- средство (465) моделирования затухания эхо-сигнала для моделирования характера изменения затухания акустической среды (120) и для предоставления соответствующего параметра (τ; α_m) затухания эхо-сигнала;
- средство (270; 370) вычисления для вычисления коэффициентов (H[k,m]) фильтрации адаптивного фильтра (210) на основе параметра (τ; α_m) затухания эхо-сигнала, при этом средство (270) вычисления дополнительно выполнено с возможностью определять фильтр Ĥ_e[k,m] удаления ранних эхо-сигналов и фильтр Ĥ_l[k,m] удаления поздних эхо-сигналов; и
- средство (551) задания коэффициентов фильтрации, выполненное с возможностью определять коэффициенты Ĥ[k,m] фильтрации адаптивного фильтра (210) на основе выбора минимума из фильтра Ĥ_e[k,m] удаления ранних эхо-сигналов и фильтра Ĥ_l[k,m] удаления поздних эхо-сигналов.

20. Способ для вычисления коэффициентов (H[k,m]) фильтрации для адаптивного фильтра (210) для фильтрации сигнала (140; 430) микрофона, чтобы подавлять эхо-сигнал вследствие сигнала (130; 420) громкоговорителя, содержащий этапы, на которых:
- предоставляют параметры (τ; Ĝ[k,m]; α_m) затухания эхо-сигнала, определенные посредством средства (465) моделирования затухания эхо-сигнала; и
- вычисляют коэффициенты (H[k,m]) фильтрации адаптивного фильтра (210) на основе параметров (τ; α_m) затухания эхо-сигнала посредством определения фильтра Ĥ_e[k,m] удаления ранних эхо-сигналов и фильтра Ĥ_l[k,m] удаления поздних эхо-сигналов; и
- определяют коэффициенты H[k,m] фильтрации адаптивного фильтра (210) на основе выбора минимума из фильтра Ĥ_e[k,m] удаления ранних эхо-сигналов и фильтра Ĥ_l[k,m] удаления поздних эхо-сигналов.

21. Машиночитаемый носитель, имеющий хранящуюся на нем программу, содержащую программный код для осуществления способа по п. 20, когда программа работает на процессоре.

Изобретение относится к средствам расширения верхней полосы звукового сигнала по нижней полосе звукового сигнала. Технический результат заключается в повышении эффективности расширения полосы звукового сигнала.

Устройство для расширения полосы частот // 2552184

Изобретение относится к средствам для расширения полосы частот. Технический результат заключается в улучшении восприятия расширенного звукового сигнала.

Гармоническое преобразование на основе блока поддиапазонов, усиленное перекрестными произведениями // 2551817

Изобретение относится к системам кодирования источников звукового сигнала. Технический результат состоит в эффективной реализации высокочастотной реконструкции (HFR) путем усиления перекрестными произведениями, где новая составляющая с частотой QΩ+rΩ0 генерируется на основе существующих составляющих с частотами Ω и Ω+Ω0.

Устройство и способ для генерирования высокочастотного аудиосигнала с применением адаптивной избыточной дискретизации // 2547220

Изобретение относится к области кодирования акустических сигналов и может быть использовано при транспонировании в частотной области. Достигаемый технический результат - эффективная генерация качественного высокочастотного аудиосигнала путем раздельной обработки нестационарных и стационарных составляющих аудиосигнала.

Устройство, способ и компьютерная программа для того, чтобы управлять аудиосигналом, включающим переходный сигнал // 2543309

Изобретение относится к радиотехнике и предназначено для управления аудиосигналом, включающим переходное событие. Технический результат - повышение точности воспроизведения сигнала.

Устройство, способ и машиночитаемый носитель для получения параметра, описывающего изменение характеристики сигнала // 2543308

Группа изобретений относится к средствам для анализа временных вариаций аудио сигналов. Технический результат заключается в создании средств, обладающих повышенной надежностью, для получения параметра, описывающего временные изменения сигнальной характеристики.

Способ и устройство для поддержки воспринимаемости речи в многоканальном звуковом сопровождении с минимальным влиянием на систему объемного звучания // 2541183

Изобретение относится к вычислительной технике. Технический результат заключается в улучшении слышимости речи в многоканальном звуковом сигнале.

Способ выделения речевого сигнала в условиях наличия помех и устройство для его осуществления // 2536343

Изобретение относится к вычислительной технике. Технический результат заключается в повышении эффективности выделения речевого сигнала в условиях наличия помех.

Обработка звуковых сигналов в ходе высокочастотной реконструкции // 2530254

Изобретение относится к HFR (высокочастотной реконструкции/регенерации) звуковых сигналов и предназначено для выполнения HFR звуковых сигналов, содержащих большие изменения в уровне энергии в пределах низкочастотного диапазона, который используется для реконструкции высоких частот звукового сигнала.

Устройство, способ и компьютерная программа для выработки широкополосного сигнала с использованием управляемого расширения ширины полосы и слепого расширения ширины полосы // 2527735

Изобретение относится к средствам для выработки широкополосного сигнала с использованием входного сигнала низкой полосы. Технический результат заключается в расширении полосы при низкой скорости передачи битов и сохранении высокого качества сигнала.

Устройство и способ модификации входного аудиосигнала // 2573246

Изобретение относится к средствам модификации входного аудиосигнала. Технический результат заключается в повышении эффективности модификации аудиосигнала при сохранении низкого уровня вычислительной сложности данной модификации. Устройство для модификации входного аудиосигнала содержит определитель возбуждения, запоминающее устройство и модификатор сигнала. Определитель возбуждения определяет значение параметра возбуждения субполосы из множества субполос входного аудиосигнала на основании энергосодержания субполосы. Кроме того, запоминающее устройство хранит таблицу поиска, которая содержит множество коэффициентов спектрального взвешивания. Коэффициент спектрального взвешивания из множества коэффициентов спектрального взвешивания связан с предварительно определенным значением параметра возбуждения и субполосой из множества субполос. Запоминающее устройство предоставляет коэффициент спектрального взвешивания, соответствующий определенному значению параметра возбуждения и соответствующий субполосе, для которой определено значение параметра возбуждения. 3 н. и 17 з.п. ф-лы, 7 ил.

Способ, устройство и система для обработки аудиоданных // 2579926

Изобретение относится к средствам для обработки аудиоданных и к области техники связи. Технический результат заключается в повышении эффективности кодирования. Способ включает в себя: получение шумового кадра аудиосигнала и разложение текущего шумового кадра на шумовой сигнал полосы низких частот и шумовой сигнал полосы высоких частот; и кодирование и передачу шумового сигнала полосы низких частот посредством использования первого механизма прерывистой передачи и кодирование и передачу шумового сигнала полосы высоких частот посредством использования второго механизма прерывистой передачи. Согласно настоящему изобретению различные способы обработки используются для сигнала полосы высоких частот и сигнала полосы низких частот, вычислительная нагрузка и кодированные биты могут экономиться при допущении непонижения субъективного качества кодека, и биты, которые экономятся, могут помогать достигать цели уменьшения полосы пропускания передачи или повышения общего качества кодирования. 4 н. и 40 з.п. ф-лы, 9 ил.

Помехоустойчивая классификация режимов кодирования речи // 2584461

Изобретение относится к средствам помехоустойчивой классификации режимов кодирования речи. Технический результат заключается в повышении эффективности классификации режимов речи для повышения эффективности многорежимного кодирования с переменной скоростью передачи данных. Параметры классификации вводятся в классификатор речи из внешних компонентов. Внутренние параметры классификации формируются в классификаторе речи из по меньшей мере одного из входных параметров. Устанавливается пороговое значение нормированной функции коэффициентов автокорреляции. Анализатор параметров выбирается согласно среде распространения сигнала. Классификация режима речи определяется на основании оценки шума многочисленных кадров входной речи. 4 н. и 39 з.п. ф-лы, 11 ил., 6 табл.

Устройство и способ обработки входного звукового сигнала с помощью каскадированного банка фильтров // 2586846

Изобретение относится к средствам для обработки входного звукового сигнала на основе каскадированного банка фильтров. Технический результат заключается в повышении качества обработанного звукового сигнала. Устройство содержит банк фильтров синтеза для синтеза промежуточного звукового сигнала из входного аудиосигнала, входного аудиосигнала, представленного множеством первых сигналов поддиапазонов, сгенерированных в банке фильтров анализа, причем число каналов в банке фильтров синтеза меньше, чем количество каналов в банке фильтров анализа. Кроме того, устройство содержит дополнительный банк фильтров анализа для генерации множества вторых сигналов поддиапазонов из промежуточного аудиосигнала, причем дополнительный банк фильтров анализа имеет число каналов, отличающееся от числа каналов в банке фильтров синтеза, так что частота дискретизации сигнала поддиапазона из множества вторых сигналов поддиапазонов отличается от частоты дискретизации первого сигнала поддиапазона из множества первых сигналов поддиапазонов. 6 н. и 17 з.п. ф-лы, 52 ил., 2 табл.

Способ повышения разборчивости и информативности звуковых сигналов в шумовой обстановке // 2589298

Изобретение относится к средствам повышения разборчивости и натуральности звучания аудиокомпозиции в акустической шумовой обстановке. Технический результат заключается в повышении разборчивости и натуральности звучания аудиокомпозиции в акустической шумовой обстановке за счет снижения эффекта маскирования полезного звукового сигнала нестационарными акустическими шумами при помощи использования частотно-зависимого адаптивного усиления. Полезный сигнал, поступающий в блок обработки, и шумовой сигнал акустической обстановки, поступающий из окружающего пространства в блок обработки, делят на фреймы. В блок обработки вводят банки фильтров анализа и банки фильтров синтеза, которыми производят субполосную декомпозицию полезного сигнала и сигнала шума акустической обстановки и, соответственно, субполосную композицию измененных амплитудных зависимостей полезного сигнала после обработки компрессором. При субполосной декомпозиции вычисляют энергию в каждой субполосе полезного сигнала и сигнала шума акустической обстановки. В качестве компрессора блока обработки используют адаптивный компрессор динамического диапазона (АКДД), которым изменяют динамический диапазон полезного сигнала. Сигналы в субполосах полезного сигнала умножают на коэффициенты усиления. 2 з.п. ф-лы, 13 ил.

Система и способ для генерации аудиосигнала // 2595636

Изобретение относится к средствам генерации аудиосигнала. Технический результат заключается в уменьшении шумовых составляющих в речевом аудиосигнале. Получают первый аудиосигнал, представляющий речь пользователя, с использованием датчика, находящегося в контакте с пользователем. Получают второй аудиосигнал с использованием воздухопроводного датчика, причем второй аудиосигнал представляет речь пользователя и включает в себя шум из среды, окружающей пользователя. Выявляют периоды речи в первом аудиосигнале. Применяют алгоритм улучшения речи ко второму аудиосигналу для снижения шума во втором аудиосигнале, причем алгоритм улучшения речи использует выявленные периоды речи в первом аудиосигнале. Корректируют первый аудиосигнал с использованием очищенного от шума второго аудиосигнала для генерации выходного аудиосигнала, представляющего речь пользователя. 3 н. и 12 з.п. ф-лы, 14 ил.

Устройство кодирования речи, устройство декодирования речи, способ кодирования речи, способ декодирования речи, программа кодирования речи и программа декодирования речи // 2595914

Изобретение относится к средствам кодирования и декодирования речевого сигнала. Технический результат заключается в уменьшении возникающего опережающего эха и запаздывающего эха и в повышении качества декодированного сигнала без увеличения скорости передачи битов. Коэффициент линейного предсказания сигнала, представленного в частотной области, получают путем выполнения анализа по частоте с линейным предсказанием с использованием метода ковариации или метода автокорреляции. После того как скорректирована сила фильтра полученного коэффициента линейного предсказания, выполняют фильтрацию сигнала по частоте с использованием скорректированного коэффициента, посредством чего формируют временную огибающую сигнала. Это приводит к уменьшению возникающего опережающего эха и запаздывающего эха и улучшает субъективное качество декодированного сигнала без значительного увеличения скорости передачи битов в способе расширения полосы частот в частотной области, представленном способом репликации спектральных полос (SBR). 4 н.п. ф-лы, 50 ил.

Изобретение относится к средствам кодирования и декодирования речевого сигнала. Технический результат заключается в уменьшении возникающего опережающего эха и запаздывающего эха и в повышении качества декодированного сигнала без увеличения скорости передачи битов. Коэффициент линейного предсказания сигнала, представленного в частотной области, получают путем выполнения анализа по частоте с линейным предсказанием с использованием метода ковариации или метода автокорреляции. После того, как скорректирована сила фильтра полученного коэффициента линейного предсказания, выполняют фильтрацию сигнала по частоте с использованием скорректированного коэффициента, посредством чего формируют временную огибающую сигнала. Это приводит к уменьшению возникающего опережающего эха и запаздывающего эха и улучшает субъективное качество декодированного сигнала без значительного увеличения скорости передачи битов в способе расширения полосы частот в частотной области, представленном способом репликации спектральных полос (SBR). 4 н.п. ф-лы, 50 ил.

Устройство и способ получения улучшенной частотной характеристики и временного фазирования способом расширения полосы аудио сигналов в фазовом вокодере // 2596033

Изобретение относится к передаче речи и может быть использовано для получения улучшенной частотной характеристики и временного фазирования способом расширения полосы аудиосигналов в фазовом вокодере. Устройство для получения широкополосного расширенного аудиосигнала из входного сигнала, состоящее из генератора патчей для получения одного или более сигналов патчей из входного сигнала, где генератор патчей предназначен для расширения временной шкалы (1800, 1808) полосовых сигналов, поступающих от банка фильтров анализа, и где генератор патчей содержит блок регулятора фазы (1806) для регулировки фазы сигналов поддиапазонов, используя коррекцию фазы, зависящую от канала банка фильтров. 3 н. и 17 з.п. ф-лы, 16 ил.