Способ понижения шума и устройство для его осуществления

Авторы патента:

G10L7/04 - (Рубрика аннулирована. Содержание перенесено в G10L 13/00, G10L 15/00, G10L 17/00, G10L 19/00)

Заявлен способ понижения шума в речевом сигнале путем удаления шума из входного речевого сигнала. Способ понижения шума включает в себя преобразование входного речевого сигнала в спектр частоты, определение характеристик фильтра на основе первой величины, полученной из отношения уровня частотного спектра к оцененному уровню шумового спектра, содержащегося в частотном спектре, и второй величины, полученной из максимальной величины отношения циклового уровня сигнала частотного спектра к оцененному уровню шума и оцененного уровня шума, и понижение шума во входном речевом сигнале фильтрацией, соответствующей характеристикам фильтра. Также заявлено соответствующее устройство для понижения шума. Технический результат заключается в повышении точности выделения речевого сигнала, 2 с. и 3 з.п.ф-лы, 1 табл., 10 ил.

Данное изобретение относится к способу устранения шума, содержащегося в речевом сигнале, для подавления или понижения в нем шума.

В переносных телефонах или при распознавании речи имеется необходимость подавлять такие шумы, как фоновый шум или шум окружающей среды, содержащиеся в принятом речевом сигнале, в целях выделения их речевых компонентов.

Способ выделения речи или понижения шума, способ применения функции условной вероятности для коррекции коэффициента затухания раскрыты в статье Р.Дж.Маколея и М.П.Мэпласса "Повышение качества речевых сигналов с использованием шумоподавляющего фильтра Мягкого Решения" в IEEE Trans. Acoust., Обработка Речевого Сигнала, том 28, стр. 137-145, апрель 1980.

При осуществлении этого способа шумоподавления неспонтанный тональный сигнал или искаженная речь зачастую формируются по причине несоответствующего фильтра подавления или вследствие функционирования на основе ненадлежащим образом установленного отношения сигнал-шум (ОСШ). Для пользователя нежелательно регулировать ОСШ в качестве одного из параметров устройства шумоподавления при его функционировании для обеспечения оптимальных рабочих характеристик. Кроме этого, при обычном способе повышения качества речевого сигнала трудно устранить шум в достаточной степени без искажений речевого сигнала, характеризуемого значительным изменением ОСШ в течение короткого интервала времени.

Такой способ повышения качества речи или шумопонижения использует выделение области шума путем сравнения входной мощности или уровня с заданной пороговой величиной. Однако, если постоянная времени пороговой величины увеличена при этом способе для запрещения пороговой величине отслеживания речевого сигнала, то изменяющийся уровень шума, в частности возрастающий уровень шума, не может должным образом отслеживаться, что может привести к ошибочной селекции.

Для устранения этого недостатка авторы данного изобретения подали заявку N Hei-6-99869 (1994) на патент Японии на способ шумопонижения для снижения шума в речевом сигнале.

В этом способе понижения шума для речевого сигнала шумоподавление осуществляется адаптивным управлением фильтра максимума правдоподобия, настроенного для определения речевого компонента на основе ОСШ, полученного из входного речевого сигнала, и вероятности наличия речевого сигнала. В этом способе используется сигнал, соответствующий входному спектру речи, за вычетом оцененного спектра шума, для вычисления вероятности наличия речевого сигнала.

При помощи этого способа шумопонижения для речевого сигнала, поскольку фильтр подавления, в зависимости от РСШ входного речевого сигнала, можно обеспечить достаточное шумопонижение для входного речевого сигнала.

Однако в связи с тем, что для вычисления вероятности наличия речевого сигнала необходима сложная и большая по объему обработка данных, было бы желательно упростить упомянутую обработку данных.

Сущность изобретения Задачей настоящего изобретения является создание способа шумопонижения для входного речевого сигнала, обеспечивающего упрощение обработки данных при шумоподавлении для входного речевого сигнала.

С одной стороны, настоящее изобретение предусматривает способ снижения шума во входном речевом сигнале для подавления шума, включая преобразование входного речевого сигнала в частотный спектр, определение характеристик фильтра на основе первой величины, полученной из отношения уровня частотного спектра к оцененному уровню шумового спектра, содержащегося в частотном спектре, и второй величины, полученной из максимального значения отношения циклового уровня сигнала в частотном спектре к оцененному уровню шума и из оцененного уровня шума, и понижение шума во входном речевом сигнале путем фильтрации в соответствии с характеристиками фильтра.

С другой стороны, настоящее изобретение предусматривает устройство для понижения шума во входном речевом сигнале для шумоподавления, включающее средство для преобразования входного речевого сигнала в частотный спектр; средство для определения характеристик фильтра на основе первой величины, полученной от отношения уровня частотного спектра к оцененному уровню шумового спектра в частотном спектре, и второй величины, полученной из максимального значения отношения циклового уровня сигнала в частотном спектре к оцененному уровню шума и из оцененного уровня шума, и средство для понижения шума во входном речевом сигнале путем фильтрации, соответствующей характеристикам фильтра.

В способе и устройстве понижения шума в речевом сигнале в соответствии с настоящим изобретением первая величина представляет собой величину, полученную на основе отношения спектра входного сигнала, полученного преобразованием их входного речевого сигнала, к оцененному шумовому спектру, содержащемуся в спектре входного сигнала, и которая устанавливает начальное значение характеристик фильтра, определяющее степень шумопонижения при фильтрации для шумопонижения. Вторая величина представляет собой величину, вычисленную на основе максимального значения отношения уровня сигнала спектра входного сигнала к оцененному уровню шума, т.е. максимального ОСШ и оцененного уровня шума, и является величиной для переменного управления характеристиками фильтра. Шум может быть устранен в степени, соответствующей максимальному ОСШ, из входного речевого сигнала путем фильтрации, соответствующей характеристикам фильтра, перестраиваемого с использованием первой и второй величины.

Поскольку таблица с заданными уровнями спектра входного сигнала и оцененными уровнями спектра шума может быть использована для получения первой величины, объем обработки данных может быть значительно снижен.

Таким образом, вторую величину получают как соответствующую максимальному ОСШ и цикловому уровню шума; характеристики фильтра могут быть откорректированы таким образом, чтобы максимальная степень шумопоглощения за счет фильтрации изменялась линейно в дБ в соответствии с максимальным ОСШ.

В указанном выше способе шумопонижения, соответствующем данному изобретению, первая и вторая величины используются для управления характеристиками фильтра для фильтрации с целью удаления шума из входного речевого сигнала; при этом шум можно удалять из входного речевого сигнала фильтрацией, соответствующей максимальному ОСШ во входном речевом сигнале; в частности, искажение в речевом сигнале, вызываемое фильтрацией при высоком ОСШ, можно уменьшить, равно как и объем обработки данных при определении характеристик фильтра.

Кроме того, в соответствии с данным изобретением первая величина для управления характеристиками фильтра может быть вычислена при помощи таблицы, содержащей уровни спектра входного сигнала и уровни оцененного спектра шума, введенные для уменьшения объема обработки данных при определении характеристик фильтра.

Также согласно данному изобретению вторая величина, полученная в соответствии с максимальным ОСШ и с цикловым уровнем шума, может быть использована для управления характеристиками фильтра для уменьшения объема обработки данных при определении характеристик фильтра. Максимальная степень шумопонижения, обеспечиваемая характеристиками фильтра, может меняться в соответствии с ОСШ входного речевого сигнала.

Краткое описание чертежей На фиг. 1 представлен первый вариант осуществления способа шумопонижения для речевого сигнала в соответствии с данным изобретением применительно к шумопонижающему устройству.

На фиг. 2 представлен конкретный пример характеристик энергии E[k] и энергии затухания E_decay[k] в устройстве по фиг. 1.

На фиг. 3 представлены конкретные примеры уровней среднеквадратической (СК) величины RMS[k] , величины MinRMS[k] оцененного уровня шума и максимальной СК величины MaxRMS[k] для устройства по фиг. 1.

На фиг. 4 представлены конкретные примеры относительной энергии B_rel[k], максимального ОСШ MaxSNR[k} в дБ, максимального ОСШ MaxSNR[k] и величины sBthres_rel[k] в качестве одного из пороговых значений для выделения шума в устройстве по фиг. 1.

На фиг. 5 представлен график, который показывает уровень [k] шумопонижения NR_ как функцию, определенную относительно максимального ОСШ MaxSNR[k] , для устройства по фиг. 1.

На фиг. 6 представлена связь между NR[w,k] и максимальной величиной шумопонижения в дБ для устройства по фиг. 1.

На фиг. 7 представлена связь между отношением Y[w,k]/N[w,k] и Hn[w,k] в соответствии с NR[w,k] в дБ для устройства по фиг. 1.

На фиг. 8 представлен второй вариант осуществления способа шумопонижения для речевого сигнала по данному изобретению применительно к устройству шумопонижения.

На фиг. 9 представлен график, иллюстрирующий искажение сегментных участков речевого сигнала, полученного при шумоподавлении с помощью устройства шумопонижения по фиг. 1 и 8 относительно ОСШ сегментных участков.

Подробное описание предпочтительных вариантов осуществления Со ссылками на чертежи ниже излагается способ и устройство для понижения шума в речевом сигнале в соответствии с данным изобретением.

На фиг. 1 представлен пример осуществления шумопонижающего устройства, используемого для понижения шума в речевом сигнале в соответствии с данным изобретением.

Устройство шумопонижения включает в себя в качестве основных составляющих блок 3 быстрого преобразования Фурье для преобразования входного речевого сигнала в сигнал частотной области или частотные спектры, блок 7 вычисления величины Hn для управления характеристиками фильтра при устранении шумового участка из входного речевого сигнала путем фильтрации, блок 10 коррекции спектра для понижения шума во входном речевом сигнале фильтрацией в соответствии с характеристиками фильтрации, полученными блоком 7 вычисления величины Hn.

Входной речевой сигнал y[t], поступающий на вход 13 речевого сигнала шумопонижающего устройства, подается на блок 1 формирования циклов. Цикловый сигнал Y_ frame_j,k с выхода блока 1 формирования циклов подается на блок 2 умножения на финитную взвешенную функцию, на блок вычисления среднеквадратического (СК) значения в блоке 5 оценки шума и на блок 8 фильтрации.

Выход блока 2 умножения на финитную взвешенную функцию соединен с блоком 3 быстрого преобразования Фурье, выход которого соединен с блоком 10 коррекции спектра и с блоком 4 деления полосы частот. Выход блока 4 деления полосы соединен с блоком 10 коррекции спектра, блоком 26 оценивания спектра шума в блоке 5 оценивания шума и с блоком 7 вычисления величины Hn. Выход блока 10 коррекции спектра соединен с выходом 14 выдачи речевого сигнала через блок 11 быстрого преобразования Фурье и блок 12 совмещения и суммирования.

Выход блока 21 вычисления СК соединен с блоком 22 вычисления относительной энергии, блоком 23 вычисления максимального СК, блоком 24 вычисления оцененного уровня шума и с блоком 26 оценивания спектра шума. Выход блока 23 вычисления максимального СК соединен с блоком 24 вычисления оцененного уровня шума и с блоком 25 вычисления максимального ОСШ. Выход блока 22 вычисления относительной энергии соединен с блоком 26 оценивания спектра шума. Выход блока 24 вычисления оцененного уровня шума соединен с блоком 8 фильтрации, с блоком 25 вычисления максимального ОСШ, с блоком 26 оценивания спектра шума и с блоком 6 вычисления величины шумопонижения. Выход блока 25 вычисления максимального ОСШ соединен с блоком 6 вычисления величины шумопонижения и блоком 26 оценивания спектра шума, выход которого соединен с блоком 7 вычисления величины Hn.

Выход блока 6 вычисления величины шумопонижения вновь соединен с входом блока 6 вычисления величины шумопонижения, а также с блоком 7 вычисления величины Hn.

Выход блока 7 вычисления величины Hn соединен через блок 8 фильтрации и блок 9 преобразования полосы с блоком 10 коррекции спектра.

Устройство шумопонижения, соответствующее первому варианту осуществления, работает следующим образом.

На вход 13 речевого сигнала подается входной речевой сигнал Y[t], содержащий речевой компонент и компонент шума. Входной речевой сигнал Y[t], который является выборкой цифрового сигнала с частотой выборки, например, FS, подается на блок 1 формирования цикла, где он делится на множество циклов, каждый из которых имеет длину цикла, равную FL выборок. Входной речевой сигнал Y[t] , разделенный таким образом, затем обрабатывается на цикловой основе. Цикловый интервал, который определяет величину смещения цикла по оси времени, равен FI выборкам, поэтому (k+1)-й цикл начинается после FI выборок как от k-го цикла. В качестве иллюстративных примеров частоты выборки и количества выборок: если частота выборки FS - 8 кГц, то цикловый интервал FI из 80 выборок соответствует 10 мс, в то время как цикловая длина FL из 160 выборок соответствует 20 мс.

До вычислений ортогонального преобразования блоком 2 быстрого преобразования Фурье блок 2 умножения на финитную взвешенную функцию умножает каждый цикловый сигнал Y_frame_j,k из блока 1 формирования циклов на финитную взвешенную функцию W_input. После обратного БПФ, выполненного на конечном этапе операций обработки циклового сигнала, как будет объяснено ниже, выходной сигнал умножается на финитную взвешенную функцию W_output.

Взвешенные функции W_input и W_output соответственно выражены следующими уравнениями (1) и (2):

Блок 3 быстрого преобразования Фурье затем выполняет 256 дискретных операций быстрого преобразования Фурье для получения значений амплитуды частотного сигнала, которые затем разделяются блоком 4 деления полосы, например, на 18 полос. Диапазоны частот этих полос изображены в качестве примера в таблице.

Значения амплитуд частотных спектров, полученные путем разделения частотного спектра, становятся амплитудами Y[w,k] спектра входного сигнала, которые выводятся к соответствующим блокам, как объяснено выше.

Вышеуказанные частотные диапазоны также основываются на том факте, что чем выше частота, тем ниже разрешение слухового аппарата человека. В качестве амплитуд соответствующих полос использованы максимальные амплитуды БПФ в соответствующих частотных диапазонах.

В блоке 5 оценивания шума шум циклового сигнала Y_frame_j,k отделяется от речи, а цикл, признанный зашумленным, детектируется и при этом величина оцененного уровня шума и максимальное ОСШ подаются на блок 6 вычисления величины шумопонижения. Оценивание области шума или детектирование зашумленного цикла выполняется сочетанием, например, трех операций детектирования. Далее излагается пример оценивания области шума.

Блок 21 вычисления СК вычисляет величины СК сигналов каждого цикла и выводит вычисленные величины СК. Велисина СК k-го цикла, или RMS[k], вычисляется по следующему уравнению (3):

В блоке 22 вычисления относительной энергии вычисляется относительная энергия k-го цикла, относящегося к энергии затухания предыдущего цикла, или dB_rel[k], и выводится полученная величина.

Относительная энергия в дБ, т. е. dB_rel[k] , определяется следующим уравнением (4):

а величина энергии E[k] и величина энергии затухания E_decay[k] определяется из следующих уравнений (5) и (6):

Уравнение (5) может быть выражено из уравнения (3) как FL

(RMS[k])². Разумеется, значение для уравнения (5), полученное в результате вычислений уравнения (3) блоком 21 вычисления СК, может быть непосредственно подано на блок 22 вычисления относительной энергии. В уравнении (6) время затухания установлено равным 0,65 с.

На фиг. 2 представлены иллюстративные примеры характеристики энергии E[k] и энергии затухания E_decay[k].

Блок вычисления 23 максимального СК определяет и выдает на выход максимальную величину СК, необходимую для оценки максимального значения отношения уровня сигнала к уровню шума, которое является максимальным ОСШ. Это максимальное СК значение, MaxRMS[k], может определяться формулой (7):

где

является постоянной затухания. Для

используется такое значение, для которого максимальная СК величина затухает на 1/е за 3,2 с, т.е.

= 0,993769.

Блок 24 вычисления оцененного уровня шума определяет и выдает на выход минимальную СК величину для определения уровня фонового шума. Эта оцененная величина уровня шума min RMS[k] является наименьшим значением для пяти локальных минимальных значений, предшествующих текущему моменту времени, т.е. пяти величин, удовлетворяющих уравнению (8):
(RMS[k] < 0.6

Max RMS[k] и
RMS[k] < 4000 и
RMS[k] < RMS [k+1] и
RMS[k] < RMS [k-1] и
RMS[k] < RMS [k]-2) или
(RMS[k] < Min RMS) (8)
Величина оцененного уровня шума min RMS[k] устанавливается как нарастающая для фонового шума, освобожденного от речевого сигнала. Скорость нарастания для высокого уровня шума экспоненциальная, а фиксированная скорость нарастания используется для низкого уровня шума для реализации более явно выраженного нарастания.

На фиг. 3 представлены иллюстративные примеры СК величин RMS[k], величины оцененного уровня шума min RMS[k] и максимальных СК величин, MaxRMS[k].

Блок 25 вычисления максимального ОСШ оценивает и вычисляет максимальное ОСШ, Max SNR[k] при помощи максимальной СК величины и величины оцененного уровня шума по следующему уравнению (9):

Из максимальной величины ОСШ, Max SNR, вычисляется уровень NR-параметра нормировки в пределах от 0 до 1, характеризующий собой относительный шумовой уровень. Для уровня NR_ используется следующая функция:
NR_level[k]=

Далее объясняется работа блока 26 оценивания спектра шума. Соответствующие величины, определенные в блоке 22 вычисления относительной энергии, блоке 24 вычисления оцененного уровня шума и блоке 25 вычисления максимального ОСШ, используются для выделения речи из фонового шума. Если следующие условия

где Noise RMS_thres[k] = 1,05 + 0,45

NR_level[k]

Min RMS[k] dB_thres _rel[k] = max (MaxSNR[k] - 4,0; 0,9

Max SNR[k]), действительные, то сигнал в k-м цикле классифицируется как фоновый шум. Амплитуда фонового шума, классифицированная таким образом, вычисляется и выводится как усредненная по времени оцененная величина N[w, k] шумового спектра.

На фиг. 4 представлены иллюстративные примеры относительной энергии в дБ, dB_rel[k] , максимального SNR[k] и dB_thres _rel в качестве одной из пороговых величин для выделения шума.

На фиг. 6 представлен график NR_level[k] в функции MaxSNR[k] в уравнении (10).

Если k-й цикл классифицируется как фоновый шум или как шум, то усредненная по времени оцененная величина спектра шума N[w, k] обновляется значением амплитуды Y[w, k] спектра входного сигнала текущего цикла по следующему уравнению (12):
N[w, k] = a

max(N[w, k-1], Y[w, k]) + (1-a)

min(N[w, k-1], Y[w, k]) (12)

где w указывает на номер полосы при разделении полосы частот.

Если k-й цикл классифицирован как речь, то величина N[w, k-1] непосредственно используется для N[w, k].

Блок 6 вычисления величины шумопонижения вычисляет значение NR[w, k],которое представляет собой значение, используемое для запрещения резкого изменения отклика фильтра, и выдает на выходе полученное значение NR[w, k]. Это значение NR[w, k] изменяется от 0 до 1 и определяется уравнением (13):
NR[w, k] =

adj[w, k] = min(adj1[k], adj2[k]) - adj3[w, k].

В уравнении (13) adj[w, k] является параметром, используемым для учета эффекта - объясняется ниже - и определяется уравнением (14):

_NR= 0,004 и
adj[w, k] = min adj1[k], adj2[k]) - adj3[w, k] (14)
В уравнении (14) adj1[k] представляет собой величину, имеющую эффект подавления эффекта шумоподавления фильтрацией при высоком ОСШ, которая описывается ниже и определяется следующим уравнением (15):

В уравнении (14) adj2[k] представляет собой величину, имеющую эффект подавления скорости шумоподавления относительно очень низкого уровня шума или очень высокого уровня шума описанной выше фильтрацией, и определяемую следующим уравнением (16):

В указанном выше уравнении (14) adj3[k] представляет собой величину, имеющую эффект подавления максимальной величины понижения шума от 18 дБ до 15 дБ между 2375 Гц и 4000 Гц, и определяется следующим уравнением (17):

При этом очевидно, что связь между указанными выше величинами NR[w, k] и максимальной величиной шумопонижения в дБ является линейной в области дБ, как показано на фиг. 6.

Блок 7 вычисления Hn генерирует из амплитуды Y[w, k] спектра входного сигнала, разделенного на полосы частот, усредненного по времени оцененного значения шумового спектра N[w, k] и NR[w, k], значение Hn[w, k], которое определяет характеристики фильтра, обеспечивающие удаление шумового участка из входного речевого сигнала. Значение Hn[w, k] вычисляется из следующего уравнения (18):
Hn[w, k] = 1 - (2

NR[w, k] - NR²[w, k])

(1 - H[w][s/N = r]) (18)
Значение H[w] [s/N = r] в приведенном выше уравнении (18) эквивалентно оптимальным характеристикам фильтра шумоподавления, когда ОСШ фиксировано на величине r, и определяется следующим уравнением (19):

Эту величину можно определить заранее и внести в таблицу в соответствии с величиной Y[w, k]/N[w, k]. Значение x[w, k] из уравнения (19) эквивалентно Y[w, k]/N[w, k], при этом G_min является параметром, указывающим минимальный выигрыш H[w] [S/N = r]. С другой стороны, P(H|Y_w) [S/N = r] и p(HO|Y_w[S/N = r] являются параметрами, определяющими состояние амплитуды Y[w, k], а P(H1| Y_w)[S/N = r] является параметром, указывающим состояние, когда компонент речи и компонент шума смешаны друг с другом в Y[w, k], а P(HO|Y_w[S/N = r] является параметром, который определяет, что в Y[w, k] содержится только компонент шума. Эти величины определяются из уравнения (20):

где P(H1) = P(H0) - 0,5.

Из уравнения (20) видно, что (H1|Y_w)[S/N = r] и P(HO|Y_w[S/N = r] являются функциями x[w, k], а I₀(2

x[w, k]) представляет собой функцию Бесселя и определяется для значений r и [w, k]. P(H1) и P(H0) равны 0,5. Объем обработки данных можно уменьшить приблизительно до одной пятой объема обработки при традиционном способе за счет упрощения параметров, как описано ниже.

Связь между значением Hn[w, k], полученным блоком 7 вычисления Hn, и значением x[w, k], представляющим собой отношение Y[w, k]/N[w, k], такова, что для более высокого значения отношения Y[w, k]/N[w, k], т.е. случая, когда компонент речи превышает компонент шума, значение Hn[w, k] увеличивается, т.е. подавление ослабляется, в то время как для более низкого значения отношения Y[w, k] /N[w, k], т.е. если компонент речи ниже компонента шума, значение Hn[w, k] уменьшается, т.е. подавление усиливается. Для приведенного выше уравнения кривая в виде сплошной линии представляет случай, когда r = 2,7; G_min = -18 дБ и NR[w, k] = 1. Также очевидно, что кривая, определяющая указанную выше связь, изменяется в диапазоне L в зависимости от величины NR[w, k] и что соответствующие кривые для величины NR[w, k] изменяются с той же тенденцией, что и для NR[w, k] = 1.

Блок 8 фильтрации выполняет фильтрацию для сглаживания Hn[w, k] по оси частот и оси времени, в результате чего в качестве выходного сигнала вырабатывается сглаженный сигнал Ht_ smooth [w, k]. Фильтрация по оси частот приводит к уменьшению эффективной длины импульсного отклика сигнала Hn[w, k] . Это препятствует наложению спектров, обусловленному циклической сверткой в результате реализации фильтра умножением в частотной области. Фильтрация по оси времени приводит к ограничению скорости изменения в характеристиках фильтра при подавлении резкой генерации шумов.

Сначала рассмотрим фильтрацию по оси частот. Медианная фильтрация выполняется над Hn[w, k] в каждой полосе и представлена следующими уравнениями (21) и (22):
этап 1: H1[w, k] = max (среднее (Hn[w-1, k], Hn[w, k], Hn[w+1, k], Hn[w, k]) (21)
этап 2: H2[w, k] = min (среднее (H1[w-1, k], H1[w, k], H1[w+1, k], H1[w, k]) (22)
Если в уравнениях (21) и (22) (w-1) или (w+1) отсутствуют, то H1[w, k] = Hn[w, k] и H2[w, k] = H1[w, k] соответственно.

В этапе 1 H1[w, k] представляет собой Hn[w, k], без одиночной или нулевой (0) полосы, в то время как на втором этапе H2[w, k] представляет собой H1[w, k], без одиночной или выделяющейся полосы. Таким образом Hn[w, k] преобразуется в H2[w, k].

Затем рассмотрим фильтрацию по оси времени. Для фильтрации по оси времени учитывается то обстоятельство, что входной сигнал содержит три компонента, а именно речь, фоновый шум и переходное состояние, представляющее переходное состояние на участке нарастания речевого сигнала. Речевой сигнал H_speech[w, k] сглаживается по оси времени, как показано уравнением (23):
H_speech[w, k] = 0,7

H2[w, k] + 0,3

H2[w, k-1] (23)
Фоновый шум сглаживается по этой оси, как показано в уравнении (24):
H_noise[w, k] = 0,7

Min_H + 0,3

Max_H (24)
В приведенном выше уравнении (24) Min_H и Max_H можно определить как Min_ H = min (H2[w, k], H2[w, k-1] и Max_H = max (H2[w, k], H2[w, k-1]) соответственно.

Сигналы в переходном состоянии не сглаживаются по оси времени.

При указанных выше сглаженных сигналах сглаженный выходной сигнал H_t-smooth определяется уравнением (25):
H_t-smooth[w, k] = (1 - a_tr)(a_sp

H_speech[w, k] + (1-a_sp)

H_noise[w, k] ) + a_tr

H2[w, k] (25)
В уравнении (25) значения a_sp и a_tr могут быть соответственно определены из уравнения (26):

где

и из уравнения (27):

где

Затем в блоке 9 преобразования полосы сигнал сглаживания H_t-smooth[w, k] для 18 полос из блока 8 фильтрования расширяется

за счет интерполяции, например, до 128-полосного сигнала H₁₂₈[w, k], который выдается на выходе. Это преобразование выполняется, например, в два этапа, причем расширение от 18 до 64 полос и от 64 полос до 128 полос выполняется фиксированием нулевого порядка и интерполяцией типа фильтра нижних частот соответственно.

Блок 10 коррекции спектра затем умножает действительную и мнимую части коэффициентов БПФ, полученных быстрым преобразованием Фурье циклового сигнала Y_ frame j, к, полученного блоком 3 БПФ с указанным выше сигналом H₁₂₈[w, k] путем коррекции спектра, т.е. понижением шумового компонента. Полученный сигнал выдается на вход. В результате этого спектральные амплитуды корректируются без изменения по фазе.

Блок 11 обратного БПФ затем выполняет обратное БПФ для выходного сигнала блока 10 коррекции спектра для получения выходного сигнала, преобразованного посредством обратного БПФ.

Блок 12 совмещения-и-суммирования совмещает и суммирует граничные участки цикловых сигналов, преобразованных посредством БПФ. Полученные в результате этого выходные речевые сигналы подаются на вывод 14 выходного речевого сигнала.

На фиг. 8 представлен еще один пример осуществления устройства шумопонижения для реализации способа шумопонижения для речевого сигнала согласно данному изобретению. Детали или компоненты, аналогичные показанным на фиг. 1, обозначены теми же цифровыми позициями; описание их работы для простоты не приводится.

Устройство шумопонижения имеет блок 3 быстрого преобразования Фурье для преобразования входного речевого сигнала в сигнал частотной области, блок 7 вычисления величины Hn для управления фильтровыми характеристиками в процедуре фильтрации для удаления шумового компонента из входного речевого сигнала и блок 10 коррекции спектра для понижения шума во входном речевом сигнале за счет фильтрации, соответствующей характеристикам фильтра, полученным блоком 7 вычисления Hn.

В блоке 35 формирования характеристик фильтра подавления шума, имеющем блок 7 вычисления Hn, блок 4 разделения полосы разделяет амплитуду частотного спектра, полученного с выхода блока 3 БПФ, например, на 18 полос и формирует на выходе амплитуду Y[w, k] для полосы частот, поступающую на блок 31 вычисления для вычисления СК, оцененного уровня шума и максимального ОСШ, на блок 26 оценивания спектра шума и на блок 33 вычисления начального отклика фильтра.

Блок 31 вычисления вычисляет из Y_frame_j,k с выхода циклового блока 1 и Y[w, k] с выхода блока 4 разделения полосы цикловую СК величину - RMS[k], значение Min RMS[k] оцененного уровня шума и максимальное СК значение Max[k] и передает эти значения на блок 26 оценивания спектра шума и на блок 32 вычисления adj1, adj2 и adj3.

Блок 33 вычисления начального отклика фильтра подает усредненное по времени значение шума N[w, k] с выхода блока 26 оценивания шумового спектра и Y[w, k] с выхода блока 4 разделения полосы на блок 34 таблицы кривых подавления фильтра для поиска значения H[w, k], соответствующего Y[w, k] и N[w, k] , которые хранятся в блоке 34 таблицы кривых подавления фильтра, для передачи таким образом найденного значения в блок 7 вычисления Hn. В блоке 34 таблицы кривых подавления фильтра хранится таблица значений H[w, k].

Выходные речевые сигналы, полученные устройством шумопонижения, изображенным в фиг. 1 и 8, подаются на схему обработки сигналов, например, на различные кодирующие схемы для переносного телефонного аппарата или на устройство распознавания речи. Либо шумоподавление может выполняться в выходном сигнале декодера портативного телефонного аппарата.

На фиг. 9 и 10 представлено искажение в речевых сигналах, полученное при подавлении шума способом понижения шума в соответствии с данным изобретением (показано черным цветом), и искажение в речевых сигналах, полученное при подавлении шума обычным способом понижения шума (показано белым цветом), соответственно. На графике по фиг. 9 величины ОСШ сегментов, выбранных через каждые 20 мс, представлены в зависимости от искажений для этих сегментов. На графике фиг. 10 величины ОСШ для сегментов представлены в зависимости от искажения всего входного речевого сигнала. На фиг. 9 и 10 по оси ординат представлено искажение, которое уменьшается по высоте от начала координат, а по оси абсцисс представлено ОСШ сегментов, которое увеличивается с перемещением вправо.

Из этих чертежей ясно, что по сравнению с речевыми сигналами, полученными подавлением шума обычным способом понижения шума, речевой сигнал, полученный при подавлении шума методом понижения шума согласно данному изобретению, подвергается искажению в меньшей степени, особенно на высоких величинах ОСШ - свыше 20.

Фиг. 1
1 - блок обработки формирования циклов
2 - блок умножения на финитную взвешенную функцию
3 - блок обработки БПФ
4 - блок разделения полосы
5 - блок оценки шума
6 - блок вычисления величины понижения шума
7 - блок вычисления величины Hn
8 - блок обработки фильтра
9 - блок преобразования полосы
10 - блок коррекции спектра
11 - блок обратного быстрого преобразования Фурье
12 - блок совмещения-и-суммирования
21 - блок вычисления СК
22 - блок вычисления относительной энергии
23 - блок вычисления макс. СК
24 - блок вычисления предполагаемого уровня шума
25 - блок вычисления макс. ОСШ
26 - блок оценки спектра шума
Фиг. 8
1 - блок обработки формирования циклов
2 - блок обработки умножения на финитную взвешенную функцию
3 - блок обработки быстрого преобразования Фурье
4 - блок разделения полосы
6 - блок вычисления величины шумопонижения
7 - блок вычисления величин H
8 - блок обработки фильтра
9 - блок преобразования полосы
10 - блок коррекции спектра
11 - блок обработки обратного БПФ
12 - блок совмещения-и-суммирования
26 - блок оценки спектра шума
31 - блок вычисления СК, мин. СК, макс. ОСШ
32 - блок вычисления adj1, adj2, adj3
33 - блок вычисления начального срабатывания фильтра
34 - блок таблицы кривых подавления фильтра
35 - генератор характеристики фильтра шумоподавления

Формула изобретения

1. Способ понижения шума во входном речевом сигнале для подавления шума, включающий преобразование входного речевого сигнала в частотный спектр, отличающийся тем, что определяют характеристики фильтра на основе первой величины, полученной из отношения уровня упомянутого частотного спектра к оцененному уровню шумового спектра, содержащегося в частотном спектре, и второй величины, полученной из максимального значения отношения уровня сигнала частотного спектра, определяемого для циклов сигнала, к оцененному уровню шума и указанного оцененного уровня шума, и осуществляют понижение шума в указанном входном речевом сигнале фильтрацией, соответствующей указанным характеристикам фильтра.

2. Способ по п.1, отличающийся тем, что уровни частотного спектра входного сигнала и оцененные уровни шумового спектра запоминают в таблице и при определении характеристик фильтра вычисляют упомянутую первую величину с помощью значений, полученных из упомянутой таблицы уровней спектра входного сигнала и оцененных уровней шумового спектра.

3. Способ по п.1, отличающийся тем, что вторую величину, полученную из максимального значения отношения уровня сигнала к оцененному уровню шума и оцененного уровня шума, используют для регулирования максимальной степени понижения шума посредством фильтрации, соответствующей характеристикам фильтра, для обеспечения линейного изменения в дБ максимальной степени понижения шума.

4. Способ по п.1, отличающийся тем, что оцененный уровень шума представляет собой величину, полученную из среднеквадратического значения амплитуды циклового входного сигнала и максимального значения среднеквадратических значений, максимальное значение отношения уровня сигнала к оцененному уровню шума представляет собой величину, полученную из максимального значения среднеквадратических значений и оцененного уровня шума, причем максимальное значение среднеквадратических значений является максимальной величиной, определяемой из среднеквадратических значений амплитуд цикла входного сигнала, значения, полученного из максимальной величины среднеквадратических значений предшествующего цикла, и заданного значения.

5. Устройство для понижения шума во входном речевом сигнале, предназначенное для подавления шума, содержащее средство преобразования входного речевого сигнала в частотный спектр, отличающееся тем, что содержит средство определения характеристик фильтра на основе первой величины, полученной из отношения уровня упомянутого частотного спектра к оцененному уровню шумового спектра, содержащегося в частотном спектре, и второй величины, полученной из максимального значения отношения уровня сигнала частотного спектра, определяемого для циклов сигнала, к оцененному уровню шума и указанного оцененного уровня шума, и средство для понижения шума во входном речевом сигнале фильтрацией, соответствующей указанным характеристикам фильтра.

РИСУНКИ

Рисунок 1, Рисунок 2, Рисунок 3, Рисунок 4, Рисунок 5, Рисунок 6, Рисунок 7, Рисунок 8, Рисунок 9, Рисунок 10, Рисунок 11

Изобретение относится к акустике, в частности к способам распознавания речевых сигналов

Устройство для распознавания изолированных слов // 2136059

Изобретение относится к технике цифровой обработки речи и может быть использовано в различных приложениях, таких, как системы речевого общения человека с ЭВМ, автоматическая коммутация в телефонной сети голосом абонента, медицинские исследования патологий речеобразующего тракта пациентов и других

Способ фоностенографирования // 2140103

Изобретение относится к способам регистрации речевых сообщений и может найти применение при фоностенографировании