Способ повышения разборчивости и информативности звуковых сигналов в шумовой обстановке

Авторы патента:

Петровский Александр Александрович (BY)

Вашкевич Максим Иосифович (BY)

Азаров Илья Сергеевич (BY)

Бредихин Александр Юрьевич (RU)

G10L21/0232 - Обработка сигналов речи для получения иного слышимого или неслышимого сигнала, например визуального, осязаемого, для того, чтобы модифицировать их качество или их разборчивость (G10L 19/00 имеет преимущество)

G10L19/02 - с использованием спектрального анализа, например преобразовательные вокодеры, вокодеры с поддиапазонами

Владельцы патента RU 2589298:

Бредихин Александр Юрьевич (RU)

Изобретение относится к средствам повышения разборчивости и натуральности звучания аудиокомпозиции в акустической шумовой обстановке. Технический результат заключается в повышении разборчивости и натуральности звучания аудиокомпозиции в акустической шумовой обстановке за счет снижения эффекта маскирования полезного звукового сигнала нестационарными акустическими шумами при помощи использования частотно-зависимого адаптивного усиления. Полезный сигнал, поступающий в блок обработки, и шумовой сигнал акустической обстановки, поступающий из окружающего пространства в блок обработки, делят на фреймы. В блок обработки вводят банки фильтров анализа и банки фильтров синтеза, которыми производят субполосную декомпозицию полезного сигнала и сигнала шума акустической обстановки и, соответственно, субполосную композицию измененных амплитудных зависимостей полезного сигнала после обработки компрессором. При субполосной декомпозиции вычисляют энергию в каждой субполосе полезного сигнала и сигнала шума акустической обстановки. В качестве компрессора блока обработки используют адаптивный компрессор динамического диапазона (АКДД), которым изменяют динамический диапазон полезного сигнала. Сигналы в субполосах полезного сигнала умножают на коэффициенты усиления. 2 з.п. ф-лы, 13 ил.

Область техники

Изобретение относится к вычислительной технике, системам мультимедиа и может быть использовано в мобильных мультимедийных устройствах.

Предшествующий уровень техники

Прослушивание различных звуковых сигналов (таких как музыкальные произведения или речевые сообщения) в шумовой обстановке (Фиг. 1) часто бывает затруднительным, поскольку акустический шум v[n] при соответствующей интенсивности маскирует полезный сигнал x[n]. Здесь под термином «Полезный сигнал» понимается сигнал без акустического шума, который «Слушатель» воспринимает как выходной сигнал y[n] блока обработки (фиг. 1) через громкоговоритель в обстановке агрессивного акустического шума. Полезным сигналом x[n] может быть сигнал мультимедийных воспроизводящих устройств, сигнал в системах видеоконференций, громкой связи, IP - телефонии и т.п. В системах связи различного назначения полезный сигнал x[n] - это сигнал дальнего диктора, приходящий из сети, а «Слушатель» - ближний диктор, для которого восприятие сигнала дальнего диктора x[n] затруднено акустическим шумом v[n] окружающей обстановки, в которой он находится. Схема восприятия акустической информации в шумовой обстановке и соответствующие спектрограммы проиллюстрированы фигурами 1 и 2. Например, при покрытии чистого речевого сигнала шумом метрополитена этот речевой сигнал едва может быть идентифицирован (фиг. 2, в).

Обеспечение комфортного прослушивания и достаточной разборчивости в данной обстановке сравнительно легко достигается путем акустического усиления полезного сигнала x[n], что позволяет вывести его из-за порога маскирования шумом v[n].

Большинство звуковоспроизводящих устройств имеет возможность ручной регулировки громкости, которая позволяет слушателю адаптировать режим воспроизведения к различной шумовой обстановке. Однако в контексте повышения разборчивости ручное управление громкостью имеет следующие ограничения:

- ручная регулировка не всегда доступна для оперативной реакции на изменение шумовой обстановки;

- для сигналов, имеющих широкий динамический диапазон, имеющих тихие и громкие фрагменты, нельзя подобрать фиксированный коэффициент усиления, поскольку увеличение громкости, достаточное для прослушивания тихих звуков, приводит к тому, что громкие звуки становятся слишком громкими (возможно превышающими болевой порог);

- усиление выполняется одинаково для всех частотных составляющих сигнала без учета спектральной плотности мощности маскирующего шума.

Известные системы редактирования шума (Phillips С Loizou "Speech enhancement theory and practice" 1st ed. Boca Raton, FL.: CRC, 2007. Releases Taylor & Francis), осуществляющие фильтрацию шума сигнала микрофона ближнего диктора до передачи в сеть. Однако часто требуется повысить разборчивость сигнала дальнего диктора (полезного сигнала x[n]) для ближнего диктора, находящегося в шумной акустической обстановке, когда шум прослушивается без какой-либо возможности быть подавленным.

В 1960-х и 1970-х годах некоторые исследования были сделаны по этой теме, например, (Russell J. Niederjohn and James H. Grotelueschen, "The enhancement of speech intelligibility in high noise levels by highpass filtering followed by rapid amplitude compression," in Proc. of ICASSP, Aug. 1976, vol. 24, pp. 277-282). Для повышения разборчивости речи у ближнего диктора-слушателя предлагается выполнять высокочастотную фильтрацию чистого сигнала дальнего диктора (полезного сигнала x[n]), чтобы усилить более высокие форманты, сопровождаемую амплитудной компрессией, чтобы защититься от искажений белого шума и уменьшить мощность шумовой среды соответственно. Способ предназначен для обработки исключительно речевых сигналов и предполагает наличие в сигнале специфических для речи характеристик, таких как формантные частоты и вокализованные фрагменты. Известный способ не применим к обработке неречевых звуковых сигналов (например, музыкальных произведений).

Существует известное техническое решение задачи повышения разборчивости речи в акустических шумах, основанное на максимизации индекса разборчивости SII (Speech Intelligibility Index), в котором повышение индекса разборчивости SII достигается путем модификации спектра речевого сигнала - полезного сигнала x[n] с учетом спектральной плотности мощности сигнала шума v[n]. (US, №2011/0224976), (В. Sauert and P. Vary, "Near end listening enhancement optimized with respect to speech intelligibility," Proc. 17th European Signal Processing Conference (EUSIPCO), pp. 1844-1849, 2009). Индекс разборчивости речи SII является стандартизированной объективной мерой, которая отражает действительную разборчивость речи для различных неблагоприятных условий прослушивания (American National Standard. Methods for the Calculation of the Speech Intelligibility Index. ANSI S3.5-1997, 1997).

Данная мера разборчивости разработана исключительно для анализа речевых сигналов и не может в исходном виде применяться к произвольным звуковым (например, музыкальным записям) потому, что критерием разборчивости речи является способность идентифицировать отдельные слоги речевого сообщения. Музыкальное же произведение (сообщение) имеет неслоговую структуру и воспринимается слуховой системой при помощи совсем иных интерпретационных механизмов.

Известен способ повышения разборчивости речевого сигнала - полезного сигнала x[n] в шумах с сохранением исходной энергии речевого сигнала (Zorila, Т.-С. Speech-in-noise intelligibility improvement based on spectral shaping and dynamic range compression / T.-C. Zorila, V. Kandida, Y. Stylianou // In Proc. Interspeech, 2012. - Portland, Oregon, 2012. - P. 635-638.).

Способ состоит из двух последовательных этапов, которые осуществляют адаптивное изменение формы спектральной огибающей и расширение/компрессия динамического диапазона. Этот способ обработки основывается на результатах исследования влияния формантной структуры чистой (незашумленной) речи на разборчивость. Адаптивное изменение формы спектральной огибающей выполняется путем подчеркивания формантной структуры речи и уменьшения наклона спектральной огибающей корректирующим фильтром. Степень обработки зависит от уровня вокализованности речевого фрагмента - чем ближе он к гласному звуку, тем сильнее вносимый эффект. Данный способ повышения разборчивости речевого сигнала - полезного сигнала x[n] в шумовой обстановке выполняется в блоке обработки (фиг. 1) и состоит из следующих шагов.

Шаг 1. Вычисляется вероятность P_v[n] (или степень) вокализованности текущего речевого фрейма - «полезного сигнала» x[n]

где α=1/max(P_v[n]) является нормирующим множителем, rms[n] - среднеквадратичное значение отсчетов сигнала, z[n] - число переходов через ноль, n - номер отсчета, n=1, 2…N. Статистические оценки rms[n] и z[n] выполняются на одном фрейме речевого сигнала с центром в n-м отсчете сигнала и продолжительностью 8,3 мс либо 4,5 мс в зависимости от того, обрабатывается мужской голос или женский. Фреймы набираются с шагом 10 мс.

Шаг 2. Каждый фрейм речевого сигнала x[n] длиной N отсчетов умножается на окно Хэннинга и вычисляется дискретное преобразование Фурье. Используя амплитудный спектр, оценивается спектральная огибающая сигнала E[ω_k], где ω_k - угловая частота, k - индекс частотной составляющей. Коррекция огибающей выполняется при помощи трех последовательных фильтров , причем H_S[ω_k] и H_p[ω_k] являются адаптивными фильтрами, а H_r[ω_k] - фильтром с постоянными параметрами. Для получения частотной характеристики фильтра H_S[ω_k] вычисляется наклон спектральной огибающей T[ω_k] при помощи следующего выражения:

где , c_m - кепстральные коэффициенты с индексами m. Затем вычисляется искомая частотная характеристика фильтра

Значение параметра β принимается равным 0.25 для малых соотношений сигнал/шум, однако оно может быть уменьшено для менее интенсивных шумов v[n].

Частотная характеристика второго адаптивного фильтра H_p[ω_k] вычисляется следующим образом:

где ω₀=0,125π при частоте дискретизации 16 кГц. Значение коэффициента g может быть постоянным (например, 0,3) либо может изменяться в зависимости от соотношения сигнал/шум.

Частотная характеристика фильтра с постоянными параметрами H_p[ω_k] рассчитывается таким образом, чтобы усилить энергию сигнала в диапазоне от 1 кГц до 4 кГц на 12 дБ и ослабить частоты ниже 500 Гц на 6 дБ/октава.

Измененный амплитудный спектр объединяется с исходным фазовым спектром и вычисляется обратное преобразование Фурье. После этого фреймы полученного сигнала суммируются с перекрытием и формируется обработанный сигнал - полезный сигнал x[n] с измененной формой спектральной огибающей, подчеркивающей формантную структуру речевого сигнала.

Шаг 3. Выполняется расширение и компрессия динамического диапазона сигнала х[n], полученного на предыдущем шаге. Для этого вычисляется его амплитудная огибающая при помощи преобразования Гильберта. Затем выполняется компрессия с коротким временем отпускания (примерно 2 мс) и почти мгновенным временем срабатывания:

где a _r=0,15 и а _а=0,0001. Затем сглаженная амплитудная огибающая переводится в децибелы , где индекс in обозначает огибающую входного сигнала компрессора, и при помощи кривой амплитудной характеристики (фиг. 3) компрессора вычисляются значения огибающей e_out[n] на его выходе. Величина е₀ является опорной величиной, соответствующей 0 дБ.

Амплитудная характеристика компрессора (зависимость уровня амплитудной огибающей e_out[n] на выходе компрессора от уровня на входе e_in[n]) показывает, что при низких значениях амплитуды входного сигнала x[n] (менее -30 дБ) усиления не происходит - выходной уровень равен входному. При умеренных значениях амплитудной огибающей входного сигнала (от -30 до 0 дБ) происходит его усиление - соответствующая область кривой является областью расширения. При высоких значениях амплитудной огибающей входного сигнала x[n] (более 0 дБ) выполняется ослабление - это область компрессии.

Коэффициент усиления сигнала x[n] вычисляется следующим образом:

При этом выходной сигнал y[n] блока обработки (фиг. 1) формируется путем умножения обработанного сигнала x[n] с измененной формой спектральной огибающей, подчеркивающей формантную структуру речевого сигнала, на полученный коэффициент усиления y[n]=g[n]x[n] и нормирования его для сохранения исходной энергии.

Анализ данного способа повышения разборчивости речевых сигналов - полезных сигналов x[n] в шумовой обстановке показывает, что способ предназначен для обработки исключительно речевых сигналов и предполагает наличие в сигнале специфических для речи характеристик, таких как формантные частоты и вокализованные фрагменты, а также подразумевает возможность произвести классификацию диктора (мужчина либо женщина). Способ не применим к обработке неречевых звуковых сигналов (например, музыкальных произведений). Способ сохраняет исходную энергию речевого сигнала, вследствие чего невозможно обеспечить удовлетворительную разборчивость при низких соотношениях сигнал/шум. Даже при наличии идеальных условий (в полной тишине) в обрабатываемый сигнал вносятся искажения. Способ лишь ограниченно учитывает интенсивность шума v[n] и совсем не учитывает его кратковременные спектральные и динамические характеристики. В результате способ плохо применим для нестационарных шумов v[n].

Известен способ повышения разборчивости речевого сигнала - полезного сигнала x[n] путем усиления спектральных составляющих речевого сигнала таким образом, чтобы для каждой из них обеспечивалось требуемое соотношение сигнал/шум. (US №8645129). В общем, алгоритм обработки в этом способе сводится к следующим шагам:

Шаг 1. В блоке обработки (фиг. 1) вычисляются спектры полезного x[n] и шумового сигналов v[n] при помощи кратковременного преобразования Фурье.

Шаг 2. Вычисляются соотношения сигнал/шум для каждой спектральной составляющей и требуемые коэффициенты усиления (коэффициенты вычисляются независимо друг от друга).

Шаг 3. Спектральные составляющие полезного сигнала x[n] умножаются на соответствующие им коэффициенты и переводятся во временную область при помощи обратного преобразования Фурье для формирования выходного сигнала y[n] блока обработки.

Недостатком этого способа является то, что в результате обработки в полезном сигнале x[n] происходит выравнивание амплитуды тихих звуков с потерей их относительной громкости, что приводит к неестественному звучанию. Усиление спектральных компонент выполняется независимо друг от друга, что приводит к потере естественной огибающей обрабатываемого сигнала. Еще одним ограничением способа является то, что он не предназначен для обработки музыкальных произведений, поскольку целью является повышение разборчивости речевого сигнала, имеющего менее широкий динамический диапазон, чем музыкальный диапазон.

Наиболее близким к предлагаемому способу является способ повышения разборчивости речи (Sauert, В. Near end listening enhancement: speech intelligibility improvement in noisy environments / B. Sauert, P. Vary // ICASSP 2006: proc. of the International Conference on Acoustic, Speech, and Signal Processing. - Toulouse, France, 2006. - P. 493-496).

В этом техническом решении входной речевой сигнал блока обработки (фиг. 1) - «полезный акустический сигнал» x[n]. Речевой x[n] и шумовой v[n] сигнал делятся на фреймы длиной N отсчетов с перекрытием в половину длины фрейма (один фрейм соответствует 20 мс): , где i - индекс фрейма обработки. Каждый фрейм умножается на окно Хэннинга и переводится в частотную область при помощи дискретного преобразования Фурье. В результате формируются кратковременные спектры речевого и шумового сигналов, обозначенные далее и соответственно, где Ω_µ - дискретная частота и µ - индекс частоты. Спектр речевого сигнала x[n] умножается на коэффициенты усиления и вычисляется измененная амплитуда :

Коэффициенты усиления принимают значения большие или равные единице и вычисляются таким образом, чтобы обеспечить соотношение сигнал/шум для каждого частотного отсчета не ниже заданной величины. Таким образом, выполняется ограничение минимального выходного уровня сигнала y[n] на выходе блока обработки в зависимости от уровня шума v[n]. После умножения на коэффициенты усиления полученный образ Фурье с измененной амплитудой , переводится во временную область при помощи обратного преобразования Фурье. Из полученных фреймов формируется выходной сигнал блока обработки y[n] методом сложения с перекрытием.

Компрессор-ограничитель уровня выходного сигнала блока обработки y[n] имеет два входа - спектр полезного сигнала x[n] и спектр сигнала шума v[n]. На выходе блока обработки имеем сигнал y[n] с измененной амплитудой - сигнал на входе громкоговорителя, который воспринимает «Слушатель» (фиг. 1). Обработка сигналов полезного x[n] и шума v[n] в блоке обработки ведется последовательно - фрейм за фреймом.

Шаг 1. Вычисляются средние значения спектральной плотности мощности речевого (полезного) сигнала x[n] и шума v[n], обозначенные соответственно и :

где α_s, α_N∈[0,1] являются коэффициентами экспоненциального усреднения и рекомендуется использовать следующие значения α_S=0,996 и α_N=0,96.

Шаг 2. Вычисляются коэффициенты усиления

где ξ - заданное минимальное соотношение сигнал/шум и G_max - ограничение максимального усиления.

Шаг 3. Ограничение максимальной амплитуды спектральных составляющих выходного сигнала y[n] для предотвращения превышения болевого порога

где - максимально допустимые значения амплитуды спектральных составляющих.

Описанный выше способ позволяет повысить разборчивость речи - полезного сигнала x[n], но без учета комфорта восприятия, естественности и натуральности звучания выходного сигнала y[n] на фоне шумов. В результате данное решение применимо в каналах речевой связи, однако неприменимо для прослушивания при внешнем шуме музыкальных произведений, таких как музыка с речевым сопровождением, например песни, или без речевого сопровождения, например пьесы, симфонии и т.п. В известном способе предполагается, что требуемая разборчивость получается при достижении некоторого заданного минимального соотношения сигнал/шум для всех звуков слышимого динамического диапазона. Для чего используется компрессор-ограничитель минимального выходного уровня сигнала y[n] (фиг. 4). Использование ограничителя минимального выходного уровня сигнала y[n] с постоянным выходным уровнем в области ограничения (фиг. 4, точка К на амплитудной характеристике компрессора-ограничителя является точкой перегиба характеристики) приводит к потере натуральности звучания, поскольку в области ограничения теряется градация тихих звуков - на выходе все звуки становятся одной интенсивности. В то же время для сохранения динамических оттенков и повышения натуральности звучания необходимо использовать изменяющийся (от тихого к громкому) выходной уровень в области ограничения.

Можно отметить, что в этом техническом решении усиление каждого частотного отсчета спектра сигнала x[n] выполняется независимо друг от друга. Это приводит к потере относительной громкости между частотными составляющими сигнала, теряется форма его спектральной огибающей и в результате сильно искажается тембр, как показано на фиг. 5.

Спектральный анализ полезного сигнала x[n] и шума v[n] в данном способе выполняется с равным частотным разрешением по всей шкале частот (обусловлено применением дискретного преобразования Фурье) без учета особенностей частотного разрешения слуховой системы слушателя.

Таким образом, этот известный способ повышения разборчивости и информативности звуковых сигналов в шумовой обстановке заключается в том, что полезный сигнал x[n], поступающий в блок обработки, и шумовой v[n] сигнал акустической обстановки, поступающий из окружающего пространства в блок обработки, делят на фреймы длиной по N отсчетов с перекрытием в половину длины фрейма, где N - размер фрейма, а n - номер отсчета сигнала во фрейме, n=1, 2…N, обработку фреймов производят в блоке обработки фрейм за фреймом, каждый фрейм умножают на окно Хэннинга и производят декомпозицию полезного сигнала x[n] и шумового сигнала v[n] акустической обстановки на частоты и амплитуды путем дискретного преобразования Фурье, в результате чего формируют кратковременные спектральные зависимости полезного сигнала и шумового сигнала акустической обстановки, изменяют динамический диапазон полезного сигнала и шумового сигнала акустической обстановки в компрессоре блока обработки, для чего кратковременные спектральные зависимости полезного сигнала x[n] умножают на коэффициенты усиления g[n]≥1, обеспечивающие заданное соотношение сигнал/шум для каждого частотного отсчета n, после изменения динамического диапазона производят композицию измененных кратковременных спектральных зависимостей полезного сигнала путем обратного преобразования Фурье, получая скорректированные фреймы, из которых формируют путем сложения с перекрытием выходной сигнал y[n], который из блока обработки передают в окружающее пространство.

Раскрытие изобретения

Решаемая изобретением задача - повышение технико-эксплуатационных характеристик, расширение функциональных возможностей мобильных мультимедийных устройств (смартфонов и планшетов), мультимедийных воспроизводящих устройств, систем видеоконференций, громкой связи, IP - телефонии, колл-центров, усовершенствование слуховых аппаратов, корректирующих звуковой сигнал (во время телефонного разговора и при прослушивании аудиоконтента) в агрессивной акустической шумовой обстановке.

Технический результат, который может быть получен при реализации способа, - повышение разборчивости и натуральности звучания аудиокомпозиции при прослушивании в акустической шумовой обстановке за счет снижения эффекта маскирования полезного звукового сигнала нестационарными акустическими шумами при помощи использования частотно-зависимого адаптивного усиления.

Для решения поставленной задачи с достижением указанного технического результата в известном способе повышения разборчивости и информативности звуковых сигналов в шумовой обстановке, заключающемся в том, что полезный сигнал x[n], поступающий в блок обработки, и шумовой сигнал v[n] акустической обстановки, поступающий из окружающего пространства в блок обработки, делят на фреймы длиной по N отсчетов, где N - размер фрейма, an- номер отсчета сигнала во фрейме, n=1, 2…N, обработку фреймов производят в блоке обработки фрейм за фреймом, производят декомпозицию полезного сигнала x[n] и шумового сигнала v[n] акустической обстановки, в компрессоре блока обработки изменяют динамический диапазон полезного сигнала x[n] шумового сигнала v[n] акустической обстановки в компрессоре блока обработки, после изменения динамического диапазона производят композицию полезного сигнала, получая скорректированные фреймы, из которых формируют путем сложения выходной сигнал y[n], который из блока обработки передают в окружающее пространство, согласно изобретению в блок обработки вводят банки фильтров анализа и банки фильтров синтеза, которыми производят субполосную декомпозицию полезного сигнала и сигнала шума акустической обстановки и, соответственно, субполосную композицию субполос полезного сигнала, при субполосной декомпозиции вычисляют энергию в каждой субполосе полезного сигнала x[n] и сигнала шума v[n] акустической обстановки для расчета коэффициентов усиления в каждой субполосе, в качестве компрессора блока обработки используют адаптивный компрессор динамического диапазона, которым изменяют динамический диапазон полезного сигнала, для чего сигналы в субполосах полезного сигнала умножают на коэффициенты усиления в соответствии с амплитудной характеристикой адаптивного компрессора динамического диапазона в каждой субполосе, при этом положение точки перегиба на амплитудной характеристике адаптивного компрессора динамического диапазона, разделяющей динамический диапазон полезного сигнала на область компрессии и на область - без усиления, обуславливают уровнем энергии субполосного сигнала шума акустической обстановки, и в соответствии с амплитудной характеристикой области компрессии адаптивного компрессора динамического диапазона в каждой субполосе полезного сигнала определяют коэффициент усиления на основе уровня энергии субполосных сигналов полезного сигнала, после субполосной композиции банками фильтров синтеза измененных амплитудных зависимостей полезного сигнала из скорректированных фреймов формируют путем сложения со стыковкой выходной сигнал y[n].

Возможны дополнительные варианты осуществления способа, в которых целесообразно, чтобы:

- в качестве банка фильтров использовали М-канальный неравнополосный косинусно-модулированный банк фильтров;

- для устранения артефактов в выходном сигнале в блоке обработки для каждого фрейма полезного сигнала выполняли интерполяцию коэффициентов усиления адаптивного компрессора динамического диапазона с задержкой на размер фрейма обработки, причем состыкованные для соседних фреймов коэффициенты усиления представляют в виде кусочно-линейной функции, получая плавную регулировку уровня громкости выходного сигнала блока обработки.

Таким образом, существенными отличиями заявленного способа является то, что:

- декомпозицию полезного сигнала x[n] и шумового v[n] сигнала производят не путем дискретного преобразования Фурье, а композицию (синтез) не обратным преобразованием Фурье, а банками фильтров анализа и банками фильтров синтеза, которыми производят субполосную обработку,

- используют не компрессор-ограничитель уровня выходного сигнала y[n], а адаптивный компрессор динамического диапазона, в котором положение точки K перегиба на его амплитудной характеристике компрессора, разделяющей динамический диапазон входного сигнала x[n] на область компрессии и на область - без усиления, обуславливают уровнем энергии шумового сигнала v[n];

- выходной сигнал y[n] формируют не путем сложения с перекрытием из скорректированных фреймов, а их сложением со стыковкой.

Достоинством предложенного способа повышения разборчивости и информативности звуковых сигналов в шумовой обстановке является улучшение восприятия различных звуковых (в том числе речевых) сигналов на фоне акустических шумов v[n], причем сохранение натуральности и естественности звучания является основным преимуществом. При обработке усиливаются лишь те фрагменты полезного сигнала x[n], которые маскируются шумом v[n]. В полной тишине в полезный сигнал x[n] не вносится никаких изменений. Динамический диапазон полезного сигнала x[n] сужается при помощи адаптивного (к шуму) компрессора. В результате обеспечивается хорошая слышимость в полезном сигнале x[n] как изначально тихих, так и громких звуков без превышения допустимой громкости и с сохранением относительных градаций от тихого к громкому. Субполосная декомпозиция полезного сигнала x[n] и шума v[n] выполняется на основе банка фильтров (неравнополосного), адаптированного к неравномерной частотной шкале слухового восприятия. Обработка во временной области, а не в частотной, как в ближайшем аналоге, обеспечивает сохранение оригинальной формы спектральной огибающей сигнала в каждой из частотных полос банка фильтров, в отличие от ближайшего аналога, где осуществляется переход в частотную область и обратно на основе дискретного преобразования Фурье. Энергия выходного сигнала y[n] непосредственно зависит от энергии шума v[n], что позволяет обеспечить хорошую слышимость звука даже при очень низких соотношениях сигнал/шум. Усиление полезного сигнала x[n] выполняется в соответствии с кратковременными спектральными и динамическими характеристиками шума v[n], что делает изложенный способ пригодным для использования в условиях нестационарных шумов v[n].

Краткий перечень чертежей

Фиг. 1 - Схема восприятия акустической информации в шумовой обстановке;

Фиг. 2 - Частотно-временное представление сигнала (спектрограммы): а) чистый речевой сигнал; б) сигнал шума метрополитена; в) сумма сигналов речи и шума для отношения сигнал-шум - 5 дБ;

Фиг. 3 - Амплитудная характеристика компрессора, предшествующий уровень;

Фиг. 4 - Амплитудная характеристика компрессора-ограничителя уровня выходного сигнала y[n], предшествующий уровень;

Фиг. 5 - Входной и выходной спектры полезного акустического сигнала x[n] для случая белого шума v[n], предшествующий уровень;

Фиг. 6 - Субполосная декомпозиция полезного сигнала x[n], шума v[n] и формирование выходного сигнала y[n] в блоке обработки;

Фиг. 7 - Амплитудная характеристика адаптивного компрессора динамического диапазона (АКДД);

Фиг. 8 - Принцип интерполяции коэффициентов g^i-1, g⁽ⁱ⁾ и g⁽ⁱ⁺¹⁾ для получения g⁽ⁱ⁾[n] для соседних фреймов в адаптивном компрессоре динамического диапазона АКДД;

Фиг. 9 - Блок-схема алгоритма работы блока обработки;

Фиг. 10 - Принцип задания неравнополосного банка фильтров на основе деформации частотной оси;

Фиг. 11 - Амплитудно-частотная характеристика неравнополосного 5-канального банка фильтров, аппроксимирующая шкалу критических частотных полос (психоакустическую частотную шкалу Барков);

Фиг. 12 - Частотно-временное представление сигнала (спектрограммы): а) выходной сигнал y[n] на выходе блока обработки; б) шум v[n] метрополитена; в) сигнал, который воспринимает слушатель: сумма выходного сигнала y[n] и шума v[n],

Фиг. 13 - Сравнение среднего значения индекса разборчивости SII для речевых сигналов до и после обработки предложенным способом.

Лучший вариант осуществления изобретения

В блоке обработки (фиг. 1) выполняется субполосная декомпозиция, согласно фигуре 6, полезного сигнала x[n] и сигнала шума v[n], принятого из микрофона. Чтобы учесть спектральные особенности шума v[n] окружающей обстановки и выполнить усиление только тех частотных областей полезного сигнала x[n], которые маскируются шумом, в предлагаемом способе может использоваться неравнополосный косинусно-модулированный банк фильтров. Банк фильтров позволяет выполнить субполосную декомпозицию сигналов схожую с той, которая выполняется улиткой уха человека и, в отличие от ближайшего аналога, осуществлять обработку сигналов во временной области, что позволяет избежать ошибок при переходе из частотной области во временную. Банки фильтров анализа для полезного сигнала x[n] и шумового сигнала v[n] выполнены одинаково. В каждом канале выполняется корректировка громкости для повышения уровня разборчивости и информативности полезного сигнала x[n] с учетом шума v[n] окружающей среды. Для обработки субканальных сигналов используется адаптивный компрессор динамического диапазона (АКДД). В каждом канале обработка ведется независимо. Формирование выходного сигнала y[n] блока обработки (фиг. 1) выполняется с помощью банка фильтров синтеза (фиг. 6). Процесс обработки сигналов полезного x[n] и шума v[n] в блоке обработки (фиг. 1, фиг. 6) ведется фрейм за фреймом.

Адаптивный компрессор динамического диапазона (АКДД) имеет два входа - для полезного сигнала x[n], и сигнала шума v[n], и один выход y[n] - сигнал на входе громкоговорителя, который воспринимает «Слушатель». Целью АКДД является расчет таких коэффициентов усиления g[n], которые не позволят шуму маскировать полезный сигнал во всем частотном диапазоне изменения шумового сигнала v[n]:

y[n]=x[n]·g[n].

Одной из особенностей работы АКДД является то, что для избежания появления артефактов в выходном сигнале y[n] коэффициенты усиления g[n], состыкованные для соседних фреймов, должны представлять собой кусочно-линейную функцию без разрывов. Исходя из этого требования создается специальная характеристика адаптивного к шуму v[n] компрессора динамического диапазона (АКДД), работа которого складывается из следующих шагов:

Шаг 1. Канальные сигналы полезного х⁽ⁱ⁾[n] и шума v⁽ⁱ⁾[n], n=0, 1…N, где i - индекс фрейма, a N - размер фрейма (число отсчетов сигнала во фрейме) поступают на входы соответствующих АКДД (фиг. 6).

Шаг 2. В АКДД для шумового сигнала v⁽ⁱ⁾[n] сохраняется значение уровня энергии шума для предыдущего кадра , новое значение уровня энергии шума рассчитывается следующим образом:

, где 0<ε<1 коэффициент экспоненциального усреднения, величина которого определяет скорость сходимости процедуры усреднения.

Шаг 3. Значение используется для корректировки амплитудной характеристики АКДД (фиг. 7).

Положение точки перегиба K амплитудной характеристики АКДД (фиг. 7) меняется в зависимости от текущего уровня шума X_nos для каждого фрейма. Если уровень шума X_nos увеличивается, то точка K смещается вверх по диагонали (обозначенной пунктирной линией на фигуре 7 самым мелким штрих пунктиром). Если уровень энергии входного сигнала выше X_nos+ΔG, то в АКДД не происходит усиления сигнала, в противном случае уровень энергии выходного сигнала блока обработки рассчитывается, используя нижнее колено амплитудной характеристики АКДД (расположенное в области компрессии). Константы ΔG и ΔR являются настроечными параметрами и характеризуют степень вносимого эффекта компрессии. Параметры подбираются исходя из характеристик микрофона, используемого для регистрации шума и, например, если полезный сигнал x[n] - сигнал проигрывателя, качества записи данного сигнала.

Шаг 4. Определяется для i-го фрейма полезного сигнала x[n] коэффициент усиления (целевой). При этом в АКДД рассчитывается уровень энергии фрейма полезного сигнала x[n].

Это значение используется для расчета уровня выходного сигнала y[n]:

где - амплитудная характеристика АКДД (фиг. 7).

Коэффициент усиления определяется для i-го фрейма следующим образом:

Шаг 5. Выполняется интерполяция коэффициентов усиления g[n] для получения "плавной" регулировки уровня громкости выходного сигнала y[n].

Коэффициент g⁽ⁱ⁾ связывается с серединой фрейма, поэтому для расчета всех коэффициентов g⁽ⁱ⁾[n] необходимо знать значение коэффициента усиления для следующего фрейма g⁽ⁱ⁺¹⁾. Это приводит к тому, что в АКДД вносится задержка на размер фрейма, т.е. для того, чтобы рассчитать усиление текущего фрейма, нужно дождаться следующего фрейма, поэтому обработать и вывести текущий фрейм можно только с опозданием на один на фрейм сигнала. На фиг. 8 поясняется принцип интерполяции коэффициентов g^i-1, g⁽ⁱ⁾ и g⁽ⁱ⁺¹⁾ для получения g⁽ⁱ⁾[n].

Применяется линейная интерполяция значений коэффициентов усиления на все отсчеты полезного сигнала x[n], попадающие в диапазон между центрами предыдущего и следующего кадров.

Шаг 6. Формирование уровня отсчетов выходного сигнала y[n] блока обработки путем масштабирования уровня отсчетов полезного сигнала x[n] на соответствующий коэффициент g⁽ⁱ⁾[n] для i-го фрейма полезного сигнала x[n]:

Шаг 7. Конец работы АКДД.

Таким образом, алгоритм работы блока обработки следующий (фиг. 9).

При поступлении полезного сигнала x[n] и шумового сигнала v[n] акустической обстановки в блоке принятия решений «Начать обработку композиции?» производится запуск работы по выходу «Да» программного обеспечения блока обработки. В результате производится ввод фреймов полезного сигнала x⁽ⁱ⁾[n] и шумового сигнала v⁽ⁱ⁾[n] акустической обстановки, где i - индекс фрейма, а n - номер отсчета. Далее производится расчет энергии шума V⁽ⁱ⁾. В соответствии со значением энергии шума производится корректировка амплитудной характеристики АКДД. Согласно со скорректированной характеристикой АКДД определяется коэффициент усиления g⁽ⁱ⁾. Далее производится интерполяция коэффициентов усиления g⁽ⁱ⁾[n] для согласования соседних фреймов и устранения артефактов выходного сигнала y⁽ⁱ⁾[n]. Затем коэффициенты усиления g⁽ⁱ⁾[n] применяются к фрейму входного полезного сигнала х⁽ⁱ⁾[n], в результате формируется фрейм выходного сигнала y⁽ⁱ⁾[n], и осуществляется его вывод. В блоке принятия решения «Композиция закончена?» принимается решение по выходу «Да» на окончание работы, а по выходу «Нет» информация передается на ввод следующих фреймов полезного сигнала х⁽ⁱ⁾[n] и шумового сигнала v⁽ⁱ⁾[n] для продолжения обработки.

Субполосная декомпозиция полезного сигнала x[n] и сигнала шума v[n] для расчета маскирующего эффекта шумом v[n] полезного сигнала x[n] может быть эффективно выполнена с использованием 5-канального неравнополосного косинусно-модулированного банка фильтров (НКМБФ), который аппроксимирует шкалу критических частотных полос (психоакустическая частотная шкала Барков) восприятия человеком акустической информации.

Число субполос для реализации предложенного способа определяется качеством формируемого выходного сигнала и вычислительной сложностью реализации банка фильтров. Данный банк фильтров образуется из своего равнополосного аналога путем применения фазового преобразования, т.е. замены всех элементов задержки на фазовые звенья , где z - оператор Z преобразования. M-канальный НКМБФ задается передаточными функциями канальных фильтров анализа H_k(z) и синтеза F_k(z) следующим образом:

где М - число каналов в банке (количество критических частотных полос), , , , k - номер канала банка, - мнимая единица, а верхняя черта означает комплексно-сопряженное число. Здесь H(z) - фильтр нижних частот с конечной импульсной характеристикой (КИХ) порядка N и частотой среза ω_с=π/2М, на основе которого формируются передаточные функции канальных фильтров анализа H_k(z) и синтеза F_k(z). С целью уменьшения вычислительной сложности НКМБФ используется фазовое звено A(z) первого порядка, передаточная функция которого определяется как

, где α - коэффициент передаточной функции фазового звена A(z), определяющий его фазочастотную характеристику:

Замена приводит к деформации оси частот и получению неравнополосного банка фильтров. Как видно из фиг. 10, степень деформации частотной оси зависит от одного параметра α - коэффициента передаточной функции фазового звена A(z), определяющего фазочастотную характеристику данного звена. Регулируя коэффициент α, можно изменять ширину полос банка фильтров (фиг. 10). В предложенном способе использовался 5-канальный НКМБФ. Банк фильтров аппроксимирует шкалу Барков; деформация частотной оси задается выбором коэффициента α=0,7452, амплитудно-частотная характеристика которого показана на фиг. 11, причем все пять субполосных фильтров, обозначенные на фиг. 11 как 1, 2, …, 5 обеспечивают ослабление в полосе непропускания не менее -70 дБ. При этом погрешность восстановления сигнала банком синтеза не более 0,001 дБ для коэффициентов децимации/интерполяции в каналах банков анализа/синтеза со следующими значениями {21,7,3,1,1}.

Был проведен эксперимент по повышению разборчивости полезного сигнала x[n] в агрессивной шумовой обстановке для варианта, когда полезный сигнал x[n] является речевым и шумовой сигнал v[n] акустической обстановки - шум метро (согласно фиг. 2). При этом частота дискретизации была задана 44,1 кГц. Шумовой сигнал v[n] акустической обстановки и его спектрограмма показаны на фиг. 126). На фиг. 12в) проиллюстрирован полученный эффект предложенного способа. Как видно из фиг. 12а) полезный сигнал х[n] на выходе блока обработки - выходной сигнал y[n] не имеет никаких артефактов при отсутствии шумового сигнал v[n]. Анализ спектрограммы (фиг. 12в) сигнала на выходе громкоговорителя, который представляет собой сумму выходного сигнала y[n] и шума v[n], и который воспринимает слушатель, показывает, что полезный сигнал х[n] (речевой сигнал) можно идентифицировать после обработки согласно предлагаемому способу (для сравнения см. фиг. 2в). Таким образом, полезный сигнал х[n] продолжает быть слышимым даже при высокой интенсивности шумового сигнала v[n] акустической обстановки. В приведенном примере отношение сигнал - шум равно 5 дБ.

Предложенный способ повышения разборчивости и информативности звуковых сигналов в шумовой обстановке экспериментально проверялся при различных отношениях сигнал шум (ОСШ), во всех случаях измерялась разборчивость речевого сигнала (измерялся индекс разборчивости SII) на фоне шумового сигнала v[n] для метрополитена разной интенсивности до обработки, когда выходной сигнал у[n] равнялся полезному сигналу x[n] и после обработки банками фильтров и АКДД (фиг. 6). Полученные результаты экспериментов изображены на фиг. 13.

В агрессивной шумовой обстановке (ОСШ < -20 дБ) предложенный способ обеспечивает удовлетворительную разборчивость, а при снижении интенсивности шума (ОСШ > 0 дБ) - хорошую. Необработанный сигнал имеет заметно меньшую разборчивость для ОСШ < 0 дБ и становится неразборчивым уже при ОСШ < -10 дБ.

При расчете среднего значения индекса разборчивости SII анализируется эквивалентный уровень спектра речевого сигнала x[n] и эквивалентный уровень спектра шумового сигнала v[n] в каждой из критических полос, вносящих вклад в разборчивость. Эквивалентный уровень рассчитывается, как усредненная по времени мощность сигнала в критической полосе, поделенная на ширину полосы. Поскольку в рассмотренном способе раздельно доступна обработка полезного сигнала х[n] и шумового сигнала v[n], то SII можно вычислить достаточно легко. Величина SII принимает значение от 0 до 1. Если SII больше 0,75, то разборчивость считается хорошей, если же SII имеет значение меньше 0,45, то воспринимаемый слушателем сигнал недостаточно разборчив.

Кроме того, заявленный способ экспериментально проверялся при прослушивании музыкальной композиции (песни) в автомобиле с открытыми окнами. Все шумы от дороги, ям, торможения, работы жесткой подвески в выходном сигнале v[n] удаляются, при этом окружающий шум постепенно перестает восприниматься слуховым аппаратом пользователя. Громкость возрастает плавно, звуковое давление комфортное, на слуховой аппарат пользователя изменение громкости значительного влияния не оказывает.

При кратковременном резком увеличении окружающего шума не происходит сбоя алгоритма, ситуация отрабатывается достаточно плавно, скрывая резкое возрастание шума за счет подстройки частот шумового сигнала v[n] и соответственного увеличения громкости полезного сигнала y[n]. Создается полное впечатление прослушивания музыкальной композиции в автомобиле с закрытыми окнами.

Промышленная применимость

Наиболее успешно заявляемый способ для повышения разборчивости и информативности звуковых сигналов в шумовой обстановке, промышленно применим в мобильных мультимедийных устройствах (смартфонах и планшетах), мультимедийных воспроизводящих устройствах, системах видеоконференций, громкой связи, IP - телефонии, колл-центрах, при усовершенствовании слуховых аппаратов, корректирующих звуковой сигнал, во время телефонного разговора и при прослушивании аудиоконтента) в агрессивной акустической шумовой обстановке.

1. Способ повышения разборчивости и информативности звуковых сигналов в шумовой обстановке, заключающийся в том, что полезный сигнал, поступающий в блок обработки, и шумовой сигнал акустической обстановки, поступающий из окружающего пространства в блок обработки, делят на фреймы, обработку фреймов производят в блоке обработки фрейм за фреймом, производят декомпозицию полезного сигнала и шумового сигнала акустической обстановки, в компрессоре блока обработки изменяют динамический диапазон полезного сигнала и шумового сигнала акустической обстановки, после изменения динамического диапазона производят композицию измененного полезного сигнала, получая скорректированные фреймы, из которых формируют путем сложения выходной сигнал, который из блока обработки передают в окружающее пространство, отличающийся тем, что в блок обработки вводят банки фильтров анализа и банки фильтров синтеза, которыми производят субполосную декомпозицию полезного сигнала и сигнала шума акустической обстановки и, соответственно, субполосную композицию измененных субполос полезного сигнала, при субполосной декомпозиции вычисляют энергию в каждой субполосе полезного сигнала и сигнала шума акустической обстановки для расчета коэффициентов усиления в каждой субполосе, в качестве компрессора блока обработки используют адаптивный компрессор динамического диапазона, которым изменяют динамический диапазон полезного сигнала, для чего сигналы в субполосах полезного сигнала умножают на коэффициенты усиления в соответствии с амплитудной характеристикой адаптивного компрессора динамического диапазона в каждой субполосе, при этом положение точки перегиба на амплитудной характеристике адаптивного компрессора динамического диапазона, разделяющей динамический диапазон полезного сигнала на область компрессии и на область - без усиления, обуславливают уровнем энергии субполосного сигнала шума акустической обстановки и в соответствии с амплитудной характеристикой области компрессии адаптивного компрессора динамического диапазона в каждой субполосе полезного сигнала определяют коэффициент усиления на основе уровня энергии субполосных сигналов полезного сигнала, после субполосной композиции банками фильтров синтеза измененных амплитудных зависимостей полезного сигнала из скорректированных фреймов формируют путем сложения со стыковкой выходной сигнал.

2. Способ по п. 1, отличающийся тем, что в качестве банка фильтров используют М-канальный неравнополосный косинусно-модулированный банк фильтров, где М-количество каналов не менее пяти.

3. Способ по п. 1, отличающийся тем, что для устранения артефактов в выходном сигнале в блоке обработки для каждого фрейма полезного сигнала выполняют интерполяцию коэффициентов усиления адаптивного компрессора динамического диапазона с задержкой на размер фрейма обработки, причем состыкованные для соседних фреймов коэффициенты усиления представляют в виде кусочно-линейной функции, получая плавную регулировку уровня громкости выходного сигнала блока обработки.

Изобретение относится к средствам расширения ширины полосы. Технический результат заключается в обеспечении возможности уменьшения объема вычислений при расширении ширины полосы и подавления ухудшения качества в ширине полосы, которая должна быть расширена.

Способ дистанционного перехвата речевой информации из защищаемого помещения здания с охраняемой зоной // 2575406

Изобретение относится к области радиотехники, в частности к активным радиолокационным методам получения информации, и может преимущественно использоваться для дистанционного перехвата из-за границы охраняемой зоны, установленной вокруг здания, конфиденциальной речевой информации, циркулирующей в защищаемом помещении (ЗП) здания.

Контроллер для компоновки головного телефона // 2574821

Изобретение относится к контроллеру для компоновки головного телефона и, в частности, к ограничению уровней громкости из наушника компоновки головного телефона. Технический результат заключается в повышении защиты слуха пользователя за счет определения уровня окружающего звука.

Способ оценки частоты основного тона речевого сигнала // 2546311

Изобретение относится к системам анализа речи, может быть использовано в средствах для распознавания и синтеза речи. Техническим результатом является повышение точности оценки частоты основного тона речевого сигнала.

Устройство, способ и машиночитаемый носитель для получения параметра, описывающего изменение характеристики сигнала // 2543308

Группа изобретений относится к средствам для анализа временных вариаций аудио сигналов. Технический результат заключается в создании средств, обладающих повышенной надежностью, для получения параметра, описывающего временные изменения сигнальной характеристики.

Текстозависимый способ конверсии голоса // 2427044

Изобретение относится к электронной технике и может быть использовано при синтезировании речи по тексту. .

Способ и аппарат мультисенсорного улучшения речи в мобильном устройстве // 2391716

Изобретение относится к мобильным устройствам, в частности к мультисенсорным мобильным устройствам. .

Способ и устройство для восстановления речи в системе распределенного распознавания речи // 2366007

Изобретение относится к восстановлению речи, более конкретно к способу и устройству для восстановления речи в системе распределенного распознавания речи. .

Блок разрешения диалога голосового браузера для системы связи // 2349970

Изобретение относится к управлению режимом работы устройства радиосвязи, более конкретно к способу работы многорежимного устройства радиосвязи в различных системах.

Способ сжатия и восстановления речевых сообщений // 2343565

Изобретение относится к системам передачи информации по цифровым каналам связи. .

Устройство и способ кодирования, устройство и способ декодирования и программа // 2589293

Изобретение относится к средствам кодирования и декодирования аудиосигналов. Технический результат заключается в повышении качества звучания кодированного звукового сигнала.

Декодер звукового сигнала, кодирующее устройство звукового сигнала, способы и компьютерная программа, использующие зависящее от частоты выборки кодирование контура деформации времени // 2586848

Изобретение относится к средствам кодирования и декодирования звукового сигнала. Технический результат заключается в повышении эффективности кодирования.

Устройство и способ обработки входного звукового сигнала с помощью каскадированного банка фильтров // 2586846

Изобретение относится к средствам для обработки входного звукового сигнала на основе каскадированного банка фильтров. Технический результат заключается в повышении качества обработанного звукового сигнала.

Устройство и способ кодирования, устройство и способ декодирования и программа // 2586011

Изобретение относится к устройству кодирования и способу кодирования, устройству декодирования и способу декодирования и может использоваться для получения высококачественного аудиосигнала.

Генерирование шума в аудиокодеках // 2585999

Изобретение относится к средствам генерирования шума в аудиокодеках. Технический результат заключается в обеспечении уменьшения скорости передачи битов и в повышении качества генерируемого шума.

Устройство и способ для выполнения кодирования методом хаффмана // 2585990

Изобретение относится к беспроводной связи и предназначено для кодирования и декодирования звука/речи. Технический результат - повышение точности кодирования и декодирования звукового сигнала.

Кодирование звука с малой задержкой, содержащее чередующиеся предсказательное кодирование и кодирование с преобразованием // 2584463

Изобретение относится к средствам кодирования цифрового звукового сигнала. Технический результат заключается в сокращении количества бит, необходимого для передачи закодированного сигнала без изменения качества кодирования.

Способ и система кодирования аудиоданных с адаптивной низкочастотной коррекцией // 2583717

Изобретение относится к вычислительной технике. Технический результат заключается в адаптивном применении низкочастотной коррекции в ходе кодирования звуковых сигналов, содержащих выраженные низкочастотные тональные составляющие, без изменения декодера.

Система и способ перевода речевого сигнала в транскрипционное представление с метаданными // 2589851

Данное изобретение относится к технологиям распознавания речи, т.е. перевода звукового сигнала, содержащего речь, в транскрипционное представление. Технический результат заключается в повышении точности распознавания звуков речи. Производят прием и предварительную обработку речевого сигнала, далее преобразуют речевой сигнал группой цифровых фильтров в частотные зоны, превышение относительной энергии в которых во времени создает ощущение звуков языка, затем нормализуют полученные частотные зоны с учетом характеристик чувствительности улитки уха по частоте, амплитуде и времени, после чего определяют акустические признаки речевого сигнала и типы звуков, в конечном итоге нормализуют временные параметры и отображают обработанный речевой сигнал. 2 н. и 16 з.п. ф-лы, 7 ил.