Способ разделения речи и пауз путем сравнительного анализа значений мощностей помехи и смеси сигнала и помехи

Изобретение относится к радиотехнике. Техническим результатом является повышение точности определения момента появления речевого сигнала в условиях наличия помех. Сигнал возводят в квадрат. После возведения в квадрат сигнал разветвляют на две одинаковые составляющие, одну из них фильтруют фильтром нижних частот (ФНЧ), вторую составляющую фильтруют полосовым фильтром. Сигналы с выходов фильтров дискретизируют и заносят в память для последующей обработки. Формируют «скользящее окно», состоящее из двух интервалов одинаковой длительности (одинаковое количество отсчетов). Мощность для каждого интервала рассчитывают как разность сумм отсчетов, взятых на выходах ФНЧ и полосового фильтра в течение длительности соответствующего интервала. Разность значений мощностей, полученных для второго и для первого интервалов, сравнивают с заранее определенным порогом. Если разность полученных значений мощностей не превышает порог, то «скользящее окно» сдвигают на некоторое, заранее определенное количество отсчетов (K1). Описанную процедуру повторяют до тех пор, пока порог не будет превышен. Этот момент считают моментом возможного появления сигнала. Значение этого момента определяют как значение положения правой границы первого интервала, входящего в «скользящее окно». 2 ил., 1 табл.

 

Изобретение относится к области техники передачи и трансляции речевой информации и может найти применение в устройствах связи и в устройствах громкоговорящей связи.

Известно устройство для выделения акустических сигналов в каналах связи, описанное в патенте RU 2171549, H04Q 1/46. Изобретение относится к электросвязи, в частности к автоматическим средствам приема сигналов тональной сигнализации в системах многоканальной связи, и может использоваться, например, для обнаружения акустических сигналов (АС) в телефонных каналах. Функционирование основано на вычислении ряда решающих статистик, которые являются отличительными признаками при распознавании информационного АС от канальных шумов и паразитных речевых сигналов. В качестве решающих статистик используются оценка мощности сигнала в информационной полосе частот, распределение энергии входного сигнала по частотному диапазону и величина неравномерности огибающей отфильтрованного в полосовом фильтре входного сигнала. Для принятия окончательного решения о присутствии в канале связи АС используется вторичная обработка, которая основана на применении мажоритарного правила для последовательной серии первичных решений.

Недостатком известного устройства является его невысокая эффективность при решении задачи разделения речи и пауз.

Известно устройство для выделения тональных сигналов в каналах связи по патенту RU 2214051, Н04В 3/46, H04Q 1/457, Н04М 1/50. Изобретение относится к области электросвязи, в частности к автоматическим средствам приема сигналов канальной сигнализации в системах многоканальной связи, и может использоваться для обнаружения акустических сигналов в телефонных каналах.

Известное техническое решение обладает недостаточно высокой эффективностью при решении задачи разделения речи и пауз.

Наиболее близким аналогом по технической сущности к предлагаемому является способ разделения речи и пауз, описанный в книге «Цифровая обработка речевых сигналов. // Л.Р. Рабинер, Р.В. Шафер. Перевод с английского под редакцией М.В. Назарова и Ю.Н. Прохорова. Москва, «Радио и связь», 1981», стр. 123-126, принятый за прототип.

Способ-прототип заключается в следующем.

Сигнал, поступающий в систему, дискретизируется в течение интервала времени, установленного для его анализа, и заносится в память для последующей обработки. Обрабатываемый сигнал состоит из интервала, который содержит только помеху, длительность данного интервала составляет около 100 мс, и интервала, который содержит аддитивную смесь речевого сигнала и помехи (в дальнейшем - смесь сигнала и помехи).

В качестве основных параметров используется число переходов через ноль в течение 10 мс и функция среднего значения, вычисленная с использованием окна длительностью 10 мс. По этим отсчетам вычисляются средние значения и дисперсии взвешенной суммы абсолютных значений амплитуд отсчетов и среднего числа переходов через ноль (статистические характеристики шума).

С учетом значений этих характеристик и максимального среднего значения вычисляются пороги для среднего числа переходов через ноль (СЧПН) и энергии сигнала. Определяется фрагмент колебаний, на котором траектория среднего значения энергии сигнала (СЗЭС) превышает верхний порог. Предполагается, что начало и конец слова лежат вне этого фрагмента.

Затем, двигаясь в обратном направлении по оси времени от момента, где среднее значение энергии сигнала впервые превысило порог, определяют момент, в котором СЗЭС впервые оказалось меньше нижнего порога (точка N1). Этот момент выбирается в качестве предполагаемого начала. Таким же образом определяется и предполагаемое окончание слова (точка N2).

Следующий шаг состоит в перемещении влево от точки N1 (вправо от точки N2) и сравнении числа переходов через ноль с порогом, вычисленным по данным начального участка. Если число переходов через ноль превышает порог 3 или более раз, начало слова переносится туда, где кривая числа переходов через ноль впервые превысила порог. В противном случае точка N1 считается началом слова. Аналогичный процесс осуществляется в отношении точки N2.

Недостатком способа-прототипа является низкая точность решения задачи и высокая вероятность ошибочного решения о появлении сигнала в условиях наличия помех.

Задача предлагаемого способа - повышение точности определения момента появления речевого сигнала и увеличение значения вероятности правильного решения о появлении речевого сигнала в условиях наличия акустического шума.

Для решения поставленной задачи в способе разделения речи и пауз, заключающемся в том, что на всем интервале анализа, состоящего из интервала, который не содержит речевой сигнал, и интервала, который содержит смесь сигнала и помехи, сигнал (помеха или смесь сигнала и помехи), поступающий в систему, возводят в квадрат, согласно изобретению, после возведения в квадрат сигнал разветвляют на две одинаковые составляющие, одну из них фильтруют фильтром нижних частот (ФНЧ), вторую составляющую фильтруют полосовым фильтром, сигналы с выходов фильтров дискретизируют и заносят в память для последующей обработки, формируют «скользящее окно», состоящее из двух интервалов одинаковой длительности (одинаковое количество отсчетов), мощность для каждого интервала рассчитывают как разность сумм отсчетов, взятых на выходах ФНЧ и полосового фильтра в течение длительности соответствующего интервала, после чего разность значений мощностей, полученных для второго и для первого интервалов сравнивают с заранее определенным порогом, если разность полученных значений мощностей не превышает порог, то «скользящее окно» сдвигают на некоторое, заранее определенное количество отсчетов (K1), описанную процедуру повторяют до тех пор, пока порог не будет превышен, этот момент считают моментом возможного появления сигнала, значение этого момента определяют как значение положения правой границы первого интервала, входящего в «скользящее окно», данное значение запоминают, после чего заданное число раз осуществляют следующую процедуру, «скользящее окно» сдвигают на некоторое, заранее определенное количество отсчетов (K2), осуществляют расчет значений мощности для второго интервала, полученное значение сравнивают с значением мощности для первого интервала, которое было запомнено в момент формирования гипотезы о появлении сигнала, после завершения данной процедуры рассчитывают суммарное количество превышений значением мощности, полученным для второго интервала, запомненного значения мощности, для первого интервала, если данное значение превышает заданный порог, то процесс завершают, рассчитывают время появления речевого сигнала как сумму значений запомненного момента превышения порога и половины одного временного интервала, входящего в «скользящее окно».

Предлагаемый способ заключается в следующем.

Помеха представлена в виде совокупности гармонических колебаний со случайными значениями амплитуд (Upi) и фаз (ϕpi), которые распределены по нормальному (амплитуды) и равномерному (фазы) законам.

Частоты гармонических колебаний помехи распределены по равномерному закону в полосе сигнала.

Сигнал представлен в виде совокупности гармонических колебаний со случайными значениями амплитуд (Usi) и фаз (ϕsi), которые распределены по нормальному (амплитуды) и равномерному (фазы) законам, причем начальные значения фаз для составляющих сигнала устанавливаются одинаковыми.

Значения частот сигнала выбираются произвольно, при условии, что «расстояния» по частоте между гармониками сигнала кратны какой-либо величине, например, значению минимальной частоты сигнала, деленной на 12 (двенадцать интервалов по половине шести тонов, на которые разделяются частоты однооктавного звукоряда).

Помеха или смесь сигнала и помехи, поступающие в систему, возводятся в квадрат.

Результат возведения в квадрат смеси сигнала и помехи:

- результат возведения в квадрат сигнала - сумма квадратов амплитуд сигнала (постоянная составляющая) и сумма комбинационных составляющих сигнала;

- результат возведения в квадрат помехи - сумма квадратов амплитуд помехи (постоянная составляющая) и сумма результата умножения составляющих помехи на составляющие помехи (комбинационные составляющие помехи);

- результат умножения составляющих помехи на составляющие сигнала - сумма комбинационных составляющих сигнала и помехи.

Сумма комбинационных составляющих помехи, сигнала и комбинационных составляющие помехи и сигнала может быть записана в виде:

Здесь: i ≠ j;

Ukps - комбинационные составляющие помехи, сигнала и комбинационные составляющие помехи и сигнала разностной частоты;

Nss, Nsp - число гармонических составляющих сигнала и помехи, соответственно;

Usi, Upi, (ωsi, ωpi, ϕsi, ϕpi - амплитуды, частоты и фазы i-x составляющих сигнала и помехи, соответственно.

После возведения в квадрат, полученный сигнал разветвляют на две одинаковые составляющие, одна из которых фильтруется фильтром нижних частот (ФНЧ), полоса которого согласована с полосой речевого сигнала, а вторая - полосовым фильтром. Верхняя частота полосового фильтра соответствует верхней частоте сигнала. Нижняя частота полосового фильтра выбирается минимально возможной и таким образом, чтобы значение коэффициента подавления комбинационных составляющих сигнала и помехи был не меньше заданного уровня. Значение коэффициента подавления определяется на этапе разработки путем моделирования или экспериментальным путем.

На выход ФНЧ проходят сумма квадратов амплитуд сигнала, сумма квадратов амплитуд помехи, сумма комбинационных составляющих сигнала, помехи и комбинационных составляющих сигнала и помехи разностной частоты.

На выход полосового фильтра проходят только комбинационные составляющие помехи, сигнала и сигнала и помехи разностной частоты.

Сигналы, поступающие на выходы фильтров, дискретизируют с использованием аналого-цифровых преобразователей (АЦП) и заносят в память для последующей обработки.

Формируется «скользящее окно», состоящее из двух интервалов одинаковой длительности (одинаковое количество отсчетов). Длительность интервала определяется на этапе разработки экспериментальным путем или методом математического моделирования.

Для случая наличия смеси сигнала и помехи, разность результатов возведения в квадрат смеси сигнала и помехи, прошедших на выход ФНЧ и полосового фильтра близка к сумме квадратов амплитуд сигнала и квадратов амплитуд помехи, то есть к сумме мощностей сигнала и помехи.

В случае наличия только помехи, разность результатов возведения в квадрат помехи, прошедших на выход ФНЧ и полосового фильтра близка к сумме квадратов амплитуд помехи, то есть к мощности помехи.

Мощность помехи или смеси сигнала и помех для каждого интервала рассчитывают как разность сумм отсчетов, взятых на выходах ФНЧ и полосового фильтра, в течение длительности соответствующего интервала.

Частоту взятия отсчетов определяют на этапе разработки экспериментальным путем или методом математического моделирования.

Разность полученных значений мощностей для второго и первого интервалов сравнивают с заранее определенным порогом. Значение порога определяют на этапе разработки путем моделирования или экспериментальным путем.

Если разность полученных значений мощностей не превышает порог, то «скользящее окно» сдвигают на K1 отсчетов и описанную процедуру повторяют до тех пор, пока порог не будет превышен. Данный момент времени фиксируют как момент возможного появления сигнала. Значение данного момента определяют как значение положения правой границы первого интервала, входящего в «скользящее окно». Данное значение запоминают.

Число отсчетов, на которое сдвигается «скользящее окно» (K1), определяется на этапе разработки экспериментальным путем или методом математического моделирования.

В этом случае запоминают значение мощности, полученное для первого интервала, после чего заданное число раз осуществляют следующую процедуру. «Скользящее окно» сдвигают на K2 отсчетов, осуществляют расчет значений мощности для второго интервала, полученное значение сравнивают с запомненным значением мощности. Если разность данных значений мощностей превышает порог, то данный факт запоминается.

После завершения данной процедуры рассчитывается суммарное количество превышений значений мощности, полученное для второго интервала, запомненного значения мощности, полученное для первого интервала. Если это значение превышает заранее заданный порог, то процесс завершается.

Значение порога определяется на этапе разработки путем моделирования или экспериментальным путем.

Число осуществления данной процедуры определяется на этапе разработки путем моделирования или экспериментальным путем.

Рассчитывается время появления речевого сигнала как сумма значений первого момента превышения порога и половины значения временного интервала, входящего в «скользящее окно» (см. фиг. 1).

Ниже приведены результаты моделирования процесса разделения речи и пауз путем сравнительного анализа значений мощностей помехи и смеси сигнала и помехи.

Помеха при моделировании представлена в виде совокупности гармонических колебаний со случайными значениями амплитуд (Upi) и фаз (ϕpi), которые распределены по нормальному (амплитуды) и равномерному (фазы) законам (см., например, учебное пособие «Основы теории радиотехнических систем». Учебное пособие. // В.И. Борисов, В.М. Зинчук, А.Е. Лимарев, Н.П. Мухин. Под ред. В.И. Борисова. Воронежский научно-исследовательский институт связи, 2004., стр. 51)

где: ωpi - частота i-ой составляющей помехи;

ϕpi - фаза i-ой составляющей помехи;

Upi - амплитуда i-ой составляющей помехи;

Nsp - число гармонических составляющих помехи, используемых для ее представления (аппроксимации).

Частоты составляющих помехи моделировались как случайные величины, значения которых распределены по равномерному закону, в полосе сигнала.

Длительность гармонических составляющих помехи значительно (в несколько десятков раз) превышает значение периода, соответствующего минимальной частоте речевого сигнала.

Сигнал при моделировании представлен в виде совокупности гармонических колебаний со случайными значениями амплитуд (Usi) и фаз (ϕsi), которые распределены по нормальному (амплитуды) и равномерному (фазы) законам, причем начальные значения фаз для составляющих сигнала устанавливаются одинаковыми.

Результаты оценки эффективности предлагаемого способа получены методом математического моделирования на ЭВМ с использованием системы MATLAB.

При моделировании использовались следующие исходные данные:

- число реализаций - 103;

- число частотных составляющих сигнала - 8;

- число частотных составляющих помехи - 32;

- частота взятия отсчетов - 8000 отсч./с;

-число отсчетов, на которое сдвигается «скользящее окно» в случае, если, разность значений мощностей для второго и первого интервалов полученных значений мощностей не превышает порог (K1) - 1;

-число отсчетов, на которое сдвигается «скользящее окно» в случае, когда осуществляют расчет значений мощности для второго интервала, и полученное значение сравнивают с запомненным значением мощности для первого интервала (K2) - 1;

- число отсчетов, где присутствует смесь сигнала и помехи - 300;

- число отсчетов, где присутствует только помеха - 700;

- коэффициент подавления комбинационных составляющих - 0,9;

- число раз, которое осуществляется процедура сравнения рассчитанного значения мощности для второго интервала с запомненным значением мощности для первого интервала - 100;

- пороговое значение для рассчитанного суммарного количества превышений значений мощности для второго интервала запомненного значения мощности для первого интервала - 52.

В таблице представлены результаты моделирования процесса определения времени появления речевого сигнала:

- число правильного принятия решения о наличии речевого сигнала в зависимости от значения отношения мощностей помехи и сигнала и порогового значения мощности относительно запомненного значения мощности для первого интервала;

- точность измерения (ошибка) момента появления речевого сигнала.

В таблице использованы следующие обозначения:

Pp/Ps - отношение мощностей помехи и сигнала.

Nпрр - число правильного принятия решения о наличии речевого сигнала;

Rош - точность измерения (ошибка) момента появления речевого сигнала.

В таблице приведены значения порога в процентном отношении от значения мощности, рассчитанной для первого интервала.

Анализ данных, приведенных в таблице, позволяет сделать следующие выводы:

- для значений отношения мощностей помехи и сигнала не превышающих 2,5 и значения порога от 14 до 20% значение числа ошибочного принятия решения о наличии речевого сигнала не превышает 10-3, что обеспечивает значение правильного решения свыше 0,95 для временного интервала 4 секунды, при этом ошибка определения времени появления речевого сигнала не превышает ±1,2 мс;

- для значений отношения мощностей помехи и сигнала от 2,5 до 4 и значения порога 12% значение числа ошибочного принятия решения о наличии речевого сигнала не превышает 10-3, что обеспечивает значение правильного решения свыше 0,95 для временного интервала 4 секунды, при этом ошибка определения времени появления речевого сигнала не превышает ±0,7 мс.

Структурная схема устройства, реализующего предлагаемый способ, приведена на фиг. 2, где обозначено:

1 - электроакустическое устройство (ЭАУ);

2 - усилитель низкой частоты (УНЧ);

3 - устройство возведения в квадрат;

4 - фильтр нижних частот (ФНЧ);

5 - полосовой фильтр;

6 - первый аналого-цифровой преобразователь (АЦП);

7 - второй АЦП;

8 - вычислительное устройство (ВУ).

Устройство содержит последовательно соединенные ЭАУ 1, УНЧ 2, устройство возведения в квадрат 3, ФНЧ 4, первый АЦП 6, ВУ 8, выход которого является выходом заявляемого устройства. Кроме того, последовательно соединенные полосовой фильтр 5 и второй АЦП 7, выход которого подсоединен ко второму входу ВУ 8, выход устройства возведения в квадрат 3 соединен с входом полосового фильтра 5, вход ЭАУ 1 является входом устройства.

Устройство работает следующим образом.

Помеха или аддитивная смесь сигнала и помехи, поступающая с выхода ЭАУ 1, усиливается в УНЧ 2 и подается на вход устройства возведения в квадрат 3, где помеха или смесь сигнала и помехи возводятся в квадрат. Сигнал на выходе устройства возведения в квадрат 3 разветвляют на две одинаковые составляющие, одна из которых фильтруется ФНЧ 4, полоса которого согласована с полосой речевого сигнала, а вторая - полосовым фильтром 5. Верхняя частота полосового фильтра 5 соответствует верхней частоте сигнала. Нижняя частота полосового фильтра 5 выбирается минимально возможной и таким образом, чтобы значение коэффициента подавления комбинационных составляющих сигнала и помехи был не меньше заданного уровня. Значение коэффициента подавления определяется на этапе разработки путем моделирования или экспериментальным путем.

На выход ФНЧ 4 проходят сумма квадратов амплитуд сигнала, сумма квадратов амплитуд помехи, сумма комбинационных составляющих сигнала, помехи и комбинационных составляющих сигнала и помехи разностной частоты.

На выход полосового фильтра 5 проходят только комбинационные составляющие помехи, сигнала и помехи и сигнала разностной частоты.

Сигнал с выхода ФНЧ 4 подают на первый АЦП 6. Сигнал с выхода полосового фильтра 5 подают на второй АЦП 7. Отсчеты помехи или смеси сигнала и помехи после квадратичной обработки, образуемые в первом АЦП 6 и втором АЦП 7, в цифровом виде поступают на первый и второй входы ВУ 8 соответственно.

В вычислительном устройстве 8 поступившие отсчеты помехи или смеси сигнала и помехи обрабатываются по алгоритму, приведенному выше. Результат обработки - решение в цифровом виде о наличии или отсутствии речевого сигнала, например:

1 - сигнал присутствует;

0 - сигнал отсутствует.

На выход устройства поступает также значение времени появления речевого сигнала, в случае, когда принимается решение о наличии речевого сигнала.

Результаты моделирования процесса обнаружения появления речевого сигнала и обнаружения факта отсутствия речевого сигнала приведены выше, в соответствующей таблице.

В качестве ЭАУ 1 могут использоваться, например, микрофоны или ларингофоны.

Вычислительное устройство может быть выполнено в виде программируемой логической интегральной схемы (ПЛИС), и реализован, например, на микросхеме XC2V3000-6FG676I фирмы Xilinx.

АЦП 6, АЦП 7 могут быть реализованы, например, на микросхеме ADS8422 фирмы Texas Instruments.

УНЧ 3 может быть реализован, например, на микросхеме OP467GS фирмы Analog Devices.

Таким образом, заявляемый способ позволяет с высокой эффективностью (точностью) решить задачу разделения речи и пауз за счет проверки факта появления сигнала путем многократного сравнения значений мощностей помехи и смеси сигнала и помехи.

Способ разделения речи и пауз, заключающийся в том, что на всем интервале анализа, состоящего из интервала, который не содержит речевой сигнал, и интервала, который содержит смесь сигнала и помехи, сигнал (помеха или смесь сигнала и помехи), поступающий в систему, возводят в квадрат, отличающийся тем, что после возведения в квадрат сигнал разветвляют на две одинаковые составляющие, одну из них фильтруют фильтром нижних частот (ФНЧ), вторую составляющую фильтруют полосовым фильтром, сигналы с выходов фильтров дискретизируют и заносят в память для последующей обработки, формируют «скользящее окно», состоящее из двух интервалов одинаковой длительности (одинаковое количество отсчетов), мощность для каждого интервала рассчитывают как разность сумм отсчетов, взятых на выходах ФНЧ и полосового фильтра в течение длительности соответствующего интервала, после чего разность значений мощностей, полученных для второго и для первого интервалов сравнивают с заранее определенным порогом, если разность полученных значений мощностей не превышает порог, то «скользящее окно» сдвигают на некоторое, заранее определенное количество отсчетов (K1), описанную процедуру повторяют до тех пор, пока порог не будет превышен, этот момент считают моментом возможного появления сигнала, значение этого момента определяют как значение положения правой границы первого интервала, входящего в «скользящее окно», данное значение запоминают, после чего заданное число раз осуществляют следующую процедуру, «скользящее окно» сдвигают на некоторое, заранее определенное количество отсчетов (K2), осуществляют расчет значений мощности для второго интервала, полученное значение сравнивают со значением мощности для первого интервала, которое было запомнено в момент формирования гипотезы о появлении сигнала, после завершения данной процедуры рассчитывают суммарное количество превышений значением мощности, полученным для второго интервала, запомненного значения мощности, для первого интервала, если данное значение превышает заданный порог, то процесс завершают, рассчитывают время появления речевого сигнала как сумму значений запомненного момента превышения порога и половины одного временного интервала, входящего в «скользящее окно».



 

Похожие патенты:

Изобретение относится к кодированию аудио, более конкретно к анализу и согласованию характеристик входных сигналов для кодирования. Технический результат – повышение качества восстановленного аудиосигнала.

Изобретение относится к средствам для расширения диапазона частот при декодировании аудиосигналов. Технический результат заключается в повышении эффективности расширения диапазона частот без дополнительной информации из кодера.

Изобретение относится к средствам для кодирования сигналов. Технический результат заключается в повышении эффективности классификации между кодированием во временной области и кодированием в частотной области.

Изобретение относится к области обработки аудиосигналов. Технический результат – обеспечение эффективной оценки шума в аудиосигнале.

Изобретение относится к средствам для обработки потери кадра. Технический результат заключается в повышении качества восстановленного после потери кадра аудиосигнала.

Изобретение относится к области техники обработки сигналов и предназначено для обнаружения звукового сигнала. Технический результат – обеспечение возможности точного различия активной речи и неактивной речи.

Изобретение относится к декодированию звукового сигнала. Технический результат – обеспечение улучшенных концепций для систем кодирования звука.

Изобретение относится к средствам для оценивания фонового шума в аудиосигнале. Технический результат заключается в повышении точности оценивания, содержит ли аудиосигнал активную речь или музыку или нет.

Изобретение относится к средствам для формирования расширенного сигнала с использованием заполнения независимым шумом. Технический результат заключается в повышении качества кодированного аудиосигнала.

Изобретение относится к области обработки аудиосигналов. Технический результат заключается в повышении эффективности обработки аудиосигналов.
Наверх