Способ разделения речи и пауз по значениям дисперсий амплитуд спектральных составляющих

Авторы патента:

Белогуров Владимир Александрович (RU)

G10L25/78 - Анализирование или синтезирование речи; распознавание речи (ввод/вывод звука для компьютеров G06F 3/16; способы или устройства для обработки цифровых данных, специально предназначенных для манипулирования данными на естественном языке G06F 17/20; обучение или общение со слепыми, глухими или немыми G09B 21/00; телефонная связь H04M)

G10L21/0272 - Обработка сигналов речи для получения иного слышимого или неслышимого сигнала, например визуального, осязаемого, для того, чтобы модифицировать их качество или их разборчивость (G10L 19/00 имеет преимущество)

G10L19/022 - Техника анализа-синтеза речи для уменьшения избыточности, например в вокодерах ; кодирование или декодирование речи

G10L15/20 - техника распознавания речи, специально предназначенная для крайне неблагоприятных условий окружения, например в шуме, при речи, вызванной стрессом (G10L 21/02 имеет преимущество)

Владельцы патента RU 2723301:

Акционерное общество "Концерн "Созвездие" (RU)

Изобретение относится к области техники передачи и трансляции речевой информации и может найти применение в устройствах связи. Техническим результатом является повышение эффективности принятия правильного решения о появлении речевого сигнала при наличии акустического шума. Это достигается тем, что проводят спектральный анализ шума или аддитивной смеси речевого сигнала и шума для «скользящего окна», разбитого на два интервала анализа, каждый из которых состоит из нескольких интервалов одинаковой длительности. Спектральный анализ проводят методом анализа многочастотных периодических сигналов, представленных цифровыми отсчетами, с использованием компенсации комбинационных составляющих. Находят дисперсию значений мощностей для интервалов анализа для каждой гармоники, рассчитывают среднее значение дисперсий мощностей первого и второго интервалов анализа. Значение разности средних значений дисперсий мощностей сравнивают с порогом. Считают, что во втором интервале анализа присутствует только помеха, если значение разности средних значений дисперсий мощностей не превышает порог, в противном случае считают, что во втором интервале анализа присутствует сигнал или смесь сигнала и помехи. Сдвигают «скользящее окно» на заданное число интервалов. Описанную процедуру повторяют. При использовании способа при значениях отношения мощностей сигнала и помехи, близких к 1, обеспечивается значение вероятности правильного решения о появлении речевого сигнала, близкой к 0,998, при этом вероятность ложной тревоги, т.е. принятия решения о появлении речевого сигнала при его отсутствии, равна 0,05. 4 ил.

Изобретение относится к области цифровой обработки речевых сигналов и может найти применение в устройствах связи.

Известен способ спектрального анализа электрических сигналов (патент РФ №2431853), в котором анализируемый электрический сигнал подают одновременно на гребенку фильтров, настроенных на различные частоты и измеряют сигналы на выходах этих фильтров, причем до проведения измерений диапазон контролируемых частот разбивают на элементы разрешения с шагом дискретизации, соответствующим желаемым точности и разрешению спектрального анализа. Недостатком данного способа является сложность технической реализации и недостаточно высокая эффективность подавления внешних акустических помех, при использовании данного способа для осуществления спектрального анализа.

Известен способ спектрального анализа сигналов (патент РФ №2127888), в котором при дискретизации и квантовании сигнала создают последовательности дискретных значений сигнала с различными частотами следования отсчетов в каждой из них. При этом дискретные значения этих последовательностей фильтруют с помощью цифровых полосовых фильтров и цифровых фильтров нижних частот. Сигналы с выходов цифровых полосовых фильтров подвергают обработке, связанной с определением амплитудных значений, а на их основе и остальных информативных параметров полосовых сигналов. Недостатком данного способа является то, что способ предназначен для проведения спектрального анализа сигналов с постоянной относительной разрешающей способностью по частоте, а также большая вычислительная сложность и, соответственно, трудность технической реализации в устройствах цифровой обработки речевых сигналов.

Известен способ спектрального анализа многочастотных периодических сигналов, представленных цифровыми отсчетами (Функциональный контроль и диагностика электротехнических систем и устройств по цифровым отсчетам мгновенных значений тока и напряжения. /под редакцией Е.И. Гольдштейна - Томск: Изд. «Печатная мануфактура», 2003, с.92-94), недостатком которого является невозможность определения сигналом или помехой являются выделенные гармонические составляющие, а также большое время анализа.

Известно устройство для выделения акустических сигналов в каналах связи, описанное в патенте RU 2171549, H04Q 1/46, недостатком которого является недостаточно высокая эффективность подавления внешних акустических помех.

Известно устройство для выделения тональных сигналов в каналах связи по патенту RU 2214051, H04B 3/46, H04Q 1/457, H04M 1/50. Изобретение относится к области электросвязи, в частности к автоматическим средствам приема сигналов канальной сигнализации в системах многоканальной связи, и может использоваться для обнаружения акустических сигналов в телефонных каналах. Известное техническое решение обладает недостаточно высокой эффективностью при решении задачи разделения речи и пауз в условиях наличия акустических помех.

Известен способ разделения речи и пауз путем анализа значений фаз частотных составляющих шума и сигнала по патенту RU 2680735 G10L 21/0272, недостатком которого является недостаточно высокая эффективность при решении задачи разделения речи и пауз в условиях наличия акустических помех с большим числом составляющих.

Известен способ разделения речи и пауз путем анализа значений корреляционной функции помехи и смеси сигнала и помехи по патенту RU 2691603 G10L 15/00. Известное техническое решение обладает недостаточно высокой эффективностью при решении задачи разделения речи и пауз в условиях априорной неопределенности информации о присутствии в интервале анализа только помехи или смеси помехи и сигнала.

Известен способ разделения речи и пауз, описанный в книге «Цифровая обработка речевых сигналов. //Л.Р. Рабинер, Р.В. Шафер. Перевод с английского под редакцией М.В. Назарова и Ю.Н. Прохорова. Москва, «Радио и связь», 1981», стр. 123 - 126. Недостатком данного способа являются недостаточно высокая точность решения задачи определения момента появления речевого сигнала и высокая вероятность ошибочного решения о появлении сигнала в условиях наличия акустического шум.

Наиболее близким аналогом по технической сущности к предлагаемому является способ разделения речи и пауз путем сравнительного анализа значений мощностей помехи и смеси сигнала и помехи по патенту RU 2668407 G10L 25/93.

Способ-прототип заключается в следующем.

На всем интервале анализа, состоящего из интервала, который не содержит речевой сигнал, и интервала, который содержит смесь сигнала и помехи, сигнал (помеха или смесь сигнала и помехи), поступающий в систему, возводят в квадрат, после возведения в квадрат сигнал разветвляют на две одинаковые составляющие, одну из них фильтруют фильтром нижних частот (ФНЧ), вторую составляющую фильтруют полосовым фильтром, сигналы с выходов фильтров дискретизируют и заносят в память для последующей обработки, формируют «скользящее окно», состоящее из двух интервалов одинаковой длительности (одинаковое количество отсчетов). Мощность для каждого интервала рассчитывают как разность сумм отсчетов, взятых на выходах ФНЧ и полосового фильтра в течение длительности соответствующего интервала, после чего разность значений мощностей, полученных для второго и для первого интервалов сравнивают с заранее определенным порогом, если разность полученных значений мощностей не превышает порог, то «скользящее окно» сдвигают на некоторое, заранее определенное количество отсчетов (K₁), описанную процедуру повторяют до тех пор, пока порог не будет превышен, этот момент считают моментом возможного появления сигнала, значение этого момента определяют как значение положения правой границы первого интервала, входящего в «скользящее окно», данное значение запоминают, после чего заданное число раз осуществляют следующую процедуру, «скользящее окно» сдвигают на некоторое, заранее определенное количество отсчетов (K₂), осуществляют расчет значений мощности для второго интервала, полученное значение сравнивают со значением мощности для первого интервала, которое было запомнено в момент формирования гипотезы о появлении сигнала. После завершения данной процедуры рассчитывают суммарное количество превышений значением мощности, полученным для второго интервала запомненного значения мощности, для первого интервала, если данное значение превышает заданный порог, то процесс завершают, рассчитывают время появления речевого сигнала как сумму значений запомненного момента превышения порога и половины одного временного интервала, входящего в «скользящее окно».

Недостатком способа-прототипа является его недостаточно высокая эффективность при решении задачи разделения речи и пауз в условиях априорной неопределенности информации о присутствии в интервале анализа только помехи или только речевого сигнала или смеси помехи и речевого сигнала.

Задачей предлагаемого способа является повышение эффективности принятия правильного решения о появлении речевого сигнала при наличии акустического шума в условиях неопределенности информации о присутствии в интервале анализа только помехи или только речевого сигнала или смеси помехи и речевого сигнала.

Для решения поставленной задачи в способе разделения речи и пауз по значениям дисперсий амплитуд спектральных составляющих, который заключается в том, что на всем интервале анализа, состоящего из интервала, который содержит шум или речевой сигнал или смесь речевого сигнала и шума, которые поступают в устройство (входной сигнал), сигнал разветвляют на две одинаковые составляющие, одну из них фильтруют фильтром нижних частот (ФНЧ), вторую составляющую фильтруют полосовым фильтром, сигналы, поступившие на выходы фильтров дискретизируют и заносят в память для последующей обработки, формируют «скользящее окно», состоящее из интервалов одинаковой длительности, «скользящее окно» сдвигают на некоторое, заранее определенное количество отсчетов, согласно изобретению, «скользящее окно» формируют так, что оно включает в себя два интервала анализа, каждый из которых состоит из нескольких интервалов одинаковой длительности, первое положение «скользящего окна» устанавливают так, что в первом интервале анализа присутствует только помеха, осуществляют спектральный анализ входного сигнала для каждого интервала следующим образом, каждый результат преобразования входного сигнала, который образуется после умножения входного сигнала на синус и косинус опорных частот, разветвляют на две одинаковые составляющие, первую составляющую фильтруют фильтром нижних частот (ФНЧ), полоса которого согласована с полосой анализируемого сигнала, одновременно вторую составляющую фильтруют полосовым фильтром, полоса пропускания которого выбирается так, что верхняя частота полосового фильтра соответствует верхней частоте анализируемого сигнала, нижнюю частоту полосового фильтра устанавливают равной некоторому заранее заданному значению, выбор ФНЧ и полосового фильтра осуществляют с идентичными в максимальной степени фазо-частотными характеристиками и так, что амплитудно-частотная характеристика (АЧХ) полосового фильтра в области частот близких к нулю имеет максимально-возможную крутизну, в области частот, начиная со значения, для которого разность значений АЧХ ФНЧ и полосового фильтра становится меньше некоторой заранее заданной величины, обеспечивают идентичность их АЧХ в максимальной степени, сигналы, прошедшие ФНЧ и полосовой фильтр, вычитают один из другого, результаты вычитания преобразуют в цифровой вид, по данным значениям, соответствующим синусной и косинусной составляющей одной частоты, определяют мгновенную спектральную плотность (МСП) для каждой опорной частоты и запоминают эти значения пропорциональные амплитуде сигналов, находят среднее значение МСП, определяют значение порога путем умножения найденного среднего значения МСП на коэффициент, значение которого устанавливают заранее, полученные значения МСП сравнивают с порогом, по результатам сравнения принимают решение о наличии или об отсутствии сигнала с соответствующей частотой, находят значения мощности каждого выделенного сигнала путем возведения в квадрат соответствующих значений МСП, находят для каждой гармоники дисперсию значений мощностей для первого и второго интервалов анализа, рассчитывают среднее значение дисперсий мощностей первого и второго интервалов, усреднение осуществляют по числу гармоник, определяют пороговое значение путем умножения среднего значения дисперсии значений мощностей первого интервала анализа, принадлежащего «скользящему окну», на коэффициент, значение которого определяют заранее, находят значение разности средних значений дисперсий мощностей, рассчитанных для первого и второго интервалов анализа, данное значение разности сравнивают с порогом, считают, что во втором интервале анализа присутствует только помеха, если значение разности среднее значение дисперсий значений мощностей не превышает порог, в противном случае считают, что во втором интервале анализа присутствует сигнал или смесь сигнала и помехи, сдвигают «скользящее окно» на заданное значение интервалов, описанную процедуру повторяют, для последующих шагов пороговое значение для разности средних значений дисперсии значений мощностей интервалов анализа определяют с использованием среднего значения средних значений дисперсии мощностей интервалов анализа, которое рассчитывают, применяя принцип «первый пришел, первый ушел», процесс продолжают до тех пор, пока не закончится время, отведенное для анализа входного сигнала.

Предлагаемый способ заключается в следующем.

«Скользящее окно» формируют так, что каждый из двух интервалов анализа, которые его образуют, состоит из нескольких интервалов одинаковой длительности (иллюстративный пример приведен на фиг. 2, 3).

Первое положение «скользящего окна» устанавливают так, что в первом интервале анализа присутствует только помеха.

Осуществляют спектральный анализ входного сигнала для каждого интервала следующим образом.

Каждый результат преобразования входного сигнала, который образуется после умножения входного сигнала на синус и косинус опорных частот, разветвляют на две одинаковые составляющие.

Первую составляющую фильтруют фильтром нижних частот (ФНЧ), полоса которого согласована с полосой анализируемого сигнала. Одновременно вторую составляющую фильтруют полосовым фильтром, полоса пропускания которого выбирается так, что верхняя частота полосового фильтра соответствует верхней частоте анализируемого сигнала, нижнюю частоту полосового фильтра устанавливают равной некоторому заранее заданному значению. Выбор ФНЧ и полосового фильтра осуществляют с идентичными в максимальной степени фазо-частотными характеристиками и так, что амплитудно-частотная характеристика (АЧХ) полосового фильтра в области частот близких к нулю имеет максимально возможную крутизну в области частот, начиная со значения, для которого разность значений АЧХ ФНЧ и полосового фильтра становится меньше некоторой заранее заданной величины, обеспечивают идентичность их АЧХ в максимальной степени (иллюстративный пример приведен на фиг. 1).

Сигналы, прошедшие ФНЧ и полосовой фильтр, преобразованные в цифровой вид, вычитают один из другого, по данным значениям, соответствующим синусной и косинусной составляющей одной частоты, определяют значения мгновенной спектральной плотности (МСП) пропорциональные амплитуде сигналов для каждой опорной частоты по выражениям (см., например, «Функциональный контроль и диагностика электротехнических систем и устройств по цифровым отсчетам мгновенных значений тока и напряжения. /под редакцией Е.И. Гольдштейна - Томск: Изд. «Печатная мануфактура», 2003», с.92-94):

S(ω_j)= ; (1)

;

, (2)

где S₁(ω_j) и S₂(ω_j) – синусная и косинусная составляющие МСП;

a(t_i) – отсчеты мгновенных значений в моменты времени t₁, t₂, …, t_j, …, t_N;

t₂-t₁=t₃-t₂=t_N-t_N-1=…=Δt;

Δt=Т/N,

где Δt - шаг дискретизации;

N - количество точек за время T,

ω₁, ω₂, …, ω_j, …, ω_n – опорные частоты.

Находят среднее значение МСП, определяют значение порога путем умножения найденного среднего значения МСП на коэффициент, значение которого устанавливают заранее. Значение данного коэффициента определяется путем математического моделирования или экспериментальным путем. Полученные значения МСП сравнивают с порогом, по результатам сравнения принимают решение о наличии или об отсутствии сигнала с соответствующей частотой.

Находят значения мощности каждого выделенного сигнала путем возведения в квадрат соответствующих значений МСП.

Рассчитывают известным способом дисперсию значений мощностей для первого и второго интервалов анализа для каждой гармоники, и среднее значение дисперсий мощностей первого и второго интервалов, усреднение осуществляют по числу гармоник.

Определяют пороговое значение путем умножения среднего значения дисперсии значений мощностей гармоник первого интервала анализа, принадлежащего «скользящему окну», на коэффициент, значение которого определяют заранее. Значение данного коэффициента определяется путем математического моделирования или экспериментальным путем.

Находят значение разности средних значений дисперсий мощностей гармоник, рассчитанных для первого и второго интервалов анализа.

Данное значение разности сравнивают с порогом. Если значение разности средних значений дисперсий значений мощностей не превышает порог, то считают, что во втором интервале анализа присутствует только помеха, в противном случае считают, что во втором интервале анализа присутствует сигнал или смесь сигнала и помехи.

Сдвигают «скользящее окно» на заданное значение интервалов, описанную процедуру повторяют.

Для последующих шагов пороговое значение для разности средних значений дисперсии значений мощностей гармоник определяют с использованием среднего значения средних значений дисперсии мощностей гармоник, которое рассчитывают, применяя принцип «первый пришел, первый ушел» (см., например, Роберт Круз. «Структуры данных и проектирования программ». – Бином. Лаборатория знаний. 2008). То есть из списка усредненных средних значений дисперсии мощностей гармоник (ДМГ), вычеркивают первое значение и добавляют последнее рассчитанное значение. После чего значения ДМГ перенумеровывают, а именно, значению со вторым номером присваивают номер один, значению с третьим номером присваивают номер два, и т.д., последнему рассчитанному значению присваивают последний номер.

Количество средних значений дисперсии мощностей, используемое при расчете их средних значений с использованием принципа «первый пришел, первый ушел», определяют путем математического моделирования или экспериментальным путем.

Процесс продолжают до тех пор, пока не закончится время, отведенное для анализа входного сигнала.

Ниже приведены результаты моделирования процесса определения вероятности правильного решения о появлении речевого сигнала при использовании предлагаемого способа.

Сумма гармонических сигналов при моделировании представлена в виде совокупности гармонических колебаний со случайными значениями амплитуд (U_si) и фаз (ϕ_si), которые распределены по нормальному (амплитуды) и равномерному (фазы) законам, соответственно

U=, (3)

где: ω_si φ_si – частота, фаза, амплитуда i-го гармонического сигнала;

Ns – число гармонических сигналов.

При моделировании:

– частоты гармоник помехи и сигнала формировались как случайные величины, значения которых распределены по равномерному закону в полосе сигнала;

– фазы гармоник помехи и сигнал представлены как случайные величины, значения которых распределены по равномерному закону;

– амплитуды сигналов представлены как случайные величины, распределенные по равномерному закону в диапазоне от 1 до 2;

– амплитуды гармоник помехи представлены как случайные величины, значения которых распределены по нормальному закону.

Моделирование проведено для следующих значений параметров

– диапазон изменения частот речевого сигнала: 300 Гц – 3400 Гц;

– число реализаций – 300;

– число гармоник сигнала – 8;

– число гармоник помехи – 20;

– число временных шагов – 50;

– число интервалов, на которые осуществлялся сдвиг «скользящего окна» – 3;

– число опорных частот – 39;

– коэффициент, определяющий частоту дискретизации – 9000;

– значение первой опорной частоты – 300 Гц;

– коэффициент, определяющий шаг изменения опорной частоты составляет 1,05 для частот, значения которых не превышают 1000 Гц, и составляет 1,1 для частот, значения которых превышают 1000 Гц;

– значение порога для амплитуды гармоник – 0,1;

– значение полосы частот полосового фильтра с максимальной крутизной АЧХ – 200 Гц.

Результаты моделирования процесса разделения речи и пауз приведены в таблице.

Наименование параметра	Отношение мощностей сигнала и помехи
4	2	1	0,5	0,3
Число интервалов, образующих интервал анализа			2
Значение вероятности правильного решения о появлении речевого сигнала	0,7	0,51	0,42	0,4	0,35
Значение вероятности ложной тревоги	0,1	0,1	0,1	0,1	0,1
Число интервалов, образующих интервал анализа			3
Значение вероятности правильного решения о появлении речевого сигнала	1	1	0,998	0,987	0,94
Значение вероятности ложной тревоги	0,05	0,05	0,05	0,05	0,05

На основе результатов анализа данных, приведенных в таблице, установлено, что при значениях отношения мощностей сигнала и помехи близких к 1 вероятность правильного решения о появлении речевого сигнала близка к 0,999 при этом значение вероятности ложной тревоги (принятие решения о появлении речевого сигнала при его отсутствии) равна 0,05.

Структурная схема устройства, реализующего предлагаемый способ, приведена на фиг. 4, где обозначено:

1 – электроакустическое устройство (ЭАУ);

2 – усилитель низкой частоты (УНЧ);

3.1 – 3.n – блоки умножения с первого по n-й;

4.1 – 4.n – фильтры нижних частот (ФНЧ) с первого по n-й;

5.1 – 5.n – устройства вычитания с первого по n-й;

6.1 – 6.n – аналого-цифровые преобразователи (АЦП) с первого по n-й;

7.1 – 7.n – полосовые фильтры с первого по n-й;

8 – вычислительное устройство (ВУ).

Устройство содержит последовательно соединенные ЭАУ 1 и УНЧ 2, вход ЭАУ 1 является входом устройства. Кроме того – n параллельных линеек, каждая из которых состоит из соответствующих последовательно соединенных блока умножения 3, ФНЧ 4, устройства вычитания 5 и АЦП 6, при этом полосовой фильтр 7 включен между выходом блока умножения 3 и вторым входом устройства вычитания 5. Входы n блоков умножения 3.1 – 3.n объединены и соединены с выходом УНЧ 2. Выходы с первого по n-й АЦП 6.1 – 6.n соединены с соответствующими входами с первого по n-й вычислительного устройства 8, выход которого является выходом устройства. Вторые входы блоков умножения 3.1 – 3.n являются входами для опорных сигналов.

Устройство работает следующим образом.

Шум или аддитивную смесь сигнала и шума, которые поступают с выхода ЭАУ 1, усиливают в УНЧ 2 и подают на вход n параллельных линеек.

Для обработки одной поднесущей используют две линейки устройства. То есть, если используют k поднесущих, то число линеек равно

n =2*k.

Помеху или аддитивную смесь сигнала и помехи с выхода УНЧ 2 подают на первые входы блоков умножения 3.1-3.n, на вторые входы которых подают соответствующие опорные сигналы, например,

U_оп1=sin(x);

U_оп2=cos(x).

….

U_оп(n-1)=sin(x);

U_опn=cos(x).

Результат умножения сигнала и помехи на опорные сигналы разветвляют на две одинаковые составляющие. Первую составляющую фильтруют ФНЧ 4.1 – 4.n, полоса каждого из которых согласована с полосой сигнала. Одновременно вторую составляющую фильтруют полосовыми фильтрами 7.1 – 7.n, полоса пропускания каждого из которых выбирается так, что верхняя частота полосовых фильтров 7.1 – 7.n соответствует верхней частоте сигнала, нижнюю частоту полосовых фильтров 7.1 – 7.n устанавливают согласованно со значениями разности между соседними опорными частотами.

Значение нижней частоты полосовых фильтров 7.1 – 7.n определяют на этапе разработки экспериментальным путем или методом математического моделирования как значение, обеспечивающее максимальную эффективность спектрального анализа.

Выбор ФНЧ 4.1 – 4.n и полосовых фильтров 7.1 – 7.n осуществляют с идентичными в максимальной степени фазо-частотными характеристиками и так, что АЧХ полосовых фильтров 7.1 – 7.n в области частот близких к нулю имеет максимально-возможную крутизну, в области частот, начиная со значения, для которого разность значений АЧХ ФНЧ 4.1 – 4.n и полосовых фильтров 7.1 – 7.n становится меньше некоторой заранее заданной величины (F_р), обеспечивают идентичность их АЧХ в максимальной степени (иллюстративный пример приведен на фиг. 1).

Сигналы, прошедшие ФНЧ 4.1 – 4.n и полосовые фильтры 7.1 – 7.n, вычитают один из другого. То есть, из сигнала первого ФНЧ 4.1 вычитают сигнал первого полосового фильтра 7.1, из сигнала второго ФНЧ 4.2 вычитают сигнал второго полосового фильтра 7.2 и т.д.

Полученные сигналы преобразуют в цифровой вид в соответствующих с первого по n-й АЦП 6.1 – 6.n. Данные сигналы в цифровом виде подают в ВУ 8.

В ВУ 8 по данным значениям, соответствующим синусной и косинусной составляющей одной частоты, определяют мгновенную спектральную плотность (МСП) по ф. 1 и ф. 2 для каждой опорной частоты и запоминают эти значения, пропорциональные амплитуде сигналов.

Из полученных значений находят МСП с максимальным значением. Определяют значение порога путем умножения найденного максимального значения МСП на коэффициент, значение которого устанавливают заранее.

Полученные значения МСП сравнивают с рассчитанным значением порога. По результатам сравнения принимают решение о наличии или об отсутствии сигнала с соответствующей частотой.

Рассчитывают известным способом дисперсию значений мощностей для первого и второго интервалов анализа для каждой гармоники, и среднее значение дисперсий мощностей первого и второго интервалов, причем усреднение осуществляют по числу гармоник.

Определяют пороговое значение путем умножения среднего значения дисперсии значений мощностей первого интервала анализа, принадлежащего «скользящему окну», на коэффициент, значение которого определяют заранее. Значение данного коэффициента определяется путем математического моделирования или экспериментальным путем.

Рассчитывают значение разности средних значений дисперсий мощностей, рассчитанных для первого и второго интервалов анализа.

Данное значение разности сравнивают с порогом. Считают, что во втором интервале анализа присутствует только помеха, если значение разности среднее значение дисперсий значений мощностей не превышает порог, в противном случае считают, что во втором интервале анализа присутствует сигнал или смесь сигнала и помехи.

Сдвигают «скользящее окно» на заданное значение интервалов, описанную процедуру повторяют.

Для последующих шагов пороговое значение для разности средних значений дисперсии значений мощностей интервалов анализа определяют с использованием среднего значения средних значений дисперсии мощностей интервалов анализа, которое рассчитывают, применяя принцип «первый пришел, первый ушел».

Процесс продолжают до тех пор, пока не закончится время, отведенное для анализа входного сигнала.

Результаты моделирования процесса спектрального анализа приведены выше.

В качестве ЭАУ 1 могут использоваться, например, микрофоны или ларингофоны.

УНЧ 2 может быть реализован, например, на микросхеме OP467GS фирмы Analog Devices.

Блоки умножения 3.1 – 3.n могут быть выполнены, например, в виде преобразователя частоты (смесителя), см., например, учебное пособие «Основы теории радиотехнических систем». Учебное пособие.//В.И. Борисов, В.М. Зинчук, А.Е. Лимарев, Н.П. Мухин. Под ред. В.И. Борисова. Воронежский научно-исследовательский институт связи, 2004», стр. 186 – 189.

АЦП 6.1 – 6.n могут быть выполнены, например, на микросхеме AD7495BR фирмы Analog Devices.

Вычислительное устройство может быть выполнено, например, в виде единого микропроцессорного устройства с соответствующим программным обеспечением, например процессора серии TMS320VC5416 фирмы Texas Instruments, или в виде программируемой логической интегральной схемы (ПЛИС), с соответствующим программным обеспечением, например ПЛИС XCV400 фирмы Xilinx.

Таким образом, заявляемый способ может быть реализован описанным устройством.

Способ разделения речи и пауз по значениям дисперсий амплитуд спектральных составляющих, заключающийся в том, что на всем интервале анализа, состоящего из интервала, который содержит шум или речевой сигнал, или смесь речевого сигнала и шума, которые поступают в устройство цифровой обработки речевых сигналов (входной сигнал), сигнал разветвляют на две одинаковые составляющие, одну из них фильтруют фильтром нижних частот (ФНЧ), вторую составляющую фильтруют полосовым фильтром, сигналы, поступившие на выходы фильтров, дискретизируют и заносят в память для последующей обработки, формируют «скользящее окно», состоящее из интервалов одинаковой длительности, «скользящее окно» сдвигают на некоторое заранее определенное количество отсчетов, отличающийся тем, что «скользящее окно» формируют так, что оно включает в себя два интервала анализа, каждый из которых состоит из нескольких интервалов одинаковой длительности, первое положение «скользящего окна» устанавливают так, что в первом интервале анализа присутствует только помеха, осуществляют спектральный анализ входного сигнала для каждого интервала следующим образом, каждый результат преобразования входного сигнала, который образуется после умножения входного сигнала на синус и косинус опорных частот, разветвляют на две одинаковые составляющие, первую составляющую фильтруют фильтром нижних частот (ФНЧ), полоса которого согласована с полосой анализируемого сигнала, одновременно вторую составляющую фильтруют полосовым фильтром, полоса пропускания которого выбирается так, что верхняя частота полосового фильтра соответствует верхней частоте анализируемого сигнала, нижнюю частоту полосового фильтра устанавливают равной некоторому заранее заданному значению, выбор ФНЧ и полосового фильтра осуществляют с идентичными в максимальной степени фазочастотными характеристиками и так, что амплитудно-частотная характеристика (АЧХ) полосового фильтра в области частот, близких к нулю, имеет максимально возможную крутизну, в области частот, начиная со значения, для которого разность значений АЧХ ФНЧ и полосового фильтра становится меньше некоторой заранее заданной величины, обеспечивают идентичность их АЧХ в максимальной степени, сигналы, прошедшие ФНЧ и полосовой фильтр, вычитают один из другого, результаты вычитания преобразуют в цифровой вид, по данным значениям, соответствующим синусной и косинусной составляющей одной частоты, определяют мгновенную спектральную плотность (МСП) для каждой опорной частоты и запоминают эти значения, пропорциональные амплитуде сигналов, находят среднее значение МСП, определяют значение порога путем умножения найденного среднего значения МСП на коэффициент, значение которого устанавливают заранее, полученные значения МСП сравнивают с порогом, по результатам сравнения принимают решение о наличии или об отсутствии сигнала с соответствующей частотой, находят значения мощности каждого выделенного сигнала путем возведения в квадрат соответствующих значений МСП, находят дисперсию значений мощностей для первого и второго интервалов анализа для каждой гармоники, рассчитывают среднее значение дисперсий мощностей первого и второго интервалов, усреднение осуществляют по числу гармоник, определяют пороговое значение путем умножения среднего значения дисперсии значений мощностей первого интервала анализа, принадлежащего «скользящему окну», на коэффициент, значение которого определяют заранее, находят значение разности средних значений дисперсий мощностей, рассчитанных для первого и второго интервалов анализа, данное значение разности сравнивают с порогом, если значение разности средних значений дисперсий мощностей не превышает порог, то считают, что во втором интервале анализа присутствует только помеха, в противном случае считают, что во втором интервале анализа присутствует сигнал или смесь сигнала и помехи, сдвигают «скользящее окно» на заданное значение интервалов, описанную процедуру повторяют для последующих шагов, пороговое значение для разности средних значений дисперсии значений мощностей интервалов анализа определяют с использованием усредненного значения средних значений дисперсии мощностей интервалов анализа, которое рассчитывают, применяя принцип «первый пришел, первый ушел», процесс продолжают до тех пор, пока не закончится время, отведенное для анализа входного сигнала.

Изобретение относится к средствам для распознавания эмоций в речи. Технический результат заключается в повышении точности распознавания эмоций.

Способ оценки фонового шума, блок оценки фонового шума и машиночитаемый носитель // 2720357

Изобретение относится к средствам для оценки фонового шума. Технический результат заключается в повышении точности детектирования в аудиосигнале речи или музыки.

Устройство и способ для определения предварительно определенной характеристики, относящейся к обработке искусственного ограничения частотной полосы аудиосигнала // 2719543

Изобретение относится к средствам для определения характеристики, относящейся к искусственному ограничению частотной полосы аудиосигнала. Технический результат заключается в обеспечении обнаружения факта обработки аудиосигнала, которая могла внести артефакты в аудиосигнал, а также сокращение таких артефактов.

Способ для кодирования многоканального сигнала и кодер // 2718231

Изобретение относится к средствам для кодирования многоканального сигнала. Технический результат заключается в повышении эффективности кодирования многоканального сигнала.

Способ и система транспортного средства для осуществления скрытного вызова оператора аварийно-спасательных служб (варианты) // 2714805

Группа изобретений относится к системе транспортного средства для осуществления скрытного вызова оператора аварийно-спасательных служб. Система транспортного средства содержит микрофон, анализатор речи и устройство обработки.

Способ оценки, программа оценки, устройство оценки и система оценки // 2714663

Группа изобретений относится к медицине, а именно к оценке состояния здоровья субъекта исследования. Предложены система и устройство, содержащие машиночитаемый носитель, для реализации способа, содержащий этапы, на которых: вычисляют, из характеристических величин, полученных из звуковых данных, издаваемых субъектом, одну характеристическую величину, не имеющую отношения к другим характеристическим величинам, и характеристическую величину, имеющую абсолютное значение корреляции с другими характеристическими величинами, меньшее заданного значения; и оценивают психосоматическое состояние субъекта, основываясь на вычисленной характеристической величине.

Устройство и способ обработки информации // 2714611

Изобретение относится к средствам голосового управления операцией вождения транспортного средства. Техническим результатом является обеспечение возможности устройства обработки информации, управляющего операцией вождения транспортного средства на основе высказывания пассажира, которому разрешается выполнять операцию вождения транспортного средства, быть мобильным.

Устройство преобразования коэффициентов линейного предсказания и способ преобразования коэффициентов линейного предсказания // 2714390

Изобретение относится к средствам для преобразования коэффициентов линейного предсказания. Технический результат заключается в повышении эффективности оценивания фильтра синтеза линейного предсказания после преобразования внутренней частоты дискретизации.

Оценивание фонового шума в аудиосигналах // 2713852

Изобретение относится к средствам для оценивания фонового шума в аудиосигнале. Технический результат заключается в повышении точности оценивания, содержит ли аудиосигнал активную речь или музыку.

Устройство и способ оценивания межканальной разницы во времени // 2711513

Изобретение относится к средствам для оценивания межканальной разницы во времени. Технический результат заключается в повышении точности определения межканальной разницы во времени.

Устройство обработки информации, способ обработки информации и программа // 2721750

Изобретение относится к средствам обработки информации. Технический результат заключается в уменьшении искажений при перемещении аудиообъектов.