Способ оценки частоты основного тона речевого сигнала

Авторы патента:

Иванов Иван Иванович (RU)

Голубинский Андрей Николаевич (RU)

Гущина Анастасия Александровна (RU)

Николаенков Юрий Кимович (RU)

Булгаков Олег Митрофанович (RU)

G10L21/013 - Обработка сигналов речи для получения иного слышимого или неслышимого сигнала, например визуального, осязаемого, для того, чтобы модифицировать их качество или их разборчивость (G10L 19/00 имеет преимущество)

G10L15/00 - Распознавание речи (G10L 17/00 имеет преимущество)

Владельцы патента RU 2546311:

Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования "Воронежский государственный университет" (ФГБУ ВПО "ВГУ") (RU)

Изобретение относится к системам анализа речи, может быть использовано в средствах для распознавания и синтеза речи. Техническим результатом является повышение точности оценки частоты основного тона речевого сигнала. Способ основан на формировании логарифма функционала отношения правдоподобия (ЛФОП) при использовании входного речевого сигнала, нахождении абсолютного максимума ЛФОП, вычислении аргумента абсолютного максимума ЛФОП. 1 ил.

Изобретение относится к системам анализа речи и может быть использовано для вычисления частоты основного тона речевого сигнала (ЧОТРС), применительно к задачам верификации и идентификации диктора по голосу, синтеза речи, определения эмоционального состояния говорящего, распознавания речи.

Известен способ оценки ЧОТРС (Патент №2403626 РФ, МПК G10L 11/04, 2010), заключающийся в записи речевого сигнала и вычислении его автокорреляционной функции (АКФ) с последующим расчетом ЧОТРС на основе локального интервала между соседними глобальными (соответствующими периоду основного тона) максимумами или минимумами автокорреляционного колебания. При этом исключаются отсчеты АКФ, соответствующие малым уровням флуктуации, и выполняется регрессионный анализ для вычисления усредненного значения ЧОТРС на основе градиента линии регрессии.

Недостатком данного способа является низкая точность расчета глобальных максимумов и минимумов АКФ на фоне локальных экстремумов из-за нестрогой периодичности АКФ и различного количества надежно детектируемых квазипериодов АКФ для различных голосов, что обусловлено особенностями физических характеристик речевых трактов.

В другом способе оценки ЧОТРС, определяемой как величина, обратная периоду основного тона, записанный речевой сигнал делится на диапазоны задержки, для каждого из которых вычисляется несколько первых отсчетов АКФ (Патент №2421826 РФ, МПК G10L 11/04, 2011). При этом первый диапазон и второй диапазоны задержки делятся на секции так, что наборы секций первого и второго диапазонов перекрываются, и первые отсчеты АКФ вычисляются для задержек в множестве секций каждого набора. Точность оценки ЧОТРС повышается за счет покрытия секцией одного набора области разрыва между секциями секцией другого набора.

Недостатком данного способа является использование эмпирических весовых коэффициентов, которые участвуют в формировании двух диапазонов записанного речевого сигнала, а точность алгоритма оценки ЧОТРС сильно зависит от точности оценки по каждому диапазону, то есть от способа сепарации и решающего правила.

Наиболее близким по совокупности признаков является способ оценки ЧОТРС, заключающийся в записи речевого сигнала и его последующем представлении последовательностью спектров Фурье, нахождении абсолютного максимума спектральной характеристики и вычислении среднего значения аргумента последовательности полученных максимумов (Патент №2184399 РФ, МПК 7 G10L 15/00, G10L 101/02, 2002). Для повышения точности оценки ЧОТРС в данном способе дополнительно применяется амплитудная селекция сигналов, вычисление значений определителя автокорреляционной матрицы и фильтрация этих значений.

Недостатком данного способа является использование ряда дополнительных параметров: коэффициентов полосового фильтра Чебышева, выбираемого порога для принятия решения о синхронности выходных импульсов выделителей; коэффициентов квадратичной функции, аппроксимирующей подпоследовательности, которые уменьшают точность оценки ЧОТРС. Другим недостатком способа является ограничение на минимальную длительность отрезков анализируемого речевого сигнала, которая должна составлять не менее 0,2 с.

Заявляемое изобретение предназначено для повышения точности оценки аргумента абсолютного максимума характеристики речевого сигнала, в том числе при малой длительности отрезка речевого сигнала.

Технический результат заключается в увеличении точности оценки частоты основного тона речевого сигнала.

Технический результат достигается тем, что в известном способе оценки частоты основного тона речевого сигнала, заключающемся в записи речевого сигнала и его последующей обработке, обеспечивающей формирование абсолютного максимума характеристики речевого сигнала и вычисление его аргумента, согласно изобретению характеристикой речевого сигнала является максимизированный по неизвестным значениям амплитуд и начальных фаз гармоник на временных интервалах длительностью не менее 38 мс логарифм функционала отношения правдоподобия.

Получаемый при осуществлении изобретения технический результат, а именно увеличение точности оценки частоты основного тона, достигается за счет оптимальной обработки речевого сигнала методом максимального правдоподобия. Для этого формируется максимизированное по неизвестным значениям амплитуд и начальных фаз гармоник значение логарифма функционала отношения правдоподобия (ЛФОП) на анализируемых временных интервалах. Далее осуществляется нахождение абсолютного максимума ЛФОП с последующим вычислением аргумента абсолютного максимума ЛФОП, значение которого соответствует оценке ЧОТРС.

Суть заявляемого способа заключается в использовании в качестве параметров, характеризующих речевой сигнал, значений частоты основного тона и амплитуд несущих гармоник на частотах основного тона и обертонов согласно представлению речевых сигналов, содержащих вокализованные участки речи, суммами гармонических составляющих (McAulay R.J., Quatieri T.F. «Speech analysis/synthesis based on a sinusoidal representation» IEEE Trans. On Acoustics, Speech and Signal Process., 1986, vol.34 no.4, pp.744-754).

В отличие от известных решений в данном способе применяется метод оценки ЧОТРС при априори неизвестных амплитудах и начальных фазах полигармонического несущего колебания. Оценка ЧОТРС формируется на основе оптимальной обработки с использованием адекватной математической модели речевого сигнала, записанной в явном виде, что позволяет обеспечить повышение реальной и потенциальной точности оценки ЧОТРС (Голубинский А.Н. Оценка частоты основного тона речевого сигнала при априори неизвестных амплитудах и начальных фазах полигармонического несущего колебания / А.Н.Голубинский. Вестник ВИ МВД России. - 2010. - №3. - С.110-117).

Оценка ЧОТРС по заявляемому способу реализуется в оптимальном приемнике, к входу которого подключен источник речевого сигнала. Вход приемника соединен с первыми входами перемножителей, на вторые входы которых поступают опорные сигналы от соответствующих генераторов. С выходов перемножителей сигналы поступают в интеграторы (или сумматоры - в зависимости от того, обрабатывается ли аналоговый входной сигнал или дискретный), выходы которых в свою очередь подключены к квадраторам, сигналы с которых поступают в блок суммирования. После этого сформированный сигнал умножается на постоянный коэффициент и поступает в блок расчета аргумента абсолютного максимума (сформированного ЛФОП), значение которого соответствует оценке ЧОТРС.

Заявляемый способ поясняется фиг.1, где схематически изображены основные блоки, реализующие способ оценки ЧОТ.

Блок-схема алгоритма измерения ЧОТ (фиг.1) включает источник речевого сигнала в цифровой или аналоговой форме, например микрофон (М) 1 и аналого-цифровой преобразователь (АЦП) 2 (необходим для дискретной обработки), генераторы синусоидальных (ГСС) 3 и косинусоидальных сигналов (ГКС) 4, перемножители (П) 5, блоки ИС 6, где реализуется интегрирование (для аналоговой обработки) и суммирование (для дискретной обработки). Выходы ИС соединены с входами квадраторов (К) 7, выходы которых подключены к сумматору (С) 8, выход которого соединен с первым входом перемножителя 5, со вторым входом которого соединен блок постоянного коэффициента (БК) 9. Выход П 5 соединен с блоком расчета оценки частоты основного тона (БРОЧОТ) 10 как значения аргумента абсолютного максимума сформированного выходного эффекта.

Оптимальная обработка речевого сигнала с целью оценки его существенного параметра - частоты основного тона сводится к формированию билинейной формы из квадратурных компонент корреляционного интеграла. Входной речевой сигнал моделируется суммой детерминированной и случайной компонент, а именно - аддитивной смесью импульса полигармонического колебания (1) и гауссовского белого шума:

$u (t, f_{0}) = \sum_{l = 1}^{L} U_{l} \cos (2 π l f_{0} t + ϕ_{l}) = \sum_{l = 1}^{L} {x_{l} \cos (2 π f_{0} t) + y_{l} \sin (2 π l f_{0} t)}$ , $t \in [0; τ_{и}] . (1)$

Здесь U_l и φ_l - соответственно амплитуда и начальная фаза l-й гармоники несущего колебания; f₀ - ЧОТ; L - количество несущих гармоник (как правило, от трех до пяти); x₁=U_lcos(θ_l); y_l=U_lsin(θ_l); θ_l=-φ_l.

Трансформированный ЛФОП после максимизации по вектору неизвестных значений амплитуд и начальных фаз гармоник на выходе С 8 (с учетом умножения на константу 2/(T·N₀), формируемую БК 9) имеет вид:

$M (f) = \frac{N_{0}}{2 T} [\sum_{l = 1}^{L} X_{l}^{2} (f) + \sum_{l = 1}^{L} Y_{l}^{2} (f)], (2)$

где соответствующие синфазные и квадратурные компоненты:

$X_{l} (f) = \frac{2}{N_{0}} \int_{0}^{T} ξ (t, f_{0}) \cos (2 π l f) d t$ ; $Y_{l} (f) = \frac{2}{N_{0}} \int_{0}^{T} ξ (t, f_{0}) \sin (2 π l f t) d t . (3)$

Здесь N₀ - односторонняя спектральная плотность мощности шума; T - время наблюдения опорного сигнала; ξ(t, f₀) - речевой сигнал на входе.

Для взятия интеграла по Стилтьесу в блоках ИС 6 опорные сигналы генераторов для непрерывной обработки:

- блоки ГКС₁-ГКС_L: u_c1(t, f)=соs(2π f t),…, u_cL(t, f)=cos(2π L f t);

- блоки ГCC₁-ГCС_L: u_s1(t, f)=sin(2π f t),…, u_sL(t, f)=sin(2π L f t),

а для дискретной обработки:

- блоки ГKC₁-ГКС_L: u_c1(iΔ, f)=cos(2π f iΔ),…, u_cL(iΔ, f)=соs(2π L f iΔ);

- блоки ГCC₁-ГСС_L: u_s1(iΔ, f)=sin(2π f iΔ),…, u_sL(iΔ, f)=sin(2π L f iΔ).

Оценка ЧОТРС в блоке БРОЧОТ 10:

${\overset{⌢}{f}}_{0} = \arg \sup M (f) . (4)$

Алгоритм, основанный на выражениях (2)-(4), корректен при условии разрешения гармоник, что обеспечивается выполнением условия: f₀T=T/T₀≥2,69, где Т - время наблюдения; Т₀ - период основного тона речевого сигнала. На практике указанное условие обеспечивается для очень низкого мужского голоса (для нижней границы ЧОТ, равной 70 Гц, что соответствует верхней границе периода основного тона 14 мс) при интервале наблюдения Т≥38 мс.

Использование заявляемого способа оценки ЧОТ повышает надежность систем аутентификации диктора по голосу, распознавания речи, синтеза речи, обеспечивая высокую помехоустойчивость при наличии шумов и использовании микрофонов низкого качества. Это достигается за счет преимуществ оптимальной обработки речевого сигнала на основе метода максимального правдоподобия, который обеспечивает высокую реальную и потенциальную точность оценки ЧОТ. Заявляемый способ может быть использован в системах и устройствах ограничения несанкционированного доступа к информационным или материальным ресурсам на основе биометрической информации о говорящем в условиях реальной речевой обстановки, а также в медицине, а именно в аудиологии и сурдопедагогике, например, при лечении нарушений восприятия речи вследствие потери слуха.

Способ оценки частоты основного тона речевого сигнала, заключающийся в записи речевого сигнала и его последующей обработке, обеспечивающей формирование абсолютного максимума характеристики речевого сигнала и вычисление его аргумента, отличающийся тем, что характеристикой речевого сигнала является максимизированный по неизвестным значениям амплитуд и начальных фаз гармоник на временных интервалах длительностью не менее 38 мс логарифм функционала отношения правдоподобия, при вычислении которого рассчитываются билинейные формы из корреляционного интеграла для аналоговой обработки - с использованием интеграторов, а для дискретной обработки - с использованием сумматоров.

Группа изобретений относится к средствам для анализа временных вариаций аудио сигналов. Технический результат заключается в создании средств, обладающих повышенной надежностью, для получения параметра, описывающего временные изменения сигнальной характеристики.

Текстозависимый способ конверсии голоса // 2427044

Изобретение относится к электронной технике и может быть использовано при синтезировании речи по тексту. .

Способ и аппарат мультисенсорного улучшения речи в мобильном устройстве // 2391716

Изобретение относится к мобильным устройствам, в частности к мультисенсорным мобильным устройствам. .

Способ и устройство для восстановления речи в системе распределенного распознавания речи // 2366007

Изобретение относится к восстановлению речи, более конкретно к способу и устройству для восстановления речи в системе распределенного распознавания речи. .

Блок разрешения диалога голосового браузера для системы связи // 2349970

Изобретение относится к управлению режимом работы устройства радиосвязи, более конкретно к способу работы многорежимного устройства радиосвязи в различных системах.

Способ сжатия и восстановления речевых сообщений // 2343565

Изобретение относится к системам передачи информации по цифровым каналам связи. .

Устройство и способ речевой модуляции // 2333546

Изобретение относится к способу и устройству речевой модуляции для использования в устройствах речевой связи, таких как проводные или радиотелефоны, для модификации голоса путем модификации высоты основного тона голоса.

Корректор речи водолаза // 2275693

Изобретение относится к водолазной технике, а именно к корректорам (преобразователям) речи водолазов-глубоководников. .

Способ сжатия и восстановления речевых сообщений // 2152646

Изобретение относится к области электросвязи, а именно к области связанной с сокращением избыточности передаваемой информации. .

Способ контроля эффективности защиты информации // 2541122

Изобретение относится к способам контроля эффективности защиты речевого сигнала от утечки по техническим каналам. Технический результат заключается в повышении достоверности оценки защищенности речевой информации.

Способ гибридной генеративно-дискриминативной сегментации дикторов в аудио-потоке // 2530314

Изобретение относится к области информационных технологий, реализующих интерфейс между человеком и компьютером, а именно к сегментации (диаризации) или разделению дикторов в аудио-потоке.

Основанные на языке разметки выбор и использование распознавателей для обработки произнесения // 2525440

Изобретение относится к способу использования распознавателей для обработки произнесения на основании документа на языке разметки. Технический результат заключается в ускорении процесса распознавания.

Способ обнаружения эмоций по голосу // 2510955

Изобретение относится к средствам распознавания эмоций человека по голосу. Технический результат заключается в повышении точности определения эмоционального состояния русскоязычного абонента.

Система и способ распознавания речи // 2466468

Изобретение относится к технологиям распознавания речи, т.е. .

Универсальные орфографические мнемосхемы // 2441287

Изобретение относится к прогаммным приложениям распознавания голоса, более конкретно к способу управления характерными особенностями фразы посредством приложения распознавания голоса.

Способ обнаружения пауз в речевых сигналах и устройство его реализующее // 2436173

Изобретение относится к технике цифровой обработки речевых сигналов. .

Способ аутентификации диктора по парольной фразе // 2422921

Изобретение относится к области техники анализа речи, в частности к системам ограничения несанкционированного доступа в помещения или информационным ресурсам. .

Способ аутентификации диктора по парольной фразе // 2422920

Способ идентификации говорящего по фонограммам произвольной устной речи на основе формантного выравнивания // 2419890

Изобретение относится к области опознавания говорящего по голосу, в частности к способам идентификации говорящего по фонограммам произвольной устной речи, предназначенным в том числе для криминалистических исследований.

Способ адаптивной обработки речевых сигналов в условиях нестабильной работы речевого аппарата // 2582050

Изобретение относится к медицине, а именно к биометрической идентификации и диагностике органов речевого аппарата. Способ адаптивной обработки речевых сигналов в условиях нестабильной работы речевого аппарата состоит в том, что осуществляют регистрацию речевых сигналов, сегментацию речевых сигналов, вычисляют значения энергии информативной области, сравнивают вычисленное значение с пороговым и делают диагностическое заключение о стадии нестабильной работы органов речевого аппарата. При этом дополнительно проводят декомпозицию на эмпирические моды фонемы речевого сигнала и построение спектра Гильберта фонемы речевого сигнала. Использование изобретения позволяет повысить точность обработки речевых сигналов в условиях нестабильной работы органов речевого аппарата. 1 табл., 9 ил.

Способ распознавания речи на основе двухуровневого морфофонемного префиксного графа // 2597498

Изобретение относится к области распознавания речи. Техническим результатом является сокращение объема элементов памяти, необходимого для хранения предустановленного словаря, и снижение сложности вычислительного процесса распознавания. Способ распознавания речи содержит этапы: прием речевого сигнала, обработку речевого сигнала, выделение в нормализованном спектре пауз, шумов и звуковых сигналов, распознавание и преобразование речевого сигнала, определение в нем наличия/отсутствия акустических признаков речевого сигнала, определение вероятности всех состояний фонем, обработку гипотезы распознавания, сравнение параметров гипотез распознавания, синтаксическое согласование гипотез, формирование результата распознавания, преобразование результатов распознавания всех сегментов речевого сигнала, вывод речевого сигнала в виде связного текста. 5 ил., 2 табл.