Способ адаптивной обработки речевых сигналов в условиях нестабильной работы речевого аппарата

Авторы патента:

Тычков Александр Юрьевич (RU)

Алимурадов Алан Казанферович (RU)

Чураков Петр Павлович (RU)

G10L15/00 - Распознавание речи (G10L 17/00 имеет преимущество)

A61B5/12 - аудиометрия

Владельцы патента RU 2582050:

Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования "Пензенский государственный университет" (ФГБОУ ВПО "Пензенский государственный университет") (RU)

Изобретение относится к медицине, а именно к биометрической идентификации и диагностике органов речевого аппарата. Способ адаптивной обработки речевых сигналов в условиях нестабильной работы речевого аппарата состоит в том, что осуществляют регистрацию речевых сигналов, сегментацию речевых сигналов, вычисляют значения энергии информативной области, сравнивают вычисленное значение с пороговым и делают диагностическое заключение о стадии нестабильной работы органов речевого аппарата. При этом дополнительно проводят декомпозицию на эмпирические моды фонемы речевого сигнала и построение спектра Гильберта фонемы речевого сигнала. Использование изобретения позволяет повысить точность обработки речевых сигналов в условиях нестабильной работы органов речевого аппарата. 1 табл., 9 ил.

Эффективность автоматического анализа речевых сигналов в системах биометрической идентификации и диагностики органов речевого аппарата определяется точностью измерения его амплитудных и временных, частотных и энергетических параметров, достоверностью обнаружения и распознавания его отдельных элементов. В свою очередь, основной причиной погрешностей измерений и ошибок обнаружения (распознавания) элементов речевых сигналов являются помехи, различные по своему происхождению, интенсивности, спектральным и статистическим характеристикам, взаимодействию с полезным сигналом.

Одной из наиболее сложных задач эффективного обнаружения и распознавания параметров речевых сигналов в системах биометрической идентификации и диагностики органов речевого аппарата является задача подавления физиологических помех, вызванных нестабильной работой речевого аппарата, при наличии заболеваний в работе систем органов речевого аппарата, таких как ларингит, синусит, фарингит и др. Патологические отклонения в работе систем речевого аппарата могут свести на нет даже самые сложные и изощренные алгоритмы распознавания речевых сигналов в системах биометрический идентификации личности и привести к сбою работы государственной системы безопасности.

Как отмечается в [1], речевой сигнал представляет собой звуковую волну, образуемую артикуляционным отделом речевого аппарата. Речевой сигнал является акустическим сигналом, нелинейным и нестационарным, распространяющимся в пространстве с частотой 70-7000 Гц.

На этапе формирования звуков и регистрации их различными каналами связи участвуют три основных отдела органов речевого аппарата: 1) легкие, бронхи и трахея; 2) голосовой аппарат гортани; 3) полость рта, глотки носа и околоносовых пазух.

Определение нестабильной работы всех отделов органов дыхания является актуальной задачей, для решения большого круга проблем в области диагностики заболеваний и биометрической идентификации личности.

Рассмотрим подробнее известные способы обработки речевых сигналов в условиях нестабильной работы речевого аппарата.

Известен способ «Система для анализа и формирования изображения шума дыхательных путей» (аналог) [2], позволяющий регистрировать и анализировать акустические шумы тела пациента, и используется для диагностики нарушения дыхательных путей.

Анализ известного способа-аналога [2] показал, что его работа заключается в регистрации акустического шума дыхательных путей путем наложении акустических датчиков на тело пациента, вычислении средней акустической энергии сигнала на каждом промежутке времени, отображении значений акустической энергии на двумерном изображении грудной клетки (первый отдел органов речевого аппарата), выводе диагностического заключения о стадии нестабильной работы первого отдела органов дыхания. Структурная схема известного способа приведена на фиг. 1.

Недостатками данного способа являются:

1. Возможность регистрации, кроме акустических шумов, шумов связанных с физиологической активностью других органов и систем организма: сердечно-сосудистой системы, желудочно-кишечного тракта и др., что может привести к искажению результатов измерения и точности постановки диагностического заключения.

2. Диагностика только заболеваний первого отдела органов речевого аппарата, что ограничивает его использование широким кругом потребителей для диагностических целей и в системах биометрической идентификации.

3. Наложение на тело пациента множества акустических датчиков, приводящее к дискомфорту пациента и возникновению дополнительных помех и шумов, связанных с движением пациента и уменьшением сопротивления кожа-электрод.

4. Невозможность использования данной технологии при разработке портативных устройств, используемых в диагностических целях в домашних условиях и в офисах для систем безопасности.

Известен другой способ исследования функционального состояния органов речевого аппарата на примере голосовых складок «Способ исследования функционального состояния голосовых складок» (прототип) [3].

Анализ известного способа-прототипа [3] показал, что его работа заключается в регистрации речевых сигналов, сегментации речевых сигналов, вейвлет-преобразовании речевых сигналов, построении вейвлет-поверхности участка речевого сигнала, определении информативной области вейвлет-поверхности, вычислении значения энергии информативной области, сравнении вычисленного значения с пороговым, выводе диагностического заключения о стадии нестабильной работы голосовых складок (второго отдела органов речевого аппарата). Структурная схема известного способа приведена на фиг. 2.

Недостатками данного способа являются:

1. Недостаточно высокая эффективность вывода диагностического заключения о стадии нестабильной работы органов речевого аппарата, обусловленная невозможностью адаптации вейвлет-функции к структуре и локальным особенностям зарегистрированного речевого сигнала.

2. Диагностика только заболеваний второго отдела органов речевого аппарата, что так же, как и в первом способе, ограничивает его использование для диагностики биометрической идентификации.

Изобретения направлено на повышение точности обработки речевых сигналов в условиях нестабильной работы органов речевого аппарата.

Это достигается тем, что в способе адаптивной обработки речевых сигналов в условиях нестабильной работы речевого аппарата, заключающемся в регистрации речевых сигналов, сегментации речевых сигналов, вычислении значения энергии информативной области, сравнении вычисленного значения с пороговым, выводе диагностического заключения о стадии нестабильной работы органов речевого аппарата, дополнительно осуществляют декомпозицию на эмпирические моды фонемы речевого сигнала, построение спектра Гильберта фонемы речевого сигнала. Структурная схема предлагаемого способа приведена на фиг. 3.

Суть предлагаемого способа адаптивной обработки речевых сигналов в условиях нестабильной работы речевого аппарата заключается в том, что определение нестабильности (отклонения) состояния органов речевого аппарата на речевом сигнале осуществляется за счет выделения информативных областей сигнала (фонем), образованных различными отделами органов речевого аппарата, построения спектра Гильберта фонемы речевого сигнала и вывода диагностического заключения о стадии нестабильной работы органов речевого аппарата путем вычисления разности значений энергии фонемы речевого сигнала с пороговым, характеризующим стадию развития нестабильности (отклонения) в работе органов речевого аппарата.

Главной отличительной особенностью предлагаемого способа адаптивной обработки речевых сигналов в условиях нестабильной работы речевого аппарата от известного способа является обработка отдельных слов, фраз и выражений, образованных определенными органами речевого аппарата, и адаптивное вычисление значений энергии исследуемых фонем с использованием декомпозиции на эмпирические моды и спектра Гильберта.

Рассмотрим особенности реализации предлагаемого способа адаптивной обработки речевых сигналов в условиях нестабильной работы речевого аппарата. Первый этап («Регистрация речевых сигналов») аналогичен этапу известного способа [2], заключающегося в регистрации речевого сигнала с помощью акустического приемника и аналогово-цифровом преобразовании речевого сигнала. Пример зарегистрированного и оцифрованного речевого сигнала - звука «а» - приведен на фиг. 4.

В отличие от известного способа на этапе регистрации речевых сигналов предлагается регистрировать речевые сигналы конкретных фраз и выражений, состоящих из звуков, сформированных определенными органами речевого аппарата. Для этого авторами способа ранее разработана в виде таблиц реляционной СУБД Microsoft Office Access (см. фиг. 5) и запатентована база эталонных слов, фраз и выражений [4]. Использование верифицированной базы речевых сигналов позволит эффектней диагностировать нестабильность речевого аппарата путем систематизации заболеваний органов речевого аппарата по группам звуков сформированных определенными органами речевого аппарата.

Второй этап «Сегментация речевых сигналов» заключается в следующем. В зависимости от вида речевого сигнала их длительность может варьироваться от 5 до 500 мс. Фонемы речевых сигналов различных тональных и сонорных звуков в среднем имеют длительность от 10 до 25 мс. Для автоматизации последующих этапов способа предлагается ограничивать длительность речевых сигналов длительностью фонем до одной фиксированной величины, равной 20 мс. Унификация речевого сигнала до фонем различной длительности с помощью сегментации в равные отрезки позволяет улучшить обработку на последующем этапе обработки речевых сигналов.

Третий этап «Декомпозиция на эмпирические моды фонемы речевого сигнала» заключается в разложении фонемы речевого сигнала на частотные составляющие с помощью адаптивной технологии, способной подстроиться к исследуемого сигналу без искажения его свойств.

Схема декомпозиция на эмпирические моды фонемы речевого сигнала приведена на фиг. 6 и включает в себя следующие этапы:

1. Определение локальных экстремумов (максимумов и минимумов) фонемы речевого сигнала f _j(t _i):

- значение i-го отсчета f _j(t _i) является локальным максимумом, если выполняется условие ;

- значение i-го отсчета f _j(t _i) является локальным минимумом, если выполняется условие .

2. Определение верхней e _j (t _i ) и нижней g _j (t _i ) огибающих фонемы речевого сигнала с помощью кубической сплайн-интерполяции [5] по найденным локальным экстремумам f _j (t _i ):

где а _в, b _в, с _в, d _в - коэффициенты для каждого значения i-го отсчета верхней огибающей фонемы речевого сигнала; а _н, b _н, с _н, d _н - коэффициенты для каждого значения i-го отсчета верхних огибающих фонемы речевого сигнала

3. Вычисление среднего значения огибающих фонемы речевого сигнала в соответствии с выражением:

где h _j(t _i) - среднее значение огибающих фонемы речевого сигнала;

e _j(t _i) и g _j(t _i) - верхняя и нижняя огибающая исходных фонемы речевого сигнала соответственно.

4. Вычисление остатка фонемы речевого сигнала по формуле:

где s _j(t _i) - остаток частотных составляющих речевого сигнала.

5. Вычисление значения критерия останова. В качестве критерия останова декомпозиции используется значение нормализованной квадратичной разности, определяемое как [6]:

6. Проверка условия останова. На этом этапе осуществляется сравнение значения остатка речевого сигнала со значением нормализованной квадратичной разности. Если:

- SD>s _j(t _i), то переходят к выполнению действия 1;

- SD<s _j(t_i) и h _j(t _i)>s _j(t _i), то переходят к выполнению следующего действия.

7. Вывод частотных составляющих фонемы речевого сигнала. На этом этапе осуществляется вывод эмпирических мод m _k(t _i) и остатка s _j(t _i) фонемы речевого сигнала. На фиг. 7 приведены моды фонемы речевого сигнала.

После того как получены частотные составляющие фонемы речевого сигнала с помощью декомпозиции на эмпирические моды, выполняется построение спектра Гильберта.

Схема следующего этапа «Преобразование и Построение спектра Гильберта фонемы речевого сигнала» приведена на фиг. 8 и включает в себя следующие подэтапы [6, 7].:

1. Получение сопряженного по Гильберту фонемы речевого сигнала:

где m _k(t _i) - эмпирическая мода, подвергнутая преобразованию Гильберта;

M _k(t _i) - сопряженный по Гильберту фонемы речевого сигнала, соответствующий моде m _k(t _i);

k - номер моды;

τ - независимая переменная.

2. Определение аналитического (комплексного) значения для каждой моды фонемы речевого сигнала:

где - мнимая единица.

3. Определение значения мгновенной амплитуды для каждой моды фонемы речевого сигнала:

4. Определение значения мгновенной частоты для каждой моды фонемы речевого сигнала:

5. Представление фонемы речевого сигнала в виде спектра Гильберта. В каждой эмпирической моде сигнал в виде поверхности в системе координат амплитуда-частота-время может быть выражен следующим образом [7, 8]:

Визуальное представление спектра Гильберта характеризует распределение мгновенной энергии фонемы речевого сигнала в каждой точке частотно-временной плоскости и, по мнению авторов, открывает возможность выделения новых диагностических признаков в речевых сигналах.

На фиг. 9 приведен спектр Гильберта речевого сигнала (звук «а») рассчитанный по выражению (10) согласно алгоритму построения спектра Гильберта (см. фиг. 8).

Следующий пятый этап «Вычисление значения энергии информативной области» осуществляется согласно следующему выражению:

где t ₁ - отсчет, принятый за середину фонемы;

t _k - отсчет, принятый за начало фонемы.

Рассчитанные средние значения энергии спектра Гильберта фонемы по формуле (10) позволяют получить функцию распределения среднего значения энергии по частоте:

где t - const.

Результатом расчета выражения (12) является функция распределения , характеризующая усредненное значение энергии информативно области (фонемы) спектра Гильберта.

Следующий этап «Сравнение вычисленного значения энергии с пороговым» заключается в сравнении вычисленной средней энергии фонемы с пороговыми значениями, вычисленные априорно на большой выборке данных. Пороговое значение энергии характеризует уровень и вид нестабильности (отклонения) работы речевого аппарата. По результатам проведенных исследований выявлено, что в зависимости от произносимого контрольного слова, фразы или предложения, состоящего из фонем, образованных определенным отделом органов речевого аппарата, наблюдается прямая зависимость с уровнем энергии спектра Гильберта. Результаты проведенных исследований проведены в табл. 1.

Заключительный этап «Вывод диагностического заключения о стадии нестабильной работы органов речевого аппарата» заключается в постановки заключения, основанного на результатах предыдущего этапа способа.

Приведенное описание способа адаптивной обработки речевых сигналов в условиях нестабильной работы речевого аппарата показывает, что предлагаемый способ позволяет устранить недостатки известного способа «Способ исследования функционального состояния голосовых складок», а именно повысить эффективность вывода диагностического заключения о стадии нестабильной работы органов речевого аппарата за счет используемого адаптивного подхода обработки фонем речевого сигнала, способного приспособиться к индивидуальным особенностям и параметрам потребителя; диагностировать широкий спектр заболеваний всех трех отделов органов речевого аппарата.

Другим преимуществом предлагаемого способа адаптивной обработки речевых сигналов в условиях нестабильной работы речевого аппарата является визуальное представление спектра Гильберта речевого сигнала, что позволяет выявить новые диагностические признаки в речевых сигналах для диагностических систем и биометрической идентификации личности.

Эффективная обработка речевых сигналов ведет к увеличению достоверных заключений и, следовательно, к повышению эффективности диагностики и лечения заболеваний органов речевого аппарата и идентификация личности в системах биометрической защиты.

Источники информации

1. Михайлов В.Г., Златоустова Л.В. Измерение параметров речи. - М.: Радио и связь. 1987 г., 103 с.

2. Кушнир И., Ботбол М. Патент РФ, Система для анализа и формирования изображения шума дыхательных путей - №2314751; заявл. 10.03.2005; опубл. 20.01.2008.

3. Плешков И.В., Филист С.А., Краснова Н.В., Блинков Ю.А. Патент РФ, Способ исследования функционального состояния голосовых складок - №2313280; заявл. 16.05.2006; опубл. 27.12.2007.

4. Тычков А.Ю., Алимурадов А.К., Квитка Ю.С., Ярославцева Д.А. Свидетельства о государственной регистрации программ для ЭВМ. Верифицированная база речевых сигналов - №2013621156; заявл. 13.09.2013; опубл. 06.11.2013.

5. Корнейчук, Н.П. Сплайны в теории приближения. - М.: Наука, Главная редакция физико-математической литературы, 1984 - 352 с.

6. Huang, N.E., Attoh-Okine Nii О. The Hilbert-Huang transform in engineering - Taylor and Francis, 2005 - 95 p.

7. Sharpley R.C., Vatchev V.D. Analysis of the intrinsic mode functions. Department of Mathematics University of South Carolina, 2004 - 31 p.

8. Huang N.E., Shen S.S. The Hilbert-Huang transform and its applications - World Scientific Publication, 2005 - 323 p.

Способ адаптивной обработки речевых сигналов в условиях нестабильной работы речевого аппарата, заключающийся в том, что осуществляют регистрацию речевых сигналов, сегментацию речевых сигналов, вычисление значения энергии информативной области, сравнение вычисленного значения с пороговым, вывод диагностического заключения о стадии нестабильной работы органов речевого аппарата, отличающийся тем, что осуществляют дополнительно декомпозицию на эмпирические моды фонемы речевого сигнала, построение спектра Гильберта фонемы речевого сигнала.

Изобретение относится к области распознавания речи. Техническими результатами являются уменьшение задержки распознавания речи, увеличение точности распознавания речи, а также увеличение общего грамматического охвата в распознавании речи.

Способ оценки частоты основного тона речевого сигнала // 2546311

Изобретение относится к системам анализа речи, может быть использовано в средствах для распознавания и синтеза речи. Техническим результатом является повышение точности оценки частоты основного тона речевого сигнала.

Способ контроля эффективности защиты информации // 2541122

Изобретение относится к способам контроля эффективности защиты речевого сигнала от утечки по техническим каналам. Технический результат заключается в повышении достоверности оценки защищенности речевой информации.

Способ гибридной генеративно-дискриминативной сегментации дикторов в аудио-потоке // 2530314

Изобретение относится к области информационных технологий, реализующих интерфейс между человеком и компьютером, а именно к сегментации (диаризации) или разделению дикторов в аудио-потоке.

Основанные на языке разметки выбор и использование распознавателей для обработки произнесения // 2525440

Изобретение относится к способу использования распознавателей для обработки произнесения на основании документа на языке разметки. Технический результат заключается в ускорении процесса распознавания.

Электронно-вычислительное устройство // 2523220

Изобретение относится к вычислительной технике. Технический результат заключается в распознавании речи злектронно-вычислительным устройством, используя чтение по губам.

Способ обнаружения эмоций по голосу // 2510955

Изобретение относится к средствам распознавания эмоций человека по голосу. Технический результат заключается в повышении точности определения эмоционального состояния русскоязычного абонента.

Устройство и способ основанного на контексте арифметического кодирования и устройство и способ основанного на контексте арифметического декодирования // 2493652

Изобретение относится к способам кодирования и декодирования аудиосигнала без потерь. Техническим результатом является повышение эффективности кодирования и снижение требуемого для кодирования объема памяти.

Архитектура распознавания для генерации азиатских иероглифов // 2477518

Изобретение относится к распознаванию речи на азиатском языке. .

Устройство и способ формирования сигнатуры акустического сигнала, устройство идентификации акустического сигнала // 2459281

Изобретение относится к технике идентификации акустических сигналов и, в частности, к устройству и способу распознавания акустического сигнала. .

Способ контроля созревания звукопроводящей системы слухового анализатора у недоношенных детей // 2582046

Изобретение относится к медицине, а именно к оториноларингологии, и может быть использовано для контроля созревания среднего уха недоношенных детей. Обследование проводят по достижении годовалого возраста методом тимпанометрии.

Прибор для измерений акустического импеданса среднего уха // 2572156

Изобретение относится к медицинской технике, а именно к приборам для аудиометрических исследований. Прибор состоит из волновода-интерферометра, один конец которого оборудован перфорированной панелью и открытой трубкой для герметичного сочленения с ушным вкладышем, а другой конец оборудован громкоговорителем, соединенным с генератором сигналов звуковой частоты, причем в двух точках боковой поверхности волновода-интерферометра установлены измерительные микрофоны, соединенные с вычислителем через аналого-цифровой преобразователь.

Способ исследования состояния барабанной перепонки // 2552099

Изобретение относится к области медицины, а именно к оториноларингологии. Полигармонический звуковой сигнал каждой частоты подают в слуховой анализатор через ушной вкладыш, герметично сочлененный с концом волновода, другой конец которого оборудован громкоговорителем, соединенным с генератором.

Аппарат для диагностики и лечения нейросенсорной тугоухости // 2535405

Изобретение относится к области медицинского оборудования и предназначено для диагностики и лечения нейросенсорной тугоухости. Аппарат содержит генератор колебаний ультразвуковой частоты, полосовой фильтр, усилитель с дискретно регулируемым коэффициентом усиления, усилитель мощности, датчик тока, преобразователь тока в напряжение, блок коммутации, амплитудный детектор тока и амплитудный детектор напряжения.

Способ оценки звуковосприятия у пациентов с патологией среднего уха // 2534877

Изобретение относится к области медицины, а именно оториноларингологии. Регистрируют коротколатентные слуховые вызванные потенциалы (КСВП) на акустический щелчок и визуализацию при этом V пика вызванного ответа.

Способ моделирования биофизических процессов, реализующих механизм и электронную модель периферического отдела слуховой системы человека // 2534417

Изобретение относится к медицине. При осуществлении способа представляют звуковой сигнал в виде суперпозиции отдельных составляющих тонов входного сложномодулированного колебания, образованного наложением нескольких звуковых колебаний.

Способ стимулирования области волосковых сенсорных клеток // 2525223

Изобретение относится к медицине, а именно к физиотерапии. Способ включает стимулирование области волосковых сенсорных клеток с использованием звуковой стимуляции.

Способ прогнозирования степени потери слуха в отохирургии при хроническом среднем отите // 2521846

Изобретение относится к медицине, в частности к оториноларингологии, и может быть использовано в предоперационном периоде реконструктивно-санирующей отохирургии у пациентов с хроническим средним отитом для прогнозирования степени потери слуха.

Способ оценки акустической эффективности средств индивидуальной защиты человека от шума // 2518985

Изобретение относится к области гигиены труда, а именно к обеспечению защиты человека от шума. Выполняют измерение уровней звукового давления для каждой нормируемой октавной частоты с определением максимальных величин уровней звукового давления для каждой нормируемой октавной частоты с последующим расчетом показателей акустической эффективности.

Способ контроля созревания слуховой функции у детей различного возраста гестации в течение первого полугодия жизни // 2502468

Изобретение относится к области медицины, а именно к оториноларингологии. Проводят аудиологическое обследование методом вызванной отоакустической эмиссии на частоте продукта искажения.

Способ аудиометрической диагностики идиопатических перилимфатических фистул лабиринта // 2594974

Изобретение относится к медицине и может быть использовано для аудиометрической диагностики идиопатических перилимфатических фистул лабиринта. Выполняют аудиометрический контроль остроты слуха пациента. Определяют исходные пороги звуковосприятия пациента по воздушной проводимости по тон-шкале. Затем пациент максимально плотно прижимает голову к грудине и удерживает голову в этом положении в течение 55-65 секунд. Это обеспечивает частичное сдавливание шейных вен и увеличения напряжения мозговых оболочек, вызывающих повышение ликворного давления на 30-50 мм водяного столба. Сразу на этом фоне у пациента определяют факт наличия или отсутствия изменения его порогов звуковосприятия по воздушной проводимости по тон-шкале на различных частотах звучания. В случае повышения порога звуковосприятия пациента на 10 дБ и более на не менее двух различных частотах звучания диагностируют наличие у пациента идиопатической перилимфатической фистулы лабиринта. Способ позволяет с высокой степенью достоверности и быстро провести диагностику идиопатических перилимфатических фистул лабиринта за счет создания условий для частичного сдавливания шейных вен и увеличение напряжения мозговых оболочек с повышением ликворного давления на 30-50 мм водяного столба. 3 пр.