Способ дикторонезависимого распознавания изолированных речевых команд

Авторы патента:

G10L5/06 - (Рубрика аннулирована. Содержание перенесено в G10L 13/00, G10L 15/00, G10L 17/00)

Изобретение относится к системам обработки информации и управления, а именно к способам построения систем распознавания речи. Технический результат заявленного изобретения состоит в повышении вероятности правильного распознавания и повышении быстродействия системы распознавания изолированных слов. Указанная задача решается за счет того, что применяют способ дикторонезависимого распознавания изолированных речевых команд, содержащий двухуровневую обработку речевого сигнала с отбором на первом уровне наиболее вероятных кандидатов слов для анализируемого сигнала и выбором на втором уровне наиболее вероятной альтернативы из отобранных кандидатов, отличающийся тем, что результаты распознавания речевого сигнала на первом и втором уровнях анализируют блоком принятия решения, а в случае несоответствия указанного результата требованиям блока принятия решения формируют сигнал переспроса блока первого уровня. На первом уровне проводят отбор наиболее вероятных кандидатов с применением целословного анализа. В блоке первого уровня при проведении целословного анализа измеряют расстояние от анализируемого речевого сигнала до эталонов с применением нелинейных функций. С помощью блока первого уровня измеряют расстояние от анализируемого речевого сигнала до эталонов блока первого уровня, а величину порога решающего правила для отбора наиболее вероятных кандидатов определяют как нелинейную функцию от минимального расстояния до эталонов блока первого уровня. 3 з.п. ф-лы, 1 ил.

Изобретение относится к системам обработки информации и управления, а именно к способам построения систем распознавания речи.

Известен способ проведения двухуровневой обработки речевого сигнала для точного определения границ слова (патент США N 4881266). На первом уровне известного способа определяют возможные альтернативы положения границ слова. Ошибка блока первого уровня приводит к снижению вероятности правильного распознавания всей системы в целом. На втором уровне сравнивают полученные альтернативы с эталонами слов. Здесь необходимо сравнивать с анализируемым речевым сигналом эталоны для всех слов словаря системы.

Недостатком известного способа является недостаточное быстродействие.

В качестве ближайшего аналога авторами принят способ обработки речевого сигнала с использованием блока первого уровня, построенного с применением метода динамического программирования и блока второго уровня, построенного на основе методов фонемного анализа (патент США N 5315689). Блоки первого и второго уровней могут меняться местами в зависимости от вероятности правильного распознавания блоков. Блок первого уровня отбирает множество наиболее вероятных кандидатов слов для анализируемого речевого сигнала из всего словаря системы. Блок второго уровня производит анализ речевого сигнала, определяя наиболее вероятную альтернативу из слов, входящих в множество наиболее вероятных кандидатов. Ошибка блока первого уровня приводит к ошибке всей системы в целом. В известном ближайшем аналоге предлагается блок, имеющий большую точность, перемещать на первый уровень, что однако не решает проблемы в целом. Для обеспечения необходимой точности блок первого уровня должен использовать ресурсоемкие алгоритмы распознавания. Это снижает быстродействие системы в целом, т.к. на первом уровне анализируют все слова словаря системы.

Основным недостатком способа по патенту США N 5315689 является недостаточная вероятность правильного распознавания и, кроме того, наблюдается низкое быстродействие.

Перед заявленным изобретением поставлена задача повышения вероятности правильного распознавания и одновременно повышение быстродействия системы распознавания изолированных слов.

Указанная задача решается за счет того, что применяют способ дикторонезависимого распознавания изолированных речевых команд, содержащий двухуровневую обработку речевого сигнала с отбором на первом уровне наиболее вероятных кандидатов слов для анализируемого сигнала и выбором на втором уровне наиболее вероятной альтернативы из отобранных кандидатов, отличающийся тем, что результаты распознавания речевого сигнала на первом и втором уровнях анализируют блоком принятия решения, а в случае не соответствия указанного результата требованиям блока принятия решения формируют сигнал переспроса блока первого уровня.

На первом уровне проводят отбор наиболее вероятных кандидатов с применением целословного анализа.

В блоке первого уровня при проведении целословного анализа измеряют расстояние от анализируемого речевого сигнала до эталонов с применением нелинейных функций.

С помощью блока первого уровня измеряют расстояние от анализируемого речевого сигнала до эталонов блока первого уровня, и величину порога решающего правила для отбора наиболее вероятных кандидатов определяют как нелинейную функцию от минимального расстояния до эталонов блока первого уровня.

Благодаря этому получен технический результат, а именно повышены вероятность правильного распознавания и быстродействие системы распознавания изолированных слов.

На чертеже изображена схема осуществления предлагаемого способа распознавания изолированных речевых команд.

Способ дикторонезависимого распознавания изолированных речевых команд содержит двухуровневую обработку речевого сигнала с отбором на первом уровне наиболее вероятных кандидатов слов для анализируемого сигнала и выбором на втором уровне наиболее вероятной альтернативы из отобранных кандидатов.

Блок 1 первого уровня выделяет множество наиболее вероятных кандидатов, наиболее близких к распознаваемому слову. Число членов в множестве, как правило, меньше общего количества слов в словаре.

Блок 2 второго уровня производит анализ речевого сигнала, с помощью которого определяет наиболее вероятное слово из выбранного множества кандидатов. Здесь могут быть использованы более ресурсоемкие методы (динамическое программирование, скрытое марковское моделирование, нейронные сети и т.п.). Вероятность правильного распознавания блока 2 второго уровня, как правило, возрастает при уменьшении числа анализируемых альтернатив, чем обеспечивается дополнительное повышение точности системы в целом.

Результаты распознавания речевого сигнала на первом и втором уровнях анализируют блоком 3 принятия решения, а в случае не соответствия указанного результата требованиям блока 3 принятия решения формируют сигнал переспроса блока 1 первого уровня.

Блок 3 принятия решения по результатам работы блоков 1 и 2 первого и второго уровней определяет необходимость переспроса. Результатом работы блока 3 является принятое решение либо вызов переспроса. В случае недостаточной степени достоверности решения производят переспрос блока 1 первого уровня. При возникновении переспроса блок 1 первого уровня выдает расширенное множество кандидатов. Алгоритм определения необходимости переспроса использует информацию о распределении расстояний до эталонов блоков 1 и 2 первого и второго уровня (например, расстояние до ближайшего эталона, относительное расстояние между первым и вторым ближайшими эталонами и т.п.).

На первом уровне проводят отбор наиболее вероятных кандидатов с применением целословного анализа.

Применение целословного анализа (использование признаков, характеризующих все слово в целом, например, среднее число пересечений через ноль, положение ударной гласной и т.д.) позволяет кардинально снизить время сравнения с эталонами слов в блоке 1 первого уровня, т.к. отпадает необходимость проведения временной нормализации речевого сигнала.

В блоке 1 при проведении целословного анализа измеряют расстояние от анализируемого речевого сигнала до эталонов с применением нелинейных функций.

Для повышения вероятности правильного распознавания в блоке 1 первого уровня при сравнении с эталонами применяют нелинейную функцию расстояния, например:

, где z_i - расстояние между значением признака i и эталоном.

h_i - пороговая величина.

Для вычисления общего для всех признаков расстояния до каждого эталона используют меру Махаланобиса.

С помощью блока 1 первого уровня измеряют расстояние от анализируемого речевого сигнала до эталонов блока 1 первого уровня, и величину порога решающего правила для отбора наиболее вероятных кандидатов определяют как нелинейную функцию от минимального расстояния до эталонов блока 1 первого уровня.

Используя информацию о распределении расстояний до эталонов слов словаря системы отбирают наиболее вероятные альтернативы (например, расстояние до ближайшего эталона, относительное расстояние между первым и вторым ближайшими эталонами и т.п.), при этом величину порога определяют как нелинейную функцию от минимального расстояния до эталона блока 1 первого уровня (например, кусочно-постоянная функция).

Таким образом, решающее правило для определения подмножества слов-претендентов в блоке 1 первого уровня определяется формулой:

, A₁, A₂, B - коэффициенты настройки, h_k - k-ое слова заданного словаря.

R_min - минимального расстояние от анализируемого речевого сигнала до эталона блока 1 первого уровня.

R_k - расстояние от анализируемого речевого сигнала до эталона, соответствующего k-му слову заданного словаря.

Коэффициенты настройки A₁, A₂, B находят методами численной оптимизации на основании статистического анализа обучающей выборки.

Среднее время работы двухуровневой системы с переспросом можно определить формулой: T_ср

T₁ + T_пр2 + n_ср

T_ср2, где n_ср - среднее число проанализированных блоком 2 второго уровня кандидатов.

T₁ - время работы блока 1 первого уровня, T_пр2 - время расчета признаков блока 2 второго уровня, T_ср2 - время анализа одного кандидата блоком 2 второго уровня.

Таким образом, с помощью двухуровневой обработки речевого сигнала с переспросом исправляют ошибки блока 1 первого уровня, что приводит к увеличению вероятности правильного распознавания системы в целом и в то же время за счет применения целословного анализа увеличивают быстродействие системы в целом.

Формула изобретения

1. Способ дикторонезависимого распознавания изолированных речевых команд, содержащий двухуровневую обработку речевого сигнала с отбором на первом уровне наиболее вероятных кандидатов слов для анализируемого сигнала и выбором на втором уровне наиболее вероятной альтернативы из отобранных кандидатов, отличающийся тем, что результаты распознавания речевого сигнала на первом и втором уровне анализируют блоком принятия решения и в случае несоответствия указанного результата требованиям блока принятия решения формируют сигнал переспроса блока первого уровня.

2. Способ по п.1, отличающийся тем, что на первом уровне проводят отбор наиболее вероятных кандидатов с применением целословного анализа.

3. Способ по п.1 или 2, отличающийся тем, что в блоке первого уровня при проведении целословного анализа изменяют расстояние от анализируемого речевого сигнала до эталонов с применением нелинейных функций.

4. Способ по п.1, отличающийся тем, что с помощью блока первого уровня измеряют расстояние от анализируемого речевого сигнала до эталонов блока первого уровня и величину порога решающего правила для отбора наиболее вероятных кандидатов определяют как нелинейную функцию от минимального расстояния до эталонов блока первого уровня.

РИСУНКИ

Рисунок 1

Изобретение относится к автоматике и вычислительной технике и может быть использовано в системах понимания речи, системах управления технологическим оборудованием, работами, средствами вычислительной техники, автоматического речевого перевода, в справочных системах и др

Способ распознавания изолированных слов речи с адаптацией к диктору // 2047912

Изобретение относится к анализу речи, в частности при распознавании больших словарей в приложениях типа автоматической пишущей машинки

Способ автоматического распознавания речевых сигналов // 1775730

Изобретение относится к приборостроению

Способ идентификации говорящего // 1629917

Способ идентификации личности по фонограммам произвольной устной речи // 2107950

Способ лексической интерпретации слитной речи и система для его реализации // 2119196

Изобретение относится к автоматике и вычислительной технике и может быть использовано в системах понимания речи, системах управления технологическим оборудованием, роботами, средствами вычислительной техники, автоматического речевого перевода, в справочных системах и др

Система и способ обработки речевого сигнала // 2121172