Способ и устройство для естественно-речевого распознавания речевого высказывания

Изобретение относится к способу и устройству для естественно-речевого распознавания речевого высказывания. Техническим результатом является создание способа и системы распознавания речи с большим объемом распознавания при небольшом грамматическом объеме. Указанный технический результат достигается тем, что способ для естественно-речевого распознавания речевого высказывания включает анализ речевого сигнала (10) параллельно или последовательно в нескольких ветвях устройства распознавания речи независимо друг от друга с использованием нескольких грамматик (12, 14, 26). Способ включает одновременную подачу речевого сигнала (10) к первой и второй ветвям распознавания речи, включающим в себя соответственно первую грамматику (12) и вторую грамматику (14) для анализа речевого сигнала. В случае распознавания или нераспознавания речевого высказывания посредством первой грамматики (12) или второй грамматики (14) получают первый или второй положительные результаты распознавания или первый или второй отрицательные результаты распознавания. Решение об успешном распознавании речевого высказывания принимают на основании оценки первого и второго результатов распознавания. Посредством первой грамматики (12) анализируют часто встречающиеся речевые высказывания, посредством второй грамматики (14) - реже встречающиеся речевые высказывания, а посредством каждой дополнительной грамматики (26) - еще реже встречающиеся речевые высказывания. Используют либо выданный первой грамматикой (12) результат распознавания, либо результат распознавания с наибольшей надежностью распознавания. 2 н. и 1 з.п. ф-лы, 2 ил., 1 табл.

 

Изобретение относится к способу и устройству для естественно-речевого распознавания речевого высказывания, в частности, на основе системы распознавания речи, который осуществляется, например, в электронной системе обработки данных.

Системы распознавания речи используются в различных областях. Например, они используются в сочетании с офисными приложениями для регистрации текстов или в сочетании с техническими устройствами для управления ими и для ввода команд. Системы распознавания речи используются также для управления информационными и коммуникационными приборами, например радио, мобильными телефонами и навигационными системами. Кроме того, многие фирмы используют системы речевых диалогов для консультирования и информирования клиентов, также основанные на системах распознавания речи. На это и направлена заявка.

При автоматическом распознавании речи для оценки последовательностей слов используются так называемые речевые модели, основанные на грамматическом правиле, называемом также грамматика или граммар. Грамматики определяют однозначные правила предложений. Основанные на грамматиках системы распознавания речи имеют высокую надежность распознавания.

В частности, при консультировании клиентов в технической области, например, что касается мобильных телефонов и тарифов, всегда требуются более мощные системы распознавания речи. Чтобы понимать многочисленные высказывания клиентов, требуются очень большие грамматики, объем которых снижает надежность распознавания.

Любой автоматизированный процесс распознавания речи основан на сравнении конкретного высказывания позвонившего с записанными словами или выражениями. Только в случае совпадения высказывание считается распознанным и может инициировать установленное действие. Однако из этого следует «Grammar Dilemma»: небольшие грамматики имеют небольшой объем распознавания, зато лучшую надежность распознавания. Большие грамматики, наоборот, покрывают широкий спектр выражений, тогда как надежность распознавания снижается.

В US 2002/013346 А1 раскрыт способ распознавания речи, при котором речевое высказывание лица регистрируется и преобразуется в обрабатываемый в устройстве распознавания речи речевой сигнал. Затем параллельно в нескольких ветвях устройства распознавания речи с использованием нескольких грамматик проводится анализ речевого сигнала, и процесс распознавания считается успешно завершенным, если анализ речевого сигнала, по меньшей мере, в одной ветви распознавания речи даст положительный результат распознавания.

Аналогичный способ с параллельной обработкой речевого сигнала с помощью нескольких грамматик раскрыт в US 2002/005845 A1.

В WO 00/14727 A1 раскрыта система распознавания речи, в которой с помощью нескольких грамматик проводится последовательная обработка речевого сигнала. Результаты отдельных этапов обработки взвешиваются и выдается общий результат.

Задачей изобретения является реализация способа и системы распознавания речи с большим объемом распознавания при небольшом грамматическом объеме. Следовательно, необходимо создать грамматическую модель, которая использовала бы позитивные аспекты больших и малых грамматик без имплицирования их негативных аспектов.

Эта задача решается согласно изобретению посредством способа и устройства, охарактеризованными признаками независимых пунктов формулы.

Предпочтительные варианты осуществления и другие предпочтительные признаки изобретения приведены в зависимых пунктах формулы.

Предложенный способ основан на регистрации речевого высказывания лица и его преобразовании в обрабатываемый в устройстве распознавания речи речевой сигнал, анализе речевого сигнала параллельно или последовательно в нескольких ветвях устройства распознавания речи с использованием нескольких грамматик и успешном завершении процесса распознавания, если анализ речевого сигнала, по меньшей мере, в одной ветви распознавания речи даст положительный результат.

В первом варианте происходит одновременный анализ речевого высказывания двумя или более независимыми грамматиками. В этом случае речевое высказывание лица инициирует два или более одновременных процесса распознавания, которые анализируют и оценивают речевое высказывание независимо друг от друга. Например, здесь сравнительно небольшая основная грамматика с небольшим объемом распознавания уступает место вспомогательной грамматике большего охвата с расширенным объемом распознавания. Обе грамматики не пересекаются.

Второй вариант касается грамматического каскада. В этой модели друг за другом, т.е. последовательно, используются различные грамматики. В тот момент, когда одна грамматика выдает результат распознавания, каскад покидается, и процесс распознавания заканчивается. В этом способе 100% всех распознаваемых высказываний сравниваются с первой грамматикой. В зависимости от производительности и выполнения этой грамматики часть нераспознанных высказываний, например 20%, передается на вторую ступень распознавания. В случае наличия третьей ступени распознавания можно исходить из того, что часть всех входящих высказываний, например 5%, достигает этой третьей ступени распознавания.

Оба способа распознавания покрывают широкий спектр выражений с несколькими «меньшими» грамматиками, которые в комбинации тем не менее гарантируют высокую надежность распознавания. Это может происходить, как сказано выше, в виде одновременного или последовательного процесса распознавания.

Оба предпочтительных варианта осуществления изобретения описаны ниже с помощью чертежей, на которых изображают:

фиг.1 - схематично первый вариант системы распознавания речи с параллельно работающими ветвями распознавания речи;

фиг.2 - схематично второй вариант системы распознавания речи с последовательно работающими, каскадными ветвями распознавания речи.

На фиг.1 речевое высказывание лица в виде речевого сигнала 10 подается одновременно к двум ветвям распознавания речи и анализируется двумя грамматиками 12, 14 (грамматики А, В). Обе грамматики 12, 14 не пересекаются, т.е. они основаны на разных правилах. За счет параллельной обработки речевого сигнала повышаются затраты на анализ и тем самым необходимая вычислительная нагрузка при применении способа в компьютере. Это обстоятельство компенсируется более быстрым распознаванием и существенно более высокой его надежностью.

Сравнение 16 речевого сигнала с грамматикой (А) 12 приводит либо к положительному (да), либо к отрицательному (нет) результату распознавания. Точно так же сравнение 18 речевого сигнала с грамматикой (В) 14 приводит либо к положительному (да), либо к отрицательному (нет) результату распознавания. В процессе распознавания с одновременно работающими грамматиками 12, 14 возникают четыре возможных случая распознавания, которые могут оцениваться разными методами посредством логики 20 (см. таблицу).

Случай распознавания Грамматика 1 (основная грамматика) Грамматика 2 (вспомогательная грамматика) Общий результат
1 Отсутствие результата (нет) Отсутствие результата (нет) Не распознан
2 Результат (да) Отсутствие результата (нет) Распознан
3 Отсутствие результата (нет) Результат (да) Распознан
4 Результат (да) Результат (да) Распознан

Случаи 1-3 распознавания не связаны с проблемами, поскольку они дают однозначные результаты. В случае 1 речевой сигнал не распознается и тем самым отклоняется (поз.24). Случаи 2, 3 дают только положительный результат и показывают тем самым однозначно распознавание речевого сигнала (поз.22).

В случае 4, когда обе грамматики 12, 14 распознают речевой сигнал 10, необходимо, напротив, реализовать логику, поскольку результат неоднозначен. Она может принять решение в пользу грамматики 12, может быть ориентирована на надежность распознавания (Confidence Level) или может представлять собой смешанную форму из обоих (например, результат от грамматики 14 используется только тогда, когда надежность распознавания на заданное значение выше, чем от грамматики 12).

Вместо двух параллельных ветвей распознавания речи могут быть предусмотрены согласно изобретению также три или более таких параллельно работающих ветвей.

На фиг.2 изображен другой предпочтительный вариант. Здесь несколько грамматик 12, 14, 26 (грамматики А, В, С) последовательно соединены между собой каскадом. Это значит, что в случае грамматического каскада обращение к различным грамматикам 12, 14, 26 происходит не одновременно, а последовательно. Схематично процесс распознавания можно представить следующим образом: в момент, когда одна грамматика дает положительный результат распознавания, каскад покидается и процесс распознавания завершается (поз.22).

Речевой сигнал 10 подается сначала к первой грамматике (А) 12 и подвергается там анализу. Сравнение 16 речевого сигнала с грамматикой (А) 12 приводит либо к положительному результату распознавания (да), при котором процесс распознавания успешно завершен, либо к отрицательному результату распознавания (нет), при котором речевой сигнал подается для дальнейшего анализа ко второй грамматике (В) 14. Сравнение 18 речевого сигнала 10 с грамматикой (В) 14 приводит либо к положительному результату распознавания (да), при котором процесс распознавания успешно завершен, либо к отрицательному результату распознавания (нет), при котором речевой сигнал подается для дальнейшего анализа к третьей грамматике (С) 26. Сравнение речевого сигнала с грамматикой (С) 26 приводит либо к положительному результату распознавания (да), при котором процесс распознавания успешно завершен, либо к отрицательному результату распознавания (нет), при котором речевой сигнал отклоняется как нераспознанный (поз.24).

В этом способе сначала все 100% входящих речевых сигналов 10 сравниваются с первой грамматикой 12. В зависимости от производительности и выполнения этой грамматики часть речевых высказываний не распознается. Эти нераспознанные речевые сигналы передаются на вторую ступень распознавания. В зависимости от производительности и выполнения второй ступени распознавания речевые сигналы передаются на третью ступень распознавания.

Преимущество грамматического каскада по сравнению со способом одновременного распознавания посредством нескольких грамматик состоит в том, что не возникает дополнительной вычислительной нагрузки, поскольку речевой сигнал 10 в любой момент сравнивается только с одной грамматикой. Однако последовательное распознавание неизбежно приведет к увеличению латентного времени в системе.

Вместо трех ветвей распознавания речи каскадом могут быть предусмотрены согласно изобретению также четыре или более последовательно работающих ветвей распознавания речи.

Перечень ссылочных позиций

10 - речевой сигнал

12 - грамматика А

14 - грамматика В

18 - ответвление А

20 - ответвление В

22 - распознавание завершено

22 - распознавание не завершено

26 - грамматика С

28 - ответвление С

1. Способ для естественно-речевого распознавания речевого высказывания, включающий в себя следующие этапы:
распознавание речевого высказывания и его преобразование в обрабатываемый в устройстве распознавания речи речевой сигнал (10);
анализ речевого сигнала (10) параллельно или последовательно в нескольких ветвях устройства распознавания речи независимо друг от друга с использованием нескольких грамматик (12, 14, 26);
успешное завершение процесса распознавания речевого высказывания, если анализ речевого сигнала, по меньшей мере, в одной ветви распознавания речи даст положительный результат;
и способ включает в себя следующие этапы:
a) подачу речевого сигнала (10), по меньшей мере, к одной первой ветви распознавания речи, включающей в себя первую грамматику (12) для анализа речевого сигнала, и одновременно ко второй ветви распознавания речи, включающей в себя вторую грамматику (14) для анализа речевого сигнала,
b) анализ речевого сигнала посредством первой грамматики (12), причем в случае распознавания речевого высказывания получают первый положительный результат распознавания, а в случае нераспознавания речевого высказывания - первый отрицательный результат распознавания;
c) анализ речевого сигнала посредством второй грамматики (14), причем в случае распознавания речевого высказывания получают второй положительный результат распознавания, а в случае нераспознавания речевого высказывания - второй отрицательный результат распознавания;
d) принятие решения об успешном распознавании речевого высказывания на основании оценки первого и второго результатов распознавания, отличающийся тем, что посредством первой грамматики (12) анализируют часто встречающиеся речевые высказывании, посредством второй грамматики (14) - реже встречающиеся речевые высказывания, а посредством каждой дополнительной грамматики (26) - еще реже встречающиеся речевые высказывания,
в случае, если и первый, и второй результаты распознавания не являются положительными, то речевое высказывание считается нераспознанным,
в случае, если либо первый, либо второй результат распознавания является положительным, то речевое высказывание считается распознанным, и
в случае, если и первый, и второй результаты распознавания являются положительными, то речевое высказывание считается распознанным,
и используют либо выданный первой грамматикой (12) результат распознавания,
либо результат распознавания с наибольшей надежностью распознавания.

2. Способ по п.1, отличающийся тем, что правила грамматик (12, 14, 26) не пересекаются.

3. Устройство для осуществления способа по пп.1 или 2 для естественно-речевого распознавания речевого высказывания, содержащее
средства (10) для регистрации речевого высказывания и для его преобразования в обрабатываемый в устройстве распознавания речи речевой сигнал,
устройство распознавания речи с несколькими ветвями распознавания речи, причем каждая ветвь распознавания речи содержит грамматику (12, 14, 26) для анализа речевого сигнала (10),
причем речевой сигнал подается к ветвям распознавания речи параллельно, и
средства (20, 22, 24) для управления и оценки процесса распознавания, в зависимости от результата распознавания, по меньшей мере, в одной ветви распознавания речи.



 

Похожие патенты:

Изобретение относится к системам передачи речевой активности в распределенной системе распознавания голоса. .

Изобретение относится к способам кодирования и декодирования аудиосигнала без потерь. Техническим результатом является повышение эффективности кодирования и снижение требуемого для кодирования объема памяти. Раскрыты устройство и способ основанного на контексте арифметического кодирования, а также устройство и способ основанного на контексте арифметического декодирования. Устройство, основанное на контексте арифметического декодирования может определять контекст текущего кортежа из N элементов, который должен быть декодирован, определять контекст старшего бита (MSB), соответствующий MSB-символу текущего кортежа из N элементов, и определять вероятностную модель с использованием контекста кортежа из N элементов и MSB-контекста. Затем устройство основанного на контексте арифметического декодирования может выполнять декодирование для MSB на основе определенной вероятностной модели и выполнять декодирование для младшего бита (LSB) на основе битовой глубины LSB, извлеченного из процесса декодирования для управляющего кода. 28 н. и 51 з.п. ф-лы, 29 ил.

Изобретение относится к информационным технологиям, в частности к способу коммуникации пользователя с информационной диалоговой системой, и может быть использовано для организации взаимодействия пользователя с информационной диалоговой системой на основе естественного языка. Технический результат - возможность взаимодействия с системой посредством ввода текста и использования естественного языка. Способ коммуникации пользователя с информационной диалоговой системой включает в себя: активацию подсистемы пользовательского ввода, получение подсистемой запроса пользователя и преобразование его в текст, обработку диалоговым модулем полученного текста и ответа на запрос, отображение и/или воспроизведение сформированного ответа, причем по истечении заранее заданного интервала времени после отображения и/или воспроизведения сформированного ответа выполняется автоматическая повторная активация подсистемы пользовательского ввода для обеспечения возможности получения нового или уточняющего запроса. 15 з.п. ф-лы, 1 ил.

Изобретение относится к информационным технологиям, в частности к способу обучения информационной диалоговой системы пользователем на основе естественного языка. Технический результат - расширение возможности взаимодействия пользователя с информационной диалоговой системой за счет обеспечения возможности «подстроить» систему согласно предпочтениям пользователя. Способ обучения информационной диалоговой системы пользователем включает этапы, на которых: получают подсистемой пользовательского ввода обучающий запрос, преобразовывают подсистемой запроса в текст, обрабатывают диалоговым модулем текст обучающего запроса, формируют ответ на обучающий запрос, отображают и/или воспроизводят сформированный ответ, выполняют настройку информационной диалоговой системы с целью выполнения отображения и/или воспроизведения по меньшей мере одного персонализированного ответа или по меньшей мере одного действия диалоговой системой при получении от пользователя заранее определенного вопроса или запроса, при этом обучающий запрос содержит пользовательскую команду на задание по меньшей мере одного персонализированного ответа или по меньшей мере одного действия информационной диалоговой системы на определенный вопрос или запрос пользователя. 16 з.п. ф-лы, 2 ил.

Изобретение относится к области распознавания речи. Техническими результатами являются уменьшение задержки распознавания речи, увеличение точности распознавания речи, а также увеличение общего грамматического охвата в распознавании речи. При распознавании речи применяется общая грамматика как набор зависящих от контекста грамматик для распознавания входных данных, каждая из которых отвечает за конкретный контекст. Грамматики вместе охватывают всю область. Используются множественные распознавания параллельно по отношению к одним и тем же входным данным, причем каждое распознавание использует зависящие от контекста грамматики. Множественные промежуточные результаты распознавания от различных пар распознаватель-грамматика согласуются посредством запуска повторного распознавания с помощью динамически составленной грамматики на основе множественных результатов распознавания и знаний другой области или выбора победителя с помощью статистического классификатора, работающего по классифицирующим признакам, извлеченным из множественных результатов распознавания и знаний другой области. 5 н. и 17 з.п. ф-лы, 9 ил.

Изобретение относится к средствам для генерирования диалоговых рекомендаций для чатовых информационных систем. Технический результат заключается в повышении эффективности взаимодействия пользователя с чатовой информационной системой. Получают пользовательский ввод на основе речи. Распознают по меньшей мере часть пользовательского ввода на основе речи для генерирования распознанного ввода. Предоставляют по меньшей мере один ответ на распознанный ввод. Идентифицируют по меньшей мере одно инициирующее событие. Генерируют по меньшей мере одну диалоговую рекомендацию по меньшей мере частично на основе идентификации. Предоставляют по меньшей мере одну диалоговую рекомендацию пользователю посредством пользовательского устройства. 3 н. и 22 з.п. ф-лы, 10 ил.
Наверх