Устройство и способ распознавания речи

Авторы патента:

G10L25/63 - Анализирование или синтезирование речи; распознавание речи (ввод/вывод звука для компьютеров G06F 3/16; способы или устройства для обработки цифровых данных, специально предназначенных для манипулирования данными на естественном языке G06F 17/20; обучение или общение со слепыми, глухими или немыми G09B 21/00; телефонная связь H04M)

G10L15/28 - конструктивные детали систем распознавания речи

G10L15/22 - методы, используемые в процессе распознавания речи, например диалог человека с машиной

G10L15/07 - Распознавание речи (G10L 17/00 имеет преимущество)

Владельцы патента RU 2698773:

Форд Глобал Технолоджис, ЛЛК (US)

Изобретение относится к вычислительной технике для распознавания речи. Технический результат заключается в повышении точности распознавания речи пользователя. Технический результат достигается за счет обработки звуковых сигналов от пользователя, причем распознаются фонемы пользователя, сохранения упомянутых фонем во внешнем блоке памяти, предназначенном только для этого пользователя и расположенном вне блока обработки, и автоматического извлечения упомянутых сохраненных во внешнем блоке памяти фонем, при каждом повторном включении устройства, и передачи этих фонем в блок обработки для использования в обработке последующих звуковых сигналов от пользователя. 3 н. и 12 з.п. ф-лы, 1 ил.

Область техники, к которой относится изобретение

Настоящее изобретение относится к устройству и способу распознавания речи, в частности, в транспортном средстве.

Уровень техники

Как правило, для обработки звуковых сигналов от пользователя в системах распознавания речи используется заранее заданный персональный речевой профиль пользователя. В этой связи пользователь может быть идентифицирован по тому, как он произносит фонемы, после чего распознавание фонем может быть выполнено с учетом особенностей конкретного пользователя, т.е. с учетом его произношения или речевых моделей. Фонемы представляют собой минимальную смыслоразличительную единицу языка, например, в немецком языке насчитывается порядка 40 различных фонем.

Для распознавания фонем входные сигналы обрабатывают, пропуская их через разные фильтры, где используются различные предельные значения частоты и времени. Полученные значения используются в качестве параметров для системы распознавания речи, которая может использовать скрытую марковскую модель (НММ) или искусственные нейронные сети. После этого пользователю, о котором идет речь, будет выдан ответ, учитывающий его произношение и такие особенности речи, как диалект или акцент, произношение носителя языка и т.д.

При использовании систем распознавания речи, в частности, в начале работы с новой системой возникают проблемы, связанные с тем, что для адаптации системы к новому пользователю ей требуется определенное время, в частности, в случае распознавания речи в транспортном средстве является неудобным и раздражающим, что данную адаптацию (корректировку) приходится выполнять при каждом перезапуске транспортного средства. Кроме того, необходимая стадия обучения тяжела для пользователя из-за того, что в некоторых случаях приходится вводить команды по несколько раз, а иногда система может выдавать неправильные или нежелательные ответные сигналы, в результате чего приходится многократно настраивать группы команд.

В частности, в патенте ЕР 1678008 В1, 25.03.2009 раскрыта система для выбора речевого профиля пользователя для устройства транспортного средства, подключенного к нескольким внешним устройствам, при этом система распознавания речи соединена с запоминающим устройством, на котором хранится несколько речевых профилей пользователей. Блок управления включает в себя систему распознавания речи, которая использует идентификатор, полученный от внешних устройств распознавания, для выбора определенного речевого профиля пользователя из нескольких речевых профилей пользователей. Выбранный речевой профиль пользователя используется системой распознавания речи для обработки звуковых сигналов от пользователя.

Более подробно системы, известные из уровня техники, рассмотрены в патентах US 8,447,598 В2, 21.05.2013 и DE 10 2006 056 286 А1, 12.06.2008.

Целью настоящего изобретения является создание устройства и способа распознавания речи, в частности, в транспортном средстве, которые обеспечивают достоверность распознавания речи и позволят избежать необходимости повторного проведения стадии обучения.

Раскрытие изобретения

Данная цель достигается с помощью устройства с отличительными признаками независимого пункта 1 и способа с отличительными признаками независимого пункта 10.

Соответствующее настоящему изобретению устройство распознавания речи, в частности, в транспортном средстве, с блоком обработки для обработки звуковых сигналов от пользователя, на основании речевого профиля, соответствующего данному пользователю, выполненное с возможностью выполнять следующие действия:

сохранять речевой профиль определенного пользователя во внешнем блоке памяти, предназначенном только для этого пользователя и расположенном вне блока обработки;

автоматически извлекать данные речевого профиля пользователя, сохраненного во внешнем блоке памяти, при каждом перезапуске (повторном включении) устройства, после чего автоматически извлеченный речевой профиль пользователя передается в блок обработки для обработки последующих звуковых сигналов от пользователя.

В соответствии с одним аспектом настоящего изобретения предварительно настроенный речевой профиль пользователя, который включает в себя предварительно изученные параметры, характеризующие произношение или речевую модель определенного пользователя, хранится во внешнем блоке памяти, предназначенном только для этого пользователя и расположенном вне блока обработки (иными словами, «персональная система» или «персональный блок памяти»). Таким образом, данная персональная система может передавать параметры, о которых идет речь, в блок обработки устройства для распознавания речи при каждой перезагрузке (иными словами, например, при каждом пуске двигателя автомобильного транспортного средства), что позволит избежать необходимости повторного «тренинга» устройства для распознавания речи.

Речевой профиль пользователя, хранящийся во внешнем блоке памяти, может, к тому же, непрерывно уточняться (адаптироваться), например, при значительных или дополнительных различиях между речевыми моделями, содержащимися в сохраненном речевом профиле пользователя, и в текущем обнаруженном речевом поведении пользователя, что может быть вызвано стрессом, усталостью или болезнью пользователя. В соответствии с настоящим изобретением подобные уточнения могут быть внесены достаточно быстро, поскольку после первого сохранения речевого профиля пользователя основной набор предварительно изученных фонем уже доступен и всего лишь извлекаются из внешнего блока памяти или персональной системы силу при каждом повторном запуске системы. Все изменения или корректировки могут касаться только подгруппы фонем или поднабора фонем актуального «фонемного поля», при этом подгруппа значительно меньше, чем доступное общее «фонемное поле», благодаря чему внесение изменений может быть выполнено значительно быстрее и проходить практически незаметно для пользователя.

Поскольку изученные речевые параметры или фонемы (т.е. соответствующий речевой профиль пользователя) хранятся и при каждом перезапуске извлекаются из внешнего блока памяти или из персональной системы, например, с портативного устройства, настоящее изобретение позволяет адаптировать практически любые системы распознавания речи, например, системы, установленные в транспортном средстве, для определенного пользователя, используя- соответствующие параметры. Следовательно, настоящее изобретение не ограничивается использованием, например, в определенном транспортном средстве, достаточно соответствующей корректировки и распознавание речи для соответствующего пользователя может быть выполнено в любое время в любом транспортном средстве просто, надежно и удобно. Данная система особенно эффективна для использования в арендуемых автомобилях, служебных автомобилях, совместно используемых автомобилях и т.д. Данная система распознавания речи сразу будет готова выполнять соответствующие команды водителя или пользователя без необходимости выполнения предварительного тренинга.

Еще одним преимуществом настоящего изобретения является отсутствие необходимости использования дополнительного аппаратного обеспечения и отсутствия соответствующих расходов, поскольку для его осуществления можно использовать стандартные модули передачи данных, а обработка фонем уже является частью соответствующей существующей системы распознавания речи.

В соответствии с настоящим изобретением блок памяти, предназначенный для пользователя, установлен в мобильном или портативном запоминающем устройстве, в частности, в ключе зажигания, брелоке, браслете и т.д. В соответствии с другим вариантом осуществления блок памяти, предназначенный для пользователя, может также быть областью памяти в «облачной» памяти.

В соответствии с настоящим изобретением устройство также выполнено с возможностью сохранять и извлекать речевой профиль пользователя при помощи беспроводной передачи данных, которая может быть дополнительно задействована, с использованием криптографической защиты и(или) защиты паролем. Таким образом, передача данных может быть ограничена лимитированным количеством фонем, что позволит избежать замедления работы сети или перегрузки каналов передачи данных.

В соответствии с настоящим изобретением устройство также выполнено с возможностью выполнять автоматическую корректировку речевого профиля пользователя в соответствии с текущей речевой моделью пользователя.

В соответствии с настоящим изобретением устройство также выполнено с возможностью корректировать речевой профиль пользователя, переданный в блок обработки для использования в обработке последующих звуковых сигналов от пользователя, в том случае, если во время обработки звуковых сигналов от пользователя наблюдается ухудшение различимости последовательных фонем и(или) снижение доли распознавания фонем.

В соответствии с настоящим изобретением устройство также выполнено с возможностью вызывать генерирование предупреждающего сигнала на основании отклонения между речевым профилем пользователя, сохраненным во внешнем блоке памяти, и текущей речевой моделью пользователя.

Настоящее изобретение относится также к способу распознавания речи, в частности, для транспортного средства при помощи блока обработки для обработки звуковых сигналов от пользователя на основании соответствующего речевого профиля пользователя, данный способ включает в себя следующие этапы:

- сохранение речевого профиля определенного пользователя во внешнем блоке памяти, предназначенном только для этого пользователя и расположенном вне блока обработки;

- автоматическое извлечение речевого профиля пользователя, сохраненного во внешнем блоке памяти, при каждом перезапуске устройства, после чего автоматически извлеченный речевой профиль пользователя передается в блок обработки для использования в последующей обработке звуковых сигналов от пользователя.

Дополнительные варианты осуществления рассмотрены в нижеприведенном описании и ограничены зависимыми пунктами формулы изобретения.

Далее изобретение будет описываться на примере со ссылкой на сопроводительный чертеж.

Краткое описание чертежей

На фиг. 1 представлено схематическое изображение, поясняющее основной принцип работы и существенные признаки настоящего изобретения.

Осуществление изобретения

Согласно изобретению устройство распознавания речи включает в себя блок обработки для обработки звуковых сигналов от пользователя на основании речевого профиля, соответствующего пользователю. Изображенный на фиг. 1 блок обработки может быть установлен в транспортном средстве 1. Известный из уровня техники блок обработки способен обрабатывать звуковые сигналы от пользователя или водителя на основании речевого профиля пользователя, а также распознавать фонемы в соответствии с методиками, известными из уровня техники, и вносить соответствующие корректировки на основании результата распознавания речи определенного пользователя.

В соответствии с настоящим изобретением эти фонемы, соответствующие определенному пользователю, хранятся во внешнем блоке памяти, предназначенном только для этого пользователя и расположенном вне блока обработки (в так называемой «персональной системе» или «персональном блоке памяти»), возможно, что персональное устройство, пример которого изображен на фиг. 1, может представлять собой ключ зажигания или брелок 2, снабженные функцией памяти, или запоминающее устройство, носимое пользователем на запястье, например, в виде браслета 3. В соответствии с другим вариантом осуществления соответствующие фонемы могут храниться в области памяти «облачной памяти» 4.

Фонемы, хранящиеся в персональном устройстве или в персональном внешнем блоке памяти, извлекаются из блока памяти при каждом перезапуске устройства для распознавания речи или транспортного средства 1 и передаются в блок обработки по проводной или беспроводной сети 5 связи, как показано на фиг. 1.

На практике непрерывная корректировка фонем может быть выполнена, чтобы, например, учесть любые возможные изменения временной/частотной характеристики произношения пользователя или водителя. В частности, автоматическая корректировка речевого профиля пользователя может выполняться при обнаружении значительных изменений или отклонений между сохраненной речевой моделью и текущей речевой моделью соответствующего пользователя (что может быть вызвано стрессом, усталостью или болезнью) или при значительном ухудшении различимости последовательных фонем и(или) снижении доли распознавания фонем, например, вызванных болезнью или усталостью пользователя или водителя.

В соответствии с одним вариантом осуществления состояние пользователя или водителя может быть также определено на основании соответствующих отклонений между сохраненными речевыми моделями и текущими речевыми моделями определенного пользователя, также могут генерироваться или выдаваться соответствующие предупреждения (например, по поводу усталости водителя).

В соответствии с другими вариантами осуществления настоящее изобретение также может включать в себя определенный набор фонем на основании предварительно выявленного состояния водителя (например, «больной», «раздраженный», «уставший», «нормальный» и т.д.), который также может быть выбран автоматически и в «интеллектуальном» режиме до приобретения состояния водителя (например, на основании спектрального и(или) кепстрального анализа).

1. Устройство для распознавания речи с блоком обработки для обработки звуковых сигналов от пользователя на основании речевого профиля, соответствующего этому пользователю, выполненное с возможностью:

обрабатывать звуковые сигналы от пользователя, причем распознаются фонемы пользователя,

сохранять упомянутые фонемы во внешнем блоке памяти, предназначенном только для этого пользователя и расположенном вне блока обработки, и

автоматически извлекать упомянутые сохраненные во внешнем блоке памяти фонемы, при каждом повторном включении устройства, и передавать эти фонемы в блок обработки для использования в обработке последующих звуковых сигналов от пользователя.

2. Устройство по п. 1, которое предназначено для распознавания речи в транспортном средстве.

3. Устройство по п. 1, в котором блок памяти, предназначенный пользователю, расположен в мобильном и портативном запоминающем устройстве.

4. Устройство по п. 3, в котором блок памяти, предназначенный пользователю, расположен в ключе (2) зажигания, или брелоке, или браслете (3).

5. Устройство по п. 1 или 3, в котором блок памяти, предназначенный пользователю, представляет собой область памяти «облачной памяти» (4).

6. Устройство по п. 1, которое дополнительно выполнено с возможностью осуществлять сохранение и извлечение фонем пользователя при помощи беспроводной передачи данных.

7. Устройство по п. 1, которое дополнительно выполнено с возможностью осуществлять сохранение и извлечение фонем пользователя при помощи криптографической защиты.

8. Устройство по п. 1, которое дополнительно выполнено с возможностью осуществлять автоматическую корректировку фонем пользователя во внешнем блоке памяти в соответствии с текущей речевой моделью пользователя.

9. Устройство по п. 1, которое выполнено с возможностью корректировать фонемы пользователя, переданные в блок обработки для использования в обработке последующих звуковых сигналов от пользователя, в случае, если во время обработки звуковых сигналов от пользователя выявлено ухудшение различимости последовательных фонем и (или) снижение доли распознавания фонем.

10. Устройство по п. 1, в котором непрерывно осуществляется адаптация фонем пользователя, переданных в блок обработки для использования в обработке последующих звуковых сигналов от пользователя, в случае, если во время обработки звуковых сигналов от пользователя выявлено ухудшение различимости последовательных фонем и (или) снижение доли распознавания фонем.

11. Устройство по п. 1, которое дополнительно выполнено с возможностью вызывать генерирование предупреждающего сигнала на основании отклонения между речевым профилем пользователя, сохраненным во внешнем блоке памяти, и текущей речевой моделью пользователя.

12. Способ распознавания речи с помощью устройства для распознавания речи с блоком обработки, предназначенным для обработки звуковых сигналов от пользователя на основании речевого профиля, соответствующего этому пользователю, в котором:

обрабатывают звуковые сигналы от пользователя, причем распознаются фонемы пользователя,

сохраняют упомянутые фонемы во внешнем блоке памяти, предназначенном только для этого пользователя и расположенном вне блока обработки, и

автоматически извлекают упомянутые сохраненные во внешнем блоке памяти фонемы, при каждом повторном включении устройства, и передают эти фонемы в блок обработки для использования в обработке последующих звуковых сигналов от пользователя.

13. Способ по п. 12, который предназначен для использования в транспортном средстве.

14. Способ распознавания речи с помощью устройства для распознавания речи с блоком обработки, предназначенным для обработки звуковых сигналов от пользователя на основании речевого профиля, соответствующего этому пользователю, в котором:

обрабатывают звуковые сигналы от пользователя, причем идентифицируют фонемы пользователя,

причем осуществляют непрерывную адаптацию фонем пользователя, переданных в блок обработки для использования в обработке последующих звуковых сигналов от пользователя, в случае, если во время обработки звуковых сигналов от пользователя выявлено ухудшение различимости последовательных фонем и (или) снижение доли распознавания фонем.

15. Способ по п. 14, который предназначен для использования в транспортном средстве.

Изобретение относится к коммуникационному устройству и коммуникационному роботу. Технический результат заключается в создании коммуникационного устройства, которое позволяет персонажу отображать даже для одного и того же диалога различные выражения лица в зависимости от ситуации.

Устройство преобразования коэффициентов линейного предсказания и способ преобразования коэффициентов линейного предсказания // 2694150

Изобретение относится к области кодирования аудио и речи. Технический результат – обеспечение эффективного сокращения объема вычислений при преобразовании коэффициентов линейного предсказания.

Устройство оценки качества аудиовизуального сигнала и способ оценки качества аудиовизуального сигнала // 2693027

Изобретение относится к оценке качества аудиовизуального сигнала. Техническим результатом является обеспечение оценки качества аудиовизуального сигнала с возможностью адекватного представления качества аудиовизуального сигнала, воспринимаемого зрителем.

Стереофонический кодер и декодер аудиосигналов // 2690885

Изобретение относится к средствам стереофонического кодирования и декодирования аудиосигналов. Технический результат заключается в повышении эффективности использования полосы частот.

Распознавание смешанной речи // 2686589

Изобретение относится к средствам для распознавания смешанной речи. Технический результат заключается в повышении точности распознавания смешанной речи.

Обнаружение разговора // 2685970

Изобретение относится к средствам для обнаружения разговора между пользователями. Технический результат заключается в повышении точности автоматического обнаружения разговора между пользователями.

Способ, устройство и система для подавления шума // 2685391

Изобретение относится к средствам для подавления шума. Технический результат заключается в повышении эффективности подавления шума.

Способ получения кадра модификации речевой активности, устройство и способ обнаружения речевой активности // 2684194

Изобретение относится к средствам для получения кадра модификации речевой активности. Технический результат заключается в повышении эффективности обработки речевых сигналов.

Улучшенное расширение диапазона частот в декодере звукового сигнала // 2682923

Изобретение относится к области обработки звуковых сигналов. Технический результат заключается в повышении качества обработки звукового сигнала при расширении частотного диапазона звукового сигнала.

Усовершенствованная коррекция потери кадров с помощью речевой информации // 2682851

Изобретение относится к вычислительной технике для обработки цифрового аудиосигнала. Технический результат заключается в повышении качества аудиосигнала после коррекции потери кадра.

Способ и устройство для естественно-речевого распознавания речевого высказывания // 2432623

Изобретение относится к способу и устройству для естественно-речевого распознавания речевого высказывания. .

Способ передачи речевой активности в распределенной системе распознавания голоса и система для его осуществления // 2291499

Изобретение относится к системам передачи речевой активности в распределенной системе распознавания голоса. .

Коммуникационное устройство, коммуникационный робот и машиночитаемый носитель данных // 2696307

Способ и система для выстраивания диалога с пользователем в удобном для пользователя канале // 2688758

Изобретение относится к вычислительной технике. Технический результат – увеличение скорости обслуживания пользователя.

Взаимодействие цифрового персонального помощника с подражаниями и полнофункциональными мультимедиа в ответах // 2682023

Изобретение относится к области вычислительной техники. Технический результат заключается в улучшении эффективности со временем посредством непрерывного взаимодействия с пользователем.

Идентификация контактов с использованием распознавания речи // 2682005

Изобретение относится к области вычислительной техники для обработки голоса. Технический результат заключается в повышении точности идентификации голосовых команд пользователя.

Способ обработки естественного выражения, способ, устройство и система обработки и ответа // 2672176

Изобретение относится к способу обработки информации. Техническим результатом является увеличение скорости запроса и обновления данных за счет снижения сложности базы данных для преобразования выражений.

Способы и системы для обработки диалога с роботом // 2668062

Изобретение относится к области обработки синтеза речи и интерактивных диалогов. Техническим результатом является обеспечение возможности регулировки формы и/или содержания диалогового контента, произносимого человекоподобным роботом.

Диалоговые политики на основе параметров окружающей среды и генерация ответа // 2667717

Изобретение относится к переговорной диалоговой системе. Техническим результатом является расширение арсенала технических средств.

Способ двухрежимного голосового управления, устройство и терминал пользователя // 2664410

Изобретение относится к области вычислительной техники. Технический результат заключается в обеспечении двухрежимного голосового управления голосовым вводом.

Способ непрерывного контроля психофизиологического состояния водителей, перевозящих опасные грузы и пассажиров по дорогам общего пользования, система, его реализующая, и блок обработки и управления, используемый в ней // 2662293

Изобретение относится к способам и средствам мониторинга и оценки производительности человека. Средство мониторинга включает в себя: сбор данных о состоянии водителя от датчиков электроэнцефалограммы и видеокамеры, сбор данных о характере движения транспортного средства, голосовой опрос водителя, интеллектуальное отслеживание пороговых значений и динамики данных, активацию устройств, активацию бортовых приборов транспортного средства.