Способ дикторонезависимого распознавания звуков речи

Авторы патента:

G10L19/02 - с использованием спектрального анализа, например преобразовательные вокодеры, вокодеры с поддиапазонами

Изобретение относится к распознаванию речи. Его использование позволяет получить технический результат в виде повышения вероятности правильного распознавания звуков речи. Способ включает в себя сегментацию речевого сигнала по времени, определение периодичности каждого звукового сегмента для соотнесения звукового сегмента к конкретному виду звуков речи, определение амплитуды и частоты каждой из первых трёх формант в спектре звукового сегмента в качестве информативных признаков, интеграция этих признаков для каждого звукового сегмента, фонемное распознавание каждого звукового сегмента путём сопоставления его интегральных значений, принятие решения о распознаваемом звуке речи и представление его в виде буквенного обозначения. Технический результат достигается благодаря тому что соотнесение звукового сегмента осуществляют к голосовому, шумному или шумно-голосовому виду звуков речи, выполняют основную сегментацию речевого сигнала по трём основным режимам, при фонемном распознавании сопоставляют интегральные значения информативных признаков каждого звукового сегмента в зависимости от числа формант в звуковом сегменте, устанавливают временные границы звуков речи в зависимости от изменения фонемной принадлежности звукового сегмента, после чего и принимают решение относительно распознаваемого звука речи. 1 ил.

Изобретение относится к системам обработки информации, а именно к способам построения систем распознавания речи.

Известен способ распознавания, построенный с использованием методов фонемного анализа (патент США №5315689, МПК G 10 L 5/06, 1995), в котором применяется двухуровневая обработка речевого сигнала. Блок первого уровня осуществляет распознавание слова (команды) как звукового (слухового) образа в целом. Альтернативный блок второго уровня производит фонемное распознавание звукового сигнала.

Недостатком этого способа является снижение степени вероятности правильного распознавания слов (фраз) при увеличении объема словаря распознаваемых слов.

В качестве ближайшего аналога автором принят способ обработки речевого сигнала с использованием блока первого уровня, построенного на основании метода динамического программирования, и блока второго уровня, построенного с использованием методов фонемного анализа (патент RU №2103753, МПК G 10 L 5/04, приоритет 03.02.97 г.). Блок первого уровня отбирает наиболее вероятных кандидатов слов для анализируемого сигнала и выбора на втором уровне наиболее вероятной альтернативы из отобранных кандидатов, отличающийся тем, что результаты распознавания речевого сигнала на первом и втором уровнях анализируют блоком принятия решения и в случае несоответствия указанного результата требованиям блока принятия решения формируют сигнал переспроса блока первого уровня.

Основным недостатком способа по патенту RU №2103753 является снижение степени вероятности правильного распознавания слов (фраз) при увеличении объема словаря распознаваемых слов.

Перед заявителем изобретения поставлена задача повышения вероятности правильного фонемного распознавания звуков речи, осуществляемого без предварительной подстройки под голос диктора.

Указанная задача решается за счет того что применяется способ дикторонезависимого фонемного распознавания звуков речи, образующих слова, содержащий многоуровневую обработку сигнала. Отличительная особенность способа состоит в том, что ведут многоуровневую обработку речевого сигнала, при которой определяют фонемное соответствие обрабатываемого сигнала с использованием интеграции значений таких его информативных признаков, как амплитуда и частота первых трех формант.

Технический результат заявленного изобретения состоит в повышении вероятности правильного распознавания звуков речи, входящих в состав слов. Указанная задача решается за счет того что применяется способ дикторонезависимого распознавания звуков речи, образующих слова, содержащий многоуровневую обработку сигнала, с определением на первом уровне периодичности таких акустических составляющих звукового сигнала, которые позволяют соотносить звуковой сегмент (предварительная сегментация) по способу его образования к одному из трех видов: голосовому, шумовому, шумно-голосовому. На втором уровне осуществляется основная сегментация звуков речи. На третьем - посегментное определение значений таких иформативных признаков звуков речи, как амплитуда и частота первых трех формант (пики в спектре звука). На четвертом уровне производится фонемное распознавание каждого звукового сегмента на основании интеграции значений информативных признаков обрабатываемого сигнала и сопоставления с имеющимся банком данных, отдельно для каждого вида и типа (сигнал с одной, двумя и тремя формантами) звука. На пятом уровне в зависимости от изменения фонемной принадлежности сегмента устанавливаются временные границы звуков речи. На шестом уровне принимается итоговое фонемное решение относительно распознаваемого звука речи и представление его в виде буквенного или транскрипционного обозначения.

Указанные выше отличительные признаки каждый в отдельности и все совместно направлены на решение поставленной задачи и являются существенными. Использование предлагаемого сочетания существенных отличительных признаков в известном уровне техники не обнаружено, следовательно, предлагаемое техническое решение соответствует критерию патентоспособности “новизна”.

Единая совокупность новых существенных признаков с общими, известными обеспечивает решение поставленной задачи, является не очевидной для специалистов в данной области техники и свидетельствует о соответствии заявленного технического решения критерию патентоспособности “изобретательский уровень”.

Пример осуществления изобретения

Настоящее изобретение конкретно иллюстрируется следующим примером осуществления изобретения, который иллюстрирует, но не ограничивает объем использования изобретения.

Основой способа является классификация и интеграция информативных признаков звуков речи, таких как частотные и амплитудные значения первых трех условных формант звука, частотные значения их основного тона, акустические характеристики, соответствующие источнику звука (шум-голос), и общие длительности их звучания. В структурном виде рассматриваемый способ распознавания можно представить следующим образом.

1. Определение участия голосового источника в образовании звука речи.

2. Определение участия шумового источника в образовании звука речи.

Далее в зависимости от условий образования звука речи (голосовой, шумный, шумно-голосовой) и количества достаточно четко выраженных формант (пиков в спектре звука речи) до трех включительно выбирается один из девяти возможных вариантов распознавания:

1. Голосовой одноформантный.

2. Шумный одноформантный.

3. Шумно-голосовой одноформантный.

4. Голосовой двухформантный.

5. Шумный двухформантный.

6. Шумно-голосовой двухформантный.

7. Голосовой трехформантный.

8. Шумный трехформантный.

9. Шумно-голосовой трехформантный.

Далее следует операция интеграции значений информативных признаков звуков речи и обращение к файлам-идентификаторам, в которых хранятся значения интегральных амплитудно-частотных характеристик формант, чем в итоге и определяется фонемная принадлежность того или иного звука речи. На завершающем этапе распознавания на основании значений относительной временной длительности дифференцируются краткие звуки речи, такие, как й, к, п, б и др.

На чертеже изображена схема осуществления предлагаемого способа фонемного распознавания звуков речи.

На первом уровне 1 производится определение периодичности таких акустических составляющих речевого (звукового) сигнала (PC), которые позволяют соотносить звуковой сегмент по способу его образования к одному из трех видов звуков речи: голосовому, шумному, шумно-голосовому, при этом временная длительность обрабатываемого сигнала определяется его предварительной сегментацией. На втором уровне 2-4 осуществляется основная сегментация звуков речи по трем различным режимам, в зависимости от определенного на первом уровне вида обрабатываемого звукового сигнала. На третьем уровне 5-7 проводится спектральный анализ и посегментное определение значений таких иформативных признаков звуков речи, как амплитуда и частота первых трех формант (пики в спектре звука). На четвертом уровне 8-16 производится фонемное распознавание каждого звукового сегмента на основании интеграции значений информативных признаков обрабатываемого сигнала и сопоставления с имеющимся банком данных отдельно для каждого вида и типа (сигнал с одной, двумя и тремя формантами) звука. На пятом уровне 17, в зависимости от изменения фонемной принадлежности сегмента, устанавливаются временные границы звуков речи. На шестом 18 уровне принимается итоговое фонемное решение относительно распознаваемого звука речи и представление его в виде буквенного или транскрипционного обозначения (БО).

Предлагаемый способ, реализованный в виде макетной программы распознавания неассимилированных звуков современной русской речи, позволяет проводить их распознавание без предварительной подстройки под голос диктора с надежностью, практически равняющейся 100%.

Формула изобретения

Способ дикторонезависимого распознавания звуков речи, включающий в себя предварительную сегментацию речевого сигнала для определения временной длительности звуковых сегментов, определение периодичности каждого сегмента акустических составляющих речевого сигнала для соотнесения звукового сегмента по способу его образования к конкретному виду звуков речи, определение амплитуды и частоты каждой из первых трёх формант в спектре звукового сегмента в качестве информативных признаков звуков речи, интеграция упомянутых информативных признаков для каждого звукового сегмента, фонемное распознавание каждого звукового сегмента путём сопоставления интегральных значений его информативных признаков с имеющимся банком данных отдельно для каждого вида звуков речи, принятие решения относительно распознаваемого звука речи и представление его в виде буквенного или транскрипционного обозначения, отличающийся тем, что упомянутое соотнесение звукового сегмента осуществляют к голосовому, шумному или шумно-голосовому виду звуков речи, далее выполняют основную сегментацию речевого сигнала по трём основным режимам в зависимости от ранее найденного вида звукового сегмента, при упомянутом фонемном распознавании сопоставляют интегральные значения информативных признаков каждого звукового сегмента как для каждого упомянутого вида звуков речи, так и для каждого типа в зависимости от числа формант в звуковом сегменте, затем устанавливают временные границы звуков речи в зависимости от изменения фонемной принадлежности звукового сегмента, после чего и принимают упомянутое решение относительно распознаваемого звука речи.

РИСУНКИ

Рисунок 1

Изобретение относится к машинной оценке качества передачи аудиосигналов

Способ и устройство кодирования информации, способ и устройство для декодирования информации, носитель для записи информации // 2221329

Изобретение относится к области радиотехники, в частности к кодированию информации для расширения формата кодируемых сигналов

Способ кодирования речи (варианты), кодирующее и декодирующее устройство // 2214048

Изобретение относится к кодированию и декодированию речи

Способ последующей обработки с высокой разрешающей способностью для речевого декодера // 2199157

Изобретение относится к речевым декодерам, применяемым в радиоприемниках систем радиосвязи с подвижными объектами

Способ сжатия изолированных слов // 2180974

Изобретение относится к цифровой обработке речи

Способ выделения основного тона // 2174714

Изобретение относится к технике речевого анализа

Устройство обнаружения и коррекции аномальных цифровых ошибок при передаче речи методом импульсно-кодовой модуляции // 2159470

Изобретение относится к технике цифровой обработки речевых сигналов, передаваемых по линиям связи методом импульсно-кодовой модуляции (ИКМ), и может быть использовано для повышения помехозащищенности многоканальных систем передачи цифровой телефонии

Способ обнаружения и коррекции аномальных цифровых ошибок при передаче речи методом импульсно-кодовой модуляции // 2148277

Изобретение относится к технике цифровой обработки речевых сигналов, передаваемых по линиям связи методом импульсно-кодовой модуляции (ИКМ) , и может быть использовано для повышения помехозащищенности многоканальных систем передачи цифровой телефонии

Способ сжатия звуковой информации и система для его реализации // 2144222

Изобретение относится к области передачи и хранения акустической информации и может быть использовано при проектировании систем цифровой радиосвязи, радио и телевидения, телефонии, систем цифровой звукозаписи и звуковоспроизведения

Способ измерения индекса передачи речи // 1700584

Изобретение относится к техническим средствам быстрого оценивания качества передачи речи по каналам связи или в помещениях

Усовершенствованное преобразование спектра/свертка в области поддиапазонов // 2251795

Изобретение относится к способу и устройству в области высокочастотного восстановления, применяемого в системах кодирования аудиосигналов

Способ осуществления машинной оценки качества звуковых сигналов // 2312405

Изобретение относится к анализу качества звуковых сигналов и может быть использовано для оценки качества речи, передаваемой по каналам радиосвязи

Способ передачи аудиосигналов методом приоритетной передачи пикселей // 2322706

Изобретение относится к способу передачи аудиосигналов между передатчиком и, по меньшей мере, одним приемником методом приоритетной передачи пикселей

Устройство и способ определения величины шага квантователя // 2329549

Изобретение относится к аудиокодерам, в частности к аудиокодерам, в которых осуществляется преобразование временного представления в спектральное представление

Устройство и способ обработки многоканального сигнала // 2332727

Изобретение относится к звуковым кодерам и в особенности к звуковым кодерам на основе преобразования временного представления в спектральное представление

Аудиокодирование // 2335809

Изобретение относится к аудиокодированию и, в частности, к аудиокодированию, которое позволяет кодировать аудиосигналы с коротким временем задержки

Устройство и способ определения оценочного значения // 2337414

Изобретение относится к кодеру и к кодированию сигнала, содержащего аудио- и/или видеоинформацию, в частности к оценке потребности в информационных блоках для кодирования этого сигнала

Индивидуальное формирование каналов для схем всс и т.п. // 2339088

Кодирование звука с различными длительностями кадра кодирования // 2344493

Изобретение относится к способу поддержки кодирования звукового сигнала, в котором по меньшей мере один отрезок звукового сигнала необходимо кодировать с помощью модели кодирования, позволяющей использовать различные длительности кадра кодирования, согласно которому предлагается определять на основе характеристик звукового сигнала по меньшей мере один параметр управления

Способ создания представления результата вычисления, линейно зависимого от квадрата значения // 2375743

Изобретение относится к вычислительной технике и может быть использовано в устройствах кодирования звука