Способ дикторонезависимого распознавания фонемы в речевом сигнале

Авторы патента:

G10L15/187 - Распознавание речи (G10L 17/00 имеет преимущество)

Владельцы патента RU 2763124:

ÐÐµÐ»ÐµÐ¹ÑÐ½ÐµÑ ÐÐ°Ð»ÐµÑÐ¸Ð¹ ÐÐ»ÐµÐ³Ð¾Ð²Ð¸Ñ (RU)

Изобретение относится к области вычислительной техники для обработки аудиоданных системами обработки информации, а именно к способам построения систем распознавания речи. Технический результат заключается в повышении достоверности дикторонезависимого распознания речи. Технический результат достигается за счет определения частот формант на участках речевого сигнала и фонемного распознавания каждого участка речевого сигнала путем сопоставления его фонетических признаков с имеющимся банком данных отдельно для каждого звука речи, где из речевого сигнала формируют последовательности речевых сигналов, отстоящих от исходного сигнала на период анализируемых частот, вычисляют разности сформированных сигналов с исходным сигналом, вычисляют уровни разностных сигналов на анализируемом участке, выделяют частоты, соответствующие минимумам вычисленных уровней, группируют выделенные частоты попарно, причем пары группируют из выделенных частот, отличающихся не менее чем на 90 мел, после чего выделяют пару, имеющую минимальное расстояние в частотной плоскости F1, F2, где F1, F2 - оси частот, соответствующих исследуемому диапазону речевого сигнала, от базовых пар, размещенных в базе данных, с присвоением анализируемому участку значения фонемы базовой фонологической пары. 4 з.п. ф-лы, 5 ил.

Изобретение относится к системам обработки информации, а именно к способам построения систем распознавания речи и может быть использовано для непосредственной печати устного текста, ввода команд в исполняющие автоматы, ввода информации в вычислительные машины, автоматического перевода с одного языка на другой и т.д.

Известны способы распознавания фонем речи, в которых фонемы хранятся в словаре в виде характерных параметров (признаков). Для получения признаков фонем используют представление речевого сигнала в спектральной области, то есть речевой сигнал подвергается спектральному анализу, который осуществляется с помощью алгоритмов быстрого преобразования Фурье, например, [1]. Данный способ недостаточно достоверен и при этом требует значительного вычислительного ресурса.

В качестве ближайшего аналога автором принят способ дикторонезависимого фонемного распознавания звуков речи, содержащий многоуровневую обработку сигнала [2]. В указанном способе ведут многоуровневую обработку речевого сигнала, при которой выполняют посегментное определение значений таких информативных признаков звуков речи, как амплитуда и частота первых трех формант (пики в спектре звука), с последующим фонемным распознаванием каждого звукового сегмента на основании интеграции значений информационных признаков обрабатываемого сигнала, и сопоставление с имеющимся банком данных. С целью повышения вероятности правильного распознавания звуков речи в способ введены дополнительные операции по определению вида звукового сегмента (голосового, шумового или шумно-голосового), распознаванию каждого звукового сегмента на основании интеграции значений информационных признаков обрабатываемого сигнала и сопоставлению с имеющимся банком данных отдельно для каждого вида и типа звука (сигнал с одной, двумя и тремя формантами - соответственно по прототипу выполняется сравнение с тремя базами спектральных характеристик для каждого вида звукового сегмента), установлению временных границ звуков речи в зависимости от изменения фонемной принадлежности и принятию итогового фонемного решения.

Необходимость выполнения дополнительных операций связана с тем, что определение значений таких информативных признаков звуков речи, как амплитуда и частота формант (пики в спектре звука) выполняется на основе спектрального анализа. Форманты определяются как области концентрации энергии в спектре звука речи, образуемые резонаторами голосового тракта. Однако выделение фонологических формант, определяющих восприятие конкретного звука речи, вызывает значительную трудность, так как речевой тракт представляет собой многорезонансную систему, и спектр амплитуд сигнала на выходе речевого тракта характеризуется множеством максимумов, которые являются ложными формантами, нехарактерными для данной фонемы [3], [4]. Кроме этого, эффект коартикуляции, связанный с тем, что в естественной речи органы речи практически никогда не занимают положений, характерных для изолированно произнесенных звуков, приводит к наложению спектральных признаков соседних фонем и затрудняет сегментацию звуков речи. Данные факторы приводят к отсутствию, в общем случае, достоверного соответствия фонетических символов и спектральных распределений, что доказано различными опытами и исследованиями. Между спектральной и фонетической функциями может быть установлено однозначное соответствие только при строгой стабилизации акустических условий и одном дикторе [5]. В связи с этим для более достоверного дикторонезависимого распознания речи с большим словарем необходимо выполнять сложную многоступенчатую обработку с целью нахождения имеющегося в базе данных образа, наиболее близкого к анализируемому образу фонемы, морфемы, слова и предложения.

Однако и данный способ, при его сложности, остается недостаточно достоверным и требующим значительного вычислительного ресурса.

Заявляемое изобретение направлено на повышение достоверности дикторонезависимого распознания речи, при упрощении за счет сопоставительного анализа с имеющейся базой данных для всего двух формант, выбираемых специальным образом; на практике достаточно использование 50-60 базовых фонологических пар.

Поставленная задача решается тем, что предлагаемый способ дикторонезависимого распознавания фонемы в речевом сигнале, включающий в себя определение частот формант на участках речевого сигнала и фонемное распознавание каждого участка речевого сигнала путем сопоставления его фонетических признаков с имеющимся банком данных отдельно для каждого звука речи, отличается тем, что из речевого сигнала формируют последовательности речевых сигналов, отстоящих от исходного сигнала на период анализируемых частот, вычисляют разности сформированных сигналов с исходным сигналом, вычисляют уровни разностных сигналов на анализируемом участке, выделяют частоты, соответствующие минимумам вычисленных уровней, группируют выделенные частоты попарно, причем пары группируют из выделенных частот, отличающихся не менее чем на 90 мел, после чего выделяют пару, имеющую минимальное расстояние в частотной плоскости F1, F2, где F1, F2 - оси частот, соответствующих исследуемому диапазону речевого сигнала, от базовых пар, размещенных в базе данных, с присвоением анализируемому участку значения фонемы базовой фонологической пары.

Дополнительно формируют последовательности речевых сигналов, отстоящих от исходного сигнала на половину периода анализируемых частот, вычисляют суммы сформированных сигналов с исходным сигналом, вычисляют уровни суммарных сигналов на анализируемом участке, выделяют частоты, соответствующие минимумам вычисленных уровней и группируют попарно частоты, выделенные при обработке разностных и суммарных сигналов.

Речевой сигнал разделяют на частотные поддиапазоны при помощи фильтров, для каждого частотного поддиапазона выделяют частоты, соответствующие минимумам вычисленных уровней и группируют попарно частоты, выделенные во всех частотных поддиапазонах.

За уровень сигнала на анализируемом участке длительностью от 8 до 25 миллисекунд принимают минимальный из замеренных уровней на входящих участках длительностью от 2,5 до 5 миллисекунд.

Речевой сигнал преобразуют средствами аналого-цифрового преобразования в цифровую последовательность и все дальнейшие операции выполняют в цифровом виде.

Таким образом, отличительная особенность способа состоит в том, что ведут многоуровневую обработку речевого сигнала, при которой определяют фонемное соответствие обрабатываемого сигнала с использованием интеграции значений таких его информативных признаков, как частоты двух фонологических формант. При этом вместо выделения формант по признаку концентрации энергии в спектре звука речи (как это делается в способах [1] и [2]), предлагается выделение частот двух фонологических формант на основе обработки отрезков речевых сигналов, сдвинутых относительно исходного речевого сигнала на время, равное периоду или периоду и - дополнительно - половине периода анализируемых частот.

Оказалось, что возможно распознавание звуков речи, входящих в состав слов, с высокой точностью, в реальном времени, вне зависимости от голоса говорящего, за счет специального - разработанного автором - следующего порядка выделения частот двух фонологических формант.

На первом уровне формируются последовательности речевых сигналов, отстоящих от исходного сигнала на период анализируемых частот, вычисляются разности сформированных сигналов с исходным сигналом и вычисляются уровни разностных сигналов на анализируемом сегменте речи.

На втором уровне выделяются частоты, соответствующие минимумам вычисленных уровней в выбранном диапазоне частот.

На третьем уровне создаются пары из выделенных частот, при этом разность частот в каждой паре должна быть не меньше 90 мел.

На четвертом уровне выделяется пара, имеющая минимальное отличие от базовых пар, размещенных в базе фонетических признаков, с присвоением анализируемому участку значения фонемы базовой фонологической пары.

Соответственно и осуществление заявляемого способа сводится к осуществлению последовательности операций с первого по четвертый из указанных уровней.

В некоторых вариантах осуществления изобретения на первом уровне дополнительно формируются последовательности речевых сигналов, отстоящих от исходного сигнала на половину периода анализируемых частот, вычисляются суммы сформированных сигналов с исходным сигналом и вычисляются уровни суммарных сигналов на анализируемом сегменте (участке) речи, после чего выделяют частоты, соответствующие минимумам вычисленных уровней и группируют попарно частоты, выделенные при обработке разностных и суммарных сигналов.

В некоторых вариантах осуществления изобретения исходный речевой сигнал разделяется на частотные поддиапазоны при помощи фильтров, для каждого частотного поддиапазона выделяют частоты, соответствующие минимумам вычисленных уровней и группируют попарно частоты, выделенные во всех частотных поддиапазонах, т.е. операции первого и второго уровней выполняются независимо для каждого поддиапазона частот.

Предпочтительно за уровень сигнала на анализируемом участке длительностью от 8 до 25 миллисекунд принимают минимальный из замеренных уровней на входящих участках длительностью от 2,5 до 5 миллисекунд.

Предпочтительно исходный аналоговый речевой сигнал подается на аналого-цифровой преобразователь, где осуществляется его преобразование в цифровой вид (цифровую последовательность), и все дальнейшие операции выполняются в цифровом виде.

Так как общая совокупность заявляемых признаков является новой, способ соответствует критерию новизны. Отличительные признаки заявляемого способа также не известны из уровня техники; кроме того, в совокупности с известными признаками, общими с прототипом, они обеспечивают решение поставленной задачи, что не является очевидным для специалистов в данной области техники и свидетельствует о соответствии заявленного технического решения критерию изобретательского уровня.

Изобретение иллюстрируется прилагаемыми чертежами, на которых изображены:

Фиг. 1 - График зависимости минимальных значений уровней разностного сигнала S от частоты для участка звука «У» в слове «бабушка». Входной сигнал ограничен по спектру фильтром верхних частот с частотой среза 300 Гц (Hz). На графике выделены минимумы функции на частотах F₁=300 Гц и F₂=825 Гц, соответствующих первой и второй фонологическим формантам звука «У»;

Фиг. 2 - График зависимости минимальных значений уровней разностного сигнала S от частоты для участка звука «Ш» в слове «Саша». В связи с большой разницей уровней первой и второй формант входной сигнал для выделения первой форманты ограничен по спектру фильтром верхних частот с частотой среза 1700 Гц (Hz), для выделения второй форманты - фильтром верхних частот с частотой среза 3200 Гц (Hz). На графике выделены минимумы функции на частотах F₁=2600 Гц и F₂=4750 Гц, соответствующих первой и второй фонологическим формантам звука «Ш»;

Фиг. 3 - График расположения в частотной плоскости базовых пар фонологических формант F₁ и F₂ фонем для нескольких звуков русской речи в координатах высоты тона (mel);

Фиг. 4 - График зависимости дистанций D в размерности высоты тона (mel) от времени Т (s - секунды, с) выделенных текущих пар формант произнесенных звуков слова «Саша» от базовых фонологических пар звуков «С», «Ш» и «А». Для примера дополнительно приведен график дистанций от базовой фонологической пары звука «О». На графике сплошной линией обозначена дистанция выделенной на данном участке пары формант от базовой фонологической пары звука «С», пунктирной линией - от звука «Ш», штрих-пунктирной - от звука «А», тонкой сплошной - от звука «О».

Фиг. 5 - Блок-схема устройства дикторонезависимого распознавания фонемы, реализующего данный способ.

Примеры конкретного осуществления способа распознавания фонемы в речевом сигнале (с комментариями, обосновывающими способ)

Изобретение реализуемо на отдельных аналоговых и цифровых устройствах, на компьютере или специализированном вычислительном устройстве.

На первом уровне речевой сигнал в виде речевого потока поступает на линию задержки, в которой производят задержку сигнала на величины, равные периодам анализируемых частот. Задержка сигнала моделирует основную мембрану кортиевого узла слухового органа человека. Согласно [6], улитка, являющаяся главным элементом периферической слуховой системы, не обладая сильными резонансными свойствами, представляет скорей линию задержки или временной анализатор.

Известно [7], что под воздействием входного звукового сигнала в улитке возникают две бегущие волны. Одна волна возникает в основной мембране, скорость распространения которой вдоль мембраны равна 50 мм/мсек в непосредственной близости от овального окна, и, уменьшаясь по экспоненциальному закону, достигает у геликотремы значения 1,5 мм/мсек. Скорость другой звуковой волны, распространяемой в перилимфе, в среднем равна 1500 мм/мсек. В связи с этим на чувствительные клетки воздействуют два сигнала, при этом, в каждой точке мембраны имеется различный временной сдвиг между воздействующими сигналами. В точке мембраны, для которой задержка между сигналами равна периоду определенной частоты, происходит частичная компенсация сигнала данной частоты и, соответственно, уровня общего сигнала.

Предполагая, что, используя данный механизм, слуховой аппарат выделяет из спектра частот частотные группы, которые являются фонологическими формантами, согласно заявляемому способу, выполняют вычитание из исходного сигнала задержанных сигналов и измеряют уровни разностных сигналов на анализируемом участке.

По результатам экспериментов и учитывая динамические характеристики речевого сигнала, анализируемый участок выбирается длительностью от 8 до 25 мсек. Для повышения чувствительности способа, в связи с тем, что уровни речевого сигнала при голосовом источнике возбуждения речевого тракта значительно изменяются в течение периода основного тона, целесообразно вычисление уровней выполнять на участках, длительностью от 2,5 до 5 мсек, и за уровень на анализируемом участке принимать минимальное значение из уровней входящих участков. В результате выполненных операций для анализируемого участка получают значения уровней сигнала анализируемых частот для выбранного диапазона частот. В качестве примера результата операций, выполненных на первом уровне, на фиг. 1 изображен график вычисленных уровней сигнала для участка звука «У» в слове «бабушка».

На втором уровне выделяют частоты, соответствующие минимумам вычисленных уровней в выбранном диапазоне частот. За частоту минимума уровня принимается частота, в которой значение уровня меньше значений уровней соседней частот с обеих сторон. В вариантах исполнения с разделением общего частотного диапазона речевого сигнала на частотные поддиапазоны возможны ситуации, когда в анализируемом поддиапазоне будут отсутствовать выделенные частоты, то есть в данном поддиапазоне фонологическая форманта отсутствует. При значительной разнице уровней фонологических формант минимумы могут быть выделены при ограничении частотного диапазона. В качестве примера указанной ситуации на фиг. 2 изображены графики вычисленных уровней сигнала для участка звука «Ш» в слове «Саша». В связи с большой разницей уровней первая форманта заглушила выделение второй форманты, которая выделилась после ограничения спектра входного сигнала фильтром верхних частот с частотой среза 3200 Гц.

На третьем уровне группируют пары из выделенных частот. Предлагаемая попарная группировка формант согласуется с тем фактом, что, согласно «квантовой гипотезе» Стивенса К.Н. [8], каждый класс звуков любого языка порождается множеством конфигураций речевого тракта, относительно которых акустические характеристики устойчивы, то есть мало изменяются при изменении конфигурации тракта в пределах заданного множества форм. В то же время наибольшая степень управляемости акустических характеристик речевого сигнала при сосредоточенном возмущении может быть достигнута лишь относительно пары резонансов [8], и эти два резонанса создают пару фонологических формант, а их образование и поддержание в стабильном состоянии является целью системы управления по созданию акустического образа фонемы. Созданные на втором уровне функции выделили только два минимума (фиг. 1, фиг. 2), в связи с чем можно предположить, что произведено выделение двух фонологических формант (пары формант) и подобная обработка речевого сигнала может выполняться в слуховом органе уже на первичном этапе обработки.

Для достоверного выделения фонологических формант слуховым аппаратом расстояние между ними должно быть не менее одной частотной группы, равной 90 мелам и соответствующей зоне влияния на кортиевом органе [9].

Как видно (фиг. 2), в вариантах исполнения с разделением общего частотного диапазона речевого сигнала на частотные поддиапазоны пары создаются из частот, выделенных во всех поддиапазонах.

При обработке слов могут встречаться графики разностных уровней, при анализе которых сложно или невозможно выделить пару, достоверно соответствующую какой либо базовой фонологической паре. В таких случаях с целью более надежного выделения претендентов проводится совместный анализ разностных и суммарных сигналов.

На четвертом уровне для каждой выделенной пары вычисляется дистанция от базовых фонологических пар.

Пример расположения базовых фонологических пар фонем нескольких звуков русской речи в координатах высоты тона нижней частоты F1 и верхней частоты F2 приведен на фиг. 3.

Дистанция вычисляется по формуле

где D_j - дистанция пары i от базовой фонологической пары j,

F1_j, F2_i - значения высот тона нижней и верхней частот i-пары,

F1_j, F2_j - значения высот тона нижней и верхней частот базовой фонологической пары j.

Анализируемому участку присваивается значение фонемы базовой фонологической пары j, имеющей минимальное значение дистанции D_i.

На фиг. 4 приведен график дистанций D выделенных текущих пар формант произнесенных звуков слова «Саша» от базовых фонологических пар звуков «С», «Ш» и «А». Для примера дополнительно приведен график дистанций от базовой фонологической пары звука «О», отсутствующего в данном слове. На графике сплошной линией обозначена дистанция выделенной на данном участке пары формант от базовой фонологической пары звука «С», пунктирной линией - от звука «Ш», штрих-пунктирной - от звука «А», тонкой сплошной - от звука «О».

На фиг. 4 на участке 0,2-0,39 с текущие пары формант имеют минимальные, по сравнению с другими, дистанцию от базовой фонологической пары звука «С», на участке 0,4-0,62 с - от базовой фонологической пары звука «А», на участке 0,64-0,87 с - от базовой фонологической пары звука «Ш», на участке 0,9-1,1 с - от базовой фонологической пары звука «А». При этом необходимо отметить, что переходы дистанций между звуками четкие, без коартикуляции, и не зависят от вида возбуждения голосового тракта (голосовой или шумный). Неопределенность на участке до 0,18 с связана с низким уровнем сигнала в начале слова; посторонние шумы внесли нестабильность параметров.

Для реализации предлагаемого способа дикторонезависимого распознавания фонемы в речевом сигнале, в его оптимальном варианте, предлагается устройство, представленное на фиг. 5, где:

1 - аналого-цифровой преобразователь;

2 - канал выделения формантных частот в поддиапазоне частот;

3 - фильтр поддиапазона частот;

4 - измеритель уровня разностного сигнала;

5 - измеритель уровня суммарного сигнала;

6 - селектор частот формант;

7 - блок задержки сигнала на период анализируемой частоты;

8 - блок вычитания;

9 - детектор;

10 - интегратор;

11 - выделитель минимального значения;

12 - блок задержки сигнала на половину периода анализируемой частоты;

13 - блок суммирования;

14 - блок группировки формант;

15 - блок сравнения признаков;

16 - база фонетических признаков;

17 - блок идентификации.

Устройство дикторонезависимого распознавания фонемы в речевом сигнале содержит аналого-цифровой преобразователь, на вход которого подается анализируемый речевой сигнал, каналы выделения формантных частот, базу фонетических признаков, блок сравнения признаков распознаваемого сегмента речи с признаками всех фонем и блок идентификации, при этом в устройство введены блок группировки формант, а каналы выделения формантных частот содержат фильтр поддиапазона частот, измерители уровня разностного сигнала, измерители уровня суммарного сигнала и селектор частот формант, выход аналого-цифрового преобразователя соединен с входами фильтров поддиапазонов частот всех каналов выделения формантных частот, выход фильтра поддиапазона подключен к входам измерителей уровня разностного сигнала и измерителей уровня суммарного сигнала, входящих в канал выделения формантных частот в данном поддиапазоне, к входу измерителей уровня разностного сигнала подключены входы блока задержки сигнала на период анализируемой частоты и блока вычитания, второй вход которого соединен с выходом блока задержки сигнала на период анализируемой частоты, а к выходу подключены последовательно соединенные детектор, интегратор и выделитель минимального значения, к входу измерителей уровня суммарного сигнала подключены входы блока задержки сигнала на половину периода анализируемой частоты и блока суммирования, второй вход которого соединен с выходом блока задержки сигнала на половину периода анализируемой частоты, а к выходу подключены последовательно соединенные детектор, интегратор и выделитель минимального значения, выходы выделителей минимального значения каналов выделения формантных частот каждого поддиапазона частот соединены с входами селектора частот формант данного поддиапазона, выходы селекторов частот формант всех каналов выделения формантных частот соединены с входами блока группировки формант, выход которого соединен с одним входом блока сравнения признаков, второй вход которого соединен с выходом базы фонетических признаков, а выход соединен с входом блока идентификации, который, на основе сравнения спектральных признаков распознаваемой фонемы со спектральными признаками фонем в базе признаков, выдает на выход устройства код фонемы на распознаваемом сегменте речи.

В измерителях уровня разностного и суммарного сигналов интеграторы суммируют модули отсчетов сигнала с выхода детекторов в течение от 2,5 до 5 мсек, а выделители минимального значения определяют минимальное значение результатов с выхода интеграторов на сегменте речи, длительностью в диапазоне от 8 до 25 мсек.

На входе устройства установлен аналого-цифровой преобразователь 1, выход которого соединен с входами каналов выделения формантных частот 2 в поддиапазонах частот. На чертеже приведена структура одного канала 2, структуры каналов остальных поддиапазонов выполнены аналогичным образом (не показано). Количество каналов 2 определяется в соответствии с диапазоном анализируемых частот и требуемой достоверности распознавания фонем. На входе каналов выделения формантных частот 2 установлен фильтр поддиапазона 3, выход которого соединен с входами измерителей уровня разностного сигнала 4 и измерителей уровня суммарного сигнала 5, выходы которых соединены с входами селектора частот формант 6. Количество измерителей 4 и 5 определяется в соответствии с поддиапазоном частот, количеством анализируемых частот и достоверностью распознавания фонем. Вход измерителя уровня разностного сигнала 4 соединен с входом блока задержки сигнала на период анализируемой частоты 7 и одним из входов блока вычитания 8, другой вход которого подключен к выходу блока задержки 7. К выходу блока 8 подключены последовательно соединенные детектор 9, интегратор 10 и выделитель минимального значения 11. Вход измерителя уровня суммарного сигнала 5 соединен с входом блока задержки сигнала на половину периода анализируемой частоты 12 и одним из входов блока суммирования 13, другой вход которого подключен к выходу блока задержки 12. К выходу блока 13 подключены последовательно соединенные детектор 9, интегратор 10 и выделитель минимального значения 11. Выходы выделителей минимального уровня 11 всех измерителей уровня 4 и 5 соединены с входами селектора частот формант 6. Выходы селекторов частот 6 всех каналов выделения формантных частот 2 в поддиапазонах частот соединены с входами блока группировки формант 14, выход которого соединен с входом блока сравнения признаков 15, второй вход которого соединен с выходом базы фонетических признаков 16. Выход блока 15 соединен с входом блока идентификации 17, выход которого является выходом устройства дикторонезависимого распознавания фонемы.

Устройство работает следующим образом.

Входной аналоговый речевой сигнал, преобразованный аналого-цифровым преобразователем 1 в цифровую последовательность, подается на входы каналов выделения формантных частот в поддиапазонах частот 2. Выделенный фильтром поддиапазона 3 анализируемый участок спектра речевого сигнала поступает на входы измерителей уровня разностного сигнала 4 и измерителей уровня суммарного сигнала 5. В измерителе уровня разностного сигнала 4 блок вычитания 8 вычисляет разность прямого и задержанного на период анализируемой частоты блоком 7 сигнала с фильтра 3, при этом на выходе блока 8 составляющие речевого сигнала, периоды частот которых находятся в области времени задержки блока 7 или кратны данному времени (анализируемая частота и четные гармоники), частично компенсируются. Модули отсчетов сигнала с выхода детектора 9 суммируются в интеграторе 10 в течение времени от 2,5 до 5 мсек. Время суммирования может быть выбрано постоянным, а может устанавливаться в зависимости от характеристик гласных звуков с целью локализации участков периода основного тона, наименее подверженных колебаниям от ударного воздействия голосовых связок. Отсчеты значений уровней сигнала с выхода интегратора 10 поступают в выделитель минимального значения 11, который на участке длительностью в диапазоне от 8 до 25 мсек определяет минимальное значение измеренного уровня и передает его в селектор частот формант 6. Время анализа может быть выбрано постоянным, а может устанавливаться в зависимости от вида звука речи. Структура и работа измерителей уровня суммарного сигнала 5 аналогична структуре и работе измерителей уровня разностного сигнала 4 за исключением того, что вместо блока задержки 7 на период анализируемой частоты установлен блок задержки 12 на половину периода анализируемой частоты, а вместо блока вычитания 8 установлен блок суммирования 13, при этом на выходе блока 13 частично компенсируются составляющие речевого сигнала, полупериоды частот которых находятся в области времени задержки блока 12 или кратны данному времени (анализируемая частота и нечетные гармоники). Выделенные измерителями уровней 4 и 5 значения поступают на селектор частот формант 6.

Примеры значений сигналов, поступивших на входы блока 6, приведены на фиг. 1 и фиг. 2. На фиг. 1 изображен график значений на выходах измерителей уровней 4 канала выделения 2, фильтр 3 которого является фильтром верхних частот с частотой среза 300 Гц.

На фиг. 2 изображены графики значений на выходах измерителей уровней 4 канала выделения 2, фильтр 3 которого является фильтром верхних частот с частотой среза 1700 Гц, и канала выделения 2, фильтр 3 которого является фильтром верхних частот с частотой среза 3200 Гц. Блок 6 сравнивает уровни сигналов на соседних входах и выделяет входы, уровни в которых меньше уровней обоих соседних входов. Результат в виде значений высот тона, соответствующих выделенным входам, поступает на вход блока 14 группировки формант, который, анализируя значения высот тона формант, поступивших от всех каналов выделения формантных частот 2, формирует группы формант, разность между которыми превышает 90 мел.

На фиг. 1 и фиг. 2 выделенные блоком частоты отмечены символами F1 и F2. В анализируемом сигнале блок 14 может сгруппировать несколько групп формант, удовлетворяющих заданным условиям. Сформированные группы в виде координат в частотной плоскости F1, F2, где F1 - ось, соответствующая высоте тона нижней частоты в паре, F2 - ось, соответствующая высоте тона верхней частоты в паре, поступают на вход блока сравнения признаков 15, который вычисляет дистанции текущих выделенных групп от координат фонологических пар фонем, размещенных в базе фонетических признаков 16. Графическое отображение координат базовых фонологических пар фонем нескольких звуков русской речи приведено на фиг. 3. Дистанция в блоке 15 вычисляется по формуле

где D_i - дистанция пары i от базовой фонологической пары j,

F1_j, F2_i - значения высот тона нижней и верхней частот i-пары,

F1_j, F2_j - значения высот тона нижней и верхней частот базовой фонологической пары j.

Пример вычисленных дистанций текущих пар формант от некоторых базовых фонологических пар фонем приведен на фиг. 4. Результаты вычислений дистанций поступают на вход блока идентификации 17, который присваивает анализируемому участку речевого сигнала фонему базовой фонологической пары j, имеющей минимальное значение D_i и выдает его на выход устройства для дальнейшего использования. На фиг. 4 блок 17 выделил фонемы, соответствующие звукам «С», «А», «Ш» и «А», коды которых выданы на выход устройства для дальнейшего использования.

Таким образом, предложен достоверный и относительно простой способ дикторонезависимого распознания речи, реализуемый за счет сопоставительного анализа с имеющейся базой данных для всего двух формант, выбираемых специальным образом; на практике достаточно использование 50-60 базовых фонологических пар.

Источники информации

1. Патент RU №2268504, G10L 15/06, G10L 11/04, оп. 20.01.2006. Способ распознавания фонем речи и устройство для реализации способа. Сахаров В.О., Гиголо Л.А.

2. Патент RU №2234746, G10L 19/02, оп. 20.08.2004. Способ дикторонезависимого распознавания звуков речи. Грибанов И.А.

3. Сапожков М.А. Речевой сигнал в кибернетике и связи. М.: Государственное издательство по вопросам связи и радио, 1963. с. 46.

4. Фланаган Д.Л. Анализ, синтез и восприятие речи. М.: Издательство «Связь», 1968. с. 188.

5. Вокодерная телефония. Методы и проблемы / А.Ш. Акбулатов [и др.]; под ред. А.А. Пирогова. М.: «Связь», 1974. с. 12-14.

6. Тампель И.Б., Карпов А.А. Автоматическое распознавание речи. Учебное пособие. СПб.: Университет ИТМО, 2016. с. 26.

7. Цвикер Э., Фельдкеллер Р. Ухо как приемник информации (Второе дополненное и переработанное издание). М.: Издательство «Связь», 1971, с. 177-178.

8. Сорокин В.Н. Теория речеобразования. М.: «Радио и связь», 1985. с. 247-248.

9. Фельдкеллер Р., Цвикер Э. Ухо как приемник информации. М.: Связь, 1965. с. 74-75.

1. Способ дикторонезависимого распознавания фонемы в речевом сигнале, включающий в себя определение частот формант на участках речевого сигнала и фонемное распознавание каждого участка речевого сигнала путем сопоставления его фонетических признаков с имеющимся банком данных отдельно для каждого звука речи, отличающийся тем, что из речевого сигнала формируют последовательности речевых сигналов, отстоящих от исходного сигнала на период анализируемых частот, вычисляют разности сформированных сигналов с исходным сигналом, вычисляют уровни разностных сигналов на анализируемом участке, выделяют частоты, соответствующие минимумам вычисленных уровней, группируют выделенные частоты попарно, причем пары группируют из выделенных частот, отличающихся не менее чем на 90 мел, после чего выделяют пару, имеющую минимальное расстояние в частотной плоскости F1, F2, где F1, F2 - оси частот, соответствующих исследуемому диапазону речевого сигнала, от базовых пар, размещенных в базе данных, с присвоением анализируемому участку значения фонемы базовой фонологической пары.

2. Способ по п. 1, отличающийся тем, что дополнительно формируют последовательности речевых сигналов, отстоящих от исходного сигнала на половину периода анализируемых частот, вычисляют суммы сформированных сигналов с исходным сигналом, вычисляют уровни суммарных сигналов на анализируемом участке, выделяют частоты, соответствующие минимумам вычисленных уровней и группируют попарно частоты, выделенные при обработке разностных и суммарных сигналов.

3. Способ по любому из пп. 1, 2, отличающийся тем, что речевой сигнал разделяют на частотные поддиапазоны при помощи фильтров, для каждого частотного поддиапазона выделяют частоты, соответствующие минимумам вычисленных уровней, и группируют попарно частоты, выделенные во всех частотных поддиапазонах.

4. Способ по любому из пп. 1-3, отличающийся тем, что за уровень сигнала на анализируемом участке длительностью от 8 до 25 миллисекунд принимают минимальный из замеренных уровней на входящих участках длительностью от 2,5 до 5 миллисекунд.

5. Способ по любому из пп. 1-4, отличающийся тем, что речевой сигнал преобразуют средствами аналого-цифрового преобразования в цифровую последовательность и все дальнейшие операции выполняют в цифровом виде.

Изобретение относится к области компьютерной техники. Технический результат - обеспечение в реальном времени автоматизированного анализа сообщений пользователя для выбора наиболее релевантной реакции для автоматического ответа со стороны диалоговой системы.

Способы и электронные устройства для идентификации пользовательского высказывания по цифровому аудиосигналу // 2761940

Изобретение относится к способу и системе идентификации завершения пользовательского высказывания по цифровому аудиосигналу. Технический результат заключается в повышении точности идентификации завершения пользовательского высказывания.

Интеллектуальное рабочее место оператора и способ его взаимодействия для осуществления интерактивной поддержки сессии обслуживания клиента // 2755781

Изобретение относится к автоматизированному рабочему месту оператора и способу интерактивной поддержки сессии обслуживания клиента. Технический результат заключается в генерации визуального отображения в зависимости от входящего аудиопотока.

Способ доврачебной оценки качества распознавания речи, скрининговой аудиометрии и программно-аппаратный комплекс, его реализующий // 2743049

Изобретение относится к средствам, обеспечивающим автоматизированное выполнение диагностических процедур в части выполнения доврачебной оценки качества распознавания речи и скрининговой аудиометрии с помощью алгоритмов на базе машинного обучения. Техническим результатом является обеспечение доврачебной оценки качества распознавания речи в шуме и скрининговой аудиометрии на базе единого вычислительного устройства.

Способ автоматизированной оценки качества распознавания речи пациентом // 2729147

Настоящее изобретение относится к области вычислительной техники для автоматизированной оценки качества распознавания речи пациентом. Технический результат заключается в обеспечении автоматической оценки качества распознавания речи пациентом за счет преобразования голосовых ответов пациента в текстовый формат и сравнения результатов с тестовой последовательностью слов.

Устройство оценки акустической обстановки обследуемого объекта // 2715176

Изобретение относится к измерительной технике и может быть использовано для оценки акустической обстановки объектов. Технический результат заключается в повышении точности и достоверности вычисления уровня разборчивости речи и оценки акустической обстановки обследуемого объекта.

Способы и электронные устройства для определения намерения, связанного с произнесенным высказыванием пользователя // 2711153

Изобретение относится к средствам для определения намерения, связанного с произнесенным пользователем высказыванием. Технический результат заключается в учете акустических характеристик произнесенного пользователем высказывания для определения намерения, связанного с данным высказыванием.

Совершение задачи без монитора в цифровом персональном помощнике // 2710984

Группа изобретений относится к цифровым помощникам. Технический результат – обеспечение возможности совершения задачи в цифровом помощнике без монитора.

Система голосовых действий разработчика // 2704876

Изобретение относится к области вычислительной техники. Технический результат заключается в обеспечении возможности развертывать новые голосовые действия для ранее установленных программных приложений.

Обновление моделей классификаторов понимания языка на основе краудсорсинга // 2699587

Группа изобретений относится к средствам обновления моделей классификаторов понимания языка. Технический результат – повышение точности распознавания команд пользователя.

Устройство вывода информации, система вывода информации, способ вывода информации, серверное устройство и способ вывода данных // 2764215

Изобретение относится к вычислительной технике. Технический результат заключается в достижении удобства вывода информации в соответствии с речевым вводом. Система вывода информации содержит: устройство вывода информации и сервер управления информацией; причем устройство вывода информации содержит: блок вывода речевых данных; блок вывода ключа доступа, выполненный с возможностью получения ключа доступа, соответствующего входным речевым данным; блок сбора данных, выполненный с возможностью получения набора выходных данных, соответствующего ключу доступа; блок вывода информации, выполненный с возможностью вывода информации на основе набора выходных данных; причем сервер управления информацией содержит: блок хранения данных, выполненный с возможностью хранения множества ключей доступа; блок вывода данных, выполненный с возможностью извлечения набора выходных данных, соответствующего ключу доступа, полученному от устройства вывода информации. 5 н. и 5 з.п. ф-лы, 8 ил.