Способ смысловой интерпретации слитно произносимых слов

Авторы патента:

G10L15/06 - создание эталонных шаблонов; обучение систем распознавания речи, например по характеристикам голоса говорящего (G10L 15/14 имеет преимущество)

;0 1, 5,/00

F (2 ) ),8826 73/2:- 1.-,0 (22) 08.0 .8. . (46) 07 0/,88 ЧЮ1-,, 19 2 с.. (7 i ) Ц ; с " .;. у г. :,-1" е о ив -г и.-.- ; им., В,К, Г: у.лк-:к .: (7 .„ 1,,... 1(53 1 53 „781 (088.8 ) (56) Пи! = íò 0 !!А. - 326, 0 .. кл,. 79-1, 98А.

Вцкщпк ..!<, «:r;,тери,т: р", решения цробле;.:ы -:.1:..у.о =.;;-.в;, сщ!словой ин Гор!:.1етд1 ии Г .* чи цля уст:?Ого !1кело1-а -.:ело.1... . .=

ЭВЛ в 10i; " : - !,", .-1 jес.

I вящие спуховьа . о5оазцов ::,АРС ::- ::,.

Р.„,, 1У82,. а..; 2

Г1 Я Г 13 0 . i и е " .".". о о с ".t«, ã û t Lë (tç о - 1."я, . реево ° ".г 1" 1-и д ис1-р з,увус1 - - !.:;:3t : Т. 1 ::-.)Ге.1тя!ат чэ спг1-!для::;н4;с:,1.."-.-Vа;- 1-:-..6 11-Р .. -11Т вЂ” Этапоррсрi

1-,дс; ; ре =. тт вуехр еоут ет1иtt

1408449

Изобретение относится к речевой информатике, в частности к распознаванию и интерпретации слитной речи, и может быть использовано для управления приборами и устройствами различного назначения голосом.

Целью изобретения является повышение скорости смысловой интерпретации путем отбора s каждый момент вре-IO

| мени заданного числа допустимых поледовательностей слов, соответствуюих эталонным сигналам слов речи.

На Фиг. 1 изображен граф порожден ия эталонных сигналов речи, состав- 15 енной из словаря объемом К слов а Фиг. 2 вЂ” фрагмент графа распозна" анин слитной речи; на Фиг. 3 - блоксхема примера устройства, реализующе го предлагаемый способ. 20

Способ смысловой интерпретации слитно произносимых слов состоит .в следующем.. Речевой сигнал дискретизи= руют с шагом Т. Из дискретизированного речевого сигнала выделяют инфор-25

Мативные признаки и в результате получают последовательность Х отсчетов

- X; речевого сит нала: Х (Х, Х

Х;,..., Х ). Каждый отсчет (элемент)

Х1 представлен как m-мерный вектор. 3О

На этапе обучения распознавания полу-, чают исходные эталоны.-слоя Е, где

1,2,...,i, k, причем каждьй эталон Е представляется последовательностью эталонных элементов е .

Е k ° (е„,ек,...,е„,,...,еKC) где е„" ,,длина эталона. При этом пауза пас (I сматривается как слово (k 0) в

Ф эталон которого входит один эталонный элемент вЂ” эталонный элемент пау-. 40 зы. В результате обучения также определяют ограничения на повторяемость каждого эталонного элемента ек в эталоне слова k, 0 (k (k, где

k - объем словаря. Например, каждый 45 эталонный элемент может повторяться

2 или 3 раза.

Пусть S = О - одно общее для всех слов главное состояние (фиг.1). Для каждого слова имеется 3 q > состояний.

Выход в начальный момент времени из главного состояния и возврат в него в некоторый заключительный момент времени порождают эталонный сигнал слитной речи, составленный из слов данного словаря, при условии свобод55 ного порядка слов. Переход по тонкой стрелке на графе означает однократное повторение эталонного элемента. Переход по толстой стрелке означает переход в начальное состояние без повторения эталонных элементов.

Для нелинейного сравнения эталонных сигналов слитной речи с реализацией слитной речи используют граф распознавания слитной речи (Фиг.2) .

Так как в рассматриваемом примере эталонный элемент может повторяться

1, 2 или 3 раза, каждому эталонному элементу соответствуют три состояния, на графе раепоэнавания. В первое из трех состояний (закрашенные кружки) входят три стрелки. Но второе и третье состояния (незакрашенные кружки) входит по одной стрелке. Слово

k может закончиться, когда траекто" рия на графе попадает в состояния, соответствукнцие последнему эталонному элементу эталона слова k. В первое состояние на графе каждого слова можно перейти из. главного состояния S = О. В главное состояние можно перейти иэ состояний соответствующих последнему эталонному элементу слова k (для каждого k). Каждая стрелка на графе соответствует сравнению эталонного элемента с элементом реализации.

Пусть для каждого момента времени

j (i (для всех состояний графов слов и состояния S = О) найдены N наиболее похожих (имеющих наибольшую интегральную меру сходства) на соответствующие отрезки речевого сигнала X, = (Х, Х ;..., Х,..., Xj) эталоннйх сигналов слитной речи с мерой сходства Р, Я = 1,2,...,N

Соответствующие йм последовательности номеров слов обозначим через К

4 = 1,2,...,N. Этим последователь остям номеров слов» соответствуют некоторые последовательности кодов под" словарей. Каждой паре (Г, К.), 4

1,2,...,N соответствует адрес записи множества кодов подсловарей, слова из которых могут продолжать последовательность К . и, таким образом, 4 могут непосредственно следовать за последним словом последовательности

К, = 1,2,...,N. Иассив допустимых ) последовательностей слов задается

j y следующим образом: (массив допустимых последова" тельностей слой ): (список подсловарей ) (конец -списка >I (массив допустимых последовательностей слов 7

1 спектра-анализатора 1 н блок 5 управления поступает сигнал, сопровождающий формирование очередного спектрального вектора. После поступления управляющего сигнала от спектра-анализатора о вводе очередного отсчета речевого сигнала и управляющего сигнала с вьмода 17 блока 13 принятия решения об окончании обработки очередного отсчета с вьмода 16 блока 3 управления, в измеритель 6 сходства и блок 10 прогнозирования поступает управляющий сигнал, по которому в измеритель 6 сходства из буфера Q входного сигнала принимается очередной отсчет речевого сигнала и измеряется мера сходства этого отсчета со всеми эталонными элементами всех слон, записанньяи в блоке 5 памяти эталонов, а затем результаты измерения поступают в блок 9 памяти элементарных .сходств. Одновременно в блоке 10 прогнозирования для задан" ного числа текущих накопленных начальных последовательностей. слов (эталонных сигналов слитной речи), начинающихся, словами иэ начальных подсловарей и окончившихся в предыдущий отсчет времени, определяются слона, которые могут продолжить эти накопленные начальные последовательности слов и эти слова дописываются к накопленным начальным последовательностям слов. При этом каждой вновь полученной начальной последовательности слов приписывают адрес подсловарей, слова иэ которых могут составить допустимые продолжения вновь полученной начальной последова- тельности слов. Для прогнозирования того, какие начальные последовательности слов, какими словами могут быть продолжены, в блок 10 прогнозирования считывает из блока 7 памяти кодов подсловарей информацию о том, в какие подсловари входит каждое слово из словаря, а иэ блока 8 памяти семантической сети - информацию о допустимых в диалоге последова" тельностях слов. С заданной задержкой после приема управляющего сигнала из блока 13 принятия решения блбк 3 управления формирует на выходе 17 сигнал управления, поступающий в вы". делитель 11 максимального сходства., В соответствии с этим управляющим сигналом выделитель 11 максимального сходства последовательно для каждого

5 1408449 (F (k, О), K",(k, О), А", (к, о)), 4 - i!N.

Далее, находятся адреса А, по кот рым записаны йоды подсловарей, сло- В в на которых могут следовать непос едственно за последним словом no-. с едовательности К".

Особый случай представляет собой

1 в исление N-"îê в состоянии S 1 я каждого слова k. Последовательн сти слов, отобранные в состоянии

S . .О, могут быть продолжены словам, составляющими допустимые продол15 ж ния этих последовательностей слов в соответствии с семантической сет ю. Допустимые продолжения последов тельностей слов К t,(R, О) определ ют кодами подсловарей, записанными и адресам A;>(k, О) в семантичесд 20 к и сети. В этом состоянии к значеи ю уклонений.F1 „(k, О) последова"

4 т ьностей слов К .1 (Е, 0), которые

"1/ пут быть продолжены словом Е (для к ого k), прибавляют сходство пер-. в го эталонного элемента е1, слова

k с распознаваемым элементом Х ° и, 1 р нжировав полученные тройки по убыs нию сходств, получают тройку чисел

30 я момента времени х дгя состояния

8 t слона k:

1 (Р", (1, 1), К,. (k, .1), 1 0 1)).

Аналогичную процедуру проводят дюжая каждого слова k.

Устройство, реализующее предлагаеспособ, содержит спектр-анапизат р 1, вход 2 которого является вход 1м устройства, блок 3 управления, буфер 4 входного сигнала, блок 5 памяти эталонов, измеритель 6 сходствф, блок 7 памяти. кодов подсловарей, бпок: 8 памяти семантической сети, блок 9 памяти элементарных сходств, бЛок 10 прогнозирования, блок 11 выделения максимального сходства, блок

12 памяти текущих значений интеграль" нЫх параметров, блок 13 принятия ре шения.

Речевой сигнал поступает на вход

Z спектра-анализатора t где формируются спектральные векторы (отсчеты рачевого сигнала), представляющие спектр текущего (15 мс) отрезка рече« вого сигнала с выхода 14 спектра-анализатора 1. Эти векторы поступает в буфер 4 входного сигнала. С выхода

1408449

Способ смысловой интерпретации слитно произносимых слон, включающий выделение текущих параметров речевого

20 сигнала, сравнение речевого сигнала с эталонными сигналами слитной речи и формирование для каждого текущего отсчета параметров,9ечевого сигнала массива из заданного количества последовательностей номеров слон, расположенных по убыванию величины сход-" ! . ства эталонного сигнала с отрезком речевого сигнала от первого отсчета до текущего, отличающийся

30 тем, что, с целью сокращения времени принятия решения при смысловой интерпретации, для каждого текущего отсчета параметров речевого сигнала рекуррентно накапливают интегпальны-.. меры сходства между последовательностью отсчетов текущих параметров от первого отсчета до текущего отсчета и эталонными сигналами слитно:: ре-.и, начинающимися эталонньчи сигналами

40 слов из начальных подсловарей и за канчивающимися всеми возможными слова считывает с выхода блока 13 прогнозирования текущие начальные последовательности слон, которые могут бь!ть продолжены этим словом с выхода блока 9 памяти элементарных, -сходств - элементарные меры сходства текущего отсчета речевого сигнала со всеми эталонными элементами, а с выхода блока 12 памяти текущих эна чений интегральных параметров - текущие значения интегральных параметров, т.е. заданное число эталонных сигналов слитной речи (последовательностей слон), заканчивающихся каждым эталонным элементом слова в предшествующий отсчет времени, интегральные сходства этих эталонных сигналов и адреса подсловарей, слова иэ которых могут составить допустимые продолжения этих эталонных сигналов (последовательностей слов). Б выде- лителе 11 максимального сходства для каждого эталонного элемента каждого эталона слова определяется заданное число эталонных сигналов слитной речи, заканчивающихся в текущих отсчетах речевого сигнала этим эталонным элементом, а также соответствующие этим эталонным сигналам интегральные сходства и адреса подсловарей, слова иэ которых могут составить допустимые продолжения этих эталонных сигналов слитной речи (последовательностей слов). Полученные интегральные текущие параметры записываются в блок 12 памяти текущих значений интегральных параметров. В блоке 13 принятия решения среди всех эталонных сигналов слитной речи, заканчивающихся последними эталонными элементами (для каждого эталона слова) и наиболее похожих на отрезок речевого сигнала от первого î вЂ” ñ÷åòà до текущего, выбирается заданное число

4 эталонных сигнаЛов (последовательностей слов), имеющих максимальное интегральное сходство.

Если на выходе 18 блока 3. управления появляется сигнал, указывакнций на окончание речевого сигнала, первая из заданного числа последовательностей слов, полученных в текущий отсчет времени в блоке 13 принятия решения интерпретируется и на

5 выходе 19 этого блока появляется ответ интерпретации. Если речевой сигнал не закончился, последовательности слов, отобранные блоком 13 принятия решения, с его выхода 20 передаются в блок 10 прогнозирования, а с выхода 17 з блок 3 управления передается управляющий сигнал об окончании обработки очередного отсчета речевого сигнала °

Использование предлагаемого изобретения позволит при достаточно высокой надежности интерпретации сокра- тить время реакции в системах, ис-. пользующих речевое управление.

Формула изобретения эталонными элементами только тех слов, номера которых принадлежат под;. словарям, адреса которых приписаны текущим последовательностям номеров слов и слона которых могут составить допустимые продолжейия последовательностей номеров слов иэ текущих масси" зов, накопленных для нескольких предшествующих отсчетов текущих параметров, а в текущие массисы из заданного количества последовательностей номеров слов записывают те ранжированные по убыванию сходства полученные путем дописывания допустимого слова новые последовательности номероь слов, которым соответствуют наибольшие интегральные Меры сходства, причем каждой вновь полученной

1408449

6 е последовательности номеров слов приписывают адрес подсловарей, слова из которых могут составить допустимые . продоляеийа вновь полученной последовательности слов, а ответ интерпретации определяют по последователь" ности слов с наибольшей интегральной мерой сходства, найденной для послед« ,него отсчета параметров речевого сиг нала.

Составитель С.лзрнн

Техрец A.Кравчук

Редактор 4f.Гратилло корректор Г.Релетник

2 Подписное

ЗНИИПИ Государственного комитета СССР по делам изобретений и открытий

)33035, Иосква, Х(-35, Раушскан наб,, д. 4/5 тяо асс(3 5(т

Производственно-полиграфическое предприятие, г. Ужгород, ул, Проектная,

Способ смысловой интерпретации слитно произносимых слов

Способ обучения автоматическому распознаванию образов // 1141447

Устройство для распознавания слоев // 516094

Способ автоматической идентификации личности // 2161826

Изобретение относится к обработке информации и может быть использовано в телекоммуникационных системах

Способ автоматического распознавания человека с использованием акустических сигналов, снимаемых с тела человека // 2263358

Изобретение относится к области автоматического распознавания человека по его голосовым характеристикам и может быть использовано для ограничения и разграничения доступа (в том числе удаленного) к устройствам и системам, к средствам электронно-вычислительной техники, к конфиденциальной информации, к услугам (например, телекоммуникационным, информационным, банковским), а также к охраняемым зонам и помещениям

Способ распознавания фонем речи и устройство для реализации способа // 2268504

Изобретение относится к области анализа и распознавания речевых сигналов и касается способа распознавания фонем речи

Способ распознавания слов речи // 2296376

Изобретение относится к области анализа и распознавания речевых сигналов

Способ организации синхронного перевода устной речи с одного языка на другой посредством электронной приемопередающей системы // 2419142

Изобретение относится к области электроники, в частности к переводу фраз с первого языка на второй

Детектирование автоответчика путем распознавания речи // 2439716

Изобретение относится к способам и устройствам детектирования автоответчика, используемым для определения того, является ли получатель вызова реальной персоной или автоответчиком

Устройство для распознавания речевых команд // 1578744

Изобретение относится к речевой информатике

Способ и сервер для синтеза речи по тексту // 2632424

Изобретение относится к средствам синтеза речи по тексту. Технический результат заключается в повышении естественности человеческого голоса в синтезированной речи. Акустическая пространственная модель обучается на основе обучающих данных речевых атрибутов с использованием глубокой нейронной сети для определения факторов взаимозависимости между речевыми атрибутами в обучающих данных. Глубокая нейронная сеть создает единственную непрерывную акустическую пространственную модель на основе факторов взаимозависимости. Акустическая пространственная модель, таким образом, учитывает множество взаимозависимых речевых атрибутов и дает возможность моделировать непрерывный спектр взаимозависимых речевых атрибутов. Далее происходит получение текста; получение выбора одного или нескольких речевых атрибутов, причем каждый речевой атрибут обладает весом выбранного атрибута. Текст преобразуется в синтезированную речь с использованием акустической пространственной модели, и синтезированная речь обладает выбранным речевым атрибутом. Синтезированная речь выводится в виде аудио, обладающего выбранным речевым атрибутом. 2 н. и 12 з.п. ф-лы, 4 ил.

Способ автоматического перевода устной речи с одного языка на другой и устройство для его реализации // 2641222

Изобретение относится к области электроники, в частности к электронным устройствам для организации общения между людьми, говорящими на разных языках. Технический результат заключается в повышении точности и скорости перевода устной речи с одного языка на другой. Технический результат достигается за счет способа перевода устной речи с одного языка на другой язык, который реализуется с использованием устройства, выполненного в виде двух модулей - блока обработки сигналов от микрофонов и электронного устройства, содержащего ЭВМ с соответствующим программным обеспечением, которые могут быть связаны друг с другом по проводным или беспроводным линиям связи. Блок обработки сигналов от микрофонов предназначен для выполнения части операций по обработке сигналов с выходов микрофонов и управления работой излучателей сигналов, и его выполняют с возможностью подключения к нему по крайней мере двух микрофонов и излучателей сигналов и выполняют его в виде двух каналов обработки сигналов микрофонов, узла коммутации, связанных между собой так, что обеспечивается возможность автоматического поочередного переключения электрических сигналов, формируемых с помощью микрофонов, на один общий микрофонный выход блока обработки сигналов микрофонов. 2 н. и 16 з.п. ф-лы, 2 ил.