Способ селекции признаков для распознавания речевых сигналов

Авторы патента:

G10L15/08 - классификация речи или поиск (распознавание знаков G06K 9/00)

СПОСОБ СЕЛЕКЦИИ ПРИЗНАКОВ ДЛЯ РАСПОЗНАВАНИЯ РЕЧЕВЫХ СИГНАЛОВ, основанный на выделении огибающей речевого сигнала, сравнении ее ампли туды с амплитудой порюгового напряжения и формировании порогового временного интервала, опорных последовательностей речевых сигналов и импульсов,.отличающийся тем, что, с целью повышения надежности селекции признаков, инве1 тируют амплитуды опорных речевых сигналов, последовательно суммируют их с амплитудой огибающей речевого сигнала и в моменты формирования порогового временного интервала преобразуют амплитуду полученного суммарного сигнала в последовательность сигналов признаков путем временной Кюдуляции опорной последовательности импульсов длительностью соответствующео в го порогового временного интервала.

СОЮЗ СОВЕТСКИХ

СОЦИАЛИСТИЧЕСКИХ

РЕСПУБЛИК (1% (И) ГОСУДАРСТВЕННЫЙ КОМИТЕТ СССР

ПО ДЕЛАМ ИЗОБРЕТЕНИЙ И 0THPbfA44

ОПИСАНИЕ ИЗОБРЕТЕНИЯ

Н ABTOPGHOMY СВИДЕТЕЛЬСТВУ

-А (21 ) 3435440/18-24 (22 ) 06.05.82 (46 ) 23.08.83. Бюл. Р 31 (72 ) П.Г.Кузнецов, В.Е.Лялин и В.С.Поздеев (71 )Ижевский механический институт (53 ) 681.327.12(088.8 ) (56 ) .1. Патент США е 3663758, кл . 179-1, опублик. 1972.

2. Патент США У 3770892, кл. 179-1, опублик. 1973 (прототип ).

-(54 )(57) СПОСОБ СЕЛЕКЦИИ ПРИЗНАКОВ

ДЛЯ РАСПОЗНАВАНИЯ РЕЧЕВЫХ СИГНАЛОВ, основанный на выделении огибающей

1 речевого сигнала, сравнении ее ампли туды с амплитудой порогового напря3(5В G 06 К 9/46; G 10 L 1/02 жения и формировании порогового временнбго интервала, опорных последовательностей речевых сигналов и импульсов,. отличающийся тем, что, с целью повьыения надежности селекции признаков,инвертируют амплитуды опорных речевых сигналов, последовательно суммируют их с амплитудой огибающей речевого сигнала и в моменты формирования порогового временного интервала преобразуют амплитуду полученного суммарного сигнала в последовательность сигналов признакбв путем временной модуляции опорной последовательности импульсов длительностью соответствующего порогового временного интервала.

1037292

Изобретение относится к технической кибернетике, в частности к способам распознавания образцов, и может быть использовано при идентификации личности по голосу.

Известен способ селекции признаков для распо=навания речевых сигналов, основанный на преобразовании речевого сигнала в последовательность опорных сигналов, измерении амплитуд этих .сигналов и их сравнении с амплитудами пороговых сигналов t. 1), Наиболее близким к изобретению по; технической сущности является способ, основанный на преобразовании речевого сигнала в последовательность опорных сигналов, выделении спектральных характеристик сигналов и сравнении их с эталонными характеристиками образцов 2 .

Недостаток известных устройств состоит в невысокой надежности селекции признаков.

Цель изобретения состоит в повышении надежности селекции признаков.

Поставленная цель достигается тем, что согласно способу, основанному на выделении огибающей речевого сигнала, сравнении ее амплитуды с амплитудой порогового напряжения и формировании порогового временного интервала, опорных последовательностей речевых сигналов и импульсов, инвертируют амплитуды опорных речевых сиГналов, последовательно суммируют их с амплитудой огибающей речевого сигнала и в моменты формирования порогового Временного интервала преобразуют амплитуду полученного суммарI ного сигнала, в последовательность сигналов признаков путем временной модуляции опорной последовательности импульсов длительностью соответ» ствующего rroporoaoro временного интервала.

На чертеже представлена предлагае мая блок-схема устройства.

Речевой сигнал поступает на вход усилителя 1, с выхода которого подается на формантные фильтры 2-4 детекторами огибающей, выделяющие амплитуды А - А опорных сигналов.

Амплитуда огибающей речевого сигнала выделяется детектором 5 и подается на блоки 6-8 последовательного вычитания. Блок 9 формирует пороговый интервал, начало которого определяется по превышению амплитуды речевого сигнала над амплитудой эталонного сигнала, а конец, наоборотпо превышению амплитуды эталонного сигнала над амплитудой речевого сигнала.. Выход блока 9 подается на управляющий вход генератора 10 импульсов, который через схемы совпадения 11-13 осуществляет ввод разностных сигналов в блок 14 приня-, тия решения, временного интервала, вырабатыва5» емо ro бл о ком 18 .

Импульсы основного тона выделяются блоком 15 и через схему 16 совпадения подаются на счетчик 17. Время счета определяется длительностью

Для управления работой блока 14 принятия решения, блока 19 памяти и счетчика 17 служит блок 20 управления.

Речевой сигнал усиливается усилителем 1 и разделяется на формантные области спектра, фильтрами 2-4, на выходах которых получаются амплитуды опорных сигналов A„ - А>. На выходе детектора 5 выделяется амплитуда речевого сигнала. На выходах блоков

6-8 последовательного вычитания из опорных сигналов A вЂ” Aq формируются разностные сигналы. Время анализа определяется длительностью временного интервала, вырабатываемого блоком 9. Б течение этого времени интервала генератор 10 импульсов вырабатывает последовательность импульсов, которые через схема 11-13 совпадения осуществляют ввод разностных сигналов в блок 14 принятия решения.

Для выделения импульсов основного тона используется блок 15, средняя частота основного тона пропорциональна числу импульсов, прошедших через схему 16 совпадения, и подсчитывается счетчиком 17. Время счета определяется длительностью. заданного временного интервала, формируемого блоком

18. Эталонные характеристики образов хранятся в блоке 19 памяти. Блок 20 управления вырабатывает необходимые управляющие, сигналы для начальной установки счетчика 17, запуска блока 14 принятия решения и выдачи эталонных характеристик образов из блока 19 памяти.

Проводились экспериментальные исследования предлагаемого способа.

В качестве речевого материала использовались 1200 произнесений слова

"Аэлита" для 60 мужских и женских голосов, по 20 произнесений на одного диктора. Граничные частоты формантных фильтров 2-4 были равны соответственно 200-850, 850-2200, 2200-3400 Гц. Временной интервал соответствовал участку слова "Аэли".

За это время в блок 14, в качестве которого использовалась ЭВМ

"Наири-3-1", оснащенная устройством ввода аналоговых сигналов, вводилось в среднем, 30 отсчетов разностных сигналов. Программным путем формировалось для любого произнесения 10 отсчетов, нормализованных по времени.

Средняя частота основного тона под1037292

Составитель Т. Ничипорович

Редактор Л. Гратилло Техред M.Tenep Корректор М. Демчик

Заказ 6013/52

Тираж 706

Подписное

ВНИИПИ Государственного комитета СССР по делам изобретений и открытий

113035, Москва, Ж-35, Раушская наб., д. 4/5

Филиал ППП."Патент", r. ужгород, ул. Проектная, 4 считывалась на временном интервале, равном 0,4 с.

Надежность идентификации личности человека по голосу составила 98,4Ъ.

Введение новой последовательности операций позволило существенно повысить надежность селекции признаков для распознания речевых сигналов.

Способ селекции признаков для распознавания речевых сигналов

Способ обработки речевого сигнала // 1027761

Устройство для оценки качества звуковмузыкальных инструментов // 828215

Способ обработки речевых сигналов // 781885

Синтезатор звуков // 681446

Устройство для распознавания речевого сигнала // 643960

Устройство для распознования команд // 585520

Устройство кодирования речевых сигналов // 559269

Устройство для передачи сигнала основного тона речи методом дельта-модуляции // 558412

Устройство коррекции ошибок выделения основного тона речи // 555546

Дистанционное вокодирование по линии связи на большую дальность действия // 2147771

Представление данных на основе введенных пользователем данных // 2360281

Изобретение относится к доступу и воспроизведению информации в компьютерной системе, а более конкретно к представлению данных на основе голосового ввода, осуществляемого пользователем

Устройство для автоматического распознавания фонем речевого сигнала // 1352523

Устройство для распознавания речевых сигналов // 1695376

Изобретение относится к технике обработки речевых сигналов оптическими методами и может быть использовано при распознавании сигналов для сокращения избыточности речевого потока при его вводе в вычислительную систему, работающую в режиме обмена с оператором на естественном языке

Способ и устройство классификации сегментов зашумленной речи с использованием полиспектрального анализа // 2606566

Изобретение относится к области цифровой связи и технологиям обработки речи в условиях зашумления. Технический результат - повышение достоверности классификации сегментов зашумленной речи по типовым классификационным группам. В способе классификации сегментов зашумленной речи осуществляют полиспектральный анализ для частичного шумоподавления путем повышения адекватности Фурье-спектра сигнала, который восстанавливают из оценки биспектра обрабатываемого зашумленного речевого сигнала; далее на основе исходного речевого сигнала и нормализованного Фурье-спектра в каждом сегменте выделяют наличие/отсутствие классификационных признаков речевого сигнала и весовых коэффициентов, осуществляют их коррекцию с применением процедуры иерархии и на конечном этапе принимают решение по вопросу отнесения сегмента к типовым группам, по результатам сравнения осуществляют формирование последовательности символов, обозначающих типовые группы. 2 н. и 8 з.п. ф-лы, 7 ил.

Способ оценки мгновенной частоты речевого сигнала в точках локального максимума // 2621647

Изобретение относится к области техники анализа речи, в частности к способу оценки мгновенной частоты в точках локального максимума речевых сигналов. Техническим результатом является уменьшение количества вычислений для оценки мгновенной частоты в точках локального экстремума. Вводят в память компьютера частоты стробирования f и амплитуды звукового сигнала либо посредством использования микрофона и стандартной программы ввода, либо посредством считывания файла звукового сигнала. Производят отыскание точек локального максимума амплитуды речевого сигнала. Производят вычисление величины , где n - позиция локального максимума. Выполняют подсчет мгновенной частоты в указанной точке по формуле w=ƒ*argcos(Val). Выводят позицию локального максимума и найденную оценку мгновенной частоты в формате n, w. 2 ил.

Алгоритм поиска в компьютерных системах и базах данных // 2648572

Изобретение относится к средствам для поиска в компьютерных системах и базах данных. Технический результат заключается в обеспечении возможности подбора музыкальной и текстовой информации друг к другу на основании их ритмических свойств. Способ включает индексацию текстовой информации, ввод запроса и поиск по индексу. Для индексации базы текстов, хранящихся в базе данных, с использованием системы поиска вычисляют ритмические характеристики текстов, а именно векторы, кодирующие ритмические свойства отдельных строк текста и всего текста в целом. Построение векторов системой поиска происходит в два этапа. На первом этапе строка сегментируется на слоги, после чего в строке автоматически проставляются ударения и на выходе первого этапа в строке текста расставлены границы слогов и для каждого из них указано, ударный это слог, безударный или система поиска не может однозначно определить его ударность. На втором этапе система поиска вычисляет вектор для каждой строки текста, после чего вычисляет агрегированный вектор для всего текста, который определяет ритмическую структуру этого текста. Агрегированный вектор сохраняют в хранилище векторов, поддерживающем функцию поиска ближайших соседей. Осуществляют ввод запроса в текстовом или псевдотекстовом виде для нахождения текстовых данных, подходящих звуковых данных. 2 н. и 3 з.п. ф-лы, 5 ил.