Устройство для обработки речевого сигнала

Изобретение относится к области электротехники и может быть использовано в автоматизированных комплексах связи. Технический результат заключается в повышении надежности работы устройства в условиях высоких шумов. Устройство для обработки речевого сигнала состоит из аналого-цифрового блока обработки речевого сигнала, который выполнен из детектора огибающей, параллельно соединенного с детектором основного тона и нормализатором уровня, который в свою очередь соединен со спектрально-полосовым анализатором, и исполнительного блока. Выходы детектора огибающей, детектора основного тона, спектрально-полосового анализатора соединены с аналого-цифровым преобразователем. Исполнительный блок состоит из первого цифрового колебательного фильтра, линии задержки, устройства изменяемых коэффициентов и второго цифрового колебательного фильтра. В первом цифровом колебательном фильтре число коэффициентов фильтра составляет от 10 до 12. Выходы элементов, определяющих величины коэффициентов, соединены с десятью входами второго цифрового колебательного фильтра, с линией задержки. На первый вход первого цифрового колебательного фильтра подается основной тон речевого сигнала и случайный шум. 1 ил.

 

Изобретение относится к области кибернетики и вычислительной техники и может быть использовано в комплексных системах автоматического распознавания речевых сигналов.

Идентификация человека по голосу - один из традиционных способов распознавания, применяемый повсеместно. Можно легко узнать собеседника по телефону, не видя его. Также можно определить психологическое состояние по эмоциональной окраске голоса.

Одной из основных целей машинного автоматического распознавания голоса (речи) является создание ориентированного на человека интерфейса компьютерных систем.

Распознавание голоса происходит следующим образом: при помощи воспринимающих (микрофона) и оцифровывающих (дискретизирующих) устройств и машинной обработки фокусируется акустический (речевой) сигнал и преобразуется в цифровую форму. Затем цифровой сигнал разбивается на неделимые интервалы, называемые фонемами. Фонемы представляют собой элементарные единицы звука. Последовательность фонем составляет слоги, слоги составляют слова, слова составляют предложения, которые уже представляют сообщения, идеи и команды. В общем, фонема - это звук, образованный одной или несколькими буквами в их сочетании с другими буквами. Если целью процесса является лишь опознавание говорящего (что и означает термин «распознавание голоса»), то нет необходимости разбивать сигнал на фонемы. Можно также распознать слова и предложения, минуя все эти этапы.

После преобразования акустического сигнала в слова и предложения начинается этап обработки естественного языка. В процессе обработки лингвистической информации последовательности слов, на основании контекста, шаблонов речи и, возможно, априорных знаний о предмете разговора, разбиваются на логические единицы - фразы. Затем эти логические единицы анализируются и переводятся в действительные команды или сообщения, которые понятны компьютерной системе или конкретному приложению.

Так как голосовая идентификация бесконтактная и не требует от человека особых усилий, ведутся работы по созданию голосовых замков и систем ограничения доступа к информации. Интерес к этой области связи связан еще и с прогнозами повсеместного внедрения голосовых интерфейсов.

Сегодня существуют два основных вида технологий распознавания голоса. Один из них - это распознавание речи, зависящее от диктора, т.е. пользователь должен сначала научить систему распознавать его голос, и только после этого система может функционировать. Второй - это распознавание речи независящее от диктора, т.е. система способна распознать любую речь, независимо от того, кто говорит.

Известно устройство автоматического распознавания говорящего по голосу. Патент РФ на ПМ №102408 от 27.02.2011 г., а также Устройство автоматического распознавания речи. Катанович А.А., Ершов В.Н. Комплексы и системы связи ВМФ. Судостроение, СПб., 2014 г. 231 с.

Устройство содержит блок обработки речевого сигнала, в который входят микрофон, предварительный усилитель, высокочастотный усилитель, детектор огибающей и нормализатор уровня сигнала, при этом нормализатор уровня сигнала выполнен в виде схемы автоматического регулирования усиления.

Известна также «Комплексная система автоматического распознавания речевых сигналов». Патент РФ на ПМ №75074 от 20.07. 2008 г.

Система состоит: из аналого-цифрового блока обработки речевого сигнала, в который входит детектор огибающей, параллельно соединенный с детектором основного тона и нормализатором уровня, а также исполнительного блока, состоящего из устройств описания и верификации голосов, формирования эталонов, нормализации эталонов команд, распознавания команд, ключа и др. элементов.

Однако известные системы не полностью учитывают индивидуальные различия говорящих при распределении речевых команд и автоматическую верификацию голосов с целью контроля за личностью оператора, так как они не способны работать с высокой надежностью в условиях высоких и даже средних уровней шумов (при отношении сигнал/шум ниже 30 дБ). В качестве недостатка необходимо отметить также и большую размерность признакового описания реализаций, осуществляемых всеми тремя программами вместе, а также высокую стоимость.

Цель изобретения - расширение технических средств автоматического распознавания речевых сигналов.

Поставленная цель достигается за счет того, что в устройстве, состоящем из аналого-цифрового блока обработки речевого сигнала, который выполнен из детектора огибающей, параллельно соединенного с детектором основного тона и нормализатором уровня, который в свою очередь соединен со спектрально-полосовым анализатором, причем выходы детектора огибающей, детектора основного тона, спектрально-полосового анализатора соединены с аналого-цифровым преобразователем (АЦП) и исполнительного блока, при этом исполнительный блок, состоит из первого цифрового колебательного фильтра (под цифровым колебательным фильтром здесь понимается цифро-аналоговый преобразователь (ЦАП), на выходе которого стоит полосовой фильтр с полосой пропускания равной полосе стандартного спектра человеческого голоса), линии задержки, устройства изменяемых коэффициентов и второго цифрового колебательного фильтра, при этом в первом цифровом колебательном фильтре число коэффициентов фильтра (функциональных элементов-резисторов резистивной матрицы ЦАП, Радиотехника: Энциклопедия / Под ред. Ю.Л. Мазора, Е.А. Мачусского, В.И. Правды. - М.: ДМК Пресс, 2016, с. 769) составляет от 10 до 12 (a1, …а12), выходы этих элементов соединены с десятью входами второго цифрового колебательного фильтра, с линией задержки и при этом на первый вход первого цифрового колебательного фильтра подается тон и случайный шум.

На фиг. показана функциональная схема устройства, она содержит:

1 - детектор огибающей; 2 - нормализатор уровня;

3 - детектор основного тона; 4 - спектрально-полосовой анализатор;

5 - аналого-цифровой преобразователь;

6 - первый цифровой колебательный фильтр; 7 - линия задержки;

8 - устройство изменяемых коэффициентов;

9 - второй цифровой колебательный контур.

Работа устройства осуществляется следующим образом. Речевой сигнал через микрофон и усилитель (на фиг. не показано) поступает на вход детекторов огибающей 1, основного тона 3 и нормализатор уровня 2, а затем на спектрально полосовой анализатор 4, с которого он через аналого-цифровой преобразователь 5 - в цифровой колебательный фильтр 6.

Согласованные колебания звука имитируют периодическими ударами по некоторому колебательному звену (колоколу). Период ударов точно соответствует периоду основного тона голоса. Динамические характеристики колокола меняются, чтобы получить форму, близкую к голосовой фразе. В качестве колокола используется цифровой колебательный фильтр 6.

Число коэффициентов числового колебательного фильтра 6 колеблется от 10 до 12 (a1, …a12). Этого достаточно для качественного воспроизведения речи с сохранением индивидуальных особенностей. Поток команд на изменение коэффициентов поступает с устройства 8 на функциональные элементы коэффициентов, для изменения их номиналов и, соответственно, электрических характеристик. Коэффициенты линейного предсказателя вычисляются на выборке из 180-220 отсчетов («ударов»).

Вычисление параметров предсказателя (цифрового фильтра) находим решением системы из 10…12 линейных уравнений. Для того чтобы понизить вычислительную нагрузку частоту дискретизации понижаем до 8 кГц.

При имитации согласованных звуков на вход цифрового колебательного фильтра подается периодическая последовательность импульсов, промодулированных по амплитуде. В этом случае на входе второго колебательного фильтра 9 появляются периодические переходные процессы, повторяющие моделируемый звук. При моделировании шипящих на вход подают случайный шум нужной амплитуды.

При обучении системы на ее вход подают несколько образцов голоса пользователя. Они преобразуются в последовательность импульсов основного тона и соответствующую последовательность коэффициентов линейного предсказателя. Получается массив из коэффициентов и является тем биометрическим эталоном, который записывается в базу данных.

В аналоговой части системы происходит описание голосов верифицируемых операторов и распознаваемых команд. В операционной

части системы происходит установление принадлежности голоса оператора к классу «Свой» или «Чужой».

Таким образом, использование аппарата линейного предсказания уменьшает количество ошибок (пропуск чужого) до 0,00000001%.

Предложенная система также позволяет и существенно сократить объем запоминаемой информации (в 8-10 раз по сравнению с использованием индивидуальных эталонных изображений звуков).

Раздельная нормализация индивидуального различия говорящих (ИРГ) для различных групп сонорных звуков (гласных и сонантов) эффективна лишь в том случае, когда процедура классификации звуков из указанных групп осуществляется также раздельно, т.е. сначала определяется принадлежность неизвестного звука, а затем его место внутри найденной группы

Устройство для обработки речевого сигнала, состоящее из аналого-цифрового блока обработки речевого сигнала, который выполнен из детектора огибающей, параллельно соединенного с детектором основного тона и нормализатором уровня, который в свою очередь соединен со спектрально-полосовым анализатором, причем выходы детектора огибающей, детектора основного тона, спектрально-полосового анализатора соединены с аналого-цифровым преобразователем (АЦП), и исполнительного блока, отличающееся тем, что исполнительный блок состоит из первого цифрового колебательного фильтра, линии задержки, устройства изменяемых коэффициентов и второго цифрового колебательного фильтра, при этом в первом цифровом колебательном фильтре число коэффициентов фильтра составляет от 10 до 12 (а1…а12), выходы элементов, определяющих величины коэффициентов, соединены с десятью входами второго цифрового колебательного фильтра, с линией задержки и при этом на первый вход первого цифрового колебательного фильтра подается основной тон речевого сигнала и случайный шум.



 

Похожие патенты:

Изобретение относится к вычислительной технике для распознавания речи. Технический результат заключается в повышении точности распознавания речи пользователя.

Изобретение относится к способу и устройству для естественно-речевого распознавания речевого высказывания. .

Изобретение относится к системам передачи речевой активности в распределенной системе распознавания голоса. .

Изобретение относится к области вычислительной техники для обработки и передачи данных с корректировкой орфографических ошибок. Технический результат заключается в расширении коммуникативной функции языка общения людей с дефектами слуха и речи с говорящим и слышащим человеком за счет увеличения объема передаваемой информации.

Изобретение относится к средствам для получения транскрипции речевого фрагмента. Технический результат заключается в повышении точности транскрипции речевого фрагмента.

Изобретение относится к области электросвязи, когнитивной психологии и психофизиологии и может быть использовано для определения истинности речевой информации, циркулирующей в инфокоммуникационных системах.

Изобретение относится к области техники анализа речи, в частности к способу оценки мгновенной частоты в точках локального максимума речевых сигналов. Техническим результатом является уменьшение количества вычислений для оценки мгновенной частоты в точках локального экстремума.

Группа изобретений относится к вычислительной технике и может быть использована для активации электрического устройства из режима ожидания в режим работы на полную мощность.

Данное изобретение относится к технологиям распознавания речи, т.е. перевода звукового сигнала, содержащего речь, в транскрипционное представление.

Изобретение относится к средствам помехоустойчивой классификации режимов кодирования речи. Технический результат заключается в повышении эффективности классификации режимов речи для повышения эффективности многорежимного кодирования с переменной скоростью передачи данных.

Изобретение относится к средствам обработки изображений. Технический результат заключается в уменьшении времени распознавания команды и выполнения операции.

Изобретение относится к автоматике и вычислительной технике. .

Изобретение относится к области информационных технологий - обработки аудио сигналов, в частности к способу распознавания музыкальных произведений и устройству для его осуществления.
Наверх