Способ преобразования амплитудно-временного представления звуковой волны

Авторы патента:

G10L7/02 - (Рубрика аннулирована. Содержание перенесено в G10L 13/02, G10L 19/02)

Изобретение относится к речевой акустике и может быть использовано при проектировании систем автоматического распознавания и синтеза звуковых волн, являющихся носителями речевой информации . Цель изобретения - повышение точности представления образа звуковой волны. Поставленная цель достигается тем, что амплитудно-временное представление звуковой волны разделяют на временные отрезки, представляющие собой элементарные составляющие волнового процесса и соответствующие полному колебанию функции , и преобразуют в последовательность значений длин полных колебаний и колебаний функции на них. 3 ил.

СОЮЗ СОВЕТСКИХ

СОЦИАЛ ИСТИЧЕ С KVIX

РЕСПУБЛИК (й)s G 10 1 7/02

ГОСУДАРСТВЕННОЕ ПАТЕНТНОЕ

ВЕДОМСТВО СССР (ГОСПАТЕНТ СССР) ОПИСАНИЕ ИЗОБРЕТЕНИЯ

К АВТОРСКОМУ СВИДЕТЕЛЬСТВУ (21) 4840016/24 (22) 19.06.90, (46) 15.02.93. Бюл, N. 6 (71) Специальное конструкторское бюро искусственного интеллекта "Интеллект" при

Донецком государственном университете (72) С.В.Мышко и А.И.Шевченко (56) Авторское свидетельство СССР

N 559269, кл. G 101 7/02, 1977.

"Проблемы бионики", N. 3, 1985, стр,612. (54) СПОСОБ ПРЕОБРАЗОВАНИЯ АМПЛИТУДНО-ВРЕМЕННОГО ПРЕДСТАВЛЕНИЯ

ЗВУКОВОЙ ВОЛНЫ

Известно устройство кодирования речевых сигналов, в котором в качестве признаков в системах распознавания речи предлагается использовать экстремальные значения речевых сигналов и интервалы времени между ними.

Однако такое представление зашумленных сигналов, когда на полуволнах существует множество экстремумов, которые не несут важной информационной нагрузки, приводит к избытку информации.

Наиболее близким техническим решением является способ построения "динамических портретов", при котором

„., Ы„„1795515 А1 (57) Изобретение относится к речевой акустике и может быть использовано при проектировании систем автоматического распознавания и синтеза звуковых волн, являющихся носителями речевой информации. Цель изобретения вЂ” повышение точности представления образа звуковой волны. Поставленная цель достигается тем, что амплитудно-временное представление звуковой волны разделяют на временные отрезки, представляющие собой элементарные составляющие еолновога процесса и соответствующие полному колебанию функции, и преобразуют в последовательность значений длин полных колебаний и колебаний функции на них. 3 ил. амплитудно-временное представление речевого сигнала разбивается на временные отрезки длиной 10 мс. Для каждого из этих отрезков определяют значение максимального отсчета и количество переходов функции через ноль. Таким образом звуковую волну представляют в виде последовательностей значений максимального отсчета на временном отрезке и количества переходов функции через ноль на этом отрезке.

Известный способ имеет следующие недостатки. Во-первых, произвольный выбор длины временного интервала лишает фи-. зического смысла такое представление звуковой волны и сводит его к субьективностатистическому вЂ” не понятно, что же представляет собой отрезок звуковой волны на ., интервале, например. 10 мс, и почему именно такой длины выбран интервал.

1795515

Во-вторых, одна полуволна может иметь множество локальных экстремумов, и при произвольном разбиении амплитудноаременного представления на временные отрезки, локальные экстремумы данной полуволны могут войти в соседние интервалы, и таким образом искажается картина представления звуковой волны.

Проблема преобразования амплитудновременного представления звуковой волны в аиде последовательности отрезков, обладающих определенными физическими свойствами волнового процесса сводится к обоснованию выбора длины этих отрезков и отображени1о их физической сущности через определенные физические параметры волнового процесса.

Целью способа является повышение точности представления образа звуковой волны.

Поставленная цель достигается тем, что ам плитудно-времен нсе представление звуковой волны расчленяют на временные отрезки, представляющие собой элементарные составляющие волнового процесса и соответствующие полному колебанию функции, и преобразуют в последовательность значений длин полных колебаний и колебаний функции на них.

Представление звуковой волны в виде последовательности элементарных составляющих АВП," соответствующих полным колебаниям функции позволяет решить проблему выбора длин временных отрезков, с точки зрения физической сущности волнового процесса.

Длина временного отрезка определяется периодом полного колебания функции.

Выбор величин, характеризующих элементарные составляющие волнового процесса, значений длин полных колебаний и колебаний функции на этих длинах, позволяет подойти к изучению речевого сообщения как волнового процесса, характеризующегося определенными параметрами, с точки зрения которых можно оценить источники звуковых волн. Функция U(t) соответствует образу волнового процесса, элементарной составляющей которого является полное колебание, то есть отрезок области определения функции U(t) на концах которого U(t)=0, исуществует единственная точка t, принадлежащая отрезку, такая, что 0(т1) = О.

Если обозначить через K> i-e полное колебание функции U(t), а через (К1) вЂ” вектор-функцию признаков Кь то. функция будет иметь вид у (К ) = {4 и), где б вЂ” длина полного колебания ki, а ri вЂ” колебание функции U(t) на Кь т.е. r> = ВОР{0(т1) вЂ” U(tz)).

Yt>, tzCK) Предлагаемое представление функции

U(t) приводит к выбору исследуемых фрагментов функции, согласно ее физической сущности, соответствующей отражению волнового процесса. Предлагаемое техническое решение поясняется чертежами.

На фиг,1,2 приведены амплитудно-временное представление речевого сигнала и представление речевого сигнала в виде по"0 следовательностей значений длин полных колебаний вЂ” штриховые линии 2 и колебаний функций АВП звуковых волн вЂ” штрихо- . вые линии 1 соответственно: на фиг.3 приведена структурная схема устройства, "5 реализующего АВП звуковых волн в виде последовательностей значений длин полных колебаний и колебаний функции на этих длинах, На фиг.1,2 приведено представление

20 речевого сигнала согласно предлагаемому способу. Такое представление используется при анализе речевых сообщений.

Устройство, реализующее способ (фиг.3), состоит из генератора эталонной частоты 1, счетчика 2, регистра 3, блока выделения нулей 4, блока выделения максимумов 5, блока выделения минимумов

6, сумматора 7, аналого-цифрового преобразователя 8, параллельных интерфейсов 9

30 и 10. Выход генератора 1 соединен с первым входом счетчика 2 и первым входом блока выделения нулей 4. Выход счетчика 2 соединен с первым входом регистра 3, выходы блока выделения нулей 4 соединены соот-.

35 ветственно со вторыми входами счетчика 2, регистра 3, АЦП 8 и интерфейса 9. Выходы блоков выделения максимумов 5 и минимумов 6 соединены со входом сумматора 7, выход которого соединен с первым входом

40 АЦП 8. Второй выход АЦП 8 соединен со вторыми входами блоков выделения максимумов 5 и минимумов 6 и интерфейса 10. блок выделения нулей 4 состоит из триггера готовности, триггера Шмитта, четырех одновибраторов. Блоки выделения максимумов 5 и минимумов 6 состоят из детектора, ключа и одновибратора.

Устройство работает следующим обра.зом, Входной сигнал поступает на второй

50 вход блока выделений нулей 4 и первые входы блоков выделения максимумов 5 и минимумов 6, Для выделения длины полного колебания используется генератор 1, счетчик 2 и регистр 3. В блоке выделения нулей

55 4 на выходе триггера Шмитта формируется последовательность прямоугольных импульсоа, соответствующая моментам перехода через ноль. По переднему фронту этих импульсов формируется сигнал записи а регистр 3 текущего значения счетчика 2 и сиг1795515

20 (!

Фяг.2 нал готовности к обмену интерфейса 9 с микропроцессорной системой, а также сигнал сброса счетчика 2. Для выделения амплитуды полного колебания используются блоки выделения максимумов 5 и минимумов 6, в которых за период полных колебаний на накопительных конденсаторах запоминаются амплитуды глобальных максимума и минимума. затем они суммируются по абсолютной величине в сумматоре 7 и поступают на вход АЦП 8. Запуск АЦП 8 осуществляется по переднему фронту импульсов, поступающих с триггера Шмитта блока выделения нулей 4. По завершению аналого-цифрового преобразования вырабатывается сигнал, по которому происходит разряд накопительных конденсаторов и формируется сигнал готовности к обмену

Формула изобретения

Способ преобразования амплитудновременного представления звуковой волны путем разбиения его на временные отрезки, отличающийся тем,что,сцелью повышения точности представления образа интерфейса 10 с микропроцессорной системой, Предлагаемый способ преобразования амплитудно-временного представления

5 звуковых волн может применяться при анализе и синтезе речевых сообщений. Речевой сигнал представляется в виде последовательности значений длин полных колебаний и колебаний функции на них. При такое

10 представлении объем памяти необходимой для хранения речевой информации по сравнению с традиционным АВП сокращается в

4 раза, Информационное содержание, передава15 емое звуковой волной может быть восстановлено путем синтеза по последовательности значений длин полных колебаний и колебаний ..функции на соответствующих длинах. звуковой волны, амплитудно-временное представление звуковой волны разделяют на временные отрезки, соответствующие полным колебаниям функции и преобразуют в последовательность значений длин полных колебаний и колебаний функции на них.

1795515

Фпг.3

Составитель С.Мышко

ТехРед М.МоРгентал КоРРектоР С.Пекарь

Редактор

Производственно-издательский комбинат "Патент", г. Ужгород, ул.Гагарина, 101

Заказ 434 Тираж Подписное

8НИИПИ Государственного комитета по изобретениям и открытиям при ГКНТ СССР

113035, Москва, Ж-35, Раушская наб., 4/5

Способ преобразования амплитудно-временного представления звуковой волны

Похожие патенты:

Анализатор речи // 1765843

Изобретение относится к технике передачи информации и может быть использовано в системах телефонной связи для повышения точности анализа параметров речевого сигнала

Устройство для аутотренинга при устранении назальности речи // 2118852

Изобретение относится к области приборостроения и может быть использовано в медицине для оценки лечения больных с патологией речи