Способ выделения основного тона из речевого сигнала

Авторы патента:

G10L9/12 - (Рубрика аннулирована. Содержание перенесено в G10L 15/02, G10L 15/08, G10L 15/16, G10L 19/02)

G10L5 - (Рубрика аннулирована. Содержание перенесено в G10L 13/00, G10L 15/00, G10L 17/00)

Изобретение относится к технике связи и вычислительной технике. Использование его для анализа и синтеза речи в вокодерной телефонии позволяет повысить надежность выделения основного тона из речевого сигнала. В способе по определенному алгоритму выделяют две импульсные последовательности из клиппированной огибающей речевого сигнала и выделяют основной тон речевого сигнала из импульсов той или иной импульсной последовательности в зависимости от определенных условий. 4 ил.

Изобретение относится к технике связи и вычислительной технике и может быть использовано для анализа-синтеза речи в вокодерной телефонии.

Известны различные способы выделения основного тона (ОТ). Некоторые из них используются в современной технике, предназначенной для импульсного кодирования телефонных переговоров. Это выделение первой гармоники основного тона фильтрами с частотно-зависимым затуханием и фазовой коррекцией в полосе пропускания, метод амплитудной селекции речевого сигнала. Фильтровые методы выделения ОТ, используемые в отечественной аппаратуре, вносят значительные замедления для выделяемого сигнала ОТ, искажают истинную величину периода ОТ в динамике речи. Способ амплитудной селекции экстремальных значений по методу Голда требует для выделения ОТ громоздкой технической реализации для обработки ряда статистических параметров.

Наиболее близким к предлагаемому изобретению по технической сущности является выделитель основного тона (ВОТ), описанный Чекаевским, преобразующий речевые колебания в импульсную последовательность. Каждый импульс соответствует переходу через нуль речевого колебания (берется однополярный переход); Частота ОТ имеет характерный признак в величинах интервалов между нулями речевого сигнала: количество интервалов на периоде ОТ конечно и для сложных речевых колебаний величины этих интервалов различны, но через период ОТ последовательность интервалов повторяется. Это свойство использовано в выбранном прототипе и в предлагаемом изобретении. Имея преобразователь "временной интервал+напряжение", последовательность импульсов преобразуется в ступенчатый сигнал, рост ступенек соответствует увеличению временного интервала, спад ступенек - уменьшению временного интервала. Среднее значение функции ступенчатого напряжения вычитается из этой функции и переменный сигнал вновь подается на ограничитель для получения следующей импульсной последовательности. Если временные интервалы в импульсной последовательности равны, перепады напряжения отсутствуют, то появляется команда для пропуска последовательности импульсов, как частоты ОТ. Последовательное включение устройств, выполняющих описанные преобразования, позволяет при переключении точек съема выделить из конечного количества неравных временных интервалов периодический сигнал.

Способ, описанный Чекаевским, надежно выделяет частоту ОТ на стационарных участках речи. Но поскольку колебания голосовых связок имеют квазипериодический характер, т. е. периоды ОТ могут уменьшаться или возрастать и "нулевое" напряжение на выходе вычитающего устройства не постоянно во времени, перекрыть его колебания выбором однозначного порога и одновременно обеспечить разрешающую способность алгоритма при интервалах, близких к кратности периода ОТ, невозможно. Поэтому снижается достоверность выделения каждого периода в динамике речи при изменениях тона.

Целью предложенного способа является достижение точности и достоверности выделения основного тона для получения более естественного звучания синтезированной речи.

Цель достигается тем, что ограниченный спектр огибающей речи 60-600 Гц подвергается предельному ограничению для формирования исходной клиппированной последовательности импульса, которая для получения квазипериодичной последовательности импульсов ОТ подвергается двум видам селекции. Первая селекция проводится по временному параметру "длительность" импульсов и следующая вторая селекция - по временному параметру "смена знака приращения временного интервала". В общем случае при гармоничном речевом сигнале исходные импульсы представляют группы, которые повторяются за периоды ОТ, в группе число импульсов конечно и каждый положительный имеет различную длительность. При сравнении смежных положительных импульсов выделяются задние фронты только от импульса, длительность которого не меньше по заданному допуску предыдущего импульса. Образуется "прореженная" первая выходная импульсная последовательность, которая подается на второй селектор. Эта последовательность подвергается анализу смежных интервалов по заданным направлению смены знака и допуску их изменения, т. е. второй селектор выделяет вторую выходную последовательность импульсов, каждому из которых предшествовал интервал, изменивший знак приращения на противоположный по сравнению со знаком приращения предыдущего интервала. Вторая выходная последовательность будет квазипериодичной функцией основного тона при условии, если с первой выходной последовательности число интервалов за период ОТ будет не больше трех. Разовая однополярная смена знака изменения интервала в четырых и более смежных интервалах маловероятна, в трех - очевидна. В случае если второй селектор не обнаруживает смены знака изменения интервала, автоматически функция основного тона берется с первого селектора. Число импульсов в группе клиппированного сигнала, сформированного из ограниченного спектра огибающей речи, за период ОТ зависит от частоты ОТ. Чем ниже частота ОТ, тем больше это число, однако, первый селектор в этом случае и больше "прореживает" исходную группу, и число импульсов в ней остается не больше трех, этот факт подтверждается экспериментами. Заданный допуск на изменение длительности импульса в первом селекторе и на изменение интервала во втором селекторе позволяет защитить выделение квазипериодичной нестабильности ОТ в динамике речи, а также от помех.

Таким образом, при двух различных видах селекции обеспечивается эффективное"прореживание" клиппированной последовательности импульсов с выделением основного тона в одной из двух точек съема.

В реальных условиях при гармоничном сигнале речи число импульсов в группе за период основного тона во времени не может быть постоянным, поэтому случаи неодинаковости импульсных групп в смежных периодах основного тона вероятны. Описанный алгоритм выделения ОТ в переходные моменты выделит интервалы, нарушающие квазипериодичность, т. к. при разных смежных группах происходит "перескок" выделения фронтов и импульсов, которым предшествовала смена знака приращения интервала. Таким образом появляются интервалы, отличающиеся от периода ОТ не менее, чем на один интервал исходного клиппированного сигнала. Это является отличительной чертой предложенного способа, так как приращение в резко измененных интервалах находятся вне пределов естественных изменений смежных периодов основного тона, что позволяет защитить квазипериодичность функции ОТ, например, методом запоминания периода ОТ, предшествующего нарушению квазипериодичности, на время сбоя.

Сопоставительный анализ заявленного технического решения с прототипом показывает, что заявленный способ отличается от известного тем, что исходная импульсная последовательность, образованная из ограниченного спектра огибающей речи, обрабатываемая двумя видами селекции, в каждом из которых анализируется различный временной параметр (в первом - длительность прямоугольного импульса, во втором - смена знака приращения временного интервала), обеспечивает исключение случаев выделения частоты, кратной основному тону, реализует две точки съема с безынерционным их переключением, защищает квазипериодичность функции, сохраняя естественную нестабильность основного тона в динамике речи. Таким образом, заявленный способ соответствует критерию изобретения "новизна".

Известные технические решения обеспечивают в динамике речи большой разрешающей способности при выделении периодов основного тона без громоздкой технической реализации. Это позволяет сделать вывод о его соответствии критерию "существенные отличия".

На фиг. 1 показана временная диаграмма предложенного способа; на фиг. 2 - структурная схема; на фиг. 3 - временная диаграмма узла защиты квазипериодичности функции основного тона; на фиг. 4 - структурная схема этого узла.

Клиппированный сигнал (строка 1 фиг. 1, точка 1 фиг. 2), полученный от предельного ограничения огибающей речи, поступает на селектор первый (фиг. 2). Импульсной частотой f₁ измеряется ширина положительных импульсов, в конце замера полученное число записывается на инверсный счетчик, а при поступлении следующего положительного импульса - считывается частотой f₂, если второй импульс не меньше первого, то выделяется его задний фронт (строка 2 (фиг. 1, точка 2 фиг. 2). В данном примере частота f₂ > f₁, а процентная разница между ними ((f₂-f₁)/f₁) 100% является заданным допуском, т. е. задний фронт импульса будет выделяться в том случае, если его длительность

t₂ находится в пределах

t₁(1 - -(f₂-f₁)/f₁) >

t₂ >

t₁, где

t₁ - длительность предыдущего импульса (см. строка 1 фиг. 1). Таким образом, на выходе первого селектора при сравнении смежных импульсов клиппированного сигнала образуется "прореженная" первая выходная последовательность (см. строка 2 фиг. 1, точка 2 фиг. 2), которая подается на второй селектор и на ключ. Частоты f₁ и f₂ выполняют ту же функцию, что в первом селекторе, с разницей - измеряются и сравниваются смежные интервалы между импульсами. Последовательность импульсов, которым предшествовала смена знака приращения интервала в плюс (импульсы +ИС3 строка 3 фиг. 1, точка 3 фиг. 2) образуют вторую выходную последовательность. Переключение точек съема с первой на вторую выходные последовательности и наоборот осуществляется ключом "Кл" (см. фиг. 2), который закрывается импульсами

ИС3 (строка 4 фиг. 1, точка 4 фиг. 2), в отсутствии последних открывается импульсом равенства чисел РЧ (см. строка 5 фиг. 1, точка 5 фиг. 2). Объединенная выходная последовательность импульсов основного тона (см. точка 7 фиг. 2, строка 7 фиг. 1) поступает на узел защиты квазипериодичности (фиг. 4) и на формирователь сигнала РЧ, который подается на предварительное открывание ключа в конце текущего периода Т₂через время Т₁ (1 - (f₂-f₁)/f₁), где Т₁ - предыдущий период ОТ (см. строки 5, 7 фиг. 1).

На фиг. 3 повторены строки 1, 2, 3, 4, 5, 6, 7 фиг. 1, но с другими группами клиппированных импульсов, иллюстрирующих сбой квазипериодичности в точке 7 (фиг. 2 и 4), строки 7 (фиг. 1 и 3). Узел защиты квазипериодичности (фиг. 4) анализирует смежные интервалы между импульсами ОТ и в случаях увеличения последующего интервала по сравнению с предыдущим на величину более (f₃-f₁)/f₁

100% или уменьшения на величину более (f₁-f₄)/f

100% выделяется сигнал "запрет записи" (строка 8 фиг. 3, точка 8 фиг. 4), который не пропускает число замеренного интервала на запись в память, последняя сохраняет число предыдущего периода ОТ до следующей перезаписи (см. строка 9 фиг. 3, точка 9 фиг. 4). На фиг. 4 частота f₁измеряет интервал, частоты f₃ и f₄ считывают число предыдущего интервала. Частоты f₃ и f₄ подаются на разные инверсные счетчики, с которых считывается одно число предыдущего интервала. Частота f₃отыскивает увеличенный интервал, f₄ - уменьшенный интервал (строки 7, 8 и 9, пунктирная линия в строке 9 показывает нарушение квазипериодичности).

На иллюстрированных фигурах частоты f₁, f₂, f₃, f₄ примерно на два порядка выше частоты следования клиппированного сигнала (F_кл), при этом частота f₁ определяет точность замеров временных длительностей и интервалов. Номиналы указанных частот связаны неравенством f₃ < f₁ < f₂ < f₄ При этом (f₂-f₁)/f₁

100% = К_кв процентный допуск на защиту выделения квазипериодичной функции ОТ при естественной нестабильности смежных периодов основного тона, а (f₃-f₁)/f₁

100% = = (f₁-f₄)/f₁

100% = К_ш процентный параметр, определяющий границу изменений смежных периодов при нарушениях квазипериодичности. Условием четкого разграничения естественной нестабильности смежных периодов ОТ от нарушений квазипериодичной функции в предложенном способе выделения основного тона является F_от/F_ка > К_ш >К_кв, где F_от выделяемая частота основного тона. Описанный алгоритм это условие выполняет.

Предлагаемый способ выделения основного тона может быть реализован в речепреобразующих устройствах в анализаторе параметров речевого сигнала.

Использование предлагаемого способа выделения основного тона из речевого сигнала обеспечивает по сравнению с существующими способами следующие преимущества: Устойчивое выделение основного тона в пределах 60-600 Гц в динамике речи, при различных типах микрофонов и длин абонентских линий.

Конструктивное исполнение в малом весе и объеме. (56) Вокодерная телефония. Методы и проблемы/Под ред. А. А, Пирогова - М. : Связь, 1974, с. 118-128.

Формула изобретения

СПОСОБ ВЫДЕЛЕНИЯ ОСНОВНОГО ТОНА ИЗ РЕЧЕВОГО СИГНАЛА, включающий клиппирование огибающей речевого сигнала с ограниченным спектром, выделение из клиппированных импульсов путем их последовательной селекции по заданному параметру импульсной последовательности основного тона, отличающийся тем, что при сравнении длительностей смежных импульсов клиппированной последовательности выделяют задние фронты тех импульсов, длительность каждого из которых по заданному допуску не меньше, чем длительность предыдущего импульса, и формируют из выделенных фронтов первую выходную последовательность импульсов, в которой измеряют и сравнивают длительности смежных интервалов между выделенными фронтами, выделяют импульсы, следующие за интервалами с заданным направлением смены знака и тем же заданным первым допуском изменения длительности, и формируют из них вторую выходную последовательности, основной тон выделяют из первой выходной последовательности импульсов, в которой отсутствуют смены знака изменения длительности сравниваемых интервалов, или из второй выходной последовательности импульсов, когда в первой выходной последовательности присутствуют указанные смены знака, для сохранения квазипериодичности основного тона сравнивают длительности его смежных периодов по второму заданному допуску и при его превышении запрещают запись периода, превысившего второй заданный допуск, и сохраняют записанный ранее период, причем величину второго заданного допуска выбирают вне пределов естественного изменения смежных периодов основного тона.

РИСУНКИ

Рисунок 1, Рисунок 2, Рисунок 3, Рисунок 4

Похожие патенты:

Синтезатор речи // 1839268

Изобретение относится к синтезаторам речи, которые предназначены для образования членораздельной речи на заданном языке и могут быть использованы для общения с окружающими людьми в случае нарушения речи

Способ разделения тональных и шумовых сигналов звуков речи // 1755321

Изобретение относится к измерительной технике и может быть использовано при создании устройств для анализа сигналов сложной формы, применяемых в технике связи, акустике, в системах распознавания речевых и иных сигналов

Способ разделения речевых и нестационарных шумовых сигналов // 1781701

Изобретение относится к измерительной технике и может быть использовано при создании устройств для анализа сигналов сложной формы

Способ автоматического распознавания речевых сигналов // 1775730

Изобретение относится к приборостроению

Способ автоматического распознавания речевых сигналов // 1775730

Изобретение относится к приборостроению

Устройство для речевого ввода в электронную вычислительную машину // 1716498

Изобретение относится к области автоматики и вычислительной техники и может быть использовано для ввода речевых команд в управляющую вычислительную машину

Устройство для изменения темпа речи // 1633449

Изобретение относится к приборостроению и может быть использовано в акустике , например, при анализе и синтезе звуковой информации

Способ обнаружения границ слов и устройство для его осуществления // 1631580

Изобретение относится к технике анализа и распознавания речевых сигналов и может быть использовано в управляющих, информационно-расчетных и справочных системах в условиях меняющейся окружающей шумовой обстановки, Цель изобретения - повышение помехоустойчивости при определении границ слов путем осуществления автоматической корректировки значений используемых временных параметров в зависимости от характера изменения уровня окружающих нестационарных шумов

Способ идентификации говорящего // 1629917

Способ устранения нелинейных искажений в речевой фонограмме на свистящих и шипящих звуках // 1624516

Изобретение относится к звукотехнике и позволяет воссоздать качество звучания фонограмм , записанных с нелинейными искажениями с подъемом верхних частот речевого спектра

Способ распознавания слов в слитной речи и система для его реализации // 2101782

Изобретение относится к автоматике и вычислительной технике и может быть использовано в системах понимания речи, системах управления технологическим оборудованием, работами, средствами вычислительной техники, автоматического речевого перевода, в справочных системах и др

Способ дикторонезависимого распознавания изолированных речевых команд // 2103753

Изобретение относится к системам обработки информации и управления, а именно к способам построения систем распознавания речи

Способ идентификации личности по фонограммам произвольной устной речи // 2107950

Способ лексической интерпретации слитной речи и система для его реализации // 2119196

Изобретение относится к автоматике и вычислительной технике и может быть использовано в системах понимания речи, системах управления технологическим оборудованием, роботами, средствами вычислительной техники, автоматического речевого перевода, в справочных системах и др

Система и способ обработки речевого сигнала // 2121172

Бортовое устройство речевого оповещения // 2073271

Изобретение относится к области приборостроения, в частности, к устройствам преобразования речевых сигналов, а более конкретно, к синтезаторам речевых сообщений, и может быть использовано в авиационной технике, телефонии, системах связи и оповещения, вычислительной технике

Устройство для передачи цифровой информации в паузах речи // 2015577

Изобретение относится к технике электросвязи, в частности к области передачи в паузах речи других видов информации через телефонный тракт с вокодерами

Способ распознавания изолированных слов речи с адаптацией к диктору // 2047912

Изобретение относится к анализу речи, в частности при распознавании больших словарей в приложениях типа автоматической пишущей машинки

Виброустойчивый манометр а.д.богданова // 2092909

Изобретение относится к приборостроению, а именно к манометрам и может быть использовано при измерении давления на объектах, подверженных вибрациям