Способ обработки речевого сигнала в частотной области

Авторы патента:

Павлова Марианна Иосифовна (RU)

Колоколов Александр Сергеевич (RU)

G10L15 - Распознавание речи (G10L 17/00 имеет преимущество)

Владельцы патента RU 2454735:

Учреждение Российской академии наук Институт проблем управления им. В.А. Трапезникова РАН (RU)

Изобретение относится к области обработки сигналов и может быть использовано при выполнении предварительной обработки речевого сигнала в системах распознавания речи. Предложен способ обработки речевого сигнала, основанный на полосовой фильтрации логарифмического амплитудного спектра фильтром с нечетной импульсной характеристикой и выявлении дополнительных информативных признаков в спектре речевого сигнала. Такими признаками являются локальные положительные и отрицательные наклоны в спектре речевого сигнала, формируемые частотной характеристикой речевого тракта. Технический результат - получение устойчивого и более полного описания речевого сигнала в частотной области путем выявления в логарифмическом амплитудном спектре дополнительных локальных информативных признаков в спектре речевого сигала. 1 з.п. ф-лы, 5 ил.

Изобретение относится к области обработки сигналов и может быть использовано для целей анализа и формирования первичного описания речевого сигнала в системах распознавания речи.

Частотный анализ речевого сигнала широко применяется в современных системах распознавания речи для получения первичного описания сигнала, на основе которого далее производится формирование эталонов речевых звуков, используемых при распознавании. Однако спектр речевого сигнала является зависимым от частотных искажений в канале связи, реверберации или изменения психофизиологического состояния диктора, сопровождающегося вариациями формы импульсов голосового источника. Кроме того, на спектр сигнала также может оказывать влияние присутствие фонового шума. В связи с этим для получения более устойчивого описания речевого сигнала полезной является дополнительная обработка спектра, выявляющая его локальные признаки, которые более устойчивы к перечисленным выше факторам.

Известен способ подобной обработки, основанный на полосовой фильтрации амплитудного спектра речевого сигнала, реализуемой с помощью взвешенного суммирования с разными знаками соседних спектральных отсчетов (Позин Н.В., Любинский И.А., Левашов О.В. и др. Элементы теории биологических анализаторов. М.: Наука, 1978, с.96; Колоколов А.С. Об одном методе анализа периодических сигналов, искаженных аддитивным шумом. Институт проблем управления АН СССР. Москва, 1983. 11 с. Рукопись деп. в ВИНИТИ №6252-83 Деп.). Благодаря такой обработке в амплитудном спектре подчеркиваются спектральные пики, представляющие гармонические компоненты сигнала, увеличивается частотное разрешение спектрального анализатора и повышается отношение сигнал/шум. Однако рассмотренный способ не обеспечивает устойчивости обработанного спектра к частотным искажениям речевого сигнала. Причина этого заключается в том, что факторы, влияющие на изменчивость спектра речевого сигнала, являются его мультипликативными составляющими и их действие не может быть ослаблено с помощью линейной фильтрации.

Наиболее близким техническим решением к предлагаемому является способ получения более устойчивого описания речевого сигнала в частотной области с помощью полосовой фильтрации логарифмического амплитудного спектра с использованием фильтра с четной импульсной характеристикой и последующего нелинейного преобразования,

обеспечивающих выделение в логарифмическом амплитудном спектре пиков, связанных с резонансами речевого тракта (Колоколов А.С. Обработка сигнала в частотной области при распознавании речи // Проблемы управления. 2006. №3. С.14). В результате получается преобразованный спектр

где: F(f,t)=lgS(f,t) - кратковременный логарифмический спектр речевого сигнала, φ(f) - импульсная характеристика полосового фильтра, являющаяся четной функцией, т.е. φ(f)=φ(-f), ⊗ - операция свертки, Q(x)=x при x≥0, Q(x)=0 при x<0.

В результате логарифмирования спектра

S(f,t)=H(f,t)E(f,t)W(f,t)

его мультипликативные компоненты становятся аддитивными

F(f,t)=lgH(f,t)+lgE(f,t)+lgW(f,t),

где H(f,t) - частотная характеристика речевого тракта, E(f,t) - спектр шумового или голосового источника, W(f,t) - характеристика фильтра, описывающего частотные искажения речевого сигнала. В случае голосового источника E(f,t)=I(f,t)G(f,t), где I(f,t) - спектр почти периодической последовательности δ - функций, G(f,t) - спектр импульса голосового источника. Поэтому с помощью полосовой фильтрации F(f,t) в F_l(f,t) оказывается возможным уменьшить нежелательные вариации, свойственные спектру S(f,t), обусловленные изменениями его мультипликативных компонент W(f,t) и G(f,t), обычно весьма медленно изменяющихся с частотой в сравнении с H(f,t), профиль которой обычно имеет несколько выраженных пиков, представляющих форманты речевого сигнала. Одновременно с помощью полосовой фильтрации производится сглаживание быстро изменяющейся с частотой составляющей I(f,t), описывающей гармоническую структуру речевого сигнала. Таким образом благодаря выполнению обработки (1) выявляются мало чувствительные к вариациям S(f,t) локальные признаки спектра, характеризующие формантный состав звука.

Однако рассмотренный способ не обеспечивает сохранения значительной части важной информации, содержащейся в логарифмическом спектре F(f,t), т.к. выявляет только локальные признаки в спектральной огибающей, представляющие максимумы в lgH(f,t).

Техническим результатом изобретения является выявление в логарифмическом амплитудном спектре дополнительных локальных информативных признаков, представляющих локальные наклоны lgH(f,t). Использование таких признаков в дополнение к признакам, получаемым с помощью обработки (1), позволяет получить устойчивое и более полное описание речевого сигнала в частотной области.

Технический результат достигается тем, что для фильтрации используют фильтр с нечетной импульсной характеристикой, параметры которого выбирают таким образом, чтобы в отфильтрованной спектральной огибающей в виде хорошо выраженных пиков проявлялись локальные наклоны спектра, связанные с частотной характеристикой речевого тракта, и одновременно подавлялась гармоническая структура речевого сигнала. Кроме того, производят отдельное выделение положительных и отрицательных пиков в отфильтрованной огибающей спектра.

На фиг.1 представлена блок-схема, поясняющая предлагаемый способ.

На фиг.2 - вид импульсной характеристики φ₁(f) для фильтрации логарифмического спектра и ее преобразование Фурье Ф₁ (t).

На фиг.3 - исходный F(i) и обработанный спектры для фрагмента гласного «э» в слове «семь», а - исходный сигнал, б - продифференцированный сигнал.

На фиг.4 - исходный F(i) и обработанный спектры для фрагмента гласного «э» в слове «семь», а - исходный сигнал, б - продифференцированный сигнал.

На фиг.5 - исходный F(i) и обработанный спектры для фрагмента звонкой смычки в слоге «да», а - исходный сигнал, б - продифференцированный сигнал.

На фиг.1 представлены спектральный анализатор 1, полосовой фильтр 2, нелинейные преобразователи 3 и 4.

Поставленная цель достигается с помощью полосовой фильтрации логарифмического амплитудного спектра

фильтром с нечетной импульсной характеристикой φ₁(f)=-φ₁(-f). В результате преобразования (2) локальные наклоны в спектре F(f,t) представляются в зависимости от знака наклона положительными или отрицательными пиками в F₂(f,t), положения которых определяют места локальных наклонов в F(f,t). Далее в отфильтрованном спектре F₂(f,t) разделяют положительные и отрицательные составляющие

представляющие соответственно положительные и отрицательные локальные наклоны в логарифмическом спектре F(f,t). Таким образом, выполнение преобразований (2) и (3) можно трактовать как результат работы двух специфических детекторов неоднородностей в F(f,t), реагирующих на крутизну положительных и отрицательных наклонов логарифмической спектральной огибающей.

Ширину и форму импульсной характеристики φ₁(f) полосового фильтра следует выбирать так, чтобы в отфильтрованном логарифмическом спектре F₂(f,t) в виде выраженных пиков были представлены резкие локальные наклоны частотной характеристики речевого тракта H(f,t), но при этом подавлялась быстро изменяющаяся с частотой составляющая I(f,t), описывающая гармоническую структуру голосового источника. Последнее условие может быть необязательным в случае использования спектрального анализатора с низким частотным разрешением, не обеспечивающим выделения гармонической структуры речевого сигнала.

Важной особенностью преобразования (2) является его нечувствительность к амплитуде речевого сигнала. Это следует из того, что умножение сигнала на константу проявляется в виде постоянной аддитивной составляющей в F(f,t), которая исключается в результате полосовой фильтрации. Поэтому отпадает необходимость в нормализации обработанных спектров F₂(f,t), и по амплитуде.

Кроме того, благодаря полосовой фильтрации F(f,t) при преобразованиях (2) и (3), как и в случае преобразования (1), следует ожидать эффекта малой изменчивости обработанного спектра F₂(f,t) при наличии частотных искажений, создаваемых фильтром с частотной характеристикой W(f,t), медленно изменяющейся с частотой, и фоновых широкополосных шумов со спектральной плотностью, медленно изменяющейся с частотой.

Приведенные на фигурах логарифмические спектры речевых образцов были получены с помощью частотного анализатора, в общих чертах моделирующего особенности частотного анализа звука в слуховой системе. Для этих целей использовалась гребенка из N=35 цифровых полосовых фильтров, центральные частоты которых располагались равномерно по шкале Барков с шагом 0,57 Барк, начиная с 1,95 Барк (200 Гц). Частотные характеристики фильтров слухового частотного анализатора аппроксимировались полосовыми фильтрами Баттерворта четвертого порядка с наклонами частотной характеристики 12 дБ/окт и шириной полосы пропускания 1,5 Барка. Для фильтрации полученных логарифмических спектров F(i), i - номер фильтра, использовалась симметричная нечетная весовая функция φ(n)=-δ_k(n-2)+δ_k(n+2), где δ_k(n) - функция Кронекера, n=…-2,-1,0,1,2,…. Поэтому вычисление свертки сводилось к суммированию взвешенных спектральных отсчетов. Полученные отфильтрованные спектры и сглаживались низкочастотным фильтром с импульсной характеристикой φ₀(n)=0,25δ_k(n-1)+0,5δ_k(n)+0,25δ_k(n+1). Частотные искажения вводились дифференцированием сигнала с помощью нахождения первой разности дискретной речевой волны.

Из чертежей легко видеть, что частотные искажения, обусловленные дифференцированием речевого сигнала, приводят к существенным различиям спектров F(i), достигающих 20 дБ, для гласного и звонкой смычки. Однако эти различия существенно меньше у обработанных спектров и , полученных в результате предложенной обработки спектра, и не превышают величины 4-5 дБ. Из чертежей также видно, что выраженные пики в обработанных спектрах представляют положения резких локальных наклонов спектра.

Таким образом, основываясь на приведенных выше данных, можно заключить, что предложенный способ обработки спектра может быть использован совместно с известным способом (1) для получения устойчивого описания речевого сигнала в частотной области в присутствии частотных искажений.

1. Способ обработки речевого сигнала, основанный на получении его логарифмического амплитудного спектра и последующей полосовой фильтрации полученного спектра фильтром с нечетной импульсной характеристикой, ширину и форму которой выбирают так, чтобы в отфильтрованном логарифмическом спектре в виде выраженных пиков были представлены локальные наклоны частотной характеристики речевого тракта, но при этом подавлялась составляющая спектра, представляющая гармоническую структуру голосового источника.

2. Способ по п.1, характеризующийся тем, что в отфильтрованном спектре производят разделение положительных и отрицательных составляющих, представляющих соответственно положительные и отрицательные локальные наклоны в логарифмическом спектре.

Изобретение относится к системам установления или подтверждения личности говорящего. .

Универсальные орфографические мнемосхемы // 2441287

Изобретение относится к прогаммным приложениям распознавания голоса, более конкретно к способу управления характерными особенностями фразы посредством приложения распознавания голоса.

Детектирование автоответчика путем распознавания речи // 2439716

Изобретение относится к способам и устройствам детектирования автоответчика, используемым для определения того, является ли получатель вызова реальной персоной или автоответчиком.

Детектирование автоответчика путем распознавания речи // 2439716

Способ обнаружения пауз в речевых сигналах и устройство его реализующее // 2436173

Изобретение относится к технике цифровой обработки речевых сигналов. .

Способ машинной оценки качества передачи речи // 2435232

Изобретение относится к способам анализа звуковых сигналов, передаваемых по каналам радиосвязи, телефонии и трактам переговорных устройств. .

Способ и устройство для естественно-речевого распознавания речевого высказывания // 2432623

Изобретение относится к способу и устройству для естественно-речевого распознавания речевого высказывания. .

Способ и устройство для естественно-речевого распознавания речевого высказывания // 2432623

Способ аутентификации диктора по парольной фразе // 2422921

Изобретение относится к области техники анализа речи, в частности к системам ограничения несанкционированного доступа в помещения или информационным ресурсам. .

Способ аутентификации диктора по парольной фразе // 2422920

Устройство и способ формирования сигнатуры акустического сигнала, устройство идентификации акустического сигнала // 2459281

Изобретение относится к технике идентификации акустических сигналов и, в частности, к устройству и способу распознавания акустического сигнала

Система и способ распознавания речи // 2466468

Изобретение относится к технологиям распознавания речи, т.е

Способ электронного анализа диалога и система для осуществления этого способа // 2472219

Изобретение относится к средствам электронного оценивания диалога

Архитектура распознавания для генерации азиатских иероглифов // 2477518

Изобретение относится к распознаванию речи на азиатском языке

Устройство и способ основанного на контексте арифметического кодирования и устройство и способ основанного на контексте арифметического декодирования // 2493652

Изобретение относится к способам кодирования и декодирования аудиосигнала без потерь. Техническим результатом является повышение эффективности кодирования и снижение требуемого для кодирования объема памяти. Раскрыты устройство и способ основанного на контексте арифметического кодирования, а также устройство и способ основанного на контексте арифметического декодирования. Устройство, основанное на контексте арифметического декодирования может определять контекст текущего кортежа из N элементов, который должен быть декодирован, определять контекст старшего бита (MSB), соответствующий MSB-символу текущего кортежа из N элементов, и определять вероятностную модель с использованием контекста кортежа из N элементов и MSB-контекста. Затем устройство основанного на контексте арифметического декодирования может выполнять декодирование для MSB на основе определенной вероятностной модели и выполнять декодирование для младшего бита (LSB) на основе битовой глубины LSB, извлеченного из процесса декодирования для управляющего кода. 28 н. и 51 з.п. ф-лы, 29 ил.

Способ и система для предоставления речевого интерфейса // 2494476

Изобретение относится к пользовательскому интерфейсу на основе речевых команд. Техническим результатом является обеспечение более быстрого доступа к информации и решению задач, а также эффективная обработка предпочтений пользователя и контекста. Классифицирующий речевой интерфейс пользовательского терминала может принять запрос, произвести его анализ для идентификации атрибута и обработать запрос для выбора первого зависящего от домена речевого интерфейса из множества зависящих от домена речевых интерфейсов на основе указанного атрибута, при этом каждый зависящий от домена речевой интерфейс содержит информацию для обработки запросов различных типов. Кроме того, классифицирующий речевой интерфейс может подавать команду первому зависящему от домена речевому интерфейсу обработать указанный запрос и выдавать в речевой форме ответ первого зависящего от домена речевого интерфейса на указанный запрос. 6 н. и 21 з.п. ф-лы, 8 ил.

Способ обнаружения эмоций по голосу // 2510955

Изобретение относится к средствам распознавания эмоций человека по голосу. Технический результат заключается в повышении точности определения эмоционального состояния русскоязычного абонента. Обнаруживают интенсивности голоса и темпа, определяемого скоростью, с которой появляется голос, соответственно, и обнаруживают в виде величины времени, интонацию, которая отражает рисунок изменения интенсивности в каждом слове, выполняемом голосом, на основе введенного голосового сигнала. Получают первую величину изменения, указывающую изменение интенсивности обнаруженного голоса в направлении оси времени, и вторую величину изменения, указывающую изменение темпа голоса в направлении оси времени, и третью величину изменения, указывающую изменение интонации голоса в направлении оси времени. Вводят голосовой сигнал русскоязычного абонента, а затем обнаруживают интенсивности голоса и темпа. После того как получают третью величину измерения обнаруживают частоту основного тона голосового сигнала и получают четвертую величину изменения, указывающую изменение частоты основного тона в направлении оси времени, генерируют сигналы, выражающие эмоциональное состояние гнева, страха, печали и удовольствия, соответственно, на основе указанных первой, второй, третьей и четвертой величин изменения. 3 ил.

Электронно-вычислительное устройство // 2523220

Изобретение относится к вычислительной технике. Технический результат заключается в распознавании речи злектронно-вычислительным устройством, используя чтение по губам. Электронно-вычислительное устройство содержит оперативное запоминающее устройство, выход которого соединен с арифметическо-логическим узлом, а также ряды фотоэлементов, реагирующие на красный цвет, соединенные через ключи с оперативным запоминающим устройством. Выход арифметическо-логического узла соединен через ключи с тридцатью узлами сравнения. Выходы тридцати узлов сравнения соединены соответственно с управляющими электродами тридцати ключей. Генератор импульсов соединен с входами тридцати ключей, выходы которых соединены соответственно с входами тридцати ключей. Выходы тридцати ключей соединены с оперативным запоминающим устройством растрового дисплея. 6 ил.

Основанные на языке разметки выбор и использование распознавателей для обработки произнесения // 2525440

Изобретение относится к способу использования распознавателей для обработки произнесения на основании документа на языке разметки. Технический результат заключается в ускорении процесса распознавания. Принимают документ на языке разметки и произнесение в вычислительном устройстве. Выбирают один или более распознавателей из числа распознавателей для возврата набора результатов для произнесения на основании языка разметки в документе на языке разметки. Распознают грамматику, используемую в произнесении. Производят синтаксический разбор документа в поисках по меньшей мере одного тэга языка разметки. Принимают набор результатов от одного или более выбранных распознавателей в формате, определенном способом обработки, заданным в документе на языке разметки. Объединяют набор результатов с по меньшей мере одним ранее принятым набором результатов для создания множества наборов результатов. 3 н. и 12 з.п. ф-лы, 5 ил.

Способ коммуникации пользователя с информационной диалоговой системой // 2530267

Изобретение относится к информационным технологиям, в частности к способу коммуникации пользователя с информационной диалоговой системой, и может быть использовано для организации взаимодействия пользователя с информационной диалоговой системой на основе естественного языка. Технический результат - возможность взаимодействия с системой посредством ввода текста и использования естественного языка. Способ коммуникации пользователя с информационной диалоговой системой включает в себя: активацию подсистемы пользовательского ввода, получение подсистемой запроса пользователя и преобразование его в текст, обработку диалоговым модулем полученного текста и ответа на запрос, отображение и/или воспроизведение сформированного ответа, причем по истечении заранее заданного интервала времени после отображения и/или воспроизведения сформированного ответа выполняется автоматическая повторная активация подсистемы пользовательского ввода для обеспечения возможности получения нового или уточняющего запроса. 15 з.п. ф-лы, 1 ил.