Способ оценки мгновенной частоты речевого сигнала в точках локального максимума

Изобретение относится к области техники анализа речи, в частности к способу оценки мгновенной частоты в точках локального максимума речевых сигналов. Техническим результатом является уменьшение количества вычислений для оценки мгновенной частоты в точках локального экстремума. Вводят в память компьютера частоты стробирования f и амплитуды звукового сигнала либо посредством использования микрофона и стандартной программы ввода, либо посредством считывания файла звукового сигнала. Производят отыскание точек локального максимума амплитуды речевого сигнала. Производят вычисление величины , где n - позиция локального максимума. Выполняют подсчет мгновенной частоты в указанной точке по формуле w=ƒ*argcos(Val). Выводят позицию локального максимума и найденную оценку мгновенной частоты в формате n, w. 2 ил.

 

Изобретение относится к области техники анализа речи, в частности, к способу оценки мгновенной частоты в точках локального максимума (положительного локального максимума, отрицательного локального минимума) речевых сигналов. Техническим результатом является минимизация количества операций, необходимых для получения численного результата. Технический результат достигается тем, что вместо преобразования Гильберта, используемого для получения указанной оценки, применяется аппроксимация сигнала в окрестности локального максимума функцией, для которой известно аналитическое выражение для преобразования Гильберта.

Имеется стандартная процедура оценки мгновенной частоты сигнала (см., например, [1]), сущность которой заключается в том, что к исходному сигналу х[n] применяется аппроксимация преобразования Гильберта путем пропускания этого сигнала через фильтр с конечной импульсной характеристикой (далее КИХ фильтр специального вида). В результате получается новый сигнал у[n], после чего строится аналитический сигнал z[n]=х[n]+iу[n], представимый в виде ⎜z(n)⎜ехр(iw(n)). Подсчитывая log(z(n)), log(z(n+1)) и выделяя в них мнимую часть, получаем оценку w0 мгновенной частоты в виде w0=w(n+1)-w(n).

Недостаток данного метода заключается в том, что фильтр Гильберта не является физически реализуемым, поэтому приходится ограничиваться его приближением в виде КИХ фильтра. Чем точнее берется аппроксимация фильтра, тем больший интервал речевого файла используется для подсчетов. Таким образом, вследствие указанного для реализации преобразования требуются большие вычисления. С другой стороны, теория предполагает, что исходный сигнал является стационарным, а увеличение длины отрезка речевого файла приводит к нарушению указанного предположения.

Задачей заявленного изобретения является создание способа оценки мгновенной частоты сигнала, не требующего больших вычислений.

Поставленная задача решается путем аппроксимации исходного сигнала в окрестности точек локального максимума (положительного локального максимума А, отрицательного локального минимума В, см. Фиг. 1) значениями функции, для которой известен аналитический вид преобразования Гильберта.

Заявленное техническое решение реализуется посредством применения ЭВМ с устройством звукового ввода и программы, обеспечивающей реализацию заявленного способа, и поясняется блок-схемой реализации заявленного способа, приведенной на Фиг. 2.

Сущность заявленного технического решения заключается в том, что в способе оценки мгновенной частоты речевого сигнала в точках локального максимума реализуемый на электронно-вычислительной машине, заключающемся во вводе в память компьютера частоты стробирования f и амплитуд звукового сигнала либо посредством использования микрофона и стандартной программы ввода, либо посредством считывания файла звукового сигнала, отличающемся тем, что производится отыскание точек локального максимума амплитуды речевого сигнала, далее производят вычисление величины , где n - позиция локального максимума, далее выполняется подсчет мгновенной частоты в указанной точке по формуле w=ƒ*argcos(Val) и выводят позицию локального максимума и найденную оценку мгновенной частоты в формате n, w.

Заявленное техническое решение «Способ оценки мгновенной частоты речевого сигнала в точках локального максимума» реализуется на основании блок-схемы и включает следующую последовательность действий.

1. Осуществляют ввод звукового файла в ЭВМ через микрофон, либо выполняют считывание звукового файла из памяти ЭВМ, далее выполняют ввод частоты стробирования f.

2. Выполняют поиск локального максимума в точке х[n], с применением программы ЭВМ, далее выполняют проверку условия

х[n-1]<х[n] AND х[n+1<х[n].

3. Производят вычисление посредством программы ЭВМ по формуле

4. Используя программу ЭВМ, производят вычисление мгновенной частоты w=ƒ*arccos(Val).

5. Осуществляют вывод результата в формате n, w.

Таким образом, процедура заявленного «Способа оценки мгновенной частоты речевого сигнала в точках локального максимума» в целом включает следующие шаги и сводится к:

- локализации точки локального максимума (положительного локального максимума, отрицательного локального минимума)x[n0] во входном файле;

- апроксимации сигнала в окрестности этой точки функцией вида u(t)=Acos(wt)+Bsin(wt), для которой мгновенная частота в любой точке равняется w и не зависит от коэффициентов А, В;

- вычислению оценки мгновенной частоты в этой точке согласно формуле

где ƒ - частота стробирования*, примененная при записи речевого сигнала.

Так как точка х[n0] есть точка локального максимума, в формуле (1) значения для функции cos меньше 1.

*Стробирование (англ. strobing, от strobe - посылать избирательные импульсы, от греч. strobos - кружение, беспорядочное движение), метод выделения некоторого интервала на временной оси… Стробирование (англ. strobing, от strobe - посылать избирательные….БСЭ. - 1969-1978).

Обоснование указанной формулы приведено в [2].

Для проверки точности предлагаемой оценки был проведен вычислительный эксперимент. Для функции вида

ƒ(t)=∑kАk cos(wkt)+Bksin(wkt))

известен явный вид преобразования Гильберта (см. [1]), что позволяет подсчитать мгновенную частоту в любой момент времени. Для эксперимента были выбраны 5 слагаемых, коэффициенты Аk, Вk выбирались каждый раз случайным образом, а частоты wk сохранялись постоянными. Для каждого набора коэффициентов находилось точное значение мгновенной частоты и оценка согласно формуле (1):

Точное 729 517 788 626 418 510 152 784 879 546
Оценка 835 572 800 676 438 552 016 047 654 680

Из приведенных данных видно, что точные значения и их оценки имеют один порядок.

Заявленное техническое решение соответствует критерию «новизна», предъявляемому к изобретениям, так как в результате исследования уровня техники на дату подачи заявки заявителем не выявлены технические решения, обладающие совокупностью заявленных признаков, приводящих к реализации поставленных целей, - созданию способа оценки мгновенной частоты сигнала в точках локального максимума сигнала.

Заявленное техническое решение соответствует критерию «изобретательский уровень», предъявляемому к изобретениям, так как для специалиста в заявленной области техники не являются очевидным полученные технические результаты, выражающиеся в том, что заявителем решена актуальная, не разрешенная до даты подачи настоящей заявки проблема, заключающаяся в необходимости создания простого способа оценки мгновенной частоты сигнала, которая разрешена авторами посредством создания принципиально нового способа, заключающегося в аппроксимации сигнала в окрестности точки локального максимума (положительного локального максимума, отрицательного локального минимума) функцией с известной мгновенной частотой.

Таким образом, заявленное решение не вытекает явным образом из известного уровня техники, что также является дополнительным доказательством соответствия заявленного технического решения критерию «изобретательский уровень».

Заявленное техническое решение реализовано в лабораторных условиях Казанского государственного университета и может быть реализовано на любом специализированном предприятии (учреждении) с использованием стандартного оборудования, что является доказательством соответствия заявленного технического решения критерию «промышленная применимость», предъявляемому к изобретениям.

Источники информации

1. Лайонс Р. Цифровая обработка сигналов. М.: Бином, 2006 г., 652 с.

2. Нигматуллин Р.Р., Столов Е.Л. Параметры, характеризующие локальные фрагменты речевых файлов.// Ученые записки Казанского университета, Серия Физико-математические науки - т. 155 - Книга 2- 2013 г., с. 100-107.

Способ оценки мгновенной частоты речевого сигнала в точках локального максимума, реализуемый на электронно-вычислительной машине, заключающийся во вводе в память компьютера частоты стробирования f и амплитуд звукового сигнала, либо посредством использования микрофона и стандартной программы ввода, либо посредством считывания файла звукового сигнала, отличающийся тем, что производится отыскание точек локального максимума амплитуды речевого сигнала, далее производят вычисление величины , где n - позиция локального максимума, далее выполняется подсчет мгновенной частоты в указанной точке по формуле , и выводят позицию локального максимума и найденную оценку мгновенной частоты в формате n, w.



 

Похожие патенты:

Изобретение относится к области цифровой связи и технологиям обработки речи в условиях зашумления. Технический результат - повышение достоверности классификации сегментов зашумленной речи по типовым классификационным группам.

Изобретение относится к доступу и воспроизведению информации в компьютерной системе, а более конкретно к представлению данных на основе голосового ввода, осуществляемого пользователем.

Изобретение относится к технике обработки речевых сигналов оптическими методами и может быть использовано при распознавании сигналов для сокращения избыточности речевого потока при его вводе в вычислительную систему, работающую в режиме обмена с оператором на естественном языке.

Группа изобретений относится к вычислительной технике и может быть использована для активации электрического устройства из режима ожидания в режим работы на полную мощность.

Данное изобретение относится к технологиям распознавания речи, т.е. перевода звукового сигнала, содержащего речь, в транскрипционное представление.

Изобретение относится к средствам помехоустойчивой классификации режимов кодирования речи. Технический результат заключается в повышении эффективности классификации режимов речи для повышения эффективности многорежимного кодирования с переменной скоростью передачи данных.

Изобретение относится к средствам обработки изображений. Технический результат заключается в уменьшении времени распознавания команды и выполнения операции.

Изобретение относится к автоматике и вычислительной технике. .

Изобретение относится к области информационных технологий - обработки аудио сигналов, в частности к способу распознавания музыкальных произведений и устройству для его осуществления.

Изобретение относится к распознаванию и идентификации сигналов. .

Изобретение относится к цифровой обработке речи. .

Изобретение относится к технике обработки речевой информации и может найти применение при построении сиетем распознавания речи и создании СБИС для таких систем. .

Изобретение относится к речевой информатике и может быть использовано при синтезе речи электромеханическими средствами . .

Изобретение относится к средствам для поиска в компьютерных системах и базах данных. Технический результат заключается в обеспечении возможности подбора музыкальной и текстовой информации друг к другу на основании их ритмических свойств. Способ включает индексацию текстовой информации, ввод запроса и поиск по индексу. Для индексации базы текстов, хранящихся в базе данных, с использованием системы поиска вычисляют ритмические характеристики текстов, а именно векторы, кодирующие ритмические свойства отдельных строк текста и всего текста в целом. Построение векторов системой поиска происходит в два этапа. На первом этапе строка сегментируется на слоги, после чего в строке автоматически проставляются ударения и на выходе первого этапа в строке текста расставлены границы слогов и для каждого из них указано, ударный это слог, безударный или система поиска не может однозначно определить его ударность. На втором этапе система поиска вычисляет вектор для каждой строки текста, после чего вычисляет агрегированный вектор для всего текста, который определяет ритмическую структуру этого текста. Агрегированный вектор сохраняют в хранилище векторов, поддерживающем функцию поиска ближайших соседей. Осуществляют ввод запроса в текстовом или псевдотекстовом виде для нахождения текстовых данных, подходящих звуковых данных. 2 н. и 3 з.п. ф-лы, 5 ил.
Наверх