Способ адаптивного кодирования речевых сигналов на основе системы с переменной структурой

Авторы патента:

G10L19/06 - определение или кодирование характеристик полосы спектра, например коэффициентов прогнозирования краткосрочных предсказаний

Владельцы патента RU 2343564:

Государственное образовательное учреждение высшего профессионального образования Академия Федеральной службы охраны Российской Федерации (Академия ФСО России) (RU)

Изобретение относится к системе электросвязи и предназначено для кодирования речевых сигналов на основе системы с переменной структурой. Сущность способа кодирования состоит в том, что осуществляют классификацию сегментов входного речевого сигнала на шесть классов: пауза, тоновый сегмент, шумовой сегмент первого типа, шумовой сегмент второго типа, переходный сегмент первого типа, переходный сегмент второго типа и кодирование распознанных сегментов входного речевого сигнала различными методами путем изменения структуры системы кодирования. Технический результат - повышение качества синтезируемого речевого сигнала при фиксированной низкой скорости передачи в канале связи. 2 ил.

Предлагаемое изобретение предназначено для кодирования речевых сигналов (PC) на основе системы с переменной структурой, применение которой направленно на сокращение избыточности передаваемой информации.

Известны способы кодирования речевых сигналов на основе линейного предсказания и различными сигналами возбуждения синтезирующего фильтра, с использованием процедуры векторного квантования сигналов возбуждения и параметров, описывающих спектральную огибающую речевого сигнала, например [1, 2].

Недостатком таких способов являются невысокие возможности в плане адаптации этих алгоритмов к свойствам обрабатываемого PC, что предопределяет недостаточно высокое качество восстановления сигнала на приеме. В данных алгоритмах в процессе кодирования изменяются только параметры кодера, а структура его остается неизменной. Фиксированное структурирование пространства кодируемых параметров и постоянство мощностей подпространств представлений (порядок предсказания для линейного предсказания, размер кодовых книг при векторном квантовании, длина кодируемого вектора), присущие существующим алгоритмам и выражающиеся в фиксированной структуре кодекса, не создают необходимых условий для максимального использования имеющейся априорной информации о речевом сигнале, что препятствует дальнейшей оптимизации кодека.

Известен способ кодирования речевых сигналов на основе линейного предсказания в зависимости от типа обрабатываемого сегмента речевого сигнала [3], где достигается повышение качества синтезируемого сигнала за счет использования классификации обрабатываемых кадров речевого сигнала на два непересекающихся класса: вокализованная и невокализованная речь, и кодирование сегментов, относящихся к разным классам различными методами. К недостаткам данного способа можно отнести небольшое число классов, на которые подразделяется речевой сигнал, адаптивное перераспределение мощностей подпространств представления кодируемых параметров в условиях фиксированной структуры кодирующего устройства, что предопределяет недостаточно высокое качество восстановления сигнала на приеме. При существующих требованиях к представлению речевых сигналов в цифровом виде необходима более тщательная обработка речевого сигнала. В данных условиях способы, основанные на изменении только параметров кодера в соответствии с характеристиками речи, становятся неприемлемыми и не дают достаточного качества при кодировании PC.

Предлагаемый способ преобразования речи решает задачу повышения качества синтезируемого PC без увеличения скорости передачи.

Указанный технический результат достигается тем, что в реальном масштабе времени входной речевой сигнал делят по временной оси на сегменты, распознают сегмент входного речевого как пауза, тоновый сегмент, шумовой сегмент первого типа, шумовой сегмент второго типа, переходный сегмент первого типа, переходный сегмент второго типа исходя из следующей процедуры классификации (фиг.1).

На первом этапе классификации сигнал делится на активные участки и паузы, критерием принятия решения служит соотношение:

где N - число отсчетов в обрабатываемом речевом сегменте;

s_i - отсчет речевого сигнала;

P₀ - пороговое значение мощностной характеристики, определяемое экспериментальным путем.

В случае выполнения неравенства (1) принимается решение о том, что обрабатываемый сегмент 1 относит к классу пауз 2. В противном случае, принимается решение о принадлежности обрабатываемого сегмента речи к классу активных сегментов 3.

На втором этапе классификации активные сегменты речи 3 делятся на 4 типа сегментов: тоновые 7, шумовые 4, переходные первого типа 5 и переходные второго типа 6. Для такого деления вычисляется параметр тон/шум (ТШ) и частота основного тона (ОТ) F_от на сегменте анализа. Вычисление сигналов ТШ и F_от производится совместно на основе анализа автокорреляционной функции (АКФ) PC и метода Итакуры-Саито. Использование двух методов в совокупности уменьшает вероятность ошибки в классификации сегментов речи. При этом правила принятия решения о типе сегмента формулируются следующим образом.

К тоновым сегментам 7 относятся сегменты, для которых:

- метод анализа АКФ определяет сегмент как тоновой;

- метод Итакуры-Саито определяет сегмент как тоновой.

К шумовым сегментам 4 относятся сегменты, для которых:

- метод анализа АКФ определяет сегмент как шумовой;

- метод Итакуры-Саито определяет сегмент как шумовой.

К переходным сегментам первого типа 5 относятся сегменты, для которых:

- метод анализа АКФ определяет сегмент как шумовой;

- метод Итакуры-Саито определяет сегмент как тоновой.

К переходным сегментам второго типа 6 относятся сегменты, для которых:

- метод анализа АКФ определяет сегмент как тоновой;

- метод Итакуры-Саито определяет сегмент как шумовой.

На третьем этапе классификации происходит разделение шумовых сегментов речи 4 по коэффициенту огибающей и мощностной характеристике сигнала (1) на два класса. Правило принятия решения определяется соотношением:

где Р - определяется в соответствии с левой частью выражения (1);

α₀ - пороговое значение коэффициента сложности кодируемого сегмента, определяемое экспериментальным путем;

η - коэффициент огибающей кодируемого сигнала, определяемый как:

Если в результате расчета неравенство (2) выполняется, принимается решение о том, что обрабатываемый сегмент относится к шумовому сегменту первого типа 8, в противном случае - к шумовому сегменту второго типа 9.

Затем кодируют сегмент входного речевого сигнала путем кодирования формы сигнала, если сегмент входного речевого сигнала определен как пауза, шумовой сегмент первого типа или шумовой сегмент второго типа, или находят остатки кратковременных предсказаний входного речевого сигнала и кодируют остатки кратковременных предсказаний с использованием синусоидального аналитического кодирования, если сегмент входного речевого сигнала определен как тоновый сегмент, переходный сегмент первого типа или переходный сегмент второго типа.

Таким образом, в соответствии с полученными статистическими и параметрическими характеристиками выбирается та структура кодирующего устройства (блоки 10 или 11), которая обеспечивает минимум искажений речевого сигнала.

На чертежах (фиг.1 и 2) представлена сущность предлагаемого решения, где на фиг.1 изображен вариант классификации распознаваемых сегментов речи в соответствии с предлагаемым решением, на фиг.2 - структурная схема устройства кодирования речевых сигналов на основе системы с переменной структурой.

Предлагаемый способ преобразования речевого сигнала может быть реализован в устройстве кодирования речевых сигналов (фиг.2).

Исходный речевой сигнал подается на кодер ИКМ 12, реализующий преобразование аналогового сигнала в цифровую форму согласно рекомендации МСЭ G.711. В блоке формирования и начальной обработки сегмента анализа PC 13 оцифрованный речевой сигнал подвергается сегментированию на одинаковые подкадры, равные периоду квазистационарности. Далее подкадры речевого сигнала последовательно поступают на анализатор речь/пауза 14, выделитель статистических и параметрических характеристик 15, блок формирования субкадров 24 и блок управления структурой и параметрами линейного предсказателя 26. В анализаторе речь/пауза 14 происходит разделение речи на сегменты активности и паузы, при этом сегменты речи, отнесенные к активным, передаются для последующего анализа в блок анализа тон/шум 18, а управляющие сигналы о принятом решении (речь/пауза) с данного блока передаются на выделитель статистических и параметрических характеристик 15 и подсистему управления структурой кодека 17. В блоке 15 реализуется выделение статистических и параметрических характеристик сегмента речевого сигнала при отнесении его к сегментам активной речи. Блок формирования субкадров 14 предназначен для выделения подкадров процедуры векторного квантования 30 на сегменте анализа, результаты процедуры подаются на блок управления структурой векторного квантователя 25 и векторный квантователь 30. В блоке анализа тон/шум 18 осуществляется выделение сигнала тон-шум на сегменте анализа, при отнесении его блоком 14 к сегменту активной речи. При этом в случае выделения сигнала шум управляющий сигнал, несущий информацию о данном решении, поступает на блок 17, в противоположном случае (выделение сигнала тон) управляющий сигнал поступает на блок 19.

В блоках 17 и 19 реализуется подсистема управления структурой кодера, при этом блок 17 управляет структурой кодера в зависимости от классификационных решений, относящих обрабатываемый сегмент речи к паузе и шумовым сегментам, а блок 19 использует информацию с блока 18 об активности и тональности сегмента речи. Информационные сигналы с блока 19 поступают на выделитель частоты ОТ на основе анализа АКФ 20 и выделитель частоты ОТ методом Итакуры-Саито 21. В указанных блоках 20 и 21 осуществляется выделение частоты основного тона на основе анализа автокорреляционной функции сегмента анализа речевого сигнала и с помощью метода Итакуры-Саито соответственно. Результаты расчетов поступают в блок корректировки значения частоты ОТ 22, в котором происходит коррекция значения частоты основного тона для осуществления принятия решений о типе обрабатываемого сегмента речи классификатором речевых кадров 16 и выбора оптимальных режимов функционирования блоком управления структурой и параметрами линейного предсказателя 26 и блоком управления структурой векторного квантователя 25. Таким образом, на входы классификатора 16 поступают информационные сигналы: с выхода выделителя статистических и параметрических характеристик PC 15 и выхода блока корректировки значения частоты ОТ 22. Результаты классификации блоком 16 подаются на подсистему управления кодером 23, определяющую режим кодирования в зависимости от результата классификации сегмента, выходом данного блока являются управляющие сигналы для блока формирования субкадров PC 14, блока управления структурой векторного квантователя 25 и блока управления структурой и параметрами линейного предсказателя 26.

В соответствии с результатами классификации блоком 25 осуществляется управление работой векторного квантователя 30, а также выбор кодовых книг различной структуры 27, наиболее точно соответствующих кодируемому субкадру речи. Блоком 26 осуществляется управление структурой и параметрами линейного предсказателя. Функционирование линейного предсказателя связано с кодовыми книгами параметров кратковременного линейного предсказателя 31 и кодовыми книгами параметров долговременного линейного предсказания 32, с блоком расчета параметров кратковременного линейного предсказания 28 и блоком расчета параметров долговременного линейного предсказания 29, с блоком кратковременного линейного анализа 33 и блоком долговременного линейного анализа 34, в которых непосредственно реализуются процедуры линейного предсказания на основе параметров линейного предсказания, выбранных из соответствующих кодовых книг и наиболее соответствующих рассчитанным. Также блок 26 взаимодействует с блоком выбора наилучшей структуры и параметров линейного предсказателя 36, который осуществляет выбор наилучшей структуры и параметров линейного предсказателя на основе процедуры анализа через синтез и результатами управляющих воздействий на структуру кодера. Информационные сигналы, полученные в результате векторного квантования (блок 30) и/или линейного предсказания (блок 36), поступают на вход блока формирования выходной последовательности кодера 35, который осуществляет формирование кадра передачи кодирующего устройства.

Процедура декодирования на приемной стороне заключается в выделении из принятой последовательности кадра передачи информации о типе структуры и параметрах кодированного PC, выборе соответствующей структуры декодера и постановлении PC по принятым сигналу возбуждения и параметрам синтезирующего устройства.

Приведенные сведения показывают, что введение в систему кодирования процедуры классификации речевых сегментов на 6 типов: пауза, тоновый сегмент, шумовой сегмент первого типа, шумовой сегмент второго типа, переходный сегмент первого типа, переходный сегмент второго типа, и кодирование распознанных сегментов входного речевого сигнала различными методами путем изменения структуры системы кодирования позволяет повысить качество синтезируемого PC без увеличения скорости передачи.

Источники информации

1. Устинов А.А., Тюлегенев А.О., Данилюк В.В. Патент №2152646, кл. 7 G10L 21/00. Способ сжатия и восстановления речевых сигналов. Бюл. №19 от 10.07.2000.

2. Костров В.В., Дыранов Ю.В., Фабричный С.Ю. Патент №2166804, кл. 7 G10L 13/02. Способ преобразования речи и устройство для его осуществления. Бюл. №13 от 10.05.2001.

3. Нисигути М., Иидзима К., Матсумото Д., Омори С. Патент №2233010, кл. 7 G10L 19/06. Способы и устройства для кодирования и декодирования речевых сигналов. Бюл. №20 от 20.07.2004.

Способ адаптивного кодирования речевых сигналов на основе системы с переменной структурой, заключающийся в том, что входной речевой сигнал делят по временной оси на сегменты, находят остатки кратковременных предсказаний входного речевого сигнала, распознают входной речевой сигнал как вокализованный или невокализованный, кодируют остатки кратковременных предсказаний с использованием синусоидального аналитического кодирования, если часть входного речевого сигнала определена как вокализованная, или кодируют входной речевой сигнал путем кодирования формы сигнала, если часть входного речевого сигнала определена как невокализованная, отличающийся тем, что сегменты входного речевого сигнала распознают как пауза, тоновый сегмент, шумовой сегмент первого типа, шумовой сегмент второго типа, переходный сегмент первого типа, переходный сегмент второго типа, затем кодируют сегмент входного речевого сигнала путем кодирования формы сигнала, если сегмент входного речевого сигнала определен как пауза, шумовой сегмент первого типа или шумовой сегмент второго типа, или находят остатки кратковременных предсказаний входного речевого сигнала и кодируют остатки кратковременных предсказаний с использованием синусоидального аналитического кодирования, если сегмент входного речевого сигнала определен как тоновый сегмент, переходный сегмент первого типа или переходный сегмент второго типа.

Похожие патенты:

Аудиокодирование // 2321901

Изобретение относится к кодированию аудиосигнала. .

Кодирование речи с функцией изменения комфортного шума для повышения точности воспроизведения // 2237296

Изобретение относится к радиосвязи, в частности к процессу кодирования речи, в котором в течение промежутков времени, в которых отсутствует речевая активность, создают искусственный фоновый шум.

Способы и устройства для кодирования и декодирования речевых сигналов // 2233010

Изобретение относится к способу и устройству кодирования речевого сигнала, в которых входной речевой сигнал делится на блоки или кадры, которые кодируются на основе элементов кодирования.

Цифровой синтезатор речи // 1080198

Цифровой синтезатор речи // 993315

Устройство для выделения основного тона речевого сигнала // 688919

Способ и устройство для векторного квантования спектрального представления огибающей // 2387025

Изобретение относится к обработке речевых сигналов

Системы, способы и устройство для широкополосного кодирования и декодирования активных кадров // 2419170

Изобретение относится к обработке речевых сигналов

Системы, способы и устройство для широкополосного кодирования и декодирования активных кадров // 2437171

Изобретение относится к обработке речевых сигналов

Системы, способы и устройство для широкополосного кодирования и декодирования активных кадров // 2441288

Изобретение относится к обработке речевых сигналов

Способ и средство для кодирования информации фонового шума // 2461080

Изобретение относится к способам и средствам для кодирования информации фонового шума в способе кодирования речевого сигнала

Векторный квантователь, инверсный векторный квантователь и способы // 2469421

Изобретение относится к устройствам векторного квантования и деквантования для выполнения векторного квантования параметров LSP, используемых в устройстве кодирования/декодирования речи, которое передает речевые сигналы в областях системы пакетной связи

Способ многоканального адаптивного подавления акустических шумов и сосредоточенных помех и устройство для его осуществления // 2477533

Изобретение относится к телекоммуникационным системам передачи акустических речевых сигналов, например к системам громкоговорящей связи

Способ и кодер и декодер для воспроизведения без промежутка аудио сигнала // 2546602

Заявленное изобретение относится к средствам для выдачи информации относительно достоверности закодированных аудиоданных. Технический результат заключается в обеспечении возможности обрезания недостоверных данных. Каждый блок закодированных аудиоданных может содержать информацию относительно достоверных аудиоданных. Способ содержит: выдачу информации относительно уровня закодированных аудиоданных, которая описывает количество данных в начале блока аудиоданных, являющихся недостоверными, или выдачу информации относительно уровня закодированных аудиоданных, которая описывает количество данных в конце блока аудиоданных, являющихся недостоверными, или выдачу информации относительно уровня закодированных аудиоданных, которая описывает количество данных вначале и в конце блока аудиоданных, являющихся недостоверными. Также описан способ для приема закодированных данных, включающих в себя информацию относительно достоверности данных, и выдачи декодированных выходных данных. 6 н. и 12 з.п. ф-лы, 3 табл., 11 ил.

Кодер и способ для кодирования с предсказанием, декодер и способ для декодирования, система и способ для кодирования с предсказанием и декодирования, и кодированный с предсказанием информационный сигнал // 2573278

Изобретение относится к кодированию с предсказанием информационного сигнала. Технический результат - повышение точности кодирования с предсказанием информационного сигнала и обеспечение возможности лучшего поддержания качества сигнала. Для этого кодер для кодирования с предсказанием информационного сигнала, имеющего последовательность значений сигнала (s(n)), содержит блок предсказания для выполнения адаптивного предсказания в зависимости от последовательности значений сигнала (s(n)) и в зависимости от одного или более весовых значений ωi, чтобы получить значения предсказанного сигнала (s'(n)), в котором блок предсказания выполнен с возможностью сбрасывания весовых значений в моменты времени, которые зависят от значений информационного сигнала, и в котором блок предсказания выполнен с возможностью адаптирования весовых значений к сигналу между последующими сбросами. 15 н. и 11 з.п. ф-лы, 13 ил.

Звуковые кодирующее устройство и декодирующее устройство // 2630887

Изобретение относится к средствам звукового кодирования и декодирования. Технический результат заключается в повышении качества кодирования за счет обеспечения плавного перехода между кодированием во временной области и кодированием в частотной области. Речевой кодер содержит модуль кадрирования, сконфигурированный для приема набора блоков; при этом указанный набор блоков содержит ряд последовательных блоков коэффициентов преобразования МДКП; при этом указанный набор блоков служит признаком дискретных значений речевого сигнала; при этом блок коэффициентов преобразования содержит ряд коэффициентов преобразования для соответствующего ряда элементов разрешения по частоте. Кроме этого, кодер содержит модуль оценивания огибающей, сконфигурированный для определения текущей огибающей на основе ряда последовательных блоков коэффициентов преобразования; при этом указанная текущая огибающая служит признаком ряда значений спектральной энергии для соответствующего ряда элементов разрешения по частоте. В дополнение кодер содержит модуль интерполяции огибающих, сконфигурированный для определения ряда интерполированных огибающих, исходя из ряда последовательных блоков коэффициентов преобразования соответственно на основе текущей огибающей. 6 н. и 14 з.п. ф-лы, 10 ил.