Сжатие звуковых сигналов

Авторы патента:

ТАММИ Микко (FI)

G10L21/02 - усиление речи, например подавление шума, нейтрализация эхо-сигнала (подавление эхо-сигнала в громкоговорящих телефонных системах H04M 9/08, в аппаратах для людей с дефектами слуха H04R 15/00)

Владельцы патента RU 2409874:

Нокиа Корпорейшн (FI)

Изобретение касается кодирования и декодирования звуковых сигналов. Чтобы улучшить кодированные звуковые сигналы, используют разделение звукового сигнала, по меньшей мере, на полосу низких частот и полосу высоких частот, разделение полосы высоких частот, по меньшей мере, на два сигнала субполос высоких частот и формирование параметров, основанных, по меньшей мере, на тех сегментах сигнала полосы низких частот, которые лучше всего соответствуют сигналам субполос высоких частот. Технический результат - улучшение кодирования с использованием определения тональности. 5 н. и 15 з.п ф-лы, 10 ил.

Область техники

Настоящее изобретение в целом относится к сжатию звуковых сигналов.

Обзор известных технических решений

Сжатие звуковых сигналов обычно используется в современных бытовых приборах для записи или передачи цифровых звуковых сигналов. Бытовые приборы могут являться средствами связи, видеоаппаратурой, звуковоспроизводящими устройствами, радиоаппаратурой и другими бытовыми устройствами. Высокие коэффициенты сжатия позволяют лучше использовать емкость запоминающего устройства или осуществлять более эффективную передачу по каналу связи, то есть по каналу радиосвязи или по каналу проводной связи. Однако одновременно с коэффициентом сжатия качество сжатого сигнала должно поддерживаться на высоком уровне. Целью кодирования звуковых сигналов обычно является максимизация качества звукового сигнала относительно заданного коэффициента сжатия, то есть скорости передачи битов.

За прошедшие десятилетия были разработаны многочисленные методы кодирования звуковых сигналов. Усовершенствованные системы кодирования звуковых сигналов эффективно используют характеристики человеческого уха. Основная идея заключается в том, что шумы кодирования могут быть помещены в те области сигнала, где они меньше всего затрагивают воспринимаемое качество, так, чтобы скорость передачи данных могла быть уменьшена без внесения слышимых искажений. Поэтому психоакустические теории являются важной частью современного кодирования звуковых сигналов.

В известных кодерах звуковых сигналов входной сигнал разделяется на ограниченное число субполос. Каждый из сигналов субполос может быть квантован. Из психоакустической теории известно, что самые высокие частоты в спектре при восприятии менее важны, чем низкие частоты. Это может до некоторой степени учитываться в кодере выделением для квантования субполос высоких частот меньшего числа бит, чем для субполос низких частот.

Более сложное кодирование сигналов звуковой частоты использует тот факт, что в большинстве случаев имеются сильные зависимости между низкочастотными областями и высокочастотными областями звукового сигнала, то есть верхняя половина спектра, как правило, очень сходна с нижней половиной. Низкочастотную область можно рассматривать как нижнюю половину спектра звукового сигнала, а высокочастотную область можно рассматривать как верхнюю половину спектра звукового сигнала. Должно быть понятно, что граница между низкими и высокими частотами не фиксирована, а может находиться между 2 и 15 кГц и даже вне этих границ.

Современный подход к кодированию высокочастотной области известен как копирование спектральных полос (SBR - Spectral Band Replication). Эта технология описана в работах М.Dietz, L.Liljeryd, К.Kjörling and О.Kunz, "Spectral Band Replication, a novel approach in audio coding," in 112th AES Convention, Munich, Germany, May, 2002 и Р.Ekstrand, "Bandwidth extension of audio signals by spectral band replication," in 1st IEEE Benelux Workshop on Model Based Processing and Coding of Audio, Leuven, Belgium, November 2002. Описанный способ может быть применен в обычных кодерах звуковых сигналов, таких, как например, кодеры формата расширенного кодирования звука (ААС - Advanced Audio Coding) или третьего уровня кодирования звука MPEG (Motion Picture Expert Group - группа экспертов по движущимся изображениям) (MPEG-1 Layer III (MP3)), и во многих других современных кодерах.

Недостаток способа согласно известному уровню техники состоит в том, что простой перенос полос низких частот в полосы высоких частот может приводить к несходству между исходными высокими частотами и их реконструкцией, использующей перенесенные низкие частоты. Другим недостатком является то, что согласно известным способам к частотному спектру должны добавляться шумовые составляющие и синусоиды.

Поэтому целью данной заявки является предложить улучшенный способ кодирования звуковых сигналов. Другой целью данной заявки является предложить способ кодирования, представляющий входной сигнал более правильно с приемлемо низкими скоростями передачи битов.

Сущность изобретения

Чтобы преодолеть вышеупомянутые недостатки, согласно одному аспекту предусматривается способ кодирования звуковых сигналов с приемом входного звукового сигнала, разделением звукового сигнала по меньшей мере на полосу низких частот и полосу высоких частот, разделением полосы высоких частот по меньшей мере на сигналы двух субполос высоких частот, определением в полосе низких частот сегментов сигнала, которые лучше всего соответствуют сигналам субполос высоких частот, и формированием параметров, которые основаны по меньшей мере на сегментах сигнала полосы низких частот, лучше всего соответствующим сигналам субполос высоких частот.

Заявка предлагает новый подход к кодированию области высоких частот входного сигнала. Входной сигнал может быть разделен на последовательные во времени кадры. Каждый из кадров представляет временной экземпляр входного сигнала. В пределах каждого кадра входной сигнал может быть представлен своими спектральными компонентами. Спектральные компоненты или отсчеты представляют частоты во входном сигнале.

Вместо того, чтобы вслепую транспонировать низкочастотную область в область высоких частот, максимизируется сходство между исходными и кодированными высокочастотными спектральными компонентами. Согласно изобретению высокочастотная область формируется с использованием уже кодированной низкочастотной области сигнала.

Сравнением отсчетов сигнала низких частот с субполосами высоких частот принимаемого сигнала может быть найден сегмент сигнала в пределах низких частот, который лучше всего соответствует фактической субполосе высоких частот. Заявка предусматривает поиск во всем спектре низких частот отсчет за отсчетом сегмента сигнала, который наиболее похож на субполосу высоких частот. Если сегмент сигнала соответствует последовательности отсчетов, то, другими словами, заявка предусматривает нахождение последовательности отсчетов, которая лучше всего соответствует субполосе высоких частот. Последовательность отсчетов может начинаться в любом месте в полосе низких частот, за исключением того, что последняя рассматриваемая начальная точка в полосе низких частот должна быть последним отсчетом в полосе низких частот минус длина субполосы высоких частот, с которой необходимо установить соответствие.

Индекс или ссылка на сегмент сигнала низких частот, лучше всего соответствующий фактической субполосе высоких частот, может использоваться для моделирования субполосы высоких частот. Только индекс или ссылка должны быть закодированы и сохранены или переданы, чтобы позволить восстановить представление соответствующей субполосы высоких частот на приемном конце.

Согласно формам осуществления изобретения, самое похожее соответствие, то есть самая похожая форма спектра сегмента сигнала и субполосы высоких частот, отыскивается в полосе низких частот. Параметры, основанные по меньшей мере на сегменте сигнала, который найден наиболее похожим на субполосу высоких частот, создаются в кодере. Эти параметры могут содержать масштабные коэффициенты для масштабирования найденных сегментов при копировании в полосу высоких частот. На стороне декодера эти параметры используются для транспонирования соответствующих сегментов сигнала низких частот в высокочастотную область, чтобы восстановить субполосы высоких частот.

Масштабирование может применяться к копируемым сегментам сигнала низких частот с помощью масштабных коэффициентов. Согласно формам осуществления изобретения, должны кодироваться только масштабные коэффициенты и ссылки на сегменты сигнала низких частот.

Форма высокочастотной области более близко, чем при известных способах, повторяет исходный спектр высоких частот, когда для воссоздания субполос высоких частот используются наиболее похожие сегменты сигнала низких частот. Перцептуально важные спектральные пики могут моделироваться более точно, потому что амплитуда, форма и частотная позиция более сходны с исходным сигналом. Так как смоделированные субполосы высоких частот могут сравниваться с исходными субполосами высоких частот, можно легко обнаруживать отсутствующие спектральные компоненты, то есть синусоиды или шумы, и затем добавлять их.

Чтобы сделать возможным формирование огибающей, формы осуществления изобретения предусматривают использование низкочастотных сегментов сигнала посредством переноса отсчетов низкочастотного сигнала в сигналы субполос высоких частот с использованием параметров, причем эти параметры содержат масштабные коэффициенты, так что огибающая перенесенных низкочастотных сегментов сигнала повторяет огибающую сигналов субполос высоких частот принимаемого сигнала. Масштабные коэффициенты позволяют корректировать энергию и форму скопированных низкочастотных сегментов сигнала для их лучшего совпадения с фактическими субполосами высоких частот.

Согласно формам осуществления изобретения параметры могут содержать ссылки на сегменты сигнала низких частот, чтобы представлять соответствующие сигналы субполос высоких частот. Ссылки могут быть указателями или индексами для сегментов сигнала низких частот. С помощью этой информации можно ссылаться на сегменты сигнала низких частот при построении субполосы высоких частот.

Чтобы уменьшить число битов квантования, можно нормализовать огибающую сигналов субполос высоких частот. Нормализация обеспечивает то, что полосы как низких, так и высоких частот будут находиться в пределах нормализованного диапазона амплитуд. Это уменьшает число битов, необходимых для квантования масштабных коэффициентов. Информация, используемая для нормализации, должна предоставляться кодером, чтобы создавать представление субполосы высоких частот в декодере. Формы осуществления изобретения предусматривают нормализацию огибающей с помощью линейного кодирования с предсказанием. Возможна также нормализация огибающей с использованием кепстрального моделирования. Кепстральное моделирование использует обратное преобразование Фурье логарифма спектра мощности сигнала.

Формирование масштабных коэффициентов может включать формирование масштабных коэффициентов в линейной области так, чтобы соответствовать по меньшей мере пикам амплитуды в спектре. Согласно формам осуществления изобретения, формирование масштабных коэффициентов может включать также согласование по меньшей мере энергии и/или формы спектра в логарифмической области.

Формы осуществления изобретения предусматривают формирование отсчетов сигнала в полосе низких частот и/или полосе высоких частот с использованием модифицированного дискретного косинусного преобразования (MDCT). Преобразование MDCT вычисляет коэффициенты спектра предпочтительно как вещественные числа. Преобразование MDCT согласно формам осуществления изобретения может использоваться с любыми подходящими размерами кадров, в частности, с размерами кадров 2048 отсчетов для нормальных кадров и 256 отсчетов для кадров с транзиентами (резкими переходами), а также с любым другим промежуточным значением.

Для получения сегментов сигнала низких частот, которые лучше всего согласуются с соответствующими сигналами субполос высоких частот, формы осуществления изобретения предусматривают вычисление меры сходства с использованием нормализованной корреляции или евклидова расстояния.

Чтобы кодировать входной сигнал, формы осуществления изобретения предусматривают квантование отсчетов сигнала низких частот и квантование по меньшей мере масштабных коэффициентов. Ссылка на сегмент сигнала низких частот может быть целым числом.

Для улучшения качества сигналов высоких частот возможно добавление дополнительных синусоид. Чтобы выполнить добавление таких синусоид, формы осуществления изобретения предусматривают разделение входного сигнала на последовательные во времени кадры и обнаружение тональных сегментов в пределах двух последовательных кадров во входном сигнале. Тональные сегменты могут быть улучшены добавлением дополнительных синусоид. Сегменты, которые являются в высокой степени тональными, могут быть дополнительно улучшены с помощью увеличения числа субполос высоких частот в соответствующих высокочастотных областях. Кадры входного сигнала могут быть разделены на различные группы по степени тональности, например, на нетональные, тональные и чрезвычайно тональные.

Обнаружение тональных сегментов может включать использование сдвинутого дискретного преобразования Фурье (SDFT). Результаты SDFT могут быть использованы в кодере для выполнения преобразования MDCT.

Другим аспектом является способ декодирования сигналов звуковой частоты путем приема кодированного битового потока, декодирования из битового потока по меньшей мере сигнала низких частот и по меньшей мере параметров, основанных на сегментах сигнала низких частот, использования отсчетов сигнала низких частот и параметров, основанных на сегментах сигнала низких частот, для восстановления по меньшей мере сигналов двух субполос высоких частот и создания выходного сигнала, содержащего по меньшей мере сигнал низких частот и по меньшей мере сигналы двух субполос высоких частот.

Еще одним аспектом заявки является кодер для кодирования звуковых сигналов, содержащий средства приема, приспособленные для приема входного звукового сигнала, средства фильтрации, приспособленные для разделения звукового сигнала по меньшей мере на полосу низких частот и полосу высоких частот, и, кроме того, приспособленные для разделения полосы высоких частот по меньшей мере на два сигнала субполос высоких частот, а также средства кодирования, приспособленные для формирования параметров, которые основаны по меньшей мере на тех сегментах сигнала полосы низких частот, которые лучше всего соответствуют сигналам субполос высоких частот.

Еще одним аспектом заявки является декодер для декодирования звуковых сигналов, содержащий средства приема, приспособленные для приема кодированного битового потока, средства декодирования, приспособленные для декодирования из битового потока по меньшей мере сигнала низких частот и по меньшей мере параметров, основанных на сегментах сигнала низких частот, средства генерации, приспособленные для использования отсчетов сигнала низких частот и параметров, основанных на сегментах сигнала низких частот, для восстановления по меньшей мере двух сигналов субполос высоких частот.

Еще одним аспектом заявки является система для сжатия цифровых звуковых сигналов, содержащая описанные декодер и кодер.

Еще один аспект заявки касается компьютерного программного продукта для кодирования звуковых сигналов, программа которого содержит команды, действующие так, чтобы заставлять процессор принимать входной звуковой сигнал, разделять звуковой сигнал по меньшей мере на полосу низких частот и полосу высоких частот, разделять полосу высоких частот по меньшей мере на два сигнала субполос высоких частот и формировать параметры на основе по меньшей мере тех сегментов сигнала полосы низких частот, которые лучше всего соответствуют сигналам субполос высоких частот.

Предлагается также компьютерный программный продукт для декодирования битовых потоков, программа которого содержит команды, действующие так, чтобы заставлять процессор принимать кодированный битовый поток, декодировать из битового потока по меньшей мере сигнал низких частот и по меньшей мере параметры, основанные на сегментах сигнала низких частот, использовать отсчеты сигнала низких частот и параметры, основанные на сегментах сигнала низких частот, для восстановления по меньшей мере двух сигналов субполос высоких частот, и производить выходной сигнал, содержащий по меньшей мере сигнал низких частот и по меньшей мере два сигнала субполос высоких частот.

Краткое описание чертежей

На фигурах показаны:

На фиг.1 - система для кодирования звуковых сигналов согласно известному уровню техники.

На фиг.2 - кодер согласно известному уровню техники.

На фиг.3 - декодер согласно известному уровню техники.

На фиг.4 - кодер SBR.

На фиг.5 - декодер SBR.

На фиг.6 - спектральное представление звукового сигнала на различных этапах.

На фиг.7 - система согласно первой форме осуществления изобретения.

На фиг.8 - система согласно второй форме осуществления изобретения.

На фиг.9 - частотный спектр с нормализацией огибающей.

На фиг.10 - улучшение кодирования с использованием определения тональности.

Подробное описание

В общем, системы кодирования звуковых сигналов состоят из кодера и декодера, как схематично показано на фиг.1. На этой фигуре показана система 2 кодирования с кодером 4, носителем информации или каналом 6 мультимедиа и декодером 8.

Кодер 4 сжимает входной звуковой сигнал 10, создавая битовый поток 12, который записывается или передается через канал 6 мультимедиа. Битовый поток 12 может приниматься в декодере 8. Декодер 8 декомпрессирует битовый поток 12 и производит выходной звуковой сигнал 14. Скорость передачи бит потока 12 и качество выходного звукового сигнала 14 относительно входного сигнала 10 являются основными характеристиками, которые определяют эффективность системы 2 кодирования.

Типичная структура современного кодера 4 звуковых сигналов схематично представлена на фиг.2. Входной сигнал 10 разделяется на субполосы с помощью структуры 16 банка фильтров анализа. Каждая субполоса может квантоваться и кодироваться в средствах 18 кодирования с использованием информации, предоставляемой психоакустической моделью 20. Кодирование может выполняться с использованием кодов Хаффмана. Установочные параметры квантования, так же как и схема кодирования могут определяться психоакустической моделью 18. Квантованная, кодированная информация используется в устройстве 22 форматирования битового потока для создания битового потока 12.

Битовый поток 12 может декодироваться в декодере 8, который схематично показан на фиг.3. Декодер 8 может содержать средства 24 распаковки битового потока, средства 26 восстановления субполос и банк 28 фильтров синтеза. Декодер 8 вычисляет функции, обратные функциям кодера 4, и преобразует битовый поток 12 обратно в выходной звуковой сигнал 14. Во время процесса декодирования битовый поток 12 деквантуется в средствах 26 восстановления субполос в сигналы субполос. Сигналы субполос подаются на банк 28 фильтров синтеза, который синтезирует звуковой сигнал из сигналов субполос и создает выходной сигнал 14.

Во многих случаях имеется возможность эффективно и перцептуально точно синтезировать высокочастотную область, используя только низкочастотную область и ограниченный объем дополнительной информации управления. Оптимально, кодирование высокочастотной части требует лишь небольшого числа параметров управления. Так как вся верхняя часть спектра может синтезироваться с помощью малого объема информации, в полной скорости передачи бит может быть достигнута значительная экономия.

Современное кодирование, такое как MP3pro, использует эти свойства в звуковых сигналах, вводя схему кодирования SBR в дополнение к психоакустическому кодированию. В технологии SBR высокочастотная область может генерироваться отдельно с использованием кодированной низкочастотной области, как схематично показано на фиг.4 и 5.

На фиг.4 схематично показан кодер 4. Кодер 4 содержит средства 30 фильтрации нижних частот, кодирующие средства 31, средства SBR 32, средства 34 извлечения огибающей и устройство 22 форматирования битового потока. Фильтр 30 нижних частот сначала определяет частоту среза, до которой фильтруется входной сигнал 10. Эффект показан на фиг.6а. Только частоты ниже частоты 36 среза проходят через фильтр.

Кодирующие средства 31 выполняют квантование и кодирование кодами Хаффмана с 32 субполосами низких частот. Низкочастотное содержание транспонируется в кодирующих средствах 31 в область зеркальных квадратурных фильтров (QMF). Низкочастотное содержание переносится на основе выходного сигнала кодера 31. Транспонирование (частотный сдвиг) выполняется средствами SBR 32. Эффект транспонирования низких частот к высоким частотам показан на фиг.6b. Транспонирование выполняется автоматически так, что отсчеты субполос низких частот лишь копируются в отсчеты субполос высоких частот. Это делается аналогично в каждом кадре входного сигнала и независимо от характеристик входного сигнала.

В средствах SBR 32 субполосы высоких частот могут корректироваться на основе дополнительной информации. Это выполняется для того, чтобы сделать специфические свойства синтезируемой высокочастотной области более сходными с исходной областью. Дополнительные компоненты, такие как синусоиды или шумы, могут добавляться к высокочастотной области, чтобы увеличить сходство с исходной высокочастотной областью. Наконец, огибающая корректируется в средствах 34 извлечения огибающей, чтобы повторять огибающую исходного высокочастотного спектра. Этот эффект можно видеть на фиг.6с, где высокочастотные компоненты масштабируются, чтобы стать более близкими к фактическим высокочастотным компонентам входного сигнала.

В битовом потоке 12 кодированный сигнал низких частот сжимается вместе с параметрами масштабирования и коррекции огибающей. Битовый поток 12 может декодироваться в декодере, как показано на фиг.5.

На фиг.5 показан декодер 8 со средствами 24 распаковки, декодером 38 низких частот, средствами 40 восстановления высоких частот, средствами 42 коррекции компонентов и средствами коррекции 44 огибающей. Субполосы низких частот восстанавливаются в декодере 38. Из субполос низких частот субполосы высоких частот статически восстанавливаются в средствах 40 восстановления высоких частот. Синусоиды могут добавляться и огибающая может корректироваться в средствах 42 коррекции компонентов и средствах 44 коррекции огибающей.

Согласно данной заявке транспозиция отсчетов сигнала низких частот в субполосы высоких частот выполняется динамически, например, проверяется, какие сегменты сигнала низких частот лучше всего соответствуют субполосе высоких частот. Создается индекс для доступа к соответствующим сегментам сигнала низких частот. Этот индекс кодируется и используется в декодере для создания субполос высоких частот из сигнала низких частот.

На фиг.7 показана система кодирования с кодером 4 и декодером 8. Кодер 4 состоит из средств 50 кодирования высоких частот, кодера 52 низких частот и устройства 22 форматирования битового потока. Кодер 4 может быть частью более сложной схемы кодирования звуковых сигналов. Данное изобретение может быть использовано почти в любом кодере звуковых сигналов, для которого ставится целью достижение хорошего качества при низких битовых скоростях. Например, устройство согласно изобретению может использоваться совершенно отдельно от конкретного кодера звуковых сигналов с низкой битовой скоростью, например, оно может быть помещено перед психоакустическим кодером, например, по стандарту ААС, стандарту MPEG и т.д.

Так как высокочастотная область обычно содержит формы частей спектра, сходные с формами низкочастотной области, как правило, достигается хорошая рабочая характеристика кодирования. Это достигается при относительно низкой общей скорости передачи битов, так как декодеру должны передаваться только индексы копируемого спектра и масштабные коэффициенты.

В кодере 22 низких частот кодируются низкочастотные отсчеты X_L(k). В кодере 50 высоких частот для кодирования создаются параметры α₁, α₂, i, представляющие преобразование, масштабирование и формирование огибающей, как более подробно будет описано ниже.

Спектр высоких частот сначала разделяется на n_b субполос. Для каждой субполосы находится самое близкое соответствие (то есть самая похожая форма спектра) из низкочастотной области.

Способ может работать в области модифицированного дискретного косинусного преобразования (MDCT). Вследствие своих хороших характеристик (50% перекрытие при критической частоте выборки, гибкое переключение окна и т.д.) частотно-временная область MDCT используется в большинстве современных кодеров звуковых сигналов. Преобразование MDCT выполняется следующим образом

где х(n) - входной сигнал, h(n) - временное окно анализа с длиной 2N и 0≤k<N. Обычно при кодировании звуковых сигналов N равно 1024 (нормальные кадры) или 128 отсчетов (транзиенты). Спектральные коэффициенты X(k) могут быть вещественными числами. Возможны как упомянутые размеры кадров, так и любые другие размеры кадров.

Чтобы создавать параметры, описывающие субполосы высоких частот, необходимо найти сегменты сигнала низких частот, которые лучше всего соответствуют субполосам высоких частот в кодере 50 высоких частот. Кодер 50 высоких частот и кодер 52 низких частот могут создавать N компонентов, кодированных с помощью преобразования MDCT, где X_L(k) представляет низкочастотные компоненты, а X_H(k) - высокочастотные компоненты.

Кодером 52 низких частот могут кодироваться N_L низкочастотных коэффициентов MDCT , 0≤k<N_L. Обычно N_L=N/2, но могут быть выбраны также и другие варианты.

При использовании и исходного спектра X_H(k) целью является создать высокочастотный компонент , который при используемых мерах максимально похож на исходный высокочастотный сигнал X_H(k)=X(N_L+k), 0≤k<N-N_L. и вместе формируют синтезируемый спектр :

Исходный высокочастотный спектр X_H(k) разделяется на n_b не перекрывающихся полос. В принципе, как число полос, так и их ширина могут быть выбраны произвольно. Например, восемь частотных полос равной ширины могут использоваться, когда N равняется 1024 отсчетам. Другим обоснованным вариантом является выбор диапазонов на основе перцепционных характеристик человеческого слуха. Например, для выбора числа полос и их ширины может использоваться Барк-шкала (шкала критических полос слуха) или шкала эквивалентных прямоугольных полос (ERB).

В кодере высоких частот может быть рассчитана мера сходства между высокочастотным сигналом и низкочастотными компонентами.

Пусть есть вектор-столбец, содержащий j-ю полосу X_H(k) с длиной w_j отсчетов. можно сравнить с кодированным низкочастотным спектром следующим образом

где S(a, b) - мера сходства между векторами а и b, а - вектор, содержащий индексы i(j)≤k<i(j)+w_j кодированного низкочастотного спектра Длина желаемого сегмента сигнала низких частот одинакова с длиной текущей высокочастотной субполосы, таким образом, по существу единственной необходимой информацией является индекс i(j), который указывает, где начинается соответствующий сегмент сигнала низких частот.

Мера сходства может использоваться, чтобы выбрать индекс i(j), который обеспечивает самое высокое сходство. Мера сходства используется для описания того, насколько похожи формы векторов, в то время как их относительная амплитуда не важна. Есть много вариантов выбора меры сходства. Одной из возможных реализаций может быть нормализованная корреляция

которая обеспечивает меру, не чувствительную к амплитудам а и b. Другая разумная альтернатива - мера сходства, основанная на евклидовом расстоянии

Соответственно, могут использоваться также многие другие меры сходства.

Эти самые похожие сегменты в пределах низкочастотных отсчетов сигнала могут быть скопированы в субполосы высоких частот и масштабированы с использованием фактических масштабных коэффициентов. Масштабные коэффициенты служат для того, чтобы огибающая кодированного высокочастотного спектра повторяла огибающую исходного спектра.

Используя индекс i(j), выбранный вектор , наиболее похожий по форме на , необходимо масштабировать до той же самой амплитуды, что и у . Для масштабирования есть много различных методов. Например, масштабирование может выполняться в два этапа, сначала в линейной области для согласования высоких пиков амплитуды в спектре и затем в логарифмический области для согласования энергии и формы.

Масштабирование вектора этими масштабными коэффициентами дает в результате кодированный высокочастотный компонент .

Масштабирование в линейной области выполняется просто как

где α₁(j) получается из

Обратим внимание, что α₁(j) может принимать и положительные, и отрицательные значения. Перед логарифмическим масштабированием как знак отсчетов вектора, так и максимальное логарифмическое значение могут быть сохранены

Теперь может быть выполнено логарифмическое масштабирование, и обновлено как

где масштабный коэффициент α₂(j) получается из

Этот масштабный коэффициент максимизирует сходство между формами колебаний в логарифмический области. Альтернативно α₂(j) может быть выбран так, чтобы энергии устанавливались на приблизительно равный уровень:

В вышеприведенных уравнениях задача переменной удостовериться, что амплитуды наибольших значений в (то есть спектральные пики) не масштабируются слишком высоко (первый масштабный коэффициент α₁(j) уже установил их на правильный уровень). Переменная используется для сохранения знака исходных отсчетов, так как эта информация теряется во время преобразования в логарифмическую область.

После того, как полосы были масштабированы, синтезируемый спектр высокой частоты может быть получен объединением векторов , j=0, 1, …, n_b-1.

После того, как параметры были выбраны, их необходимо квантовать для передачи в декодер 8 информации для воссоздания высокочастотной области.

Чтобы можно было воссоздать в декодере 8, параметры i(j), α₁(j) и α₂(j) необходимы для каждой полосы. В декодере 8 эти параметры используют средства 54 генерации высоких частот. Так как индекс i(j) - целое число, он может быть представлен как таковой, а α₁(j) и α₂(j) можно квантовать, используя, например, скалярное или векторное квантование.

Квантованные версии этих параметров, и используют в средствах 54 генерации высоких частот для создания согласно уравнениям (6) и (10).

Средства 56 декодирования низких частот декодируют сигнал низких частот и вместе с восстановленными субполосами высоких частот формируют выходной сигнал 14 согласно уравнению 2.

Система, которая показана на фиг.7, может быть дополнительно усовершенствована средствами для нормализации огибающей. В дополнение к системе, показанной на фиг.7, система, показанная на фиг.8, содержит средства 58 нормализации огибающей и средства 60 синтеза огибающей.

В этой системе метод кодирования высоких частот используется для того, чтобы формировать спектр с нормализованный огибающей, используя средства 58 нормализации огибающей в кодере 4. Фактический синтез огибающей выполняется в отдельных средствах 60 синтеза огибающей в декодере 8.

Нормализация огибающей может выполняться с использованием, например, анализа с помощью линейного предсказания (LPC) или кепстрального моделирования. Следует заметить, что при нормализации огибающей ее параметры, описывающие исходную спектральную огибающую высоких частот, должны быть переданы в декодер, как показано на фиг.8.

Согласно способу SBR, к области высоких частот добавляются дополнительные синусоиды и шумовые компоненты. То же самое можно сделать также и в вышеописанной заявке. В случае необходимости, легко могут быть добавлены дополнительные компоненты. Это связано с тем, что в описанном способе возможно измерение различия между исходным и синтезируемым спектрами и, таким образом, обнаружение мест, где есть существенные отличия в форме спектра. Так как, например, в обычных кодерах с расширением ширины полосы (BWE) форма спектра значительно отличается от исходного спектра, обычно бывает труднее решить, должны ли быть добавлены дополнительные синусоидальные или шумовые компоненты.

Было замечено, что в некоторых случаях, когда входной сигнал крайне тонален, качество кодированного сигнала может ухудшаться по сравнению с оригиналом. Это связано с тем, что кодированная высокочастотная область от одного кадра до другого не может оставаться столь же периодической, как в исходном сигнале. Периодичность теряется, так как некоторые периодические (синусоидальные) компоненты могут отсутствовать, или амплитуда существующих периодических компонентов изменяется от одного кадра до другого слишком значительно.

Чтобы включать в состав тональные сегменты, даже когда низкочастотные отсчеты сигнала, используемые для восстановления субполос высоких частот, не представляются полностью синусоидальными, могут быть предусмотрены два дополнительных шага.

На первом шаге могут обнаруживаться тональные сегменты сигнала с возможным снижением качества. Тональные сегменты могут определяться сравнением сходства между двумя последовательными кадрами в области сдвинутого дискретного преобразования Фурье (SDFT). SDFT является полезным преобразованием для этой цели, потому что оно содержит информацию также и о фазе, но остается тесно связанным с преобразованием MDCT, которое используется в других частях кодера.

Определение тональности может выполняться сразу после обнаружения транзиентов и перед инициализацией кодирования реальной области высоких частот. Так как кадры с транзиентами вообще не содержат тональных компонентов, определение тональности может применяться только в случае, когда и текущий и предыдущий кадры являются кадрами нормальной длины (например, 2048 отсчетов). Определение тональности основано на сдвинутом дискретном преобразовании Фурье, как показано выше, которое может быть определено для кадров с длиной 2N отсчетов как

где h(n) - окно, x(n) - входной сигнал, а u и v представляют сдвиги во временной и частотной областях соответственно. Эти сдвиги в областях могут быть выбраны так, чтобы u=(N+1)/2 и v=1/2, так как в таком случае соблюдается, что X(k)=real(Y(k)).

Таким образом, вместо того, чтобы выполнять преобразования SDFT и MDCT по отдельности, сначала можно выполнять преобразование SDFT для анализа тональности и затем результаты преобразования MDCT получать непосредственно как вещественную часть коэффициентов SDFT. Определение тональности таким способом не вызывает значительного увеличения сложности вычислений.

При Y(k)_b и Y(k)_b-1 представляющих преобразования SDFT текущего и предыдущего кадров, соответственно, сходство между кадрами может быть измерено с использованием выражения

где N_L+1 соответствует предельной частоте для кодирования высоких частот. Чем меньше параметр S, тем более сходны высокочастотные спектры. На основе значения S кадры могут классифицироваться следующим образом

Хорошими вариантами выбора для ограничивающих коэффициентов S_lim1 и S_lim2 являются 0,02 и 0,2 соответственно. Однако могут быть выбраны также и другие значения. Кроме того, могут использоваться различные варианты, а также, например, один из классов может быть полностью удален.

Как показано на фиг.10, определение (62) тональности, которое описано выше, может выполняться на основе входного сигнала 10.

На основе определения (62) тональности, входные кадры разделяют на три группы: не тональные (64), тональные (66) и очень тональные (66), как показано на фиг.10.

После определения (62) тональности на втором шаге качество тональных сегментов может быть улучшено добавлением дополнительных синусоид к высокочастотной области и, возможно, увеличением числа субполос высоких частот, используемых для создания высокочастотной области, как описано выше.

Самым типичным случаем является тот, когда сигнал не тонален (64), и тогда кодирование продолжается, как описано выше.

Если входной сигнал классифицирован как тональный (66), дополнительные синусоиды могут быть добавлены к высокочастотному спектру после применения кодирования, как показано выше. Фиксированное число синусоид может быть добавлено к спектру области MDCT. Синусоиды могут непосредственно добавляться к тем частотам, где абсолютное различие между исходным и кодированным спектром является наибольшим. Позиции и амплитуды синусоид квантуются и передаются на декодер.

Когда обнаруживается кадр, который является тональным (или очень тональным), к высокочастотной области спектра могут быть добавлены синусоиды. При X_H(k) и представляющих исходные и кодированные компоненты субполос высоких частот, соответственно, первая синусоида может быть добавлена к индексу k_i, который может быть получен из уравнения

Амплитуда (включая ее знак) синусоиды может быть определена как

Наконец, может быть модифицирован как

Уравнения (17)-(19) могут повторно решаться до тех пор, пока не будет добавлено желаемое число синусоид. Как правило, уже четыре дополнительных синусоиды могут привести к отчетливо улучшенным результатам во время тональных сегментов. Амплитуды синусоид A_i могут квантоваться и передаваться в декодер 8. Позиции k_i синусоид также могут передаваться. Кроме того, декодеру 8 может сообщаться о том, что текущий кадр является тональным.

Было замечено, что во время тональных сегментов второй масштабный коэффициент α₂ не может улучшить качество и, следовательно, может быть исключен.

Когда обнаруживается чисто тональный сегмент (68), известно, что текущий сегмент требует особых усилий для кодирования высокочастотной области. Поэтому добавление только синусоид может быть недостаточным. Качество может быть дополнительно улучшено повышением точности кодирования высоких частот. Это может быть выполнено добавлением числа полос, используемых для создания высокочастотной области.

Во время чисто тональных сегментов субполосы высоких частот остаются очень похожими от одного кадра до другого. Чтобы сохранить это сходство также и в кодированном сигнале, могут быть применены специальные действия. Особенно, если число субполос высоких частот n_b относительно мало (то есть 8 или менее), оно может быть увеличено до больших значений. Например, 16 субполос высоких частот обычно обеспечивают характеристику, которая является более точной.

В дополнение к большему числу полос может добавляться также большее число синусоид. Вообще, хорошее решение заключается в том, чтобы использовать в два раза больше синусоид, чем во время "обычных" тональных сегментов.

Увеличение числа субполос высоких частот, так же как увеличение числа синусоид, легко удваивает скорость передачи битов чисто тональных сегментов по сравнению с "обычными" кадрами. Однако чисто тональные сегменты являются очень частным случаем и появляются очень редко, поэтому увеличение средней скорости передачи битов является очень малым.

1. Способ кодирования звуковых сигналов, в котором
принимают входной звуковой сигнал,
разделяют звуковой сигнал, по меньшей мере, на полосу низких частот и полосу высоких частот,
разделяют полосу высоких частот, по меньшей мере, на два сигнала субполос высоких частот,
определяют меру сходства между элементами сигнала полосы низких частот и сигналами субполос высоких частот посредством сравнения отсчетов сигнала низких частот с субполосами высоких частот принятого входного звукового сигнала,
квантуют и кодируют сегменты сигнала полосы низких частот,
формируют параметры на основе, по меньшей мере, тех сегментов сигнала полосы низких частот, которые характеризуются наивысшей мерой сходства, для транспонирования сегментов сигнала полосы низких частот на высокие частоты, чтобы восстановить субполосы высоких частот,
разделяют входной сигнал на последовательные во времени кадры,
обнаруживают тональные сегменты в пределах, по меньшей мере, двух последовательных кадров во входном сигнале,
добавляют параметр, представляющий позицию и амплитуду, по меньшей мере, одной синусоиды, к параметрам тональных сегментов и
создают битовый поток с использованием кодированных сегментов сигнала низких частот и указанных параметров.

2. Способ по п.1, отличающийся тем, что формирование параметров дополнительно включает формирование, по меньшей мере, одного масштабного коэффициента для масштабирования сегментов сигнала полосы низких частот.

3. Способ по п.2, отличающийся тем, что масштабный коэффициент рассчитывают так, чтобы огибающая сегментов сигнала низких частот, транспонируемых в сигналы субполос высоких частот с использованием указанных параметров, повторяла огибающую сигнала субполосы высоких частот принимаемого сигнала.

4. Способ по п.2, отличающийся тем, что формирование масштабных коэффициентов включает формирование масштабных коэффициентов в линейной области для обеспечения соответствия, по меньшей мере, пиков амплитуды в спектре.

5. Способ по п.2, отличающийся тем, что формирование масштабных коэффициентов включает формирование масштабных коэффициентов в логарифмической области для обеспечения соответствия, по меньшей мере, энергии и/или формы спектра.

6. Способ по п.1, отличающийся тем, что формирование параметров включает формирование ссылок на те сегменты сигнала низких частот, которые представляют соответствующие сигналы субполос высоких частот.

7. Способ по п.1, отличающийся тем, что определение в сигнале полосы низких частот сегментов, которые лучше всего соответствуют сигналам субполос высоких частот, включает использование, по меньшей мере, одного из следующего:
а) нормализованной корреляции,
б) евклидова расстояния.

8. Способ по п.1, отличающийся тем, что, по меньшей мере, отсчеты сегментов сигнала низких частот формируют с использованием модифицированного дискретного косинусного преобразования.

9. Способ по п.1, дополнительно включающий нормализацию огибающей сигналов субполос высоких частот.

10. Способ по п.2, дополнительно включающий квантование отсчетов сигнала низких частот и квантование, по меньшей мере, масштабных коэффициентов.

11. Способ по п.1, отличающийся тем, что обнаружение тональных сегментов включает использование сдвинутого дискретного преобразования Фурье.

12. Способ по п.11, дополнительно включающий увеличение числа субполос высоких частот для тональных сегментов.

13. Способ декодирования звуковых сигналов, в котором
принимают кодированный битовый поток,
декодируют из битового потока, по меньшей мере, сигнал низких частот и, по меньшей мере, параметры, основанные на сегментах сигнала низких частот и представляющие позицию и амплитуду, по меньшей мере, одной синусоиды, при этом указанные параметры основаны, по меньшей мере, на тех сегментах сигнала полосы низких частот, которые характеризуются наивысшей мерой сходства, для транспонирования сегментов полосы низких частот на высокие частоты, чтобы восстановить субполосы высоких частот,
используют отсчеты сигнала низких частот и параметры, основанные на сегментах сигнала низких частот и представляющие позиции и амплитуды синусоид, для восстановления, по меньшей мере, двух сигналов субполос высоких частот, и
выводят выходной сигнал, содержащий, по меньшей мере, сигнал низких частот и, по меньшей мере, два сигнала субполос высоких частот, причем указанные, по меньшей мере, два сигнада субполос высоких частот восстанавливают из декодированных сигналаов низких частот и указанных параметров.

14. Кодер для кодирования звуковых сигналов, содержащий
средства приема, приспособленные для приема входного звукового сигнала,
средства фильтрации, приспособленные для разделения звукового сигнала, по меньшей мере, на полосу низких частот и полосу высоких частот, для разделения полосы высоких частот, по меньшей мере, на два сигнала субполос высоких частот и, кроме того, приспособленные для разделения входного сигнала на последовательные во времени кадры, для обнаружения тональных сегментов в пределах, по меньшей мере, двух последовательных кадров во входом сигнале, и
кодирующие средства, приспособленные для определения меры сходства между сегментами сигнала полосы низких частот и сигналами субполос высоких частот посредством сравнения отсчетов сигнала низких частот с субполосами высоких частот принимаемого входного звукового сигнала, для формирования параметров на основе, по меньшей мере, тех сегментов сигнала полосы низких частот, которые характеризуются наивысшей мерой сходства, для транспонирования сегментов сигнала полосы низких частот на высокие частоты, чтобы восстановить субполосы высоких частот, и для добавления параметра, представляющего позицию и амплитуду, по меньшей мере, одной синусоиды, к параметрам тональных сегментов,
при этом кодирующие средства также приспособлены для квантования и кодирования сегментов сигнала полосы низких частот, и
средства вывода для создания битового потока с использованием кодированных сегментов сигнала низких частот и указанных параметров.

15. Кодер по п.14, отличающийся тем, что средства кодирования приспособлены для генерирования, по меньшей мере, одного масштабного коэффициента, чтобы масштабировать сегменты сигнала полосы низких частот.

16. Кодер по п.14, отличающийся тем, что средства кодирования приспособлены для формирования масштабного коэффициента так, чтобы огибающая сегментов сигнала низких частот, транспонируемых в сигналы субполос высоких частот с использованием указанных параметров, повторяла огибающую сигналов субполос высоких частот принимаемого сигнала.

17. Кодер по п.14, отличающийся тем, что средства фильтрации приспособлены для обнаружения тональных сегментов с использованием сдвинутого дискретного преобразования Фурье.

18. Кодер по п.14, отличающийся тем, что средства кодирования приспособлены для увеличения числа субполос высоких частот для тональных сегментов.

19. Декодер для декодирования звуковых сигналов, содержащий
приемные средства, приспособленные для приема кодированного битового потока,
декодирующие средства, приспособленные для декодирования из битового потока, по меньшей мере, сигнала низких частот и, по меньшей мере, параметров, основанных на сегментах сигнала низких частот и представляющих позицию и амплитуду, по меньшей мере, одной синусоиды, причем параметры основаны, по меньшей мере, на тех сегментах сигнала полосы низких частот, которые характеризуются наивысшей мерой сходства, для транспонирования сегментов сигнала полосы низких частот на высокие частоты, чтобы восстановить субполосы высоких частот,
средства генерации, приспособленные для использования отсчетов сигнала низких частот и параметров, основанных на сегментах сигнала низких частот и представляющих позиции и амплитуды синусоид, для восстановления, по меньшей мере, двух сигналов субполос высоких частот, причем указанные, по меньше мере, два сигнала субполос высоких частот восстанавливают из декодированных сигналов низких частот и указанных параметров.

20. Система для сжатия цифровых звуковых сигналов, содержащая декодер по п.19 и кодер по п.14.

Изобретение относится к распознаванию речи. .

Способ и устройство для улучшения речи с помощью нескольких датчиков // 2389086

Изобретение относится к понижению шума, в частности к удалению шума из речевых сигналов. .

Способ и устройство для кодирования речевых сигналов с расщеплением полосы // 2386179

Изобретение относится к обработке широкополосных речевых сигналов. .

Системы, способы и устройство широкополосного речевого кодирования // 2381572

Изобретение относится к обработке широкополосных речевых сигналов. .

Синтезирование монофонического звукового сигнала на основе кодированного многоканального звукового сигнала // 2381571

Изобретение относится к способу синтезирования монофонического звукового сигнала на основе имеющегося кодированного многоканального звукового сигнала. .

Способ многосенсорного улучшения речи на мобильном ручном устройстве и мобильное ручное устройство // 2376722

Изобретение относится к удалению шума из сигналов речи, принятых мобильными ручными устройствами. .

Способ и устройство для повышения разборчивости речи с использованием нескольких датчиков // 2373584

Изобретение относится к устранению шума из речевых сигналов. .

Система и способ обработки звукового сигнала // 2347282

Изобретение относится к цифровой обработке аудиосигнала. .

Способ и устройство для улучшения речевого сигнала в присутствии фонового шума // 2329550

Изобретение относится к технике улучшения речевых сигналов для улучшения связи в присутствии фонового шума. .

Способ и устройство для частотно-избирательного выделения основного тона синтезированной речи // 2327230

Изобретение относится к способу и устройству для последующей обработки декодированного звукового сигнала, причем декодированный звуковой сигнал делят на совокупность сигналов частотных поддиапазонов и последующую обработку применяют к, по меньшей мере, одному из совокупности сигналов частотных поддиапазонов.

Улучшение разборчивости речи в мобильном коммуникационном устройстве путем управления работой вибратора в зависимости от фонового шума // 2411595

Изобретение относится к мобильным коммуникационным устройствам, в частности, имеющим средства для улучшения разборчивости выводимых ими аудиосигналов в присутствии внешнего шума

Выделение сигнала вслепую // 2417460

Изобретение относится к адаптивным способам выделения по меньшей мере одного искомого электромагнитного, звукового или любого другого сигнала и подавления других шумовых сигналов или помех с целью получения улучшенного сигнала, выделяемого из микшированной совокупности сигналов

Системы и способы динамической нормализации для уменьшения потери точности для сигналов с низким уровнем // 2419172

Изобретение относится к технологии обработки сигналов

Повышение качества речи с использованием множества датчиков с помощью модели состояний речи // 2420813

Изобретение относится к распознаванию и передаче речи, в частности к способам и устройствам для определения правдоподобия состояния речи на основании сигнала альтернативного датчика и сигнала микрофона, основанного на принципе воздушной проводимости

Системы, способы и устройство для ограничения коэффициента усиления // 2420817

Изобретение относится к кодированию речи

Расчет и регулировка воспринимаемой громкости и/или воспринимаемого спектрального баланса звукового сигнала // 2426180

Изобретение относится к обработке звуковых сигналов, относящейся к измерению и регулированию воспринимаемой громкости звука и/или воспринимаемого спектрального баланса звукового сигнала

Обработка звуковых сигналов с использованием анализа слуховой сцены и спектральной асимметрии // 2438197

Изобретение относится к обработке звуковых сигналов, в частности к анализу слуховой сцены и спектральной асимметрии

Повышение разборчивости речи в звукозаписи развлекательных программ // 2440627

Изобретение относится к обработке сигналов звукозаписи, в частности к повышению разборчивости звукозаписи развлекательных программ, таких как телевизионная звукозапись

Способ и устройство для обнаружения звуковой активности и классификации звуковых сигналов // 2441286

Устройство и способ расчета параметров расширения полосы пропускания посредством управления фреймами наклона спектра // 2443028

Изобретение относится к области кодирования и декодирования звука, в частности, с расширением диапазона рабочих частот (BWE)