Система компандирования и способ для снижения шума квантования с использованием усовершенствованного спектрального расширения

Авторы патента:

ШУГ Михель (DE)

БИСВАС Ариджит (DE)

ХЕДЕЛИН Пер (SE)

МЕЛКОТЕ Винай (US)

G10L21/0232 - Обработка сигналов речи для получения иного слышимого или неслышимого сигнала, например визуального, осязаемого, для того, чтобы модифицировать их качество или их разборчивость (G10L 19/00 имеет преимущество)

Владельцы патента RU 2712814:

ДОЛБИ ЛАБОРАТОРИС ЛАЙСЭНЗИН КОРПОРЕЙШН (US)
ДОЛБИ ИНТЕРНЕШНЛ АБ (NL)

Изобретение относится к вычислительной технике. Технический результат заключается в снижении шума квантования. Способ распаковки звукового сигнала содержит этапы: приема звукового сигнала; и распаковки звукового сигнала в расширенный динамический диапазон посредством процесса распаковки, включающего: деление принятого звукового сигнала на совокупность сегментов, вычисление коэффициента усиления для каждого сегмента с использованием основанного не на энергии среднего значения представления звукового сигнала в частотной области и применение коэффициента усиления для каждого соответствующего сегмента с целью получения расширенного динамического диапазона звукового сигнала, причем применение коэффициента усиления усиливает сегменты с относительно высокой интенсивностью и ослабляет сегменты с относительно низкой интенсивностью. 4 н. и 17 з.п. ф-лы, 8 ил.

ПЕРЕКРЕСТНАЯ ССЫЛКА НА РОДСТВЕННЫЕ ЗАЯВКИ

[0001] Заявка испрашивает приоритет согласно предварительной заявке на патент США №61/809028, поданной 5 апреля 2013 года, и предварительной заявке на патент США №61/877167, поданной 12 сентября 2013 года, содержание которых во всей полноте включено в настоящую заявку посредством ссылки.

ОБЛАСТЬ ТЕХНИКИ, К КОТОРОЙ ОТНОСИТСЯ ИЗОБРЕТЕНИЕ

[0002] Один или несколько вариантов относятся в целом к обработке звуковых сигналов, а более конкретно к снижению шума кодирования в аудиокодеках, использующих способы упаковки/распаковки (компандирования).

ПРЕДПОСЫЛКИ СОЗДАНИЯ ИЗОБРЕТЕНИЯ

[0003] Многие популярные цифровые звуковые форматы используют способы упаковки с потерями данных, которые отбрасывают некоторые данные для снижения технических требований к памяти или скорости передачи данных. Применение упаковки с потерями данных не только снижает точность исходного содержимого (например, звукового содержимого), но оно также может внести заметные искажения в виде артефактов упаковки. В контексте звуковых систем кодирования, эти артефакты звука называются шумом кодирования или шумом квантования.

[0004] Цифровые звуковые системы используют кодеки (кодирующие-декодирующие компоненты) для упаковки и распаковки аудиоданных в соответствии с определенным форматом файла звукозаписи или аудиоформатом потокового мультимедиа. Кодеки реализуют алгоритмы, которые пытаются представлять звуковой сигнал посредством минимального числа битов, сохраняя такую высокую точность, насколько это возможно. Технологии упаковки с потерями, как правило, используют в аудиокодеках, работающих по принципу психоакустической модели слухового восприятия человека. Аудиоформаты обычно включают использование преобразования во временной/частотной области (например, модифицированного дискретного косинусного преобразования - MDCT), а также использование таких маскирующих эффектов, как частотная маскировка или временная маскировка, таким образом, чтобы определенные звуки, включая любые явные шумы квантования, скрывались либо маскировались фактическим содержимым.

[0005] Большинство звуковых систем кодирования основаны на кадровом представлении. Аудиокодеки в норме формируют в пределах кадра шум кодирования в частотной области таким образом, что он становится менее слышимым. Несколько существующих цифровых аудиоформатов используют кадры настолько большой длительности, что кадр может содержать звуки нескольких разных уровней или интенсивностей. Так как шум кодирования обычно является стационарным в отношении уровня на протяжении выделения кадра, то шум кодирования может быть наиболее слышим в течение частей кадра с низкой интенсивностью. Такой эффект может проявляться в виде искажения - опережающего эха, при котором тишина (или сигнал низкого уровня) предшествующего сегмента с высокой интенсивностью переполнен шумом в декодированном звуковом сигнале. Такой эффект может быть наиболее заметным в кратковременных звуках или импульсах от ударных инструментов, таких как кастаньеты или другие источники резких ударных звуков. Такое искажение, как правило, обусловлено шумом квантования, вносимого в частотной области, который распространяется по всему окну преобразования кодека во временной области.

[0006] Существующие меры по избеганию или сведению к минимуму артефактов предварительного эха включают использование фильтров. Такие фильтры, тем не менее, вызывают фазовые искажения и временную размытость. Другое возможное решение включает использование меньших окон преобразования, однако этот подход может значительно уменьшить частотное разрешение.

[0007] Не следует полагать, что предмет изобретения, обсуждаемый в разделе предпосылок создания изобретения, является известным уровнем техники только в результате его упоминания в разделе предпосылок создания изобретения. Аналогично, не следует полагать, что проблема, упоминаемая в разделе предпосылок создания изобретения или связанная с предметом изобретения в разделе предпосылок создания изобретения, является ранее признанной в известном уровне техники. Предмет изобретения в разделе предпосылок создания изобретения лишь представляет различные подходы, которые сами по себе также могут представлять собой изобретения.

КРАТКОЕ ОПИСАНИЕ ВАРИАНТОВ ОСУЩЕСТВЛЕНИЯ

[0008] Варианты осуществления направлены на способ обработки принятого звукового сигнала путем распаковки звукового сигнала в расширенный динамический диапазон с помощью процесса, который включает деление принятого звукового сигнала на совокупность временных сегментов с использованием определенной формы окна, вычисление коэффициента усиления в широкой полоске частот для каждого временного сегмента в частотной области с использованием основанного не на энергии среднего значения представления звукового сигнала в частотной области и применение коэффициента усиления к каждому временному сегменту для получения распакованного звукового сигнала. Значения коэффициента усиления в широкой полосе частот, применяемые к каждому временному сегменту, выбирают таким образом, чтобы получить эффект усиления сегментов с относительно высокой интенсивностью и ослабления сегментов с относительно низкой интенсивностью. Для данного способа принятый звуковой сигнал содержит исходный звуковой сигнал, который был упакован из исходного динамического диапазона с помощью процесса упаковки, включающего деление исходного звукового сигнала на совокупность временных сегментов с использованием определенной формы окна, вычисление коэффициента усиления в широкой полосе частот в частотной области с использованием основанного не на энергии среднего значения дискретных значений частотной области исходного звукового сигнала и применение коэффициента усиления в широкой полосе частот к исходному звуковому сигналу. В процессе упаковки значения коэффициентов усиления в широкой полосе частот, применяемые к каждому временному сегменту, выбирают таким образом, чтобы получить эффект усиления сегментов с относительно низкой интенсивностью и ослабления сегментов с относительно высокой интенсивностью. Процесс распаковки выполняют с возможностью восстановления, по существу, динамического диапазона первоначального звукового сигнала, а коэффициент усиления в широкой полосе частот в процессе распаковки может быть, по существу, обратным коэффициенту усиления в широкой полосе частот в процессе упаковки.

[0009] В системе, которая реализует способ обработки принятого звукового сигнала с помощью процесса распаковки, может применяться компонент банка фильтров для анализа звукового сигнала с целью получения его представления в частотной области, а определенная форма окна для сегментации на совокупность временных сегментов может быть такой же, как у фильтра-прототипа для банка фильтров. Кроме того, в системе, которая реализует способ обработки принятого звукового сигнала с помощью процесса упаковки, может быть применен компонент банка фильтров для анализа исходного звукового сигнала с целью получения его представления в частотной области, а определенная форма окна для сегментации на совокупность временных сегментов может быть такой же, как у фильтра-прототипа для банка фильтров. Банк фильтров в любом случае может быть, или банком QMF, или оконным преобразованием Фурье. В данной системе принимаемый сигнал для процесса распаковки получают после модификации упакованного сигнала с помощью аудиокодера, который генерирует битовый поток, и декодера, который декодирует битовый поток. Кодер и декодер могут содержать по меньшей мере часть аудиокодека с преобразованием сигналов. Система может дополнительно содержать компоненты, которые обрабатывают информацию управления, которая принимается через битовый поток и определяет состояние приведения в действие процесса распаковки.

КРАТКОЕ ОПИСАНИЕ ГРАФИЧЕСКИХ МАТЕРИАЛОВ

[0010] На нижеследующих графических материалах подобные ссылочные позиции используются для обозначения подобных элементов. Несмотря на то, что нижеследующие фигуры изображают различные примеры, указанная одна или несколько реализаций не ограничиваются примерами, изображенными на фигурах.

[0011] На фиг. 1 изображена система для упаковки и распаковки звукового сигнала в аудиокодеке с преобразованием сигналов в соответствии с одним из вариантов осуществления.

[0012] На фиг. 2А изображен звуковой сигнал, разделенный на множество коротких временных сегментов в соответствии с одним из вариантов осуществления.

[0013] На фиг. 2В изображен звуковой сигнал фиг. 2А после применения широкополосного усиления к каждому из коротких временных сегментов в соответствии с одним из вариантов осуществления.

[0014] На фиг. 3А представлена блок-схема, иллюстрирующая способ упаковки звукового сигнала в соответствии с одним из вариантов осуществления.

[0015] На фиг. 3В представлена блок-схема, иллюстрирующая способ распаковки звукового сигнала в соответствии с одним из вариантов осуществления.

[0016] На фиг. 4 представлена структурная схема, иллюстрирующая систему для упаковки звукового сигнала в соответствии с одним из вариантов осуществления.

[0017] На фиг. 5 представлена структурная схема, иллюстрирующая систему для распаковки звукового сигнала в соответствии с одним из вариантов осуществления.

[0018] На фиг. 6 изображено деление звукового сигнала на совокупность коротких временных сегментов в соответствии с одним из вариантов осуществления.

ПОДРОБНОЕ ОПИСАНИЕ

[0019] Описаются системы и способы для применения способов компандирования с целью осуществления в аудиокодеке временного формирования шума квантования. Такие варианты осуществления включают использование алгоритма компандирования, реализованного в QMF области для достижения временного формирования шума квантования. Процессы включают управление с помощью кодера требуемым уровнем компандирования с помощью декодера и расширение монофонических приложений до стерео и многоканального компандирования.

[0020] Аспекты одного или нескольких вариантов осуществления изобретения, описанных в данной заявке, могут быть реализованы в звуковой системе, которая обрабатывает звуковые сигналы для передачи по сети, включающей один или несколько компьютеров, или обрабатывающих устройств исполнения программных команд. Любой из описываемых вариантов осуществления изобретения может использоваться отдельно или совместно с любым другим в любом сочетании. Несмотря на то, что разные варианты осуществления изобретения могут быть продиктованы разными недостатками в известном уровне техники, которые могут обсуждаться или упоминаться в одном или нескольких местах данного описания, указанные варианты осуществления изобретения не обязательно нацелены на какой-либо из этих недостатков. Иными словами, разные варианты осуществления изобретения могут быть нацелены на разные недостатки, которые могут обсуждаться в данном описании. Некоторые варианты осуществления изобретения могут лишь частично быть нацеленными на некоторые недостатки или только один недостаток, который может обсуждаться в данном описании, а некоторые варианты осуществления изобретения могут не быть нацеленными ни на один из этих недостатков.

[0021] На фиг. 1 изображена система компандирования для снижения шума квантования в системе обработки звука с кодеком в соответствии с одним из вариантов осуществления. На фиг. 1 изображена система обработки звуковых сигналов, построенная с применением аудиокодека, содержащего кодер (или "основной кодер") 106 и декодер (или "основной декодер") 112. Кодер 106 кодирует звуковое содержимое в потоке данных или в сигнале для передачи по сети 110, где оно декодируется с помощью декодера 112 для воспроизведения или дальнейшей обработки. В одном из вариантов осуществления кодер 106 и декодер 112 кодека реализуют способ упаковки с потерями для снижения требований к памяти и/или скорости передачи цифровых аудиоданных, и такой кодек может быть реализован в виде МР3, Vorbis, Dolby Digital (АС-3), ААС или аналогичного кодека. Способ упаковки с потерями кодека создает шум кодирования, который обычно является стационарным по отношению к уровню на протяжении выделения кадра, определенного посредством кодека. Такой шум кодирования часто является наиболее слышимым во время частей кадра с низкой интенсивностью. Система 100 включает компоненты, которые уменьшают воспринимаемый шум кодирования в существующих системах кодирования, предусматривая компонент 104 предварительного этапа упаковки перед основным кодером 106 кодека и компонент 114 окончательного этапа распаковки, работающий на выходе основного декодера 112. Компонент 104 упаковки способен делить исходный входной звуковой сигнал 102 на совокупность временных сегментов, используя определенную форму окна, вычислять и применять коэффициент усиления в широкой полосе частот в частотной области, используя основанное не на энергии среднее значение дискретных значений частотной области исходного звукового сигнала, причем коэффициенты усиления, применяемые к каждому временному сегменту, усиливают сегменты с относительно низкой интенсивностью и ослабляют сегменты с относительно высокой интенсивностью. Такая модификация усиления имеет эффект упаковки или значительного уменьшения исходного динамического диапазона входного звукового сигнала 102. Затем упакованный звуковой сигнал кодируется в кодере 106, передается по сети 110 и декодируется декодером 112. Декодированный упакованный сигнал подается на вход компонента 114 распаковки, который выполнен с возможностью осуществления операции, обратной операции упаковки предварительного этапа 104 упаковки посредством применения обратных значений коэффициентов усиления для каждого временного сегмента для расширения динамического диапазона упакованного звукового сигнала обратно до исходного динамического диапазона входного звукового сигнала 102. Таким образом, выходной звуковой сигнал 116 содержит звуковой сигнал, имеющий исходный динамический диапазон, с удаленным в предварительном и окончательном этапе процесса компандирования шумом кодирования.

[0022] Как показано на фиг. 1, компонент упаковки или предварительный этап 104 упаковки выполнен с возможностью уменьшения динамического диапазона звукового сигнала 102, подаваемого на основной кодер 106. Входной звуковой сигнал делится на ряд коротких сегментов. Размер или длина каждого короткого сегмента представляет собой часть размера кадра, используемого основным кодером 106. Например, типичный размер кадра основного кодера может быть порядка от 40 до 80 миллисекунд. В этом случае каждый короткий сегмент может быть порядка от 1 до 3 миллисекунд. Компонент 104 упаковки вычисляет соответствующий коэффициент усиления в широкой полосе частот для упаковки входного звукового сигнала на основе посегментной упаковки. Это достигается путем модификации коротких сегментов сигнала с помощью соответствующего коэффициента усиления для каждого сегмента. Относительно большие значения коэффициентов усиления выбирают таким образом, чтобы усиливать сегменты с относительно низкой интенсивностью, а малые значения коэффициентов усиления выбирают таким образом, чтобы ослабить сегменты с высокой интенсивностью.

[0023] На фиг. 2А изображен звуковой сигнал, разделенный на множество коротких временных сегментов в соответствии с одним из вариантов осуществления, а на фиг. 2В изображен тот же звуковой сигнал после применения широкополосного усиления компонентом упаковки. Как показано на фиг. 2А, звуковой сигнал 202 представляет собой кратковременный или такой звуковой импульс, который может быть получен с помощью ударного инструмента (например, кастаньет). Сигнал имеет пик амплитуды, как показано на графике напряжения V в зависимости от времени t. В целом, амплитуда сигнала зависит от акустической энергии или интенсивности звука и представляет собой меру мощности звука в любой момент времени. Когда звуковой сигнал 202 обрабатывается посредством аудиокодека, основанного на кадровом представлении, части сигнала обрабатываются в пределах кадров 204 преобразования (например, MDCT). Типовые существующие цифровые звуковые системы используют кадры относительно большой длительности, так что для резких кратковременных или коротких импульсных звуков один кадр может включать звуки низкой интенсивности, а также высокой интенсивности. Таким образом, как показано на фиг. 1, единственный кадр 204 MDCT содержит импульсную часть (пик) звукового сигнала, а также относительно большое количество сигнала низкой интенсивности до и после пика. В одном из вариантов осуществления компонент 104 упаковки делит сигнал на ряд коротких временных сегментов 206 и применяет широкополосное усиление к каждому сегменту для сжатия динамического диапазона сигнала 202. Количество и размер каждого короткого сегмента могут быть выбраны в зависимости от требований приложений и системных ограничений. По отношению к размеру отдельного кадра MDCT количество коротких сегментов может составлять от 12 до 64 сегментов, и может, как правило, содержать 32 сегмента, но варианты осуществления изобретения не ограничиваются этим.

[0024] На фиг. 2В изображен звуковой сигнал фиг. 2А после применения широкополосного усиления к каждому из коротких временных сегментов в соответствии с одним из вариантов осуществления. Как показано на фиг. 2В, звуковой сигнал 212 имеет такую же относительную форму, что и исходный сигнал 202, однако, амплитуда сегментов с низкой интенсивностью увеличена путем применения коэффициентов усиления, а амплитуда сегментов с высокой интенсивностью уменьшена путем применения ослабляющих коэффициентов усиления.

[0025] Выходным сигналом основного декодера 112 является входной звуковой сигнал с уменьшенным динамическим диапазоном (например, сигнал 212), к которому добавляется шум квантования, внесенный основным кодером 106. Этот шум квантования имеет практически равномерный уровень во времени в пределах каждого кадра. Компонент 114 распаковки действует на декодированный сигнал для восстановления динамического диапазона исходного сигнала. Он использует то же кратковременное разрешение, обусловленное размером 206 короткого сегмента, и инвертирует коэффициенты усиления, применяемые в компоненте 104 упаковки. Таким образом, компонент 114 распаковки применяет малый коэффициент усиления (ослабления) к сегментам, которые в исходном сигнале имели низкую интенсивность и были усилены устройством упаковки данных, и применяет большой коэффициент усиления (усиления) к сегментам, которые в исходном сигнале имели высокую интенсивность и были ослаблены устройством упаковки данных. Шум квантования, добавляемый основным кодером, имеет равномерную временную огибающую и, таким образом, одновременно формируется усилением при окончательной обработке, чтобы приблизительно повторять временную огибающую исходного сигнала. Такая обработка эффективно представляет шум квантования менее слышимым во время тихих отрывков. Хотя шум может быть усилен во время отрывков с высокой интенсивностью, он остается менее слышимым из-за маскирующего эффекта громкого сигнала самого звукового содержимого.

[0026] Как показано на фиг. 2А, процесс компандирования изменяет отдельные сегменты звукового сигнала обособленно с соответствующими коэффициентами усиления. В некоторых случаях это может привести к неоднородностям в выходном сигнале компонента упаковки, что может вызвать проблемы в основном кодере 106. Кроме того, неоднородности при усилении в компоненте 114 распаковки могут привести к разрывам в огибающей формируемого шума, что может привести к слышимым щелчкам в выходном звуковом сигнале 116. Другая проблема, связанная с применением отдельных коэффициентов усиления к коротким сегментам звукового сигнала, обусловлена тем фактом, что типовые звуковые сигналы представляют собой смесь множества отдельных источников. Некоторые из этих источников могут быть установившимися во времени, а некоторые могут быть неустановившимися. Установившийся сигнал обычно постоянен в своих статистических параметрах во времени, тогда как неустановившиеся сигналы обычно не являются постоянными. Учитывая широкополосный характер неустановившихся сигналов, их характерные признаки в такой смеси обычно заметнее на более высоких частотах. Вычисление коэффициента усиления, обусловленного кратковременной энергией (RMS) сигнала, стремится смещаться в сторону более сильных низких частот и, следовательно, преобладают установившиеся источники, и демонстрирует небольшое изменение во времени. Таким образом, подход на основе энергетического принципа в формировании шума, вносимого основным кодером, обычно неэффективен.

[0027] В варианте осуществления изобретения система 100 вычисляет и применяет коэффициент усиления в компонентах упаковки и распаковки в банке фильтров посредством короткого фильтра-прототипа для того, чтобы решить возможные проблемы, связанные с применением отдельных коэффициентов усиления. Для модификации сигнал (исходный сигнал в компоненте 104 упаковки и выходной сигнал основного декодера 112 в компоненте 114 распаковки) сначала анализируется с помощью банка фильтров, а широкополосное усиление применяется непосредственно в частотной области. Соответствующий эффект во временной области состоит в том, чтобы естественно сгладить применение усиления в соответствии с формой фильтра-прототипа. Это устраняет проблемы неоднородностей, описанные выше. Затем модифицированный в частотной области сигнал преобразуется обратно во временную область с помощью соответствующего синтезирующего банка фильтров. Анализ сигнала посредством банка фильтров обеспечивает доступ к его спектральному составу и позволяет выполнять вычисление коэффициента усиления, который преимущественно повышает вклад, приходящийся на высокие частоты (или повышает вклад, приходящийся на любой спектральный состав со слабым сигналом), обеспечивая коэффициенты усиления, в которых не преобладают сильнейшие составляющие в сигнале. Это решает проблему, связанную с источниками звука, которые содержат смесь различных источников, как описано выше. В одном варианте осуществления система вычисляет коэффициент усиления с использованием р-нормы спектральных амплитуд, где р, как правило, меньше, чем 2 (р<2). Это позволяет выделить спектральный состав слабых сигналов по сравнению с основанным на энергетическом принципе (р=2).

[0028] Как указано выше, система включает фильтр-прототип для сглаживания применения усиления. В целом фильтр-прототип является основной формой окна в банке фильтров, который модулируется сигналами синусоидальной формы для получения импульсных характеристик для разных субполосовых фильтров в банке фильтров. Например, оконное преобразование Фурье (STFT) представляет собой банк фильтров, а каждая частота линии этого преобразования является поддиапазоном банка фильтров. Оконное преобразование Фурье осуществляется путем перемножения сигнала с формой окна (окна N-дискретных значений), которое может быть прямоугольным, окном Ханна, производным окном Кайзера-Бесселя (KBD) или какой-либо другой формы. Затем помещенный в окно сигнал подвергают дискретному преобразованию Фурье (DFT) для получения STFT. Форма окна в данном случае является фильтром-прототипом. DFT состоит из синусоидальных базисных функций разных частот. Форма окна, умноженная на синусоидальную функции, затем обеспечивает фильтр для поддиапазона, соответствующего этой частоте. Поскольку форма окна одинакова на всех частотах, ее называют "прототипом".

[0029] В варианте осуществления система использует банк QMF (квадратурных модулированных фильтров) для банка фильтров. В конкретной реализации банк QMF может иметь 64-разрядное окно, которое образует прототип. Это окно, модулируемое косинусной и синусной функциями (соответствующими 64 равномерно расположенным частотам), образует субполосовые фильтры для банка QMF. После каждого применения функции QMF, окно перемещается на 64 дискретных значения, т.е. перекрытие между временными сегментами в этом случае составляет 640-64=576 дискретных значений. Несмотря на то, что, хотя форма окна в данном случае охватывает десять временных сегментов (640=10*64), главный лепесток окна (где величины дискретных значений очень значительны) составляет приблизительно 128 дискретных значений в длину. Таким образом, эффективная длина окна по-прежнему является относительно короткой.

[0030] В одном из вариантов осуществления компонент 114 распаковки в идеальном случае обращает коэффициенты усиления, которые использует компонент 104 упаковки. Хотя возможно передавать коэффициенты усиления, которые использует компонент упаковки, через битовый поток в декодер, такой подход, как правило, расходует значительную скорость передачи данных. В одном из вариантов осуществления система 100 вместо оценки коэффициентов усиления, требуемых компонентом 114 распаковки непосредственно из доступного ему сигнала, т.е. выходного сигнала декодера 112, который по существу не требует дополнительных битов. Банк фильтров в компонентах упаковки и распаковки выбирают таким образом, чтобы они были идентичными для вычисления коэффициентов усиления, которые обратны друг другу. Кроме того, эти банки фильтров синхронизированы по времени, так что любые эффективные запаздывания между выходным сигналом компонента 104 упаковки и входным сигналом компонента 114 распаковки кратны шагу банка фильтров. Если основной кодер-декодер работает без потерь, а банк фильтров обеспечивает идеальное восстановление, то коэффициенты усиления в компонентах упаковки и распаковки будут строго обратны друг другу, что позволяет обеспечить точное восстановление исходного сигнала. На практике, однако, коэффициент усиления, применяемый компонентом 114 распаковки, является только приближением обратного значения коэффициента усиления, применяемого компонентом 104 упаковки.

[0031] В одном из вариантов осуществления банк фильтров, применяемый в компонентах упаковки и распаковки, представляет собой банк QMF. В типовом использовании приложения основной звуковой кадр может иметь длину 4096 дискретных значений с перекрытием в 2048 дискретных значений с соседним кадром. При частоте 48 кГц такой кадр будет иметь длительность 85,3 миллисекунды. В отличие от этого, применяемый банк QMF может иметь шаг 64 дискретных значения (длительность которых составляет 1,3 мс), что обеспечивает прекрасное временное разрешение для коэффициентов усиления. Кроме того, QMF имеет сглаживающий фильтр-прототип, длина которого составляет 640 дискретных значений, обеспечивающий то, что применение усиления плавно изменяется во времени. Анализ посредством банка QMF обеспечивает частотно-временное мозаичное представление сигнала. Каждый временной интервал QMF равен шагу и в каждом временном интервале QMF содержится 64 равномерно распределенных поддиапазона. В альтернативном варианте можно использовать другие банки фильтров, такие как оконное преобразования Фурье (STFT), и такое частотно-временное мозаичное представление по-прежнему может быть получено.

[0032] В одном варианте осуществления компонент 104 упаковки выполняет этап предварительной обработки, который масштабирует входной сигнал кодека. Для данного варианта осуществления S_t(k) является комплексным дискретным значением банка фильтров во временном интервале t и с элементом разрешения по частоте k. На фиг. 6 изображено разделение звукового сигнала на ряд временных интервалов для диапазона частот в соответствии с одним из вариантов осуществления. Для варианта осуществления на диаграмме 600 присутствуют 64 элемента разрешения по частоте k и 32 временных интервала t, которые представляют совокупность частотно-временной мозаики, как показано на диаграмме (хотя и не обязательно вычерчено в масштабе). Предварительный этап упаковки масштабирует входной сигнал кодека, который принимает вид S_t(k)=S_t(k)/g₍. В этом уравнении является нормализованным средним значением интервала.

[0033] В приведенном выше уравнении выражение является средним абсолютным уровнем/первой нормой и S₀ является подходящей константой. Обобщенная р-норма определяется в данном контексте следующим образом:

[0034] Было показано, что первая норма может дать значительно лучшие результаты, чем использование энергии (rms/вторая норма). Значение члена показателя степени γ обычно находится в диапазоне от 0 до 1, и может выбираться равным 1/3. Константа S₀ обеспечивает приемлемые значения коэффициентов усиления независимо от платформы реализации. Например, она может быть равна 1, если реализуется на платформе, где все значения S_t(k) могут ограничиваться 1 по абсолютному значению. Она потенциально может быть другой в платформе, где S_t(k) может иметь отличающееся максимальное абсолютное значение. Она также может быть использована, чтобы убедиться в том, что среднее значение коэффициента большого множества сигналов близко к 1. То есть, она может являться промежуточным значением сигнала между максимальным значением сигнала и минимальным значением сигнала, определенным из большого свода содержимого.

[0035] В процессе заключительного этапа, выполняемого компонентом 114 распаковки, выходной сигнал кодека распаковывается с помощью обратного значения коэффициенту усиления, примененного компонентом 104 упаковки. Это требует точной или почти точной копии банка фильтров компонента упаковки. В этом случае представляет собой комплексное дискретное значение этого второго банка фильтров. Компонент 114 распаковки масштабирует выходной сигнал кодека, который принимает вид

[0036] В приведенном выше уравнении является средним значением нормированного интервала, заданным как:

[0037] В общем случае компонент 114 распаковки будет использовать такую же р-норму, которая используется в компоненте 104 упаковки. Таким образом, если средний абсолютный уровень используется для определения в компоненте 104, упаковки, то также определяется с использованием первой нормы (р=1) в приведенном выше уравнении.

[0038] Когда комплексный банк фильтров (содержащий как косинусную, так и синусную базисные функции), такой как STFT или комплексный QMF, применяется в компонентах упаковки и распаковки, вычисление амплитуды или комплексного дискретного значения поддиапазона требует вычислительно-трудоемкой операции извлечения квадратного корня. Этого можно избежать путем аппроксимации амплитуды комплексного дискретного значения поддиапазона различными способами, например, путем суммирования амплитуды его действительной и мнимой частей.

[0039] В приведенных выше уравнениях значение K меньше или равно количеству поддиапазонов в банке фильтров. В общем случае р-норма может быть вычислена с помощью любого подмножества поддиапазонов в банке фильтров. Однак, такое же подмножество следует использовать как в кодере 106, так и в декодере 112. В одном из вариантов осуществления высокочастотные составляющие (например, звуковые компоненты выше 6 кГц) звукового сигнала могут кодироваться посредством инструментального средства усовершенствованного спектрального расширения (A-SPX). Кроме того, желательно использовать только сигнал выше 1 кГц (или аналогичной частоты) для сопровождения формирования шума. В таком случае только такие поддиапазоны в диапазоне от 1 кГц до 6 кГц могут использоваться для вычисления р-нормы, и, следовательно, коэффициента усиления. Кроме того, хотя коэффициент усиления вычисляется из одного подмножества поддиапазонов, он тем не менее может применяться к другому и, возможно, большему подмножеству поддиапазонов.

[0040] Как показано на фиг. 1, функция компандирования для формирования шума квантования, внесенного основным кодером 106 аудиокодека, выполняется двумя отдельными компонентами 104 и 114, выполняющими функции упаковки предварительным кодером и функции распаковки окончательным декодером. На фиг. 3А представлена блок-схема, иллюстрирующая способ упаковки звукового сигнала в компоненте упаковки предварительным кодером в соответствии с одним из вариантов осуществления, а на фиг. 3В представлена блок-схема, иллюстрирующая способ распаковки звукового сигнала в компоненте распаковки окончательным декодером в соответствии с одним из вариантов осуществления.

[0041] Как показано на фиг. 3А, процесс 300 начинается с приема компонентом упаковки входного звукового сигнала (302). Затем этот компонент делит звуковой сигнал на короткие временные сегменты (304) и упаковывает звуковой сигнал для уменьшения динамического диапазона посредством применения коэффициента усиления в широкой полосе частот для каждого из коротких сегментов (306). Компонент упаковки также реализует определенную прототипную фильтрацию и компоненты банка QMF для уменьшения или исключения любых неоднородностей, вызванных применением различных значений коэффициента усиления для смежных сегментов, как описано выше (308). В некоторых случаях, обусловленных типом звукового содержимого или определенными характеристиками звукового содержимого, упаковка и распаковка звукового сигнала до и после этапов кодирования/декодирования аудиокодека может ухудшить, а не улучшить качество выходного звука. В таких случаях, процесс компандирования может быть отключен или модифицирован для повторного компандирования (упаковки/распаковки) с разными уровнями. Таким образом, компонент упаковки наряду с другими переменными (310) определяет целесообразность функции компандирования и/или оптимальный уровень компандирования, требуемый для конкретного входного сигнала и среды звуковоспроизведения. Данный этап 310 определения может произойти в любой практической точке процесса 300, например, до разделения звукового сигнала 304 или упаковки звукового сигнала 306. Если компандирование будет сочтено целесообразным, то применяются коэффициенты усиления (306), а затем кодер кодирует сигнал для передачи в декодер в соответствии с форматом данных кодека (312). Определенные данные управления компандированием, такие как данные приведения в действие, данные синхронизации, данные уровня компандирования и другие подобные данные управления, могут быть переданы как часть битового потока для обработки компонентом распаковки.

[0042] На фиг. 3В представлена блок-схема, иллюстрирующая способ распаковки звукового сигнала в компоненте распаковки окончательным декодером в соответствии с одним из вариантов осуществления. Как показано в процессе 350, звено декодера кодека получает битовый поток кодированного звукового сигнала от звена кодера (352). Затем декодер декодирует кодированный сигнал в соответствии с форматом (353) данных кодека. Затем компонент распаковки обрабатывает битовый поток и применяет любые кодированные данные управления для отключения распаковки или изменения параметров распаковки на основании данных (354) управления. Компонент распаковки с использованием подходящей формы (356) окна делит звуковой сигнал на временные сегменты. В одном из вариантов осуществления изобретения временные сегменты соответствуют таким же временным сегментам, используемым в компоненте упаковки. Затем компонент распаковки вычисляет соответствующие коэффициенты усиления для каждого сегмента в частотной области (358) и применяет коэффициенты усиления для каждого временного сегмента для расширения динамического диапазона звукового сигнала обратно к исходному динамическому диапазону или любому другому соответствующему динамическому диапазону (360).

Управление компандированием

[0043] Компоненты упаковки и распаковки, содержащие компандер системы 100, могут быть выполнены с возможностью применения предварительных и окончательных этапов обработки только в определенное время в течение обработки звукового сигнала или только для определенных типов звукового содержимого. Например, компандирование может демонстрировать преимущества для речи и музыкальных неустановившихся сигналов. Однако для других сигналов, таких как установившиеся сигналы, компандирование может ухудшить качество сигнала. Таким образом, как показано на фиг. 3А, механизм управления компандированием предусмотрен в блоке 310, и данные управления передаются от компонента 104 упаковки к компоненту 114 распаковки для согласования операции компандирования. Простейшей формой такого механизма управления является отключение функции компандирования для блоков звуковых дискретных значений, в которых применение компандирования ухудшает качество звука. В одном из вариантов осуществления решение о включении/выключении компандирования выявляется в кодере и передается в виде элемента битового потока в декодер таким образом, что устройство упаковки данных и расширитель динамического диапазона могут быть включены/выключены в том же временном интервале QMF.

[0044] Переключение между двумя состояниями обычно приводит к неоднородности в применяемом усилении, приводящем к слышимым искажениям переключения или щелчкам. Варианты осуществления изобретения включают механизмы по сокращению или устранению таких искажений. В первом варианте осуществления система позволяет включать и выключать функцию компандирования только в кадрах, где коэффициент усиления близок к 1. В этом случае присутствует только небольшая неоднородность между включением и выключением функции компандирования. Во втором варианте осуществления третий режим ослабленного компандирования, который является промежуточным между включенным и выключенным режимом, применяется в звуковом кадре в промежутке между кадрами с включенным и выключенным режимом и сигнализируется в потоке битов. Режим ослабленного компандирования медленно переводит член показателя степени γ от значения по умолчанию во время компандирования до 0, что эквивалентно отсутствию компандирования. В качестве альтернативы к промежуточному режиму ослабленного компандирования система может внедрять начальные кадры и конечные кадры, которые на протяжении блока звуковых дискретных значений плавно переходят в режим без компандирования вместо внезапного выключения функции компандирования. В другом варианте осуществления система выполнена с возможностью не просто выключать компандирование, а применять средний коэффициент усиления. В определенных случаях качество звука тонального-стационарных сигналов может быть увеличено, если применяется постоянный коэффициент усиления к звуковому кадру, который более подобен коэффициентам усиления смежных кадров с включенным компандированием, чем постоянный коэффициент усиления 1,0 в случае выключенного компандирования. Такой коэффициент усиления может вычисляться путем усреднения всех коэффициентов усиления компандирования на протяжении одного кадра. Кадр, содержащий постоянный средний коэффициент усиления компандирования является, таким образом, сигнальным в битовом потоке.

[0045] Хотя варианты осуществления описываются в контексте монофонического звукового канала, следует отметить, что в эффективном программном расширении могут быть обработаны несколько каналов путем повторения данного подхода отдельно для каждого канала. Однако звуковые сигналы, которые содержат два или несколько каналов, преподносят определенные дополнительные сложности, которым уделяется внимание в вариантах осуществления системы компандирования на фиг. 1. Стратегия компандирования должна зависеть от подобия между каналами.

[0046] Например, в случае стерео-панорамированных неустановившихся сигналов было обнаружено, что независимость компандирования отдельных каналов может привести к слышимым искажениям. В одном из вариантов осуществления система определяет единственное значение коэффициента усиления для каждого временного сегмента из дискретных значений поддиапазонов обоих каналов и использует такой же коэффициент усиления для упаковки/распаковки двух сигналов. Этот подход обычно подходит всегда, когда эти два канала имеют очень схожие сигналы, при этом подобие определяется, например, с помощью взаимной корреляции. Детектор вычисляет подобие между каналами и переключает между использованием отдельного компандирования каналов или совместного компандирования каналов. Программные расширения для большего количества каналов будут делить каналы на группы каналов с использованием критериев подобия и применять совместное компандирование по группам. Эта сгруппированная информация может передаваться через битовый поток.

Реализация системы

[0047] На фиг. 4 представлена структурная схема, иллюстрирующая систему для упаковки звукового сигнала в сочетании с кодирующим звеном кодека в соответствии с одним из вариантов осуществления изобретения. На фиг. 4 изображена аппаратная схема или система, которая реализует по меньшей мере часть способа упаковки для использования в системе на основе кодека, показанного на фиг. 3А. Как показано в системе 400, входной звуковой сигнал 401 во временной области является входным сигналом банка 402 QMF. Данный банк фильтров выполняет операцию анализа, которая делит входной сигнал на несколько компонентов, в которых каждый полосовой фильтр пропускает частотный поддиапазон исходного сигнала. Восстановление сигнала выполняется в операции синтеза, выполняемой банком 410 QMF. В примерном варианте осуществления на фиг. 4, как анализирующие, так и синтезирующие банки фильтров обрабатывают 64 диапазона. Основной кодер 412 принимает звуковой сигнал от синтезирующего банка 410 фильтров и генерирует битовый поток 414 путем кодирования звукового сигнала в соответствующий цифровой формат (например, МР3, ААС и т.д.).

[0048] Система 400 включает устройство 406 упаковки данных, которое применяет коэффициенты усиления для каждого из коротких сегментов, на которые был разделен звуковой сигнал. Это вызывает сжатие динамического диапазона звукового сигнала, например, как показано на фиг. 2В. Блок 404 управления компандированием анализирует звуковой сигнал для определения, насколько следует применять упаковку в зависимости от типа сигнала (например, речевой сигнал), или характеристик сигнала (например, установившегося в сопоставлении с неустановившимся), или других соответствующих параметров. Блок 404 управления может включать механизм обнаружения для обнаружения временной характеристики неравномерности звукового сигнала. На основании выявленной характеристики звукового сигнала и некоторых предопределенных критериев блок 404 управления передает соответствующие сигналы управления на устройство 406 упаковки данных, чтобы либо выключить функцию упаковки, либо изменить коэффициент усиления, применяемый к коротким сегментам.

[0049] В дополнение к компандированию в области QMF также могут работать многие другие инструментальные средства кодирования. Одним из таких инструментальных средств является A-SPX (усовершенствованное спектральное расширение), которое показано в блоке 408 на фиг. 4. A-SPX является техническим средством, которое используется для обеспечения того, чтобы менее важные для восприятия частоты кодировались посредством алгоритма кодирования с меньшей точностью, чем более важные частоты. Например, в A-SPX на стороне декодера дискретные значения поддиапазонов QMF более низкой частоты могут быть воспроизведены на более высоких частотах, а спектральную огибающую в диапазоне высоких частот затем формируют с помощью вспомогательной информации, передаваемой от кодера к декодеру.

[0050] В системе, где выполняются и компандирование, и A-SPX в области QMF в кодере, данные огибающей A-SPX для более высоких частот могут быть извлечены из еще неупакованных дискретных значений поддиапазонов, как показано на фиг. 4, а упаковка может быть применена только к дискретным значениям QMF с более низкими частотами, которые соответствуют диапазону частот сигнала, закодированного основным кодером 412. В декодере 502 на фиг. 5, после анализа 504 QMF декодированного сигнала сначала применяется процесс 506 распаковки, а операция 508 A-SPX затем воспроизводит дискретные значения высших поддиапазонов из распакованного сигнала на более низких частотах.

[0051] В данном примере реализации, синтезирующий банк 410 QMF в кодере и анализирующий банк QMF в декодере 504 вместе вносят 640 - 64 + 1 дискретных значений задержки (~9 интервалов QMF). Задержка основного кодека в этом примере составляет 3200 дискретных значений (50 интервалов QMF), так что общая задержка составляет 59 интервалов. Данная задержка объясняется встраиванием в битовый поток данных управления и применением их в декодере, таким образом, что операции и кодирующего устройства упаковки данных, и декодирующего расширителя динамического диапазона синхронизированы.

[0052] Кроме того, в кодере упаковка может быть применена во всей полосе пропускания исходного сигнала. Данные огибающей A-SPX впоследствии могут быть извлечены из упакованных дискретных значений поддиапазонов. В таком случае после анализа QMF декодер сначала запускает инструментальное средство A-SPX для восстановления сначала полной полосы пропускания упакованного сигнала. Затем для восстановления сигнала с его исходным динамическим диапазоном применяют звено распаковки.

[0053] Еще одно инструментальное средство, которое может работать в области QMF может быть усовершенствованным инструментальным средством соединений (АС) (не показанным) на фиг. 4. В усовершенствованной системе соединений два канала кодируется как монофонические с понижающим микшированием и дополнительной параметрической пространственной информацией, которая может быть применена в области QMF в декодере для восстановления стереофонического выходного сигнала. Когда используются АС и компандирование в сочетании друг с другом, инструментальное средство АС может быть размещено после звена 406 упаковки в кодере, и в этом случае его применяют до звена 506 распаковки в декодере. В качестве альтернативы дополнительная информация АС может быть извлечена из неупакованного стереофонического сигнала, в этом случае инструментальное средство АС будет функционировать после звена 506 распаковки в декодере. Также может поддерживаться гибридный режим АС, в котором АС применяется выше определенной частоты, а дискретная стереофония используется ниже этой частоты; или в альтернативном варианте дискретная стереофония используется выше определенной частоты, а АС используется ниже этой частоты.

[0054] Как показано на фиг. 3А и 3В, битовый поток, передаваемый между звеном кодера и звеном декодера кодека, включает определенные данные управления. Такие данные управления составляют дополнительную информацию, которая позволяет системе переключаться между разными режимами компандирования. Данные управления переключением (для включения/выключения компандирования), к которым добавляются возможные некоторые промежуточные состояния, могут добавить порядка 1 или 2 бит на канал. Другие данные управления могут включать сигнал, чтобы определять, будут ли все каналы дискретной стереофонии или многоканальной конфигурации использовать общие коэффициенты усиления компандирования, или их следует рассчитывать отдельно для каждого канала. Такие данные могут потребовать только один дополнительный бит на канал. Другие аналогичные элементы данных управления и их соответствующие битовые весовые коэффициенты могут использоваться в зависимости от системных требований и ограничений.

Механизм обнаружения

[0055] В одном из вариантов осуществления механизм управления компандированием включен в виде части компонента 104 упаковки для обеспечения управления компандированием в области QMF. Управления компандированием может выполняться на основе ряда факторов, таких как тип звукового сигнала. Например, в большинстве приложений компандирование должно быть включено для речевых сигналов и неустановившихся сигналов или других сигналов в пределах класса временных сигналов с пиками. Система включает механизм обнаружения для обнаружения неравномерности сигнала с целью содействия генерированию соответствующего сигнала управления для работы компандера.

[0056] В одном из вариантов осуществления мера для временной неравномерности вычисляется по элементу разрешения по частоте k для заданного основного кодека и рассчитывается по следующей формуле:

[0057] В приведенном выше уравнении S_t(k) является сигналом поддиапазона, и Т является количеством интервалов QMF, соответствующих одному кадру основного кодера. В примерной реализации значение T может составлять 32. Временная неравномерность, вычисленная на каждом диапазоне, может применяться для классификации звукового содержимого на две главных категории: установившиеся музыкальные сигналы и музыкальные неустановившиеся сигналы или речевые сигналы. Если значение меньше, чем заданное значение (например, 1,2), сигнал в этом поддиапазоне кадра, вероятно, является установившимся музыкальным сигналом. Если значение больше, чем это значение, то сигнал, вероятно, является музыкальным неустановившимся сигналов или речевым сигналом. Если значение больше, чем гораздо более высокое пороговое значение (например, 1,6), сигнал, скорее всего, будет чисто музыкальным неустановившимся сигналом, например, кастаньетами. Кроме того, замечено, что для сигналов естественного происхождения значения временной неравномерности, полученные в разных диапазонах, были более или менее подобны, и эта характеристика может быть использована для уменьшения количества поддиапазонов, для которых значение временной неравномерности должно рассчитываться. Основываясь на этом наблюдении, система может реализовать одно из следующего.

[0058] В первом варианте осуществления детектор выполняет следующий процесс. В качестве первого этапа он вычисляет количество диапазонов, которые имеют временную неравномерность больше, чем 1,6. В качестве второго этапа он вычисляет среднее значение временной неравномерности диапазонов, где она менее 1,6. Если количество диапазонов, обнаруженных на первом этапе больше 51, или, если среднее значение, определенное на втором этапе больше, чем 1,45, сигнал определяется как музыкальный неустановившийся сигнал и, следовательно, компандирование должно быть включено. В противном случае сигнал определяется как такой, для которого компандирование не должно быть включено. Такой детектор будет выключать большую часть времени для речевых сигналов. В некоторых вариантах осуществления, как правило, речевые сигналы будут кодированы с помощью отдельного речевого кодера, и поэтому это обычно не является проблемой. Тем не менее в некоторых случаях желательно включать функцию компандирования также и для речи. В этом случае может быть предпочтительным второй тип детектора.

[0059] В одном из вариантов осуществления данный второй тип детектора выполняет следующий процесс. В качестве первого этапа он вычисляет количество диапазонов, которые имеют временную неравномерность больше, чем 1,2. На втором этапе он вычисляет среднее значение временных неравномерностей диапазонов, где они меньше, чем 1,2. Затем применяют следующее правило: если результат первого этапа больше, чем 55 - компандировани включается, если результат первого этапа меньше, чем 15 - компандировании выключается; если результат первого этапа лежит между 15 и 55, а результат второго этапа больше, чем 1,16 - компандирование включается; и если результат первого этапа лежит между 15 и 55, а результат второго этапа меньше чем 1,16 - компандирование выключается. Следует отметить, что эти два типа детекторов описаны лишь два примера из многих возможных решений для алгоритма детектора, и другие подобные алгоритмы могут использоваться таким же образом или в качестве альтернативы.

[0060] Функция управления компандированием, предусмотренная элементом 404 фиг. 4, может реализовываться любым подходящим способом для обеспечения использования или неиспользования компандирования, исходя из определенных режимов работы. Например, компандирование обычно не используют в канале LFE (низкочастотных эффектов) системы окружающего звука, а также не используют, если не реализована функциональная возможность A-SPX (т.е. QMF). В одном варианте осуществления функция управления компандированием может обеспечиваться посредством программы, выполняемой с помощью схемы или элементов на основе процессора, таких как элемент 404 управления компандированием. Ниже приведено несколько примеров синтаксиса части программы, которая может реализовать управление компандированием в соответствии с одним из вариантов осуществления изобретения:

Флаги или программные элементы sync_flag, b_compand_on[ch], и b compand avg могут иметь длину приблизительно 1 бит или любую другую длину в зависимости от ограничений и требований системы. Следует отметить, что программный код, показанный выше, представляет собой пример одного из способов реализации функции управления компандированием, а другие программы или компоненты аппаратного обеспечения могут использоваться для реализации управления компандированием в соответствии с некоторыми вариантами осуществления.

[0061] Хотя варианты осуществления, описанные до сих пор, включают процесс компандирования для снижения шума квантования, внесенного кодером кодека, следует отметить, что аспекты такого процесса компандирования также могут применяться в системах обработки сигналов, которые не включают звенья кодера и декодера (кодека). Кроме того, в том случае, если процесс компандирования применяется в сочетании с кодеком, то кодек может быть с преобразованием или без преобразования сигналов.

[0062] Аспекты систем, описанные в данной заявке, могут быть реализованы в соответствующей сетевой среде обработки звука с использованием компьютеров для обработки файлов цифровых или оцифрованных звукозаписей. Части системы адаптивного звука могут включать одну или несколько сетей, которые содержат любое необходимое количество отдельных машин, в том числе один или несколько маршрутизаторов (не показаны), которые служат для буферизации и маршрутизации данных, передаваемых между компьютерами. Такая сеть может строиться на разнообразных сетевых протоколах и может представлять собой сеть Интернет, глобальную вычислительную сеть (WAN), локальную вычислительную сеть (LAN) и любое их сочетание.

[0063] Один или несколько компонентов, блоков, процессов или других функциональных компонентов могут реализовываться с помощью компьютерной программы, которая управляем действием вычислительного устройства на основе процессора системы. Следует также отметить, что различные функции, раскрытые в данном раскрытии, могут описываться с использованием любого количества сочетаний аппаратного обеспечения, программно-аппаратного обеспечения и/или данных, и/или команд, воплощенных в различных компьютерочитаемых или машиночитаемых носителях данных, исходя из характеристик их поведения, межрегистровой пересылки, логических компонентов и/или других характеристик. Машиночитаемые носители данных, в которых могут быть воплощены такие форматированные данные и/или команды включают физические (постоянные), энергонезависимые носители данных в различных формах, таких как оптические, магнитные или полупроводниковые носители данных, но не ограничиваются ими.

[0064] Если из контекста явно не следует иное, в описании и формуле изобретения слова "содержат", "содержащий" и т.п. должны истолковываться во включающем смысле, в отличие от исключающего или исчерпывающего смысла; то есть, в смысле "включая, но не ограничиваясь ими." Слова, использованные в форме единственного или множественного числа, также включают форму множественного или единственного числа соответственно. Кроме того, слова "в данном раскрытии", "в соответствии с данным раскрытием", "вышеупомянутый", "нижеизложенный" и слова аналогичного смысла относятся к данной заявке в целом, а не к какой-либо конкретной части данной заявки. Когда слово "или" используется в отношении списка из двух или более элементов, это слово охватывает все из следующих толкований слова: любой из элементов в списке, все элементы в списке и любое сочетание элементов в списке.

[0065] Несмотря на то, что одна или несколько реализаций описаны в качестве примера и с точки зрения конкретных вариантов осуществления, следует понимать, что одна или несколько реализаций не ограничены раскрытыми вариантами осуществления. Наоборот, они предназначаются для охвата различных модификаций и подобных схем, что должно быть очевидно специалистам в данной области техники. Таким образом, объем прилагаемой формулы изобретения должен соответствовать самому широкому толкованию с тем, чтобы он охватывал все такие модификации и подобные схемы.

1. Способ распаковки звукового сигнала, содержащий этапы:

приема звукового сигнала; и

распаковки звукового сигнала в расширенный динамический диапазон посредством процесса распаковки, включающего: деление принятого звукового сигнала на совокупность сегментов, вычисление коэффициента усиления для каждого сегмента с использованием основанного не на энергии среднего значения представления звукового сигнала в частотной области и применение коэффициента усиления для каждого соответствующего сегмента с целью получения расширенного динамического диапазона звукового сигнала, причем применение коэффициента усиления усиливает сегменты с относительно высокой интенсивностью и ослабляет сегменты с относительно низкой интенсивностью.

2. Способ по п. 1, отличающийся тем, что сегменты перекрываются друг с другом.

3. Способ по п. 2, отличающийся тем, что первый банк фильтров используют для анализа звукового сигнала с целью получения представления в частотной области.

4. Способ по п. 3, отличающийся тем, что первый банк фильтров является либо банком квадратурных модулированных фильтров (QMF), либо оконным преобразованием Фурье.

5. Способ по п. 3, отличающийся тем, что коэффициент усиления для каждого сегмента рассчитывается с использованием дискретных значений поддиапазона в подмножестве поддиапазонов в соответствующем сегменте.

6. Способ упаковки звукового сигнала, включающий этапы:

приема первоначального звукового сигнала; и

упаковки первоначального звукового сигнала для существенного уменьшения исходного динамического диапазона первоначального звукового сигнала посредством процесса упаковки, включающего деление первоначального звукового сигнала на совокупность сегментов, вычисление коэффициента усиления в частотной области с использованием основанного не на энергии среднего значения первоначального звукового сигнала и применения коэффициента усиления для каждого соответствующего сегмента для усиления сегментов с относительно низкой интенсивностью и ослабления сегментов с относительно высокой интенсивностью.

7. Способ по п. 6, отличающийся тем, что сегменты перекрываются друг с другом, причем первый банк фильтров применяется для анализа звукового сигнала с целью получения представления в частотной области.

8. Способ по п. 7, отличающийся тем, что первый банк фильтров представляет собой или банк квадратурных модулированных фильтров (QMF), или оконное преобразование Фурье.

9. Способ по п. 7, отличающийся тем, что каждый коэффициент усиления вычисляется с помощью дискретных значений поддиапазона в подмножестве поддиапазонов в соответствующем сегменте.

10. Способ по п. 9, отличающийся тем, что подмножество поддиапазонов соответствует всему частотному диапазону, охватываемому первым банком фильтров, причем коэффициент усиления применяется в области первого банка фильтров.

11. Устройство для упаковки звукового сигнала, содержащее:

первый интерфейс, принимающий первоначальный звуковой сигнал; и

устройство упаковки данных, упаковывающее первоначальный звуковой сигнал, для уменьшения исходного динамического диапазона первоначального звукового сигнала посредством деления первоначального звукового сигнала на совокупность сегментов, вычисления коэффициента усиления в частотной области с использованием основанного не на энергии среднего значения первоначального звукового сигнала и применения коэффициентов усиления для каждого соответствующего сегмента для усиления сегментов с относительно низкой интенсивностью и ослабления сегментов с относительно высокой интенсивностью.

12. Устройство по п. 11, дополнительно содержащее первый банк фильтров, анализирующий звуковой сигнал, для получения представления в частотной области, при этом первый банк фильтров представляет собой, или банк квадратурных модулированных фильтров (QMF), или оконное преобразование Фурье.

13. Устройство по п. 12, отличающееся тем, что коэффициент усиления вычислен с использованием дискретных значений поддиапазона в подмножестве поддиапазонов в каждом соответствующем сегменте.

14. Устройство по п. 13, отличающееся тем, что подмножество поддиапазонов соответствует всему частотному диапазону, охватываемому первым банком фильтров, причем коэффициент усиления применен в области первого банка фильтров.

15. Устройство по п. 12, дополнительно содержащее второй интерфейс, передающий упакованный вариант первоначального звукового сигнала в расширитель динамического диапазона, который принимает упакованный вариант звукового сигнала и распаковывает упакованный вариант звукового сигнала для восстановления его, по существу, до исходного динамического диапазона первоначального звукового сигнала посредством деления первоначального звукового сигнала на совокупность сегментов, вычисления коэффициента усиления в частотной области с использованием основанного не на энергии среднего значения первоначального звукового сигнала; и применяющий коэффициент усиления для каждого соответствующего сегмента из совокупности сегментов для усиления сегментов с относительно высокой интенсивностью и ослабления сегментов с относительно низкой интенсивностью.

16. Устройство для распаковки звукового сигнала, содержащее:

первый интерфейс, принимающий упакованный звуковой сигнал; и

расширитель динамического диапазона, распаковывающий упакованный звуковой сигнал для восстановления, по существу, исходного несжатого динамического диапазона посредством деления первоначального звукового сигнала на совокупность сегментов, вычисления коэффициента усиления в частотной области с использованием основанного не на энергии среднего значения первоначального звукового сигнала и применения отдельных значений коэффициента усиления для каждого сегмента из совокупности сегментов для усиления сегментов с относительно высокой интенсивностью и ослабления сегментов с относительно низкой интенсивностью.

17. Устройство по п. 16, дополнительно содержащее первый банк фильтров, анализирующий звуковой сигнал, для получения представления в частотной области, при этом первый банк фильтров является или банком квадратурных модулированных фильтров (QMF) или оконным преобразованием Фурье.

18. Устройство по п. 17, отличающееся тем, что усиление включает отдельные коэффициенты усиления для каждого сегмента, и при этом каждый отдельный коэффициент усиления вычисляют с использованием дискретных значений поддиапазона в подмножестве поддиапазонов в каждом соответствующем временном сегменте.

19. Устройство по п. 18, отличающееся тем, что подмножество поддиапазонов соответствует всему частотному диапазону, охватываемому первым банком фильтров, причем усиление применяют в области первого банка фильтров.

20. Устройство по п. 16, дополнительно содержащее второй интерфейс, принимающий упакованный звуковой сигнал от устройства упаковки данных, которое принимает первоначальный звуковой сигнал и упаковывает первоначальный звуковой сигнал для существенного уменьшения исходного динамического диапазона первоначального звукового сигнала посредством деления первоначального звукового сигнала на совокупность сегментов, вычисления коэффициента усиления в широкой полосе частот в частотной области с использованием основанного не на энергии среднего значения первоначального звукового сигнала; и применения соответствующих коэффициентов усиления для каждого сегмента из совокупности сегментов для усиления сегментов с относительно низкой интенсивностью и ослабления сегментов с относительно высокой интенсивностью.

21. Постоянный машиночитаемый носитель, содержащий команды, которые при их выполнении одним или более процессорами осуществляют способ по п. 1.

Изобретение относится к вычислительной технике для кодирования аудиосигнала. Технический результат заключается в повышении точности обработки аудиосигнала с использованием кодирования с линейным предсказанием.

Декодер речи, кодер речи, способ декодирования речи, способ кодирования речи, программа декодирования речи и программа кодирования речи // 2707931

Изобретение относится к средствам для кодирования и декодирования речи. Технический результат заключается в уменьшении опережающего и запаздывающего эха.

Устройство аудиодекодирования, устройство аудиокодирования, способ аудиодекодирования, способ аудиокодирования, программа аудиодекодирования и программа аудиокодирования // 2707722

Изобретение относится к средствам для кодирования и декодирования аудио. Технический результат заключается в снижении искажения компонента частотного диапазона, кодированного с малым числом битов во временной области.

Аудиокодер и способ для кодирования аудиосигнала // 2707144

Изобретение относится к средствам для кодирования аудиосигнала. Технический результат заключается в повышении разборчивости декодированного сигнала, когда акустический входной сигнал искажается фоновым шумом и другими артефактами.

Динамическая акустическая модель для транспортного средства // 2704746

Изобретение относится к области транспортных средств. Технический результат – повышение согласованности и точности систем распознавания голоса в транспортном средстве.

Устройство обработки аудиосигнала, способ обработки аудиосигнала и программа обработки аудиосигнала // 2701075

Изобретение относится к обработке аудиосигнала. Технический результат - уменьшение разрыва аудио при восстановлении пакета в начальной точке аудио.

Способ декодирования и декодер для усиления диалога // 2701055

Изобретение относится к средствам для кодирования аудио. Технический результат заключается в повышении эффективности усиления диалога в аудиосистемах.

Способ очистки речевой фонограммы // 2700394

Изобретение относится к области вычислительной техники для цифровой обработки звуковой фонограммы. Технический результат заключается в повышении скорости обработки цифровой фонограммы с записью речи.

Способ разделения речи и речеподобного шума путем анализа значений энергии и фаз частотных составляющих сигнала и шума // 2700189

Изобретение относится к области техники передачи и трансляции речевой информации и может найти применение в устройствах связи. Техническим результатом является увеличение значения вероятности правильного решения о появлении речевого сигнала и повышение точности определения момента его появления при наличии речеподобного шума.

Способ компенсации шумовых помех у устройства громкой связи в автомобиле и устройство громкой связи // 2698324

Изобретение относится к компенсации шумовых помех у устройства (1) громкой связи в автомобиле. Техническим результатом является повышение скорости индивидуальной для транспортного средства компенсации возмущающих воздействий устройства громкой связи.