Способ и устройство для нормализованного проигрывания аудио медиаданных с вложенными метаданными громкости и без них на новых медиаустройствах

Изобретение относится к управлению громкостью аудио, видео и мультимедийного контента. Технический результат – обеспечение возможности нормализации громкости проигрывания как контента, содержащего метаданные громкости, так и контента, не содержащего метаданные громкости. Устройство обеспечивает декодирование битового потока, содержащего аудиоданные и метаданные громкости, содержащие значение опорной громкости, для формирования выходного аудиосигнала. Устройство содержит процессор сигналов, содержащий устройство управления усилением, выполненное с возможностью регулирования уровня выходного аудиосигнала. При этом устройство управления усилением содержит декодер опорной громкости, выполненный с возможностью создания значения громкости, калькулятор усиления, выполненный с возможностью вычисления значения усиления на основе значения громкости и на основе значения управления силой звука, и процессор громкости, выполненный с возможностью управления громкостью выходного аудиосигнала на основе значения усиления. 4 н. и 12 з.п. ф-лы, 5 ил.

 

Данное изобретение относится к управлению громкостью аудио, видео и мультимедийного контента, проигрываемого в цифровой форме в электронном устройстве воспроизведения, конкретно, но не исключительно, к управлению громкостью проигрывания с контентом, который подготовлен как с вложенными метаданными громкости, так и без них, как обычно происходит в новых медиаустройствах.

При производстве и передаче музыки, видео и другого мультимедийного контента, проводится процесс нормализации громкости, чтобы гарантировать, что потребитель слышит аудиосигнал с соответствующей громкостью от песни к песне или от программы к программе. С первых дней возникновения записей и кинофильмов это осуществлялось во время процесса производства или посредством стандартов воспроизведения для кинотеатров. Общей практикой в музыкальной индустрии и индустрии радиовещания сегодня является регулирование громкости до значения, близкого к уровню максимального пика данного носителя, тогда как практикой в кинематографической и телевизионной индустриях является использование одного из нескольких стандартных уровней громкости, которые могут составлять 20-31 дБ ниже уровня максимального пика. Во времена до слияния носителей это не замечалось потребителями, так как для проигрывания каждого типа контента использовались раздельные устройства или настройки силы звука.

С приходом мобильных устройств, таких как мобильные телефоны или портативные медиапроигрыватели, которые предназначены для проигрывания как музыкального, так и кинематографического контента, эта разница в производственных практиках приводит к разностям громкостей, которые могут составлять до 30 дБ, если контент передается на устройство без изменения. Это может привести к кинофильмам, которые являются слишком тихими, или музыке, которая является слишком громкой, при переключении с одного типа контента на другой.

Похожей тенденцией является увеличение громкости многих жанров записанной музыки посредством использования сильного сжатия динамического диапазона, ограничения и усечения во время мастеринга записи. Такой мастеринг осуществляется, рассматривая только носители записи без потерь, такие как компакт-диски, хотя большая часть музыки, продаваемой сегодня, имеет форматы сжатия данных с потерями, такие как MPEG AAC и MP3. Процесс сжатия данных может вносить изменения формы колебания во временной области, реконструированной в декодере во время проигрывания, которые вызывают перерегулирования в форме колебания выше полномасштабных ограничений или значения максимального пика сигнала. В декодере с фиксированной запятой (или декодере с плавающей запятой с насыщением), обычно используемом в мобильных устройствах, это может привести к усечению перерегулирования до полномасштабного ограничения, вызывая дополнительное слышимое усечение в воспроизводимом сигнале.

Это сильное сжатие и усечение музыки осуществляется в некоторых случаях в художественных целях, но чаще обычно осуществляется либо как попытка увеличения коммерческой привлекательности записи, заставляя ее "звучать громче", чем другие, или для предоставления контента, который может быть понятен при всех обстоятельствах прослушивания, как например, в аэропортах или шумных местах, также как и в тихих окружениях.

В кинематографических и видео индустриях, в некоторых жанрах широкий динамический диапазон аудио используется для драматического эффекта и для создания более захватывающего восприятия. При подаче потребителю посредством кодеков Dolby Digital или MPEG-4 AAC, часто включаются метаданные управления динамическим диапазоном аудио для обеспечения возможности опционального уменьшения динамического диапазона в приемнике или проигрывателе для случаев, когда есть шумное окружение, или когда громкие сцены были бы слишком беспокоящими.

Традиционные метаданные, включенные в DVD или BluRay-контент, кодированный с помощью Dolby Digital, или переданный в TV-сигналах, кодированных с помощью Dolby Digital (стандартизированным в стандарте сжатия аудио A/52 корпорации Комитет по перспективным телевизионным системам) или MPEG-4 AAC (стандартизированным в ISO/IEC 14496-3 и ETSI TS 101 154) включают в себя нижеследующие компоненты:

1. Одиночное, статичное значение метаданных, указывающее общую долговременную суммарную громкость программы, называемую опорным уровнем программы в стандартах MPEG.

2. Статические значения метаданных для значений усиления понижающего микширования, используемых для управления понижающим микшированием многоканального контента для вывода посредством стерео или монофонического устройства.

3. Два набора значений управления динамическим диапазоном или коэффициентов масштабирования, отправленные для каждого кадра битового потока со сжатием данных для множества полос частот или областей в аудиосигнале. Один используется для "слабого" сжатия в производственных терминах и другой для "сильного" сжатия. Использование этих значений слабого и сильного DRC обычно привязывается к функционированию на целевых уровнях громкости декодера, установленных для режимов функционирования "режим Линии" и "RF-режим". Соглашения о наименовании и рабочие точки для этих режимов были установлены на заре цифровых медиаданных, когда могло быть необходимо преобразовать цифровое аудио в аналоговые сигналы, отправляемые по узкополосным кабелям во входы линий на последующем устройстве или передаваемые через RF носитель на аналоговый телевизор.

Использование этих метаданных обеспечивает возможность привязки воспроизведения к окружению прослушивания недеструктивным образом во время проигрывания. Один и тот же поток или файл может проигрываться с разным набором метаданных, или совсем не используя метаданные, для произведения разного динамического диапазона. В отличие от использования устройства сжатия, которое находится полностью в проигрывающем устройстве, управление динамическим диапазоном, использующее метаданные, обеспечивает возможность контролирования и управления природой сжатия посредством творческих художников во время производственного процесса, по желанию.

К сожалению, метаданные управления динамическим диапазоном, которые обычно реализованы в кодеках с потерями, таких как семейство MPEG AAC или Dolby Digital, не могут сжать сигнал достаточно сильно, чтобы совпасть с громкостью современной музыкой, так как метаданные влияют на среднюю мощность сигнала (потенциально в нескольких полосах частот) на основе покадрового сжатия аудио, с общими периодами кадров 20-40 мс. Это покадровое управление усилением является недостаточно быстрым для уменьшения пика до среднего отношения сигнала к сигналу сильно обработанной современной музыки.

Данным подходом, рассмотренным Wolters et al, как описано в [5], для решения этой проблемы, является использование ограничителя аудио вслед за декодером в проигрывающем устройстве для увеличения средней громкости. Это решит проблему сопоставления громкости, так, чтобы музыкальный и кинематографический контент имел равную громкость, но имеет несколько недостатков. Когда потребитель проигрывает контент в тихом окружении, возможно с помощью мобильного устройства, соединенного с динамиками, в тихой комнате или, используя наушники или наушники с сильной акустической изоляцией, кинематографический контент будет нежелательно сжат также сильно, как и музыка. Также, ограничитель вносит дополнительную рабочую нагрузку на CPU или DSP устройства, сокращая срок службы батареи.

Другой подход описывается Camerer et al в [6], который предлагает кодирование измерения громкости, как описано в стандарте ITU BS. 1770-2, в качестве метаданных в музыкальных файлах, и нормализацию проигрывания каждого файла до целевого уровня, заданного посредством управления силой звука устройством. Это основывается на предыдущих системах нормализации громкости музыки, таких как SoundCheck (www.apple.com) и ReplayGain (www.replaygain.org), которые являлись опциональными признаками некоторых музыкальных проигрывателей, таких как iPod. В их подходе они пропагандируют обязательную установку нормализации громкости как включенной по умолчанию; однако, они точно не определяют, что должно случиться, когда пользователь выключит нормализацию громкости, или более важно, что случится, когда проигрывается контент, который не был кодирован с метаданными громкости. Их предположение состоит в том, что весь контент будет проанализирован проигрывающим устройством или безопасным доверенным распространителем, таким как iTunes, перед проигрыванием. Дополнительно, не предусмотрено регулирование общего динамического диапазона контента для привязки его к окружению прослушивания.

Вследствие этого, целью данного изобретения является предусмотрение унифицированного подхода к проблеме нормализации громкости проигрывания контента как в кинематографическом/видео стиле, с потенциально широким динамическим диапазоном и возможно вложенными метаданными громкости, так и музыкального или радио/подкаст-контента, с потенциально очень узким динамическим диапазоном и сильным сжатием, ограничением и усечением, потенциально, но вероятно не содержащего вложенные метаданные громкости, из-за огромного количества предшествующего музыкального контента, который уже удерживается или обменивается потребителями.

Другой целью этого изобретения является обеспечение возможности регулирования динамического диапазона контента, содержащего метаданные управления динамическим диапазоном, под окружение прослушивания или вкус потребителя.

Дополнительной целью этого изобретения является предотвращение потенциального усечения в аудиодекодерах со сжатием данных с потерями, таких как декодер AAC, MP3 или Dolby Digital, вызванного изменениями в составляющих сигнала, внесенных процессом сжатия данных.

Дополнительной целью этого изобретения является обеспечение мягкого стимулирования музыкальной записывающей индустрии для прекращения погони за еще более сильным сжатием динамического диапазона, ограничением и усечением их контента.

Еще одной целью этого изобретения является ограничение дополнительной рабочей нагрузки на CPU или DSP устройства, вызванной обработкой громкости или предотвращением усечения.

Один вариант осуществления данного изобретения включает в себя устройство декодирования для декодирования битового потока для того, чтобы произвести из него выходной аудиосигнал, причем битовый поток, содержащий аудиоданные и опционально метаданные громкости, содержащие значение опорной громкости, причем устройство декодирования, содержащее:

устройство декодирования аудио, выполненное с возможностью реконструирования аудиосигнала из аудиоданных; и

процессор сигналов, выполненный с возможностью производства выходного аудиосигнала на основе аудиосигнала;

при этом процессор сигналов содержит устройство управления усилением, выполненное с возможностью регулирования уровня выходного аудиосигнала;

при этом устройство управления усилением содержит декодер опорной громкости, выполненный с возможностью создания значения громкости, при этом значением громкости является значение опорной громкости в случае, когда значение опорной громкости присутствует в битовом потоке;

при этом устройство управления усилением содержит калькулятор усиления, выполненный с возможностью вычисления значения усиления на основе значения громкости и на основе значения управления силой звука, которое предоставляется пользовательским интерфейсом, обеспечивающим пользователю возможность управления значением управления силой звука;

при этом устройство управления усилением содержит процессор громкости, выполненный с возможностью управления громкостью выходного аудиосигнала на основе значения усиления.

Устройством декодирования аудио может быть любое устройство, которое способно реконструировать аудиосигнал из аудиоданных сжатого битового потока. Процессором сигналов может быть любое устройство, которое имеет возможность производства выходного аудиосигнала, когда в него подается аудиосигнал от устройства декодирования аудио, и которое имеет устройство управления усилением, которое рассмотрено ниже. Устройством управления усилением является устройство, которое настроено для управления громкостью выходного аудиосигнала.

Декодер опорной громкости выполнен с возможностью декодирования метаданных громкости, содержащихся в битовом потоке. Если метаданные громкости содержат значение опорной громкости, декодер опорной громкости выводит только это значение опорной громкости в качестве значения громкости.

Калькулятором усиления является устройство для вычисления значения усиления, которое основано на значении громкости, выведенном декодером опорной громкости, и значении управления силой звука, заданном пользователем устройства декодирования. Для задания значения управления силой звука может быть использован любой пользовательский интерфейс. Калькулятор усиления в частности может быть вычитателем.

Процессор громкости способен управлять уровнем громкости выходного аудиосигнала на основе значения усиления, предоставленного калькулятором усиления. Процессор громкости может быть в частности умножителем.

В отличие от устройства декодирования с обыкновенным сжатием, такого как устройство декодирования Dolby Digital или AAC, используемого в портативных устройствах или в потребительском электронном оборудовании, устройством декодирования со сжатием оперируют с помощью переменного значения усиления или целевого порогового значение декодера (соответствующего декодированному уровню полномасштабного битового потока), которым управляется посредством управления силой звука пользователем. Это обеспечивает устройству декодирования возможность нормального функционирования гораздо ниже максимального полномасштабного диапазона цифровой аудиосистемы устройства. Такое функционирование предотвращает возможность усечения перерегулирования декодера и обеспечивает возможность нормализации громкости контента в фирменном стиле без сильного сжатия динамического диапазона и ограничения динамическим диапазоном музыкального контента с сильным сжатием и ограничением, без дополнительного сжатия или ограничения контента в фирменном стиле, как обычно требуется. Данное изобретение выполняет эту нормализацию без уменьшения динамического диапазона содержимого только в целях сопоставления громкости.

В предпочтительном варианте осуществления данного изобретения значением громкости является предварительно заданное значение громкости в случае, когда значение опорной громкости не присутствует в битовом потоке. Эти признаки обеспечивают возможность высококачественного проигрывания битовых потоков, не имеющих метаданные громкости.

В предпочтительном варианте осуществления данного изобретения предварительно заданное значение громкости задается в значение между -4 дБ и -10 дБ, в частности между -6 дБ и -8 дБ, связанным с полномасштабной амплитудой. Эмпирические изучения современной музыки показывают, что наблюдаемый верхний предел громкости для музыкального контента, который предназначен для полномасштабного проигрывания, составляет около -7 дБ. Поэтому, предварительно заданные значения громкости, как заявлено, обеспечивают оптимизированный режим для проигрывания битовых потоков, не имеющих метаданные громкости.

В предпочтительном варианте осуществления данного изобретения процессор сигналов содержит устройство управления динамическим диапазоном, выполненное с возможностью регулирования динамического диапазона выходного аудиосигнала,

при этом устройство управления динамическим диапазоном содержит переключатель управления динамическим диапазоном, выполненный с возможностью получения по меньшей мере одного значения управления динамическим диапазоном из метаданных громкости и вывода в качестве альтернативы одного из полученных значений управления динамическим диапазоном или предварительно заданного значения управления динамическим диапазоном,

при этом устройство управления динамическим диапазоном содержит калькулятор динамического диапазона, выполненный с возможностью вычисления значения динамического диапазона на основе значения управления динамическим диапазоном, выведенного переключателем управления динамическим диапазоном, и на основе значения управления сжатием, которое предоставлено посредством пользовательского интерфейса, обеспечивающего пользователю возможность управления значением управления сжатием;

при этом устройство управления динамическим диапазоном содержит процессор динамического диапазона, выполненный с возможностью управления динамическим диапазоном выходного аудиосигнала на основе значения динамического диапазона.

Устройство управления динамическим диапазоном содержит переключатель управления динамическим диапазоном, который выполнен с возможностью декодирования метаданных громкости битового потока таким образом, что может быть получено по меньшей мере одно значение управления динамическим диапазоном. Обычно переключатель управления динамическим диапазоном сконфигурирован так, чтобы могли быть получены одно значение управления динамическим диапазоном для слабого управления динамическим диапазоном и другое значение управления динамическим диапазоном для сильного управления динамическим диапазоном. Переключатель управления динамическим диапазоном может вывести одно из этих полученных значений управления динамическим диапазоном или предварительно заданное значение управления динамическим диапазоном в качестве альтернативы. Переключатель управления динамическим диапазоном можно управлять автоматически, например, в зависимости от последующего оборудования используя выходной аудиосигнал, или вручную посредством действия пользователя. Предварительно заданное значение управления динамическим диапазоном может быть задано, например, в значение 0 дБ.

Устройство управления динамическим диапазоном может содержать калькулятор динамического диапазона, который способен вычислить значение динамического диапазона на основе значения управления динамическим диапазоном, выведенного переключателем управления динамическим диапазоном, и на основе значения управления сжатием, которое предоставлено посредством пользовательского интерфейса, обеспечивающего пользователю возможность управления значением управления сжатием. Калькулятор динамического диапазона может, в частности, быть умножителем.

Кроме того, предусматривается процессор динамического диапазона, который способен управлять динамическим диапазоном выходного аудиосигнала на основе значения динамического диапазона. Посредством этих признаков проигрывание битового потока может быть адаптировано к окружению прослушивания и/или вкусу слушателей.

Согласно предпочтительному варианту осуществления данного изобретения процессор сигналов содержит ограничивающее устройство, выполненное с возможностью ограничения амплитуды выходного аудиосигнала, при этом ограничивающее устройство содержит ограничивающий компонент, имеющий ограничитель и управляющий компонент, выполненный с возможностью управления ограничивающим компонентом, при этом обработанный аудиосигнал, который получен из аудиосигнала посредством обработки по меньшей мере устройством управления усилением, вводится в ограничивающий компонент, и при этом выходной аудиосигнал выводится из ограничивающего компонента.

Ограничивающее устройство обеспечивает ограничение в целях предотвращения усечения перерегулирования декодера, ограничения силы звука для предотвращения потери слуха или предпочтения пользователя, и художественное сжатие для обеспечения возможности обратимого генерирования контента с ограничением пика, когда это необходимо ввиду окружения прослушивания или вкуса пользователя.

Согласно предпочтительному варианту осуществления данного изобретения управляющий компонент выполнен с возможностью управления ограничивающим компонентом в зависимости от скорости передачи битов битового потока. Вероятность усечения перерегулирования декодера повышается при понижении скорости передачи битов. Вследствие этого, предотвращение усечения перерегулирования декодера улучшается, когда ограничивающий компонент управляется в зависимости от скорости передачи битов битового потока.

Согласно предпочтительному варианту осуществления данного изобретения, управляющий компонент выполнен с возможностью управления ограничивающим компонентом в зависимости от эффективности сжатия устройства декодирования аудио. Эффективность сжатия устройства аудиокодера, производящего битовый поток, и в то же время устройства декодирования аудио, декодирующего битовый поток, описывает, насколько уменьшается количество данных при кодировании первоначальных аудиоданных, для того, чтобы произвести битовый поток. Чем больше уменьшается количество данных, тем больше увеличивается вероятность усечения перерегулирования декодера. Поэтому, предотвращение усечения перерегулирования декодера улучшается, когда ограничивающий компонент управляется в зависимости от эффективности сжатия устройства декодирования аудио.

Согласно предпочтительному варианту осуществления данного изобретения управляющий компонент выполнен с возможностью управления ограничивающим компонентом в зависимости от значения истинного пика, переданного в метаданных громкости битового потока и указывающего уровень максимального пика источника аудио, преобразованного в битовый поток внешним кодером. Использование этого значения истинного пика обеспечивает возможность вычисления более точного значения для максимально возможного уровня пика выходного аудиосигнала.

Согласно предпочтительному варианту осуществления данного изобретения, управляющий компонент выполнен с возможностью управления ограничивающим компонентом в зависимости от значения усиления устройства управления усилением. Максимально возможный уровень пика выходного аудиосигнала определяется в этом подслучае значением усиления устройства управления усилением. Если вышеуказанное значение составляет 0 дБ, устройство декодирования функционирует при своих полномасштабных ограничениях, как диктуется максимальным заданием значения управления силой звука. По мере уменьшения вышеуказанного значения управления силой звука, устройство декодирования будет функционировать так, чтобы полномасштабный битовый поток значения достиг только максимального уровня, заданного значением усиления устройства управления усилением.

Согласно предпочтительному варианту осуществления данного изобретения, управляющий компонент выполнен с возможностью управления ограничивающим компонентом в зависимости от значения ограничения силы звука, заданного пользователем или изготовителем, для того, чтобы предотвратить повреждение слуха. Посредством этих признаков, повреждения слуха могут быть эффективно предотвращены.

Согласно предпочтительному варианту осуществления данного изобретения, управляющий компонент выполнен с возможностью управления ограничивающим компонентом в зависимости от параметров художественного ограничителя, переданных в метаданных громкости битового потока и указывающих пороговые значения художественного ограничителя, значения времени срабатывания художественного ограничителя и/или значения времени освобождения художественного ограничителя. Эти признаки обеспечивают возможность функционирования ограничивающего устройства под творческим управлением художника или создателя контента. Значения управления динамическим диапазоном, содержащиеся в метаданных громкости, рассмотренных ранее, обеспечивают возможность привязки общего динамического диапазона контента к окружению прослушивания посредством использования значений усиления сжатия, которые действуют с типичными временными константами 100 мс - 3 секунды. В сложных окружениях прослушивания, сжатие аудиосигнала с этими временными константами могут не производить сигнал с достаточной громкостью для разборчивости или удовлетворения без неприятно высоких уровней пиков. Есть также вероятность, что создатели музыки, которые обычно производили только сильно сжатый "сдавленный" микс, могут захотеть использовать гибкость этого изобретения, чтобы производить как "сдавленный" микс, так и "несдавленный" микс с меньшим ограничением и сжатием, так чтобы потребители могли слышать "несдавленную" версию в тихих окружениях или по желанию.

Согласно предпочтительному варианту осуществления данного изобретения управляющий компонент выполнен с возможностью непрерывного или циклического управления ограничивающим компонентом. Эти признаки обеспечивают возможность переменного управления ограничивающим компонентом во времени.

Согласно предпочтительному варианту осуществления данного изобретения, ограничивающее устройство выполнено с возможностью обхода ограничителя посредством обходного устройства, имеющего функцию пересылки, которая, касательно усиления и задержки, аналогична функции пересылки ограничителя. Посредством этих признаков рабочая нагрузка процессора сигналов может быть значительно уменьшена.

Один вариант осуществления данного изобретения включает в себя систему, содержащую декодер и кодер, в которой декодер спроектирован как заявлено.

Один вариант осуществления данного изобретения включает в себя способ декодирования битового потока для того, чтобы произвести из него выходной аудиосигнал, битовый поток, содержащий аудиоданные и опционально метаданные громкости, содержащие значение опорной громкости, причем способ, содержащий этапы:

реконструирования аудиосигнала из аудиоданных с использованием устройства декодирования аудио; и

производства выходного аудиосигнала на основе аудиосигнала с использованием процессора сигналов;

при этом уровень громкости выходного аудиосигнала регулируется с использованием устройства управления усилением, содержащегося в процессоре сигналов;

при этом значение громкости создается декодером опорной громкости, содержащимся в устройстве управления усилением, при этом значение громкости является значением опорной громкости в случае, когда значение опорной громкости присутствует в битовом потоке;

при этом значение усиления вычисляется на основе значения громкости и на основе значения управления силой звука, которое предоставляется посредством пользовательского интерфейса, обеспечивающего пользователю возможность управления значением управления силой звука, посредством калькулятора усиления, содержащегося в устройстве управления усилением;

при этом уровнем громкости выходного аудиосигнала управляют на основе значения усиления посредством процессора громкости, содержащегося в устройстве управления усилением.

Один вариант осуществления данного изобретения включает в себя компьютерную программу для выполнения, при выполнении на компьютере или процессоре, способа, который заявлен в настоящем документе.

Предпочтительные варианты осуществления данного изобретения впоследствии рассматриваются по отношению к прилагаемым чертежам, на которых:

Фиг. 1 показывает блок-схему существующего аудиодекодера со сжатием данных предшествующего уровня техники с поддержкой метаданных громкости, такого как точно определен посредством ISO/IEC 14496-3 и ETSI TS 101 154, как интегрированного в обычный мобильный телефон, планшетный компьютер, или портативный медиапроигрыватель;

Фиг. 2 показывает вариант осуществления декодера с устройством декодирования аудио со сжатием данных и опциональный ограничитель аудио согласно данному изобретению, который подходит для интеграции в обычный мобильный телефон, планшетный компьютер, или портативный медиапроигрыватель;

Фиг. 3 показывает эмпирически полученную функцию возможного дополнительного усечения из-за перерегулирования формы колебания реконструированного сигнала в стереодекодере AAC-LC против скорости передачи битов битового потока;

Фиг. 4 показывает блок-схему предпочтительного варианта осуществления опционального ограничивающего устройства согласно данному изобретению; и

Фиг. 5 показывает блок-схему предпочтительного варианта осуществления операционного ограничивающего устройства, функционирующего в режиме художественного ограничения согласно данному изобретению.

В качестве помощи в понимании функционирования данного изобретения, на Фиг. 1 представлено функционирование существующего устройства 21 декодирования со сжатием данных предшествующего уровня техники, такого как точно определенное посредством ISO/IEC 14496-3 и ETSI TS 101 154, как интегрированного в обычный мобильный телефон, планшетный компьютер, или портативный медиапроигрыватель. Сжатый битовый поток 1 аудио может включать в себя как сжатые сущностные данные 2 аудио, так и метаданные 3 громкости. Устройство 21 декодирования содержит устройство 9 декодирования аудио, выполненное с возможностью реконструирования аудиосигнала 8 из аудиоданных 2; и процессор сигналов 26, выполненный с возможностью производства выходного аудиосигнала 18 на основе аудиосигнала 8. Метаданные 3 громкости включают в себя значение 4 опорной громкости для общей суммарной громкости всего файла, программы, песни или альбома, известной как опорный уровень программы в ISO/IEC 14496-3. Это значение 4 опорной громкости может быть передано в битовом потоке 1 один раз на файл или с частотой повторения, достаточной для обеспечения возможности присоединения широковещательного битового потока 1 при выполнении программы. Это значение 4 опорной громкости сравнивается с фиксированным значением целевого уровня декодера, которое предоставляется поставщиком 17 целевого уровня, посредством калькулятора 16 усиления, который обозначен как вычитатель 16. Выводом калькулятора 16 усиления является разность громкости между входящим битовым потоком 1 и желаемым целевым уровнем. Это применяется к процессору 15 громкости, который спроектирован как умножитель 15, для регулирования уровня выходного аудиосигнала 18 так, чтобы была достигнута целевая долговременная громкость для песни или программы.

Переключатель 12 управления динамическим диапазоном обеспечивает возможность применения либо значений 6 слабого управления динамическим диапазоном, которые обычно используются в "режиме Линия", либо значений 7 сильного управления динамическим диапазоном, которые обычно используются в "RF-режиме", либо ни одного из них. Эти значения 6, 7 отправляются для каждого кадра битового потока со сжатием данных для множества полос частот или областей в битовом потоке 1 и применяются к процессору 13 динамического диапазона, который спроектирован как умножитель 13, для изменения уровня вывода устройства 9 декодирования аудио так, что бы кратковременная (порядка секунд) громкость выходного аудиосигнала 18 была сжата согласно желаемому динамическому диапазону. Обычно, целевой уровень декодера, предоставленный поставщиком 17 статического целевого уровня, также регулируется с помощью выбора от 12 до -20 дБ для RF-режима и до -31 дБ режима "Линия". Операция значений 6 и/или 7 управления динамическим диапазоном обычно вычисляется заранее, так что любое увеличение уровня, созданное операцией умножителя 16 вместе с умножителем 13, управляется так, чтобы усечение на выходном аудиосигнале 18 было предотвращено.

Метаданные 3 также содержат значения 5 усиления понижающего микширования, которые используются для регулирования микширования каналов многоканального контента (такого как программа 5.1-канального окружения) в стерео или моновывод, когда требуется. Так как данное изобретение может быть применено к битовому потоку 1, содержащему любое число каналов, этот признак далее не рассматривается.

Важно, если значение 4 опорной громкости не присутствует в заданном битовом потоке 1, значение громкости 31, выводимое декодером 10 опорной громкости, задается равным целевому уровню декодера, выводимому поставщиком 17 статического целевого уровня, так чтобы не было регулирования усиления выходного аудиосигнала 18, и устройство 21 декодирования функционирует как простое устройство декодирования со своим выходным диапазоном, равным полномасштабному динамическому диапазону выходного аудиосигнала 18.

Вывод аудиодекодера 21 затем обычно подается в аудиомикшер 23 системы, где выходной аудиосигнал 18 объединяется со звуками пользовательского интерфейса (звуками UI), тонами звонков или другими аудиосигналами 22, так чтобы был создан микшированный аудиосигнал 19. Общая сила звука управляется значением 20 управления силой звука. Функционирование микшера аудиосигнала 23 может включать в себя вторичные элементы управления силой звука для регулирования относительных уровней каждого типа аудиосигнала или изменения их амплитуды в зависимости от режима функционирования устройства, что не относится к пониманию функционирования данного изобретения. Важно то, что выходной аудиосигнал 18 устройства 21 декодирования обычно масштабируется так, чтобы полномасштабный выходной сигнал соответствовал максимальному значению с фиксированной запятой или номинальному полномасштабному (обычно в диапазоне -1,0 -1,0) с плавающей запятой. При сильно сжатых аудиоданных, что является обычным для современной музыки, выходной сигнал 18 декодера будет иметь пики, которые приближаются к его полномасштабным значениям при прослушивании с номинальными уровнями прослушивания. Таким образом, полномасштабный пик в 0 дБ FS (относящихся к полномасштабной амплитуде выходного аудиосигнала) на выходном аудиосигнале 18 будет понижен в аудиомикшере 23 системы и будет соответствовать уровню давления звука (SPL) в ушах слушателя возможно в 75 дБ SPL при прослушивании в тихом окружении.

Фиг. 2 изображает устройство 41 декодирования для декодирования битового потока 1 для того, чтобы произвести из него выходной аудиосигнал 42, причем битовый поток 1, содержащий аудиоданные 2 и опционально метаданные 3 громкости, содержащие значение 4 опорной громкости, причем устройство 41 декодирования, содержащее:

устройство 9 декодирования аудио, выполненное с возможностью реконструирования аудиосигнала 8 из аудиоданных 2; и

процессор 27 сигналов, выполненный с возможностью производства выходного аудиосигнала 42 на основе аудиосигнала 8;

при этом процессор 27 сигналов содержит устройство 10, 15, 28 управления усилением, выполненное с возможностью регулирования уровня выходного аудиосигнала 42;

при этом устройство 10, 15, 28 управления усилением содержит декодер 10 опорной громкости, выполненный с возможностью создания значения 37 громкости, при этом значением 37 громкости является значение 4 опорной громкости в случае, когда значение 4 опорной громкости присутствует в битовом потоке 1;

при этом устройство 10 , 15, 28 управления усилением содержит калькулятор 28 усиления, выполненный с возможностью вычисления значения 33 усиления на основе значения 37 громкости и на основе значения 20 управления силой звука, которое предоставляется пользовательским интерфейсом, обеспечивающим пользователю возможность управления значением 20 управления силой звука;

при этом устройство 10, 15, 28 управления усилением содержит процессор 28 громкости, выполненный с возможностью управления громкостью выходного аудиосигнала 42 на основе значения 33 усиления.

Устройством 9 декодирования аудио может быть любое устройство 9, которое способно реконструировать аудиосигнал 8 из аудиоданных 2 сжатого битового потока 1. Процессором 27 сигналов может быть любое устройство 27, которое имеет возможность производства выходного аудиосигнала 42, когда в него подается аудиосигнал 8 от устройства 9 декодирования аудио, и которое имеет устройство 10, 15, 28 управления усилением, которое разъяснено ниже. Устройством 10, 15, 28 управления усилением является устройство, которое настроено для управления громкостью выходного аудиосигнала 42.

Декодер 10 опорной громкости выполнен с возможностью декодирования метаданных 3 громкости, содержащихся в битовом потоке 1. Если метаданные 3 громкости содержат значение 4 опорной громкости, декодер 10 опорной громкости выводит только это значение 4 опорной громкости в качестве значения 37 громкости.

Калькулятором 28 усиления является устройство для вычисления значения 33 усиления, которое основано на значении 37 громкости, выведенном декодером 10 опорной громкости, и значении 20 управления силой звука, заданном пользователем устройства 41 декодирования. Для задания значения 20 управления силой звука может быть использован любой пользовательский интерфейс. Калькулятор 28 усиления в частности может быть вычитателем 28.

Процессор 15 громкости способен управлять уровнем громкости выходного аудиосигнала 42 на основе значения 33 усиления, предоставленного калькулятором 28 усиления. Процессор 15 громкости может быть в частности умножителем 15.

В отличие от устройства 21 декодирования с обыкновенным сжатием, такого как устройство декодирования Dolby Digital или AAC, используемого в портативных устройствах или в потребительском электронном оборудовании, устройством 41 декодирования со сжатием оперируют с помощью переменного значения 33 усиления или целевого порогового значения 33 декодера (соответствующего декодированному уровню полномасштабного битового потока), которым управляется посредством управления силой звука пользователем. Это обеспечивает устройству 41 декодирования возможность нормального функционирования гораздо ниже максимального полномасштабного диапазона цифровой аудиосистемы устройства. Такое функционирование предотвращает возможность усечения перерегулирования декодера и обеспечивает возможность нормализации громкости контента в фирменном стиле без сильного сжатия динамического диапазона и ограничения динамическим диапазоном музыкального контента с сильным сжатием и ограничением, без дополнительного сжатия или ограничения контента в фирменном стиле, как обычно требуется. Данное изобретение выполняет эту нормализацию без уменьшения динамического диапазона содержимого только в целях сопоставления громкости.

В предпочтительном варианте осуществления данного изобретения значением 37 громкости является предварительно заданное значение 37 громкости в случае, когда значение 4 опорной громкости не присутствует в битовом потоке 1. Эти признаки обеспечивают возможность высококачественного проигрывания битовых потоков 1, не имеющих метаданные 3 громкости.

В предпочтительном варианте осуществления данного изобретения предварительно заданное значение 37 громкости задается в значение между -4 дБ и -10 дБ, в частности между -6 дБ и -8 дБ, относящееся к полномасштабной амплитуде. Эмпирические изучения современной музыки показывают, что наблюдаемый верхний предел громкости для музыкального контента, который предназначен для полномасштабного проигрывания, составляет около -7 дБ. Поэтому, предварительно заданные значения 37 громкости, как заявлено, обеспечивают оптимизированный режим для проигрывания битовых потоков, не имеющих метаданные 3 громкости.

В предпочтительном варианте осуществления данного изобретения процессор 27 сигналов содержит устройство 12, 13, 14 управления динамическим диапазоном, выполненное с возможностью регулирования динамического диапазона выходного аудиосигнала 42,

при этом устройство 12, 13, 14 управления динамическим диапазоном содержит переключатель 12 управления динамическим диапазоном, выполненный с возможностью получения по меньшей мере одного значения 6, 7 управления динамическим диапазоном из метаданных 3 громкости и вывода в качестве альтернативы одного из полученных значений 6, 7 управления динамическим диапазоном или предварительно заданного значения 43 управления динамическим диапазоном,

при этом устройство 12, 13, 14 управления динамическим диапазоном содержит калькулятор 14 динамического диапазона, выполненный с возможностью вычисления значения 44 динамического диапазона на основе значения 6, 7, 43 управления динамическим диапазоном, выведенного переключателем 12 управления динамическим диапазоном, и на основе значения 25 управления сжатием, которое предоставлено посредством пользовательского интерфейса, обеспечивающего пользователю возможность управления значением 25 управления сжатием;

при этом устройство 12, 13, 14 управления динамическим диапазоном содержит процессор 13 динамического диапазона, выполненный с возможностью управления динамическим диапазоном выходного аудиосигнала 42 на основе значения 44 динамического диапазона.

Устройство 12, 13, 14 управления динамическим диапазоном содержит переключатель 12 управления динамическим диапазоном, который выполнен с возможностью декодирования метаданных 3 громкости битового потока 1 таким образом, что может быть получено по меньшей мере одно значение 6, 7 управления динамическим диапазоном. Обычно переключатель 12 управления динамическим диапазоном сконфигурирован так, чтобы могли быть получены одно значение 6 управления динамическим диапазоном для слабого управления динамическим диапазоном и другое значение 7 управления динамическим диапазоном для сильного управления динамическим диапазоном. Переключатель 12 управления динамическим диапазоном может вывести одно из этих полученных значений 6, 7 управления динамическим диапазоном или предварительно заданное значение 43 управления динамическим диапазоном в качестве альтернативы. Переключатель 12 управления динамическим диапазоном можно управлять автоматически, например, в зависимости от последующего оборудования, используя выходной аудиосигнал 42, или вручную посредством действия пользователя. Предварительно заданное значение управления динамическим диапазоном может быть задано, например, в значение 0 дБ.

Устройство 12, 13, 14 управления динамическим диапазоном может содержать калькулятор 14 динамического диапазона, который способен вычислять значение 44 динамического диапазона на основе значения 6, 7, 43 управления динамическим диапазоном, выведенного переключателем 12 управления динамическим диапазоном, и на основе значения 25 управления сжатием, которое предоставлено посредством пользовательского интерфейса, обеспечивающего пользователю возможность управления значением 25 управления сжатием. Калькулятором 14 динамического диапазона может, в частности, быть умножитель 14.

Кроме того, предусматривается процессор 13 динамического диапазона, который способен управлять динамическим диапазоном выходного аудиосигнала 42 на основе значения 44 динамического диапазона. Посредством этих признаков проигрывание битового потока 1 может быть адаптировано к окружению прослушивания и/или вкусу слушателей.

Фиг. 2 показывает функционирование предпочтительного варианта осуществления данного изобретения, которое содержится в улучшенном аудиодекодере 41. Входящий битовый поток 1 аудио состоит из сущностных данных 2 аудио и опциональных метаданных 3 громкости, содержащих вышеупомянутые стандартные значения метаданных для опорного уровня программы 4, значения 5 усиления понижающего микширования, значения 6 слабого DRC и значения 7 сильного DRC. Метаданные 3 могут также включать в себя параметры 32 художественного ограничителя и значения 36 истинного пика, которые используются в опциональном варианте осуществления.

В отличие от ранее описанного на Фиг. 1 функционирования, значение 37 громкости, выводимое декодером 10 опорной громкости, сравнивается со значением 20 управления силой звука элемента управления силой звука, так что умножитель 15 используется для регулирования выходного аудиосигнала 42 устройства 41 декодирования до желаемого уровня прослушивания. Вышеуказанный выходной аудиосигнал 42 затем добавляется к дополнительному аудиосигналу 24 с отрегулированной громкостью аудиомикшера 23 системы для образования микшированного аудиосигнала 29, отправляемого к последующим функциям постобработки аудио в устройстве или непосредственно в цифро-аналоговый преобразователь (DAC) и из него на динамики, или в цифровые устройства вывода, как будет обычно происходить, когда устройство соединено с другим оборудованием посредством HDMI, MHL, S/PDIF, AES, TosLink, AirPlay, или других стандартов проводного или беспроводного цифрового интерфейса.

Важно, выходным аудиосигналом 42 в этом изобретении обычно не оперируют при полномасштабных значениях. 0 дБ FS выходного аудиосигнала 42 теперь соответствует максимальному уровню давления звука, возможному с устройством 41 декодирования и, в зависимости от присоединенных наушников, динамиков, или других преобразователей, возможно диапазону 110-120 дБ SPL с обычными наушниками.

Если значение 4 не присутствует в заданном битовом потоке 1, значение 37 громкости задается в уровень -7 дБ FS. Эмпирические изучения современной музыки (такие как в [5]) показывают, что это наблюдаемый верхний предел громкости для музыкального контента, который предназначен для полномасштабного проигрывания. Это обеспечивает мягкое стимулирование создателей музыки и распространителей для подготовки версий своего контента без сильного ограничения, сжатия, или усечения для распространения на устройства или экосистемы распространения, которые используют это изобретение, так как их контент будет тогда распространяться с метаданными 3 громкости, которые обеспечат возможность воспроизведения их контента так громко или громче, чем обыкновенная "сдавленная" версия контента.

Как в декодере предыдущего уровня техники по Фиг. 1, переключатель 12 управления динамическим диапазоном снова обеспечивает возможность выбора неизменения динамического диапазона, или применения либо значения 6 слабого управления динамическим диапазоном, либо значения 7 сильного управления динамическим диапазоном. Например, в мобильном телефоне значение 6 слабого управления динамическим диапазоном может быть применено, когда телефон соединен с внешней аудиосистемой через HDMI, и значение 7 сильного управления динамическим диапазоном может быть применено, когда используется гнездо для наушников. Эти значения управления динамическим диапазоном (или статичное предварительно заданное значение 43 управления динамическим диапазоном), которые могут быть заданы в ноль, если управление динамический диапазоном не применяется, затем подаются в умножитель 14, который масштабирует значения управления динамическим диапазоном в соответствии с новым пользовательским значением 25 управления сжатием, которое варьируется в диапазоне 0 - 1. Значение 25 управления сжатием обеспечивает возможность масштабирования значений 6, 7, 43 управления динамическим диапазоном так, чтобы переменная величина сжатия динамического диапазона могла быть применена к выходному аудиосигналу 42, независимо от уровня прослушивания. Значение значения 25 управления сжатием может быть получено от элемента управления пользовательским интерфейсом в устройстве 41 декодирования, из предварительных настроек, соответствующих режимам устройства 41 или его местоположению или конфигурации, из оценок окружающего шума, полученных устройством 41 декодирования, из эмпирически полученных функций задания общей силы звука или уровня вывода, или посредством других средств. Вывод 44 умножителя 14, содержащий отмасштабированные значения управления динамическим диапазоном, затем применяется к умножителю 13 обычным образом, причем умножитель 13 изменяет громкость аудиосигнала 8 устройства 9 декодирования аудио для дальнейшего изменения умножителем 15. Обработанный аудиосигнал 35, выводимый умножителем 15 (или в других вариантах осуществления, выводимый умножителем 13), соединяется с ограничивающим устройством 30 опционального варианта осуществления, разъясненного ниже, или непосредственно используется как выходной аудиосигнал 42.

Специалистам в данной области техники будет понятно, что может быть необходимость сдвига или масштабирования значения 20 управления силой звука либо в аудиомикшере 23 системы, либо вычитателе 28, так чтобы сила звука микшированного аудиосигнала 29 отслеживала громкость в отношении дополнительного аудиосигнала 24 с отрегулированной громкостью.

А предыдущих подходах к сопоставлению громкости контента различных жанров, таких как в [5], ограничитель использовался в сигнальной цепочке вслед за базовым аудиодекодером и применением метаданных управления динамическим диапазоном, для того, чтобы ограничить пики сигнала и таким образом увеличить средний уровень сигнала без усечения. Такой ограничитель должен функционировать таким образом, который ограничивает пики сигнала "мягким" образом посредством варьирования усиления сигнала по мере приближения или превышения порогового значения формой колебания сигнала, в противоположность "жесткому" ограничителю или устройству усечения, которое просто реализует математическое насыщение при пороговом уровне, чтобы избежать внесения слышимых артефактов в сигнал. Такие мягкие ограничители дороги в вычислительном плане, потенциально потребляют 10-30% рабочей нагрузки, совершаемой устройством декодирования.

В то же время, настоящее изобретение не требует ограничителя для управления пиком до среднего отношения выходного аудиосигнала 42 в целях сопоставления громкости, но может включать в себя опциональное ограничивающее устройство 30 в целях защиты от усечения, ограничения для избежания повреждения слуха, и ограничения художественного эффекта или увеличения сжатия. Конкретное устройство 41 декодирования может быть оборудовано ограничивающим устройством 30 для любой или всех их этих целей с варьирующейся стоимостью реализации, или ограничивающее устройство 30 может быть просто опущено. Каждый из этих случаев разъясняется ниже.

При рассмотрении случая защиты от усечения, должны быть рассмотрены два подслучая сигналов: Некоторые битовые потоки 1 могут не содержать каких-либо метаданных 3, таких как существующий музыкальный контент, уже присутствующий на пользовательском устройстве, который не анализировался на предмет громкости или динамического диапазона. В этом подслучае, умножитель 13 не активен, и умножитель 15 обеспечивает максимальное усиление единичного коэффициента при самой высокой настройке управления силой звука. Таким образом, единственным потенциалом для усечения является возможность перерегулирований, вызванных сжатием данных, в форме колебания сигнала. Величина потенциального перерегулирования, возможного с обыкновенными сигналами, может быть эмпирически определена для кодека со сжатием в пределах доверительного интервала как функция битов на выборку на канал или аналогичный показатель коэффициента сжатия. Обычная эмпирически определенная функция 56 предсказания усечения для AAC LC стерео битовых потоков показана на Фиг. 3. Специалистам в данной области техники должно быть понятно, что другие способы, эмпирические, аналитические, или итеративные, могут быть использованы для определения или предсказания величины усечения, которое может присутствовать.

Согласно предпочтительному варианту осуществления данного изобретения, показанного на Фиг. 4 и 5, процессор 27 сигналов содержит ограничивающее устройство 30, выполненное с возможностью ограничения амплитуды выходного аудиосигнала 42, при этом ограничивающее устройство 30 содержит ограничивающий компонент 62, имеющий ограничитель 51 и управляющий компонент 63, выполненный с возможностью управления ограничивающим компонентом 62, при этом обработанный аудиосигнал 35, который получен из аудиосигнала 8 посредством обработки по меньшей мере устройством 10, 15, 28 управления усилением, вводится в ограничивающий компонент 62, и при этом выходной аудиосигнал 42 выводится из ограничивающего компонента 62.

Ограничивающее устройство 30 обеспечивает ограничение в целях предотвращения усечения перерегулирования декодера, ограничения силы звука для предотвращения потери слуха или предпочтения пользователя, и художественное сжатие для обеспечения возможности обратимого генерирования контента с ограничением пика, когда необходимо из-за окружения прослушивания или вкуса пользователя.

Ограничитель 51 управляется посредством внутренних сигналов или подаваемого уровня пиков или художественных метаданных, который обеспечивает ограничение в целях предотвращения усечения перерегулирования декодера, ограничения силы звука для предотвращения потери слуха или предпочтения пользователя, и художественное сжатие для обеспечения возможности обратимого генерирования контента с ограничением пика, когда необходимо из-за окружения прослушивания или вкуса пользователя.

Ограничитель 51 является идеально эффективным, не осуществляющим усечение, опережающим ограничителем, таким как обычно используется для мастеринга цифрового аудио и известным специалистом в данной области техники. Например, он может быть реализацией, такой как описана в [8]. В качестве альтернативы, если защита от усечения не является желаемым признаком, но ограничение силы звука является, устройство жесткого усечения с пороговой величиной, заданной посредством выбора 58, может быть заменено, и компенсирующий буфер 53 удален или укорочен.

Согласно предпочтительному варианту осуществления данного изобретения, показанного на Фиг. 4, управляющий компонент 63 выполнен с возможностью управления ограничивающим компонентом 62 в зависимости от скорости передачи битов битового потока 1. Вероятность усечения перерегулирования декодера повышается при понижении скорости передачи битов. Вследствие этого, предотвращение усечения перерегулирования декодера улучшается, когда ограничивающий компонент 62 управляется в зависимости от скорости передачи битов битового потока 1.

В предпочтительном варианте осуществления этого опционального признака, значение скорости передачи битов 34 битового потока 1, декодируемого устройством 9 декодирования аудио, вводится в устройство 54 предсказания усечения, которое содержит функцию 56 предсказания усечения, реализованную в логических утверждениях или вентилях, как таблица соответствия, или посредством других способов реализации функции по меньшей мере одной переменной, как будет известно специалистам в данной области техники. Вывод функции 56 подается через функцию 59 минимума, аналогично реализованную, которая выбирает меньший из двух вводов, в устройство 55 сравнения. Здесь рассматривается, что признак ограничения силы звука, описанный ниже, не активен, и переключатель 58 выводит значение, соответствующее 0 дБ FS (полномасштабное), таким образом, чтобы функция 59 минимума всегда управлялась выводом функции 56 предсказания усечения. Таким образом устройство 55 сравнения сравнивает вывод функции 56 защиты от усечения с максимально возможным уровнем пика обработанного аудиосигнала 35 для определения, необходимо ли задействовать ограничитель 51 посредством переключателя ограничителя 52 для защиты от усечения на выходном аудиосигнале 42.

Согласно предпочтительному варианту осуществления данного изобретения, управляющий компонент выполнен с возможностью управления ограничивающим компонентом 62 в зависимости от эффективности сжатия устройства 9 декодирования аудио. Эффективность сжатия устройства аудиокодера, производящего битовый поток, и в то же время устройства 9 декодирования аудио, декодирующего битовый поток 1, описывает насколько уменьшается количество данных при кодировании первоначальных аудиоданных, для того, чтобы произвести битовый поток 1. Чем больше уменьшается количество данных, тем больше увеличивается вероятность усечения перерегулирования декодера. Поэтому предотвращение усечения перерегулирования декодера улучшается, когда ограничивающий компонент 62 управляется в зависимости от эффективности сжатия устройства 9 декодирования аудио.

В предпочтительном варианте осуществления этого опционального признака, эффективность сжатия устройства 9 декодирования аудио вводится в устройство 54 предсказания усечения, которое содержит функцию 56 предсказания усечения, реализованную в логических утверждениях или вентилях, как таблица соответствия, или посредством других способов реализации функции по меньшей мере одной переменной, как будет известно специалистам в данной области техники. Вывод функции 56 подается через функцию 59 минимума, аналогично реализованную, которая выбирает меньший из двух вводов, в устройство 55 сравнения. Здесь рассматривается, что признак ограничения силы звука, описанный ниже, не активен, и переключатель 58 выводит значение, соответствующее 0 дБ FS (полномасштабное), таким образом, чтобы функция 59 минимума всегда управлялась выводом функции 56 предсказания усечения. Таким образом устройство 55 сравнения сравнивает вывод функции 56 защиты от усечения с максимально возможным уровнем пика обработанного аудиосигнала 35 для определения, необходимо ли задействовать ограничитель 51 посредством переключателя ограничителя 52 для защиты от усечения на выходном аудиосигнале 42.

В случаях, когда максимальный уровень обработанного выходного сигнала 35 базового декодера меньше, чем уровень, предсказанный функцией 56 предсказания усечения, возможность усечения из-за перерегулирований декодера отсутствует (в пределах доверительного интервала или границы ошибок функции 54), и переключатель 52 выбирает вывод компенсирующего буфера 53. Вышеуказанный буфер является лишь задержкой, чтобы совпадать с задержкой обработки ограничителя 51, и будет вносить только незначительную вычислительную рабочую нагрузку, по сравнению со значительной рабочей нагрузкой ограничителя 51.

Согласно предпочтительному варианту осуществления данного изобретения, управляющий компонент 63 выполнен с возможностью управления ограничивающим компонентом 62 в зависимости от значения 33 усиления устройства 10, 15, 28 управления усилением. Максимально возможный уровень пика выходного аудиосигнала 42 определяется в этом подслучае значением 33 усиления устройства 10, 15, 28 управления усилением. Если вышеуказанное значение составляет 0 дБ, устройство 41 декодирования функционирует при своих полномасштабных ограничениях, как диктуется максимальным заданием значения 20 управления силой звука. По мере уменьшения вышеуказанного значения 20 управления силой звука, устройство 41 декодирования будет функционировать так, чтобы полномасштабный битовый поток значения достиг только максимального уровня, заданного значением 33 усиления устройства 10, 15, 28 управления усилением.

В этом подслучае, когда метаданные 3 отсутствуют, переключатель 60 выводит значение 0 дБ FS, так как оно является максимально возможным во входящих аудиоданных 2 битового потока 1.

Согласно предпочтительному варианту осуществления данного изобретения управляющий компонент 63 выполнен с возможностью управления ограничивающим компонентом 62 в зависимости от значения 36 истинного пика, переданного в метаданных 3 громкости битового потока 1 и указывающего уровень максимального пика источника аудио, преобразованного в битовый поток 1 внешним кодером. Использование этого значения 36 истинного пика обеспечивает возможность вычисления более точного значения для максимально возможного уровня пика выходного аудиосигнала 42.

В случае, когда битовые потоки содержат метаданные 3 громкости, может быть точно определено, чтобы метаданные 3 также включали в себя измерение истинного пика, точно определенное стандартом ITU BS. 1770-3. В этом подслучае, переключатель 60 выбирает значение 36 истинного пика, содержащееся в метаданных 3 громкости, вместо константы 0 дБ FS. Сумма регулировки 33 усиления и значения 36 истинного пика, указывающего амплитуду максимального пика ввода 35 сигнала в ограничитель 30, вычисляется сумматором 61 и затем сравнивается с выводом функции 56 усечения посредством устройства 55 сравнения. Использование этого значения 36 метаданных истинного пика лишь обеспечивает возможность вычисления более точного значения для максимально возможного уровня пика выходного аудиосигнала 42.

Согласно предпочтительному варианту осуществления данного изобретения, управляющий компонент 63 выполнен с возможностью управления ограничивающим компонентом 62 в зависимости от значения 57 ограничения силы звука, заданного пользователем или изготовителем, для того, чтобы предотвратить повреждение слуха. Посредством этих признаков, повреждения слуха могут быть эффективно предотвращены.

В случае ограничения для предотвращения повреждения слуха, пользователь или изготовитель устройства может задать уровень 57 максимального пика, которым должен быть ограничен вывод, с использованием сигнала ограничения силы звука. Когда переключатель 58 переключен для активации этого признака ограничения силы звука, функция 59 минимума выбирает наименьший из двух уровней вывода, необходимых также для задействования ограничителя 51 для ограничения вывода в результате предотвращения усечения или для ограничения силы звука. Вывод переключателя 58 является также вводом в ограничитель 51 для задания его пороговой величины в соответствующий уровень.

Согласно предпочтительному варианту осуществления данного изобретения, показанному на Фиг. 5, управляющий компонент 63 выполнен с возможностью управления ограничивающим компонентом 62 в зависимости от параметров 32 художественного ограничителя, переданных в метаданных 3 громкости битового потока 1 и указывающих пороговые значения 74a художественного ограничителя, значения 74b времени срабатывания художественного ограничителя и/или значения 74c времени освобождения художественного ограничителя. Эти признаки обеспечивают возможность функционирования ограничивающего устройства 30 под творческим управлением художника или создателя контента. Значения 6, 7 управления динамическим диапазоном, содержащиеся в метаданных 3 громкости, рассмотренных ранее, обеспечивают возможность привязки общего динамического диапазона контента к окружению прослушивания посредством использования значений усиления сжатия, которые действуют с типичными временными константами 100 мс - 3 секунды. В сложных окружениях прослушивания, сжатие аудиосигнала с этими временными константами могут не произвести сигнал с достаточной громкостью для разборчивости или удовлетворения без неприятно высоких уровней пиков. Есть также вероятность, что создатели музыки, которые обычно производили только сильно сжатый "сдавленный" микс, могут захотеть использовать гибкость этого изобретения, чтобы производить как "сдавленный" микс, так и "несдавленный" микс с меньшим ограничением и сжатием, так чтобы потребители могли слышать "несдавленную" версию в тихих окружениях или по желанию. Для решения обоих этих вопросов, ограничитель 30 может быть переконфигурирован для функционирования в режиме художественного ограничителя, как показано на Фиг. 5.

В этом режиме, метаданные 3 громкости включают в себя параметры 32 художественного ограничителя, показанные в обозначении электрической шины на Фиг. 5, которые отправляются для каждого аудиокадра контента. Содержащимися в 32 являются время срабатывания ограничителя, время освобождения, и пороговые значения для слабого и сильного режимов, выбираемых переключателем 12 и выбираемых соответствующим образом сгруппированным переключателем 73 для шины 74 вывода. Шина 74 содержит выбранное пороговое значение 74a художественного ограничителя, которое добавляется к регулировке 33 усиления декодера посредством сумматора 71, и желаемое время 74b и 74c срабатывания и освобождения, которые подаются непосредственно в ограничитель 51. Функция 72 минимума используется для осуществления выбора либо ограничения 57 силы звука (или 0 дБ FS, если ограничение силы звука не используется), либо вывода сумматора 71. Таким образом, обычно ограничитель 51 функционирует с пороговой величиной, управляемой значением 74a, пока значение 20 управления силой звука не увеличится до точки, где достигается ограничение силы звука, и ограничивает максимальный уровень пороговой величины ограничителя. В этом режиме, ограничитель 51 функционирует непрерывно, и переключатель 52 всегда находится в показанном положении. Художественное использование этих параметров может быть достигнуто посредством контролирования вывода устройства, подключаемого программного аудиомодуля, или другого устройства, содержащего копию данного изобретения, во время микширования, мастеринга, или других творческих операций или операций распространения.

Согласно предпочтительному варианту осуществления данного изобретения, нет возможности применения дополнительного усиления после ограничивающего устройства 30, чтобы искусственно увеличить его громкость, так как это устранит мягкое стимулирование, упомянутое выше.

Согласно предпочтительному варианту осуществления данного изобретения, управляющий компонент 63 выполнен с возможностью непрерывного или циклического управления ограничивающим компонентом 62. Эти признаки обеспечивают возможность переменного управления ограничивающим компонентом 62 во времени.

Согласно предпочтительному варианту осуществления данного изобретения, ограничивающее устройство 30 выполнено с возможностью обхода ограничителя 51 посредством обходного устройства 53, имеющего функцию пересылки, которая, касательно усиления и задержки, аналогична функции пересылки ограничителя 51. Посредством этих признаков рабочая нагрузка процессора 27 сигналов может быть значительно уменьшена.

Специалистам в данной области техники будет понятно, что этот процесс может быть реализован в виде программного обеспечения, как последовательность компьютерных инструкций, или в виде аппаратных компонентов. Описанные здесь операции обычно выполняются как программные инструкции посредством CPU или процессор цифровой обработки сигналов компьютера, и регистры и операторы, показанные на Фигурах, могут быть реализованы посредством соответствующих компьютерных инструкций. Однако, это не исключает вариант осуществления в виде эквивалентного аппаратного проекта, использующего аппаратные компоненты. Также, специалистам в данной области техники будет понятно, что значения 4, 6,7, 20, 33, 36, 57, 74a, и другие будут обычно выражаться в логарифмически масштабированной области, что является стандартной практикой и точно определено в связанных стандартах. Кроме того, функционирование данного изобретения показано здесь последовательным, элементарным образом. Специалистам в данной области техники будет понятно, что операции могут быть объединены, преобразованы, или предварительно вычислены для того, чтобы оптимизировать эффективность при реализации на конкретных аппаратных средствах или программной платформе. Также, будет понятно, что эти операции могут выполняться в отношении данных временной области или могут выполняться в одной или более полосах частот в частотной области.

В конструкций усовершенствованного устройства 41 декодирования, специалисты в данной области техники поймут, что будет необходимо использовать числовые представления, длины регистров, или другие обыкновенные средства для избежания внутреннего насыщения, усечения, или переполнения в тракте сигнала из аудиодекодера 9 через умножители 13 и 15, и опциональное ограничивающее устройство 30 в отношении выходного аудиосигнала 42, также как и везде в данном изобретении.

Кроме того будет понятно, что хотя данное изобретение предлагает конкретное преимущество управления усечением, производимым посредством перерегулирования декодера в кодеках сжатия аудиоданных с потерями, таких как AAC, MP3, или Dolby Digital, что оно может также быть использовано в аудиосистемах с аудиокодеками без потерь или с аудиосигналами, которые совсем не сжаты кодеком.

ДАННОЕ ИЗОБРЕТЕНИЕ МОЖЕТ ПРЕДУСМАТРИВАТЬ:

1. Систему для нормализации громкости аудио, которая обеспечивает вывод, чье полномасштабное значение предназначено соответствовать выходному напряжению максимального пика или уровню давления звука включающего устройства, с вышеуказанным уровнем громкости вывода или средней мощностью, управляемой непосредственно или косвенно пользовательским элементом управления силой звука вышеуказанного устройства, так чтобы и контент с метаданными громкости аудио, и контент без метаданных громкости аудио, но нормализованный до его полномасштабных значений, воспроизводились примерно с одинаковым уровнем громкости аудио.

2. Систему, где долговременная средняя мощность или воспринимаемая громкость контента без метаданных аудио оценивается посредством фиксированного значения, определенного посредством эмпирического или статистического анализа контента.

3. Систему, где оценка склоняется к воспроизведению обычного контента без метаданных при немного более низкой громкости, чем того же контента с правильно подготовленными метаданными, таким образом обеспечивая стимулирование к использованию вышеуказанных метаданных.

4. Систему для декодирования аудио со сжатием данных, содержащую ограничитель выходного пика, в котором необходимость ограничения пика в целях предотвращения усечения в отношении перерегулирований декодера определяется целевым уровнем аудиодекодера со сжатием и вычисленной функцией эффективности сжатия аудиокодека или скоростью передачи битов.

5. Систему для декодирования аудио со сжатием данных, содержащую ограничитель выходного пика, в котором необходимость ограничения пика в целях предотвращения усечения в отношении перерегулирований декодера определяется целевым уровнем аудиодекодера со сжатием, вычисленной функцией эффективности сжатия аудиокодека или скоростью передачи битов, и значением метаданных, указывающим уровень максимального пика аудиопрограммы, передаваемой в сжатом битовом потоке.

6. Систему для декодирования аудио со сжатием данных, содержащую ограничитель выходного пика, в котором необходимость ограничения пика в целях ограничения вывода аудио с максимальным пиком для устройства определяется целевым уровнем аудиодекодера со сжатием.

7. Систему для декодирования аудио со сжатием данных или обработки аудио, содержащую ограничитель выходного пика, в котором необходимость ограничения пика в целях ограничения вывода аудио с максимальным пиком для устройства определяется значением масштабирующего усиления, примененного к аудиосигналу.

8. Систему для декодирования аудио со сжатием данных или обработки аудио, содержащую ограничитель выходного пика, в котором необходимость ограничения пика в целях ограничения вывода аудио с максимальным пиком для устройства определяется значением масштабирующего усиления, примененного к аудиосигналу, и значением метаданных, указывающим уровень максимального пика аудиопрограммы, передаваемой в сжатом битовом потоке.

9. Система, где ограничитель заменен функцией с аналогичным усилением и задержкой, когда ограничение не требуется.

10. Систему для декодирования аудио со сжатием данных или обработки аудио, содержащую ограничитель выходного пика, где пороговая величина ограничителя пика управляется значением метаданных, передаваемым в сжатом битовом потоке на периодической основе.

11. Соответствующий способ или невременное хранилище для нормализации громкости аудио, которая обеспечивает вывод, чье полномасштабное значение предназначено соответствовать выходному напряжению максимального пика или уровню давления звука включающего устройства, с вышеуказанным уровнем громкости вывода или средней мощностью, управляемой непосредственно или косвенно пользовательским элементом управления силой звука вышеуказанного устройства, так чтобы и контент с метаданными громкости аудио, и контент без метаданных громкости аудио, но нормализованный до его полномасштабных значений, воспроизводились примерно с одинаковым уровнем громкости аудио.

Хотя некоторые аспекты были описаны в контексте устройства, ясно, что эти аспекты также представляют описание соответствующего способа, где блок или устройство соответствует этапу способа, или признака этапа способа. Аналогично, аспекты, описанные в контексте этапа способа, также представляют описание соответствующего блока, или элемента, или признака соответствующего устройства. Некоторые или все из этапов способа могут быть выполнены посредством (или используя) аппаратного устройства, как, например, микропроцессора, программируемого компьютера или электронной схемы. В некоторых вариантах осуществления, некоторый один или более из наиболее важных этапов способа могут быть выполнены таким устройством.

В зависимости от определенных требований реализации, варианты осуществления данного изобретения могут быть реализованы в аппаратных средствах или программном обеспечении. Данная реализация может быть выполнена с использованием постоянного носителя информации, такого как цифровой носитель информации, например, floppy-диск, DVD, Blue-Ray, CD, ROM, PROM, EPROM, EEPROM или flash-память, имеющий электронно считываемые сигналы управления, хранящиеся на нем, которые взаимодействуют (или способны взаимодействовать) с программируемой компьютерной системой, так чтобы выполнялся соответствующий способ. Вследствие этого, цифровой носитель информации может иметь возможность считывания компьютером.

Некоторые варианты осуществления согласно данному изобретению содержат носитель данных, имеющий электронно считываемые сигналы управления, которые способны взаимодействовать с программируемой компьютерной системой, так чтобы выполнялся один из способов, описанных в настоящем документе.

В общем, варианты осуществления настоящего изобретения могут быть реализованы как компьютерный программный продукт с программным кодом, причем программным кодом, действующим для выполнения одного из способов, когда компьютерный программный продукт выполняется на компьютере. Программный код может, например, храниться на машиночитаемом носителе.

Другие варианты осуществления содержат компьютерную программу для выполнения одного из способов, описанных в настоящем документе, хранящихся на машиночитаемом носителе.

Другими словами, вариант осуществления патентоспособного способа, вследствие этого, является компьютерной программой, имеющей программный код для выполнения одного из способов, описанных в настоящем документе, когда компьютерная программа выполняется на компьютере.

Дополнительный вариант осуществления патентоспособного способа, вследствие этого, является носителем данных (или цифровым носителем информации или компьютерно-читаемым носителем), содержащим, записанную на нем, компьютерную программу для выполнения одного из способов, описанных в настоящем документе. Носитель данных, цифровой носитель информации или носитель записи обычно являются материальными и/или постоянными.

Дополнительный вариант осуществления способа изобретения, вследствие этого, является потоком данных или последовательностью сигналов, представляющих компьютерную программу для выполнения одного из способов, описанных в настоящем документе. Поток данных или последовательность сигналов могут, например, быть выполнены с возможностью пересылки через соединение передачи данных, например через Интернет.

Дополнительный вариант осуществления содержит средства обработки, например, компьютер или программируемое логическое устройство, выполненное с возможностью или адаптированное для выполнения одного из способов, описанных в настоящем документе.

Дополнительный вариант осуществления содержит компьютер, имеющий установленную на нем компьютерную программу для выполнения одного из способов, описанных в настоящем документе.

Дополнительный вариант осуществления согласно данному изобретению содержит устройство или систему, выполненные с возможностью пересылки (например, электронным образом или оптическим образом) компьютерной программы для выполнения одного из способов, описанных в настоящем документе, в приемник. Приемник может, например, быть компьютером, мобильным устройством, запоминающим устройством или тому подобным. Устройство или система могут, например, содержать файл-сервер для пересылки компьютерной программы в приемник.

В некоторых вариантах осуществления, программируемое логическое устройство (например, программируемая пользователем вентильная матрица) может быть использовано для выполнения некоторых или всех функциональных возможностей способов, описанных в настоящем документе. В некоторых вариантах осуществления, программируемая пользователем вентильная матрица может взаимодействовать с микропроцессором для выполнения одного из способов, описанных в настоящем документе. В общем, способы предпочтительно выполняются любым аппаратным устройством.

Вышеописанные варианты осуществления являются лишь иллюстративными для принципов настоящего изобретения. Следует понимать, что модификации и вариации данных компоновок и сведений, описанных в настоящем документе, будут очевидны специалистам в данной области техники. Это является замыслом, вследствие этого, который следует ограничить только объемом предстоящих пунктов формулы изобретения, и не конкретными сведениями, представленными с целью описания и разъяснения вариантов осуществления в настоящем документе.

ССЫЛОЧНЫЕ ОБОЗНАЧЕНИЯ:

1 битовый поток

2 аудиоданные

3 метаданные громкости

4 значение опорной громкости

5 значение усиления понижающего микширования

6 значение слабого управления динамическим диапазоном

7 значение сильного управления динамическим диапазоном

8 аудиосигнал

9 устройство декодирования аудио

10 декодер опорной громкости

11 декодер усиления понижающего микширования

12 переключатель управления динамическим диапазоном

13 процессор динамического диапазона

14 калькулятор динамического диапазона

15 процессор громкости

16 калькулятор усиления

17 поставщик статического целевого уровня

18 выходной аудиосигнал

19 микшированный аудиосигнал

20 значение управления силой звука

21 устройство декодирования

22 дополнительный аудиосигнал

23 микшер аудиосигнала

24 дополнительный аудиосигнал с отрегулированной громкостью

25 значение управления сжатием

26 процессор сигналов

27 процессор сигналов

28 калькулятор усиления

29 микшированный аудиосигнал

30 ограничивающее устройство

31 значение громкости

32 параметры художественного ограничителя

33 значение усиления

34 значение скорости передачи битов

35 обработанный аудиосигнал

36 значение истинного пика

37 значение громкости

41 устройство декодирования

42 выходной аудиосигнал

43 предварительно заданное значение управления динамическим диапазоном

44 значение динамического диапазона

51 ограничитель

52 переключатель ограничителя

53 обходное устройство

54 устройство предсказания усечения

55 устройство сравнения

56 функция предсказания усечения

57 значение ограничения силы звука

58 переключатель ограничения силы звука

59 устройство обнаружения минимума

60 переключатель значения истинного пика

61 устройство объединения

62 ограничивающий компонент

63 управляющий компонент

71 устройство объединения

72 устройство обнаружения минимума

73 переключатель управления динамическим диапазоном

74 выходные данные переключателя управления динамическим диапазоном 70a пороговое значение художественного ограничителя

70b значение времени срабатывания художественного ограничителя

70c значение времени освобождения художественного ограничителя.

ИСПОЛЬЗОВАННАЯ ЛИТЕРАТУРА:

[1] Международная организация по стандартизации и Международная электротехническая комиссия, ISO/IEC 14496-3 Information technology -Coding of audio-visual objects - Part 3: Audio, www.iso.org.

[2] Европейский институт стандартов связи, ETSI TS 101 154: Digital Video Broadcasting (DVB); Specification for the use of Video и Audio Coding in Broadcasting Applications based on the MPEG-2 transport stream, www.etsi.org.

[3] Комитет по усовершенствованным телевизионным системам, Inc., Audio Compression Standard A/52, www.atsc.org.

[4] Международный союз телекоммуникаций, Рекомендация ITU-R BS. 1770-3: Algorithms to measure audio programme loudness and true-peak audio level, www.itu.int.

[5] Martin Wolters, Harald Mundt, и Jeffrey Riedmiller, "Loudness Normalization In The Age Of Portable Media Players", paper 8044, Сообщество аудиоинженеров, 128-ая конференция, www.aes.org

[6] Florian Camerer, et at, "Loudness Normalization: The Future of File-Based Playback", Альянс по громкости музыки, www.music-громкость.com.

[7] Dolby Laboratories, Inc., Dolby Digital Professional Encoding Guidelines, www.dolby.com.

[8] Perttu Hamalainen, "Smoothing Of The Control Signal Without Clipped Output In Digital Peak Limiters", труды 5-ой Международной конференции по цифровым аудиоэффектам, Гамбург, Германия, 26-28 сентября, 2002.

1. Устройство декодирования для декодирования битового потока (1) для того, чтобы произвести из него выходной аудиосигнал (42), причем битовый поток (1) содержит аудиоданные (2) и опционально метаданные (3) громкости, содержащие значение (4) опорной громкости, причем устройство (41) декодирования содержит:

устройство (9) декодирования аудио, выполненное с возможностью реконструирования аудиосигнала (8) из аудиоданных (2); и

процессор (27) сигналов, выполненный с возможностью производства выходного аудиосигнала (42) на основе аудиосигнала (8);

при этом процессор (27) сигналов содержит устройство (10, 15, 28) управления усилением, выполненное с возможностью регулирования уровня громкости выходного аудиосигнала (42);

при этом устройство (10, 15, 28) управления усилением содержит декодер (10) опорной громкости, выполненный с возможностью создания значения (37) громкости, при этом значением (37) громкости является значение (4) опорной громкости в случае, когда значение (4) опорной громкости присутствует в битовом потоке (1);

при этом устройство (10, 15, 28) управления усилением содержит калькулятор (28) усиления, выполненный с возможностью вычисления значения (33) усиления на основе значения (37) громкости и на основе значения (20) управления силой звука, которое предоставляется пользовательским интерфейсом, обеспечивающим пользователю возможность управления значением (20) управления силой звука;

при этом устройство (10, 15, 28) управления усилением содержит процессор (15) громкости, выполненный с возможностью управления уровнем громкости выходного аудиосигнала (42) на основе значения (33) усиления.

2. Устройство декодирования по п. 1, в котором значением (33) громкости является предварительно заданное значение громкости в случае, когда значение (4) опорной громкости не присутствует в битовом потоке (1).

3. Устройство декодирования по п. 2, в котором предварительно заданному значению громкости задается значение между -4 дБ и -10 дБ, в частности между -6 дБ и -8 дБ, относящееся к полномасштабной амплитуде.

4. Устройство декодирования по п. 1, в котором процессор (27) сигналов содержит устройство (12, 13, 14) управления динамическим диапазоном, выполненное с возможностью регулирования динамического диапазона выходного аудиосигнала (42),

при этом устройство (12, 13, 14) управления динамическим диапазоном содержит переключатель (12) управления динамическим диапазоном, выполненный с возможностью получения по меньшей мере одного значения (6, 7) управления динамическим диапазоном из метаданных (3) громкости и вывода в качестве альтернативы одного из полученных значений (6, 7) управления динамическим диапазоном или предварительно заданного значения (43) управления динамическим диапазоном,

при этом устройство (12, 13, 14) управления динамическим диапазоном содержит калькулятор (14) динамического диапазона, выполненный с возможностью вычисления значения (44) динамического диапазона на основе значения (6, 7, 43) управления динамическим диапазоном, выведенного переключателем (12) управления динамическим диапазоном, и на основе значения (25) управления сжатием, которое предоставлено посредством пользовательского интерфейса, обеспечивающего пользователю возможность управления значением (25) управления сжатием;

при этом устройство (12, 13, 14) управления динамическим диапазоном содержит процессор (13) динамического диапазона, выполненный с возможностью управления динамическим диапазоном выходного аудиосигнала (42) на основе значения (44) динамического диапазона.

5. Устройство декодирования по п. 1, в котором процессор (27) сигналов содержит ограничивающее устройство (30), выполненное с возможностью ограничения амплитуды выходного аудиосигнала (42), при этом ограничивающее устройство (30) содержит ограничивающий компонент (62), имеющий ограничитель (51) и управляющий компонент (63), выполненный с возможностью управления ограничивающим компонентом (62), при этом обработанный аудиосигнал (35), который получен из аудиосигнала (8) посредством обработки по меньшей мере устройством (10, 15, 28) управления усилением, вводится в ограничивающий компонент (62), и при этом выходной аудиосигнал (42) выводится из ограничивающего компонента (62).

6. Устройство декодирования по п. 5, в котором управляющий компонент (63) выполнен с возможностью управления ограничивающим компонентом (62) в зависимости от скорости передачи битов битового потока (1).

7. Устройство декодирования по п. 5, в котором управляющий компонент (63) выполнен с возможностью управления ограничивающим компонентом (62) в зависимости от эффективности сжатия устройства (9) декодирования аудио.

8. Устройство декодирования по п. 5, в котором управляющий компонент (63) выполнен с возможностью управления ограничивающим компонентом (62) в зависимости от значения (36) истинного пика, переданного в метаданных (3) громкости битового потока (1) и указывающего уровень максимального пика источника аудио, преобразованного в битовый поток (1) внешним кодером.

9. Устройство декодирования по п. 5, в котором управляющий компонент (63) выполнен с возможностью управления ограничивающим компонентом (62) в зависимости от значения усиления (33) устройства (10, 15, 28) управления усилением.

10. Устройство декодирования по п. 5, в котором управляющий компонент (63) выполнен с возможностью управления ограничивающим компонентом (62) в зависимости от значения (57) ограничения силы звука, заданного пользователем или изготовителем, для того, чтобы предотвратить повреждение слуха.

11. Устройство декодирования по п. 5, в котором управляющий компонент (63) выполнен с возможностью управления ограничивающим компонентом (62) в зависимости от параметров (32) художественного ограничителя, переданных в метаданных (3) громкости битового потока (1) и указывающих пороговые значения (74а) художественного ограничителя, значения (74b) времени срабатывания художественного ограничителя и/или значения (74 с) времени освобождения художественного ограничителя.

12. Устройство декодирования по п. 5, в котором управляющий компонент (63) выполнен с возможностью непрерывного или циклического управления ограничивающим компонентом (62).

13. Устройство декодирования по п. 5, в котором ограничивающее устройство (30) выполнено с возможностью обхода ограничителя (51) посредством обходного устройства (53), имеющего функцию пересылки, которая, касательно усиления и задержки, аналогична функции пересылки ограничителя (51).

14. Система для производства битового потока (1) и декодирования битового потока (1), причем система содержит устройство кодирования для производства битового потока (1) и устройство (41) декодирования для декодирования битового потока (1), причем устройство (41) декодирования спроектировано согласно одному из пп. 1-13.

15. Способ декодирования битового потока (1) для того, чтобы произвести из него выходной аудиосигнал (42), причем битовый поток (1) содержит аудиоданные (2) и опционально метаданные (3) громкости, содержащие значение (4) опорной громкости, причем способ содержит этапы, на которых:

реконструируют аудиосигнал (8) из аудиоданных (2) с использованием устройства (9) декодирования аудио; и

производят выходной аудиосигнал (42) на основе аудиосигнала (8) с использованием процессора (27) сигналов;

при этом уровень громкости выходного аудиосигнала (42) регулируется с использованием устройства (10, 15, 28) управления усилением, содержащимся в процессоре (27) сигналов;

при этом значение (37) громкости создается декодером (10) опорной громкости, содержащимся в устройстве (10, 15, 28) управления усилением, при этом значение (37) громкости является значением (4) опорной громкости в случае, когда значение (4) опорной громкости присутствует в битовом потоке;

при этом значение (33) усиления вычисляется на основе значения (37) громкости и на основе значения (20) управления силой звука, которое предоставляется посредством пользовательского интерфейса, обеспечивающего пользователю возможность управления значением (20) управления силой звука, посредством калькулятора (28) усиления, содержащегося в устройстве (10, 15, 28) управления усилением;

при этом уровнем громкости выходного аудиосигнала (42) управляют на основе значения (33) усиления посредством процессора (15) громкости, содержащегося в устройстве (10, 15, 28) управления усилением.

16. Машиночитаемый носитель данных, содержащий компьютерную программу для выполнения, когда исполняется на компьютере или процессоре, способа по п. 15.



 

Похожие патенты:

Изобретение относится к декодированию аудиосигнала. Технический результат изобретения заключается в расширении возможностей многоканального воспроизведения индивидуального аудиоконтента с целью улучшения слухового ощущения.

Изобретение относится к области кодирования аудио и речи. Технический результат – обеспечение эффективного сокращения объема вычислений при преобразовании коэффициентов линейного предсказания.

Изобретение относится к области обработки сигналов. Технический результат заключается в расширении арсенала технических средств для кодирования сигналов.

Изобретение относится к средствам для уменьшения шума квантования в сигнале, содержащемся в возбуждении во временной области, декодируемом декодером временной области.

Изобретение относится к кодированию спектральных коэффициентов спектра аудиосигнала, используемого в различных аудиокодеках на основе преобразования. Технический результат – повышение эффективности кодирования спектральных коэффициентов спектра аудиосигнала за счет кодирования/декодирования спектрального коэффициента, подлежащего кодированию/декодированию в данный момент времени, путем энтропийного кодирования/декодирования.

Изобретение относится к средствам для кодирования гармонического звукового сигнала. Технический результат заключается в повышении качества кодированного гармонического звукового сигнала.

Изобретение относится к технике связи. Технический результат – повышение эффективности кодирования со сжатием и повышение качества сигнала.

Изобретение относится к области обработки звуковых сигналов. Технический результат – устранение нежелательных артефактов при кодировании/декодировании звуковой программы.

Изобретение относится к средствам для кодирования аудиосигнала. Технический результат заключается в повышении эффективности кодирования аудио.

Изобретение относится к средствам для кодирования звука с использованием линейного предсказания. Технический результат заключается в обеспечении низкой скорости передачи данных при низком уровне паразитных частот.

Изобретение относится к средствам для гибридного усиления речи. Технический результат заключается в повышении слышимости речевого содержимого звукового сигнала относительно неречевого звукового содержимого. Предлагаемый способ гибридного усиления речи использует усиление с параметрическим кодированием при некоторых состояниях сигнала и усиление с кодированием формы сигнала при остальных состояниях сигнала. Другими аспектами являются способы генерирования битового потока, указывающего на звуковую программу, включающую речевое и другое содержимое, так что гибридное усиление речи может быть выполнено в отношении программы, декодер, включающий буфер, который хранит по меньшей мере один сегмент кодированного битового аудиопотока, сгенерированного любым вариантом осуществления способа изобретения, и система или устройство, выполненное с возможностью выполнения любого варианта осуществления способа изобретения. По меньшей мере некоторые из операций усиления речи выполнены принимающим аудиодекодером с использованием метаданных усиления речи средних/побочных каналов, сгенерированных расположенным выше по потоку аудиокодером. 8 н. и 29 з.п. ф-лы, 11 ил.

Изобретение относится к средствам для декодирования кодированного аудиосигнала. Технический результат заключается в обеспечении возможности кодирования аудиосигналов в широком диапазоне скоростей передачи битов. Устройство для декодирования кодированного аудиосигнала, содержащего кодированный базовый сигнал, содержит: базовый декодер для декодирования кодированного базового сигнала, чтобы получать декодированный базовый сигнал; модуль формирования фрагментов для формирования одного или более спектральных фрагментов, имеющих частоты, не включенные в декодированный базовый сигнал, с использованием спектральной части декодированного базового сигнала; и фильтр разделения для спектральной фильтрации для разделения декодированного базового сигнала и первого частотного фрагмента, имеющего частоты, идущие от частоты заполнения интервалов отсутствия сигнала до верхней граничной частоты, либо для спектральной фильтрации для разделения первого частотного фрагмента и второго частотного фрагмента. 3 н. и 12 з.п. ф-лы, 35 ил.

Изобретение относится к области кодирования аудиосигналов и предназначено для преобразования первого и второго входных каналов в один выходной канал, и в частности, предназначено для использования при преобразовании формата между различными конфигурациями каналов громкоговорителей. Технический результат - улучшенное воспроизведение звука в случае преобразования формата между различными конфигурациями каналов громкоговорителей. Пространственное кодирование аудио начинается с множества исходных входных, например пяти или семи входных каналов, которые идентифицируются посредством их размещения в компоновке для воспроизведения в качестве левого канала, центрального канала, правого канала, левого канала объемного звучания, правого канала объемного звучания и канала улучшения низких частот (LFE). В устройстве каждый входной канал и каждый выходной канал имеет направление, в котором расположен ассоциированный громкоговоритель относительно центральной позиции слушателя, при этом устройство выполнено с возможностью преобразовывать первый входной канал в первый выходной канал из конфигурации выходных каналов. 3 н. и 1 з.п. ф-лы, 14 ил.

Изобретение относится к области обработки и декодирования аудио сигнала, содержащего переходные процессы. Технический результат заключается в повышении скорости передачи данных за счет различной обработки сигнала переходного процесса и сигнала, не содержащего переходный процесс. Устройство содержит блок приема для приема фазовой информации, блок отделения сигнала переходного процесса, декоррелятор переходного процесса, второй декоррелятор и блок объединения, в котором блок отделения сигнала переходного процесса приспособлен для разделения входного сигнала на первый компонент сигнала и на второй компонент сигнала таким образом, чтобы первый компонент сигнала содержал части сигнала переходного процесса входного сигнала, и таким образом, чтобы второй компонент сигнала содержал части сигнала без переходного процесса входного сигнала. Декоррелятор переходного процесса адаптирован для применения фазовой информации, принятой блоком приема, к компоненту сигнала переходного процесса. 3 н. и 4 з.п. ф-лы, 6 ил.

Настоящее изобретение относится к системе звукового кодирования и декодирования. Технический результат заключается в повышении гибкости в отношении допущения разных скоростей передачи данных и разных уровней искажений. Модуль квантования, сконфигурированный для квантования первого коэффициента из блока коэффициентов. Этот блок коэффициентов содержит ряд коэффициентов для ряда соответствующих элементов разрешения по частоте. Модуль квантования сконфигурирован для создания набора квантователей. Этот набор квантователей содержит ряд различных квантователей, связанных с рядом различных отношений сигнал-шум, соответственно, именуемых SNR. Этот ряд различных квантователей содержит квантователь с заполнением шумом; один или несколько квантователей с добавлением псевдослучайного шума; и один или несколько квантователей без добавления псевдослучайного шума. Модуль квантования также сконфигурирован для определения указателя SNR, служащего признаком SNR, приписанного указанному первому коэффициенту, и для выбора первого квантователя из набора квантователей на основе этого указателя SNR. В дополнение, модуль квантования сконфигурирован для квантования указанного первого коэффициента с использованием указанного первого квантователя. 6 н. и 14 з.п. ф-лы, 19 ил.

Изобретение относится к области акустического анализа. Технический результат – обеспечение захвата рассеянного звука, поступающего на микрофонный массив со всех направлений, путем получения лучшей диаграммы направленности фильтра рассеянного звука. Способ содержит этап, на котором оценивают пространственную когерентность между первым участком рассеянного звука в первом микрофонном сигнале и вторым участком рассеянного звука во втором микрофонном сигнале. Первый микрофонный сигнал захватывается первым микрофоном, а второй микрофонный сигнал захватывается вторым микрофоном, который расположен на расстоянии от первого микрофона. Способ дополнительно содержит этап, на котором определяют линейное ограничение для коэффициентов фильтрации фильтра рассеянного звука, причем линейное ограничение основано на пространственной когерентности. Способ также содержит этап, на котором вычисляют по меньшей мере одно из статистики сигналов и статистики шумов в отношении первого микрофонного сигнала и второго микрофонного сигнала. Способ также содержит этап, на котором определяют коэффициенты фильтрации фильтра рассеянного звука путем решения оптимизационной задачи в отношении по меньшей мере одного из статистики сигналов и статистики шумов, с учетом линейного ограничения для коэффициентов фильтрации. 3 н. и 12 з.п. ф-лы, 8 ил.

Изобретение относится к средствам для маскирования ошибок при кодировании/декодировании аудио. Технический результат заключается в восстановлении качества звучания без увеличения алгоритмической задержки, когда происходит потеря пакета при кодировании аудио. Устройство передачи аудиосигнала для кодирования аудиосигнала включает в себя блок кодирования аудио, который кодирует аудиосигнал, и блок кодирования побочной информации, который вычисляет и кодирует побочную информацию из прогнозного сигнала. Устройство приема аудиосигнала для декодирования аудиокода и вывода аудиосигнала включает в себя буфер аудиокода, который обнаруживает потерю пакета на основе состояния приема аудиопакета, блок декодирования аудиопараметров, который декодирует аудиокод, когда аудиопакет принят корректно, блок декодирования побочной информации, который декодирует код побочной информации, когда аудиопакет принят корректно, блок сбора побочной информации, который собирает побочную информацию, получаемую посредством декодирования кода побочной информации, блок обработки отсутствующих аудиопараметров и блок синтеза аудио. 43 ил.

Изобретение относится к области техники обработки речи, в частности к адаптивному расширению полосы пропускания. Технический результат – обеспечение формирования расширенной полосы пропускания частот в декодере. Данный способ включает в себя декодирование потока аудиобитов для того, чтобы формировать декодированный аудиосигнал полосы низких частот и спектр возбуждения в полосе низких частот, соответствующий полосе низких частот. Область подполосы частот выбирается из полосы низких частот с использованием параметра, который указывает информацию энергии спектральной огибающей декодированного аудиосигнала полосы низких частот. Спектр возбуждения в полосе высоких частот формируется для полосы высоких частот посредством копирования спектра возбуждения в подполосе частот из выбранной области подполосы частот в область подполосы высоких частот, соответствующую полосе высоких частот. С использованием сформированного спектра возбуждения в полосе высоких частот аудиосигнал расширенной полосы высоких частот формируется посредством применения спектральной огибающей полосы высоких частот. Аудиосигнал расширенной полосы высоких частот суммируется с декодированным аудиосигналом полосы низких частот для того, чтобы формировать выходной аудиосигнал, имеющий расширенную полосу пропускания частот. 4 н. и 15 з.п. ф-лы, 18 ил.

Изобретение относится к средствам для обработки звукового сигнала с использованием сигнала ошибки вследствие наложения спектров. Технический результат заключается в повышении эффективности обработки аудиосигнала. Устройство для обработки аудиосигнала, содержащее последовательность блоков спектральных значений, содержит процессор для вычисления сигнала под влиянием наложения спектров с использованием по меньшей мере одного первого значения модификации для первого блока последовательности блоков и с использованием по меньшей мере одного отличающегося второго значения модификации для второго блока последовательности блоков и для оценки сигнала ошибки вследствие наложения спектров, представляющего ошибку вследствие наложения спектров в сигнале под влиянием наложения спектров. Модуль комбинирования комбинирует сигнал под влиянием наложения спектров и сигнал ошибки вследствие наложения спектров. 3 н. и 10 з.п. ф-лы, 16 ил.

Изобретение относится к области многоканального звукового кодирования. Техническим результатом является декодирование кодированного битового аудиопотока в системе обработки звуковых сигналов. Раскрыт способ декодирования кодированного битового аудиопотока в системе обработки звуковых сигналов, при этом способ включает: извлечение из кодированного битового аудиопотока первого сигнала с кодированием формы, содержащего спектральные коэффициенты, соответствующие частотам до первой частоты разделения каналов; выполнение параметрического декодирования на второй частоте разделения каналов для генерирования реконструированного сигнала, при этом вторая частота разделения каналов выше первой частоты разделения каналов и параметрическое декодирование использует параметры реконструкции, полученные из кодированного битового аудиопотока для генерирования реконструированного сигнала; извлечение из кодированного битового аудиопотока второго сигнала с кодированием формы, содержащего спектральные коэффициенты, соответствующие подмножеству частот выше первой частоты разделения каналов; чередование второго сигнала с кодированием формы с реконструированным сигналом для формирования чередующегося сигнала и объединение чередующегося сигнала с первым сигналом с кодированием формы. 3 н. и 13 з.п. ф-лы, 8 ил.
Наверх