Способы, устройство и системы для генерирования, передачи и обработки кадров немедленного воспроизведения (ipf)

Авторы патента:

G10L19/16 - Техника анализа-синтеза речи для уменьшения избыточности, например в вокодерах ; кодирование или декодирование речи

Владельцы патента RU 2792944:

ДОЛБИ ИНТЕРНЕШНЛ АБ (NL)

Изобретение относится к области вычислительной техники. Технический результат заключается в обеспечении возможности обработки кадра немедленного воспроизведения (IPF) в стандарте MPEG-4 Audio. Технический результат достигается за счет декодирования битового потока кодированных звуковых данных, причем битовый поток кодированных звуковых данных представляет последовательность значений отсчетов звукового сигнала и содержит множество кадров, причем каждый кадр содержит связанные кодированные значения отсчетов звукового сигнала; удаления кадров немедленного воспроизведения из битового потока кодированных звуковых данных и соответствующий постоянный цифровой носитель данных. 7 н. и 8 з.п. ф-лы, 9 ил.

ПЕРЕКРЕСТНАЯ ССЫЛКА НА РОДСТВЕННУЮ ЗАЯВКУ

Данная заявка заявляет приоритет следующей приоритетной заявки: предварительная заявка США 62/720 680 (ссылка: D18080USP1), поданная 21 августа 2018 г., которая включена в данную заявку посредством ссылки.

ОБЛАСТЬ ТЕХНИКИ

Настоящее изобретение в целом относится к звуковым кодерам, способам кодирования, звуковым декодерам и способам декодирования, в том числе к способу декодирования битового потока кодированных звуковых данных, причем битовый поток кодированных звуковых данных представляет последовательность значений отсчетов звукового сигнала и содержит множество кадров, причем каждый кадр содержит связанные кодированные значения отсчетов звукового сигнала, и способу генерирования битового потока кодированных звуковых данных с кадрами немедленного воспроизведения. Настоящее изобретение также относится к устройству для генерирования кадров немедленного воспроизведения в битовом потоке кодированных звуковых данных или для удаления кадров немедленного воспроизведения из битового потока кодированных звуковых данных.

Хотя некоторые варианты осуществления будут описаны в настоящем документе с конкретной ссылкой на настоящее изобретение, следует понимать, что настоящее изобретение не ограничено такой областью использования и может быть применимо в более широких контекстах.

ПРЕДПОСЫЛКИ ИЗОБРЕТЕНИЯ

В настоящее время существует недостаток в стандарте MPEG-4 Audio, изложенном в ISO/IEC 14496-3, «Кодирование аудиовизуальных объектов. Часть 3. Аудио», в контексте генерирования, передачи и обработки кадров немедленного воспроизведения (IPF). IPF предоставляет информацию в специальный кадр, который позволяет немедленно инициализировать декодер, и, таким образом, осуществить немедленное воспроизведение при переключении на поток данных, содержащих специальный кадр. Иными словами, IPF представляет собой кадр, после приема которого декодер может немедленно производить правильные отсчеты из первого отсчета, который закодирован в этот IPF, поскольку он содержит всю необходимую для этого информацию. IPF, таким образом, обозначает независимо декодируемый кадр, который может быть декодирован с использованием информации, содержащейся только в нем самом.

Кодированный звуковой сигнал обычно поступает в виде кадров или фрагментов данных. В контексте звукового сигнала, стандартизованного согласно MPEG-4, кадры/фрагменты могут быть известны как гранулы, кодированные фрагменты/кадры называются блоками доступа (AU), а декодированные фрагменты называются составными блоками (CU). В системах передачи звуковой сигнал может быть доступен и адресован только в гранулярности этих кодированных фрагментов (блоков доступа).

В контексте адаптивного потокового вещания, когда звуковой сигнал переключается на другую конфигурацию (например, другую битовую скорость, такую как битовая скорость, настроенная в рамках адаптации, установленной в MPEG-DASH), для воспроизведения отсчетов звукового сигнала точно с начала, в декодер необходимо подать AU_n, представляющий соответствующий временной отрезок звуковой программы, и дополнительные AU_n-1, AU_n-2, …AU и данные конфигурации, предшествующие AU_n. В ином случае, из-за разных конфигураций кодирования (например, данные оконного преобразования, данные, связанные с SBR, данные, связанные с PS) нельзя гарантировать, что декодер произведет правильный вывод при декодировании только AU_n. Таким образом, первый AU_n, который должен быть декодирован с новой конфигурацией, должен переносить новые данные конфигурации и все предварительно загруженные данные (в форме AU_n-x, представляющего временные отрезки до AU_n), которые нужны для инициализации декодера с новой конфигурацией. Это можно осуществить посредством кадра немедленного воспроизведения (IPF), как определено в стандарте MPEG-H 3D Audio, или в стандарте MPEG-D USAC.

С учетом вышеуказанного, целью настоящего изобретения является предоставление звукового декодера и способа декодирования, а также звукового кодера, системы звуковых кодеров, устройства и способа кодирования, которые могут обрабатывать IPF в MPEG-4 Audio.

СУЩНОСТЬ ИЗОБРЕТЕНИЯ

В соответствии с первым аспектом настоящего изобретения предлагается звуковой декодер для декодирования битового потока кодированных звуковых данных, причем битовый поток кодированных звуковых данных представляет последовательность значений отсчетов звукового сигнала и содержит множество кадров, причем каждый кадр содержит связанные кодированные значения отсчетов звукового сигнала.

Звуковой декодер может содержать блок определения, выполненный с возможностью определения того, является ли кадр битового потока кодированных звуковых данных кадром немедленного воспроизведения, который содержит кодированные значения отсчетов звукового сигнала, связанные с текущим кадром, и дополнительную информацию, причем дополнительная информация может содержать кодированные значения отсчетов звукового сигнала некоторого количества кадров, предшествующих кадру немедленного воспроизведения, причем кодированные значения отсчетов звукового сигнала предшествующих кадров могут быть закодированы с использованием той же конфигурации кодеков, что и текущий кадр, причем количество предшествующих кадров, соответствующих предварительно загруженным кадрам, может соответствовать количеству кадров, которые необходимы декодеру для формирования полного сигнала, чтобы иметь возможность выводить действительные значения отсчетов звукового сигнала, связанные с текущим кадром, каждый раз, когда декодируется кадр немедленного воспроизведения.

И декодер может содержать блок инициализации, выполненный с возможностью инициализации декодера, если блок определения определяет, что кадр представляет собой кадр немедленного воспроизведения, причем инициализация декодера может включать декодирование кодированных значений отсчетов звукового сигнала, содержащихся в дополнительной информации, перед декодированием кодированных значений отсчетов звукового сигнала, связанных с текущим кадром, причем блок инициализации может быть выполнен с возможностью переключения звукового декодера с текущей конфигурации кодеков на другую конфигурацию кодеков, если блок определения определяет, что кадр представляет собой кадр немедленного воспроизведения, и если значения отсчетов звукового сигнала текущего кадра были закодированы с использованием другой конфигурации кодеков, и причем декодер может быть выполнен с возможностью декодирования текущего кадра с использованием текущей конфигурации кодеков и отбрасывания дополнительной информации, если блок определения определяет, что кадр представляет собой кадр немедленного воспроизведения и если значения отсчетов звукового сигнала текущего кадра были закодированы с использованием текущей конфигурации кодеков.

В некоторых вариантах осуществления дополнительная информация может дополнительно содержать информацию о конфигурации кодеков, которая используется для кодирования значений отсчетов звукового сигнала, связанных с текущим кадром, и блок определения может дополнительно быть выполнен с возможностью определения того, отличается ли конфигурация кодеков дополнительной информации от текущей конфигурации кодеков.

В некоторых вариантах осуществления кадр немедленного воспроизведения может содержать дополнительную информацию в качестве полезной нагрузки расширения, и блок определения может быть выполнен с возможностью оценки полезной нагрузки расширения кадра немедленного воспроизведения.

В некоторых вариантах осуществления битовый поток кодированных звуковых данных может представлять собой битовый поток MPEG-4 Audio.

В некоторых вариантах осуществления дополнительная информация может передаваться посредством механизма расширения битового потока MPEG-4 Audio, который представляет собой либо элемент потока данных (DSE), либо элемент extension_payload.

В некоторых вариантах осуществления либо элемент потока данных (DSE), либо элемент extension_payload может быть расположен в заданном положении в битовом потоке MPEG-4 Audio и/или может иметь специальную конкретную метку, сообщающую, что полезная нагрузка элемента потока данных (DSE) или элемента extension_payload представляет собой дополнительную информацию.

Элемент extension_payload может, например, находиться в разных местах синтаксиса битового потока MPEG-4 Audio. Соответственно, это позволяет использовать функциональность кадра немедленного воспроизведения также в MPEG-4 Audio.

В некоторых вариантах осуществления элемент extension_payload может находиться внутри заполняющего элемента (ID_FIL).

В некоторых вариантах осуществления дополнительная информация может дополнительно содержать уникальный идентификатор, и необязательно уникальный идентификатор может использоваться для обнаружения другой конфигурации кодеков.

В некоторых вариантах осуществления декодер может дополнительно содержать блок плавного микширования, выполненный с возможностью выполнения плавного микширования выходных значений отсчетов, полученных за счет сброса декодера в предыдущей конфигурации кодеков, и выходных значений отсчетов, полученных за счет декодирования кодированных значений отсчетов звукового сигнала, связанных с текущим кадром.

В некоторых вариантах осуществления самый ранний кадр из количества кадров, содержащихся в дополнительной информации, может не быть подвергнут временному дифференциальному кодированию или энтропийному кодированию относительно любого кадра до самого раннего кадра, и кадр немедленного воспроизведения может не быть подвергнут временному дифференциальному кодированию или энтропийному кодированию относительно любого кадра до самого раннего кадра из количества кадров, предшествующих кадру немедленного воспроизведения, или относительно любого кадра до кадра немедленного воспроизведения.

В соответствии со вторым аспектом настоящего изобретения предлагается способ декодирования битового потока кодированных звуковых данных, причем битовый поток кодированных звуковых данных представляет последовательность значений отсчетов звукового сигнала и содержит множество кадров, причем каждый кадр содержит связанные кодированные значения отсчетов звукового сигнала.

Способ может включать определение того, является ли кадр битового потока кодированных звуковых данных кадром немедленного воспроизведения, который содержит кодированные значения отсчетов звукового сигнала, связанные с текущим кадром, и дополнительную информацию, причем дополнительная информация может содержать кодированные значения отсчетов звукового сигнала некоторого количества кадров, предшествующих кадру немедленного воспроизведения, причем кодированные значения отсчетов звукового сигнала предшествующих кадров могут быть закодированы с использованием той же конфигурации кодеков, что и кадр немедленного воспроизведения, причем количество предшествующих кадров, соответствующих предварительно загруженным кадрам, может соответствовать количеству кадров, которые необходимы декодеру для формирования полного сигнала, чтобы иметь возможность выводить действительные значения отсчетов звукового сигнала, связанные с текущим кадром, каждый раз, когда декодируется кадр немедленного воспроизведения.

Способ может дополнительно включать инициализацию декодера, если определяют, что кадр представляет собой кадр немедленного воспроизведения, причем инициализация может включать декодирование кодированных значений отсчетов звукового сигнала, содержащихся в дополнительной информации, перед декодированием кодированных значений отсчетов звукового сигнала, связанных с текущим кадром.

Способ может дополнительно включать переключение звукового декодера с текущей конфигурации кодеков на другую конфигурацию кодеков, если определяют, что кадр представляет собой кадр немедленного воспроизведения, и если значения отсчетов звукового сигнала кадра немедленного воспроизведения были закодированы с использованием другой конфигурации кодеков.

И способ может включать декодирование кадра немедленного воспроизведения с использованием текущей конфигурации кодеков и отбрасывание дополнительной информации, если определяют, что кадр представляет собой кадр немедленного воспроизведения, и если значения отсчетов звукового сигнала кадра немедленного воспроизведения были закодированы с использованием текущей конфигурации кодеков.

Сконфигурированный как предложено, способ позволяет, например, переключать AudioObjectTypes (типы звукового объекта) (AOT), как определено в ISO/IEC 14496-3, в комбинации с непрерывным созданием правильных выходных отсчетов и без внесения периодов тишины в звуковой вывод.

В некоторых вариантах осуществления дополнительная информация может дополнительно содержать информацию о конфигурации кодеков, которая используется для кодирования значений отсчетов звукового сигнала, связанных с текущим кадром, причем способ может дополнительно включать определение того, отличается ли конфигурация кодеков дополнительной информации от текущей конфигурации кодеков, используемой для кодирования значений отсчетов звукового сигнала, связанных с кадрами в битовом потоке, предшествующими кадру немедленного воспроизведения.

В некоторых вариантах осуществления либо элемент потока данных (ID_DSE), либо элемент extension_payload может быть расположен в заданном положении в битовом потоке MPEG-4 Audio и/или может иметь специальную конкретную метку, сообщающую, что полезная нагрузка элемента потока данных (ID_DSE) или элемента extension_payload представляет собой дополнительную информацию.

В некоторых вариантах осуществления элемент extension_payload может находиться внутри заполняющего элемента (ID_FIL).

В некоторых вариантах осуществления битовый поток кодированных звуковых данных может содержать первое количество кадров, закодированных с использованием первой конфигурации кодеков, и второе количество кадров, следующих за первым количеством кадров и закодированных с использованием второй конфигурации кодеков, причем первый кадр из второго количества кадров может представлять собой кадр немедленного воспроизведения.

В соответствии с третьим аспектом настоящего изобретения предлагается звуковой кодер для генерирования битового потока кодированных звуковых данных с кадрами немедленного воспроизведения, причем битовый поток кодированных звуковых данных представляет последовательность значений отсчетов звукового сигнала и содержит множество кадров, причем каждый кадр содержит связанные кодированные значения отсчетов звукового сигнала.

Звуковой кодер может содержать базовый кодер, выполненный с возможностью кодирования несжатых значений отсчетов звукового сигнала, связанных с множеством кадров, с использованием заданной конфигурации кодеков.

Звуковой кодер может дополнительно содержать буфер, выполненный с возможностью сохранения кодированных значений отсчетов звукового сигнала некоторого количества кадров, предшествующих текущему кадру, из множества кадров, закодированных с использованием заданной конфигурации кодеков.

И звуковой кодер может содержать эмбеддер, выполненный с возможностью записи кадра немедленного воспроизведения в текущий кадр из множества кадров, причем кадр немедленного воспроизведения может содержать кодированные значения отсчетов звукового сигнала, связанные с указанным текущим кадром, и дополнительную информацию, соответствующую кодированным значениям отсчетов звукового сигнала количества кадров, предшествующих указанному текущему кадру.

В некоторых вариантах осуществления эмбеддер может быть дополнительно выполнен с возможностью включения информации о заданной конфигурации кодеков в дополнительную информацию.

В некоторых вариантах осуществления эмбеддер может быть дополнительно выполнен с возможностью включения дополнительной информации в кадр немедленного воспроизведения.

В некоторых вариантах осуществления сгенерированный битовый поток кодированных звуковых данных может представлять собой битовый поток MPEG-4 Audio.

В некоторых вариантах осуществления эмбеддер может быть дополнительно выполнен с возможностью ввода дополнительной информации в битовый поток посредством механизма расширения битового потока MPEG-4 Audio, который представляет собой либо элемент потока данных (ID_DSE), либо элемент extension_payload.

В некоторых вариантах осуществления эмбеддер может быть дополнительно выполнен с возможностью размещения либо элемента потока данных (ID_DSE), либо элемента extension_payload в заданном положении в битовом потоке MPEG-4 Audio и/или присвоения специальной конкретной метки, сообщающей, что полезная нагрузка элемента потока данных (ID_DSE) или элемента extension_payload представляет собой дополнительную информацию.

В некоторых вариантах осуществления эмбеддер может быть дополнительно выполнен с возможностью ввода элемента extension_payload внутрь заполняющего элемента (ID_FIL).

В некоторых вариантах осуществления эмбеддер может быть дополнительно выполнен с возможностью включения уникального идентификатора в дополнительную информацию, и необязательно уникальный идентификатор может сообщать заданную конфигурацию кодеков.

В некоторых вариантах осуществления звуковой кодер может быть дополнительно выполнен с возможностью не подвергать временному дифференциальному кодированию или энтропийному кодированию самый ранний кадр из количества кадров, содержащихся в дополнительной информации, относительно любого кадра до самого раннего кадра, и звуковой кодер может быть дополнительно выполнен с возможностью не подвергать временному дифференциальному кодированию или энтропийному кодированию кадр немедленного воспроизведения относительно любого кадра до самого раннего кадра из количества кадров, предшествующих кадру немедленного воспроизведения, или относительно любого кадра до кадра немедленного воспроизведения.

В соответствии с четвертым аспектом настоящего изобретения предлагается система, содержащая два или более звуковых кодеров для генерирования множества битовых потоков кодированных звуковых данных, каждый из которых имеет кадры немедленного воспроизведения, причем каждый битовый поток кодированных звуковых данных представляет последовательность значений отсчетов звукового сигнала и содержит множество кадров, и причем каждый кадр содержит связанные кодированные значения отсчетов звукового сигнала.

В некоторых вариантах осуществления предварительно определенная частота дискретизации может быть одинаковой для каждого из базовых кодеров двух или более звуковых кодеров. Соответственно, можно избежать передискретизации и обработки с дополнительной задержкой на декодере.

В некоторых вариантах осуществления система может дополнительно содержать блок выравнивания задержки для выравнивания задержки множества битовых потоков. Соответственно, это позволяет осуществлять плавное переключение на декодере за счет компенсации задержек разных кодеров.

В соответствии с пятым аспектом настоящего изобретения предлагается способ генерирования посредством звукового кодера битового потока кодированных звуковых данных с кадрами немедленного воспроизведения, причем битовый поток кодированных звуковых данных представляет последовательность значений отсчетов звукового сигнала и содержит множество кадров, причем каждый кадр содержит связанные кодированные значения отсчетов звукового сигнала.

Способ может включать этап кодирования посредством базового кодера несжатых значений отсчетов звукового сигнала, связанных с множеством кадров, с использованием заданной конфигурации кодеков.

Способ может дополнительно включать этап сохранения посредством буфера кодированных значений отсчетов звукового сигнала некоторого количества кадров, предшествующих текущему кадру, из множества кадров, закодированных с использованием заданной конфигурации кодеков.

И способ может включать этап записи посредством эмбеддера кадра немедленного воспроизведения в текущий кадр из множества кадров, причем кадр немедленного воспроизведения может содержать кодированные значения отсчетов звукового сигнала, связанные с указанным текущим кадром, и дополнительную информацию, соответствующую кодированным значениям отсчетов звукового сигнала количества кадров, предшествующих указанному текущему кадру.

В некоторых вариантах осуществления дополнительная информация может дополнительно содержать информацию о заданной конфигурации кодеков.

В некоторых вариантах осуществления кадр немедленного воспроизведения может дополнительно содержать дополнительную информацию.

В некоторых вариантах осуществления дополнительная информация может быть введена в битовый поток посредством эмбеддера с помощью механизма расширения битового потока MPEG-4 Audio, который может представлять собой либо элемент потока данных (ID_DSE), либо элемент extension_payload.

В некоторых вариантах осуществления либо элемент потока данных (ID_DSE), либо элемент extension_payload может быть размещен посредством эмбеддера в заданном положении в битовом потоке MPEG-4 Audio и/или ему может быть присвоена специальная конкретная метка, сообщающая, что полезная нагрузка элемента потока данных (ID_DSE) или элемента extension_payload представляет собой дополнительную информацию.

В некоторых вариантах осуществления элемент extension_payload может быть введен посредством эмбеддера внутрь заполняющего элемента (ID_FIL).

В некоторых вариантах осуществления дополнительная информация может дополнительно содержать уникальный идентификатор, и необязательно уникальный идентификатор может сообщать заданную конфигурацию кодеков.

В некоторых вариантах осуществления посредством звукового кодера самый ранний кадр из количества кадров, содержащихся в дополнительной информации, может не быть подвергнут временному дифференциальному кодированию или энтропийному кодированию относительно любого кадра до самого раннего кадра, и посредством звукового кодера кадр немедленного воспроизведения может не быть подвергнут временному дифференциальному кодированию или энтропийному кодированию относительно любого кадра до самого раннего кадра из количества кадров, предшествующих кадру немедленного воспроизведения, или относительно любого кадра до кадра немедленного воспроизведения.

В соответствии с шестым аспектом настоящего изобретения предлагается устройство для генерирования кадров немедленного воспроизведения в битовом потоке кодированных звуковых данных или для удаления кадров немедленного воспроизведения из битового потока кодированных звуковых данных, причем битовый поток кодированных звуковых данных представляет последовательность значений отсчетов звукового сигнала и содержит множество кадров, причем каждый кадр содержит связанные кодированные значения отсчетов звукового сигнала.

Устройство может содержать приемник, выполненный с возможностью приема битового потока кодированных звуковых данных, причем битовый поток кодированных звуковых данных представляет последовательность значений отсчетов звукового сигнала и содержит множество кадров, причем каждый кадр содержит связанные кодированные значения отсчетов звукового сигнала.

И устройство может содержать эмбеддер, выполненный с возможностью записи кадра немедленного воспроизведения в текущий кадр из множества кадров, причем кадр немедленного воспроизведения может содержать кодированные значения отсчетов звукового сигнала, связанные с указанным текущим кадром, и дополнительную информацию, соответствующую кодированным значениям отсчетов звукового сигнала некоторого количества кадров, предшествующих указанному текущему кадру.

Сконфигурированное как предложено, устройство позволяет по отдельности генерировать кадры немедленного воспроизведения в любых уже существующих битовых потоках кодированных звуковых данных, т. е. перед распределением, если это необходимо.

В некоторых вариантах осуществления устройство может дополнительно содержать буфер, выполненный с возможностью сохранения кодированных значений отсчетов звукового сигнала количества кадров, предшествующих текущему кадру, из множества кадров.

В некоторых вариантах осуществления эмбеддер может быть дополнительно выполнен с возможностью удаления из кадра немедленного воспроизведения дополнительной информации, соответствующей кодированным значениям отсчетов звукового сигнала количества кадров, предшествующих указанному текущему кадру.

Соответственно, это позволяет по отдельности удалять кадры немедленного воспроизведения из битового потока кодированных звуковых данных, например, в случае если звуковой кодер генерирует только кадры немедленного воспроизведения.

В соответствии с седьмым аспектом настоящего изобретения предлагается постоянный цифровой носитель данных, на котором хранится компьютерная программа для выполнения способа декодирования битового потока кодированных звуковых данных, причем битовый поток кодированных звуковых данных представляет последовательность значений отсчетов звукового сигнала и содержит множество кадров, причем каждый кадр содержит связанные кодированные значения отсчетов звукового сигнала, когда указанная компьютерная программа исполняется компьютером или процессором.

В соответствии с восьмым аспектом настоящего изобретения предлагается постоянный цифровой носитель данных, на котором хранится компьютерная программа для выполнения способа генерирования посредством звукового кодера битового потока кодированных звуковых данных с кадрами немедленного воспроизведения, причем битовый поток кодированных звуковых данных представляет последовательность значений отсчетов звукового сигнала и содержит множество кадров, причем каждый кадр содержит связанные кодированные значения отсчетов звукового сигнала, когда указанная компьютерная программа исполняется компьютером или процессором.

КРАТКОЕ ОПИСАНИЕ ГРАФИЧЕСКИХ МАТЕРИАЛОВ

Иллюстративные варианты осуществления настоящего изобретения ниже будут описаны в качестве только примера со ссылкой на сопроводительные графические материалы, на которых:

на фиг. 1 изображен пример кадра немедленного воспроизведения в битовом потоке MPEG-4 Audio кодированных звуковых данных;

на фиг. 2 изображен пример способа декодирования битового потока кодированных звуковых данных, причем битовый поток кодированных звуковых данных представляет последовательность значений отсчетов звукового сигнала и содержит множество кадров, причем каждый кадр содержит связанные кодированные значения отсчетов звукового сигнала;

на фиг. 3 изображен другой пример способа декодирования битового потока кодированных звуковых данных, причем битовый поток кодированных звуковых данных представляет последовательность значений отсчетов звукового сигнала и содержит множество кадров, причем каждый кадр содержит связанные кодированные значения отсчетов звукового сигнала;

на фиг. 4 изображен пример звукового декодера для декодирования битового потока кодированных звуковых данных, причем битовый поток кодированных звуковых данных представляет последовательность значений отсчетов звукового сигнала и содержит множество кадров, причем каждый кадр содержит связанные кодированные значения отсчетов звукового сигнала;

на фиг. 5 изображен пример звукового кодера для генерирования битового потока кодированных звуковых данных с точками произвольного доступа (кадры немедленного воспроизведения, IPF);

на фиг. 6 изображен пример способа генерирования битового потока кодированных звуковых данных с точками произвольного доступа (кадры немедленного воспроизведения, IPF);

на фиг. 7 изображен пример системы звуковых кодеров для генерирования множества битовых потоков кодированных звуковых данных, каждый из которых имеет синхронизированные во времени точки произвольного доступа (кадры немедленного воспроизведения, IPF);

на фиг. 8 изображен пример устройства для генерирования точек произвольного доступа (кадры немедленного воспроизведения, IPF) в битовом потоке кодированных звуковых данных или для удаления точек произвольного доступа (кадры немедленного воспроизведения, IPF) из битового потока кодированных звуковых данных;

на фиг. 9 изображен пример устройства, имеющего процессор для исполнения компьютерной программы, хранящейся на постоянном цифровом носителе данных.

ПОДРОБНОЕ ОПИСАНИЕ

Настоящее изобретение относится к созданию (кодированию), передаче (битовый поток) и обработке (декодирование) IPF в MPEG-4 Audio, например, в контексте потока данных, содержащего звук, стандартизованный в соответствии с другим стандартом, таким как стандарт MPEG-H 3D audio. Здесь и далее битовые потоки MPEG-4 Audio могут относиться к битовым потокам, совместимым со стандартом, изложенным в ISO/IEC 14496-3, «Кодирование аудиовизуальных объектов. Часть 3. Аудио», и всеми его будущими редакциями, исправлениями и поправками к нему («здесь и далее MPEG-4 Audio»). Для обеспечения функциональности IPF в MPEG-4 Audio, существует несколько вариантов для генерирования и передачи AU и данных конфигурации, предшествующих AU_n во времени, как часть того же пакета полезной нагрузки, который используется для AU_n. Это осуществляется для обеспечения правильного вывода отсчетов звукового сигнала из первого отсчета, полученного в результате декодирования AU_n.

Битовый поток кодированных звуковых данных может содержать последовательность значений отсчетов звукового сигнала, например, пакеты полезной нагрузки. Битовый поток кодированных звуковых данных может дополнительно содержать множество кадров. Каждый кадр может содержать связанные кодированные значения отсчетов звукового сигнала. Другими словами, каждый пакет полезной нагрузки может принадлежать к соответствующему кадру или AU.

В одном примере пакет полезной нагрузки звука может соответствовать следующему синтаксису, как определено в ISO/IEC 14496-3:

raw_data_block() {

while( (id = id_syn_ele) != ID_END ){ 3 uimsbf

switch (id) {

case ID_SCE: single_channel_element(); break;

case ID_CPE: channel_pair_element(); break;

case ID_CCE: coupling_channel_element(); break;

case ID_LFE: lfe_channel_element(); break;

case ID_DSE: data_stream_element(); break;

case ID_PCE: program_config_element(); break;

case ID_FIL: fill_element();

}

byte_align()

}

Вышеописанный пакет полезной нагрузки звука может быть совместимым с текущей и будущими версиями стандарта MPEG, такими как стандарт MPEG-4 Audio. В одном варианте осуществления битовый поток кодированных звуковых данных может представлять собой битовый поток MPEG-4 Audio (т. е. битовый поток, совместимый со стандартом MPEG-4 Audio).

Кадр битового потока кодированных звуковых данных может представлять собой кадр немедленного воспроизведения (точка произвольного доступа, специальный кадр), содержащий кодированные значения отсчетов звукового сигнала, связанные с текущим кадром, и дополнительную информацию. Дополнительная информация может содержать кодированные значения отсчетов звукового сигнала некоторого количества кадров, предшествующих кадру немедленного воспроизведения, причем кодированные значения отсчетов звукового сигнала предшествующих кадров могут быть закодированы с использованием той же конфигурации кодеков, что и текущий кадр. Количество предшествующих кадров, соответствующих предварительно загруженным кадрам, может соответствовать количеству кадров, которые необходимы декодеру для формирования полного сигнала, чтобы иметь возможность выводить действительные значения отсчетов звукового сигнала, связанные с текущим кадром, каждый раз, когда декодируется кадр немедленного воспроизведения. Полный сигнал может, например, быть сформирован во время запуска или перезапуска декодера. Кадр немедленного воспроизведения может представлять собой, например, первый кадр после запуска декодера.

В одном варианте осуществления дополнительная информация может передаваться посредством механизма расширения битового потока MPEG-4, который может представлять собой либо элемент потока данных (ID_DSE), либо элемент extension_payload. Элемент extension_payload может, например, находиться в разных местах синтаксиса битового потока MPEG-4 Audio, например, на разных уровнях. В одном варианте осуществления элемент extension_payload может находиться внутри заполняющего элемента (ID_FIL).

Дополнительная информация, таким образом, может передаваться посредством механизма расширения битового потока MPEG-4 Audio, например, на основании одного из следующих вариантов:

Вариант 1:

raw_data_block() -> case ID_DSE -> data_stream_element() -> data_stream_byte[element_instance_tag][i];

Вариант 2:

raw_data_block() -> case ID_FIL -> fill_element() -> extension_payload(cnt) -> switch( extension_type ) -> extension_type == EXT_DATA_ELEMENT (+ convention how to identify) or EXT_AUDIO_PRE_ROLL

Вариант 3:

er_raw_data_block() or er_raw_data_block_eld() -> extension_payload(cnt) -> switch( extension_type ) -> extension_type == EXT_DATA_ELEMENT (+ convention how to identify) or EXT_AUDIO_PRE_ROLL

Элемент потока данных (сообщаемый посредством id_syn_ele, равного ID_DSE) или заполняющий элемент (сообщаемый посредством id_syn_ele, равного ID_FIL), или их эквиваленты, как определено в ISO/IEC 14496-3 и/или будущих стандартах, могут использоваться для переноса полезных нагрузок расширения, которые могут использоваться для дополнительного расширения информации, которая передается в таком пакете полезной нагрузки, без нарушения совместимости с унаследованными декодерами.

Таким образом, в контексте MPEG-4 Audio, либо элемент потока данных (ID_DSE), либо элемент extension_payload, который может находиться внутри заполняющего элемента (ID_FIL), могут использоваться для передачи AU и информации о конфигурации, которые представляют временные отрезки до AU_n (т. е. дополнительную информацию) в том же пакете полезной нагрузки, что и AU_n (т. е. текущий кадр, кадр немедленного воспроизведения). Это может дополнительно использоваться для применения обработки, которая позволяет использовать функциональность IPF также в MPEG-4 Audio. Аналогично, как в MPEG-D USAC, где механизм расширения (usacExtElement) может использоваться для передачи полезной нагрузки AudioPreRoll(), но с некоторыми отличиями.

В одном варианте осуществления элемент расширения (например, элемент extension_payload) может быть введен в AU, причем тип элемента сообщается в битовом потоке для каждого элемента и AU. В одном примере элемент расширения может представлять собой первый элемент в пакете полезной нагрузки, который предшествует первому звуковому элементу.

Каждый звуковой предварительно загруженный элемент, определенный ниже, может быть идентифицирован посредством универсально уникального идентификатора (UUID). Поле UUID может использоваться для сообщения посредством звукового кодера и обнаружения посредством звукового декодера переключения конфигураций потока. Если поле UUID изменилось относительно предыдущего кадра или исходного состояния (например, при первом запуске декодера), могла измениться конфигурация потока, и предварительно загруженная полезная нагрузка должна быть оценена для обеспечения правильного декодирования. Если UUID не изменился относительно предыдущего кадра, декодер может пропустить полезную нагрузку audio_preroll_element() и перейти к обычному декодированию.

В одном примере, если UUID отсутствует, декодер может сравнить AudioSpecificConfig, принадлежащий audio_preroll_element(), с текущей конфигурацией декодера для обнаружения переключения конфигурации потока.

Поле «флаги» используется в качестве 8-битного набора битов, который может использоваться для сообщения дополнительной информации декодеру. Он может представлять собой информацию о том, должно ли применяться плавное микширование, или о типе плавного микширования (например, линейное, логарифмическое). В примере ниже один бит используется для сообщения того, присутствуют или не присутствуют предварительно загруженная полезная нагрузка или UUID в битовом потоке.

Конфигурация потока должна быть известна декодеру до обработки каких-либо AU. В MPEG-4 Audio конфигурация декодера передается в элементе AudioSpecificConfig. Конфигурация декодера и UUID являются частями предварительно загруженной полезной нагрузки. Кроме того, предварительно загруженная полезная нагрузка содержит зависящее от конфигурации количество MPEG-4 Audio AU (raw_data_block).

Кадр немедленного воспроизведения (IPF) в MPEG-4 может содержать точно одну полезную нагрузку audio_preroll_element(), как описано ниже, и один или несколько потоков звуковых элементов (например, single_channel_element()), определенных в ISO/IEC 14496-3. Элементарные потоки звуковых элементов связаны с текущей временной меткой. Предварительно загруженная полезная нагрузка может переноситься в одном из механизмов полезной нагрузки расширения MPEG-4 Audio.

На фиг. 1 показан кадр немедленного воспроизведения (AU_n) 1, содержащий два предварительно загруженных кадра (AU_n-1, AU_n-2) 2, 3, а также соответствующую конфигурацию потока 4 (AudioSpecificConfig) и идентификатор потока 5 (UUID).

Звуковой предварительно загруженный элемент может быть определен на основании следующего:

audio_preroll_element() {

flags; 8 uimbsf

if((flags & 0x01) == 1)

uuid; 128 uimbsf

if((flags & 0x02) == 0) return; // No payload present

asc_size = bs_asc_size; 8 uimbsf

if(asc_size == 255)

asc_size += esc; 8 uimbsf

AudioSpecificConfig(); asc_size * 8

n_preroll_frames; 8 uimbsf

for(f = 0; f < n_preroll_frames; ++f) {

au_size = bs_au_size; 8 uimbsf

if(au_size == 255)

au_size += esc; 8 uimbsf

raw_data_block(); au_size * 8

}

В одном примере звуковой предварительно загруженный элемент (например, audio_preroll_element()) подвергнут байтовому выравниванию и, таким образом, может быть передан без дополнительного байтового выравнивания как элементом extension_payload (например, внутри заполняющего элемента), так и элементом потока данных.

В одном примере IPF относится к предварительно загруженному элементу следующим образом: IPF содержат как текущий AU, так и дополнительные AU (т.е. количество предшествующих кадров), которые необходимы для правильного декодирования. Дополнительные AU запакованы как часть предварительно загруженного элемента, который, в свою очередь, запакован в raw_data_block() (посредством ID_DSE или ID_FIL). Такой raw_data_block может представлять собой IPF.

IPF могут быть закодированы посредством различных способов. В одном примере предварительно загруженный кадр должен быть независимо декодируемым, например, если используется SBR, должен присутствовать заголовок SBR. В одном варианте осуществления audio_preroll_element() может быть инкапсулирован в элемент потока данных. Например, audio_preroll_element() может быть инкапсулирован в элемент потока данных на основании следующего синтаксиса:

data_stream_element() {

element_instance_tag; 4 uimsbf

data_byte_align_flag; 1 uimsbf

cnt = count; 8 uimsbf

if (cnt == 255)

cnt += esc_count; 8 uimsbf

if (data_byte_align_flag)

byte_alignment();

for (i = 0; i < cnt; i++)

data_stream_byte[element_instance_tag][i]; 8 uimsbf

}

Соглашение может использоваться для идентификации элемента потока данных (ID_DSE), который переносит audio_preroll_element(). В одном варианте осуществления ID_DSE может быть расположен в заданном положении в потоке и/или может иметь специальную конкретную метку, сообщающую, что полезная нагрузка представляет собой audio_preroll_element().

В другом варианте осуществления audio_preroll_element() может быть инкапсулирован в элемент extension_payload внутри заполняющего элемента. Например, audio_preroll_element() может быть инкапсулирован на основании следующего синтаксиса:

fill_element() {

cnt = count; 4 uimsbf

if (cnt == 15)

cnt += esc_count - 1; 8 uimsbf

while (cnt > 0) {

cnt -= extension_payload(cnt);

}

Как в предыдущем примере, соглашение может использоваться для идентификации типа элемента extension_payload, например, если EXT_DATA_ELEMENT передается в определенном заданном положении в пакете полезной нагрузки, то полезная нагрузка представляет собой audio_preroll_element(). Таким образом, в одном варианте осуществления элемент extension_payload может быть расположен в заданном положении в потоке и/или может иметь специальную конкретную метку, сообщающую, что полезная нагрузка представляет собой audio_preroll_element().

В одном примере полезная нагрузка расширения в соответствии с настоящим изобретением может сообщаться с использованием нового типа полезной нагрузки расширения, например extension_type =

EXT_AUDIO_PRE_ROLL = 1010b.

extension_payload(cnt) {

extension_type; 4 uimsbf

align = 4;

switch( extension_type ) {

case EXT_AUDIO_PRE_ROLL:

// Always byte-aligned, do not modify align

audio_preroll_element();

break;

[...]

В одном примере элемент потока данных (ID_DSE) или элемент extension_payload (например, внутри заполняющего элемента (ID_FIL)), который переносит audio_preroll_element(), может быть введен в битовый поток до любого звукового элемента в этом же пакете полезной нагрузки. Некоторые примеры ввода таким образом полезной нагрузки IPF включают:

Mono:	<ID_(DSE\|FIL)><ID_SCE>…<ID_END>
5.1:	<ID_(DSE\|FIL)><ID_SCE><ID_CPE><ID_CPE><ID_LFE>…<ID_END>

Один аспект настоящего изобретения относится к декодированию IPF. Обратимся к примеру на фиг. 2; способ декодирования может включать этап S101 приема битового потока кодированных звуковых данных. Битовый поток кодированных звуковых данных может представлять последовательность значений отсчетов звукового сигнала и может содержать множество кадров, причем каждый кадр может содержать связанные кодированные значения отсчетов звукового сигнала.

Способ может дополнительно включать этап S102 определения того, является ли кадр битового потока кодированных звуковых данных кадром немедленного воспроизведения. Кадр немедленного воспроизведения может содержать кодированные значения отсчетов звукового сигнала, связанные с текущим кадром, и дополнительную информацию. Дополнительная информация может содержать кодированные значения отсчетов звукового сигнала некоторого количества кадров, предшествующих кадру немедленного воспроизведения, причем кодированные значения отсчетов звукового сигнала предшествующих кадров закодированы с использованием той же конфигурации кодеков, что и кадр немедленного воспроизведения. Количество предшествующих кадров, соответствующих предварительно загруженным кадрам, может соответствовать количеству кадров, которые необходимы декодеру для формирования полного сигнала, чтобы иметь возможность выводить действительные значения отсчетов звукового сигнала, связанные с текущим кадром, каждый раз, когда декодируется кадр немедленного воспроизведения. Полный сигнал может, например, быть сформирован во время запуска или перезапуска декодера. Кадр немедленного воспроизведения может представлять собой, например, первый кадр после запуска декодера.

И способ может включать этап S103 инициализации декодера, если определяют, что кадр представляет собой кадр немедленного воспроизведения. Инициализация может включать декодирование кодированных значений отсчетов звукового сигнала, содержащихся в дополнительной информации, перед декодированием кодированных значений отсчетов звукового сигнала, связанных с текущим кадром.

Обратимся теперь к примеру фиг. 3; звуковой декодер может быть переключен с текущей конфигурации кодеков на другую конфигурацию кодеков, если определяют, что кадр представляет собой кадр немедленного воспроизведения, и если значения отсчетов звукового сигнала кадра немедленного воспроизведения были закодированы с использованием другой конфигурации кодеков. Кадр немедленного воспроизведения может быть декодирован с использованием текущей конфигурации кодеков, и дополнительная информация может быть отброшена, если определяют, что кадр представляет собой кадр немедленного воспроизведения, и если значения отсчетов звукового сигнала кадра немедленного воспроизведения были закодированы с использованием текущей конфигурации кодеков.

В одном примере способ декодирования может использовать элементы из декодирования IPF в MPEG-D USAC. Снова обратимся к примеру на фиг. 3; способ декодирования может выполняться в точности следующим образом.

• Если полезная нагрузка присутствует и если uuid изменился относительно предыдущего кадра (решение в блоке S104)

• Если полезная нагрузка присутствует и uuid не присутствует (решение в блоке S105)

1. Считать новую конфигурацию потока S106, т.е. AudioSpecificConfig() из audio_preroll_element()

2. Сбросить состояния декодера и сохранить результат в буфере S107, например, с использованием блока доступа «NULL»

▪ Сохранить результат в буфере (буфер плавного микширования)

3. Повторно настроить (повторно инициализировать) декодер S108

4. Декодировать n_preroll_frames в audio_preroll_element S109 и отбросить вывод

5. Декодировать следующий звуковой элемент (например, SCE/CPE/LFE) в битовом потоке и сохранить результат в буфере (буфер плавного микширования B)

▪ Если это сообщается посредством flags, применить плавное микширование S110 между буфером A плавного микширования и выводом декодера и записать результат в PCM буфер вывода. Результат плавного микширования составляет составной блок для этого кадра

▪ Иначе записать вывод декодера непосредственно в PCM буфер

6. Продолжить со следующим кадром

• ELSE

1. Пропустить audio_preroll_element() и декодировать кадр S111

2. Записать результат в PCM буфер S112

Способ декодирования может дополнительно включать следующее:

• Если полезная нагрузка не присутствует, декодировать соответствующий кадр и продолжить со следующим кадром

В одном примере эта обработка может позволять переключение AudioObjectTypes (AOT), как определено в ISO/IEC 14496-3, в комбинации с непрерывным созданием правильных выходных отсчетов и без внесения периодов тишины в звуковой вывод. В одном примере AOT, которые переключаются, могут включать AOT 2 (AAC), AOT 5 (SBR), AOT 29 (PS) и другие совместимые экземпляры.

Обратимся теперь к примеру на фиг. 4; один аспект настоящего изобретения относится к звуковому декодеру для декодирования IPF. Звуковой декодер 100 может содержать блок 101 определения. Блок 101 определения может быть выполнен с возможностью определения того, является ли кадр битового потока кодированных звуковых данных кадром немедленного воспроизведения, который содержит кодированные значения отсчетов звукового сигнала, связанные с текущим кадром, и дополнительную информацию. Дополнительная информация может содержать кодированные значения отсчетов звукового сигнала некоторого количества кадров, предшествующих кадру немедленного воспроизведения. Кодированные значения отсчетов звукового сигнала предшествующих кадров могут быть закодированы с использованием той же конфигурации кодеков, что и текущий кадр. Количество предшествующих кадров, соответствующих предварительно загруженным кадрам, может соответствовать количеству кадров, которые необходимы декодеру 100 для формирования полного сигнала, чтобы иметь возможность выводить действительные значения отсчетов звукового сигнала, связанные с текущим кадром, каждый раз, когда декодируется кадр немедленного воспроизведения. Полный сигнал может, например, быть сформирован во время запуска или перезапуска декодера 100. Кадр немедленного воспроизведения может представлять собой, например, первый кадр после запуска декодера 100.

И звуковой декодер 100 может содержать блок 102 инициализации. Блок 102 инициализации может быть выполнен с возможностью инициализации декодера 100, если блок 101 определения определяет, что кадр представляет собой кадр немедленного воспроизведения. Инициализация декодера 100 может включать декодирование кодированных значений отсчетов звукового сигнала, содержащихся в дополнительной информации, перед декодированием кодированных значений отсчетов звукового сигнала, связанных с текущим кадром. Блок 102 инициализации может быть дополнительно выполнен с возможностью переключения звукового декодера 100 с текущей конфигурации кодеков на другую конфигурацию кодеков, если блок 101 определения определяет, что кадр представляет собой кадр немедленного воспроизведения, и если значения отсчетов звукового сигнала текущего кадра были закодированы с использованием другой конфигурации кодеков. И декодер 100 может быть выполнен с возможностью декодирования текущего кадра с использованием текущей конфигурации кодеков и отбрасывания дополнительной информации, если блок 101 определения определяет, что кадр представляет собой кадр немедленного воспроизведения, и если значения отсчетов звукового сигнала текущего кадра были закодированы с использованием текущей конфигурации кодеков.

Обратимся теперь к примеру на фиг. 5; один аспект настоящего изобретения относится к звуковому кодеру для генерирования битового потока кодированных звуковых данных с кадрами немедленного воспроизведения (точки произвольного доступа), причем битовый поток кодированных звуковых данных представляет последовательность значений отсчетов звукового сигнала и содержит множество кадров, причем каждый кадр содержит связанные кодированные значения отсчетов звукового сигнала.

Звуковой кодер 200 может содержать базовый кодер 202, выполненный с возможностью кодирования несжатых значений отсчетов звукового сигнала, связанных с множеством кадров, с использованием заданной конфигурации кодеков. Использование заданной конфигурации кодеков может, например, включать использование предварительно определенной частоты дискретизации. В одном примере базовый кодер 202 может кодировать несжатые отсчеты звукового сигнала, которые должны быть совместимы с декодированием согласно стандарту MPEG-4 Audio.

Звуковой кодер 200 может дополнительно содержать буфер 203, выполненный с возможностью сохранения кодированных значений отсчетов звукового сигнала некоторого количества кадров, предшествующих текущему кадру, из множества кадров, закодированных с использованием заданной конфигурации кодеков (как указано пунктирными линиями).

При кодировании, например, кадра N, соответствующие предыдущие кадры N-1, N-2, … всегда могут помещаться в буфер/сохраняться. При получении инструкции на запись IPF в кадр N (например, каждые 2 секунды для обеспечения динамического переключения), сохраненные соответствующие предыдущие кадры N-1, N-2, … могут быть взяты и запакованы в текущий кадр N.

И звуковой кодер 200 может содержать эмбеддер 204, выполненный с возможностью записи кадра немедленного воспроизведения в текущий кадр из множества кадров, причем кадр немедленного воспроизведения может содержать кодированные значения отсчетов звукового сигнала, связанные с указанным текущим кадром, и дополнительную информацию, соответствующую кодированным значениям отсчетов звукового сигнала количества кадров, предшествующих указанному текущему кадру.

Хотя в примере на фиг. 5 эмбеддер 204 определен как часть звукового кодера 200, следует отметить, что альтернативно или дополнительно эмбеддер 204 также может быть реализован отдельно для записи кадров немедленного воспроизведения в любой текущий кадр битового потока кодированных звуковых данных или для преобразования кадров немедленного воспроизведения в битовом потоке кодированных звуковых данных в «нормальные» кадры за счет удаления дополнительной информации из кадров немедленного воспроизведения. В этом случае эмбеддер 204 может быть частью схемы кодера, но не обязательно.

В одном варианте осуществления эмбеддер 204 может быть дополнительно выполнен с возможностью включения информации о заданной конфигурации кодеков в дополнительную информацию. В этом случае, дополнительная информация может предоставлять информацию о заданной конфигурации кодеков в декодер.

В одном варианте осуществления эмбеддер 204 может быть дополнительно выполнен с возможностью включения дополнительной информации в кадр немедленного воспроизведения. Таким образом, дополнительная информация может передаваться в битовом потоке в декодер.

В одном варианте осуществления сгенерированный битовый поток кодированных звуковых данных может представлять собой битовый поток MPEG-4 Audio.

В одном варианте осуществления эмбеддер 204 может быть дополнительно выполнен с возможностью ввода дополнительной информации в битовый поток (например, для передачи) посредством механизма расширения битового потока MPEG-4 Audio, который может представлять собой либо элемент потока данных (ID_DSE), либо элемент extension_payload.

В одном варианте осуществления эмбеддер 204 может быть дополнительно выполнен с возможностью размещения либо элемента потока данных (ID_DSE), либо элемента extension_payload в заданном положении в битовом потоке MPEG-4 Audio и/или присвоения специальной конкретной метки, сообщающей, что полезная нагрузка элемента потока данных (ID_DSE) или элемента extension_payload представляет собой дополнительную информацию. Заданное положение может соответствовать первому положению в битовом потоке MPEG-4 Audio, т.е. всегда первому в кадрах, поскольку оно может переносить конфигурацию декодера, которая может потребоваться для декодирования кадра n (фиг. 1, raw_data_block()[n]). Декодер, таким образом, может предполагать, что, если первый элемент в кадре представляет собой ID_DSE или элемент extension_payload (может находиться внутри элемента ID_FIL), то этот элемент переносит предварительно загруженные данные (предшествующие кадры, предварительно загруженные кадры).

В одном варианте осуществления эмбеддер 204 может быть дополнительно выполнен с возможностью включения уникального идентификатора в дополнительную информацию. Необязательно уникальный идентификатор может сообщать заданную конфигурацию кодеков. Заданная конфигурация кодеков затем может использоваться декодером для декодирования кадра n, как указано выше. На основании уникального идентификатора декодер может быть способен идентифицировать дополнительную информацию в битовом потоке и выполнить синтаксический анализ битового потока соответственно.

В одном варианте осуществления звуковой кодер 200 может быть дополнительно выполнен с возможностью не подвергать временному дифференциальному кодированию или энтропийному кодированию самый ранний кадр из количества кадров, содержащихся в дополнительной информации, относительно любого кадра до самого раннего кадра, и звуковой кодер 200 может быть дополнительно выполнен с возможностью не подвергать временному дифференциальному кодированию или энтропийному кодированию кадр немедленного воспроизведения относительно любого кадра до самого раннего кадра из количества кадров, предшествующих кадру немедленного воспроизведения, или относительно любого кадра до кадра немедленного воспроизведения.

Обратимся теперь к примеру на фиг. 6; один аспект настоящего изобретения относится к способу генерирования посредством звукового кодера битового потока кодированных звуковых данных с кадрами немедленного воспроизведения (точки произвольного доступа), причем битовый поток кодированных звуковых данных представляет последовательность значений отсчетов звукового сигнала и содержит множество кадров, причем каждый кадр содержит связанные кодированные значения отсчетов звукового сигнала.

Способ может включать этап S201 кодирования посредством базового кодера несжатых значений отсчетов звукового сигнала, связанных с множеством кадров, с использованием заданной конфигурации кодеков. Использование заданной конфигурации кодеков может, например, включать использование предварительно определенной частоты дискретизации. Способ может дополнительно включать этап S202 сохранения посредством буфера кодированных значений отсчетов звукового сигнала некоторого количества кадров, предшествующих текущему кадру, из множества кадров, закодированных с использованием заданной конфигурации кодеков.

И способ может включать этап S203 записи посредством эмбеддера кадра немедленного воспроизведения в текущий кадр из множества кадров, причем кадр немедленного воспроизведения содержит кодированные значения отсчетов звукового сигнала, связанные с указанным текущим кадром, и дополнительную информацию, соответствующую кодированным значениям отсчетов звукового сигнала количества кадров, предшествующих указанному текущему кадру.

В одном варианте осуществления дополнительная информация может дополнительно содержать информацию о заданной конфигурации кодеков. Заданная конфигурация кодеков может использоваться декодером в способе декодирования, как подробно описано выше.

В одном варианте осуществления кадр немедленного воспроизведения может дополнительно содержать дополнительную информацию. Таким образом, дополнительная информация может передаваться в битовом потоке.

В одном варианте осуществления дополнительная информация может быть введена в битовый поток (например, для передачи) посредством эмбеддера с помощью механизма расширения битового потока MPEG-4 Audio, который представляет собой либо элемент потока данных (ID_DSE), либо элемент extension_payload. Элемент extension_payload может, например, находиться в разных местах синтаксиса битового потока MPEG-4 Audio. В одном варианте осуществления элемент extension_payload может быть введен (например, для передачи) посредством эмбеддера внутрь заполняющего элемента (ID_FIL).

Как подробно описано выше, в одном варианте осуществления либо элемент потока данных (ID_DSE), либо элемент extension_payload может быть размещен посредством эмбеддера в заданном положении в битовом потоке MPEG-4 Audio и/или ему может быть присвоена специальная конкретная метка, сообщающая, что полезная нагрузка элемента потока данных (ID_DSE) или элемента extension_payload представляет собой дополнительную информацию. Заданное положение всегда может быть первым положением в кадрах, поскольку оно может переносить конфигурацию декодера, которая может потребоваться для декодирования текущего кадра.

В одном варианте осуществления дополнительная информация может дополнительно содержать уникальный идентификатор. Необязательно уникальный идентификатор может сообщать заданную конфигурацию кодеков.

В одном варианте осуществления самый ранний кадр из количества кадров, содержащихся в дополнительной информации, может не быть подвергнут временному дифференциальному кодированию или энтропийному кодированию посредством звукового кодера относительно любого кадра до самого раннего кадра, и кадр немедленного воспроизведения может не быть подвергнут временному дифференциальному кодированию или энтропийному кодированию посредством звукового кодера относительно любого кадра до самого раннего кадра из количества кадров, предшествующих кадру немедленного воспроизведения, или относительно любого кадра до кадра немедленного воспроизведения.

Обратимся теперь к примеру на фиг. 7; один аспект настоящего изобретения относится к системе, содержащей два или более звуковых кодеров для генерирования множества битовых потоков кодированных звуковых данных, каждый из которых имеет кадры немедленного воспроизведения (синхронизированные во времени точки произвольного доступа), причем каждый битовый поток кодированных звуковых данных представляет последовательность значений отсчетов звукового сигнала и содержит множество кадров, и причем каждый кадр содержит связанные кодированные значения отсчетов звукового сигнала. Хотя количество звуковых кодеров в системе не ограничено, в примере на фиг. 7 изображена система, содержащая два звуковых кодера. Система может использовать два звуковых кодера параллельно на одном содержимом, вставляющих кадры немедленного воспроизведения с одинаковой каденцией, но имеющих разную конфигурацию, например, в отношении битовой скорости. Каждая схема кодирования может выводить свой собственный битовый поток. Оба битовых потока, созданных таким образом, могут сохраняться, например, на веб-сервере. Клиент может начать воспроизводить поток A (например, на более высокой битовой скорости). В некоторый момент времени клиент может решить переключиться на поток B с более низкой битовой скоростью и, таким образом, может запросить то же содержимое, но с другой битовой скоростью. Когда первый сегмент потока B поступает на декодер, такой сегмент может всегда начинаться с IPF (это может сообщаться, например, посредством файла манифеста согласно MPEG-DASH), который позволяет декодеру выводить правильный звук с самого начала.

Обратимся теперь к примеру на фиг. 7, два звуковых кодера изображены параллельно, каждый из звуковых кодеров содержит базовый кодер 202 (базовый кодер №1, базовый кодер №2), буфер (не показан) и эмбеддер 204 (ввод IPF).

В одном варианте осуществления предварительно определенная частота дискретизации может быть одинаковой для каждого из базовых кодеров 202. В ином случае на стороне декодера может потребоваться выполнить передискретизацию и обработку с дополнительной задержкой. Однако базовые кодеры 202 могут быть выполнены с возможностью работы при разных частотах кадров (например AAC-LC 1024; HE-AAC 2048). Кроме того, конфигурации базовых кодеров могут требовать разного количества предварительно загруженных кадров p. Может потребоваться, чтобы как кадр n-p, так и n были независимо декодируемыми, т.е. чтобы они могли не полагаться на информацию из предыдущих кадров (для HE-AAC они могут содержать заголовок SBR). После базового кодирования периоды времени декодирования IPF могут быть синхронизированы по разным потокам.

В одном варианте осуществления система может дополнительно содержать блок 201 выравнивания задержки (задержка №1, задержка №2) для выравнивания задержки множества битовых потоков. Для плавного переключения на декодере может потребоваться синхронизировать периоды времени декодирования кадров немедленного воспроизведения (IPF). На стадии выравнивания задержки могут задерживать входные PCM-отсчеты (несжатые значения отсчетов звукового сигнала, входные значения отсчетов звукового сигнала) для компенсации разных задержек кодера/декодера.

Обратимся теперь к примеру на фиг. 8; один аспект настоящего изобретения относится к устройству для генерирования кадров немедленного воспроизведения (точек произвольного доступа) в битовом потоке кодированных звуковых данных или для удаления кадров немедленного воспроизведения (точек произвольного доступа) из битового потока кодированных звуковых данных, причем битовый поток кодированных звуковых данных представляет последовательность значений отсчетов звукового сигнала и содержит множество кадров, причем каждый кадр содержит связанные кодированные значения отсчетов звукового сигнала.

Устройство 300 может содержать приемник 301, выполненный с возможностью приема битового потока кодированных звуковых данных, причем битовый поток кодированных звуковых данных представляет последовательность значений отсчетов звукового сигнала и содержит множество кадров, причем каждый кадр содержит связанные кодированные значения отсчетов звукового сигнала.

И устройство 300 может содержать эмбеддер 302, выполненный с возможностью записи кадра немедленного воспроизведения в текущий кадр из множества кадров, причем кадр немедленного воспроизведения содержит кодированные значения отсчетов звукового сигнала, связанные с указанным текущим кадром, и дополнительную информацию, соответствующую кодированным значениям отсчетов звукового сигнала некоторого количества кадров, предшествующих указанному текущему кадру. При генерировании IPF эмбеддер 302 может работать в соответствии с принципами, описанными выше в связи с фиг. 5–7. Можно сказать, что эта работа соответствует преобразованию «нормального» (не IPF) кадра в IPF.

Ввод IPF может обеспечивать фактическое копирование и упаковку. За счет разделения базового кодирования и ввода IPF, как в вышеупомянутом устройстве, можно сохранить битовые потоки без IPF, и только вводить IPF перед распределением, если это необходимо. Если он сконфигурирован для плавного переключения, каждый IPF может содержать конфигурацию потока ASC.

В одном варианте осуществления устройство 300 может дополнительно содержать буфер, выполненный с возможностью сохранения кодированных значений отсчетов звукового сигнала количества кадров, предшествующих текущему кадру, из множества кадров.

В одном варианте осуществления эмбеддер 302 может быть дополнительно выполнен с возможностью удаления из кадра немедленного воспроизведения дополнительной информации, соответствующей кодированным значениям отсчетов звукового сигнала количества кадров, предшествующих указанному текущему кадру. Можно сказать, что это соответствует преобразованию IPF в «нормальный» кадр. Например, звуковой кодер может генерировать только IPF, которые затем могут быть удалены эмбеддером, в зависимости от ограничений, которые может иметь соответствующий канал/услуга.

Обратимся теперь к примеру на фиг. 9; аспекты настоящего изобретения могут включать постоянный цифровой носитель данных, на котором хранится компьютерная программа для выполнения способов, описанных в настоящем документе, когда указанная компьютерная программа исполняется компьютером или процессором. На фиг. 9 в иллюстративных целях изображено устройство 400, имеющее процессор 401, который может исполнять указанную компьютерную программу. Альтернативно устройство 400 может представлять соответствующий компьютер.

Способы и системы, описанные в настоящем документе, могут быть реализованы как программное обеспечение, аппаратно-программное обеспечение и/или аппаратное обеспечение. Некоторые компоненты могут быть реализованы, например, как программное обеспечение, запускаемое на процессоре цифровой обработки сигналов или на микропроцессоре. Другие компоненты могут быть реализованы, например, как аппаратное обеспечение и/или как интегральные схемы специального назначения. Сигналы, которые встречаются в описанных способах и системах, могут храниться на носителях, таких как оперативные запоминающие устройства или оптические носители информации. Они могут передаваться по сетям, таким как радиосети, спутниковые сети, беспроводные сети или проводные сети, например Интернет. Типичными устройствами, использующими способы, устройство и системы, описанные в настоящем документе, являются переносные электронные устройства или другая бытовая аппаратура, которая используется для хранения и/или рендеринга звуковых сигналов.

Следует отметить, что описание и графические материалы/фигуры иллюстрируют только принципы предложенных способов, систем и аппаратов. Специалисты в данной области техники будут способны реализовать различные схемы, которые, хотя явно не описаны или показаны в настоящем документе, осуществляют принципы настоящего изобретения и включены в его сущность и объем. Более того, все примеры и варианты осуществления, изложенные в настоящем документе, в первую очередь явным образом предназначены для пояснительных целей, чтобы помочь читателю в понимании принципов предложенного способа. Кроме того, все утверждения в настоящем документе, представляющие принципы, аспекты и варианты осуществления настоящего изобретения, а также их конкретные примеры, предполагаются как охватывающие их эквиваленты.

1. Звуковой декодер (100) для декодирования битового потока кодированных звуковых данных, причем битовый поток кодированных звуковых данных представляет последовательность значений отсчетов звукового сигнала и содержит множество кадров, причем каждый кадр содержит связанные кодированные значения отсчетов звукового сигнала, при этом звуковой декодер (100) содержит:

блок определения (101), выполненный с возможностью определения того, является ли кадр битового потока кодированных звуковых данных кадром (1) немедленного воспроизведения, который содержит кодированные значения отсчетов звукового сигнала, связанные с текущим кадром, и дополнительную информацию, причем битовый поток кодированных звуковых данных представляет собой битовый поток MPEG-4 Audio, причем дополнительная информация передается посредством механизма расширения битового потока MPEG-4 Audio, который представляет собой элемент полезной нагрузки расширения нового типа элемента полезной нагрузки расширения EXT_AUDIO_PRE_ROLL, причем элемент полезной нагрузки расширения расположен в первом положении в битовом потоке MPEG-4 Audio, и причем элемент полезной нагрузки расширения находится внутри заполняющего элемента (ID_FIL),

причем дополнительная информация содержит кодированные значения отсчетов звукового сигнала некоторого количества кадров, предшествующих кадру (1) немедленного воспроизведения, причем кодированные значения отсчетов звукового сигнала предшествующих кадров могут быть закодированы с использованием той же конфигурации кодеков, что и текущий кадр,

причем количество предшествующих кадров, соответствующих предварительно загруженным кадрам (2, 3), соответствует количеству кадров, которые необходимы декодеру для формирования полного сигнала, чтобы иметь возможность выводить действительные значения отсчетов звукового сигнала, связанные с текущим кадром, каждый раз, когда декодируется кадр (1) немедленного воспроизведения; и

блок (102) инициализации, выполненный с возможностью инициализации декодера, если блок определения определяет, что кадр представляет собой кадр (1) немедленного воспроизведения,

причем инициализация декодера включает декодирование кодированных значений отсчетов звукового сигнала, содержащихся в дополнительной информации, перед декодированием кодированных значений отсчетов звукового сигнала, связанных с текущим кадром,

причем блок (102) инициализации выполнен с возможностью переключения звукового декодера (100) с текущей конфигурации кодеков на другую конфигурацию кодеков, если блок (101) определения определяет, что кадр представляет собой кадр (1) немедленного воспроизведения, и если значения отсчетов звукового сигнала текущего кадра были закодированы с использованием другой конфигурации кодеков, и

причем декодер (100) выполнен с возможностью декодирования текущего кадра с использованием текущей конфигурации кодеков и отбрасывания дополнительной информации, если блок (101) определения определяет, что кадр представляет собой кадр (1) немедленного воспроизведения, и если значения отсчетов звукового сигнала текущего кадра были закодированы с использованием текущей конфигурации кодеков.

2. Звуковой декодер (100) по п. 1, отличающийся тем, что дополнительная информация дополнительно содержит информацию о конфигурации кодеков, которая используется для кодирования значений отсчетов звукового сигнала, связанных с текущим кадром, и причем блок (101) определения дополнительно выполнен с возможностью определения того, отличается ли конфигурация кодеков дополнительной информации от текущей конфигурации кодеков, и/или

при этом кадр (1) немедленного воспроизведения содержит дополнительную информацию в качестве полезной нагрузки расширения, и при этом блок (101) определения выполнен с возможностью оценки полезной нагрузки расширения кадра (1) немедленного воспроизведения.

3. Звуковой декодер (100) по любому из пп. 1 или 2, отличающийся тем, что элемент полезной нагрузки расширения имеет специальную конкретную метку, сообщающую, что полезная нагрузка элемента полезной нагрузки расширения представляет собой дополнительную информацию, и/или

при этом дополнительная информация дополнительно содержит уникальный идентификатор, и причем необязательно уникальный идентификатор используют для обнаружения другой конфигурации кодеков.

4. Звуковой декодер (100) по любому из пп. 1–3, отличающийся тем, что дополнительно содержит блок плавного микширования, выполненный с возможностью выполнения плавного микширования выходных значений отсчетов, полученных за счет сброса декодера (100) в предыдущей конфигурации кодеков, и выходных значений отсчетов, полученных за счет декодирования кодированных значений отсчетов звукового сигнала, связанных с текущим кадром, и/или

при этом самый ранний кадр из количества кадров, содержащихся в дополнительной информации, не подвергается временному дифференциальному кодированию или энтропийному кодированию относительно любого кадра до самого раннего кадра, и причем кадр (1) немедленного воспроизведения не подвергается временному дифференциальному кодированию или энтропийному кодированию относительно любого кадра до самого раннего кадра из количества кадров, предшествующих кадру (1) немедленного воспроизведения, или относительно любого кадра до кадра (1) немедленного воспроизведения.

5. Способ декодирования битового потока кодированных звуковых данных, причем битовый поток кодированных звуковых данных представляет последовательность значений отсчетов звукового сигнала и содержит множество кадров, причем каждый кадр содержит связанные кодированные значения отсчетов звукового сигнала, включающий:

определение (S102) того, является ли кадр битового потока кодированных звуковых данных кадром немедленного воспроизведения, который содержит кодированные значения отсчетов звукового сигнала, связанные с текущим кадром, и дополнительную информацию, причем битовый поток кодированных звуковых данных представляет собой битовый поток MPEG-4 Audio, причем дополнительная информация передается посредством механизма расширения битового потока MPEG-4 Audio, который представляет собой элемент полезной нагрузки расширения нового типа элемента полезной нагрузки расширения EXT_AUDIO_PRE_ROLL, причем элемент полезной нагрузки расширения расположен в первом положении в битовом потоке MPEG-4 Audio, и причем элемент полезной нагрузки расширения находится внутри заполняющего элемента (ID_FIL),

причем дополнительная информация содержит кодированные значения отсчетов звукового сигнала некоторого количества кадров, предшествующих кадру немедленного воспроизведения,

причем кодированные значения отсчетов звукового сигнала предшествующих кадров закодированы с использованием той же конфигурации кодеков, что и кадр немедленного воспроизведения,

причем количество предшествующих кадров, соответствующих предварительно загруженным кадрам, соответствует количеству кадров, которые необходимы декодеру для формирования полного сигнала, чтобы иметь возможность выводить действительные значения отсчетов звукового сигнала, связанные с текущим кадром, каждый раз, когда декодируется кадр немедленного воспроизведения;

инициализацию (S103) декодера, если определяют, что кадр представляет собой кадр немедленного воспроизведения, причем инициализация включает декодирование кодированных значений отсчетов звукового сигнала, содержащихся в дополнительной информации, перед декодированием кодированных значений отсчетов звукового сигнала, связанных с текущим кадром;

переключение звукового декодера с текущей конфигурации кодеков на другую конфигурацию кодеков, если определяют, что кадр представляет собой кадр немедленного воспроизведения, и если значения отсчетов звукового сигнала кадра немедленного воспроизведения были закодированы с использованием другой конфигурации кодеков; и

декодирование кадра немедленного воспроизведения с использованием текущей конфигурации кодеков и отбрасывание дополнительной информации, если определяют, что кадр представляет собой кадр немедленного воспроизведения, и если значения отсчетов звукового сигнала кадра немедленного воспроизведения были закодированы с использованием текущей конфигурации кодеков.

6. Способ по п. 5, отличающийся тем, что битовый поток кодированных звуковых данных содержит первое количество кадров, закодированных с использованием первой конфигурации кодеков, и второе количество кадров, следующих за первым количеством кадров и закодированных с использованием второй конфигурации кодеков, причем первый кадр из второго количества кадров представляет собой кадр немедленного воспроизведения.

7. Звуковой кодер (200) для генерирования битового потока кодированных звуковых данных с кадрами (1) немедленного воспроизведения, причем битовый поток кодированных звуковых данных представляет последовательность значений отсчетов звукового сигнала и содержит множество кадров, причем каждый кадр содержит связанные кодированные значения отсчетов звукового сигнала, при этом звуковой кодер (200) содержит:

базовый кодер (202), выполненный с возможностью кодирования несжатых значений отсчетов звукового сигнала, связанных с множеством кадров, с использованием заданной конфигурации кодеков;

буфер (203), выполненный с возможностью сохранения кодированных значений отсчетов звукового сигнала некоторого количества кадров, предшествующих текущему кадру, из множества кадров, закодированных с использованием заданной конфигурации кодеков; и

эмбеддер (204), выполненный с возможностью записи кадра (1) немедленного воспроизведения в текущий кадр из множества кадров, причем кадр (1) немедленного воспроизведения содержит кодированные значения отсчетов звукового сигнала, связанные с указанным текущим кадром, и дополнительную информацию, соответствующую кодированным значениям отсчетов звукового сигнала количества кадров, предшествующих указанному текущему кадру, причем сгенерированный битовый поток кодированных звуковых данных представляет собой битовый поток MPEG-4 Audio, причем эмбеддер (204) дополнительно выполнен с возможностью ввода дополнительной информации в битовый поток посредством механизма расширения битового потока MPEG-4 Audio, который представляет собой элемент полезной нагрузки расширения нового типа элемента полезной нагрузки расширения EXT_AUDIO_PRE_ROLL, размещения элемента полезной нагрузки расширения в первом положении в битовом потоке MPEG-4 Audio, и ввода элемента полезной нагрузки расширения внутрь заполняющего элемента (ID_FIL).

8. Звуковой кодер (200) по п. 7, отличающийся тем, что эмбеддер (204) дополнительно выполнен с возможностью включения информации о заданной конфигурации кодеков в дополнительную информацию, и/или

при этом эмбеддер (204) дополнительно выполнен с возможностью включения дополнительной информации в кадр (1) немедленного воспроизведения.

9. Звуковой кодер (200) по любому из пп. 7 или 8, отличающийся тем, что эмбеддер (204) дополнительно выполнен с возможностью присвоения специальной конкретной метки, сообщающей, что полезная нагрузка элемента полезной нагрузки расширения представляет собой дополнительную информацию, и/или

при это эмбеддер (204) дополнительно выполнен с возможностью включения уникального идентификатора в дополнительную информацию, и при этом необязательно уникальный идентификатор сообщает заданную конфигурацию кодеков.

10. Звуковой кодер (200) по любому из пп. 7–9, отличающийся тем, что звуковой кодер (200) дополнительно выполнен с возможностью не подвергать временному дифференциальному кодированию или энтропийному кодированию самый ранний кадр из количества кадров, содержащихся в дополнительной информации, относительно любого кадра до самого раннего кадра, и причем звуковой кодер (200) дополнительно выполнен с возможностью не подвергать временному дифференциальному кодированию или энтропийному кодированию кадр (1) немедленного воспроизведения относительно любого кадра до самого раннего кадра из количества кадров, предшествующих кадру (1) немедленного воспроизведения, или относительно любого кадра до кадра (1) немедленного воспроизведения.

11. Система, содержащая два или более звуковых кодеров (200) по любому из пп. 7–10, для генерирования множества битовых потоков кодированных звуковых данных, каждый из которых имеет кадры (1) немедленного воспроизведения, причем каждый битовый поток кодированных звуковых данных представляет последовательность значений отсчетов звукового сигнала и содержит множество кадров, и причем каждый кадр содержит связанные кодированные значения отсчетов звукового сигнала.

12. Система по п. 11, отличающаяся тем, что предварительно определенная частота дискретизации одинакова для каждого из базовых кодеров (202) двух или более звуковых кодеров (200), и/или

при этом система дополнительно содержит блок (201) выравнивания задержки для выравнивания задержки множества битовых потоков.

13. Способ генерирования посредством звукового кодера битового потока кодированных звуковых данных с кадрами немедленного воспроизведения, причем битовый поток кодированных звуковых данных представляет последовательность значений отсчетов звукового сигнала и содержит множество кадров, причем каждый кадр содержит связанные кодированные значения отсчетов звукового сигнала, при этом способ включает следующие этапы:

кодирование (S201) посредством базового кодера несжатых значений отсчетов звукового сигнала, связанных с множеством кадров, с использованием заданной конфигурации кодеков;

сохранение (S202) посредством буфера кодированных значений отсчетов звукового сигнала некоторого количества кадров, предшествующих текущему кадру, из множества кадров, закодированных с использованием заданной конфигурации кодеков; и

запись (S203) посредством эмбеддера кадра немедленного воспроизведения в текущий кадр из множества кадров, причем кадр немедленного воспроизведения содержит кодированные значения отсчетов звукового сигнала, связанные с указанным текущим кадром, и дополнительную информацию, соответствующую кодированным значениям отсчетов звукового сигнала количества кадров, предшествующих указанному текущему кадру, причем сгенерированный битовый поток кодированных звуковых данных представляет собой битовый поток MPEG-4 Audio, причем дополнительную информацию вводят в битовый поток посредством эмбеддера с помощью механизма расширения битового потока MPEG-4 Audio, который представляет собой элемент полезной нагрузки расширения нового типа элемента полезной нагрузки расширения EXT_AUDIO_PRE_ROLL, причем элемент полезной нагрузки расширения размещают посредством эмбеддера в первом положении в битовом потоке MPEG-4 Audio, и причем элемент полезной нагрузки расширения вводят посредством эмбеддера внутрь заполняющего элемента (ID_FIL).

14. Устройство (300) для генерирования кадров (1) немедленного воспроизведения в битовом потоке кодированных звуковых данных, причем битовый поток кодированных звуковых данных представляет последовательность значений отсчетов звукового сигнала и содержит множество кадров, причем каждый кадр содержит связанные кодированные значения отсчетов звукового сигнала, при этом устройство (300) содержит:

приемник (301), выполненный с возможностью приема битового потока MPEG-4 Audio кодированных звуковых данных, причем битовый поток кодированных звуковых данных представляет последовательность значений отсчетов звукового сигнала и содержит множество кадров, причем каждый кадр содержит связанные кодированные значения отсчетов звукового сигнала;

буфер, выполненный с возможностью сохранения кодированных значений отсчетов звукового сигнала некоторого количества кадров, предшествующих текущему кадру, из множества кадров; и

эмбеддер (302), выполненный с возможностью записи кадра (1) немедленного воспроизведения в текущий кадр из множества кадров, причем кадр (1) немедленного воспроизведения содержит кодированные значения отсчетов звукового сигнала, связанные с указанным текущим кадром, и дополнительную информацию, соответствующую кодированным значениям отсчетов звукового сигнала количества кадров, предшествующих указанному текущему кадру, причем эмбеддер (302) дополнительно выполнен с возможностью ввода дополнительной информации в битовый поток посредством механизма расширения битового потока MPEG-4 Audio, который представляет собой элемент полезной нагрузки расширения нового типа элемента полезной нагрузки расширения EXT_AUDIO_PRE_ROLL, размещения элемента полезной нагрузки расширения в первом положении в битовом потоке MPEG-4 Audio, и ввода элемента полезной нагрузки расширения внутрь заполняющего элемента (ID_FIL).

15. Устройство (300) для удаления кадров (1) немедленного воспроизведения из битового потока кодированных звуковых данных, причем битовый поток кодированных звуковых данных представляет последовательность значений отсчетов звукового сигнала и содержит множество кадров, причем каждый кадр содержит связанные кодированные значения отсчетов звукового сигнала, при этом устройство (300) содержит:

приемник (301), выполненный с возможностью приема битового потока кодированных звуковых данных, причем битовый поток кодированных звуковых данных представляет последовательность значений отсчетов звукового сигнала и содержит множество кадров, причем каждый кадр содержит связанные кодированные значения отсчетов звукового сигнала; и

эмбеддер (302), выполненный с возможностью преобразования кадра (1) немедленного воспроизведения в нормальный кадр за счет удаления из кадра (1) немедленного воспроизведения дополнительной информации, соответствующей кодированным значениям отсчетов звукового сигнала некоторого количества кадров, предшествующих текущему кадру, из множества кадров, в который был записан кадр (1) немедленного воспроизведения.

Изобретение относится к области вычислительной техники для обработки аудиоданных. Технический результат заключается в обеспечении восстановления качества звучания без увеличения алгоритмической задержки, когда происходит потеря пакета при кодировании аудио.

Интеграция методик реконструкции высоких частот звука // 2792114

Изобретение относится к средствам для обработки звуковых сигналов. Технический результат заключается в повышении эффективности реконструкции высоких частот звуковых сигналов.

Устройство и способ для кодирования пространственного звукового представления или устройство и способ для декодирования закодированного аудиосигнала с использованием транспортных метаданных и соответствующие компьютерные программы // 2792050

Изобретение относится к области вычислительной техники для обработки аудиоданных. Технический результат заключается в обеспечении кодирования пространственных аудиосцен с низкими битовыми скоростями и максимальной точностью воспроизвения первоначальной аудиосцены после передачи.

Устройство, способ или компьютерная программа для формирования выходного представления понижающего микширования // 2791872

Изобретение относится к средствам для формирования выходного представления понижающего микширования. Технический результат заключается в повышении эффективности преобразования входного представления понижающего микширования.

Избирательный басовый постфильтр // 2791678

Изобретение относится к области вычислительной техники для обработки аудиоданных. Технический результат заключается в повышении точности воспроизведения цифрового звука.

Устройство понижающего микширования и способ понижающего микширования // 2791673

Изобретение относится к области вычислительной техники для обработки аудиосигналов. Технический результат заключается в снижении задержки при обеспечении понижающего микширования к многоканальному аудиосигналу.

Аудиокодер и аудиодекодер с метаданными сведений о программе или структуры вложенных потоков // 2790571

Заявлены устройство и способы генерирования кодированного битового аудиопотока. Решение заключается во включении в битовый поток метаданных структуры вложенных потоков и/или метаданных сведений о программе и аудиоданных.

Способы, устройства и системы для подвергнутого предварительному рендерингу сигнала для рендеринга звука // 2787581

Изобретение относится к средствам для рендеринга звука. Технический результат заключается в повышении эффективности рендеринга звука.

Устройство эхоподавления, способ эхоподавления и программа эхоподавления // 2786157

Система относится к области вычислительной техники для обработки аудиоданных. Технический результат заключается в обеспечении подавления эха без разрыва голосового сигнала.

Многоканальный аудиокодер, декодер, способы и компьютерная программа для переключения между параметрическим многоканальным режимом работы и режимом работы с отдельными каналами // 2785944

Изобретение относится к области вычислительной техники для аудиокодирования данных. Технический результат заключается в обеспечении возможности воспроизведения стереоизображения и обеспечения голосового выходного сигнала для сценариев с интерферирующими источниками голосовых данных.