Устройство кодирования, способ кодирования, устройство декодирования, способ декодирования и программа

Изобретение относится к средствам для кодирования и декодирования аудиоданных. Технический результат заключается в повышении эффективности кодирования. Принимают как кодированные аудиоданные, полученные посредством кодирования аудиосигнала от аудиообъекта в кадре заданного промежутка времени, так и множество метаданных для указанного кадра. Декодируют кодированные аудиоданные. Осуществляют отображение на основе аудиосигнала, полученного в результате декодирования, и метаданных. При этом каждые метаданные из множества метаданных являются метаданными для множества выборок в кадре аудиосигнала, вплоть до заданного количества выборок в кадре. При этом метаданные содержат информацию о местоположении, указывающую положение аудиообъекта. При этом метаданные содержат метаданные для использования при осуществлении интерполяционной обработки коэффициентов усиления для выборок аудиосигнала, причем указанные коэффициенты усиления вычислены на основе указанных метаданных. 6 н. и 9 з.п. ф-лы, 6 ил.

 

Область техники, к которой относится изобретения

Предлагаемая технология относится к устройству кодирования, способу кодирования, устройству декодирования, способу декодирования и программе. Более конкретно, предлагаемая технология относится к устройству кодирования, способу кодирования, устройству декодирования, способу декодирования и программе для получения звука более высокого качества.

Уровень техники

Ранее были известны выпущенные группой экспертов по кинематографии стандарты для высокого качества звучания (moving picture experts group-high quality (MPEG-H)), относящиеся к трехмерному (3D) аудио сигналу (далее MPEG-H 3D Audio), для сжатия (кодирования) аудио сигнала от аудио объекта и метаданных, таких как информация о местонахождении этого аудио объекта (например, см. литературу NPL 1).

Согласно упомянутому выше способу аудио сигнал от аудио объекта и его метаданные кодируют по кадрам и передают. В этом случае максимум один блок метаданных кодируют для каждого кадра аудио сигнала от аудио объекта и передают. Иными словами, некоторые кадры могут не иметь в составе метаданных.

Кроме того, кодированный аудио сигнал и метаданные декодируют посредством устройства декодирования. Затем выполняют отображение на основе аудио сигнала и метаданных, полученных посредством декодирования.

Иными словами, устройство декодирования сначала декодирует аудио сигнал и метаданные. В процессе декодирования аудио сигнал превращается в выборки данных с импульсно-кодовой модуляцией (ИКМ (pulse code modulation (PCM))) в каждом кадре. Иными словами, ИКМ-данные получают в виде аудио сигнала.

С другой стороны, метаданные при декодировании превращаются в метаданные относительно репрезентативной выборки в рассматриваемом кадре. Конкретнее, то, что получают здесь, представляет собой метаданные относительно последней выборки в рассматриваемом кадре.

Имея полученные таким способом аудио сигнал и метаданные, секция отображения в устройстве декодирования вычисляет коэффициент усиления за счет векторного амплитудного панорамирования (vector base amplitude panning (VBAP) gain, далее коэффициент усиления VBAP) на основе информации о местонахождении, передаваемой метаданными, относительно репрезентативной выборки в каждом кадре, таким образом, что звуковое изображение аудио объекта локализовано в позиции, обозначенной посредством информации о местонахождении. Коэффициент усиления VBAP вычисляют для каждого из громкоговорителей, конфигурированных на стороне воспроизведения.

Однако следует отметить, что метаданные относительно аудио объекта представляют собой метаданные относительно репрезентативной выборки в каждом кадре, т.е. метаданные относительно последней выборки в кадре, как описано выше. Это означает, что коэффициент усиления VBAP, вычисленный секцией отображения, представляет собой коэффициент усиления для последней выборки в каждом кадре. Коэффициент усиления VBAP для любой другой выборки в соответствующем кадре не получен. Отсюда следует, что для воспроизведения звука аудио объекта требуется также вычислить коэффициенты усиления VBAP для выборок, отличных от репрезентативной выборки аудио сигнала.

Секция отображения, таким образом, вычисляет коэффициент усиления VBAP для каждой выборки с использованием процедуры интерполяции. В частности, для каждого громкоговорителя осуществляют линейную интерполяцию для вычисления коэффициентов усиления VBAP для выборок в текущем кадре между последней выборкой в текущем кадре и последней выборкой в непосредственно предшествующем кадре с использованием коэффициентов усиления VBAP для этих двух последних выборок.

Таким образом, для каждого громкоговорителя получают для каждой выборки коэффициент усиления VBAP, на который следует умножить аудио сигнал от аудио объекта. Это позволяет воспроизводить звук от аудио объекта.

Иными словами, устройства декодирования умножает аудио сигнал от аудио объекта на коэффициент усиления VBAP, вычисленный для каждого громкоговорителя прежде подачи аудио сигнала этим громкоговорителям для воспроизведения звука.

Список литературы

Непатентная литература

[NPL 1]

ISO/IEC JTC1/SC29/WG11 N14747, August 2014, Sapporo, Japan, “Text of ISO/IEC 23008-3/DIS, 3D Audio”

Раскрытие сущности изобретения

Техническая проблема

Упомянутым выше способам свойственно, однако, то затруднение, что трудно получить звук достаточно высокого качества.

Например, векторное панорамирование VBAP включает в себя нормирование, в результате которого сумма квадратов вычисленных коэффициентов усиления VBAP для каждого из конфигурированных громкоговорителей становится равной 1. Такое нормирование позволяет локализовать звуковое изображение на поверхности сферы с радиусом, равным 1, и центром в заданной опорной точке в пространстве воспроизведения, такой как позиция головы виртуального пользователя просматривающего или прослушивающего контент, такой как фрагменты музыки или видео со звуком.

Однако поскольку коэффициенты усиления VBAP для выборок, отличных от репрезентативных выборок в кадрах, вычисляют с применением интерполяции, сумма квадратов коэффициентов усиления VBAP для этих выборок для каждого громкоговорителя не становится равной 1. С использованием выборок, коэффициенты усиления VBAP для которых вычислены с применением интерполяции, позиция звукового изображения может быть сдвинута в направлении нормали, в вертикальном или в горизонтальном направлении над поверхностью указанной выше сферы, если смотреть со стороны виртуального пользователя во время воспроизведения звука. В результате позиция звукового изображения аудио объекта во время воспроизведения может быть дестабилизирована в пределах периода одного кадра. Это может ухудшить ощущение локализации и привести к низкому качеству звучания.

В частности, чем большее число выборок составляет каждый кадр, тем продолжительнее может стать отрезок времени между положением последней выборки в текущем кадре и положением последней выборки в непосредственно предшествующем кадре. Это может привести к большей разности между величиной 1 и суммой квадратов вычисленных с применением интерполяции коэффициентов усиления VBAP для конфигурированных громкоговорителей, что ведет к деградации качества звучания.

Кроме того, когда коэффициенты усиления VBAP для выборок, отличных от репрезентативных выборок, вычислены с применением интерполяции, разница между коэффициентом усиления VBAP для последней выборки в текущем кадре и коэффициентом усиления VBAP для последней выборки в непосредственно предшествующем кадре может стать тем больше, чем выше скорость движения аудио объекта. Если это случится, труднее станет точно отобразить перемещение аудио объекта, что ведет к более низкому качеству звучания.

Далее, может осуществляться прерывистое переключение сцен фактического контента, такого как спортивные соревнования или кинофильмы. В той части, где сцены переключаются таким образом, аудио объект движется прерывисто. Однако если коэффициенты усиления VBAP вычислены с применением интерполяции, как описано выше, аудио объект кажется движущимся непрерывно относительно звука в течение промежутка времени между выборками, коэффициенты усиления VBAP для которых вычислены с применением интерполяции, т.е. между последней выборкой в текущем кадре и последней выборкой в непосредственно предшествующем кадре. Это делает невозможным выразить дискретное перемещение аудио объекта посредством отображения, что может ухудшить качество звучания.

Предлагаемая технология была разработана с учетом изложенных выше обстоятельств. Целью этой технологии является, поэтому, получение звука более высокого качества.

Решение проблемы

Согласно первому аспекту предлагаемой технологии предложено устройство декодирования, содержащее приемную секцию для приема как кодированных аудиоданных, полученных посредством кодирования аудио сигнала от аудио объекта в кадре заданного промежутка времени так и множества блоков метаданных для этого кадра, декодирующую секцию для декодирования кодированных аудиоданных, и секцию отображения для осуществления отображения на основе аудио сигнала, полученного в результате декодирования и метаданных.

Метаданные могут содержать информацию о положении аудио объекта.

Каждый блок из указанных блоков метаданных может представлять собой метаданные для множества выборок в кадре аудио сигнала.

Каждый из множества блоков метаданных может представлять собой метаданные для множества выборок, число которых равно результату деления числа выборок, составляющих кадр, на число блоков метаданных.

Каждый из множества блоков метаданных может представлять собой блок метаданных для множества выборок, каждая из которых обозначена своим из множества индексов выборок.

Каждый из множества блоков метаданных может представлять собой метаданные для множества выборок из состава заданного количества выборок в кадре.

Эти метаданные могут представлять собой метаданные для использования при осуществлении интерполяции коэффициентов усиления выборок в составе аудио сигнала. Эти коэффициенты усиления могут быть вычислены на основе метаданных.

Также согласно первому аспекту предлагаемой технологии предложены способ или программа декодирования, содержащие этапы, на которых принимают как кодированные данные, полученные посредством кодирования аудио сигнала от аудио объекта в кадре заданного промежутка времени, так и множества блоков метаданных для указанного кадра, декодируют кодированные аудиоданные и осуществляют отображение на основе аудио сигнала, полученного в результате декодирования, и блоков метаданных.

Таким образом, согласно первому аспекту предлагаемой технологии принимают как кодированные аудиоданные, полученные посредством кодирования аудио сигнала от аудио объекта в кадре заданного промежутка времени, так и множество блоков метаданных для этого кадра, декодируют кодированные аудиоданные и выполняют отображение на основе аудио сигнала, полученного в результате декодирования, и метаданных.

Согласно второму аспекту настоящей технологии предложено устройство кодирования, содержащее кодирующую секцию для кодирования аудио сигнала от аудио объекта в кадре для заданного промежутка времени, и секцию генерирования для генерирования потока битов, имеющего в составе кодированные аудиоданные, полученные в результате кодирования, и множество блоков метаданных для указанного кадра.

Метаданные могут содержать информацию о местонахождении, указывающую положение аудио объекта.

Каждый из указанных множества блоков метаданных может представлять собой метаданные для множества выборок из состава кадра аудио сигнала.

Каждый из указанных множества блоков метаданных может представлять собой метаданные для множества выборок, число которых определяют посредством деления количества выборок, составляющих кадр, на число блоков метаданных.

Каждый из множества блоков метаданных может представлять собой блок метаданных для множества выборок, обозначенных своим из множества индексов метаданных.

Каждый из множества блоков метаданных может представлять собой метаданные для множества выборок из состава заданного числа выборок в кадре.

Эти метаданные могут представлять собой метаданные для использования при осуществлении интерполяции коэффициентов усиления выборок в составе аудио сигнала, эти коэффициенты усиления могут быть вычислены на основе метаданных

Устройство кодирования может дополнительно содержать интерполяционную секцию для осуществления интерполяции метаданных.

Кроме того, согласно второму аспекту настоящей технологии предложен способ кодирования или программа, содержащая этапы, на которых кодируют аудио сигнал от аудио объекта в кадре для заданного промежутка времени и генерируют поток битов данных, имеющий в составе кодированные аудиоданные, полученные посредством кодирования, и множество блоков метаданных для указанного кадра.

Таким образом, согласно второму аспекту предложенной технологии кодируют аудио сигнал от аудио объекта в кадре для заданного промежутка времени и генерируют поток битов данных, имеющий в составе кодированные аудиоданные, полученные посредством кодирования, и множество блоков метаданных для указанного кадра.

Преимущества изобретения

Согласно первому и второму аспектам предлагаемой технологии получают звук более высокого качества.

Указанные выше преимущества не являются исчерпывающими для предлагаемого изобретения. Другие преимущества изобретения станут очевидны из последующего описания.

Краткое описание чертежей

Фиг. 1 представляет упрощенную схему, поясняющую поток битов данных.

Фиг. 2 представляет упрощенную схему, показывающую типовую конфигурацию устройства кодирования.

Фиг. 3 представляет логическую схему, поясняющую процедуру кодирования.

Фиг. 4 представляет упрощенную схему, показывающую типовую конфигурацию устройства декодирования.

Фиг. 5 представляет логическую схему, поясняющую процедуру декодирования.

Фиг. 6 представляет блок-схему, показывающую типовую конфигурацию компьютера.

Осуществление изобретения

Некоторые предпочтительные варианты предлагаемой технологии описаны ниже со ссылками на прилагаемые чертежи.

Первый вариант

Обзор предлагаемой технологии

Целью предлагаемой технологии является получение более высокого качества звучания, когда аудио сигнал от аудио объекта и метаданные относительно аудио объекта, такие как информация о местонахождении, кодируют перед тем, как передать, далее кодированный аудио сигнал и метаданные декодируют и воспроизводят звук на декодирующей стороне. В последующем описании аудио объект может называться просто объектом.

Предлагаемая технология содержит кодирование нескольких блоков метаданных для аудио сигнала в каждом кадре, т.е. кодирование по меньшей мере двух блоков метаданных для аудио сигнала в каждом кадре перед тем, как передать кодированные метаданные.

Кроме того, термин «метаданные» в этом контексте обозначает метаданные для выборок в каждом кадре аудио сигнала, т.е. метаданные, присвоенные этим выборкам. Например, положение аудио объекта в пространстве может быть обозначено информацией о местонахождении в качестве метаданных, указывающих на позицию во времени, в какой воспроизводится звук на основе выборок, которым присвоены эти метаданные.

Метаданные можно передавать посредством одного из следующих трех способов: способ назначения количества, способ назначения выборок и способ автоматического переключения. В процессе передачи эти метаданные могут быть переданы с использованием этих трех способов, переключаемых один за другим, для каждого объекта или для каждого кадра из заданного промежутка времени.

Способ назначения количества

Сначала, ниже будет описан способ назначения количества.

Способ назначения количества содержит введение в состав синтаксиса потока битов данных информации о количестве блоков метаданных, указывающей число блоков метаданных, передаваемых в одном кадре, перед тем как передать назначенное тем самым число блоков метаданных. Информация, указывающая число выборок, составляющих один кадр, сохраняется в заголовке потока битов данных.

Далее конкретные выборки, к которым относится каждый блок метаданных, подлежащий передаче, могут быть определены заранее для каждого кадра, в терминах положений частей, на которые поровну разделен каждый кадр.

Например, предположим, что один кадр содержит 2048 выборок и что на каждый кадр передают по четыре блока метаданных. В этом случае предполагается, что промежуток времени, составляющий один кадр, разделен на равные части по числу блоков метаданных, подлежащих передаче для этого кадра, так что для выборок, находящихся на каждой границе между частями, на которые разделен этот промежуток времени, передают свой блок метаданных для выборки. Иными словами, блоки метаданных передают для выборок, расположенных через интервалы, равные количеству выборок, полученному путем деления числа выборок в одном кадре на число вовлеченных блоков метаданных.

В приведенном выше случае передают свой блок метаданных для 512-й выборки, 1024-й выборки, 1536-й выборки и 2048-й выборки, считая от начала кадра.

В качестве альтернативы, если обозначить символом S число выборок, составляющих один кадр, и символом A число блоков метаданных, подлежащих передаче для одного кадра, тогда блоки метаданных можно передавать для выборок, находящихся в положениях, определяемых соотношением S/2(A-1). Иными словами, блоки метаданных могут быть переданы для всех или для части выборок, расположенных через интервалы S/2(A-1) в рассматриваемом кадре. В этом случае, если количество A блоков метаданных равно 1, тогда этот единственный блок метаданных передают для последней выборки в этом рассматриваемом кадре, например.

В качестве другой альтернативы, метаданные можно передавать для выборок, расположенных через заданные интервалы, т.е. интервалы, равные заданному количеству выборок.

Способ назначения выборок

Далее, будет ниже описан способ назначения выборок.

Способ назначения выборок содержит введение в поток битов данных индекса выборок, указывающего положение выборки, к которому относится каждый блок метаданных, прежде чем передать этот поток битов данных, в дополнение к информации о количестве блоков метаданных, передаваемой в соответствии с описанным выше способом назначения количества.

Например, предположим, что один кадр содержит 2048 выборок и что на каждый кадр передают по четыре блока метаданных. Предположим также, что передают свой блок метаданных для 128-й выборки, 512-й выборки, 1536-й выборки и 2048-й выборки, считая от начала кадра.

В этом случае поток битов данных сохраняет информацию о количестве блоков данных, указывающую “4”, в качестве числа блоков метаданных, передаваемых в каждом кадре, и индексы выборок, указывающие положения 128-й выборки, 512-й выборки, 1536-й выборки и 2048-й выборки, считая от начала кадра. Например, величина 128 индекса выборки указывает положение 128-й выборки от начала кадра.

Способ назначения выборок позволяет передавать блоки метаданных для выбранных случайным образом выборок в каждом новом (отличном от предыдущих) кадре. Это позволяет, например, передавать блоки метаданных для выборок до и после положения, в котором происходит переключение сцены. В этом случае прерывистое перемещение объекта может быть выражено посредством отображения, создающего звук высокого качества.

Способ автоматического переключения

Далее рассмотрен способ автоматического переключения.

Способ автоматического переключения содержит автоматическое переключение числа блоков метаданных, подлежащих передаче в каждом кадре, в зависимости от числа выборок, составляющих один кадр, т.е. в зависимости от количества выборок в каждом кадре.

Например, если один кадр содержит 1024 выборок, блоки метаданных передают для соответствующих выборок, расположенных через интервалы по 256 выборок в этом кадре. В этом примере, передают всего четыре блока метаданных, а именно - для 256-й выборки, 512-й выборки, 768-й выборки и 1024-й выборки, считая от начала кадра.

В качестве другого примера, если один кадр составляют 2048 выборок, блоки метаданных передают для соответствующих выборок, расположенных через интервалы 256 выборок в этом кадре. В этом примере передают всего восемь блоков метаданных для кадра.

Как описано выше, если передают по меньшей мере по два блока данных на кадр с использованием способа назначения количества, способа назначения выборок или способа автоматического переключения, можно передавать больше блоков метаданных, особенно если один кадр содержит большее число выборок.

Описанные выше способы укорачивают промежуток времени, выравнивая выборки, коэффициент усиления VBAP для которых вычисляют посредством линейной интерполяции. Это позволяет получить звучание более высокого качества.

Например, чем короче промежуток времени, выравнивающий последовательно выборки, коэффициент усиления VBAP для которых вычисляют посредством линейной интерполяции, тем меньше будет разница между величиной 1 и суммой квадратов коэффициентов усиления VBAP для каждого из конфигурированных громкоговорителей. Это улучшает ощущение локализации звукового изображения объекта.

Когда расстояние между выборками, оснащенными блоками метаданных, таким образом, укорачивается, разница между коэффициентами усиления VBAP для этих выборок также уменьшается. Это позволяет более точно отобразить перемещение объекта. Кроме того, когда расстояние между выборками, оснащенными блоками метаданных, укорачивается, можно сократить период, когда объект кажется перемещающимся непрерывно на основе звучания, тогда как фактически перемещение объекта является прерывистым. В частности, способ назначения выборок позволяет выразить прерывистое перемещение объекта посредством передачи блоков метаданных для расположенных подходящим образом выборок.

Блоки метаданных можно передавать с использованием одного из описанных выше способов - способа назначения количества, способа назначения выборок или способа автоматического переключения. В качестве альтернативы, по меньшей мере два из этих способов могут переключаться один за другим в каждом кадре или для каждого объекта.

Например, предположим, что эти три способа - способ назначения количества, способа назначения выборок или способа автоматического переключения, переключают один за другим для каждого кадра или для каждого объекта. В этом случае поток битов данных может быть построен для сохранения индекса переключения, указывающего способ, посредством которого передают блоки метаданных.

В таком случае, если величина индекса переключения равна 0, например, это означает, что выбран способ назначения количества, т.е. что метаданные передают посредством способа назначения количества. Если величина индекса переключения равна 1, это означает, что выбран способ назначения выборок. Если величина индекса переключения равна 2, это означает, что выбран способ автоматического переключения. В последующих параграфах предполагается, что указанные способ назначения количества, способ назначения выборок и способ автоматического переключения один за другим переключают для каждого кадра или для каждого объекта.

Согласно способу передачи аудио сигнала и метаданных, как они определены в указанных выше стандартах группы MPEG-H 3D, передают блок метаданных только для последней выборки в каждом кадре. Отсюда следует, что если коэффициенты усиления VBAP для выборок, должны быть вычислены посредством интерполяции, нужен коэффициент усиления VBAP для последней выборки в кадре, непосредственно предшествующем текущему кадру.

Таким образом, если сторона воспроизведения (декодирующая сторона) пытается произвольным образом получить доступ к аудио сигналу в нужном кадре, чтобы начать воспроизведение из этого кадра, процедура интерполяции коэффициентов усиления VBAP не может быть выполнена, поскольку коэффициенты усиления VBAP для кадров, предшествующих этому случайно выбранному для доступа кадра, не вычислены. По этой причине произвольный доступ не может быть осуществлен при работе согласно стандартам группы MPEG-H 3D Audio.

В отличие от этого предлагаемая технология позволяет передавать метаданные, необходимые для осуществления процедуры интерполяции, вместе с метаданными относительно каждого кадра или относительно группы кадров через случайные интервалы. Это делает возможным вычисление коэффициентов усиления VBAP для выборок в кадрах, предшествующих текущему кадру, или коэффициента усиления VBAP для первого выборки в текущем кадре, что позволяет осуществлять произвольный доступ. В последующем описании, метаданные, передаваемые вместе с обычными метаданными и используемые при выполнении процедуры интерполяции, могут специально называться дополнительными метаданными.

Такие дополнительные метаданные, передаваемые вместе с метаданными относительно текущего кадра, могут представлять собой метаданные относительно последней выборки в кадре, непосредственно предшествующем текущему кадру, или метаданные относительно первого выборки в текущем кадре, например.

Кроме того, чтобы легко определить, имеются ли дополнительные метаданные для каждого кадра, поток битов данных организуют таким образом, чтобы ввести в него флаг дополнительных метаданных, указывающий присутствие или отсутствие дополнительных метаданных относительно каждого объекта в кадре. Например, если величина флага дополнительных метаданных для некоего конкретного кадра равна 1, это означает, что имеются дополнительные метаданные относительно этого кадра. Если величина флага дополнительных метаданных равна 0, это означает, что нет дополнительных метаданных относительно этого кадра.

В основном, флаг дополнительных метаданных имеет одинаковую величину для всех объектов в одном и том же кадре.

Как описано выше, флаг дополнительных метаданных передают для каждого кадра вместе с дополнительными метаданными, если они нужны. Это позволяет осуществлять произвольный доступ к кадрам, имеющим дополнительные метаданные.

Если для кадра, назначенного в качестве адресата произвольного доступа, дополнительных метаданных нет, в качестве адресата произвольного доступа может быть выбран кадр, ближайший во времени к указанному назначенному кадру. Таким образом, если дополнительные метаданные передают через подходящие интервалы кадров, произвольный доступ может быть реализован без создания нежелательных неприятных ощущений для пользователя.

Когда дополнительные метаданные имеют вид, объясняемый выше, можно осуществлять интерполяционную обработку применительно к коэффициентам усиления VBAP для кадра, назначенного в качестве адресата произвольного доступа, без использования дополнительных метаданных. В этом случае произвольный доступ может быть осуществлен так, чтобы минимизировать увеличение объема данных (частоты передачи битов данных) в составе потока битов данных, которое (увеличение) может быть приписано использованию дополнительных метаданных.

В частности, в кадре, назначенном в качестве адресата произвольного доступа, осуществляют интерполяцию между величиной коэффициента усиления VBAP, которой присвоено значение 0, для кадров, предшествующих текущему кадру с одной стороны, и величиной коэффициента усиления VBAP, вычисленной для текущего кадра, с другой стороны. В качестве альтернативы, интерполяционная обработка не ограничивается тем, что было описано выше, и может быть осуществлена таким образом, что величина коэффициента усиления VBAP для каждой выборки в текущем кадре становится такой же, как величина коэффициента усиления VBAP, вычисленная для текущего кадра. В то же время, кадры, не назначенные адресатом произвольного доступа, подвергаются обычной интерполяционной обработке с использованием коэффициентов усиления VBAP для кадров, предшествующих текущему кадру.

Как описано выше, интерполяционную обработку, выполняемую применительно к коэффициентам усиления VBAP, можно переключать в зависимости от того, назначен ли интересующий кадр адресатом произвольного доступа. Это делает возможным осуществление произвольного доступа без дополнительных метаданных.

Согласно отмеченным выше стандартам группы MPEG-H 3D Audio поток битов данных построен таким образом, чтобы в нем присутствовал флаг независимости (также называемый indepFlag), указывающий можно ли декодировать и отобразить текущий кадр с использованием только данных этого текущего кадра в потоке битов данных (называется независимым кадром). Если величина флага независимости равна 1, это означает, что текущий кадр может быть декодирован и отображен без использования данных относительно кадров, предшествующих текущему кадру, или какой-либо информации, полученной посредством декодирования таких данных.

Таким образом, если величина флага независимости равна 1, необходимо декодировать и отобразить текущий кадр без использования коэффициентов усиления VBAP для кадров, предшествующих текущему кадру.

Что касается кадра, для которого величина флага независимости равна 1, указанные выше дополнительные метаданные могут быть включены в состав потока битов данных. В качестве альтернативы, интерполяционную обработку можно переключать, как описано выше.

При таком подходе в зависимости от величины флага независимости можно определить, нужно ли включать дополнительные метаданные в состав потока битов данных, или можно переключить интерполяционную обработку коэффициентов усиления VBAP. Таким образом, когда величина флага независимости равна 1, текущий кадр может быть декодирован и отображен без использования коэффициентов усиления VBAP для кадров, предшествующих текущему кадру.

Далее, выше было пояснено, что согласно указанным выше стандартам группы MPEG-H 3D Audio метаданные, полученные посредством декодирования, относятся только к репрезентативной выборке, т.е. относятся только к последней выборке в рассматриваемом кадре. Однако на стороне, где кодируют аудио сигнал и метаданные, имеют место небольшое число блоков метаданных для всех выборок в кадре перед тем, как эти метаданные сжимают (кодируют) для ввода в устройство кодирования. Иными словами, многие выборки, подлежащие кодированию, в составе аудио сигнала не имеют соответствующих им метаданных.

Сегодня наиболее частой является ситуация, когда метаданные присвоены только выборкам, расположенным в кадре через регулярные интервалы, такие как 0-я выборка, 1024-я выборка и 2048-я выборка, или через нерегулярные интервалы, такие как 0-я выборка, 138-я выборка и 2044-я выборка.

В таких случаях может не быть выборок, которым присвоены метаданные, в зависимости от кадра. Для кадров, в которых нет выборок, снабженных метаданными, метаданные не передают. Применительно к кадрам, в которых нет выборок, не имеющих ассоциированных с такой выборкой метаданных, на декодирующей стороне необходимо вычислить коэффициенты усиления VBAP для кадров, имеющих метаданные и следующих по порядку за текущим кадром, с целью вычисления коэффициента усиления VBAP для каждого кадра. В результате при декодировании и отображении метаданных возникают задержки, что делает затруднительным осуществление декодирования и отображения в реальном времени.

Таким образом, предлагаемая технология содержит разрешение кодирующей стороне получить, по мере необходимости, метаданные относительно выборок, расположенных между выборками, которым присвоены метаданные, посредством интерполяционной обработки (интерполяция выборок), и разрешение декодирующей стороне осуществить декодирование и отображение метаданных в реальном времени. Есть необходимость минимизировать задержки при воспроизведении аудио сигнала, в частности для видеоигр. Таким образом, для предлагаемой технологии важно уменьшить задержки при декодировании и отображении, т.е. для улучшения интерактивности игры, например.

Интерполяционная обработка метаданных может быть осуществлена в любом подходящем виде, таком линейная интерполяция или нелинейная интерполяции с использованием функций высокой размерности.

Поток битов данных

Ниже описаны более конкретные варианты предлагаемой технологии, очерченной выше.

Поток битов данных, показанный на фиг. 1, например, появляется на выходе устройства кодирования, осуществляющего кодирование аудио сигнала от каждого объекта и соответствующих этому аудио сигналу метаданных.

В начало потока битов данных, показанного на фиг. 1, помещают заголовок. Этот заголовок содержит информацию о числе выборок, составляющих один кадр, т.е. о количестве выборок на кадр, аудио сигнала от каждого объекта (далее эта информация может быть названа информацией о количестве выборок).

В потоке битов данных за заголовком следуют данные каждого кадра. В частности, область R10 содержит флаг независимости, указывающий, является ли текущий кадр независимым кадром. Область R11 содержит кодированные аудиоданные, получаемые в результате кодирования аудио сигнала от каждого объекта в одном и том же кадр.

Кроме того, область R12, следующая за областью R11, содержит кодированные метаданные, полученные посредством кодирования метаданных относительно каждого объекта в одном и том же кадре.

Например, область R21 в составе области R12 содержит кодированные метаданные относительно одного объекта в одном кадре.

В этом примере кодированные метаданные «озаглавлены» флагом дополнительных метаданных. За этим флагом дополнительных метаданных следует индекс переключения.

Далее, за индексом переключения следуют информация о количестве блоков метаданных и индекс выборки. В этом примере показан только один индекс выборки. Более конкретно, однако, кодированные метаданные могут содержать такое же количество индексов выборок, как и число блоков метаданных, входящих в состав кодированных метаданных.

В составе кодированных метаданных, если индекс переключения указывает на способ назначения количества, тогда за индексом переключения следует информация о количестве блоков метаданных, а не индекс выборки.

Кроме того, если индекс переключения указывает способ назначения выборок, за этим индексом переключения следуют информация о количестве блоков метаданных, равно как индексы выборок. Далее, если индекс переключения указывает способ автоматического переключения, за этим индексом переключения не следуют ни информация о количестве блоков метаданных, ни индекс выборок.

За информацией о количестве блоков метаданных и индексами выборок, включаемыми в поток битов данных по мере необходимости, следуют дополнительные метаданные. За этими дополнительными метаданными следует заданное число блоков метаданных относительно каждой выборки.

Указанные дополнительные метаданные включают в поток битов данных только в том случае, когда флаг дополнительных метаданных равен 1. Если величина флага дополнительных метаданных равна 0, дополнительные метаданные в поток не включают.

В области R12 выровнены в ряд для каждого объекта блоки кодированных метаданных, аналогичные кодированным блокам метаданных в области R21.

В рассматриваемом потоке битов данных, данные одного кадра составлены из флага независимости, введенного в область R10, кодированных аудиоданных относительно каждого объекта, помещенные в область R11, и кодированных метаданных относительно каждого объекта в области R12.

Типовая конфигурация устройства кодирования

Ниже описано, как конфигурировано устройство кодирования, передающее на выход поток битов данных, показанный на фиг. 1. На фиг. 2 представлена упрощенная схема, показывающая типовую конфигурацию устройства кодирования, к которому применена предлагаемая технология.

Устройство 11 кодирования содержит секцию 21 приема аудио сигнала, секцию 22 кодирования аудио сигнала, секцию 23 приема метаданных секцию 24 интерполяции, секцию 25 приема связанной информации, секцию 26 кодирования метаданных, секцию 27 мультиплексирования и секцию 28 вывода.

Секция 21 приема аудио сигнала получает аудио сигнал от каждого объекта и передает принятый аудио сигнал в секцию 22 кодирования аудио сигнала. Эта секция 22 кодирования аудио сигнала осуществляет кодирование в единицах кадров аудио сигнала, поступающего от секции 21 приема аудио сигнала, и передает в секцию 27 мультиплексирования, результатом чего являются кодированные аудиоданные относительно каждого объекта в кадре.

Секция 23 приема метаданных получает метаданные относительно каждого объекта в кадре, более конкретно, для каждой выборки в кадре, и передает полученные метаданные в интерполяционную секцию 24. Эти метаданные содержат, например, информацию о местонахождении, указывающую положение объекта в пространстве, информацию о степени важности, указывающую степень важности объекта, и информацию, указывающую степень «размазывания» звукового изображения объекта. Секция 23 приема метаданных получает метаданные относительно специальных выборок (ИКМ выборок) аудио сигнала для каждого объекта.

Секция 24 интерполяции осуществляет интерполяционную обработку метаданных, поступающих от секции 23 приема метаданных, генерируя в результате метаданные обо всех или только конкретной части выборок аудио сигнала, для которых нет метаданных. Интерполяционная секция 24 в результате интерполяционной обработки генерирует метаданные относительно выборок в кадре таким образом, что аудио сигнал в одном кадре от одного объекта будет иметь множество блоков метаданных, т.е. множество выборок в одном кадре будут иметь блоки метаданных.

Секция 24 интерполяции передает в секцию 26 кодирования метаданных полученные в результате интерполяции метаданных относительно каждого объекта в кадре.

Секция 25 приема связанной информации получает такую информацию, относящуюся к метаданным, в качестве информации, указывающей, является ли текущий кадр независимым кадром (называется информацией о независимом кадре), равно как информацию о количестве выборок, информацию, указывающую способ передачи метаданных, информацию, указывающую, передают ли дополнительные метаданные, и информацию, указывающую выборку, относительно которой передают метаданные для каждого объекта в каждом кадре аудио сигнала. На основе полученной таким способом связанной информации, секция 25 приема связанной информации генерирует необходимую информацию относительно каждого объекта в кадре, выбранную из совокупности, содержащей флаг дополнительных метаданных, информацию о количестве блоков метаданных и индексы выборок. Секция 25 приема связанной информации передает генерируемую ей информацию на секцию 26 кодирования метаданных.

На основе информации, поступающей от секции 25 приема связанной информации, секция 26 кодирования метаданных кодирует метаданные, приходящие из секции 24 интерполяции. Секция 26 кодирования метаданных передает в секцию 27 мультиплексирования полученные в результате кодированные данные относительно каждого объекта в кадре и информацию о независимом кадре, входящую в состав информации, поступающей от секции 25 приема связанной информации.

Секция 27 мультиплексирования генерирует поток битов данных посредством мультиплексирования кодированных аудио данных, поступающих от секции 22 кодирования аудио сигнала, кодированных метаданных, поступающих от секции 26 кодирования метаданных, и флага независимости, полученного в соответствии с информацией о независимом кадре, поступающей от секции 26 кодирования метаданных. Секция 27 мультиплексирования передает генерируемый ею поток битов данных на секцию 28 вывода. Эта секция 28 вывода передает на выход поток битов данных, поступающий от секции 27 мультиплексирования. Иными словами, так передают поток битов данных.

Пояснение процедуры кодирования

При получении аудио сигнала от объекта извне устройство 11 кодирования осуществляет кодирование этого аудио сигнала для передачи потока битов данных на выход. Типовая процедура кодирования, осуществляемая устройством 11 кодирования, описана ниже со ссылками на логическую схему, показанная на фиг. 3. Процедура кодирования осуществляется на каждом кадре аудио сигнала.

На этапе S11 секция 21 приема аудио сигнала получает аудио сигнал от каждого объекта для одного кадра и передает полученный аудио сигнал в секцию 22 кодирования аудио сигнала.

На этапе S12 секция 22 кодирования аудио сигнала кодирует аудио сигнал, поступающий от секции 21 приема аудио сигнала. Эта секция 22 кодирования аудио сигнала передает в секцию 27 мультиплексирования полученные в результате кодированные аудиоданные относительно каждого объекта для одного кадра.

Например, секция 22 кодирования аудио сигнала может осуществлять модифицированное дискретное косинусное преобразование (МДКП (modified discrete cosine transform (MDCT))) для аудио сигнала, преобразуя тем самым этот сигнал из сигнала во временной области в сигнал в частотной области. Секция 22 кодирования аудио сигнала кодирует также коэффициент преобразования МДКП, полученный посредством этого преобразования МДКП, и помещает полученные в результате масштабный коэффициент, побочную информацию и спектр квантования в состав кодированных аудиоданных, формируемых посредством кодирования аудио сигнала.

В результате этой процедуры здесь получают кодированные аудиоданные относительно каждого объекта, помещенные в область R11 потока битов данных, показанного на фиг. 1, например.

На этапе S13 секция 23 приема метаданных получает метаданные относительно каждого объекта в каждом кадре аудио сигнала и передает полученные ею метаданные в интерполяционную секцию 24.

На этапе S14 интерполяционная секция 24 осуществляет интерполяционную обработку метаданных, поступающих от секции 23 приема метаданных. Эта интерполяционная секция 24 передает полученные в результате метаданные в секцию 26 кодирования метаданных.

Например, при получении одного аудио сигнала интерполяционная секция 24 вычисляет посредством линейной интерполяции информацию о местонахождении относительно каждой выборки, расположенной между конкретной выборкой и другой выборкой, предшествующей во времени рассматриваемой конкретной выборке, в соответствии с информацией о местонахождении рассматриваемой конкретной выборки, служащей метаданными относительно рассматриваемой конкретной выборки, а вычисленная посредством интерполяции информация о местонахождения служит метаданными относительно указанной другой выборки. Аналогично, секция 24 интерполяции осуществляет интерполяционную обработку, такую как линейная интерполяция, применительно к информации о степени важности и информации о степени «размазывания» звукового изображения, служащей метаданными, генерируя тем самым метаданные относительно каждой выборки.

В ходе интерполяционной обработки метаданных эти метаданные могут быть вычислены таким образом, чтобы все выборки аудио сигнала от объекта в одном кадре оказывались снабжены метаданными. В качестве альтернативы, метаданные могут быть вычислены таким образом, что из всей совокупности выборок только необходимые выборки могут быть снабжены метаданными. Кроме того, интерполяционная обработка не ограничивается линейной интерполяцией. В качестве альтернативы, для выполнения интерполяционной обработки может быть выбрана нелинейная интерполяция.

На этапе S15 секция 25 приема относящейся к делу информации получает относящуюся к метаданным информацию относительно кадра аудио сигнала от каждого объекта.

На базе полученной таким способом информации, относящейся к делу, секция 25 приема относящейся к делу информации генерирует необходимую информацию, выбранную из совокупности, содержащей флаг дополнительных метаданных, индекс переключения, информацию о количестве блоков метаданных и индексы выборок для каждого объекта. Секция 25 приема относящейся к делу информации передает генерируемую ею информацию в секцию 26 кодирования метаданных.

От секции 25 приема связанной информации может и не потребоваться генерировать флаг дополнительных метаданных, индекс переключения и другую информацию. В качестве альтернативы, эта секция 25 приема связанной информации может получить флаг дополнительных метаданных, индекс переключения и другую информацию извне вместо того, чтобы генерировать такую информацию самой.

На этапе S16 секция 26 кодирования метаданных осуществляет кодирование метаданных, поступающих от секции 24 интерполяции, в соответствии с такой информацией, как флаг дополнительных метаданных, индекс переключения, информация о количестве блоков метаданных и индексы выборок, поступающей от секции 25 приема связанной информации.

Кодированные метаданные генерируют таким образом, что из всей совокупности метаданных относительно каждой выборки в кадре аудио сигнала, относящегося к каждому объекту, передают только информацию о количестве выборок, информацию об используемом способе, указанном индексом переключения, информацию о количестве блоков метаданных и сведения о положении этой выборки, указанные индексами выборок. В качестве дополнительных метаданных передают, при необходимости, либо метаданные относительно первой выборки в рассматриваемом кадре, либо сохраненные метаданные относительно последней выборки в непосредственно предшествующем кадре.

В дополнение к указанным выше метаданным кодированные метаданные содержат флаг дополнительных метаданных и индекс переключения. При необходимости в состав кодированных метаданных могут быть также включены информация о количестве блоков метаданных, индекс выборки и дополнительные метаданные.

То, что получено здесь, является кодированными метаданными относительно каждого объекта, находящимися в области R12 потока битов данных, показанного на фиг. 1, например. Кодированные метаданные, находящиеся в области R21 относятся к одному объекту в одном кадре, например.

В этом случае, если в подлежащем обработке кадре выбран для объекта способ назначения количества и если передают дополнительные метаданные, то здесь генерируют кодированные метаданные, содержащие флаг дополнительных метаданных, индекс переключения, информацию о количестве блоков метаданных, дополнительные метаданные и собственно рассматриваемые метаданные.

Кроме того, если в подлежащем обработке кадре выбран для объекта способ назначения выборок и если дополнительные метаданные не передают, то в этом случае генерируют кодированные метаданные, содержащие флаг дополнительных метаданных, индекс переключения, информацию о количестве блоков метаданных, индексы выборок и собственно рассматриваемые метаданные.

Более того, если в подлежащем обработке кадре выбран для объекта способ автоматического переключения и если передают дополнительные метаданные, то здесь генерируют кодированные метаданные, содержащие флаг дополнительных метаданных, индекс переключения, дополнительные метаданные и собственно рассматриваемые метаданные.

Секция 26 кодирования метаданных передает в секцию 27 мультиплексирования кодированные метаданные относительно каждого объекта, полученные посредством кодирования метаданных, и информацию о независимом кадре, входящую в состав информации, поступающей от секции 25 приема связанной информации.

На этапе S17 секция 27 мультиплексирования генерирует поток битов данных посредством мультиплексирования кодированных аудиоданных, поступающих от секции 22 кодирования аудио сигнала, кодированных метаданных, поступающих от секции 26 кодирования метаданных, и флага независимости, полученного на основе информации о независимом кадре, поступающей от секции 26 кодирования метаданных. Секция 27 мультиплексирования передает генерируемый ею поток битов данные в секцию 28 вывода.

Таким образом, здесь генерируют поток битов данных для одного кадра, построенный из областей R10 - R12 потока битов данных, показанного на фиг. 1, например.

На этапе S18 секция 28 вывода передает на выход поток битов данных, поступающий от секции 27 мультиплексирования. Это завершает процедуру кодирования. Если на выход передают начальную часть потока битов данных, тогда на выход также передают заголовок, содержащий в первую очередь информацию о количестве выборок, как показано на фиг. 1.

При описанном выше подходе устройство 11 кодирования осуществляет кодирование аудио сигнала и метаданных и передает на выход поток битов данных, содержащий полученные в результате кодированные аудиоданные и кодированные метаданные.

В этот момент, если множество блоков метаданных построены для передачи их в каждом кадре, декодирующая сторона может дополнительно сократить промежуток времени, выравнивающий выборки, коэффициенты усиления VBAP для которых вычисляют посредством интерполяционной обработки. Это обеспечивает получение звука более высокого качества.

Кроме того, если выполняют интерполяционную обработку метаданных, всегда передают по меньшей мере по одному блоку метаданных для каждого кадра. Это позволяет декодирующей стороне осуществлять декодирование и отображение в реальном времени. Дополнительные метаданные, которые могут быть переданы по мере необходимости, позволяет реализовать произвольный доступ.

Типовая конфигурация устройства декодирования

Ниже описано устройство декодирования, которое осуществляет декодирование принятого (полученного) выходного потока битов данных от устройства 11 кодирования. Устройств декодирования, к которому применима предлагаемая технология, конфигурировано, как показано на фиг. 4, например.

Устройство 51 декодирования в этой конфигурации соединено с громкоговорительной системой 52, построенной из большого числа громкоговорителей, размещенных в пространстве воспроизведения звука. Это устройство 51 декодирования подает аудио сигнал, полученный в результате декодирования и отображения для каждого канала, громкоговорителям каналов, составляющим громкоговорительную систему, для воспроизведения звука.

Устройство 51 декодирования содержит секцию 61 приема, секцию 62 демультиплексирования, секцию 63 декодирования аудио сигнала, секцию 64 декодирования метаданных, секцию 65 вычисления коэффициента усиления и секцию 66 генерирования аудио сигнала.

Секция 61 приема получает поток битов данных с выхода устройства 11 кодирования и передает полученный поток битов данных в секцию 62 демультиплексирования. Эта секция 62 демультиплексирования осуществляет демультиплексирование потока битов данных, поступившего от приемной секции 61, и разделение его на флаг независимости, кодированные аудиоданные и кодированные метаданные. Секция 62 демультиплексирования передает кодированные аудиоданные в секцию 63 декодирования аудио сигнала, а флаг независимости и кодированные метаданные в секцию 64 декодирования метаданных.

По мере необходимости секция 62 демультиплексирования может считывать различные блоки информации, такие как информация о количестве выборок, из заголовка потока битов данных. Секция 62 демультиплексирования передает выделенную ею информацию в секцию 63 декодирования аудио сигнала и в секцию 64 декодирования метаданных.

Секция 63 декодирования аудио сигнала осуществляет декодирование кодированных аудиоданных, поступающих от секции 62 демультиплексирования, и передает полученный в результате аудио сигнал от каждого объекта в секцию 66 генерирования аудио сигнала.

Секция 64 декодирования метаданных осуществляет декодирование кодированных метаданных, поступающих из секции 62 демультиплексирования, и передает в секцию 65 вычисления коэффициента усиления полученные в результате метаданные относительно каждого объекта в каждом кадре аудио сигнала и флаг независимости, поступающий из секции 62 демультиплексирования.

Секция 64 декодирования метаданных содержит схему 71 считывания флага дополнительных метаданных, которая считывает флаг дополнительных метаданных из состава кодированных метаданных, и схему 72 считывания индекса переключения из состава кодированных метаданных.

Секция 65 вычисления коэффициента усиления вычисляет коэффициенты усиления VBAP для выборок в каждом кадре аудио сигнала относительно каждого объекта на основе информации о местонахождении, указывающей местонахождение каждого громкоговорителя в пространстве, образованном громкоговорительной системой 52 и заданном заранее, на основе метаданных относительно каждого объекта в кадре, поступающем от секции 64 декодирования метаданных, и флага независимости.

Кроме того, секция 65 вычисления коэффициента усиления содержит схему 73 интерполяционной обработки, вычисляющую, на основе коэффициентов усиления VBAP для заданных выборок, коэффициенты усиления VBAP других выборок с использованием интерполяционной обработки.

Секция 65 вычисления коэффициента усиления передает в секцию 66 генерирования аудио сигнала коэффициент усиления VBAP, вычисленный относительно каждого объекта для каждого из выборок в кадре аудио сигнала.

Секция 66 генерирования аудио сигнала осуществляет генерирование аудио сигнала в каждом канале, т.е. аудио сигнала для передачи громкоговорителю каждого канала, в соответствии с аудио сигналом от каждого объекта, поступающим от секции 63 декодирования аудио сигнала, и коэффициентом усиления VBAP для каждой выборки для объекта, поступающим от секции 65 вычисления коэффициента усиления.

Секция 66 генерирования аудио сигнала передает генерируемый ею аудио сигнал каждому из громкоговорителей, составляющих громкоговорительную систему 52, так что эти громкоговорители будут излучать звук на основе аудио сигнала.

В устройстве 51 декодирования модуль, составленный из секции 65 вычисления коэффициента усиления и секции 66 генерирования аудио сигнала, служит модулем отображения (отображающей секцией), осуществляющим отображение на основе аудио сигнала и метаданных, полученных посредством декодирования.

Пояснение процедуры декодирования

Когда устройство 11 кодирования передает поток битов данных, устройство 51 декодирования осуществляет процедуру декодирования, чтобы принять (получить) и декодировать поток битов данных. Типовая процедура декодирования, осуществляемая устройством 51 декодирования, описана ниже со ссылками на логическую схему, показанную на фиг. 5. Эта процедура декодирования осуществляется для каждого кадра аудио сигнала.

На этапе S41 секция 61 приема получает поток битов данных с выхода устройства 11 кодирования для одного кадра и передает полученный поток битов данных в секцию 62 демультиплексирования.

На этапе S42 секция 62 демультиплексирования осуществляет демультиплексирование потока битов данных, поступающего от секции 61 приема, для выделения из него флага независимости, кодированных аудиоданных и кодированных метаданных. Эта секция 62 демультиплексирования передает кодированные аудиоданные в секцию 63 декодирования аудио сигнала, а флаг независимости и кодированные метаданные в секцию 64 декодирования метаданных.

В этом момент секция 62 демультиплексирования передает в секцию 64 декодирования метаданных информацию о количестве выборок, считываемую из заголовка потока битов данных. Эта информация о количестве выборок может быть организована для передачи в то время, когда происходит прием заголовка потока битов данных.

На этапе S43 секция 63 декодирования аудио сигнала осуществляет декодирование кодированных аудиоданных, поступающих от секции 62 демультиплексирования, и передает в секцию 66 генерирования аудио сигнала, полученный в результате аудио сигнал для каждого объекта в одном кадре.

Например, секция 63 декодирования аудио сигнала получает коэффициент преобразования МДКП посредством декодирования кодированных аудиоданных. В частности, секция 63 декодирования аудио сигнала вычисляет коэффициент преобразования МДКП на основе масштабного коэффициента, побочной информации и спектра квантования, поступающих в виде кодированных аудиоданных.

Кроме того, на основе коэффициента преобразования МДКП секция 63 декодирования аудио сигнала осуществляет обратное модифицированное дискретное косинусное преобразование (ОМДКП (inverse modified discrete cosine transform (IMDCT))) для получения ИКМ-данных. Секция 63 декодирования аудио сигнала передает получаемые в результате ИКМ-данные в секцию 66 генерирования аудио сигнала в качестве аудио сигнала.

После декодирования кодированных аудиоданных выполняется декодирование кодированных метаданных. Иными словами, на этапе S44, схема 71 считывания флага дополнительных метаданных в секции 64 декодирования метаданных считывает флаг дополнительных метаданных из состава кодированных метаданных, поступающих от секции 62 демультиплексирования.

Например, секция 64 декодирования метаданных последовательно осуществляет целевую обработку объектов, соответствующих кодированным метаданным, поступающим последовательно от секции 62 демультиплексирования. Схема 71 считывания флага дополнительных метаданных считывает флаг дополнительных метаданных из состава кодированных метаданных для каждого целевого объекта.

На этапе S45 схема 72 считывания индекса переключения в составе секции 64 декодирования метаданных считывает индекс переключения из состава кодированных метаданных относительно целевого объекта, поступающих от секции 62 демультиплексирования.

На этапе S46 схема 72 считывания индекса переключения определяет, является ли способ, указываемый индексом переключения, считываемым на этапе S45, способом назначения количества.

Если на этапе S46 определено, что указан способ назначения количества, управление переходит к этапу S47. На этапе S47 секция 64 декодирования метаданных считывает информацию о количестве блоков метаданных из состава кодированных метаданных относительно целевого объекта, поступающих от секции 62 демультиплексирования.

Кодированные метаданные относительно целевого объекта содержат указание числа блоков метаданных, равного количеству блоков метаданных, указываемому информацией о количестве блоков метаданных, считываемой описываемым выше способом.

На этапе S48 секция 64 декодирования метаданных идентифицирует положения выборок на основе переданных блоков метаданных относительно целевого объекта из состава кадра аудио сигнала, эта идентификация осуществляется в соответствии с информацией о количестве блоков метаданных, считываемой на этапе S47, и с информацией о количестве выборок, поступающей от секции 62 демультиплексирования.

Например, промежуток времени, соответствующий одному кадру, построенному из количества выборок, равного количеству выборок, указываемому информацией о количестве выборок, разделяют на несколько равных интервалов времени, число которых равно количеству блоков метаданных, указываемому информацией о количестве блоков метаданных. Положение последней выборки в каждом интервале времени, на которые разделен промежуток времени кадра, считается положением выборки с метаданными, т.е. положением выборки, которому присвоен блок метаданных. Положения выборок, получаемые таким способом, представляют собой положения выборок, указанные в каждом блоке метаданных, входящем в состав кодированных метаданных; это выборки, имеющие присвоенные им метаданные.

Выше было пояснено, что передают блок метаданных относительно последней выборки в каждом интервале времени, на которые разбит промежуток времени одного кадра. Положения выборок для каждого блока метаданных вычисляют с использованием информации о количестве выборок и информации о количестве блоков метаданных в соответствии с каждой конкретной выборкой, для которой нужно передать блок метаданных.

После того, как будет идентифицировано число блоков метаданных, входящих в состав кодированных метаданных относительно целевого объекта, и после того, как будут идентифицированы положения выборок, соответствующих каждому блоку метаданных, управление переходит к этапу S53.

С другой стороны, если на этапе S46 определено, что способ назначения количества не указан, управление переходит к этапу S49. На этапе S49 схема 72 считывания индекса переключения определяет, указывает ли индекс переключения, считываемый на этапе S45, на использование способа назначения выборок.

Если на этапе S49 определено, что указан способ назначения выборок, управление переходит к этапу S50. На этапе S50, секция 64 декодирования метаданных считывает информацию о количестве блоков метаданных из состава кодированных метаданных относительно целевого объекта, поступающих от секции 62 демультиплексирования.

На этапе S51 секция 64 декодирования метаданных считывает индексы выборок из состава кодированных метаданных относительно целевого объекта, поступающих от секции 62 демультиплексирования. В этот момент количество считываемых индексов выборок равно количеству блоков метаданных, указываемому информацией о количестве блоков метаданных.

Имея информацию о количестве блоков метаданных и индексы выборок, считываемые таким способом, можно идентифицировать число блоков метаданных, входящих в состав кодированных метаданных относительно целевого объекта, равно как и положения выборок, которым соответствуют эти блоки метаданных.

После того, как будет идентифицировано количество блоков метаданных, входящих в состав кодированных метаданных относительно целевого объекта, и после того, как будут идентифицированы положения выборок, соответствующих каждому блоку метаданных, управление переходит к этапу S53.

Если на этапе S49 определено, что способ назначения выборок не указан, т.е. что индексом переключения указан способ автоматического переключения, управление переходит к этапу S52.

На этапе S52 на основе информации о количестве выборок, поступающей от секции 62 демультиплексирования, секция 64 декодирования метаданных идентифицирует количество блоков метаданных, входящих в состав кодированных метаданных относительно целевого объекта, равно как положения выборок для каждого блока метаданных. Управление затем переходит к этапу S53.

Например, способ автоматического переключения содержит определение заранее числа блоков метаданных, подлежащих передаче, относительно числа выборок, составляющих один кадр, равно как положения выборок для каждого блока метаданных, т.е. конкретные выборки, относительно которых должны быть переданы блоки метаданных.

По этой причине, имея информацию о количестве выборок, секция 64 декодирования метаданных может идентифицировать число блоков метаданных, входящих в состав кодированных метаданных относительно целевого объекта, а также идентифицировать положения выборок для этих блоков метаданных.

После этапа S48, этапа S51 или этапа S52 управление переходит к этапу S53. На этапе S53 секция 64 декодирования метаданных определяет, имеются ли дополнительные метаданные, на основе значения флага дополнительных метаданных, считываемого на этапе S44.

Если на этапе S53 определено, что имеются дополнительные метаданные, управление переходит к этапу S54. На этапе S54 секция 64 декодирования метаданных считывает дополнительные метаданные из состава кодированных метаданных относительно целевого объекта. Когда произошло считывание дополнительных метаданных, управление переходит к этапу S55.

Напротив, если на этапе S53 определено, что дополнительных метаданных нет, этап S54 пропускают, а управление переходит к этапу S55.

После считывания дополнительных метаданных на этапе S54, или если на этапе S53 определено, что нет дополнительных метаданных, управление переходит к этапу S55. На этапе S55 секция 64 декодирования метаданных считывает метаданные из состава кодированных метаданных относительно целевого объекта.

В этот момент из состава кодированных метаданных считывают число блоков метаданных, равное количеству таких блоков, идентифицированному на описанных выше этапах.

В соответствии с описанной выше процедурой считывают метаданные и дополнительные метаданные относительно целевого объекта из состава аудио сигнала для одного кадра.

Секция 64 декодирования метаданных передает выделенные ею метаданные в секцию 65 вычисления коэффициента усиления. В этот момент метаданные передают таким способом, что секция 65 вычисления коэффициента усиления может идентифицировать, какой именно блок метаданных к какой выборки и какого объекта относится. Кроме того, если происходит считывание дополнительных метаданных, секция 64 декодирования метаданных передает выделенные ею дополнительные метаданные в секцию 65 вычисления коэффициента усиления.

На этапе S56 секция 64 декодирования метаданных определяет, произошло ли уже считывание метаданных, относящихся ко всем объектам.

Если на этапе S56 определено, что уже должно было произойти считывание метаданных относительно всех объектов, управление возвращается к этапу S44 и повторяются последующие этапы. В этом случае выбирают другой объект, который еще должен быть обработан, в качестве нового целевого объекта и затем считывают метаданные и другую информацию из состава кодированных метаданных, относящиеся к этому новому объекту.

Напротив, если на этапе S56 определено, что уже завершилось считывание метаданных относительно всех объектов, секция 64 декодирования метаданных передает в секцию 65 вычисления коэффициента усиления флаг независимости, поступивший от секции 62 демультиплексирования. Затем управление переходит к этапу S57 и начинается отображение.

Иными словами, на этапе S57 секция 65 вычисления коэффициента усиления вычисляет коэффициенты усиления VBAP на основе указанных основных метаданных, дополнительных метаданных и флага независимости, поступающих от секции 64 декодирования метаданных.

Например, секция 65 вычисления коэффициента усиления выбирает один целевой объект за другим для обработки, а также выбирает одну целевую выборку за другой вместе с метаданными в кадре аудио сигнала для каждого целевого объекта.

Имея целевую выборку, секция 65 вычисления коэффициента усиления вычисляет с применением алгоритма VBAP коэффициент усиления VBAP для целевой выборки для каждого канала, т.е. коэффициент усиления VBAP для громкоговорителя для каждого канала на основе положения объекта в пространстве, обозначенном информацией о местонахождении, служащей метаданными относительно рассматриваемой выборки, и положения в пространстве каждого из громкоговорителей, составляющих громкоговорительную систему 52, эти положения громкоговорителей обозначены организованной информацией о местонахождении.

Алгоритм VBAP позволяет двум или трем громкоговорителям, размещенным вокруг некоего конкретного объекта, излучать звук с заданными коэффициентами усиления, так что звуковое изображение может быть локализовано в положении объекта. Подробное описание алгоритма VBAP дано, например, в статье Вилли Пулкки, «Способ позиционирования виртуального источника звука с использованием векторного амплитудного панорамирования» (Ville Pulkki, “Virtual Sound Source Positioning Using Vector Base Amplitude Panning,” Journal of AES, vol. 45, no. 6, pp. 456-466, 1997).

На этапе S58 схема 73 интерполяционной обработки осуществляет такую интерполяционную обработку для вычисления коэффициентов усиления VBAP для каждого из громкоговорителей по отношению к выборкам, для которых нет соответствующих метаданных.

Например, такая интерполяционная обработка содержит использование коэффициента усиления VBAP для целевой выборки, вычисленной на предшествующем этапе S57, и коэффициента усиления VBAP для выборки, которой соответствует блок метаданных в этом же кадре в качестве целевого объекта или в непосредственно предшествующем кадре (последняя выборка может далее называться опорной выборкой), эта последняя выборка во времени предшествует целевой выборке. Иными словами, обычно осуществляют линейную интерполяцию с целью вычисления, для каждого из громкоговорителей (каналов), составляющих громкоговорительную систему 52, коэффициентов усиления VBAP для выборок, расположенных между целевой выборкой и опорной выборкой с использованием коэффициента усиления VBAP для целевой выборки и коэффициента усиления VBAP для опорной выборки.

Например, если назначен произвольный доступ или если флаг независимости, поступающий от секции 64 декодирования метаданных, равен 1, и при этом имеются дополнительные метаданные, секция 65 вычисления коэффициента усиления вычисляет коэффициенты усиления VBAP с использованием дополнительных метаданных.

В частности, предположим, что целью обработки выбрана первая выборка, которой соответствует блок метаданных, в кадре аудио сигнала для целевого объекта и что вычислен коэффициент усиления VBAP для целевой выборки. В этом случае коэффициенты усиления VBAP для кадров, предшествующих текущему кадру, не вычисляют. Таким образом, секция 65 вычисления коэффициента усиления рассматривает первую выборку в текущем кадре или последнюю выборку в непосредственно предшествующем кадре в качестве опорной выборки и вычисляет коэффициент усиления VBAP для опорной выборки с использованием дополнительных метаданных.

Схема 73 интерполяционной обработки затем вычисляет с использованием интерполяционной обработки коэффициенты усиления VBAP для выборок, расположенных между целевой выборкой и опорной выборкой, с использованием коэффициента усиления VBAP для целевой выборки и коэффициента усиления VBAP для опорной выборки.

С другой стороны, если назначен произвольный доступ или если величина флага независимости, поступающего от секции 64 декодирования метаданных, равна 1, а также нет дополнительных метаданных, не вычисляют коэффициенты усиления VBAP с использованием дополнительных метаданных. Вместо этого переключают способ интерполяционной обработки.

В частности, предположим, что первая выборка, которой присвоены метаданные, в составе кадра аудио сигнала от целевого объекта, рассматривается в качестве целевой выборки, и что вычисляют коэффициент усиления VBAP для целевой выборки. В этом случае не вычисляют никаких коэффициентов усиления VBAP относительно кадров, предшествующих текущему кадру. Таким образом, секция 65 вычисления коэффициента усиления рассматривает первую выборку в текущем кадре или последнюю выборку в непосредственно предшествующем кадре в качестве опорной выборки и задает 0 в качестве коэффициента усиления VBAP для опорной выборки с целью вычисления коэффициентов усиления.

Схема 73 интерполяционной обработки затем осуществляет интерполяционную обработку для вычисления коэффициентов усиления VBAP для выборок, расположенных между целевой выборкой и опорной выборкой, с использованием коэффициента усиления VBAP для целевой выборки и коэффициента усиления VBAP для опорной выборки.

Интерполяционная обработка не ограничивается тем, что было описано выше. В качестве альтернативы, интерполяционная обработка может быть осуществлена таким образом, что коэффициент усиления VBAP для каждой из выборок, подлежащих интерполяции, становится таким же, как величина коэффициента усиления VBAP для целевой выборки, например.

Когда способ интерполяционной обработки коэффициентов усиления VBAP переключают, как описано выше, можно осуществлять произвольный доступ к кадрам, не имеющим дополнительных метаданных, а также осуществлять декодирование и отображение независимых кадров.

В приведенном выше примере было разъяснено, что коэффициенты усиления VBAP для выборок, которым не присвоены метаданные, получают с использованием интерполяционной обработки. В качестве альтернативы, секция 64 декодирования метаданных может осуществлять интерполяционную обработку для получения метаданных относительно выборок, которым не были ранее присвоены метаданные. В таком случае получают блоки метаданных относительно всех выборок аудио сигнала, так что схема 73 интерполяционной обработки не осуществляет интерполяционную обработку для коэффициентов усиления VBAP.

На этапе S59 секция 65 вычисления коэффициента усиления определяет, были ли уже вычислены коэффициенты усиления VBAP для всех выборок в кадре аудио сигнала от целевого объекта.

Если на этапе S59 определено, что коэффициенты усиления VBAP уже были вычислены для всех выборок, управление возвращается к этапу S57 и повторяется выполнение последующих этапов. Иными словами, в качестве целевой выборки выбирают следующую выборку, которой присвоен блок метаданных, и вычисляют коэффициент усиления VBAP для целевой выборки.

С другой стороны, если определено на этапе S59, что коэффициенты усиления VBAP уже были вычислены для всех выборок, управление переходит к этапу S60. На этапе S60 секция 65 вычисления коэффициента усиления определяет, были ли уже вычислены коэффициенты усиления VBAP для всех объектов.

Например, если все объекты были выбраны целью обработки и если уже вычислены коэффициенты усиления VBAP для выборок в составе каждого объекта для каждого громкоговорителя, тогда определяют, что уже были вычислены коэффициенты усиления VBAP для всех объектов.

Если на этапе S60 определено, что коэффициенты усиления VBAP еще только должны быть вычислены для всех объектов, управление переходит к этапу S57 и повторяется выполнение последующих этапов.

С другой стороны, если на этапе S60 определено, что коэффициенты усиления VBAP уже были вычислены для всех объектов, секция 65 вычисления коэффициента усиления передает вычисленные коэффициенты усиления VBAP в секцию 66 генерации аудио сигнала. Затем управление переходит к этапу S61. В этом случае в секцию 66 генерирования аудио сигнала поступает коэффициент усиления VBAP для каждой выборки в составе кадра аудио сигнала от каждого объекта, вычисленный для каждого громкоговорителя.

На этапе S61 секция 66 генерирования аудио сигнала генерирует аудио сигнал для каждого громкоговорителя на основе аудио сигнала от каждого объекта, поступающего от секции 63 декодирования аудио сигнала, и на основе коэффициента усиления VBAP для каждой выборки сигнала от каждого объекта, поступающего от секции 65 вычисления коэффициента усиления.

Например, секция 66 генерирования аудио сигнала генерирует аудио сигнал для некоего конкретного громкоговорителя путем суммирования сигналов, каждый из которых получен путем умножения аудио сигнала от каждого объекта для каждой выборки на коэффициент усиления VBAP, полученный от объекта для этого же громкоговорителя.

В частности, предположим, что имеют место три объекта с OB1 по OB3 и что были получены коэффициенты усиления VBAP с G1 по G3 для этих объектов для некоего конкретного громкоговорителя SP1, составляющего часть громкоговорительной системы 52. В этом случае суммируют аудио сигнал от объекта OB1, умноженный на коэффициент усиления VBAP, равный G1, аудио сигнал от объекта OB2, умноженный на коэффициент усиления VBAP, равный G2, и аудио сигнал от объекта OB3, умноженный на коэффициент усиления VBAP, равный G3. Аудио сигнал, полученный в результате этого суммирования, представляет собой аудио сигнал для передачи громкоговорителю SP1.

На этапе S62 секция 66 генерирования аудио сигнала передает каждому громкоговорителю из состава громкоговорительной системы 52 аудио сигнал, полученный для этого громкоговорителя на этапе S61, так что эти громкоговорители воспроизводят звук на основе этих аудио сигналов. Этим завершается процедура декодирования. При таком подходе громкоговорительная система 52 воспроизводит звук от каждого объекта.

Согласно описанному выше способу устройство 51 декодирования осуществляет декодирование кодированных аудиоданных и кодированных метаданных, а также осуществляет отображение аудио сигнала и метаданных, полученных в результате декодирования, для генерирования аудио сигнала для каждого громкоговорителя.

При осуществлении отображения устройство 51 декодирования получает множество блоков метаданных для каждого кадра аудио сигнала от каждого объекта. Таким образом, можно укоротить промежуток времени выравнивания выборок, коэффициенты усиления VBAP для которых вычисляют с использованием интерполяционной обработки. Это не только обеспечивает получение звука более высокого качества, но также позволяет осуществлять декодирование и отображение в реальном времени. Поскольку некоторые кадры имеют дополнительные метаданные, включенные в состав кодированных метаданных, можно реализовать произвольный доступ, равно как и декодирование и отображение независимых кадров. Далее, в случае, когда кадры не содержат дополнительных метаданных, интерполяционную обработку коэффициентов усиления VBAP можно переключать, что также позволяет реализовать произвольный доступ, равно как и декодирование и отображение независимых кадров.

Ряд процессов, описываемых выше, может быть осуществлен посредством аппаратуры, либо посредством программного обеспечения. Когда эти процессы нужно осуществлять посредством программного обеспечения, программы, составляющие это программное обеспечение, инсталлируют в подходящем компьютере. Это может быть компьютер, в котором соответствующее программное обеспечение заранее инсталлировано в специализированной аппаратуре, либо это может быть персональный компьютер общего назначения или другое подобное оборудование, способное выполнять разнообразные функции на основе инсталлированных в нем программ.

На фиг. 6 представлена блок-схема, показывающая типовую конфигурацию аппаратуры компьютера, способной осуществлять описанный выше ряд процессов с использованием программ.

В компьютере центральный процессор (central processing unit (CPU)) 501, постоянное запоминающее устройство (ПЗУ (a read-only memory (ROM))) 502 запоминающее устройство 503 с произвольной выборкой (ЗУПВ (random access memory (RAM))) соединены одно с другим посредством шины 504.

Шина 504 далее соединена с интерфейсом 505 ввода/вывода. Этот интерфейс 505 ввода/вывода, соединен с секцией 506 ввода, секцией 507 вывода, секцией 508 записи, секцией 509 связи и приводом 510 накопителя информации.

Секция 506 ввода содержит, например, клавиатуру, мышь, микрофон и элемент для считывания изображения. Секция 507 вывода содержит, например, дисплей и громкоговорители. Секция 508 записи обычно содержит накопитель на жестком диске и энергонезависимое запоминающее устройство. Секция 509 связи содержит, например, сетевой интерфейс. Привод 510 накопителя позволяет установить сменный носитель 511 для записи информации, такой как магнитный диск, оптический диск, магнитооптический диск или полупроводниковое запоминающее устройство.

В компьютере, конфигурированном, как описано выше, процессор CPU 501 осуществляет ряд процессов, поясненных выше, посредством выполнения, например, программы, загруженной из секции 508 записи в RAM 503 через интерфейс 505 ввода/вывода и шину 504.

Программа, выполняемая компьютером (т.е. процессором CPU 501), может быть записана на сменном носителе 511 информации, если такой носитель предлагается, такой сменный носитель 511 информации обычно составляет пакет программ. Кроме того, программа может быть также предложена и поставлена по проводной или беспроводной системе связи, такой как локальная сеть связи, Интернет или сеть цифрового спутникового вещания.

В компьютере программа может быть инсталлирована в секции 508 записи после считывания через интерфейс 505 ввода/вывода со сменного носителя 511 информации, установленного в приводе 510. В качестве альтернативы, программа может быть принята секцией 509 связи через проводную или беспроводную систему связи и инсталлирована в секции 508 записи. В качестве другой альтернативы, программа может быть предварительно инсталлирована в ПЗУ ROM 502 или в секции 508 записи.

Программы, которые должен выполнять компьютер, могут обрабатываться хронологически, т.е. в последовательности, указанной в настоящем описании; параллельно, или в каком-либо другом подходящем порядке, например, когда их вызывают по мере необходимости.

Варианты предлагаемой технологии не ограничиваются теми, которые обсуждаются выше. Эти варианты могут быть модифицированы, изменены или усовершенствованы различными способами, оставаясь в пределах объема и смысла предлагаемой технологии.

Например, предлагаемая технология может быть реализована в конфигурации облачных вычислений, где каждая функция распределена и совместно выполняется несколькими устройствами через сеть связи.

Далее, каждый из этапов, поясняемых в связи с описанными выше логическими схемами, может быть осуществлен либо одним устройством, либо может быть выполнен несколькими устройствами в режиме распределенной совместной работы.

Более того, если один этап содержит несколько процессов, эти процессы, входящие в состав одного этапа, могут быть реализованы либо одним устройством, либо несколькими устройствами в режиме распределенной совместной работы.

Предлагаемая технология может быть далее конфигурирована предпочтительно следующим образом:

(1) Устройство декодирования, содержащее:

секцию приема для приема как кодированных аудиоданных, полученных посредством кодирования аудио сигнала от аудио объекта в кадре заданного промежутка времени, так и множества блоков метаданных для этого кадра;

секцию декодирования для декодирования кодированных аудиоданных; и

секцию отображения для осуществления отображения на основе аудио сигнала, полученного в результате декодирования, и метаданных.

(2) Устройство декодирования по (1), в котором метаданные содержат информацию о местонахождении, указывающую положение аудио объекта.

(3) Устройство декодирования по (1) или (2), в котором каждый из множества блоков метаданных содержит метаданные для множества выборок в кадре аудио сигнала.

(4) Устройство декодирования по (3), где каждый из множества блоков метаданных содержит метаданные для множества выборок, количество которых определено путем деления числа выборок, составляющих кадр, на число блоков метаданных.

(5) Устройство декодирования по (3), в котором каждый из множества блоков метаданных содержит метаданные для множества выборок, указанных каждым из множества индексов выборок.

(6) Устройство декодирования по (3), в котором каждый из множества блоков метаданных содержит метаданные для множества выборок из заданного количества выборок в кадре.

(7) Устройство декодирования по любому из (1)-(6), в котором блоки метаданных содержат метаданные для использования при осуществлении интерполяционной обработки коэффициентов усиления для выборок аудио сигналов, причем указанные коэффициенты усиления вычисляют на основе указанных метаданных.

(8) Способ декодирования, содержащий этапы, на которых:

принимают как кодированные аудиоданные, полученные посредством кодирования аудио сигнала от аудио объекта в кадре заданного промежутка времени, так и множество блоков метаданных для указанного кадра;

декодируют кодированные аудиоданные; и

осуществляют отображение на основе аудио сигнала, полученного в результате декодирования, и метаданных.

(9) Программа, при выполнении которой компьютер осуществляет процедуру, содержащую этапы, на которых:

принимают как кодированные аудиоданные, полученные посредством кодирования аудио сигнала от аудио объекта в кадре заданного промежутка времени, так и множество блоков метаданных для указанного кадра;

декодируют кодированные аудиоданные; и

осуществляют отображение на основе аудио сигнала, полученного в результате декодирования, и метаданных.

(10) Устройств кодирования, содержащее:

секцию кодирования для кодирования аудио сигнала от аудио объекта в кадре заданного промежутка времени; и

секцию генерирования для генерирования потока битов, имеющего в составе кодированные аудиоданные, полученные в результате кодирования, и множество блоков метаданных для указанного кадра.

(11) Устройство кодирования по (10), в котором метаданные содержат информацию о местонахождении, указывающую положение аудио объекта.

(12) Устройство кодирования по (10) или (11), в котором каждый из множества блоков метаданных содержит метаданные для множества выборок в кадре аудио сигнала.

(13) Устройство кодирования по (12), в котором каждый из множества блоков метаданных содержит метаданные для множества выборок, количество которых определено путем деления числа выборок, составляющих кадр, на число блоков метаданных.

(14) Устройство кодирования по (12), в котором каждый из множества блоков метаданных содержит метаданные для множества выборок, указанных каждым из множества индексов выборок.

(15) Устройство кодирования по (12), в котором каждый из множества блоков метаданных содержит метаданные для множества выборок из заданного количества выборок в кадре.

(16) Устройство кодирования по любому из (10)-(15), в котором блоки метаданных содержат метаданные для использования при осуществлении интерполяционной обработки коэффициентов усиления для выборок аудио сигналов, причем эти указанные коэффициенты усиления вычисляют на основе указанных метаданных.

(17) Устройство кодирования по любому из (10)-(16), дополнительно содержащее:

секцию интерполяции для осуществления интерполяционной обработки метаданных.

(18) Способ кодирования, содержащий этапы, на которых:

кодируют аудио сигнал от аудио объекта в кадре заданного промежутка времени; и

генерируют поток битов, имеющий в составе кодированные аудиоданные, полученные в результате кодирования, и множество блоков метаданных для указанного кадра.

(19) Программа, при выполнении которой компьютер осуществляет процедуру, содержащую этапы, на которых:

кодируют аудио сигнал от аудио объекта в кадре заданного промежутка времени; и

генерируют поток битов, имеющий в составе кодированные аудиоданные, полученные в результате кодирования, и множество блоков метаданных для указанного кадра.

Список позиционных обозначений

11 Устройство кодирования, 22 Секция кодирования аудио сигнала, 24 Секция интерполяции, 25 Секция приема связанной информации, 26 Секция кодирования метаданных, 27 Секция мультиплексирования, 28 Секция вывода, 51 Устройство декодирования, 62 Секция демультиплексирования, 63 Секция декодирования аудио сигнала, 64 Секция декодирования метаданных, 65 Секция вычисления коэффициента усиления, 66 Секция генерирования аудио сигнала, 71 Схема считывания флага дополнительных метаданных, 72 Схема считывания индекса переключения, 73 Схема интерполяционной обработки

1. Устройство декодирования, содержащее:

секцию приема для приема как кодированных аудиоданных, полученных посредством кодирования аудиосигнала от аудиообъекта в кадре заданного промежутка времени, так и множества метаданных для указанного кадра;

секцию декодирования для декодирования кодированных аудиоданных; и

секцию отображения для осуществления отображения на основе аудиосигнала, полученного в результате декодирования, и метаданных; при этом

каждые метаданные из множества метаданных являются метаданными для множества выборок в кадре аудиосигнала, вплоть до заданного количества выборок в кадре.

2. Устройство декодирования по п. 1, в котором метаданные содержат информацию о местоположении, указывающую положение аудиообъекта.

3. Устройство декодирования по п. 1, в котором каждые метаданные из множества метаданных являются метаданными для множества выборок, количество которых определено посредством деления числа выборок, составляющих кадр, на число блоков метаданных.

4. Устройство декодирования по п. 1, в котором каждые метаданные из множества метаданных являются метаданными для множества выборок, указанных каждым из множества индексов выборок.

5. Устройство декодирования по п. 1, в котором метаданные содержат метаданные для использования при осуществлении интерполяционной обработки коэффициентов усиления для выборок аудиосигнала, причем указанные коэффициенты усиления вычислены на основе указанных метаданных.

6. Способ декодирования, содержащий этапы, на которых:

принимают как кодированные аудиоданные, полученные посредством кодирования аудиосигнала от аудиообъекта в кадре заданного промежутка времени, так и множество метаданных для указанного кадра;

декодируют кодированные аудиоданные; и

осуществляют отображение на основе аудиосигнала, полученного в результате декодирования, и метаданных; при этом

каждые метаданные из множества метаданных являются метаданными для множества выборок в кадре аудиосигнала, вплоть до заданного количества выборок в кадре.

7. Носитель записи информации, хранящий программу, вызывающую при исполнении компьютером выполнение обработки, содержащей этапы, на которых:

принимают как кодированные аудиоданные, полученные посредством кодирования аудиосигнала от аудиообъекта в кадре заданного промежутка времени, так и множество метаданных для указанного кадра;

декодируют кодированные аудиоданные; и

осуществляют отображение на основе аудиосигнала, полученного в результате декодирования, и метаданных; при этом

каждые метаданные из множества метаданных являются метаданными для множества выборок в кадре аудиосигнала, вплоть до заданного количества выборок в кадре.

8. Устройство кодирования, содержащее:

секцию кодирования для кодирования аудиосигнала от аудиообъекта в кадре заданного промежутка времени; и

секцию генерирования для генерирования потока битов, содержащего кодированные аудиоданные, полученные в результате кодирования, и множество метаданных для указанного кадра; при этом

каждые метаданные из множества метаданных являются метаданными для множества выборок в кадре аудиосигнала, вплоть до заданного количества выборок в кадре.

9. Устройство кодирования по п. 8, в котором метаданные содержат информацию о местоположении, указывающую положение аудиообъекта.

10. Устройство кодирования по п. 8, в котором каждые метаданные из множества метаданных являются метаданными для множества выборок, количество которых определено посредством деления числа выборок, составляющих кадр, на число метаданных.

11. Устройство кодирования по п. 8, в котором каждые метаданные из множества метаданных являются метаданными для множества выборок, указанных каждым из множества индексов выборок.

12. Устройство кодирования по п. 8, в котором метаданные содержат метаданные для использования при осуществлении интерполяционной обработки коэффициентов усиления для выборок аудиосигналов, причем указанные коэффициенты усиления вычислены на основе указанных метаданных.

13. Устройство кодирования по п. 8, дополнительно содержащее:

секцию интерполяции, выполненную с возможностью осуществления интерполяционной обработки метаданных.

14. Способ кодирования, содержащий этапы, на которых:

кодируют аудиосигнал от аудиообъекта в кадре заданного промежутка времени; и

генерируют поток битов, содержащий кодированные аудиоданные, полученные в результате кодирования, и множество метаданных для указанного кадра; при этом

каждые метаданные из множества метаданных являются метаданными для множества выборок в кадре аудиосигнала, вплоть до заданного количества выборок в кадре.

15. Носитель записи информации, хранящий программу, вызывающую при исполнении компьютером выполнение обработки, содержащей этапы, на которых:

кодируют аудиосигнал от аудиообъекта в кадре заданного промежутка времени; и

генерируют поток битов, содержащий кодированные аудиоданные, полученные в результате кодирования, и множество метаданных для указанного кадра; при этом

каждые метаданные из множества метаданных являются метаданными для множества выборок в кадре аудиосигнала, вплоть до заданного количества выборок в кадре.



 

Похожие патенты:

Изобретение относится к области вычислительной техники предназначенной для аудиообработки. Технический результат заключается в повышении точности аудиообработки для получения звука высокого качества.

Изобретение относится к средствам для обработки стереофонических сигналов. Технический результат заключается в обеспечении возможности воспроизведения аудио в автомобилях для достижения отдельного трехмерного звука посредством передних громкоговорителей.

Изобретение относится к средствам для предоставления аудиоустройством аудио. Технический результат заключается в расширении области в которой можно прослушивать виртуальный аудиосигнал.

Изобретение относится к средствам обработки аудиоданных. Технический результат заключается в повышении качества воспроизведения звука.

Изобретение относится к средствам кодирования и декодирования аудио. Технический результат заключается в повышении эффективности кодирования аудио.

Изобретение относится к средствам для формирования аудиосигнала. Технический результат заключается в обеспечении возможности формирования и предоставления аудиосигналов, формирующих звуковое поле, имеющее плоскую волну.

Изобретение относится к средствам для кодирования, декодирования и вывода аудиосигнала. Технический результат заключается в повышении качества аудиосигнала.

Настоящее изобретение относится к средствам для обработки звука. Технический результат заключается в повышении точности локализации звукового образа.

Изобретение относится к устройствам декодирования и кодирования информации. Технический результат заключается в повышении эффективности кодирования для получения высококачественного реалистического звука.

Изобретение относится к акустике, в частности к аудиовизуальным устройствам. Устройство содержит средство формирования изображения, основные и множество вспомогательных громкоговорителей.

Изобретение относится к средствам для формирования кодированного битового аудиопотока. Технический результат заключается в повышении эффективности кодирования.
Наверх