Устройство и способ рендеринга звука с использованием определения геометрического расстояния

Авторы патента:

ГРИЛЛ Бернхард (DE)

НОЙЕНДОРФ Макс (DE)

ХЕРРЕ Юрген (DE)

ФЮГ Зимоне (DE)

ПЛОГСТИС Ян (DE)

H04S7/00 - Индикаторные устройства; устройства управления, например уравновешенного (балансного) управления

H04S3/008 - Системы с более, чем двумя каналами, например квадрафонические (H04S 5/00,H04S 7/00 имеют преимущество)

Владельцы патента RU 2666473:

ФРАУНХОФЕР-ГЕЗЕЛЛЬШАФТ ЦУР ФЕРДЕРУНГ ДЕР АНГЕВАНДТЕН ФОРШУНГ Е.Ф. (DE)

Изобретение относится к устройствам, способу и машиночитаемому носителю для воспроизведения звукового объекта. Технический результат заключается в оптимизации воспроизведения звукового объекта. Устройство содержит устройство вычисления расстояния для вычисления расстояний от положения устройства до динамиков, при этом устройство вычисления расстояния выполнено с возможностью принятия решения в отношении кратчайшего расстояния и при этом устройство выполнено с возможностью воспроизведения звукового объекта с использованием динамика в соответствии с решением, при этом устройство вычисления расстояния выполнено с возможностью вычисления расстояний в зависимости от функции расстояния, которая возвращает расстояние по большой дуге, или которая возвращает взвешенные абсолютные разности между азимутальными углами и углами возвышения, или которая возвращает взвешенную угловую разность. 4 н. и 7 з.п. ф-лы, 6 ил.

Настоящее изобретение относится к обработке звуковых сигналов, в частности к устройству и способу рендеринга звука, и более конкретно к устройству и способу рендеринга звука с использованием определения геометрического расстояния.

С увеличением потребления мультимедийного контента в повседневной жизни неуклонно растет спрос на комплексные мультимедийные решения. В связи с этим, важную роль играет позиционирование звуковых объектов. Таким образом, существует потребность в оптимальном позиционировании звуковых объектов для существующей компоновки громкоговорителей.

Из уровня техники известны звуковые объекты. Звуковые объекты могут, например, рассматриваться как звуковые дорожки с соотнесенными метаданными. Метаданные могут, например, описывать характеристики исходных звуковых данных, например, желаемое положение воспроизведения или уровень громкости. Преимущество объектно-ориентированного звука состоит в том, что посредством особого процесса рендеринга на стороне воспроизведения определенное движение может быть воспроизведено наилучшим возможным образом для всех конфигураций воспроизводящих громкоговорителей.

Геометрические метаданные могут использоваться для определения того, где звуковой объект должен быть представлен посредством рендеринга, например, углы по азимуту или высоте, или абсолютные координаты относительно опорной точки, например, слушателя. Метаданные хранятся или передаются вместе с объектными звуковыми сигналами.

В отношении MPEG-H, на 105-ом заседании аудио группа рассмотрела требования и сроки реализации разных прикладных стандартов (MPEG, Экспертная группа по вопросам движущегося изображения). Согласно этому анализу, было бы принципиально важно уложиться в определенные временные рамки и выполнить конкретные требования для системы широковещательной передачи следующего поколения. Согласно этим результатам, система должна быть способна воспринимать звуковые объекты на входе кодирующего устройства. Кроме того, система должна поддерживать передачу сигналов, доставку и рендеринг звуковых объектов и должна позволять пользователю управлять объектами, например, в отношении расширения функциональности диалога, альтернативных языковых дорожек и языка тифлокомментирования.

Из уровня техники известны разные концепции. Первая концепция выражается в рендеринге звука для объектно-ориентированного звука (см. документ [2]). Привязка к информации о местоположении громкоговорителей включается в определение метаданных в качестве полезной формирующей информации. Однако, в документе [2], не обеспечивается никакая информация о том, каким образом эта информация используется в процессе воспроизведения. Более того, не обеспечивается никакая информация о том, как определяется расстояние между двумя положениями.

Другая концепция из уровня техники, системы и инструментальные средства для проектирования и рендеринга улучшенного объемного звука, описана в документе [5]. Фиг. 6B документа [5] представляет собой схему, иллюстрирующую, как может быть алгоритмически реализована «привязка» к динамику. В развернутой форме, согласно документу [5], если определяется привязка положения звукового объекта к местоположению динамика (см. блок 665 на Фиг. 6B документа [5]), положение звукового объекта будет сопоставлено с местоположением динамика (см. блок 670 на Фиг. 6B документа [5]), как правило, с одной ближайшей к намеченному (x, y, z) положению, принятому для звукового объекта. Согласно документу [5], привязка может быть применена к небольшой группе воспроизводящих динамиков и/или отдельному воспроизводящему динамику. Вместе с тем, документ [5] использует декартову систему (x, y, z) координат вместо сферической системы координат. Кроме того, логика работы устройства рендеринга описывается лишь как сопоставление положения звукового объекта с местоположением динамика; если флаг привязки равен единице, никакого подробного описания не обеспечивается. Кроме того, не обеспечивается никаких сведений о том, как определяется ближайший динамик.

Согласно уровню техники, а именно "System and Method for Adaptive Audio Signal Generation, Coding and Rendering", описанном в документе [1], информация метаданных (элементы метаданных) определяет, что «один или более звуковых компонентов представляются посредством рендеринга для подачи на динамик, для воспроизведения через динамик, ближайший к намеченному месту воспроизведения звукового компонента, как указано в метаданных положения». Однако не обеспечивается никакая информация о том, как определяется ближайший динамик.

Также из уровня техники, а именно из "Audio Definition Model", описанном в документе [4], флаг метаданных определяется с именем "channelLock". Если установлено значение 1, устройство рендеринга может закрепить объект за ближайшим каналом или динамиком, вместо обычного рендеринга. Однако не описывается никакого определения ближайшего канала.

Также в уровне техники описано повышающее микширование объектно-ориентированного звука (см. документ [3]). Документ [3] описывает способ использования измерения расстояния до динамиков в иной области применения: В данном случае это используется для повышающего микширования объектно-ориентированного звукового материала. Система рендеринга выполнена с возможностью определения, благодаря программе обработки объектно-ориентированного звука (и знанию положений динамиков, которые будут использованы для выполнения программы), расстояния между каждым положением источника звука, указанного в программе, и положением каждого из динамиков. Кроме того, система рендеринга согласно документу [3] выполнена с возможностью определения, для каждого действительного положения источника (например, каждого положения источника вдоль траектории движения источника), указанной в программе, подмножества полного набора динамиков («первичное» подмножество), состоящего из тех динамиков полного набора (или динамика полного комплекта), которые являются ближайшими к действительному положению источника, причем «ближайший» в данном контексте определяется в некотором определенном разумном смысле. Однако не обеспечивается никакой информации о том, как должно вычисляться расстояние.

Задачей настоящего изобретения является обеспечение улучшенных концепций для рендеринга звука. Задача настоящего изобретения решается посредством устройства по пункту 1 формулы изобретения, посредством декодирующего устройства по пункту 13 формулы изобретения, посредством способа по пункту 14 формулы изобретения и посредством компьютерной программы по пункту 15 формулы изобретения.

Предложено устройство для воспроизведения звукового объекта, соотнесенного с положением. Устройство содержит устройство вычисления расстояния для вычисления расстояний от положения до динамиков или для считывания расстояний от положения до динамиков. Устройство вычисления расстояния выполнено с возможностью принятия решения в отношении кратчайшего расстояния. Устройство выполнено с возможностью воспроизведения звукового объекта с использованием динамика в соответствии с решением.

В соответствии с одним вариантом осуществления, устройство вычисления расстояния может быть, например, выполнено с возможностью вычисления расстояний от положения до динамиков или считывания расстояний от положения до динамиков, только если активирован флаг срабатывания ближайшего динамика (mdae_closestSpeakerPlayout), принятый устройством. Кроме того, устройство вычисления расстояния может быть, например, выполнено с возможностью принятия решения в отношении кратчайшего расстояния, только если активирован флаг срабатывания ближайшего динамика (mdae_closestSpeakerPlayout). Кроме того, устройство может быть, например, выполнено с возможностью воспроизведения звукового объекта с использованием динамика в соответствии с решением, только если активирован флаг срабатывания ближайшего динамика (mdae_closestSpeakerPlayout).

В одном из вариантов осуществления, устройство может быть, например, выполнено с возможностью не осуществлять какой-либо рендеринг по звуковому объекту, если активирован флаг срабатывания ближайшего динамика (mdae_closestSpeakerPlayout).

В соответствии с одним вариантом осуществления, устройство вычисления расстояния может быть, например, выполнено с возможностью вычисления расстояний в зависимости от функции расстояния, которая возвращает взвешенное евклидово расстояние или расстояние по большой дуге.

В одном из вариантов осуществления, устройство вычисления расстояния может быть, например, выполнено с возможностью вычисления расстояний в зависимости от функции расстояния, которая возвращает взвешенные абсолютные разности между азимутальными углами и углами возвышения.

В соответствии с одним вариантом осуществления, устройство вычисления расстояния может быть, например, выполнено с возможностью вычисления расстояний в зависимости от функции расстояния, которая возвращает взвешенные абсолютные разности в степени p, причем p является числом. В одном варианте осуществления значение p может быть, например, установлено как p=2.

В одном вариантt осуществления, функция расстояния может быть, например, определена следующим образом

diffAngle=acos(cos(azDiff)*cos(elDiff)),

где azDiff обозначает разность двух азимутальных углов, где elDiff обозначает разность двух углов возвышения, и где diffAngle обозначает взвешенную угловую разность.

где α₁ обозначает азимутальный угол положения, α₂ обозначает азимутальный угол упомянутого одного из динамиков, β₁ обозначает угол возвышения положения, и β₂ обозначает угол возвышения упомянутого одного из динамиков. Или, α₁ обозначает азимутальный угол упомянутого одного из динамиков, α₂ обозначает азимутальный угол положения, β₁ обозначает угол возвышения упомянутого одного из динамиков, и β₂ обозначает угол возвышения положения.

В одном варианте осуществления, устройство вычисления расстояния может быть, например, выполнено с возможностью вычисления расстояний от положения до динамиков, таким образом, что каждое расстояние от положения до одного из динамиков вычисляется следующим образом

где α₁ обозначает азимутальный угол положения, α₂ обозначает азимутальный угол упомянутого одного из динамиков, β₁ обозначает угол возвышения положения, β₂ обозначает угол возвышения упомянутого одного из динамиков, r₁ обозначает вынос положения, и r₂ обозначает вынос упомянутого одного из динамиков. Или, α₁ обозначает азимутальный угол упомянутого одного из динамиков, α₂ обозначает азимутальный угол положения, β₁ обозначает угол возвышения упомянутого одного из динамиков, β₂ обозначает угол возвышения положения, r₁ обозначает вынос упомянутого одного из динамиков, и r₂ обозначает вынос положения.

где α₁ обозначает азимутальный угол положения, α₂ обозначает азимутальный угол упомянутого одного из динамиков, β₁ обозначает угол возвышения положения, β₂ обозначает угол возвышения упомянутого одного из динамиков, a является первым числом, и b является вторым числом. Или, α₁ обозначает азимутальный угол упомянутого одного из динамиков, α₂ обозначает азимутальный угол положения, β₁ обозначает угол возвышения упомянутого одного из динамиков, β₂ обозначает угол возвышения положения, a является первым числом, и b является вторым числом.

где α ₁ обозначает азимутальный угол положения, α₂ обозначает азимутальный угол упомянутого одного из динамиков, β₁ обозначает угол возвышения положения, β₂ обозначает угол возвышения упомянутого одного из динамиков, r₁ обозначает вынос положения, r₂ обозначает вынос упомянутого одного из динамиков, a является первым числом, и b является вторым числом. Или, α₁ обозначает азимутальный угол упомянутого одного из динамиков, α₂ обозначает азимутальный угол положения, β₁ обозначает угол возвышения упомянутого одного из динамиков, β₂ обозначает угол возвышения положения, r₁ обозначает вынос упомянутого одного из динамиков, r₂ обозначает вынос положения, a является первым числом, b является вторым числом, и c является третьим числом.

В соответствии с одним вариантом осуществления, предложено декодирующее устройство. Декодирующее устройство содержит устройство декодирования USAC для декодирования битового потока для получения одного или более входных звуковых каналов, получения одного или более входных звуковых объектов, получения сжатых метаданных объекта и получения одного или более транспортных каналов SAOC. Кроме того, декодирующее устройство содержит устройство декодирования SAOC для декодирования одного или более транспортных каналов SAOC для получения группы из одного или более представленных посредством рендеринга звуковых объектов. Кроме того, декодирующее устройство содержит устройство декодирования метаданных объекта для декодирования сжатых метаданных объекта для получения несжатых метаданных. Кроме того, декодирующее устройство содержит устройство преобразования формата для преобразования одного или более входных звуковых каналов для получения одного или более преобразованных каналов. Кроме того, декодирующее устройство содержит устройство микширования для микширования одного или более представленных посредством рендеринга звуковых объектов из группы из одного или более представленных посредством рендеринга звуковых объектов, одного или более входных звуковых объектов и одного или более преобразованных каналов для получения одного или более декодированных звуковых каналов. Устройство декодирования метаданных объекта и устройство микширования вместе образуют устройство в соответствии с одним из вышеописанных вариантов осуществления. Устройство декодирования метаданных объекта содержит устройство вычисления расстояния из устройства в соответствии с одним из вышеописанных вариантов осуществления, причем устройство вычисления расстояния выполнено с возможностью вычисления, для каждого входного звукового объекта из одного или более входных звуковых объектов, расстояний от положения, соотнесенной с упомянутым входным звуковым объектом, до динамиков, или считывания расстояний от положения, соотнесенной с упомянутым входным звуковым объектом, до динамиков, и принятия решения в отношении кратчайшего расстояния. Устройство микширования выполнено с возможностью вывода каждого входного звукового объекта из одного или более входных звуковых объектов в одном из одного или более декодированных звуковых каналов на динамик в соответствии с решением, определенным устройством вычисления расстояния устройства согласно одному из вышеописанных вариантов осуществления для упомянутого входного звукового объекта.

Способ воспроизведения звукового объекта, соотнесенного с положением, содержащий этапы, на которых:

- Вычисляют расстояния от положения до динамиков или считывают расстояния от положения до динамиков.

- Принимают решение в отношении кратчайшего расстояния. И:

- Воспроизводят звуковой объект с использованием динамика в соответствии с решением.

Кроме того, предложена компьютерная программа для осуществления вышеописанного способа при исполнении на компьютере или устройстве обработки сигналов.

Далее варианты осуществления настоящего изобретения описаны более подробно со ссылкой на чертежи, на которых:

Фиг. 1 представляет собой устройство в соответствии с одним вариантом осуществления,

Фиг. 2 иллюстрирует устройство рендеринга объектов в соответствии с одним вариантом осуществления,

Фиг. 3 иллюстрирует устройство обработки метаданных объектов в соответствии с одним вариантом осуществления,

Фиг. 4 иллюстрирует общую схему устройства кодирования объемного звука,

Фиг. 5 иллюстрирует общую схему устройства декодирования объемного звука в соответствии с одним вариантом осуществления, и

Фиг. 6 иллюстрирует структуру устройства преобразования формата.

Фиг. 1 показывает, что предложено устройство 100 для воспроизведения звукового объекта, соотнесенного с положением.

Устройство 100 содержит устройство 110 вычисления расстояния для вычисления расстояний от положения до динамиков или для считывания расстояний от положения до динамиков. Устройство 110 вычисления расстояния выполнено с возможностью принятия решения в отношении кратчайшего расстояния.

Устройство 100 выполнено с возможностью воспроизведения звукового объекта с использованием динамика в соответствии с решением.

Например, для каждого громкоговорителя, определяется расстояние между положением (положением звукового объекта) и упомянутым громкоговорителем (местоположением упомянутого громкоговорителя).

В соответствии с одним вариантом осуществления, устройство вычисления расстояния может быть, например, выполнено с возможностью вычисления расстояний от положения до динамиков или считывания расстояний от положения до динамиков, только если активирован флаг срабатывания ближайшего динамика (mdae_closestSpeakerPlayout), принятый устройством 100. Кроме того, устройство вычисления расстояния может быть, например, выполнено с возможностью принятия решения в отношении кратчайшего расстояния, только если активирован флаг срабатывания ближайшего динамика (mdae_closestSpeakerPlayout). Кроме того, устройство 100 может быть, например, выполнено с возможностью воспроизведения звукового объекта с использованием динамика в соответствии с решением, только если активирован флаг срабатывания ближайшего динамика (mdae_closestSpeakerPlayout).

В одном варианте осуществления устройство 100 может быть, например, выполнено с возможностью не осуществлять какой-либо рендеринг по звуковому объекту, если активирован флаг срабатывания ближайшего динамика (mdae_closestSpeakerPlayout).

В одном из вариантов осуществления устройство вычисления расстояния может быть, например, выполнено с возможностью вычисления расстояний в зависимости от функции расстояния, которая возвращает взвешенные абсолютные разности между азимутальными углами и углами возвышения.

В соответствии с одним из вариантов осуществления, устройство вычисления расстояний может быть, например, выполнено с возможностью вычисления расстояний в зависимости от функции расстояния, которая возвращает взвешенные абсолютные разности в степени p, причем p является числом. В одном из вариантов осуществления значение p может быть, например, установлено как p=2.

В соответствии с одним вариантом осуществления, устройство вычисления расстояний может быть, например, выполнено с возможностью вычисления расстояний в зависимости от функции расстояния, которая возвращает взвешенную угловую разность.

В одном из вариантов осуществления, функция расстояния может быть, например, определена следующим образом

diffAngle=acos(cos(azDiff)*cos(elDiff)),

В одном из вариантов осуществления, устройство вычисления расстояния может быть, например, выполнено с возможностью вычисления расстояний от положения до динамиков, таким образом, что каждое расстояние от положения до одного из динамиков вычисляется следующим образом

где α₁ обозначает азимутальный угол положения, α₂ обозначает азимутальный угол упомянутого одного из динамиков, β₁ обозначает угол возвышения положения, β₂ обозначает угол возвышения упомянутого одного из динамиков, a является первым числом, и b является вторым числом. Или, α₁ обозначает азимутальный угол упомянутого одного из динамиков, α₂ обозначает азимутальный угол положения, β₁ обозначает угол возвышения упомянутого одного из динамиков, β₂ обозначает угол возвышения положения, a является первым числом, и b является вторым числом.

где α₁ обозначает азимутальный угол положения, α₂ обозначает азимутальный угол упомянутого одного из динамиков, β₁ обозначает угол возвышения положения, β₂ обозначает угол возвышения упомянутого одного из динамиков, r₁ обозначает вынос положения, r₂ обозначает вынос упомянутого одного из динамиков, a является первым числом, b является вторым числом, и c является третьим числом. Или, α₁ обозначает азимутальный угол упомянутого одного из динамиков, α₂ обозначает азимутальный угол положения, β₁ обозначает угол возвышения упомянутого одного из динамиков, β₂ обозначает угол возвышения положения, r₁ обозначает вынос упомянутого одного из динамиков, r₂ обозначает вынос положения, a является первым числом, b является вторым числом, и c является третьим числом.

Далее описываются варианты осуществления настоящего изобретения. Варианты осуществления обеспечивают концепции для использования определения геометрического расстояния для рендеринга звука.

Метаданные объекта могут использоваться для определения одного из двух:

1) где в пространстве объект должен быть представлен посредством рендеринга, или

2) какой громкоговоритель должен использоваться для воспроизведения объекта.

Если положение объекта, указанного в метаданных, не приходится на отдельно взятый динамик, устройство рендеринга объектов сформирует выходной сигнал, основываясь на использовании нескольких громкоговорителей и определенных правилах панорамирования. Панорамирование является неоптимальным с точки зрения локализации звуков или оттенка звука.

Таким образом, производитель объектно-ориентированного контента может пожелать установить, что определенный звук должен поступать из одного громкоговорителя с определенной стороны.

Может случиться так, что этот громкоговоритель отсутствует в пользовательской компоновке громкоговорителей. Тогда в метаданных устанавливается флаг, который заставляет звук воспроизводиться ближайшим доступным громкоговорителем без рендеринга.

Настоящее изобретение описывает, каким образом может быть найден ближайший громкоговоритель, принимая во внимание некоторый весовой коэффициент для обеспечения допустимого отклонения от желаемого положения объекта.

Фиг. 2 иллюстрирует устройство рендеринга объектов в соответствии с одним вариантом осуществления.

В объектно-ориентированных звуковых форматах метаданные хранятся или передаются вместе с объектными сигналами. Звуковые объекты представляются посредством рендеринга на стороне воспроизведения с использованием метаданных и информации о среде воспроизведения. Такой информацией, например, является количество громкоговорителей или размер экрана.

Таблица 1 - иллюстративные метаданные:

	Идентификатор объекта
Динамические OAM	Azimuth
	Elevation
	Gain
Distance
Интерактивность	AllowOnOff
	AllowPositionInteractivity
	AllowGainInteractivity
	DefaultOnOff
	DefaultGain
	InteractivityMinGain
	InteractivtiyMaxGain
	InteractivityMinAzOffset
	InteractivityMaxAzOffset
	InteractivityMinElOffset
	InteractivityMaxElOffset
	InteractivityMinDist
InteractivityMaxDist
Срабатывание	IsSpeakerRelatedGroup
	SpeakerConfig3D
	AzimuthScreenRelated
	ElevationScreenRelated
	ClosestSpeakerPlayout
	Контент	ContentKind
ContentLanguage
Группа	GroupID
	GroupDescription
	GroupNumMembers
	GroupMembers
Priority
Коммутационная группа	SwitchGroupID
	SwitchGroupDescription
	SwitchGroupDefault
	SwitchGroupNumMembers
SwitchGroupMembers
Звуковая сцена	NumGroupsTotal
	IsMainScene
	NumGroupsPresent
NumSwitchGroups

Что касается объектов, то геометрические метаданные могут использоваться для определения того, как они должны быть представлены посредством рендеринга, например углы по азимуту или высоте, или абсолютные координаты относительно опорной точки, например, слушателя. Устройство рендеринга вычисляет сигналы для громкоговорителей на основании геометрических данных, а также доступных динамиков и их положения.

Если звуковой объект (звуковой сигнал, соотнесенный с положением в трехмерном пространстве, например, определены азимут, возвышение и расстояние), не должен представляться посредством рендеринга в соотнесенной с ним положении, а вместо этого воспроизводиться громкоговорителем, который существует в локальной компоновке громкоговорителей, одним из путей было бы определить громкоговоритель, на котором объект должен воспроизводиться, посредством метаданных.

Однако бывают случаи, когда производитель не хочет, чтобы объектный контент воспроизводился конкретным динамиком, но скорее ближайшим доступным динамиком, т.е. «геометрически ближайшим» динамиком. Это позволяет дискретно воспроизводить без необходимости определения, какой динамик соответствует какому звуковому сигналу, или осуществлять рендеринг среди множества громкоговорителей.

Варианты осуществления в соответствии с настоящим изобретением выходят из вышеописанного положения следующим образом.

Поля метаданных:

ClosestSpeakerPlayout

Объект должен воспроизводиться геометрически ближайшим динамиком, без рендеринга (только для динамических объектов (IsSpeakerRelatedGroup==0))

Таблица 2 - Синтаксис GroupDefinition():

Синтаксис	Число бит	Мнемосхема
mdae_GroupDefinition(numGroups)
{
for (grp=0; grp<numGroups; grp++) {

mdae_groupID[grp];	7	uimsbf

...

mdae_groupPriority[grp];	3	Uimsbf
mdae_closestSpeakerPlayout[grp];	1	Bslbf

...
}
}
mdae_closestSpeakerPlayout	Этот флаг определяет то, что элементы группы элементов метаданных не должны представляться посредством рендеринга, а непосредственно воспроизводятся динамиками, которые являются ближайшими к геометрическому положению элементов.

Перераспределение производится в устройстве обработки метаданных объектов, которое принимает во внимание локальную компоновку громкоговорителей и выполняет маршрутизацию сигналов на соответствующие устройства рендеринга с конкретной информацией о том, каким громкоговорителем или с какого направления должен быть представлен посредством рендеринга звук.

Фиг. 3 иллюстрирует устройство обработки метаданных объектов в соответствии с одним вариантом осуществления.

Стратегия вычисления расстояния описывается следующим образом:

- если установлен флаг метаданных ближайшего громкоговорителя, звук воспроизводится через ближайший динамик

- с этой целью, вычисляется расстояние до близлежащих динамиков (или считывается из предварительно сохраненной таблицы)

- принимается решение в отношении кратчайшего расстояния

- функцией расстояния может быть (но не ограничиваясь этим), например:

- взвешенное евклидово расстояние или расстояние по большой дуге

- взвешенные абсолютные разности по азимутальному углу и углу возвышения

- взвешенные абсолютные разности в степени p (p=2 => Решение методом наименьших квадратов)

- взвешенная угловая разность, например, diffAngle=acos(cos(azDiff)*cos(elDiff))

Ниже изложены примеры для вычисления ближайшего динамика.

Если активирован флаг mdae_closestSpeakerPlayout группы звуковых элементов, то каждый из элементов группы звуковых элементов должен воспроизводиться динамиком, который является ближайшим к определенному положению звукового элемента. В этом случае никакой рендеринг не применяется.

Расстояние между двумя положениями P₁ и P₂ в сферической системе координат определяется как абсолютная разность их азимутальных углов α и углов β возвышения.

Это расстояние должно быть вычислено для всех известных положений P₁ - P_N для N выходных динамиков относительно необходимого положения звукового элемента P_wanted.

Положением ближайшего известного громкоговорителя является то, для которого расстояние до необходимого положения звукового элемента принимает минимальное значение

Используя эту формулу, можно добавить весовые коэффициенты для возвышения, азимута и/или выноса. Таким образом, можно утверждать, что отклонение по азимуту должно быть менее приемлемо, чем отклонение по возвышению, при придании отклонению по азимуту веса с большим числом:

Пример касается вычисления ближайшего громкоговорителя для бинаурального рендеринга.

Если звуковой контент должен воспроизводиться как бинауральный стереофонический сигнал через наушники или стереофоническую компоновку динамиков, то каждый канал звукового контента, как правило, математически комбинируется с бинауральной импульсной характеристикой помещения или импульсной характеристикой слухового аппарата человека.

Положение измерения этой импульсной характеристики должно соответствовать направлению, с которого должен восприниматься звуковой контент соотнесенного канала. В многоканальных звуковых системах или объектно-ориентированном звуке случается так, что число определяемых положений (либо динамиком, либо положением объекта) больше, чем число доступных импульсных характеристик. В этом случае должна быть выбрана подходящая импульсная характеристика, если нет предназначенной для положения канала или положения объекта. Для того чтобы привносить только минимальные изменения касательно положения в восприятии, выбранная импульсная характеристика должна быть «геометрически ближайшей» импульсной характеристикой.

В обоих случаях необходимо определить, какое из списка известных положений (т.е. воспроизводящие динамики или BRIR) является ближайшим к необходимому положению (BRIR - бинауральная импульсная характеристика помещения). Поэтому должно быть определено «расстояние» между разными положениями.

Расстояние между разными положения в материалах настоящей заявки определяется как абсолютная разность их азимутальных углов и углов возвышения.

Нижеследующая формула используется для вычисления расстояния между двумя положениями P₁, P₂ в системе координат, которая определяется возвышением α и азимутом β:

Можно добавить вынос r в качестве третьей переменной:

Ближайшим к известному положению является то, для которого расстояние до необходимого положения принимает минимальное значение

В одном варианте осуществления, весовые коэффициенты могут быть, например, добавлены к возвышению, азимуту и/или выносу:

В соответствии с некоторыми вариантами осуществления, ближайший динамик может быть, например, определен следующим образом:

Расстояние между двумя положениями P₁ и P₂ в сферической системе координат может быть, например, определено как абсолютная разность их азимутальных углов ϕ и углов θ возвышения.

Например, в соответствии с некоторыми вариантами осуществления, обработка срабатывания ближайшего динамика в соответствии с некоторыми вариантами осуществления может осуществляться путем определения положения ближайшего существующего громкоговорителя для каждого элемента группы звуковых объектов, если флаг ClosestSpeakerPlayout равен единице.

Обработка срабатывания ближайшего динамика может быть, например, особенно значимой для групп элементов с динамическими данными положения. Положением ближайшего громкоговорителя может быть, например, то, для которого расстояние до желаемого/необходимого положения звукового элемента принимает минимальное значение.

Далее приведена общая схема системы для системы кодирования-декодирования объемного звука. Варианты осуществления настоящего изобретения могут быть применены в такой системе кодирования-декодирования объемного звука. Система кодирования-декодирования объемного звука может, например, быть основа на кодеке USAC MPEG-D для кодирования канальных и объектных сигналов.

В соответствии с вариантами осуществления для повышения эффективности кодирования большого количества объектов, была адаптирована технология MPEG SAOC (SAOC - пространственное кодирование звуковых объектов). Например, в соответствии с некоторыми вариантами осуществления, три типа устройств рендеринга могут, например, выполнять задачи рендеринга объектов для каналов, рендеринга каналов для наушников или рендеринга каналов для разных компоновок громкоговорителей.

Когда объектные сигналы явно передаются или параметрически кодируются с использованием SAOC, соответствующая информация о метаданных объекта сжимается и уплотняется в битовый поток объемного звука.

Фиг. 4 и Фиг. 5 демонстрируют разные алгоритмические блоки системы объемного звука. В частности, Фиг. 4 иллюстрирует общую схему устройства кодирования объемного звука. Фиг. 5 иллюстрирует общую схему устройства декодирования объемного звука в соответствии с одним вариантом осуществления.

Теперь будут описаны возможные варианты осуществления модулей, изображенных на Фиг. 4 и Фиг. 5.

На Фиг. 4 проиллюстрировано устройство 810 предварительного рендеринга (также называемое устройством микширования). В конфигурации, показанной на Фиг. 4, устройство 810 предварительного рендеринга (устройство микширования) является дополнительным. Устройство 810 предварительного рендеринга может дополнительно использоваться для преобразования входной сцены Канал+Объект в канальную сцену перед кодированием. Функционально устройство 810 предварительного рендеринга на стороне кодирующего устройства может быть, например, связано с функциональностью устройства 920 рендеринга объектов/ микширования на стороне декодирующего устройства, которое описано ниже. Предварительный рендеринг объектов обеспечивает энтропию детерминированного сигнала на входе кодирующего устройства, которая, как правило, не зависит от числа сигналов одновременно активных объектов. Благодаря предварительному рендерингу объектов не требуется передача метаданных объекта. Дискретные объектные сигналы представляются посредством рендеринга в структуру каналов, с возможностью использования которой выполнено кодирующее устройство. Весовые коэффициенты объектов для каждого канала получаются из соотнесенных метаданных объекта (OAM).

Основной кодек для сигналов канала громкоговорителя, дискретных объектных сигналов, объектных сигналов понижающего микширования и представленных посредством предварительного рендеринга сигналов основывается на технологии USAC MPEG-D (Основной кодек USAC). Устройство 820 кодирования USAC (например, проиллюстрированное на Фиг. 4) управляет кодированием множества сигналов, создавая информацию о сопоставлении каналов и объектов на основании геометрической и семантической информации о назначении каналов и объектов на входе. Эта информация о сопоставлении описывает, как входные каналы и объекты сопоставлены с канальными элементами USAC (CPE, SCE, LFE), и соответствующая информация передается на декодирующее устройство.

Все дополнительные полезные данные, такие как данные SAOC или метаданные объекта, были переправлены через элементы расширения и могут, например, учитываться при управлении скоростью устройства кодирования USAC.

Кодировать объекты можно по-разному, в зависимости от требований по скорости/искажению и требований по интерактивности для устройства рендеринга. Возможны следующие варианты кодирования объектов:

- Представленные посредством предварительного рендеринга объекты: Объектные сигналы представляются посредством предварительного рендеринга и смешиваются в 22.2 канальные сигналы перед кодированием. Последующая кодовая цепочка видит 22.2 канальные сигналы.

- Дискретные формы волны объектов: Объекты подаются в виде монофонических форм волны на устройство 820 кодирования USAC. Устройство 820 кодирования USAC использует отдельные канальные элементы SCE для передачи объектов в дополнение к канальным сигналам. Декодированные объекты представляются посредством рендеринга и смешиваются на стороне принимающего устройства. Сжатая информация о метаданных объекта параллельно передается на принимающее устройство/устройство рендеринга.

- Параметрические формы волны объектов: Свойства объектов и их взаимосвязь друг с другом описываются посредством параметров SAOC. Понижающее микширование объектных сигналов кодируется с использованием USAC устройством 820 кодирования USAC. Параметрическая информация передается параллельно. Число каналов понижающего микширования выбирается в зависимости от числа объектов и общей скорости передачи данных. Сжатая информация о метаданных объекта передается на устройство рендеринга SAOC.

На стороне декодирующего устройства, устройство 910 декодирования USAC осуществляет декодирование USAC.

Кроме того, в соответствии с вариантами осуществления предложено декодирующее устройство, см. Фиг. 5. Декодирующее устройство содержит устройство 910 декодирования USAC для декодирования битового потока для получения оного или более входных звуковых каналов, получения одного более звуковых объектов, получения сжатых метаданных объекта и получения одного или более транспортных каналов SAOC.

Кроме того, декодирующее устройство содержит устройство 915 декодирования SAOC для декодирования одного или более транспортных каналов SAOC для получения первой группы из одного или более представленных посредством рендеринга звуковых объектов.

Кроме того, декодирующее устройство содержит устройство 922 преобразования формата для преобразования одного или более входных звуковых каналов для получения одного или более преобразованных каналов.

Кроме того, декодирующее устройство содержит устройство 930 микширования для микширования звуковых объектов первой группы из одного или более представленных посредством рендеринга звуковых объектов, звукового объекта второй группы из одного или более представленных посредством рендеринга звуковых объектов и одного или более преобразованных каналов для получения одного или более декодированных звуковых каналов.

На Фиг. 5 проиллюстрирован конкретный вариант осуществления декодирующего устройства. Устройство 815 кодирования SAOC (устройство 815 кодирования SAOC является дополнительным, см. Фиг. 4), и устройство 915 декодирования SAOC (см. Фиг. 5) для объектных сигналов основаны на технологии MPEG SAOC. Система способна воссоздавать, модифицировать и представлять посредством рендеринга множество звуковых объектов, на основе небольшого числа передаваемых каналов и дополнительных параметрических данных (OLD, IOC, DMG) (OLD - разность уровней объектов, IOC - корреляция между объектами, DMG - коэффициент усиления понижающего микширования). Дополнительные параметрические данные демонстрируют значительно более низкую скорость передачи данных, чем необходимо для передачи всех объектов по отдельности, что делает кодирование очень эффективным.

Устройство 815 кодирования SAOC принимает на входе объектные/канальные сигналы в виде монофонических форм волны и выводит параметрическую информацию (которая упаковывается в битовый поток объемного звука) и транспортные каналы SAOC (которые кодируются с использованием отдельных канальных элементов и передаются).

Устройство 915 декодирования SAOC восстанавливает объектные/канальные сигналы из декодированных транспортных каналов SAOC и параметрической информации, и формирует выходную звуковую сцену на основе конфигурации воспроизведения, распакованной информации о метаданных объекта и, в некоторых случаях, на основе информации о взаимодействии с пользователем.

Что касается кодека метаданных объектов, то для каждого объекта, соотнесенные метаданные, которые определяют геометрическое положение и распространение объекта в трехмерном пространстве, эффективно кодируются посредством квантования свойств объекта во времени и пространстве, например, устройством 818 кодирования метаданных, изображенным на Фиг. 4. Сжатые метаданные объекта cOAM (cOAM - сжатые метаданные звукового объекта) передаются на принимающее устройство в качестве вспомогательной информации. На принимающем устройстве cOAM декодируются устройством 918 декодирования метаданных.

Например, на Фиг. 5, устройство 918 декодирования метаданных может, например, реализовать устройство 110 вычисления расстояния, изображенное на Фиг. 1, в соответствии с одним из вышеописанных вариантов осуществления.

Устройство рендеринга объектов, например, устройство 920 рендеринга объектов на Фиг. 5, использует сжатые метаданные объекта для формирования форм волны объекта в соответствии с определенным форматом воспроизведения. Каждый объект представляется посредством рендеринга для определенных выходных каналов в соответствии с его метаданными. Выход этого блока получается из суммы частичных результатов. В некоторых вариантах осуществления, если осуществляется определение ближайшего громкоговорителя, устройство 920 рендеринга объектов может, например, переправлять звуковые объекты, принимаемые от устройства 910 декодирования USAC-3D, без их рендеринга, на устройство 930 микширования. Устройство 930 микширования может, например, переправлять звуковые объекты на громкоговоритель, который был определен устройством вычисления расстояния (например, реализованным в устройстве 918 декодирования метаданных) по отношению к громкоговорителям. К тому же, в соответствии с одним вариантом осуществления, устройство 918 декодирования метаданных, которое может, например, содержать устройство вычисления расстояния, устройство 930 микширования и, в некоторых случаях, устройство 920 рендеринга объектов могут в совокупности реализовывать устройство 100, изображенное на Фиг. 1.

Например, устройство 918 декодирования метаданных содержит устройство вычисления расстояния (не показано), и упомянутое устройство вычисления расстояния или устройство 918 декодирования метаданных может сообщать, например, через соединение (не показано), на устройство 930 микширования о ближайшем громкоговорителе для каждого звукового объекта из одного или более звуковых объектов, принятых от устройства декодирования USAC-3D. Устройство 930 микширования может затем вывести звуковой объект в канале громкоговорителя только на ближайший громкоговоритель (определенный устройством вычисления расстояния) из множества громкоговорителей.

В некоторых других вариантах осуществления, устройство вычисления расстояния или устройство 918 декодирования метаданных сообщает на устройство 930 микширования о ближайшем громкоговорителе только для одного или более звуковых объектов.

Если декодируются как полученный из каналов контент, так и дискретные/параметрические объекты, то полученные из каналов формы волны и формы волны представленные посредством рендеринга объектов смешиваются перед выводом результирующих форм волны, например, устройством 930 микширования, изображенным на Фиг. 5, (или перед их подачей на модуль окончательной обработки, такой как устройство бинаурального рендеринга или модуль рендеринга для громкоговорителей).

Модуль 940 бинаурального рендеринга, например, может производить бинауральное понижающее микширование многоканального звукового материала, таким образом, что каждый входной канал представляется виртуальным источником звука. Обработка осуществляется по кадрам в области QMF. Бинауральное сведение может, например, основываться на измеренных бинауральных импульсных характеристиках помещения.

Устройство 922 рендеринга для громкоговорителей может, например, осуществлять преобразование между передаваемой конфигурацией канала и требуемым форматом воспроизведения. В дальнейшем оно называется устройством 922 преобразования формата. Устройство 922 преобразования формата выполняет преобразования для снижения числа выходных каналов, например, оно формирует сигналы понижающего микширования. Система автоматически формирует оптимизированные матрицы понижающего микширования для определенной комбинации входных и выходных форматов и применяет эти матрицы в технологическом процессе понижающего микширования. Устройство 922 преобразования формата позволяет стандартные конфигурации громкоговорителей, а также и случайные конфигурации с нестандартными положениями громкоговорителей.

В соответствии с вариантами осуществления, предложено декодирующее устройство. Декодирующее устройство содержит устройство 910 декодирования USAC для декодирования битового потока для получения одного или более входных звуковых каналов, получения одного или более звуковых объектов, получения сжатых метаданных объекта и получения одного или более транспортных каналов SAOC.

Кроме того, декодирующее устройство содержит устройство 915 декодирования SAOC для декодирования одного или более транспортных каналов SAOC для получения группы из одного или более представленных посредством рендеринга звуковых объектов.

Кроме того, декодирующее устройство содержит устройство 918 декодирования метаданных объекта для декодирования сжатых метаданных объекта для получения несжатых метаданные.

Кроме того, декодирующее устройство содержит устройство 930 микширования для микширования одного или более представленных посредством рендеринга звуковых объектов группы из одного или более представленных посредством рендеринга звуковых объектов, одного или более входных звуковых объектов и одного или более преобразованных каналов для получения одного или более декодированных звуковых каналов.

Устройство 918 декодирования метаданных объекта и устройство 930 микширования вместе формируют устройство 100 в соответствии с одним из вышеописанных вариантов осуществления, например, в соответствии с вариантом осуществления, изображенным на Фиг. 1.

Устройство 918 декодирования метаданных объекта содержит устройство 110 вычисления расстояния из устройства 100 в соответствии с одним из вышеописанных вариантов осуществления, причем устройство 110 вычисления расстояния выполнено с возможностью, для каждого входного звукового объекта из одного или более входных звуковых объектов, вычисления расстояний от положения, соотнесенного с упомянутым входным звуковым объектом, до динамиков, или считывания расстояний от положения, соотнесенного с упомянутым входным звуковым объектом, до динамиков, и принятия решения в отношении кратчайшего расстояния.

Устройство 930 микширования выполнено с возможностью вывода каждого входного звукового объекта из одного или более входных звуковых объектов в одном из одного или более декодированных звуковых каналов на динамик, соответствующий решению, определенному устройством 110 вычисления расстояния из устройства 100 в соответствии с одним из вышеописанных вариантов осуществления, для упомянутого входного звукового объекта.

В таких вариантах осуществления устройство 920 рендеринга объектов может быть, например, дополнительным. В некоторых вариантах осуществления устройство 920 рендеринга объектов может быть реализовано, но может представлять посредством рендеринга входные звуковые объекты, только если информация о метаданных указывает на то, что срабатывание ближайшего динамика деактивировано. Если информация о метаданных указывает на то, что срабатывание ближайшего динамика активировано, то устройство 920 рендеринга объектов может, например, переправлять входные звуковые объекты непосредственно на устройство микширования, без рендеринга входных звуковых объектов.

Фиг. 6 иллюстрирует структуру устройства преобразования формата. Фиг. 6 иллюстрирует устройство 1010 настройки понижающего микширования и устройство обработки понижающего микширования для обработки сигнала понижающего микширования в области QMF (область QMF - область квадратурного зеркального фильтра).

Далее описываются дополнительные варианты осуществления и концепции вариантов осуществления настоящего изобретения.

В вариантах осуществления звуковые объекты могут быть, например, представлены посредством рендеринга, например, устройством рендеринга объектов, на стороне воспроизведения, с использованием метаданных и информации о среде воспроизведения. Такой информацией может быть, например, количество громкоговорителей или размер экрана. Устройство рендеринга объектов может, например, вычислять сигналы для громкоговорителей на основе геометрических данных и доступных динамиков и их положений.

Пользовательское управление объектами может быть, например, реализовано посредством описательных метаданных, например, информацией о существовании объекта внутри битового потока и высокоуровневых свойствах объектов, или, может быть, например, реализовано посредством ограничительных метаданных, например, информацией о том, каким образом взаимодействие возможно или разрешено автором контента.

В соответствии с вариантами осуществления, передача сигналов, доставка и рендеринг звуковых объектов могут быть, например, реализованы посредством метаданных положения, например, посредством структурных метаданных, к примеру, группирования и иерархии объектов, например, за счет возможности представлять посредством рендеринга на конкретный динамик и в сигнальный канал контент в качестве объектов, а также, например, посредством адаптации сцены объекта к размеру экрана.

Таким образом, новые поля метаданных были разработаны в дополнение к уже определенному геометрическому положению и уровню объекта в трехмерном пространстве.

В общем случае, положение объекта определяется положением в трехмерном пространстве, которое указывается в метаданных.

Этот воспроизводящий громкоговоритель может быть конкретным динамиком, который существует в локальной компоновке громкоговорителей. В этом случае необходимый громкоговоритель может быть явно определен посредством метаданных.

Тем не менее, бывают случаи, когда производитель не хочет, чтобы объектный контент воспроизводился конкретным динамиком, но скорее следующим доступным динамиком, т.е. «геометрически ближайшим» динамиком. Это позволяет дискретное воспроизведение без необходимости определения, какой динамик соответствует какому звуковому сигналу. Это полезно, поскольку расстановка воспроизводящих громкоговорителей может быть неизвестна производителю, так что он может не знать, из каких динамиков он может выбирать.

Варианты осуществления обеспечивают простое определение функции расстояния, которая не нуждается в каких-либо операциях с извлечением квадратного корня или функций cos/sin. В вариантах осуществления функция расстояния работает в угловой области (азимут, возвышение, расстояние), так что нет необходимости преобразования в какую-либо другую систему координат (декартовы координаты, долгота/широта). В соответствии с вариантами осуществления, в функции присутствуют весовые коэффициенты, которые обеспечивают возможность смещения приоритетов между отклонением азимута, отклонением возвышения и отклонением выноса. Весовые коэффициенты в функции могут быть, например, приспособлены к возможностям человеческого слуха (например, корректировать весовые коэффициенты в соответствии только с заметным различием по азимуту и направлением возвышения). Функция может применяться не только для определения ближайшего динамика, но также и для выбора бинауральной импульсной характеристики помещения или импульсной характеристики слухового аппарата человека для бинаурального рендеринга. В этом случае не нужна интерполяция импульсных характеристик, вместо этого может использоваться «ближайшая» импульсная характеристика.

В соответствии с вариантами осуществления, флаг "ClosestSpeakerPlayout", названный mae_closestSpeakerPlayout, может быть, например, определен в объектно-ориентированных метаданных, что заставляет звук воспроизводиться ближайшим доступным громкоговорителем без рендеринга. Объект может быть, например, помечен для воспроизведения ближайшим динамиком, если его флаг "ClosestSpeakerPlayout" установлен на единицу. Флаг "ClosestSpeakerPlayout" может быть, например, определен на уровне «группы» объектов. Группа объектов представляет собой концепцию собирания связанных объектов, которые должны быть представлены посредством рендеринга или модифицированы как единое целое. Если этот флаг установлен на единицу, тогда это применимо ко всем элементам группы.

В соответствии с вариантами осуществления, для определения ближайшего динамика, если активирован флаг mae_closestSpeakerPlayout группы, например, группы звуковых объектов, каждый из элементов группы должен воспроизводиться динамиком, который является ближайшим к определенному положению объекта. В этом случае никакой рендеринг не применяется. Если "ClosestSpeakerPlayout" активирован для группы, то осуществляется следующая обработка:

Для каждого из элементов группы определяется геометрическое положение этого элемента (из динамических метаданных объекта (OAM)), и определяется ближайший динамик, либо путем поиска в предварительно сохраненной таблице, либо путем вычисления с помощью измерения расстояния. Вычисляется расстояние от положения элемента до каждого (или только подмножества) из существующих динамиков. Динамик, который дает минимальное расстояние, определяется как ближайший динамик, и элемент направляется на свой ближайший динамик. Каждый из элементов группы воспроизводится своим ближайшим динамиком.

Как уже было описано, измерения расстояний для определения ближайшего динамика могут быть, например, реализованы в следующем виде:

- Взвешенные абсолютные разности по азимутальному углу и углу возвышения

- Взвешенные абсолютные разности по азимуту, возвышению и выносу/расстоянию

и для примера (но не ограничиваясь этим):

- Взвешенные абсолютные разности в степени p (p=2 => Решение методом наименьших квадратов)

- (Взвешенная) теорема Пифагора/Евклидово Расстояние

Расстояние d для декартовой системы координат может быть, например, реализовано с использованием следующей формулы

где x₁, y₁, z₁ являются значениями x-, y- и z-координат первого положения, где x₂, y₂, z₂ являются значениями x-, y- и z-координат второго положения, и где d является расстоянием между первым и вторым положением.

Измерение расстояния d для полярной системы координат может быть, например, реализовано с использованием следующей формулы:

где α₁, β₁ и r₁ являются полярными координатами первого положения, где α₂, β₂ и r₂ являются полярными координатами второго положения, и где d является расстоянием между первым и вторым положениями.

Взвешенная угловая разность может быть, например, определена следующим образом

Что касается ортодромического расстояния, расстояния по большой дуге или расстояния по большому кругу, расстояния, измеренного вдоль поверхности сферы (в противоположность прямой линии, проходящей через внутреннюю часть сферы). Могут, например, применяться операции с извлечением квадратного корня и тригонометрические функции. Координаты могут быть, например, преобразованы в широту и долготу.

Возвращаясь к формуле, представленной выше:

формула может рассматриваться как модифицированная Taxicab geometry с использованием полярных координат вместо декартовых координат, как в оригинальных формулировках taxicab geometry

В качестве дополнительного замечания следует отметить, что в вариантах осуществления «представленный посредством рендеринга объектный звук» на Фиг. 2 может, например, рассматриваться как «представленный посредством рендеринга объектно-ориентированный звук». На Фиг. 2 usacConfigExtention в отношении статических метаданных объекта и usacExtension используются лишь в качестве примеров конкретных вариантов осуществления.

Рассмотрим Фиг. 3. Следует отметить, что в некоторых вариантах осуществления динамические метаданные объекта на Фиг. 3 могут быть, например, данными положения OAM (метаданные звукового объекта, данные положения+коэффициент усиления). В некоторых вариантах осуществления «направление сигналов» может, например, осуществляться сигналами маршрутизации на устройство преобразования формата или на устройство рендеринга объектов.

Хотя некоторые аспекты и были описаны применительно к устройству, следует понимать, что эти аспекты также представляют описание соответствующего способа, в котором блок или устройство соответствуют этапу способа или функциональной характеристике этапа способа. Аналогично, аспекты, описанные применительно к этапу способа, также представляют описание соответствующего блока или элемента или функциональную характеристику соответствующего устройства.

Разложенный сигнал согласно настоящему изобретению может храниться на цифровом носителе информации или может передаваться через передающую среду, такую как беспроводная передающая среда или проводная передающая среда, например, сеть Интернет.

В зависимости от технических условий конкретной реализации варианты осуществления настоящего изобретения могут быть реализованы аппаратно или программно. Реализация может быть выполнена с использованием цифрового носителя информации, например, гибкого диска, DVD, CD, ПЗУ, ППЗУ, СППЗУ, ЭСППЗУ или запоминающего устройства с групповой перезаписью, с сохраненными на нем считываемыми в электронном виде управляющими сигналами, которые взаимодействуют (или способны к взаимодействию) с программируемой компьютерной системой таким образом, чтобы выполнялся соответствующий способ.

Некоторые варианты осуществления в соответствии с настоящим изобретением содержат постоянный носитель данных со считываемыми в электронном виде управляющими сигналами, которые способны к взаимодействию с программируемой компьютерной системой таким образом, чтобы выполнялся один из способов, описанных в материалах настоящей заявки.

Как правило, варианты осуществления настоящего изобретения могут быть реализованы в форме компьютерного программного продукта с программным кодом, причем программный код производит операции для выполнения одного из способов при запуске компьютерного программного продукта на компьютере. Программный код может, например, храниться на материальном машиночитаемом носителе.

Другие варианты осуществления содержат компьютерную программу для выполнения одного из способов, описанных в материалах настоящей заявки, сохраненную на машиночитаемом носителе.

Другими словами, один вариант осуществления способа согласно настоящему изобретению представляет собой, соответственно, компьютерную программу с программным кодом для выполнения одного из способов, описанных в материалах настоящей заявки, при запуске компьютерной программы на компьютере.

Дополнительный вариант осуществления способов согласно настоящему изобретению представляет собой, соответственно, носитель данных (или цифровой носитель информации, или машиночитаемый носитель), содержащий записанную на него компьютерную программу для выполнения одного из способов, описанных в материалах настоящей заявки.

Дополнительный вариант осуществления способа согласно настоящему изобретению представляет собой, соответственно, поток данных или последовательность сигналов, представляющих компьютерную программу для выполнения одного из способов, описанных в материалах настоящей заявки. Поток данных или последовательность сигналов могут быть, например, выполнены с возможностью передачи через соединение связи для передачи данных, например через сеть Интернет.

Дополнительный вариант осуществления содержит средство обработки, например, компьютер или программируемое логическое устройство, выполненное с возможностью или приспособленное для выполнения одного из способов, описанных в материалах настоящей заявки.

Дополнительный вариант осуществления содержит компьютер с установленной на нем компьютерной программой для выполнения одного из способов, описанных в материалах настоящей заявки.

В некоторых вариантах осуществления, программируемое логическое устройство (например, программируемая пользователем вентильная матрица) может использоваться для выполнения некоторых или всех функциональных возможностей способов, описанных в материалах настоящей заявки. В некоторых вариантах осуществления программируемая пользователем вентильная матрица может взаимодействовать с микропроцессором с целью выполнения одного из способов, описанных в материалах настоящей заявки. В общем случае предпочтительно, если способы выполняются каким-либо аппаратным устройством.

Описанные выше варианты осуществления являются всего лишь иллюстрирующими принципы настоящего изобретения. Следует понимать, что модификации и вариации конструкций и элементов, описанных в материалах настоящей заявки, будут очевидны для специалистов в данной области техники. Суть, следовательно, заключается в том, что ограничиваться следует только объемом нижеследующей формулы изобретения, а не конкретными элементами, представленными посредством описания и объяснения вариантов осуществления в материалах настоящей заявки.

Список литературы

[1] "System and Method for Adaptive Audio Signal Generation, Coding and Rendering", Заявка на патент № US20140133683 A1 (Пункт 48 формулы изобретения)

[2] "Reflected sound rendering for object-based audio", Заявка на патент № WO2014036085 A1 (Подраздел Playback Applications)

[3] "Upmixing object based audio", Заявка на патент № US20140133682 A1 (Краткое описание примерных вариантов осуществления + Пункт 71 формулы изобретения, абзац (b))

[4] "Audio Definition Model", EBU-TECH 3364,

https://tech.ebu.ch/docs/tech/tech3364.pdf

[5] "System and Tools for Enhanced 3D Audio Authoring and Rendering", Заявка на патент № US20140119581 A1

1. Устройство (100) воспроизведения звукового объекта, соотнесенного с положением, содержащее:

устройство (110) вычисления расстояния для вычисления расстояний от упомянутого положения до динамиков,

при этом устройство (110) вычисления расстояния выполнено с возможностью принятия решения в отношении кратчайшего расстояния, и

при этом устройство (100) выполнено с возможностью воспроизведения звукового объекта с использованием динамика в соответствии с решением,

при этом устройство (110) вычисления расстояния выполнено с возможностью вычисления расстояний в зависимости от функции расстояния, которая возвращает расстояние по большой дуге, или которая возвращает взвешенные абсолютные разности между азимутальными углами и углами возвышения, или которая возвращает взвешенную угловую разность.

2. Устройство (100) по п. 1,

в котором устройство (110) вычисления расстояния выполнено с возможностью вычисления расстояний от положения до динамиков только в том случае, если активирован флаг срабатывания ближайшего динамика (mdae_closestSpeakerPlayout), принимаемый устройством (100),

при этом устройство (110) вычисления расстояния выполнено с возможностью принятия решения в отношении кратчайшего расстояния только в том случае, если активирован флаг срабатывания ближайшего динамика (mdae_closestSpeakerPlayout), и

при этом устройство (100) выполнено с возможностью воспроизведения звукового объекта с использованием динамика в соответствии с упомянутым решением только в том случае, если активирован флаг срабатывания ближайшего динамика (mdae_closestSpeakerPlayout).

3. Устройство (100) по п. 2, в котором устройство (100) выполнено с возможностью не осуществлять какой-либо рендеринг по звуковому объекту, если активирован флаг срабатывания ближайшего динамика (mdae_closestSpeakerPlayout).

4. Устройство (100) по п. 1, в котором функция расстояния определяется в соответствии с

diffAngle=acos(cos(azDiff)*cos(elDiff)),

где azDiff обозначает разность двух азимутальных углов,

где elDiff обозначает разность двух углов возвышения и

где diffAngle обозначает взвешенную угловую разность.

5. Устройство (100) по п. 1, в котором устройство (110) вычисления расстояния выполнено с возможностью вычисления расстояний от упомянутого положения до динамиков таким образом, что каждое расстояние от положения до одного из динамиков вычисляется в соответствии с

где α₁ обозначает азимутальный угол положения, α₂ обозначает азимутальный угол упомянутого одного из динамиков, β₁ обозначает угол возвышения положения и β₂ обозначает угол возвышения упомянутого одного из динамиков, или

6. Устройство (100) по п. 1,

в котором устройство (110) вычисления расстояния выполнено с возможностью вычисления расстояний от положения до динамиков таким образом, что каждое расстояние от упомянутого положения до одного из динамиков вычислено в соответствии с

где α₁ обозначает азимутальный угол упомянутого одного из динамиков, α₂ обозначает азимутальный угол положения, β₁ обозначает угол возвышения упомянутого одного из динамиков, β₂ обозначает угол возвышения положения, r₁ обозначает вынос упомянутого одного из динамиков и r₂ обозначает вынос положения.

7. Устройство (100) по п. 1,

где α₁ обозначает азимутальный угол упомянутого одного из динамиков, α₂ обозначает азимутальный угол положения, β₁ обозначает угол возвышения упомянутого одного из динамиков, β₂ обозначает угол возвышения положения, a является первым числом и b является вторым числом.

8. Устройство (100) по п. 1,

где α₁ обозначает азимутальный угол упомянутого одного из динамиков, α₂ обозначает азимутальный угол положения, β₁ обозначает угол возвышения упомянутого одного из динамиков, β₂ обозначает угол возвышения положения, r₁ обозначает вынос упомянутого одного из динамиков, r₂ обозначает вынос положения, a является первым числом, b является вторым числом и c является третьим числом.

9. Декодирующее устройство, содержащее:

устройство (910) декодирования USAC для декодирования битового потока для получения одного или более входных звуковых каналов, для получения одного или более входных звуковых объектов, для получения сжатых метаданных объекта и для получения одного или более транспортных каналов SAOC,

устройство (915) декодирования SAOC для декодирования одного или более транспортных каналов SAOC для получения группы из одного или более представленных посредством рендеринга звуковых объектов,

устройство (918) декодирования метаданных объекта для декодирования сжатых метаданных объекта для получения несжатых метаданных,

устройство (922) преобразования формата для преобразования одного или более входных звуковых каналов для получения одного или более преобразованных каналов и

устройство (930) микширования для микширования одного или более представленных посредством рендеринга звуковых объектов группы из одного или более представленных посредством рендеринга звуковых объектов, одного или более входных звуковых объектов и одного или более преобразованных каналов для получения одного или более декодированных звуковых каналов,

при этом устройство (918) декодирования метаданных объекта и устройство (930) микширования вместе образуют устройство (100) по одному из предшествующих пунктов,

при этом устройство (918) декодирования метаданных объекта содержит устройство (110) вычисления расстояния из устройства (100) по одному из предшествующих пунктов, причем устройство (110) вычисления расстояния выполнено с возможностью вычисления, для каждого входного звукового объекта из одного или более входных звуковых объектов, расстояний от положения, соотнесенного с упомянутым входным звуковым объектом, до динамиков и принятия решения в отношении кратчайшего расстояния, и

при этом устройство (930) микширования выполнено с возможностью вывода каждого входного звукового объекта из одного или более входных звуковых объектов в одном из одного или более декодированных звуковых каналов на динамик, соответствующий решению, определенному устройством (110), из устройства (100) по одному из предшествующих пунктов для упомянутого входного звукового объекта.

10. Способ воспроизведения звукового объекта, соотнесенного с положением, содержащий этапы, на которых:

вычисляют расстояния от упомянутого положения до динамиков,

принимают решение в отношении кратчайшего расстояния, и

воспроизводят звуковой объект с использованием динамика в соответствии с упомянутым решением,

причём вычисление расстояний выполняется в зависимости от функции расстояния, которая возвращает расстояние по большой дуге, или которая возвращает взвешенные абсолютные разности между азимутальными углами и углами возвышения, или которая возвращает взвешенную угловую разность.

11. Машиночитаемый носитель, содержащий компьютерную программу для осуществления способа по п. 10 при исполнении на компьютере или устройстве обработки сигналов.

Изобретение относится к средствам для кодирования и декодирования аудио. Технический результат заключается в повышении эффективности кодирования и декодирования трехмерных аудио сцен.

Система, устройство и способ для согласованного воспроизведения акустической сцены на основании информированной пространственной фильтрации // 2665280

Изобретение относится к обработке аудиосигналов. Технический результат – обеспечение выравнивания визуальных и акустических изображений.

Устройство и способ масштабирования центрального сигнала и улучшения стереофонии на основе отношения сигнал-понижающее микширование // 2663345

Изобретение относится к средствам для масштабирования центрального сигнала. Технический результат заключается в повышении разборчивости речи.

Система, устройство и способ для совместимого воспроизведения акустической сцены на основе адаптивных функций // 2663343

Изобретение относится к средствам для воспроизведения акустической сцены. Технический результат заключается в повышении эффективности обработки аудиосигнала.

Передача сигнальной информации рендеринга аудио в битовом потоке // 2661775

Изобретение относится к средствам для рендеринга многоканального аудиоконтента. Технический результат заключается в повышении качества генерируемого аудиоконтента.

Концепция генерирования сигнала понижающего микширования // 2661310

Изобретение относится к области обработки звуковых сигналов. Технический результат – повышение вычислительной эффективности понижающего микширования входных сигналов за счет предотвращения создания искажений.

Стереофоническая обработка аудиосигналов // 2660611

Изобретение относится к области стереофонического воспроизведения. Технический результат – обеспечение более гибкого распределения стереофонических передаточных функций с учетом положений головы.

Управляемое модулем рендеринга пространственное повышающее микширование // 2659497

Изобретение относится к средствам для пространственного повышающего микширования. Технический результат заключается в повышении эффективности кодирования.

Определение оценки размера помещения // 2655703

Изобретение относится к метрологии, в частности к устройствам для оценки размеров помещения. Устройство содержит приемник звука, фиксирующий акустический отклик, пиковый детектор, выполненный с возможностью детектировать набор пиков, присутствующих в акустическом отклике, средство хранения информации содержит набор профилей пиков с ассоциированными данными о размерах помещения, а средство оценки определяет оценку размеров помещения из ассоциированных данных о размерах помещения и путем сравнения набора пиков с профилями пиков.

Обработка пространственно диффузных или больших звуковых объектов // 2646344

Изобретение относится к обработке аудиоданных. Технический результат изобретения заключается в улучшенной обработке сигналов звуковых объектов за счет указания местоположения каждого динамика внутри среды проигрывания.

Устройство и способ для эффективного кодирования метаданных объектов // 2666282

Изобретение относится к средствам для формирования одного или более аудиоканалов. Технический результат заключается в повышении эффективности кодирования метаданных.

Устройство и способ для амплитудного панорамирования с затуханием фронтов // 2666248

Изобретение относится к средствам для амплитудного панорамирования с затуханием фронтов. Технический результат заключается в повышении эффективности кодирования аудио.

Устройство и способ для осуществления понижающего микширования saoc объемного (3d) аудиоконтента // 2666239

Изобретение относится к средствам для осуществления понижающего микширования SAOC объемного аудиоконтента. Технический результат заключается в повышении эффективности понижающего микширования аудиоконтента.

Многоканальный аудиодекодер, многоканальный аудиокодер, способы, компьютерная программа и кодированное аудиопредставление с использованием декорреляции представленных посредством рендеринга аудиосигналов // 2665917

Изобретение относится к средствам для кодирования аудиосигналов. Технический результат заключается в повышении эффективности кодирования трехмерных аудиосцен.

Заполнение шумом при многоканальном кодировании аудио // 2661776

Изобретение относится к средствам для заполнения шумом при многоканальном кодировании аудио. Технический результат заключается в повышении эффективности кодирования на низких скоростях передачи битов.

Устройство и способ для улучшенного пространственного кодирования аудиообъектов // 2660638

Изобретение относится к аудиокодированию/аудиодекодированию. Технический результат – повышение точности воспроизведения аудиосигнала.

Способ и устройство для применения сжатия динамического диапазона к сигналу амбиофонии высшего порядка // 2658888

Изобретение относится к технике связи и предназначено для управления динамическим диапазоном. Технический результат – уменьшение динамического диапазона аудиосигнала.

Декодирующее устройство, способ декодирования, кодирующее устройство, способ кодирования и программа // 2652468

Изобретение относится к декодирующему устройству, способу декодирования, кодирующему устройству, способу кодирования. Технический результат изобретения заключается в получении высококачественного реалистичного звучания при воспроизведении принимаемых аудиоданных на аппаратуре.

Многоканальный декоррелятор, многоканальный аудиодекодер, многоканальный аудиокодер, способы и компьютерная программа с использованием предварительного микширования входных сигналов декоррелятора // 2666640

Изобретение относится к средствам для аудиокодирования и аудиодекодирования. Технический результат заключается в повышении эффективности кодирования трехмерных аудиосцен. Предварительно микшируют первый набор из N входных сигналов декоррелятора во второй набор из K входных сигналов декоррелятора, где K<N. Предоставляют первый набор из K' выходных сигналов декоррелятора на основе второго набора из K входных сигналов декоррелятора. Микшируют с повышением первый набор из K' выходных сигналов декоррелятора во второй набор из N' выходных сигналов декоррелятора, где N'>K'. Первый набор из N входных сигналов декоррелятора предварительно микшируется во второй набор из K входных сигналов декоррелятора с использованием матрицы Mpre предварительного микширования. Первый набор из K' выходных сигналов декоррелятора получается на основе второго набора из K входных сигналов декоррелятора. Первый набор из K' выходных сигналов декоррелятора микшируется с повышением во второй набор W из N' выходных сигналов декоррелятора с использованием матрицы Mpost постмикширования. 32 н. и 22 з.п. ф-лы, 50 ил.