Способ и устройство для кодирования и декодирования, основывающегося на объектах аудиосигнала

Авторы патента:

ЙООН Сунг Йонг (KR)

ЛИМ Дзае Хиун (KR)

ПАНГ Хее Сук (KR)

КИМ Донг Соо (KR)

ЛИ Хиун Коок (KR)

G10L198 - Анализирование или синтезирование речи; распознавание речи (ввод/вывод звука для компьютеров G06F 3/16; способы или устройства для обработки цифровых данных, специально предназначенных для манипулирования данными на естественном языке G06F 17/20; обучение или общение со слепыми, глухими или немыми G09B 21/00; телефонная связь H04M)

Владельцы патента RU 2484543:

ЭлДжи ЭЛЕКТРОНИКС ИНК. (KR)

Настоящее изобретение относится к способу и устройству для кодирования и декодирования основывающегося на объектах аудиосигнала. Техническим результатом является обеспечение кодирования и декодирования аудиосигналов, при этом объектные аудиосигналы с ассоциативной связью пакетируются в одну группу и затем могут быть обработаны на погрупповой основе так, чтобы множество режимов воспроизведения могли обрабатываться с ее помощью. Способ декодирования аудио включает в себя извлечение из аудиосигнала первого аудиосигнала, в котором один или более музыкальных объектов сгруппированы и закодированы, второго аудиосигнала, в котором, по меньшей мере, два вокальных объекта сгруппированы шаг за шагом и закодированы, и остаточного сигнала, соответствующего второму аудиосигналу, и формирование третьего аудиосигнала посредством использования, по меньшей мере, одного из первого и второго аудиосигналов и остаточного сигнала. Многоканальный аудиосигнал далее формируется посредством использования третьего аудиосигнала. Соответственно, множество режимов воспроизведения могут эффективно предоставляться. 5 н. и 6 з.п. ф-лы, 16 ил.

Область техники, к которой относится изобретение

Настоящее изобретение относится к способу и устройству для кодирования и декодирования аудио, предназначенным для кодирования и декодирования основывающихся на объектах аудиосигналов с тем, чтобы они могли быть эффективно обработаны посредством группирования.

Предшествующий уровень техники

В общем, основывающийся на объектах аудиокодек использует способ, согласно которому отправляют сумму конкретного параметра, извлеченного из каждого объектного сигнала, и объектных сигналов, восстанавливают соответствующие объектные сигналы из нее и микшируют объектные сигналы в количестве, соответствующем требуемому числу каналов. Таким образом, когда число объектных сигналов большое, объем информации, требуемой для того, чтобы микшировать соответствующие объектные сигналы, увеличивается пропорционально числу объектных сигналов.

Тем не менее в объектных сигналах, имеющих тесную корреляционную взаимосвязь, аналогичная информация микширования и т.п. отправляется относительно каждого объектного сигнала. Соответственно, если объектные сигналы пакетируются в одну группу и одна и та же информация отправляется только один раз, эффективность может быть повышена.

Даже в общем способе кодирования и декодирования аудио аналогичный эффект может быть получен посредством пакетирования нескольких объектных сигналов в один объектный сигнал. Тем не менее, если этот способ используется, единица объектного сигнала увеличивается, и также невозможно микшировать объектный сигнал как единицу исходного объектного сигнала до пакетирования.

Сущность изобретения

Техническая задача

Соответственно, цель настоящего изобретения состоит в том, чтобы предоставить способ и устройство для кодирования и декодирования аудио, предназначенные для кодирования и декодирования аудиосигналов, при этом объектные аудиосигналы с ассоциативной связью пакетируются в одну группу и затем могут быть обработаны на погрупповой основе так, чтобы множество режимов воспроизведения могли обрабатываться с ее помощью.

Техническое решение

Чтобы достичь вышеуказанной цели, способ декодирования аудиосигналов согласно настоящему изобретению включает в себя извлечение первого аудиосигнала, в котором один или более музыкальных объектов сгруппированы и закодированы, второго аудиосигнала, в котором, по меньшей мере, два вокальных объекта сгруппированы шаг за шагом и закодированы, и остаточного сигнала, соответствующего второму аудиосигналу, из аудиосигнала, формирование третьего аудиосигнала посредством использования, по меньшей мере, одного из первого и второго аудиосигналов и остаточного сигнала и формирование многоканального аудиосигнала посредством использования третьего аудиосигнала.

Между тем, устройство декодирования аудиосигналов согласно настоящему изобретению включает в себя объектный кодер для извлечения первого аудиосигнала, в котором один или более музыкальных объектов сгруппированы и закодированы, второго аудиосигнала, в котором, по меньшей мере, два вокальных объекта сгруппированы шаг за шагом и закодированы, и остаточного сигнала, соответствующего второму аудиосигналу, из аудиосигнала и формирования третьего аудиосигнала посредством использования, по меньшей мере, одного из первого и второго аудиосигналов и остаточного сигнала, и многоканальный декодер для формирования многоканального аудиосигнала посредством использования третьего аудиосигнала.

Дополнительно, способ кодирования аудио согласно настоящему изобретению включает в себя формирование первого аудиосигнала, в котором один или более музыкальных объектов сгруппированы и закодированы, формирование второго аудиосигнала, в котором, по меньшей мере, два вокальных объекта сгруппированы шаг за шагом и закодированы, и остаточного сигнала, соответствующего второму аудиосигналу, и формирование потока битов, включающего в себя первый и второй аудиосигналы и остаточный сигнал.

Согласно настоящему изобретению предусмотрено устройство кодирования аудио, включающее в себя многоканальный кодер для формирования первого аудиосигнала, в котором один или более музыкальных объектов сгруппированы и закодированы, объектный кодер для формирования второго аудиосигнала, в котором, по меньшей мере, два вокальных объекта сгруппированы шаг за шагом и закодированы, и остаточного сигнала, соответствующего второму аудиосигналу, и мультиплексор для формирования потока битов, включающего в себя первый и второй аудиосигналы и остаточный сигнал.

Чтобы достичь этой цели, настоящее изобретение предоставляет машиночитаемый носитель записи, в котором записана программа для выполнения вышеозначенного способа в компьютере.

Преимущества

Согласно настоящему изобретению, объектные аудиосигналы с ассоциативной связью могут быть обработаны на основе группы при использовании преимуществ кодирования и декодирования основывающихся на объектах сигналов в максимально возможной степени. Соответственно, эффективность в отношении объема вычислений при процессах кодирования и декодирования, размера потока битов, который кодируется, и т.п. может быть повышена. Дополнительно, настоящее изобретение может быть выгодно применено к системе караоке и т.д. посредством группировки объектных сигналов в музыкальный объект, вокальный объект и т.д.

Перечень чертежей

Фиг.1 - блок-схема устройства кодирования и декодирования аудио согласно первому варианту осуществления настоящего изобретения;

фиг.2 - блок-схема устройства кодирования и декодирования аудио согласно второму варианту осуществления настоящего изобретения;

фиг.3 - представление, иллюстрирующее корреляцию между источником звука, группами и объектными сигналами;

фиг.4 - блок-схема устройства кодирования и декодирования аудио согласно третьему варианту осуществления настоящего изобретения;

фиг.5 и 6 - представления, иллюстрирующие основной объект и фоновый объект;

фиг.7 и 8 - представления, иллюстрирующие конфигурацию потока битов, формируемого в устройстве кодирования;

фиг.9 - блок-схема устройства кодирования и декодирования аудио согласно четвертому варианту осуществления настоящего изобретения;

фиг.10 - представление, иллюстрирующее случай, когда используется множество основных объектов;

фиг.11 - блок-схема устройства кодирования и декодирования аудио согласно пятому варианту осуществления настоящего изобретения;

фиг.12 - блок-схема устройства кодирования и декодирования аудио согласно шестому варианту осуществления настоящего изобретения;

фиг.13 - блок-схема устройства кодирования и декодирования аудио согласно седьмому варианту осуществления настоящего изобретения;

фиг.14 - блок-схема устройства кодирования и декодирования аудио согласно восьмому варианту осуществления настоящего изобретения;

фиг.15 - блок-схема устройства кодирования и декодирования аудио согласно девятому варианту осуществления настоящего изобретения; и

фиг.16 - представление, иллюстрирующее случай, когда вокальные объекты кодируются шаг за шагом.

Оптимальный режим осуществления изобретения

Далее подробно описано настоящее изобретение со ссылками на прилагаемые чертежи.

Фиг.1 - это блок-схема устройства кодирования и декодирования аудио согласно первому варианту осуществления настоящего изобретения. Устройство кодирования и декодирования аудио согласно настоящему варианту осуществления декодирует и кодирует объектный сигнал, соответствующий основывающемуся на объектах сигналу, на основе концепции группирования. Другими словами, процессы кодирования и декодирования выполняются на основе групп посредством привязки одного или более объектных сигналов с помощью ассоциативной связи к одной группе.

Ссылаясь на фиг.1, показано устройство 110 кодирования аудио, включающее в себя объектный кодер 111, и устройство 120 декодирования аудио, включающее в себя объектный декодер 121 и микшер/рендерер 123. Хотя не показано на чертеже, устройство 110 кодирования может включать в себя мультиплексор и т.д. для формирования потока битов, в котором сигнал понижающего микширования и дополнительная информация комбинируются, а устройство 120 декодирования может включать в себя демультиплексор и т.д. для извлечения сигнала понижающего микширования и дополнительной информации из принимаемого потока битов. Данная структура имеет место и в устройствах кодирования и декодирования согласно другим вариантам осуществления, которые описаны далее.

Устройство 110 кодирования принимает N объектных сигналов и информацию групп, включающую в себя информацию относительного положения, информацию размера, информацию временного запаздывания и т.д., на погрупповой основе для объектного сигнала с ассоциативной связью. Устройство 110 кодирования кодирует сигнал, в котором объектные сигналы с ассоциативной связью группируются, и формирует основывающийся на объектах сигнал понижающего микширования, в котором объектные сигналы с ассоциативной связью сгруппированы, и формирует основывающийся на объектах сигнал понижающего микширования, имеющий один или более каналов и дополнительную информацию, включая информацию, извлекаемую из каждого объектного сигнала, и т.д.

В устройстве 120 декодирования объектный декодер 121 формирует сигналы, которые кодируются на основе группирования, на основе сигнала понижающего микширования и дополнительной информации, а микшер/рендерер 123 помещает сигналы, выводимые из объектного декодера 121, в конкретные позиции многоканального пространства на конкретном уровне на основе управляющей информации. Т.е. устройство 120 декодирования формирует многоканальные сигналы без распаковки сигналов, которые кодированы на базе группирования, на основе объекта.

За счет этой структуры объем информации, который должен быть передан, может быть уменьшен за счет группирования и кодирования объектных сигналов, имеющих одинаковое изменение положения, изменение размера, изменение задержки и т.д. согласно времени. Дополнительно, если объектные сигналы группируются, общая дополнительная информация в отношении одной группы может быть передана, так что несколько объектных сигналов, принадлежащих одной группе, могут легко контролироваться.

Фиг.2 - это блок-схема устройства кодирования и декодирования аудио согласно второму варианту осуществления настоящего изобретения. Устройство 140 декодирования аудиосигналов согласно настоящему варианту осуществления отличается от первого варианта осуществления тем, что оно дополнительно включает в себя блок 143 извлечения объектов.

Другими словами, устройство 130 кодирования, объектный декодер 141 и микшер/рендерер 145 имеют такую же функцию и структуру, что и по первому варианту осуществления. Тем не менее, поскольку устройство 140 декодирования дополнительно включает в себя блок 143 извлечения объектов, группа, которой принадлежит соответствующий объектный сигнал, может быть распакована на пообъектной основе, когда распаковка объектного блока не требуется. В этом случае полные группы не распаковываются на пообъектной основе, но другие объектные сигналы могут быть извлечены относительно только тех групп, для которых микширование каждой группы и т.д. не может быть выполнено.

Фиг.3 - это представление, иллюстрирующее корреляцию между источником звука, группами и объектными сигналами. Как показано на фиг.3, объектные сигналы, имеющие похожее свойство, группируются так, чтобы размер потока битов мог быть уменьшен, и полные объектные сигналы принадлежали верхней группе.

Фиг.4 - это блок-схема устройства кодирования и декодирования аудио согласно третьему варианту осуществления настоящего изобретения. В устройстве кодирования и декодирования согласно настоящему варианту осуществления используется концепция базового канала понижающего микширования.

Ссылаясь на фиг.4, показан объектный кодер 151, принадлежащий устройству кодирования аудио, и устройство 160 декодирования аудио, включающее в себя объектный декодер 161 и микшер/рендерер 163.

Объектный кодер 151 принимает N объектных сигналов (N>1) и формирует сигналы, которые микшируются с понижением в M каналов (1<M<N). В устройстве 160 декодирования объектный декодер 161 декодирует сигналы, которые микшированы с понижением в M каналов, обратно в N объектных сигналов, и микшер/рендерер 163 в завершение выводит L канальных сигналов (L≥1).

В это время M каналов понижающего микширования, сформированных посредством объектного кодера 151, содержат K базовых каналов понижающего микширования (K<M) и M-K небазовых каналов понижающего микширования. Причина, по которой каналы понижающего микширования структурируются так, как описано выше, заключается в том, что их важность может быть изменена согласно объектному сигналу. Другими словами, общий способ кодирования и декодирования не имеет достаточного разрешения относительно объектного сигнала и поэтому может включать в себя компоненты других объектных сигналов на основе объектных сигналов. Таким образом, если каналы понижающего микширования состоят из базовых каналов понижающего микширования и небазовых каналов понижающего микширования, как описано выше, помехи между объектными сигналами могут быть минимизированы.

В этом случае базовый канал понижающего микширования может использовать способ обработки, отличный от способа обработки небазового канала понижающего микширования. Например, на фиг.4 дополнительная информация, вводимая в микшер/рендерер 163, может быть задана только в базовом канале понижающего микширования. Другими словами, микшер/рендерер 163 может быть выполнен с возможностью управлять только объектными сигналами, декодированными из базового канала понижающего микширования, но не объектными сигналами, декодированными из небазового канала понижающего микширования.

В качестве другого примера, базовый канал понижающего микширования может быть составлен только из небольшого числа объектных сигналов, и объектные сигналы группируются и затем управляются на основе одной управляющей информации. Например, дополнительный базовый канал понижающего микширования может быть составлен только из вокальных сигналов, чтобы составлять систему караоке. Более того, дополнительный базовый канал понижающего микширования может быть составлен посредством группирования только сигналов барабана и т.д. с тем, чтобы интенсивность низкочастотного сигнала, такого как сигнал барабана, могла точно управляться.

Между тем, музыка, как правило, формируется посредством микширования нескольких аудиосигналов, имеющих форму дорожки и т.д. Например, в случае музыки, состоящей из сигналов барабана, гитары, пианино и вокала, каждый из сигналов барабана, гитары, пианино и вокала может стать объектным сигналом. В этом случае один из всех объектных сигналов, который определяется как особо важный и может управляться пользователем, или ряд объектных сигналов, которые микшируются и управляются как один объектный сигнал, могут быть заданы как основной объект. Дополнительно, микширование объектных сигналов, отличных от основного объекта совокупных объектных сигналов, может быть задано как фоновый объект. В соответствии с этим определением можно сказать, что совокупный объект или музыкальный объект состоит из основного объекта и фонового объекта.

Фиг.5 и 6 - это представления, иллюстрирующие основной объект и фоновый объект. Как показано на фиг.5a, при условии, что основной объект является вокальным звуком, а фоновый объект является микшированием звуков всех музыкальных инструментов, отличных от вокального звука, музыкальный объект может включать в себя вокальный объект и фоновый объект микшированного звука музыкальных инструментов, отличных от вокального звука. Количество основных объектов может составлять один или более, как показано на фиг.5b.

Дополнительно, основной объект может иметь форму, в которой несколько объектных сигналов микшируются. Например, как показано на фиг.6, микширование вокального и гитарного звука может быть использовано в качестве основных объектов, и звуки оставшихся музыкальных инструментов могут быть использованы в качестве фоновых объектов.

Чтобы отдельно управлять основным объектом и фоновым объектом в музыкальном объекте, поток битов, кодируемый в устройстве кодирования, должен иметь один из форматов, показанных на фиг.7.

Фиг.7a иллюстрирует случай, когда поток битов, формируемый в устройстве кодирования, состоит из потока битов музыки и потока битов основных объектов. Поток битов музыки имеет форму, в которой полные объектные сигналы микшируются, и относится к потоку битов, соответствующему сумме полных основных объектов и фоновых объектов. Фиг.7b иллюстрирует случай, когда поток битов состоит из потока битов музыки и потока битов фоновых объектов. Фиг.7c иллюстрирует случай, когда поток битов состоит из потока битов основных объектов и потока битов фоновых объектов.

На фиг.7 создано правило, чтобы формировать поток битов музыки, поток битов основных объектов и поток битов фоновых объектов с помощью кодера и декодера, имеющих один и тот же способ. Тем не менее, когда основной объект используется в качестве вокального объекта, поток битов музыки может быть декодирован и кодирован с помощью MP3, а поток битов вокала может быть декодирован и кодирован с помощью речевого кодека, такого как AMR, QCELP, EFR или EVRC, чтобы уменьшать емкость потока битов. Другими словами, способы кодирования и декодирования музыкального объекта, основного объекта и фонового объекта и т.п. могут различаться.

На фиг.7a часть потока битов музыки конфигурируется с помощью того же способа, что и общий способ кодирования. Дополнительно, в способе кодирования, таком как MP3 или AAC, часть, в которой дополнительная информация, такая как добавочная область или вспомогательная область, указана, включается во вторую половину потока битов. Поток битов основных объектов может быть добавлен к этой части. Следовательно, совокупный поток битов состоит из области, где кодируется музыкальный объект, и области основных объектов, следующей после области, где кодируется музыкальный объект. В то же время индикатор, флаг и т.п., сообщающий о том, что основной объект добавлен, может быть добавлен к первой половине дополнительной области так, чтобы то, существует ли основной объект в устройстве декодирования, могло быть определено.

Случай по фиг.7b в своей основе имеет такой же формат, что и на фиг.7a. На фиг.7b фоновый объект используется вместо основного объекта на фиг.7a.

Фиг.7c иллюстрирует случай, когда поток битов состоит из потока битов основных объектов и потока битов фоновых объектов. В этом случае музыкальный объект состоит из суммирования или микширования основного объекта и фонового объекта. В способе конфигурирования потока битов фоновый объект может сохраняться сначала, а основной объект может сохраняться затем во вспомогательной области. Альтернативно, основной объект может сохраняться сначала, а фоновый объект может сохраняться затем во вспомогательной области. В этом случае индикатор для того, чтобы сообщать информацию о дополнительной области, может быть добавлен в первую половину дополнительной области, которая является такой же, как описано выше.

Фиг.8 иллюстрирует способ конфигурирования потока битов так, чтобы то, какой основной объект добавлен, могло быть определено. Первый пример - это пример, в котором после того, как поток битов музыки завершен, соответствующая область являлась вспомогательной областью до тех пор, пока не начнется следующий кадр. В первом примере может быть включен только индикатор, сообщающий то, что основной объект кодирован.

Второй пример соответствует способу кодирования, требующему индикатор, сообщающий о том, что вспомогательная область, или область данных, начинается после того, как поток битов завершен. С этой целью при кодировании основного объекта требуются два типа индикаторов, такие как индикатор того, чтобы сообщить начало вспомогательной области, и индикатор того, чтобы сообщить основной объект. При декодировании этого потока битов тип данных определяется посредством считывания индикатора, и поток битов затем декодируется посредством считывания части данных.

Фиг.9 - это блок-схема устройства кодирования и декодирования аудио согласно четвертому варианту осуществления настоящего изобретения. Устройство кодирования и декодирования аудио согласно настоящему варианту осуществления кодирует и декодирует поток битов, в котором вокальный объект добавляется в качестве основного объекта.

Ссылаясь на фиг.9, кодер 211, включенный в устройство кодирования, кодирует музыкальный сигнал, включающий в себя вокальный объект и музыкальный объект. Примеры музыкальных сигналов кодера 211 могут включать в себя MP3, AAC, WMA и т.п. Кодер 211 добавляет вокальный объект в поток битов в качестве основного объекта, отличного от музыкальных сигналов. В это время кодер 211 добавляет вокальный объект в часть, сообщающую дополнительную информацию, такую как добавочная область или вспомогательная область, как упомянуто выше, и также добавляет в эту часть индикатор и т.д., сообщающий устройству кодирования о том факте, что вокальный объект существует дополнительно.

Устройство 220 декодирования включает в себя декодер 221 общего кодека, вокальный декодер 223 и микшер 225. Декодер 221 общего кодека декодирует часть потока битов музыки из принимаемого потока битов. В этом случае область основных объектов распознается просто как дополнительная область или область данных, но не используется в процессе декодирования. Вокальный декодер 223 декодирует часть вокального объекта принимаемого потока битов. Микшер 225 микширует сигналы, декодированные в декодере 221 общего кодека и вокальном декодере 223, и выводит результат микширования.

Когда поток битов, в который вокальный объект включен в качестве основного объекта, принимается, устройство кодирования, не включающее в себя вокальный декодер 223, декодирует только поток битов музыки и выводит результаты декодирования. Тем не менее даже в этом случае это является тем же, что и общий аудиовывод, поскольку вокальный сигнал включен в музыкальный поток. Дополнительно, в процессе декодирования определяется то, добавлен ли вокальный объект в поток битов, на основе индикатора и т.д. Когда невозможно декодировать вокальный объект, вокальный объект игнорируется посредством пропуска и т.д., но когда можно декодировать вокальный объект, вокальный объект декодируется и используется для микширования.

Декодер 221 общего кодека выполнен с возможностью воспроизведения музыки и, в общем, использует декодирование аудио. Например, предусмотрены MP3, AAC, HE-AAC, WMA, Ogg Vorbis и т.п. Вокальный декодер 223 может использовать тот же кодек или отличный от декодера 221 общего кодека. Например, вокальный декодер 223 может использовать речевой кодек, такой как EVRC, EFR, AMR или QCELP. В этом случае объем вычислений для декодирования может быть уменьшен.

Дополнительно, если вокальный объект состоит из моно, расход битов (битрейт) может быть уменьшен в максимально возможной степени. Тем не менее, если поток битов музыки не может состоять только из моно, поскольку он состоит из стереоканалов, и вокальные сигналы в левом и правом каналах различаются, вокальный объект также может состоять из стерео.

В устройстве 220 декодирования согласно настоящему варианту осуществления любой из режима, в котором воспроизводится музыка, режима, в котором только основной объект воспроизводится, и режима, в котором музыка и основной объект микшируются надлежащим образом и воспроизводятся, может быть выбран и воспроизведен в ответ на пользовательскую управляющую команду, такую как действие с кнопкой или меню в устройстве воспроизведения.

В случае если основной объект игнорируется и только исходная музыка воспроизводится, это соответствует воспроизведению существующей музыки. Тем не менее, поскольку микширование возможно в ответ на пользовательскую управляющую команду и т.д., размером основного объекта или фонового объекта и т.д. можно управлять. Когда основной объект - это вокальный объект, это означает, что только вокал может быть повышен или понижен в сравнении с фоновой музыкой.

Пример, в котором только основной объект воспроизводится, может включать в себя пример, в котором вокальный объект или звук одного специального музыкального инструмента используется в качестве основного объекта. Другими словами, это означает, что слышится только вокал без фоновой музыки, слышится только звук музыкального инструмента без фоновой музыки и т.п.

Когда музыкальный и основной объект микшированы надлежащим образом и слышатся, это означает, что только вокал повышается или понижается в сравнении с фоновой музыкой. В частности, в случае если вокальные компоненты полностью исключены из музыки, музыка может быть использована в качестве системы караоке, поскольку вокальные компоненты исчезают. Если вокальный компонент кодирован в устройстве кодирования в состоянии, где фаза вокального объекта изменена на противоположную, устройство декодирования может воспроизводить систему караоке посредством добавления вокального объекта в музыкальный объект.

В вышеуказанном процессе описано, что музыкальный объект и основной объект декодированы, соответственно, и затем микшированы. Тем не менее процесс микширования может выполняться в ходе процесса декодирования. Например, в последовательностях кодирования с преобразованием, таких как MDCT (модифицированное дискретное косинусное преобразование), в том числе MP3 и AAC, микширование может выполняться для MDCT-коэффициентов, и обратное MDCT может выполняться в завершение, тем самым формируя PCM-выводы. В этом случае общий объем вычислений может быть значительно уменьшен. Помимо этого настоящее изобретение не ограничено MDCT, а включает в себя все преобразования, в которых коэффициенты микшируются в области преобразования относительно общего декодера последовательностей кодирования с преобразованием, и затем выполняется декодирование.

Более того, пример, в котором один основной объект используется, описан в вышеприведенном примере. Тем не менее ряд основных объектов может быть использован. Например, как показано на фиг.10, вокал может быть использован в качестве основного объекта 1, а гитара может быть использована в качестве основного объекта 2. Эта структура очень выгодна, когда только фоновый объект, отличный от вокала и гитары в музыке, воспроизводится, и пользователь непосредственно исполняет вокальную и гитарную партию. Более того, этот поток битов может воспроизводиться посредством различных комбинаций музыки: одной, в которой вокал исключен из музыки, одной, в которой гитара исключена из музыки, одной, в которой вокал и гитарный вокал исключены из музыки, и т.д.

Между тем, в настоящем изобретении канал, указанный посредством вокального потока битов, может быть расширен. Например, все части музыки, часть звука барабана музыки или часть, в которой только звук барабана исключен из всех частей музыки, могут воспроизводиться с помощью потока битов барабана. Дополнительно, микширование может управляться на основе части с помощью двух или более дополнительных потоков битов, такой как поток битов вокала и поток битов барабана.

Помимо этого в настоящем варианте осуществления в сущности описано только стерео/моно. Тем не менее настоящий вариант осуществления также может быть расширен до многоканального случая. Например, поток битов может быть сконфигурирован посредством добавления потока битов вокальных объектов, основных объектов и т.п. в 5.1-канальный поток битов, и при воспроизведении может быть воспроизведен любой из исходного звука, звука, из которого вокал исключен, и звука, включающего только вокал.

Настоящий вариант осуществления также может быть выполнен с возможностью поддерживать только музыку и режим, в котором вокал исключен из музыки, но не поддерживать режим, в котором только вокал (основной объект) воспроизводится. Этот способ может быть использован, когда певцы не хотят, чтобы воспроизводился только вокал. Он может быть расширен до конфигурации декодера, в которой идентификатор, указывающий то, существует или нет функция для того, чтобы поддерживать только вокал, помещается в поток битов, и диапазон воспроизведения определяется на основе потока битов.

Фиг.11 - это блок-схема устройства кодирования и декодирования аудио согласно пятому варианту осуществления настоящего изобретения. Устройство кодирования и декодирования аудио согласно настоящему варианту осуществления может реализовать систему караоке с помощью остаточного сигнала. При специализации системы караоке музыкальный объект может быть поделен на фоновый объект и основной объект, как упоминалось выше. Основной объект относится к объектному сигналу, который должен управляться отдельно от фонового объекта. В частности, основной объект может относиться к сигналу вокального объекта. Фоновый объект является суммой всех объектных сигналов, отличных от основного объекта.

Ссылаясь на фиг.11, кодер 251, включенный в устройство кодирования, кодирует фоновый объект и основной объект, причем они соединены. Во время кодирования может быть использован общий аудиокодек, такой как AAC или MP3. Если сигнал декодирован в устройстве 260 декодирования, декодированный сигнал включает в себя сигнал фонового объекта и сигнал основного объекта. При условии, что декодированный сигнал является исходным сигналом декодирования, следующий способ может быть использован для того, чтобы применять систему караоке к сигналу.

Основной объект включается в совокупный поток битов в форме остаточного сигнала. Основной объект декодируется и затем вычитается из исходного сигнала декодирования. В этом случае первый декодер 261 декодирует совокупный сигнал, а второй декодер 263 декодирует остаточный сигнал, где g=1. Альтернативно, основной объектный сигнал, имеющий обратную фазу, может быть включен в совокупный поток битов в форме остаточного сигнала. Основной объектный сигнал может быть декодирован и затем добавлен к исходному сигналу декодирования. В этом случае g=-1. В любом случае определенный тип масштабируемой системы караоке возможен посредством управления значением g.

Например, когда g=-0,5 или g=0,5, основной объект или вокальный объект не полностью удаляется, а только уровень может управляться. Дополнительно, если значение g задается равным положительному числу или отрицательному числу, есть результат в том, что размером вокального объекта можно управлять. Если исходный сигнал декодирования не используется, и только остаточный сигнал выводится, режим соло, в котором имеется только вокал, также может поддерживаться.

Фиг.12 - это блок-схема устройства кодирования и декодирования аудио согласно шестому варианту осуществления настоящего изобретения. Устройство кодирования и декодирования аудио согласно настоящему варианту осуществления использует два остаточных сигнала посредством различения остаточных сигналов для вывода сигнала караоке и вывода вокального режима.

Ссылаясь на фиг.12, исходный сигнал декодирования, кодированный в первом декодере 291, делится на сигнал фонового объекта и сигнал основного объекта и затем выводится в блок 295 разделения объектов. Фактически, фоновый объект включает в себя некоторые компоненты основного объекта, а также исходный фоновый объект, и основной объект также включает в себя некоторые компоненты фонового объекта, а также исходный основной объект. Это обусловлено тем, что процесс разделения исходного сигнала декодирования на сигнал фонового объекта и основного объекта не выполнен.

В частности, что касается фонового объекта, компоненты основного объекта, включенные в фоновый объект, могут быть ранее включены в совокупный поток битов в форме остаточного сигнала, совокупный поток битов может быть декодирован, и компоненты основного объекта затем могут быть вычтены из фонового объекта. В этом случае на фиг.12 g=1. Альтернативно, обратная фаза может быть задана для компонентов основного объекта, включенных в фоновый объект, компоненты основного объекта могут быть включены в совокупный поток битов в форме остаточного сигнала, и совокупный поток битов может быть декодирован и затем прибавлен к фоновому объектному сигналу. В этом случае на фиг.12 g=-1. В любом случае масштабируемая система караоке возможна посредством управления значением g так, как упомянуто выше в связи с пятым вариантом осуществления.

Аналогичным образом, режим соло может поддерживаться посредством управления значением g1 после того, как остаточный сигнал применен к основному объектному сигналу. Значение g1 может быть применено так, как описано выше, с учетом сравнения фаз остаточного сигнала и исходного объекта и степени вокального режима.

Фиг.13 - это блок-схема устройства кодирования и декодирования аудио согласно седьмому варианту осуществления настоящего изобретения. В настоящем варианте осуществления следующий способ используется для того, чтобы дополнительно понижать битрейт остаточного сигнала в вышеуказанном варианте осуществления.

Когда сигнал основного объекта является моно, блок 305 преобразования стерео в три канала выполняет преобразование стерео в три канала для исходного стереосигнала, декодированного в первом декодере 301. Поскольку преобразование стерео в три канала не завершено, фоновый объект (т.е. один его выход) включает в себя несколько компонентов основного объекта, а также компонентов фонового объекта, и основной объект (т.е. его другой выход) также включает в себя некоторые компоненты фонового объекта, а также компоненты основного объекта.

Затем второй декодер 303 выполняет декодирование (или после декодирования qmf-преобразование, либо mdct-to-qmf-преобразование) с остаточной частью совокупного потока битов и суммирует взвешивание сигнала фонового объекта и сигнала основного объекта. Следовательно, могут быть получены сигналы, соответственно, состоящие из компонентов фонового объекта и компонентов основного объекта.

Преимущество данного способа состоит в том, что поскольку сигнал фонового объекта и сигнал основного объекта разделены ранее посредством преобразования стерео в три канала, остаточный сигнал для удаления других компонентов, включенных в сигнал (т.е. компонентов основного объекта, оставшихся в сигнале фонового объекта, и компонентов фонового объекта, оставшихся в сигнале основного объекта), может быть составлен с использованием меньшего битрейта.

Ссылаясь на фиг.13, при условии, что компонент фонового объекта - это B, а компонент основного объекта - это m в рамках сигнала фонового объекта BS, и компонент основного сигнала - это M, и компонент фонового сигнала - это b в рамках сигнала основного объекта MS, устанавливается следующая формула:

BS=B+m
MS=M+b.

(1)

Например, когда остаточный сигнал R состоит из b-m, конечный вывод караоке KO приводит к следующему:

KO=BS+R=B+b.

(2)

Конечный вывод соло-режима SO приводит к следующему:

SO=BS-R=M+m.

(3)

Знак остаточного сигнала может быть изменен на противоположный в вышеуказанной формуле, т.е. R=m-b, g=-1 и g1=1.

При конфигурировании BS и MS значения g и g1, в которых конечные значения KO и SO должны состоять из B и b и M и m, могут быть легко вычислены в зависимости от того, как заданы знаки B, m, M и/или b. В вышеуказанных случаях караоке- и соло-сигналы немного изменяются от исходных сигналов, но высококачественные выводы сигналов, которые фактически могут быть использованы, возможны, поскольку караоке-вывод не включает в себя соло-компоненты, и соло-вывод также не включает в себя компоненты караоке.

Дополнительно, когда два или более основных объектов существует, преобразование двух каналов в три и повышение/понижение остаточного сигнала может быть использовано шаг за шагом.

Фиг.14 - это блок-схема устройства кодирования и декодирования аудио согласно восьмому варианту осуществления настоящего изобретения. Устройство 290 декодирования аудиосигналов согласно настоящему варианту отличается от седьмого варианта осуществления тем, что преобразование моно в стерео выполняется для каждого исходного стереоканала дважды, когда сигнал основного объекта является стереосигналом.

Поскольку преобразование моно в стерео также неидеально, сигнал фонового объекта (т.е. один его вывод) включает в себя некоторые компоненты основного объекта, а также компоненты фонового объекта, а сигнал основного объекта (т.е. другой его вывод) также включает в себя некоторые компоненты фонового объекта, как и компоненты основного объекта. Далее декодирование (или после декодирования qmf-преобразование, либо mdct-to-qmf-преобразование) выполняется с остаточной частью совокупного потока битов, и компоненты его левого и правого каналов затем добавляются к левому и правому каналам сигнала фонового объекта и сигнала основного объекта, соответственно, которые умножаются на весовой коэффициент с тем, чтобы сигналы, состоящие из компонента фонового объекта (стерео) и компонента основного объекта (стерео), могли быть получены.

В случае если остаточные стереосигналы формируются посредством использования разности между левым и правым компонентами фонового стереообъекта и основного стереообъекта, g=g2=-1, а g1=g3=1 на фиг.14. Помимо этого, как описано выше, значения g, g1, g2 и g3 могут быть легко вычислены согласно знакам сигнала фонового объекта, сигнала основного объекта и остаточного сигнала.

В общем, сигнал основного объекта может быть моно или стерео. По этой причине флаг, указывающий то, является сигнал основного объекта моно или стерео, помещается в совокупный поток битов. Когда сигнал основного объекта является моно, сигнал основного объекта может быть декодирован с помощью способа, описанного в связи с седьмым вариантом осуществления по фиг.13, а когда сигнал основного объекта является стерео, сигнал основного объекта может быть декодирован с помощью способа, описанного в связи с восьмым вариантом осуществления по фиг.14, посредством считывания флага.

Более того, когда один или более основных объектов включены в состав, вышеуказанные способы могут быть использованы последовательно в зависимости от того, является ли каждый из основных объектов моно или стерео. В это время количество раз, которое каждый способ используется, идентично числу основных моно-/стереообъектов. Например, когда число основных объектов составляет 3, число основных монообъектов из трех основных объектов равно 2, а число основных стереообъектов равно 1, сигналы караоке могут быть выведены с использованием способа, описанного в связи с седьмым вариантом осуществления, дважды, и способа, описанного в связи с восьмым вариантом осуществления по фиг.14, один раз. В этом случае последовательность из способа, описанного в связи с седьмым вариантом осуществления, и способа, описанного в связи с восьмым вариантом осуществления, может быть определена заранее. Например, способ, описанный в связи с седьмым вариантом осуществления, всегда может выполняться для основных монообъектов, а способ, описанный в связи с восьмым вариантом осуществления, в таком случае может выполняться для основных стереообъектов. В качестве еще одного способа определения последовательности дескриптор, описывающий последовательность способа, описанного в связи с седьмым вариантом осуществления, и способа, описанного в связи с восьмым вариантом осуществления, может быть помещен в совокупный поток битов, и способы могут выполняться выборочно на основе дескриптора.

Фиг.15 - это блок-схема устройства кодирования и декодирования аудио согласно девятому варианту осуществления настоящего изобретения. Устройство кодирования и декодирования аудио согласно настоящему варианту осуществления формирует музыкальные объекты или фоновые объекты с помощью многоканальных кодеров.

Ссылаясь на фиг.15, показано устройство 350 кодирования аудио, включающее в себя многоканальный кодер 351, объектный кодер 353 и мультиплексор 355, и устройство 360 декодирования аудио, включающее в себя демультиплексор 361, объектный декодер 363 и многоканальный декодер 369. Объектный декодер 363 может включать в себя блок 365 канального преобразования и микшер 367.

Многоканальный кодер 351 формирует сигнал, в отношении которого выполняется понижающее микширование с помощью музыкальных объектов в качестве канальной основы, и информацию первых аудиопараметров, основывающихся на каналах, посредством извлечения информации о музыкальном объекте. Объектный декодер 353 формирует сигнал понижающего микширования, который кодируется с помощью вокальных объектов, и микшированный с понижением сигнал из многоканального кодера 351 в качестве объектной базы, информацию основывающихся на объектах вторых аудиопараметров и остаточные сигналы, соответствующие вокальным объектам. Мультиплексор 355 формирует поток битов, в котором комбинируется сигнал понижающего микширования, сформированный из объектного кодера 353, и дополнительная информация. В это время дополнительная информация - это информация, включающая в себя первый аудиопараметр, сформированный из многоканального кодера 351, остаточные сигналы и второй аудиопараметр, сформированный из объектного декодера 353, и т.д.

В устройстве 360 декодирования аудио демультиплексор 361 демультиплексирует сигнал понижающего микширования и дополнительную информацию в принятом потоке битов. Объектный декодер 363 формирует аудиосигналы с управляемыми вокальными компонентами посредством использования, по меньшей мере, одного из аудиосигнала, в котором музыкальный объект кодируется на канальной основе, и аудиосигнала, в котором кодируется вокальный объект. Объектный декодер 363 включает в себя блок 365 канального преобразования и поэтому может выполнять преобразование моно в стерео или преобразование “два в три” в процессе декодирования. Микшер 367 может управлять уровнем, позицией и т.д. конкретного объектного сигнала с помощью параметра микширования и т.д., который включен в управляющую информацию. Многоканальный декодер 369 формирует многоканальные сигналы с помощью аудиосигнала и дополнительной информации, декодированной в объектном декодере 363, и т.д.

Объектный декодер 363 может формировать аудиосигнал, соответствующий любому из караоке-режима, в котором формируются аудиосигналы без вокальных компонентов, соло-режима, в котором формируются аудиосигналы, включающие в себя только вокальные компоненты, и общего режима, в котором аудиосигналы, включающие в себя вокальные компоненты, формируются согласно входной управляющей информации.

Фиг.16 - это представление, иллюстрирующее случай, когда вокальные объекты кодируются шаг за шагом. Ссылаясь на фиг.16, устройство 380 кодирования согласно настоящему варианту осуществления включает в себя многоканальный кодер 381, объектные декодеры 383, 385 и 387, с первого по третий, и мультиплексор 389.

Многоканальный кодер 381 имеет такую же структуру и функцию, как и для многоканального кодера, показанного на фиг.15. Настоящий вариант осуществления отличается от девятого варианта осуществления по фиг.15 тем, что объектные кодеры 383, 385 и 387, с первого по третий, выполнены с возможностью группировать вокальные объекты шаг за шагом, и остаточные сигналы, которые формируются на соответствующих шагах группирования, включаются в поток битов, формируемый мультиплексором 389.

В случае если поток битов, формируемый посредством этого процесса, декодируется, сигнал с управляемыми вокальными компонентами или другими требуемыми компонентами объектов может быть сформирован посредством применения остаточных сигналов, которые извлекаются из потока битов, к аудиосигналу, кодированному посредством группирования музыкальных объектов, или аудиосигналу, кодированному посредством группирования вокальных объектов, шаг за шагом.

Между тем, в вышеуказанном варианте осуществления место, где выполняется вычисление суммы или разности исходного сигнала декодирования и остаточного сигнала, либо вычисление суммы или разности фонового объекта или сигнала основного объекта и остаточного сигнала, не ограничено конкретной областью. Например, этот процесс может выполняться во временной области или некоем подобии частотной области, такой как MDCT-область. Альтернативно, этот процесс может выполняться в области подполос, такой как область QMF-подполос или область гибридных подполос. В частности, когда этот процесс выполняется в частотной области или области подполос, масштабируемый караоке-сигнал может быть сформирован посредством управления числом полос, исключая остаточные компоненты. Например, когда число подполос исходного сигнала декодирования равно 20, если число полос остаточного сигнала задается равным 20, может быть выведен идеальный караоке-сигнал. Когда только 10 низких частот покрыто, вокальные компоненты исключаются только из низкочастотных частей, и высокочастотные части остаются. Во втором случае качество звука может быть ниже, чем качество звука в первом случае, но есть преимущество в том, что битрейт может быть уменьшен.

Дополнительно, когда число основных объектов не равно одному, несколько остаточных сигналов могут быть включены в совокупный поток битов, и вычисление суммы или разности остаточных сигналов может быть выполнено несколько раз. Например, когда два основных объекта включают в себя вокал и гитару, и их остаточные сигналы включены в совокупный поток битов, сигнал караоке, из которого сигналы вокала и гитары удалены, может быть сформирован таким образом, что сигнал вокала сначала удаляется из совокупного сигнала, а затем удаляется сигнал гитары. В этом случае могут быть сформированы караоке-сигнал, из которого удален только сигнал вокала, и караоке-сигнал, из которого удален только сигнал гитары. Альтернативно, может быть выведен только сигнал вокала или может быть выведен только сигнал гитары.

Помимо этого, для того, чтобы сформировать караоке-сигнал посредством удаления только сигнала вокала из совокупного сигнала фундаментально, совокупный сигнал и сигнал вокала, соответственно, кодируются. Следующие два типа разделов требуются согласно типу кодека, используемого для кодирования. Во-первых, всегда один и тот же кодек кодирования используется в совокупном сигнале и сигнале вокала. В этом случае идентификатор, который позволяет определять тип кодека кодирования в отношении совокупного сигнала и сигнала вокала, должен быть встроен в поток битов, и декодер выполняет процесс идентификации типа кодека посредством определения идентификатора, декодирования сигналов и последующего удаления компонентов вокала. В этом процессе, как упоминалось выше, используется вычисление суммы или разности. Информация об идентификаторе может включать в себя информацию о том, использовал ли остаточный сигнал тот же кодек, что и кодек исходного сигнала декодирования, тип кодека, используемый для того, чтобы кодировать остаточный сигнал, и т.д.

Дополнительно, различные кодеки кодирования могут быть использованы для совокупного сигнала и сигнала вокала. Например, сигнал вокала (т.е. остаточный сигнал) всегда использует фиксированный кодек. В этом случае идентификатор для остаточного сигнала необязателен, и только заранее определенный кодек может быть использован для того, чтобы декодировать совокупный сигнал. Тем не менее в этом случае процесс удаления остаточного сигнала из совокупного сигнала ограничен областью, в которой обработка между двумя сигналами возможна немедленно, такой как временная область или область подполос. Например, в такой области, как mdct, обработка между двумя сигналами невозможна сразу.

Более того, согласно настоящему изобретению может быть выведен сигнал караоке, состоящий только из сигнала фонового объекта. Многоканальный сигнал может быть сформирован посредством выполнения дополнительного процесса повышающего микширования для сигнала караоке. Например, если объемное звучание MPEG дополнительно применяется к сигналу караоке, формируемому посредством настоящего изобретения, может быть сформирован 5.1-канальный сигнал караоке.

Между прочим, в вышеозначенных вариантах осуществления описано то, что количество музыкальных объектов и основных объектов, или фоновых объектов и основных объектов в кадре идентично. Тем не менее количество музыкальных объектов и основных объектов, или фоновых объектов и основных объектов в кадре может различаться. Например, музыка может иметь место каждый кадр, а один основной объект может иметь место каждые два кадра. В это время основной объект может быть декодирован, и результат декодирования может быть применен к двум кадрам.

Музыкальный и основной объекты могут иметь различные частоты дискретизации. Например, когда частота дискретизации музыки равна 44,1 кГц, а частота дискретизации основного объекта равна 22,05 кГц, MDCT-коэффициенты основного объекта могут быть вычислены, и микширование затем может быть выполнено только для соответствующей области MDCT-коэффициентов музыки. Это использует тот принцип, что вокальный звук имеет полосу частот ниже, чем полоса частот звука музыкального инструмента, в отношении системы караоке, и является преимущественным в том, что объем данных может быть уменьшен.

Более того, согласно настоящему изобретению, коды, читаемые посредством процессора, могут быть реализованы в носителе записи, читаемом посредством процессора. Носитель записи, читаемый посредством процессора, может включать в себя все типы записывающих устройств, в которых сохраняются данные, которые могут быть считаны посредством процессора. Примеры носителей записи, читаемых посредством процессора, могут включать в себя ROM, RAM, CD-ROM, магнитные ленты, гибкие диски, оптические устройства хранения и т.п., а также могут включать в себя несущие волны, такие как передача по Интернету. Помимо этого носители записи, читаемые посредством процессора, могут быть распределены в системах, соединенных по сети, и коды, читаемые посредством процессора, могут быть сохранены и приведены в исполнение распределенным способом.

Хотя настоящее изобретение описано в связи с тем, что в настоящее время считается предпочтительными вариантами осуществления, следует понимать, что настоящее изобретение не ограничено конкретными вариантами осуществления, а различные модификации возможны специалистами в данной области техники. Следует отметить, что эти модификации не должны пониматься отдельно от технического духа и ожиданий настоящего изобретения.

Промышленная применимость

Настоящее изобретение может быть использовано для процессов кодирования и декодирования основывающихся на объектах сигналов и т.д., обработки объектных сигналов с ассоциативной связью на погрупповой основе и позволяет предоставлять такие режимы воспроизведения, как караоке-режим, соло-режим и общий режим.

1. Способ декодирования аудио, содержащий этапы, на которых:
принимают сигнал понижающего микширования и остаточный сигнал;
получают по меньшей мере один из первого аудиосигнала и второго аудиосигнала путем применения остаточного сигнала к сигналу понижающего микширования;
формируют третий аудиосигнал посредством применения параметра микширования к по меньшей мере одному из первого аудиосигнала и второго аудиосигнала; и
формируют многоканальный аудиосигнал посредством использования третьего аудиосигнала, при этом
первый аудиосигнал соответствует одному или двум канальным сигналам,
второй аудиосигнал соответствует одному или более объектным сигналам,
остаточный сигнал формируется, когда выполнено понижающее микширование первого аудиосигнала и второго аудиосигнала в сигнал понижающего микширования,
третий аудиосигнал формируют посредством управления уровнем или позицией по меньшей мере одного из первого аудиосигнала и второго аудиосигнала, и
параметр микширования предназначен для управления уровнем или позицией по меньшей мере одного объектного сигнала среди множества объектных сигналов, включая по меньшей мере один из первого аудиосигнала и второго аудиосигнала.

2. Способ декодирования аудио по п.1, в котором первый аудиосигнал и второй аудиосигнал соответственно кодированы с помощью разных кодеков.

3. Способ декодирования аудио по п.1, в котором первый аудиосигнал и второй аудиосигнал кодированы с использованием разных частот дискретизации.

4. Способ декодирования аудио по п.1, дополнительно содержащий этап, на котором принимают первый аудиопараметр, соответствующий первому аудиосигналу, и второй аудиопараметр, соответствующий второму аудиосигналу.

5. Способ декодирования аудио по п.4, в котором третий аудиосигнал формируют с использованием по меньшей мере одного из первого аудиопараметра и второго аудиопараметра.

6. Устройство декодирования аудио, содержащее:
демультиплексор, принимающий сигнал понижающего микширования и остаточный сигнал;
объектный декодер, получающий по меньшей мере один из первого аудиосигнала и второго аудиосигнала путем применения остаточного сигнала к сигналу понижающего микширования и формирующий третий аудиосигнал посредством применения параметра микширования к по меньшей мере одному из первого аудиосигнала и второго аудиосигнала; и
многоканальный декодер, формирующий многоканальный аудиосигнал посредством использования третьего аудиосигнала, при этом
первый аудиосигнал соответствует одному или двум канальным сигналам, второй аудиосигнал соответствует одному или более объектным сигналам, остаточный сигнал формируется, когда выполнено понижающее микширование первого аудиосигнала и второго аудиосигнала в сигнал понижающего микширования,
третий аудиосигнал формируется посредством управления уровнем или позицией по меньшей мере одного из первого аудиосигнала и второго аудиосигнала, и
параметр микширования предназначен для управления уровнем или позицией по меньшей мере одного объектного сигнала среди множества объектных сигналов, включая по меньшей мере один из первого аудиосигнала и второго аудиосигнала.

7. Устройство декодирования аудио по п.6, в котором демультиплексор извлекает первый аудиопараметр, соответствующий первому аудиосигналу, и второй аудиопараметр, соответствующий второму аудиосигналу.

8. Устройство декодирования аудио по п.7, в котором третий аудиосигнал формируется с использованием по меньшей мере одного из первого аудиопараметра и второго аудиопараметра.

9. Способ кодирования аудио, содержащий этапы, на которых:
принимают множество канальных сигналов;
формируют первый аудиопараметр и первый аудиосигнал, соответствующий одному или двум канальным сигналам, посредством понижающего микширования этого множества канальных сигналов;
принимают второй аудиосигнал, соответствующий одному или более объектным сигналам;
формируют второй аудиопараметр и сигнал понижающего микширования посредством понижающего микширования множества объектных сигналов, включая первый аудиосигнал и второй аудиосигнал;
оценивают остаточный сигнал, когда сигнал понижающего микширования сформирован; и
формируют поток битов, включающий в себя сигнал понижающего микширования, остаточный сигнал, первый аудиопараметр и второй аудиопараметр.

10. Устройство кодирования аудио, содержащее:
многоканальный кодер, принимающий множество канальных сигналов и формирующий первый аудиопараметр и первый аудиосигнал, соответствующий одному или двум канальным сигналам, посредством понижающего микширования этого множества канальных сигналов;
объектный кодер, принимающий второй аудиосигнал, соответствующий одному или более объектным сигналам, формирующий второй аудиопараметр и сигнал понижающего микширования посредством понижающего микширования множества объектных сигналов, включая первый аудиосигнал и второй аудиосигнал, и оценивающий остаточный сигнал, когда сигнал понижающего микширования сформирован; и
мультиплексор, формирующий поток битов, включающий в себя сигнал понижающего микширования, остаточный сигнал, первый аудиопараметр и второй аудиопараметр.

11. Считываемый процессором носитель записи, на котором записана программа для выполнения способа декодирования по любому одному из пп.1-5 в процессоре.

Изобретение относится к устройствам и способам кодирования и декодирования, которые используются для того, чтобы кодировать стереофоническую речь. .

Схема аудиокодирования/декодирования с переключением байпас // 2483364

Способ оценки частоты одиночного гармонического колебания в ограниченном диапазоне // 2480847

Изобретение относится к радиотехнике, а именно к способам точной оценки частоты одиночного гармонического колебания в ограниченном диапазоне. .

Способ обнаружения границ слов и устройство для его осуществления // 1094049

Устройство для контроля уровня шума отдельного источника // 1048504

Способ измерения интенсивности звука локального источника на дискретной частоте // 987671

Способ определения границы свободного поля в заглушенных звукомерных камерах // 983747

Излучатель для корреляционных акустических измерений // 945889

Устройство для распознавания речи // 920823

Способ измерения диаграмм направленности акустических источников на дискретной частоте // 871188

Кодирующее устройство, декодирующее устройство и способ // 2488897

Изобретение относится к вычислительной технике

Устройство и способ определения множества локальных частотных центров тяжести в спектре аудиосигнала // 2490729

Изобретение относится к области цифровой обработки звука

Способ и дискриминатор для классификации различных сегментов сигнала // 2507609

Способ и дискриминатор для классификации различных сегментов сигнала, предназначенный для того, чтобы классифицировать различные сегменты сигнала, включающий сегменты, по крайней мере, первого и второго типов, например музыкальные и речевые сегменты, сигнал краткосрочной классификации (150) на основе, по крайней мере, одной краткосрочной особенности, извлеченной из сигнала, и краткосрочный результат классификации (152); сигнал долгосрочной классификации (154) на основе, по крайней мере, одной краткосрочной особенности и, по крайней мере, одной долгосрочной особенности, извлеченной из сигнала, и долгосрочный результат классификации (156). Краткосрочный результат классификации (152) и долгосрочный результат классификации (156) объединены (158), чтобы обеспечить выходной сигнал выбора (160), указывающий, имеет ли сегмент сигнала первый тип или второй тип. Технический результат - обеспечение улучшенного подхода для того, чтобы различить в сигнале сегменты различного типа, сохраняя низкой любую задержку, внесенную дискриминатором. 6 н. и 11 з.п. ф-лы, 7 ил., 2 табл.

Способ оценки качества аудиосигнала, устройство и считываемый компьютером записываемый носитель, записывающий программу // 2517393

Изобретение относится к средствам оценки качества аудиосигнала для мультимедийной телекоммуникационной службы. Технический результат заключается в повышении точности определения качества аудиосигнала. Вычисляют частоту потерь аудиопакетов, когда в однократно или постоянно генерируемых потерях IP пакетов существует по меньшей мере один аудиопакет, подлежащий оценке, при этом вычисление частоты потерь аудиопакетов основано на информации из принятых IP пакетов посредством подсчета потерь пакетов. Вычисляют среднее время воздействия/средней длительности аудиопакета на основе информации принятых IP пакетов, причем среднее время воздействия служит в качестве среднего времени, в течение которого на качество аудиосигнала оказывается влияние при частоте потерь аудиопакетов, содержащихся в единовременной потере аудиопакетов. Оценивают значения оценки субъективного качества на основе частоты потерь аудиопакетов и одного из среднего времени воздействия и средней длительности аудиопакет. Вычисляют скорость передачи аудиоданных для вычисления скорости передачи аудиоданных на основе информации из принятых IP пакетов. Значение оценки субъективного качества вычисляют на основе значения качества кодированного аудиосигнала, частоты потерь аудиопакетов и среднего времени воздействия. 4 н. и 4 з.п. ф-лы, 25 ил.

Способ выделения речевого сигнала в условиях наличия помех и устройство для его осуществления // 2536343

Изобретение относится к вычислительной технике. Технический результат заключается в повышении эффективности выделения речевого сигнала в условиях наличия помех. Способ выделения речевого сигнала в условиях наличия помех, в котором входную смесь акустического сигнала и помехи преобразуют в электрический сигнал, фильтруют полосовым фильтром, получив смесь речевого сигнала и помехи с заданной полосой частот, которую усиливают в усилителе низкой частоты (УНЧ), в аналогово-цифровом преобразователе (АЦП) формируют отсчеты смеси сигнала и помехи в цифровом виде и подают их в вычислительное устройство, где формируют пары сумм амплитуд отсчетов определенным образом и рассчитывают амплитуды сигнала для каждого момента времени с использованием полученных результатов суммирования путем решения соответствующих систем линейных уравнений. 2 ил., 1 табл.

Устройство, способ и машиночитаемый носитель для получения параметра, описывающего изменение характеристики сигнала // 2543308

Группа изобретений относится к средствам для анализа временных вариаций аудио сигналов. Технический результат заключается в создании средств, обладающих повышенной надежностью, для получения параметра, описывающего временные изменения сигнальной характеристики. Для этого предложено устройство для получения параметра, который описывает изменения сигнальной характеристики сигнала на основе фактических параметров области преобразования, описывающих аудиосигнал в области преобразования, которое включает определитель параметра. Определитель параметра предназначен для определения одного или нескольких модельных параметров модели изменения в области преобразования, описывающих эволюцию параметров области преобразования в зависимости от одного или нескольких модельных параметров, представляющих сигнальную характеристику, так, что модельная ошибка, представляющая собой отклонения между моделируемой временной эволюцией параметров в области преобразования и эволюцией фактических параметров области преобразования снижается ниже заданного порогового значения или сводится к минимуму. 13 н. и 14 з.п. ф-лы, 9 ил.

Способ выявления эмоционального состояния человека по голосу // 2553413

Изобретение относится к системам анализа речи и может быть использовано для определения эмоционального состояния человека по голосу, применительно к задачам криминалистики, медицины, системам контроля и управления доступом и др. Технический результат заключается в повышении достоверности и воспроизводимости оценок эмоционального состояния диктора. Способ заключается в записи речевого сигнала и его последующей обработке, включающей в себя расчет коэффициентов интегрального преобразования путем свертки речевого сигнала с ядром преобразования, и последующем анализе полученных коэффициентов на основе меры различимости. Коэффициентами интегрального преобразования являются коэффициенты локального вейвлет-спектра непрерывного вейвлет-преобразования речевого сигнала, и мерой различимости является евклидова невязка между локальными спектрами непрерывного вейвлет-преобразования. 1 з.п. ф-лы, 1 ил.

Способ определения риска развития заболеваний индивида по его голосу и аппаратно-программный комплекс для реализации способа // 2559689

Изобретение относится к медицине и предназначено для исследования функционального состояния голосовых складок. Техническим результатом является повышение точности диагностики состояния здоровья индивида по параметрам голосового сигнала. Комплекс содержит: терминальное устройство индивида с расположенными в нем модулем записи голосового сигнала индивида, модулем управления записью голосового сигнала, выполненным с возможностью выбора частоты дискретизации и длительности записи голосового сигнала, вычислительным модулем, выполненным с возможностью перевода записанного голосового сигнала из аналогового в цифровой сигнал, модулем отображения информации на мониторе терминального устройства индивида, полученной с блока анализа голосового сигнала, выполненного с возможностью определения для записанного голосового сигнала параметра, характеризующего нелинейность голосового сигнала, и по крайней мере одного параметра из группы, характеризующей эффект «Дрожания» (Jitter), и/или эффект «Мерцания» (Shimmer), и/или физиологические свойства голосовых складок, и/или уровень шума в голосовом сигнале, с последующим построением вектора в N-мерном пространстве параметров голосового сигнала индивида. 2 н. и 28 з.п. ф-лы, 18 ил., 3 табл.

Способ обработки функции автокорреляции для измерения основного тона речевого сигнала // 2559710

Изобретение относится к средствам обработки функции автокорреляции для измерения основного тона речевого сигнала и может быть использовано в области обработки сигналов, в системах распознавания речи. Технический результат заключается в повышении надежности измерения частоты основного тона речевого сигнала. Подчеркивают главный пик в автокорреляционной функции с помощью вычитания из автокорреляционной функции, полученной для сегмента сигнала, меньшей по амплитуде сглаженной функции автокорреляции для модуля сигнала на том же сегменте и обнуления отрицательных разностей. 1 з.п. ф-лы, 3 ил.

Способ (варианты) фильтрации зашумленного речевого сигнала в условиях сложной помеховой обстановки // 2580796

Изобретения относятся к области цифровой связи и технологиям обработки речи в условиях зашумления. Технический результат заключается в повышении отношения сигнал-шум очищенного речевого сигнала. Применяют способы фильтрации зашумленного речевого сигнала в условиях сложной помеховой обстановки. Для чего используют результаты полиспектрального анализа с целью точной оценки спектральных характеристик шумового воздействия. В заявленных способах осуществляется спектральное вычитание с дополнительной коррекцией сигналов на основе процедуры эмпирической модовой декомпозиции и адаптивной цифровой фильтрацией низких частот с применением коэффициента бикорреляции, полученного путем анализа суммарной бикорреляции в зонах сосредоточения низкоплотностной области биамплитуды обрабатываемого сегмента зашумленного речевого сигнала. 3 н.п. ф-лы, 10 ил.