Способ для кодирования многоканального сигнала и кодер

Изобретение относится к средствам для кодирования многоканального сигнала. Технический результат заключается в повышении эффективности кодирования многоканального сигнала. Получают многоканальный сигнал текущего кадра. Определяют начальное значение межканальной разницы во времени (ITD) текущего кадра. Управляют, на основе характеристической информации многоканального сигнала, количеством целевых кадров, непрерывное появление которых является допустимым. При этом характеристическая информация содержит по меньшей мере одно из отношения сигнал/шум многоканального сигнала и признака пика коэффициентов взаимной корреляции многоканального сигнала, и значение ITD предыдущего кадра целевого кадра повторно используется в качестве значения ITD целевого кадра. Определяют значение ITD текущего кадра на основе начального значения ITD текущего кадра и количества целевых кадров, непрерывное появление которых является допустимым. Кодируют многоканальный сигнал на основе значения ITD текущего кадра. 2 н. и 16 з.п. ф-лы, 8 ил.

 

ОБЛАСТЬ ТЕХНИКИ, К КОТОРОЙ ОТНОСИТСЯ ИЗОБРЕТЕНИЕ

Эта заявка относится к области кодирования акустических сигналов, а точнее, к способу для кодирования многоканального сигнала и кодеру.

УРОВЕНЬ ТЕХНИКИ

По мере того, как улучшается качество жизни, люди предъявляют все возрастающие требования к высококачественным записи и воспроизведению звука. По сравнению с монофоническим сигналом, стереофонический обладает ощущением направления и ощущением распределения по различным акустическим источникам, может улучшать разборчивость, внятность и создающее эффект присутствия впечатление от звука, а потому, пользуется крайней благосклонностью у людей.

Технологии стереофонической обработки главным образом включают в себя кодирование среднего/побочного каналов (Mid/Sid, MS), стереофоническое кодирование с изменением глубины стереобазы (Intensity Stereo, IS) и параметрическое стереофоническое кодирование (Parametric Stereo, PS).

В кодировании MS, преобразование среднего/побочного канала выполняется над двумя сигналами на основе межканальной когерентности, и энергия каналов фокусируется главным образом в среднем канале, так что исключается межканальная избыточность. В технологи кодирования MS, уменьшение кодовой скорости зависит от когерентности между входными сигналами. Когда когерентность между сигналом левого канала и сигналом правого канала слаба, необходимо, чтобы сигнал левого канала и сигнал правого канала передавались раздельно.

В кодировании IS, высокочастотные составляющие сигнала левого канала и сигнала правого канала упрощаются на основе особенности, что система человеческого слуха нечувствительна к разности фаз между высокочастотными составляющими (например, составляющими выше 2 кГц) каналов. Однако, технология кодирования IS действенна только для высокочастотных составляющих. Если технология кодирования IS распространяется на низкую частоту, вызываются серьезные искусственные помехи.

Кодирование PS является схемой кодирования, основанной на бинауральной модели слуха. Как показано на фиг. 1 (на фиг. 1, xL - сигнал временной области левого канала, а xR - сигнал временной области правого канала), в процессе кодирования PS, сторона кодера преобразует стереофонический сигнал в монофонический сигнал и несколько пространственных параметров (или параметров пространственной информированности), которые описывают пространственное звуковое поле. Как показано на фиг. 2, после получения монофонического сигнала и пространственных параметров, сторона декодера восстанавливает стереофонический сигнал, опираясь на пространственные параметры. По сравнению с кодированием MS, кодирование PS имеет более высокий коэффициент сжатия. Более того, при кодировании PS, более высокий выигрыш от кодирования может быть получен, в то время как сохраняется относительно хорошее качество звука. В дополнение, кодирование PS может выполняться в полной ширине полосы звуковых частот и может хорошо реконструировать эффект пространственной информированности стереофонического звука.

При кодировании PS, пространственные параметры включают в себя межканальную когерентность (Inter-channel Coherence, IC), межканальный перепад уровней (Inter-channel Level Difference, ILD), межканальную разновременность (Inter-channel Time Difference, ITD) и межканальную разность фаз (Inter-channel Phase Difference, IPD). IC описывает межканальную взаимную корреляцию или когерентность. Этот параметр определяет информированность о диапазоне звукового поля и может улучшать ощущение пространства и устойчивость звука акустического сигнала. ILD используется для распознавания горизонтального азимутального угла стереофонического акустического источника и описывает межканальную разность энергий. Этот параметр оказывает влияние на частотные составляющие полного спектра. ITD и IPD являются пространственными параметрами, представляющими собой горизонтальный азимут акустического источника, и описывают межканальные разновременность и разность фаз. ILD, ITD и IPD могут определять информированность человеческого уха о расположении акустического источника, могут использоваться для эффективного определения расположения звукового поля и играют важную роль в восстановлении стереофонического сигнала.

В процессе стереофонической записи, вследствие влияния факторов, таких как фоновый шум, реверберация и речь многих участников, ITD, рассчитанный согласно существующей схеме кодирования PS, всегда нестабилен (значение ITD совершает значительные переходы). Подвергнутый понижающему микшированию сигнал, рассчитанный на основе такого ITD, является прерывистым. Как результат, качество стереофонического звука, получаемого на стороне декодера, является низким. Например, акустический образ стереофонического звука, воспроизводимого на стороне декодера, часто флуктуирует, и даже происходит слуховое замирание.

Данная заявка предусматривает способ для кодирования многоканального сигнала и кодер для улучшения стабильности ITD при кодировании PS и улучшения качества кодирования многоканального сигнала.

Согласно первому аспекту, предусмотрен способ для кодирования многоканального сигнала, включающий в себя: получение многоканального сигнала текущего кадра; определение начального значения ITD текущего кадра; управление, на основе характеристической информации многоканального сигнала, количеством целевых кадров, непрерывное появление которых является допустимым, где характеристическая информация включает в себя по меньшей мере одно из параметра отношения сигнал/шум многоканального сигнала и признака пика коэффициентов взаимной корреляции многоканального сигнала, и значение ITD предыдущего кадра целевого кадра повторно используется в качестве значения ITD целевого кадра; определение значения ITD текущего кадра на основе начального значения ITD текущего кадра и количества целевых кадров, непрерывное появление которых является допустимым; и кодирование многоканального сигнала на основе значения ITD текущего кадра.

Со ссылкой на первый аспект, в некоторых реализациях первого аспекта, перед управлением, на основе характеристической информации многоканального сигнала, количеством целевых кадров, непрерывное появление которых является допустимым, способ дополнительно включает в себя: определение признака пика коэффициентов взаимной корреляции многоканального сигнала на основе амплитуды пикового значения коэффициентов взаимной корреляции многоканального сигнала и индекса положения пика коэффициентов взаимной корреляции многоканального сигнала.

Со ссылкой на первый аспект, в некоторых реализациях первого аспекта, определение признака пика коэффициентов взаимной корреляции многоканального сигнала на основе амплитуды пикового значения коэффициентов взаимной корреляции многоканального сигнала и индекса положения пика коэффициентов взаимной корреляции многоканального сигнала включает в себя: определение доверительного параметра амплитуды пика на основе амплитуды пикового значения коэффициентов взаимной корреляции многоканального сигнала, где доверительный параметр амплитуды пика представляет собой доверительный уровень амплитуды пикового значения коэффициентов взаимной корреляции многоканального сигнала; определение параметра флуктуации положения пика на основе значения ITD, соответствующего индексу положения пика коэффициентов взаимной корреляции многоканального сигнала, и значения ITD предыдущего кадра текущего кадра, где параметр флуктуации положения пика представляет собой разность между значением ITD, соответствующим индексу положения пика коэффициентов взаимной корреляции многоканального сигнала, и значением ITD предыдущего кадра текущего кадра; и определение признака пика коэффициентов взаимной корреляции многоканального сигнала на основе доверительного параметра амплитуды пика и параметра флуктуации положения пика.

Со ссылкой на первый аспект, в некоторых реализациях первого аспекта, определение доверительного параметра амплитуды пика на основе амплитуды пикового значения коэффициентов взаимной корреляции многоканального сигнала включает в себя: определение, в качестве доверительного параметра амплитуды пика, отношения разности между значением амплитуды пикового значения коэффициентов взаимной корреляции многоканального сигнала и значением амплитуды второго наибольшего значения коэффициентов взаимной корреляции многоканального сигнала к значению амплитуды пикового значения.

Со ссылкой на первый аспект, в некоторых реализациях первого аспекта, определение параметра флуктуации положения пика на основе значения ITD, соответствующего индексу положения пика коэффициентов взаимной корреляции многоканального сигнала, и значения ITD предыдущего кадра текущего кадра включает в себя: определение, в качестве параметра флуктуации положения пика, абсолютного значения разности между значением ITD, соответствующим индексу положения пика коэффициентов взаимной корреляции многоканального сигнала, и значением ITD предыдущего кадра текущего кадра.

Со ссылкой на первый аспект, в некоторых реализациях первого аспекта, управление, на основе характеристической информации многоканального сигнала, количеством целевых кадров, непрерывное появление которых является допустимым, включает в себя: управление, на основе признака пика коэффициентов взаимной корреляции многоканального сигнала, количеством целевых кадров, непрерывное появление которых является допустимым; и когда признак пика коэффициентов взаимной корреляции многоканального сигнала удовлетворяет заранее заданному условию, уменьшение, посредством настройки по меньшей мере одного из численности (подсчета) целевых кадров и порогового значения численности целевых кадров, количеством целевых кадров, непрерывное появление которых является допустимым, где численность целевых кадров используется для представления количества целевых кадров, которые появлялись непрерывно на данный момент, а пороговое значение численности целевых кадров используется для указания количества целевых кадров, непрерывное появление которых является допустимым.

Со ссылкой на первый аспект, в некоторых реализациях первого аспекта, уменьшение, посредством настройки по меньшей мере одного из численности целевых кадров и порогового значения численности целевых кадров, количества целевых кадров, непрерывное появление которых является допустимым, включает в себя: уменьшение, посредством увеличения численности целевых кадров, количества целевых кадров, непрерывное появление которых является допустимым.

Со ссылкой на первый аспект, в некоторых реализациях первого аспекта, уменьшение, посредством настройки по меньшей мере одного из численности целевых кадров и порогового значения численности целевых кадров, количества целевых кадров, непрерывное появление которых является допустимым, включает в себя: уменьшение, посредством уменьшения порогового значения численности целевых кадров, количества целевых кадров, непрерывное появление которых является допустимым.

Со ссылкой на первый аспект, в некоторых реализациях первого аспекта, управление, на основе признака пика коэффициентов взаимной корреляции многоканального сигнала, количеством целевых кадров, непрерывное появление которых является допустимым, включает в себя: только когда параметр отношения сигнал/шум многоканального сигнала не удовлетворяет заранее заданному условию отношения сигнал/шум, управление, на основе признака пика коэффициентов взаимной корреляции многоканального сигнала, количеством целевых кадров, непрерывное появление которых является допустимым; и способ дополнительно включает в себя: когда отношение сигнал/шум многоканального сигнала удовлетворяет условию отношения сигнал/шум, прекращение повторного использования значения ITD предыдущего кадра текущего кадра в качестве значения ITD текущего кадра.

Со ссылкой на первый аспект, в некоторых реализациях первого аспекта, управление, на основе характеристической информации многоканального сигнала, количеством целевых кадров, непрерывное появление которых является допустимым, включает в себя: определение, удовлетворяет ли параметр отношения сигнал/шум многоканального сигнала заранее заданному условию отношения сигнал/шум; и когда параметр отношения сигнал/шум многоканального сигнала не удовлетворяет условию отношения сигнал/шум, управление, на основе признака пика коэффициентов взаимной корреляции многоканального сигнала, количеством целевых кадров, непрерывное появление которых является допустимым; или когда отношение сигнал/шум многоканального сигнала удовлетворяет условию отношения сигнал/шум, прекращение повторного использования значения ITD предыдущего кадра текущего кадра в качестве значения ITD текущего кадра.

Со ссылкой на первый аспект, в некоторых реализациях первого аспекта, прекращение повторного использования значения ITD предыдущего кадра текущего кадра в качестве значения ITD текущего кадра включает в себя: увеличение численности целевых кадров, так чтобы значение численности целевых кадров было большим чем или равным пороговому значению численности целевых кадров, где численность целевых кадров используется для представления количества целевых кадров, которые появлялись непрерывно на данный момент, и пороговое значение численности целевых кадров используется для указания количества целевых кадров, непрерывное появление которых является допустимым.

Со ссылкой на первый аспект, в некоторых реализациях первого аспекта, определение значения ITD текущего кадра на основе начального значения ITD текущего кадра и количества целевых кадров, непрерывное появление которых является допустимым, включает в себя: определение значения ITD текущего кадра на основе начального значения ITD текущего кадра, численности целевых кадров и порогового значения численности целевых кадров, где численность целевых кадров используется для представления количества целевых кадров, которые появлялись непрерывно на данный момент, и пороговое значение численности целевых кадров используется для указания количества целевых кадров, непрерывное появление которых является допустимым.

Со ссылкой на первый аспект, в некоторых реализациях первого аспекта, параметр отношения сигнал/шум является модифицированным сегментным отношением сигнал/шум многоканального сигнала.

Согласно второму аспекту, предусмотрен кодер, включающий в себя блоки, выполненные с возможностью выполнять способ по первому аспекту.

Согласно третьему аспекту, предусмотрен кодер, включающий в себя память и процессор. Память выполнена с возможностью хранить программу, а процессор выполнен с возможностью исполнять программу. Когда программа исполняется, процессор выполняет способ по первому аспекту.

Согласно четвертому аспекту, предусмотрен машинно-читаемый носитель. Машинно-читаемый носитель хранит управляющую программу, которая должна исполняться кодером. Управляющая программа включает в себя команду, используемую для выполнения способа по первому аспекту.

Согласно данной заявке, влияние факторов окружающей среды, таких как фоновый шум, реверберация и речь многих участников, на точность и стабильность результата расчета значения ITD может быть уменьшено; и когда есть фоновый шум, реверберация или речь многих участников, или не очевидна гармоническая характеристика сигнала, стабильность значения ITD при кодировании PS улучшается, и ненужные переходы значения ITD сокращаются в наибольшей степени, тем самым, избегая нарушения межкадровой непрерывности подвергнутого понижающему микшированию сигнала и нестабильности акустического образа декодированного сигнала. В дополнение, согласно вариантам осуществления данной заявки, информация о фазе стереофонического сигнала может лучше сохраняться, и улучшается акустическое качество.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ

Фиг. 1 - блок-схема последовательности операций способа кодирования PS на предшествующем уровне техники;

фиг. 2 - блок-схема последовательности операций способа декодирования PS на предшествующем уровне техники;

фиг. 3 - общая блок-схема последовательности операций основанного на временной области способа извлечения параметра ITD на предшествующем уровне технике;

фиг. 4 - общая блок-схема последовательности операций основанного на частотной области способа извлечения параметра ITD на предшествующем уровне технике;

фиг. 5 - общая блок-схема последовательности операций способа для кодирования многоканального сигнала согласно варианту осуществления данной заявки;

фиг. 6 - общая блок-схема последовательности операций способа для кодирования многоканального сигнала согласно варианту осуществления данной заявки;

фиг. 7 - принципиальная структурная схема кодера согласно варианту осуществления данной заявки; и

фиг. 8 - принципиальная структурная схема кодера согласно варианту осуществления данной заявки.

ОПИСАНИЕ ВАРИАНТОВ ОСУЩЕСТВЛЕНИЯ

Следует отметить, что стереофонический сигнал также может упоминаться как многоканальный сигнал. Вышеизложенное кратко описывает функции и смысл ILD, ITD и IPD многоканального сигнала. Ради легкости понимания, нижеследующее описывает ILD, ITD и IPD подробнее, пользуясь примером, в котором сигнал, принятый первым микрофоном, является сигналом первого канала, а сигнал, принятый вторым микрофоном, является сигналом второго канала.

ILD описывает межканальную разность энергий между сигналом первого канала и сигналом второго канала. Например, если ILD является большим, чем 0, энергия сигнала первого канала выше энергии сигнала второго канала; если ILD равно 0, энергия сигнала первого канала равна энергии сигнала второго канала; или если ILD является меньшим, чем 0, энергия сигнала первого канала меньше энергии сигнала второго канала. Ради еще одного примера, если ILD является меньшим, чем 0, энергия сигнала первого канала выше энергии сигнала второго канала; если ILD равно 0, энергия сигнала первого канала равна энергии сигнала второго канала; или если ILD является большим, чем 0, энергия сигнала первого канала меньше энергии сигнала второго канала. Должно быть понятно, что вышеизложенные значения являются всего лишь примерами, и зависимость между значением ILD и разностью энергии между сигналом первого канала и сигналом второго канала может быть определена на основе опыта или в зависимости от фактической необходимости.

ITD описывает разновременность между сигналом первого канала и сигналом второго канала, то есть разность между моментом времени, в который звук, сформированный акустическим источником, достигает первого микрофона, и моментом времени, в который звук, сформированный акустическим источником, достигает второго микрофона. Например, если ITD является большим, чем 0, момент времени, в который звук, сформированный акустическим источником, достигает первого микрофона, находится раньше, чем момент времени, в который звук, сформированный акустическим источником, достигает второго микрофона; если ITD равно 0, звук, сформированный акустическим источником, достигает первого микрофона и второго микрофона одновременно; или если ITD является меньшим, чем 0, момент времени, в который звук, сформированный акустическим источником, достигает первого микрофона, находится позже, чем момент времени, в который звук, сформированный акустическим источником, достигает второго микрофона. Ради еще одного примера, если ITD является меньшим, чем 0, момент времени, в который звук, сформированный акустическим источником, достигает первого микрофона, находится раньше, чем момент времени, в который звук, сформированный акустическим источником, достигает второго микрофона; если ITD равно 0, звук, сформированный акустическим источником, достигает первого микрофона и второго микрофона одновременно; или если ITD является большим, чем 0, момент времени, в который звук, сформированный акустическим источником, достигает первого микрофона, находится позже, чем момент времени, в который звук, сформированный акустическим источником, достигает второго микрофона. Должно быть понятно, что вышеизложенные значения являются всего лишь примерами, и зависимость между значением ITD и разновременностью между сигналом первого канала и сигналом второго канала может быть определена на основе опыта или в зависимости от фактической необходимости.

IPD описывает межканальную разность фаз между сигналом первого канала и сигналом второго канала. Этот параметр обычно используется вместе с ITD и используется для восстановления информации о фазе многоканального сигнала на стороне декодера.

Из вышеизложенного можно узнать, что существующий способ расчета значения ITD вызывает разрывность значения ITD. Ради легкости понимания, со ссылкой на фиг. 3 и фиг. 4, нижеследующее подробно описывает существующий способ расчета значения ITD и его недостатки, используя пример, в котором многоканальный сигнал включает в себя сигнал левого канала и сигнал правого канала.

В предшествующем уровне техники, значение ITD в большинстве случаев рассчитывается на основе коэффициента взаимной корреляции многоканального сигнала. Может быть множество специфичных способов расчета. Например, значение ITD может рассчитываться во временной области, или значение ITD может рассчитываться в частотной области.

Фиг. 3 - общая блок-схема последовательности операций способа расчета, основанного на временной области значения ITD. Способ на фиг. 3 включает в себя следующие этапы:

310: Рассчитать значение ITD на основе сигнала временной области левого канала и сигнала временной области правого канала.

Более точно, значение ITD может быть рассчитано на основе сигнала временной области левого канала и сигнала временной области правого канала посредством использования функции взаимной корреляции временной области. Например, расчет выполняется в пределах диапазона 0≤i≤Tmax:

(1)

(2)

Если , T1 - эквивалент значения индекса, соответствующего max(Cn(i)); иначе, T1 - значение индекса, соответствующее max(Cp(i)), где i - значение индекса функции взаимной корреляции, - сигнал временной области левого канала, - сигнал временной области правого канала, Tmax соответствует максимальному значению ITD в случае разных частот выборки отсчетов, а Length - длина кадра.

320: Выполнить обработку квантования над значением ITD.

Фиг. 4 - общая блок-схема последовательности операций способа расчета, основанного на частотной области значения ITD. Способ на фиг. 4 включает в себя следующие этапы:

410: Выполнить время-частотное преобразование над сигналом временной области левого канала и сигналом временной области правого канала для получения сигнала частотной области левого канала и сигнала частотной области правого канала.

Более точно, при время-частотном преобразовании, сигнал временной области может преобразовываться в сигнал частотной области посредством использования технологии, такой как дискретное преобразование Фурье (ДПФ, DFT) или модифицированное дискретное косинусное преобразование (МДКП, MDCT).

Например, ДПФ может выполняться над поданным сигналом временной области левого канала и сигналом временной области правого канала посредством использования следующей формулы (3):

(3)

где n - значение индекса отсчета сигнала временной области, k - значение индекса элемента разрешения по частоте сигнала частотной области, L - длина время-частотного преобразования, и - сигнал временной области левого канала или сигнал временной области правого канала.

420: Извлечь значение ITD на основе сигнала частотной области левого канала и сигнала частотной области правого канала.

Более точно, L элементов разрешения по частоте (Frequency Bin) каждого из сигнала частотной области левого канала и сигнала частотной области правого канала могут быть разделены на N поддиапазонов. Диапазон значений элементов разрешения по частоте, включенных в bый поддиапазон из N поддиапазонов, может быть определен как . В диапазоне поиска , значение амплитуды может рассчитываться посредством использования следующей формулы:

(4)

В таком случае, значением ITD bого поддиапазона может быть , то есть, значение индекса отсчета, соответствующего максимальному значению, рассчитанному согласно формуле (4).

430: Выполнить обработку квантования над значением ITD.

В предшествующем уровне техники, если пиковое значение коэффициента взаимной корреляции многоканального сигнала в текущем кадре относительно мало, значение ITD, полученное посредством расчета, может считаться неточным. В этом случае, значение ITD текущего кадра обнуляется.

Вследствие влияния факторов, таких как фоновый шум, реверберация и речь многих участников, значение ITD, рассчитанное согласно существующей схеме кодирования PS, часто устанавливается в ноль и, следовательно, значение ITD совершает значительные переходы. Подвергнутый понижающему микшированию сигнал, рассчитанный на основе такого значения ITD, подвержен отсутствию межкадровой непрерывности, и акустический образ декодированного многоканального сигнала нестабилен. Следовательно, вызывается плохое акустическое качество многоканального сигнала.

Для решения проблемы, что значение ITD совершает значительные переходы, возможный способ обработки заключается в следующем: Когда значение ITD, полученное посредством расчета текущего кадра, считается неточным, значение ITD предыдущего кадра текущего кадра (предыдущим кадром у кадра более точно является предыдущий кадр, смежный с кадром) может повторно использоваться для текущего кадра, то есть, значение ITD предыдущего кадра текущего кадра используется в качестве значения ITD текущего кадра. При этом способе обработки, может хорошо решаться проблема, что значение ITD совершает значительные переходы. Однако, этот способ обработки может вызывать следующую проблему: Когда качество сигнала многоканального сигнала является относительно высоким, относительно точные значения ITD, полученные посредством расчета, многих текущих кадров также могут неуместно отбрасываться, и повторно используются значения ITD предыдущих кадров текущих кадров. Следовательно, теряется информация о фазе многоканального сигнала.

Чтобы избежать проблемы, что значение ITD совершает большие переходы, и лучшего сохранения информации о фазе многоканального сигнала, со ссылкой на фиг. 5, нижеследующее подробно описывает способ для кодирования многоканального сигнала согласно варианту осуществления данной заявки. Следует отметить, что, ради легкости описания, кадр, чье значение ITD повторно использует значение ITD предыдущего кадра, упоминается ниже как целевой кадр.

Способ на фиг. 5 включает в себя следующие этапы:

510: Получить многоканальный сигнал текущего кадра.

520: Определить начальное значение ITD текущего кадра.

Например, начальное значение ITD текущего кадра может рассчитываться основанным на временной области способом, показанным на фиг. 3. Ради еще одного примера, начальное значение ITD текущего кадра может рассчитываться основанным на частотной области способом, показанным на фиг. 4.

530: Управлять (или настроить), на основе характеристической информации многоканального сигнала, количеством целевых кадров, непрерывное появление которых является допустимым, где характеристическая информация включает в себя по меньшей мере одно из параметра отношения сигнал/шум многоканального сигнала и признака пика коэффициентов взаимной корреляции многоканального сигнала, и значение ITD предыдущего кадра целевого кадра повторно используется в качестве значения ITD целевого кадра.

Должно быть понятно, что, в этом варианте осуществления данной заявки, сначала рассчитывается начальное значение ITD текущего кадра, а затем значение ITD текущего кадра (или упоминается как фактическое значение ITD текущего кадра либо упоминается как окончательное значение ITD текущего кадра) определяется на основе начального значения ITD текущего кадра. Начальное значение ITD текущего кадра и значение ITD текущего кадра могут быть одним и тем же значением ITD или могут быть разными значениями ITD. Это зависит от конкретного правила расчета. Например, если начальное значение ITD является точным, начальное значение ITD может использоваться в качестве значения ITD текущего кадра. Ради еще одного примера, если начальное значение ITD является неточным, начальное значение ITD текущего кадра может отбрасываться, и значение ITD предыдущего кадра текущего кадра используется в качестве значения ITD текущего кадра.

Должно быть понятно, что признак пика коэффициентов взаимной корреляции многоканального сигнала текущего кадра может быть разностным признаком между значением амплитуды (или упоминается как абсолютная величина) пикового значения (или упоминается как максимальное значение) коэффициентов взаимной корреляции многоканального сигнала текущего кадра и значением амплитуды второго наибольшего значения коэффициентов взаимной корреляции многоканального сигнала; или может быть разностным признаком между значением амплитуды пикового значения коэффициентов взаимной корреляции многоканального сигнала текущего кадра и пороговым значением; или может быть разностным признаком между значением ITD, соответствующим индексу положения пика коэффициентов взаимной корреляции многоканального сигнала текущего кадра, и значением ITD предыдущих N кадров; или может быть разностным признаком (или упоминается как признак флуктуации) между индексом положения пика коэффициентов взаимной корреляции многоканального сигнала текущего кадра и индексом положения пика коэффициента взаимной корреляции многоканального сигнала предыдущих N кадров, где N - положительное целое число, большее чем или равное 1; или может быть комбинацией вышеизложенных признаков. Индекс положения пика коэффициентов взаимной корреляции многоканального сигнала текущего кадра может представлять собой то, какое значение из коэффициентов взаимной корреляции многоканального сигнала в текущем кадре является пиковым значением. Подобным образом, индекс положения пика коэффициента взаимной корреляции многоканального сигнала предыдущего кадра может представлять собой то, какое значение из коэффициентов взаимной корреляции многоканального сигнала в предыдущем кадре является пиковым значением. Например, то, что индекс положения пика коэффициентов взаимной корреляции многоканального сигнала текущего кадра имеет значение 5, указывает, что пятое значение из коэффициентов взаимной корреляции многоканального сигнала в текущем кадре является пиковым значением. Ради еще одного примера, то, что индекс положения пика коэффициентов взаимной корреляции многоканального сигнала предыдущего кадра имеет значение 4, указывает, что четвертое значение из коэффициентов взаимной корреляции многоканального сигнала в предыдущем кадре является пиковым значением.

Управление количеством целевых кадров, непрерывное появление которых является допустимым, на этапе 530 может быть реализовано посредством установки численности целевых кадров и/или порогового значения численности целевых кадров. Например, цель управления количеством целевых кадров, непрерывное появление которых является допустимым, может достигаться посредством принудительного изменения численности целевых кадров; или Цель управления количеством целевых кадров, непрерывное появление которых является допустимым, может достигаться посредством принудительного изменения порогового значения численности целевых кадров; или Естественно, цель управления количеством целевых кадров, непрерывное появление которых является допустимым, может достигаться посредством принудительного изменения как численности целевых кадров, так и порогового значения численности целевых кадров. Численность целевых кадров может использоваться для указания количества целевых кадров, которые появлялись непрерывно на данный момент, а пороговое значение численности целевых кадров может использоваться для указания количества целевых кадров, непрерывное появление которых является допустимым.

540: Определить значение ITD текущего кадра на основе начального значения ITD текущего кадра и количества целевых кадров, непрерывное появление которых является допустимым.

550: Кодировать многоканальный сигнал на основе значения ITD текущего кадра.

Например, могут выполняться операции, такие как монофоническое кодирование звука, пространственное параметрическое кодирование и мультиплексирование битовых потоков, показанные на фиг. 1. Что касается специфичной схемы кодирования, обратитесь к предшествующему уровню техники.

Согласно этому варианту осуществления данной заявки, влияние факторов окружающей среды, таких как фоновый шум, реверберация и речь многих участников, на точность и стабильность результата расчета значения ITD может быть уменьшено; и когда есть фоновый шум, реверберация или речь многих участников, или не очевидна гармоническая характеристика сигнала, стабильность значения ITD при кодировании PS улучшается, и ненужные переходы значения ITD сокращаются в наибольшей степени, тем самым, избегая нарушения межкадровой непрерывности подвергнутого понижающему микшированию сигнала и нестабильности акустического образа декодированного сигнала. В дополнение, согласно этому варианту осуществления данной заявки, информация о фазе стереофонического сигнала может лучше сохраняться, и улучшается акустическое качество.

Следует отметить, что многоканальный сигнал, фигурирующий ниже, является многоканальным сигналом текущего кадра, если не указано иное, что многоканальный сигнал является многоканальным сигналом предыдущего кадра или предыдущих N кадров.

Перед этапом 530, способ на фиг. 5 дополнительно может включать в себя: определение признака пика коэффициентов взаимной корреляции многоканального сигнала на основе амплитуды пикового значения коэффициентов взаимной корреляции многоканального сигнала.

Более точно, доверительный параметр амплитуды пика может определяться на основе амплитуды пикового значения коэффициентов взаимной корреляции многоканального сигнала, где доверительный параметр амплитуды пика может использоваться для представления доверительного уровня амплитуды пикового значения коэффициентов взаимной корреляции многоканального сигнала. Кроме того, этап 530 может включать в себя: когда доверительный параметр амплитуды пика удовлетворяет заранее заданному условию, уменьшение количества целевых кадров, непрерывное появление которых является допустимым; или когда доверительный параметр амплитуды пика не удовлетворяет заранее заданному условию, сохранение количества целевых кадров, непрерывное появление которых является допустимым, неизменным. Например, то, что доверительный параметр амплитуды пика удовлетворяет заранее заданному условию, может состоять в том, что значение доверительного параметра амплитуды пика больше порогового значения, или может состоять в том, что значение доверительного параметра амплитуды пика находится в пределах заранее заданного диапазона.

В этом варианте осуществления данной заявки, доверительный параметр амплитуды пика может быть определен множеством способов.

Например, доверительный параметр амплитуды пика может быть разностью между значением амплитуды пикового значения коэффициентов взаимной корреляции многоканального сигнала и значением амплитуды второго наибольшего значения коэффициентов взаимной корреляции многоканального сигнала. Более точно, большая разница указывает на более высокий доверительный уровень амплитуды пикового значения.

Ради еще одного примера, доверительный параметр амплитуды пика может быть отношением разности между значением амплитуды пикового значения коэффициентов взаимной корреляции многоканального сигнала и значением амплитуды второго наибольшего значения коэффициентов взаимной корреляции многоканального сигнала к значению амплитуды пикового значения. Более точно, большее отношение указывает на более высокий доверительный уровень амплитуды пикового значения.

Ради еще одного примера, доверительный параметр амплитуды пика может быть разностью между значением амплитуды пикового значения коэффициентов взаимной корреляции многоканального сигнала и целевым значением амплитуды. Более точно, большее абсолютное значение разности указывает на более высокий доверительный уровень амплитуды пикового значения. Целевое значение амплитуды может выбираться на основе опыта или в зависимости от реального случая, например, может быть постоянным значением или может быть значением амплитуды коэффициента взаимной корреляции заранее заданного места (место может быть представлено посредством использования индекса коэффициента взаимной корреляции) в текущем кадре.

Ради еще одного примера, доверительный параметр амплитуды пика может быть отношением разности между значением амплитуды пикового значения коэффициентов взаимной корреляции многоканального сигнала и целевым значением амплитуды к значению амплитуды пикового значения. Более точно, большее отношение указывает на более высокий доверительный уровень амплитуды пикового значения. Целевое значение амплитуды может выбираться на основе опыта или в зависимости от реального случая, например, может быть постоянным значением или может быть значением амплитуды коэффициента взаимной корреляции заранее заданного места в текущем кадре.

По выбору, в некоторых вариантах осуществления, перед этапом 530, способ на фиг. 5 дополнительно может включать в себя: определение признака пика коэффициентов взаимной корреляции многоканального сигнала текущего кадра на основе индекса положения пика коэффициентов взаимной корреляции многоканального сигнала.

Например, параметр флуктуации положения пика может определяться на основе значения ITD, соответствующего индексу положения пика коэффициентов взаимной корреляции многоканального сигнала, и значения ITD предыдущих N кадров текущего кадра, где параметр флуктуации положения пика может использоваться для представления разности между значением ITD, соответствующим индексу положения пика коэффициентов взаимной корреляции многоканального сигнала, и значением ITD предыдущего кадра текущего кадра, и N - положительное целое число, большее чем или равное 1.

Ради еще одного примера, параметр флуктуации положения пика может определяться на основе индекса положения пика коэффициентов взаимной корреляции многоканального сигнала и индекса положения пика коэффициента взаимной корреляции многоканального сигнала предыдущих N кадров текущего кадра, где параметр флуктуации положения пика может использоваться для представления разности между индексом положения пика коэффициентов взаимной корреляции многоканального сигнала и индексом положения пика коэффициентов взаимной корреляции многоканального сигнала предыдущих N кадров текущего кадра.

Кроме того, этап 530 может включать в себя: когда параметр флуктуации положения пика удовлетворяет заранее заданному условию, уменьшение количества целевых кадров, непрерывное появление которых является допустимым; или когда параметр флуктуации положения пика не удовлетворяет заранее заданному условию, сохранение количества целевых кадров, непрерывное появление которых является допустимым, неизменным. Например, то, что параметр флуктуации положения пика удовлетворяет заранее заданному условию, может состоять в том, что значение параметра флуктуации положения пика больше порогового значения, или может состоять в том, что значение параметра флуктуации положения пика находится в пределах заранее заданного диапазона. Например, когда параметр флуктуации положения пика определяется на основе значения ITD, соответствующего индексу положения пика коэффициентов взаимной корреляции многоканального сигнала, и значения ITD предыдущего кадра текущего кадра, то, что параметр флуктуации положения пика удовлетворяет заранее заданному условию может состоять в том, что значение параметра флуктуации положения пика больше порогового значения, где пороговое значение может быть установлено в 4, 5, 6 или другое эмпирическое значение; или может состоять в том, что значение параметра флуктуации положения пика находится в пределах заранее заданного диапазона, где заранее заданный диапазон может быть установлен в [6, 128] или другое эмпирическое значение. Более точно, пороговое значение или диапазон значений могут устанавливаться в зависимости от разных способов расчета параметров, разных требований, разных сценариев применения, и тому подобного.

В этом варианте осуществления данной заявки, параметр флуктуации положения пика может быть определен множеством способов.

Например, параметр флуктуации положения пика может быть абсолютным значением разности между значением ITD, соответствующим индексу положения пика коэффициентов взаимной корреляции многоканального сигнала текущего кадра, и значением ITD, соответствующим индексу положения пика коэффициентов взаимной корреляции многоканального сигнала предыдущего кадра текущего кадра.

Ради еще одного примера, параметр флуктуации положения пика может быть абсолютным значением разности между значением ITD, соответствующим индексу положения пика коэффициентов взаимной корреляции многоканального сигнала, текущего кадра и значением ITD предыдущего кадра текущего кадра.

Ради еще одного примера, параметр флуктуации положения пика может быть дисперсией разности между значением ITD, соответствующим индексу положения пика коэффициентов взаимной корреляции многоканального сигнала, текущего кадра и значением ITD предыдущих N кадров, где N - целое число, большее чем или равное 2.

По выбору, в некоторых вариантах осуществления, перед этапом 530, способ на фиг. 5 дополнительно может включать в себя: определение признака пика коэффициентов взаимной корреляции многоканального сигнала на основе амплитуды пикового значения коэффициентов взаимной корреляции многоканального сигнала и индекса положения пика коэффициентов взаимной корреляции многоканального сигнала.

Более точно, доверительный параметр амплитуды пика может определяться на основе амплитуды пикового значения коэффициентов взаимной корреляции многоканального сигнала; параметр флуктуации положения пика определяется на основе значения ITD, соответствующего индексу положения пика коэффициентов взаимной корреляции многоканального сигнала, и значения ITD предыдущего кадра; и признак пика коэффициентов взаимной корреляции многоканального сигнала определяется на основе доверительного параметра амплитуды пика и параметра флуктуации положения пика. Что касается способа определения доверительного параметра амплитуды пика и параметра флуктуации положения пика, обратитесь к вышеизложенному варианту осуществления. Подробности повторно в материалах настоящей заявки не описаны.

Кроме того, в этом варианте осуществления, этап 530 может включать в себя: если доверительный параметр амплитуды пика и параметр флуктуации положения пика удовлетворяют заранее заданному условию, управление количеством целевых кадров, непрерывное появление которых является допустимым.

Например, когда доверительный параметр амплитуды пика больше заранее заданного доверительного порогового значения амплитуды пика, а параметр флуктуации положения пика больше заранее заданного порогового значения флуктуации положения пика, количество целевых кадров, непрерывное появление которых является допустимым, уменьшается. Более точно, например, когда доверительным параметром амплитуды пика является отношение разности между значением амплитуды пикового значения коэффициентов взаимной корреляции многоканального сигнала и значением амплитуды второго наибольшего значения коэффициентов взаимной корреляции многоканального сигнала к значению амплитуды пикового значения, доверительное пороговое значение амплитуды пика может устанавливаться в 0,1, 0,2, 0,3 или другое эмпирическое значение. Когда параметром флуктуации положения пика является абсолютное значение разности между значением ITD, соответствующим индексу положения пика коэффициентов взаимной корреляции многоканального сигнала текущего кадра, и значением ITD, соответствующим индексу положения пика коэффициентов взаимной корреляции многоканального сигнала предыдущего кадра текущего кадра, пороговое значение флуктуации положения пика может быть установлено в 4, 5, 6 или другое эмпирическое значение. Более точно, пороговое значение или диапазон значений могут устанавливаться в зависимости от разных способов расчета параметров, разных требований, разных сценариев применения, и тому подобного.

Ради еще одного примера, когда доверительный параметр амплитуды пика находится между двумя пороговыми значениями, а параметр флуктуации положения пика больше заранее заданного порогового значения флуктуации положения пика, количество целевых кадров, непрерывное появление которых является допустимым, уменьшается.

Ради еще одного примера, когда значение доверительного параметра амплитуды пика больше заранее заданного доверительного порогового значения амплитуды пика, а параметр флуктуации положения пика находится между двумя пороговыми значениями, количество целевых кадров, непрерывное появление которых является допустимым, уменьшается.

Следует отметить, что, в некоторых вариантах осуществления, доверительный параметр амплитуды пика и/или параметр флуктуации положения пика, описанные выше, могут упоминаться как параметры/параметр, представляющие собой степень стабильности положения пика коэффициентов взаимной корреляции многоканального сигнала. В этом случае, этап 530 может включать в себя: если степень стабильности положения пика коэффициентов взаимной корреляции многоканального сигнала удовлетворяет заранее заданному условию, уменьшение количества целевых кадров, непрерывное появление которых является допустимым.

Следует отметить, что способ определения применительно к тому, что параметр, представляющий степень стабильности положения пика коэффициентов взаимной корреляции многоканального сигнала удовлетворяет заранее заданному условию, в этом варианте осуществления данной заявки особо не ограничен.

По выбору, то, что степень стабильности положения пика коэффициентов взаимной корреляции многоканального сигнала удовлетворяет заранее заданному условию, может состоять в том, что: значение одного или более параметров, представляющих собой степень стабильности положения пика коэффициентов взаимной корреляции многоканального сигнала находится в пределах заранее заданного диапазона значений, или значение одного или более параметров, представляющих собой степень стабильности положения пика коэффициентов взаимной корреляции многоканального сигнала, находятся вне заранее заданного диапазона значений. Например, когда степень стабильности положения пика коэффициентов взаимной корреляции многоканального сигнала представлена параметром флуктуации положения пика, и способ для расчета параметра флуктуации положения пика основан на абсолютном значении разности между значением ITD, соответствующим индексу положения пика коэффициентов взаимной корреляции многоканального сигнала текущего кадра, и значением ITD, соответствующим индексу положения пика коэффициентов взаимной корреляции многоканального сигнала предыдущего кадра текущего кадра, заранее заданный диапазон значений может быть установлен, как изложено ниже: Параметр флуктуации положения пика является большим, чем 5, или другим эмпирическим значением. Ради еще одного примера, когда степень стабильности положения пика коэффициентов взаимной корреляции многоканального сигнала представлена параметром флуктуации положения пика и доверительным параметром амплитуды пика, способ для расчета параметра флуктуации положения пика основан на абсолютном значении разности между значением ITD, соответствующим индексу положения пика коэффициентов взаимной корреляции многоканального сигнала текущего кадра, и значением ITD, соответствующим индексу положения пика коэффициентов взаимной корреляции многоканального сигнала предыдущего кадра текущего кадра, и доверительным параметром амплитуды пика является отношение разности между значением амплитуды пикового значения коэффициентов взаимной корреляции многоканального сигнала и значением амплитуды второго наибольшего значения коэффициентов взаимной корреляции многоканального сигнала к значению амплитуды пикового значения, заранее заданный диапазон значений может быть установлен, как изложено ниже: Параметр флуктуации положения пика является большим, чем 5, а доверительный параметр амплитуды пика больше 0,2; или может быть установлен в другой эмпирический диапазон значений. Более точно, диапазон значений может устанавливаться в зависимости от разных способов расчета параметров, разных требований, разных сценариев применения, и тому подобного.

Нижеследующее подробно описывает, каким образом управлять, на основе параметра отношения сигнал/шум многоканального сигнала, количеством целевых кадров, непрерывное появление которых является допустимым.

Параметр отношения сигнал/шум многоканального сигнала может использоваться для представления отношения сигнал/шум многоканального сигнала.

Должно быть понятно, что параметр отношения сигнал/шум многоканального сигнала может быть представлен одним или более параметрами. Специфичный способ выбора параметра не ограничен в этом варианте осуществления данной заявки. Например, параметр отношения сигнал/шум многоканального сигнала может быть представлен по меньшей мере одним из отношения сигнал/шум поддиапазона, модифицированного отношения сигнал/шум поддиапазона, сегментного отношения сигнал/шум, модифицированного сегментного отношения сигнал/шум, отношения сигнал/шум полного диапазона, модифицированного отношения сигнал/шум полного диапазона, и другим параметром, который может представлять собой признак отношения сигнал/шум многоканального сигнала.

Должно быть понятно, что способ определения параметра отношения сигнал/шум многоканального сигнала особо не ограничен этим вариантом осуществления данной заявки. Например, параметр отношения сигнал/шум многоканального сигнала может рассчитываться посредством использования всего многоканального сигнала. Ради еще одного примера, параметр отношения сигнал/шум многоканального сигнала может рассчитываться посредством использования нескольких сигналов из многоканального сигнала, то есть, отношение сигнал/шум многоканального сигнала представляется посредством использования отношений сигнал/шум нескольких сигналов. Ради еще одного примера, сигнал любого канала может адаптивно выбираться из многоканального сигнала для выполнения расчета, то есть, отношение сигнал/шум многоканального сигнала представляется посредством использования отношения сигнал/шум сигнала канала. Ради еще одного примера, взвешенное усреднение сначала может выполняться над данными, представляющими собой многоканальный сигнал, для формирования нового сигнала, а затем, отношение сигнал/шум многоканального сигнала представляется посредством использования отношения сигнал/шум нового сигнала.

Нижеследующее описывает, пользуясь примером, в котором многоканальный сигнал включает в себя сигнал левого канала и сигнал правого канала, способ расчета отношения сигнал/шум многоканального сигнала.

Например, время-частотное преобразование сначала может выполняться над сигналом временной области левого канала и сигналом временной области правого канала для получения сигнала частотной области левого канала и сигнала частотной области правого канала; взвешенное усреднение выполняется над амплитудным спектром сигнала частотной области левого канала и амплитудным спектром сигнала частотной области правого канала для получения усредненного амплитудного спектра сигнала частотной области левого канала и сигнала частотной области правого канала; и затем, модифицированное сегментное отношение сигнал/шум рассчитывается на основе усредненного амплитудного спектра и используется в качестве параметра, представляющего собой признак отношения сигнал/шум многоканального сигнала.

Ради еще одного примера, время-частотное преобразование сначала может выполняться над сигналом временной области левого канала для получения сигнала частотной области левого канала, а затем, модифицированное сегментное отношение сигнал/шум сигнала частотной области левого канала рассчитывается на основе амплитудного спектра сигнала частотной области левого канала. Подобным образом, время-частотное преобразование сначала может выполняться над сигналом временной области правого канала для получения сигнала частотной области правого канала, а затем, модифицированное сегментное отношение сигнал/шум сигнала частотной области правого канала рассчитывается на основе амплитудного спектра сигнала частотной области правого канала. Затем, среднее значение модифицированных сегментных отношений сигнал/шум сигнала частотной области левого канала и сигнала частотной области правого канала рассчитывается на основе модифицированного сегментного отношения сигнал/шум сигнала частотной области левого канала и модифицированного сегментного отношения сигнал/шум сигнала частотной области правого канала, и используется в качестве параметра, представляющего собой признак отношения сигнал/шум многоканального сигнала.

Управление, на основе параметра отношения сигнал/шум многоканального сигнала, количеством целевых кадров, непрерывное появление которых является допустимым, может включать в себя: когда параметр отношения сигнал/шум многоканального сигнала удовлетворяет заранее заданному условию, уменьшение количества целевых кадров, непрерывное появление которых является допустимым; или когда параметр отношения сигнал/шум многоканального сигнала не удовлетворяет заранее заданному условию, сохранение количества целевых кадров, непрерывное появление которых является допустимым, неизменным. Например, когда значение параметра отношения сигнал/шум многоканального сигнала больше заранее заданного порогового значения, количество целевых кадров, непрерывное появление которых является допустимым, уменьшается. Ради еще одного примера, когда значение параметра отношения сигнал/шум многоканального сигнала находится в пределах заранее заданного диапазона значений, количество целевых кадров, непрерывное появление которых является допустимым, уменьшается. Ради еще одного примера, когда значение параметра отношения сигнал/шум многоканального сигнала находится вне заранее заданного диапазона значений, количество целевых кадров, непрерывное появление которых является допустимым, уменьшается. Например, когда параметр отношения сигнал/шум многоканального сигнала является сегментным отношением сигнал/шум, заранее заданным пороговым значением может быть 6000 или другое эмпирическое значение, а заранее заданный диапазон значений может быть больше 6000 и меньше 3000000 или другим эмпирическим диапазоном значений. Более точно, пороговое значение или диапазон значений могут устанавливаться в зависимости от разных способов расчета параметров, разных требований, разных сценариев применения, и тому подобного.

Вышеизложенное главным образом описывает, каким образом управлять, на основе признака пика коэффициентов взаимной корреляции многоканального сигнала или параметра отношения сигнал/шум многоканального сигнала, количеством целевых кадров, непрерывное появление которых является допустимым. Нижеследующее подробно описывает, каким образом управлять, на основе параметра отношения сигнал/шум многоканального сигнала и признака пика коэффициентов взаимной корреляции многоканального сигнала, количеством целевых кадров, непрерывное появление которых является допустимым.

Более точно, когда параметр отношения сигнал/шум многоканального сигнала удовлетворяет заранее заданному условию, и доверительный параметр амплитуды пика и/или параметр флуктуации положения пика коэффициентов взаимной корреляции многоканального сигнала удовлетворяет заранее заданному условию, количество целевых кадров, непрерывное появление которых является допустимым, может быть уменьшено.

Например, когда значение параметра отношения сигнал/шум многоканального сигнала больше первого порогового значения и меньше или равно второму пороговому значению, доверительный параметр амплитуды пика больше третьего порогового значения, а параметр флуктуации положения пика больше четвертого порогового значения, количество целевых кадров, непрерывное появление которых является допустимым, уменьшается. Например, когда параметр отношения сигнал/шум многоканального сигнала является сегментным отношением сигнал/шум, первым пороговым значением может быть 5000, 6000, 7000 или другое эмпирическое значение; а вторым пороговым значением может быть 2900000, 3000000, 3100000 или другое эмпирическое значение. Когда доверительным параметром амплитуды пика является отношение разности между значением амплитуды пикового значения коэффициентов взаимной корреляции многоканального сигнала и значением амплитуды второго наибольшего значения коэффициентов взаимной корреляции многоканального сигнала к значению амплитуды пикового значения, третье пороговое значение может быть установлено в 0,1, 0,2, 0,3 или другое эмпирическое значение. Когда параметром флуктуации положения пика является абсолютное значение разности между значением ITD, соответствующим индексу положения пика коэффициентов взаимной корреляции многоканального сигнала текущего кадра, и значением ITD, соответствующим индексу положения пика коэффициентов взаимной корреляции многоканального сигнала предыдущего кадра текущего кадра, четвертое пороговое значение может быть установлено в 4, 5, 6 или другое эмпирическое значение. Более точно, пороговые значения могут устанавливаться в зависимости от разных способов расчета параметров, разных требований, разных сценариев применения, и тому подобного.

Ради еще одного примера, когда значение параметра отношения сигнал/шум многоканального сигнала больше или равно первому пороговому значению и меньше или равно второму пороговому значению, а доверительный параметр амплитуды пика меньше пятого порогового значения, количество целевых кадров, непрерывное появление которых является допустимым, уменьшается. Например, когда параметр отношения сигнал/шум многоканального сигнала является сегментным отношением сигнал/шум, первым пороговым значением может быть 5000, 6000, 7000 или другое эмпирическое значение; а вторым пороговым значением может быть 2900000, 3000000, 3100000 или другое эмпирическое значение. Когда доверительным параметром амплитуды пика является отношение разности между значением амплитуды пикового значения коэффициентов взаимной корреляции многоканального сигнала и значением амплитуды второго наибольшего значения коэффициентов взаимной корреляции многоканального сигнала к значению амплитуды пикового значения, пятое пороговое значение может быть установлено в 0,3, 0,4, 0,5 или другое эмпирическое значение. Более точно, пороговые значения могут устанавливаться в зависимости от разных способов расчета параметров, разных требований, разных сценариев применения, и тому подобного.

Должно быть понятно, что есть много способов уменьшения количества целевых кадров, непрерывное появление которых является допустимым. В некоторых вариантах осуществления, значение, используемое для указания количества целевых кадров, непрерывное появление которых является допустимым, может быть предварительно сконфигурировано, и цель сокращения количества целевых кадров, непрерывное появление которых является допустимым, может достигаться уменьшением значения.

В некоторых вариантах осуществления, могут быть предварительно сконфигурированы численность целевых кадров и пороговое значение численности целевых кадров. Численность целевых кадров может использоваться для указания количества целевых кадров, которые появлялись непрерывно на данный момент, а пороговое значение численности целевых кадров может использоваться для указания количества целевых кадров, непрерывное появление которых является допустимым. Более точно, количество целевых кадров, непрерывное появление которых является допустимым, уменьшается посредством настройки по меньшей мере одного из численности целевых кадров и порогового значения численности целевых кадров. Например, количество целевых кадров, непрерывное появление которых является допустимым, может уменьшаться посредством увеличения (или упоминается как принудительное увеличение) численности целевых кадров. Ради еще одного примера, количество целевых кадров, непрерывное появление которых является допустимым, может уменьшаться посредством уменьшения порогового значения численности целевых кадров. Ради еще одного примера, количество целевых кадров, непрерывное появление которых является допустимым, может уменьшаться посредством увеличения численности целевых кадров и уменьшения порогового значения численности целевых кадров.

Вышеизложенное описывает способ управления, на основе признака пика коэффициентов взаимной корреляции многоканального сигнала, количеством целевых кадров, непрерывное появление которых является допустимым. В некоторых вариантах осуществления, перед тем, как количество целевых кадров, непрерывное появление которых является допустимым, управляется на основе признака пика коэффициентов взаимной корреляции многоканального сигнала, сначала может определяться, удовлетворяет ли параметр отношения сигнал/шум многоканального сигнала заранее заданному условию отношения сигнал/шум.

Если параметр отношения сигнал/шум многоканального сигнала не удовлетворяет заранее заданному условию отношения сигнал/шум, количество целевых кадров, непрерывное появление которых является допустимым, управляется на основе признака пика коэффициентов взаимной корреляции многоканального сигнала; или если отношение сигнал/шум многоканального сигнала удовлетворяет условию отношения сигнал/шум, повторное использование значения ITD предыдущего кадра текущего кадра в качестве значения ITD текущего кадра может сразу прекращаться.

В качестве альтернативы, если параметр отношения сигнал/шум многоканального сигнала удовлетворяет заранее заданному условию отношения сигнал/шум, количество целевых кадров, непрерывное появление которых является допустимым, управляется на основе признака пика коэффициентов взаимной корреляции многоканального сигнала; или если отношение сигнал/шум многоканального сигнала не удовлетворяет условию отношения сигнал/шум, повторное использование значения ITD предыдущего кадра текущего кадра в качестве значения ITD текущего кадра может сразу прекращаться.

Нижеследующее подробно описывает способ определения, удовлетворяет ли отношение сигнал/шум многоканального сигнала условию отношения сигнал/шум, и каким образом следует прекращать повторное использование значения ITD предыдущего кадра текущего кадра в качестве значения ITD текущего кадра.

Во-первых, параметр отношения сигнал/шум многоканального сигнала может быть представлен одним или более параметров. Специфичный способ выбора параметра не ограничен в этом варианте осуществления данной заявки. Например, параметр отношения сигнал/шум многоканального сигнала может быть представлен по меньшей мере одним из отношения сигнал/шум поддиапазона, модифицированного отношения сигнал/шум поддиапазона, сегментного отношения сигнал/шум, модифицированного сегментного отношения сигнал/шум, отношения сигнал/шум полного диапазона, модифицированного отношения сигнал/шум полного диапазона и другим параметром, который может представлять собой признак отношения сигнал/шум многоканального сигнала.

Во-вторых, способ определения параметра отношения сигнал/шум многоканального сигнала особо не ограничен этим вариантом осуществления данной заявки. Например, параметр отношения сигнал/шум многоканального сигнала может рассчитываться посредством использования всего многоканального сигнала. Ради еще одного примера, параметр отношения сигнал/шум многоканального сигнала может рассчитываться посредством использования нескольких сигналов из многоканального сигнала, то есть, отношение сигнал/шум многоканального сигнала представляется посредством использования отношений сигнал/шум нескольких сигналов. Ради еще одного примера, сигнал любого канала может адаптивно выбираться из многоканального сигнала для выполнения расчета, то есть, отношение сигнал/шум многоканального сигнала представляется посредством использования отношения сигнал/шум сигнала канала. Ради еще одного примера, взвешенное усреднение сначала может выполняться над данными, представляющими собой многоканальный сигнал, для формирования нового сигнала, а затем, отношение сигнал/шум многоканального сигнала представляется посредством использования отношения сигнал/шум нового сигнала.

Нижеследующее описывает, пользуясь примером, в котором многоканальный сигнал включает в себя сигнал левого канала и сигнал правого канала, способ расчета отношения сигнал/шум многоканального сигнала.

Например, время-частотное преобразование сначала может выполняться над сигналом временной области левого канала и сигналом временной области правого канала для получения сигнала частотной области левого канала и сигнала частотной области правого канала; взвешенное усреднение выполняется над амплитудным спектром сигнала частотной области левого канала и амплитудным спектром сигнала частотной области правого канала для получения усредненного амплитудного спектра сигнала частотной области левого канала и сигнала частотной области правого канала; и затем, модифицированное сегментное отношение сигнал/шум рассчитывается на основе усредненного амплитудного спектра и используется в качестве параметра, представляющего собой признак отношения сигнал/шум многоканального сигнала.

Ради еще одного примера, время-частотное преобразование сначала может выполняться над сигналом временной области левого канала для получения сигнала частотной области левого канала, а затем, модифицированное сегментное отношение сигнал/шум сигнала частотной области левого канала рассчитывается на основе амплитудного спектра сигнала частотной области левого канала. Подобным образом, время-частотное преобразование сначала может выполняться над сигналом временной области правого канала для получения сигнала частотной области правого канала, а затем, модифицированное сегментное отношение сигнал/шум сигнала частотной области правого канала рассчитывается на основе амплитудного спектра сигнала частотной области правого канала. Затем, среднее значение модифицированных сегментных отношений сигнал/шум сигнала частотной области левого канала и сигнала частотной области правого канала рассчитывается на основе модифицированного сегментного отношения сигнал/шум сигнала частотной области левого канала и модифицированного сегментного отношения сигнал/шум сигнала частотной области правого канала, и используется в качестве параметра, представляющего собой признак отношения сигнал/шум многоканального сигнала.

То, когда отношение сигнал/шум многоканального сигнала удовлетворяет условию отношения сигнал/шум, значение ITD предыдущего кадра текущего кадра в качестве значения ITD текущего кадра прекращает повторно использоваться, может включать в себя: когда значение параметра отношения сигнал/шум многоканального сигнала больше заранее заданного порогового значения, прекращение повторного использования значения ITD предыдущего кадра текущего кадра в качестве значения ITD текущего кадра; ради еще одного примера, когда значение параметра отношения сигнал/шум многоканального сигнала находится в пределах заранее заданного диапазона значений, прекращение повторного использования значения ITD предыдущего кадра текущего кадра в качестве значения ITD текущего кадра; ради еще одного примера, когда значение параметра отношения сигнал/шум многоканального сигнала находится вне заранее заданного диапазона значений, прекращение повторного использования значения ITD предыдущего кадра текущего кадра в качестве значения ITD текущего кадра.

Кроме того, в некоторых вариантах осуществления, прекращение повторного использования значения ITD предыдущего кадра текущего кадра может включать в себя: увеличение (или упоминается как принудительное увеличение) численности целевых кадров, так чтобы значение численности целевых кадров было большим чем или равным пороговому значению численности целевых кадров. В некоторых других вариантах осуществления, прекращение повторного использования значения ITD предыдущего кадра текущего кадра в качестве значения ITD текущего кадра может включать в себя: установку флажкового бита прекращения, так чтобы некоторые значения флажкового бита прекращения представляли собой прекращение повторного использования значения ITD предыдущего кадра текущего кадра в качестве значения ITD текущего кадра. Например, если флажковый бит прекращения установлен в 1, значение ITD предыдущего кадра текущего кадра прекращает повторно использоваться в качестве значения ITD текущего кадра; или если флажковый бит прекращения установлен в 0, значению ITD предыдущего кадра текущего кадра предоставлена возможность повторно использоваться в качестве значения ITD текущего кадра.

Со ссылкой на конкретные примеры, нижеследующее подробно описывает способ прекращения повторного использования значения ITD предыдущего кадра текущего кадра в качестве значения ITD текущего кадра.

Например, когда значение параметра отношения сигнал/шум многоканального сигнала меньше порогового значения, значение численности целевых кадров принудительно модифицируется, так чтобы модифицированное значение было большим чем или равным пороговому значению численности целевых кадров.

Ради еще одного примера, когда значение параметра отношения сигнал/шум многоканального сигнала больше порогового значения, значение численности целевых кадров принудительно модифицируется, так чтобы модифицированное значение было большим чем или равным пороговому значению численности целевых кадров.

Ради еще одного примера, независимо от того, является ли значение параметра отношения сигнал/шум многоканального сигнала меньшим, чем пороговое значение или большим, чем другое пороговое значение, значение численности целевых кадров принудительно модифицируется, так чтобы модифицированное значение было большим чем или равным пороговому значению численности целевых кадров.

Ради еще одного примера, когда значение параметра отношения сигнал/шум многоканального сигнала меньше порогового значения или больше другого порогового значения, флажковый бит прекращения устанавливается в 1.

Следует отметить, что может быть множество способов определения значения ITD текущего кадра на этапе 540. Это особо не ограничено в этом варианте осуществления данной заявки.

По выбору, в некоторых вариантах осуществления, значение ITD текущего кадра может определяться на основе всестороннего рассмотрения факторов, таких как точность начального значения ITD текущего кадра и качество целевых кадров, непрерывное появление которых является допустимым (количество целевых кадров, непрерывное появление которых является допустимым, может быть количеством, полученным после того, как выполнены управление или настройка на основе этапа 530).

По выбору, в некоторых других вариантах осуществления, значение ITD текущего кадра может определяться на основе всестороннего рассмотрения факторов, таких как точность начального значения ITD текущего кадра, качество целевых кадров, непрерывное появление которых является допустимым (количество целевых кадров, непрерывное появление которых является допустимым, может быть количеством, полученным после того, как выполнена настройка на основе этапа 530), и того, является ли текущий кадр непрерывным речевым кадром. Например, если доверительный уровень начального значения ITD текущего кадра высок, начальное значение ITD текущего кадра может непосредственно использоваться в качестве значения ITD текущего кадра. Ради еще одного примера, когда доверительный уровень начального значения ITD текущего кадра низок, и текущий кадр удовлетворяет условию для повторного использования значения ITD предыдущего кадра текущего кадра, значение ITD предыдущего кадра текущего кадра может повторно использоваться для текущего кадра.

Должно быть понятно, что может быть множество способов расчета доверительного уровня начального значения ITD текущего кадра. Это особо не ограничено в этом варианте осуществления данной заявки.

Например, если значение коэффициента взаимной корреляции, которое соответствует начальному значению ITD, и которое находится среди значений коэффициентов взаимной корреляции, больше заранее заданного порогового значения, может считаться, что доверительный уровень начального значения ITD высок.

Ради еще одного примера, если разность между значением коэффициента взаимной корреляции, которое соответствует начальному значению ITD, и которое находится среди значений коэффициентов взаимной корреляции многоканального сигнала, и вторым наибольшим значением коэффициентов взаимной корреляции, больше заранее заданного порогового значения, может считаться, что доверительный уровень начального значения ITD высок.

Ради еще одного примера, если значение амплитуды пикового значения коэффициентов взаимной корреляции больше заранее заданного порогового значения, может считаться, что доверительный уровень начального значения ITD высок.

Должно быть понятно, что может множество способов определения того, удовлетворяет ли текущий кадр условию для повторного использования значения ITD предыдущего кадра текущего кадра.

По выбору, в некоторых вариантах осуществления, то, что текущий кадр удовлетворяет условию для повторного использования значения ITD предыдущего кадра текущего кадра, может состоять в том, что: Численность целевых кадров является меньшей, чем пороговое значение численности целевых кадров.

По выбору, в некоторых вариантах осуществления, то, что текущий кадр удовлетворяет условию для повторного использования значения ITD предыдущего кадра текущего кадра, может состоять в том, что: Результат выявления активизации речи текущего кадра указывает, что текущий кадр и предыдущие N (N - положительное целое число, большее чем 1) кадров текущего кадра формируют непрерывные речевые кадры. В этом случае, если значение ITD предыдущего кадра текущего кадра не равно первому заранее заданному значению (если значение ITD кадра является первым заранее заданным значением, может считаться, что значение ITD кадра, полученное посредством расчета, принудительно установлено в первое заранее заданное значение вследствие неточности, где первым заранее заданным значением, например, может быть 0), значение ITD текущего кадра равно первому заранее заданному значению, и численность целевых кадров меньше порогового значения численности целевых кадров. Например, когда результат выявления активизации речи текущего кадра и результаты выявления активизации речи предыдущих N кадров (N - положительное целое число, большее чем 1) текущего кадра указывают речевые кадры, если значение ITD предыдущего кадра текущего кадра не равно 0, значение ITD текущего кадра принудительно устанавливается в 0, и численность целевых кадров является меньшей, чем пороговое значение численности целевых кадров. В таком случае, значение ITD предыдущего кадра текущего кадра может использоваться в качестве значения ITD текущего кадра, и значение численности целевых кадров увеличивается. Следует отметить, что может быть множество способов принудительной установки значения ITD текущего кадра в 0. Например, значение ITD текущего кадра может быть переведено в 0; или флажковый бит может быть установлен, чтобы представлять собой, что значение ITD текущего кадра было принудительно установлено в 0; или вышеизложенные два способа могут комбинироваться.

Нижеследующее описывает варианты осуществления данной заявки более подробным образом со ссылкой на конкретные примеры. Следует отметить, что пример на фиг. 6 предназначен единственно для помощи специалисту в данной области техники понять варианты осуществления данной заявки, но не для ограничения вариантов осуществления данной заявки конкретным значением или конкретным сценарием в примере. Очевидно, что специалист в данной области техники может выполнить различные эквивалентные модификации или варианты на основе примера, показанного на фиг. 6, и такие модификации или варианты также подпадают под объем вариантов осуществления данной заявки.

Фиг. 6 - общая блок-схема последовательности операций способа для кодирования многоканального сигнала согласно варианту осуществления данной заявки. Должно быть понятно, что этапы или операции обработки, показанные на фиг. 6, являются всего лишь примерами, и иные операции или варианты операций на фиг. 6 дополнительно могут выполняться в этом варианте осуществления данной заявки. В дополнение, этапы на фиг. 6 могут выполняться в последовательности, отличной от показанной на фиг. 6, и некоторым операциям на фиг. 6 может быть выполняться необязательно. Фиг. 6 описана, используя пример, в котором многоканальный сигнал включает в себя сигнал левого канала и сигнал правого канала. Кроме того, должно быть понятно, что параметр, представляющий собой степень стабильности положения пика коэффициентов взаимной корреляции многоканального сигнала в варианте осуществления по фиг. 6, может быть доверительным параметром амплитуды пика и/или параметром флуктуации положения пика, описанными выше.

Способ на фиг. 6 включает в себя следующие этапы:

602: Выполнить время-частотное преобразование над сигналом временной области левого канала и сигналом временной области правого канала.

Более точно, сигнал временной области левого канала mого подкадра текущего кадра может быть представлен посредством , а сигнал временной области правого канала mого подкадра может быть представлен посредством , где , - количество подкадров, включенных в звуковой кадр, n - значение индекса отсчета, , и N - количество отсчетов, включенных в сигнал временной области левого канала или сигнал временной области правого канала mого подкадра. В примере, в котором многоканальный сигнал имеет частоту выборки отсчетов 16 кГц, и длина звукового кадра имеет значение 20 мс, каждый из сигнала временной области левого канала и сигнала временной области правого канала звукового кадра включает в себя 320 отсчетов. Если звуковой кадр разделен на два подкадра, и каждый из сигнала временной области левого канала и сигнала временной области правого канала каждого подкадра включает в себя 160 отсчетов, N равно 160.

Быстрое преобразование Фурье, основанное на L отсчетах, отдельно выполняется над и для получения сигнала частотной области левого канала mого подкадра и сигнала частотной области правого канала mого подкадра, где , и L - длина быстрого преобразования Фурье, например, L может иметь значение 400 или 800.

604 и 605: Рассчитать модифицированное сегментное отношение сигнал/шум на основе сигнала частотной области левого канала и сигнала частотной области правого канала, и выполнить выявление активизации голосом на основе модифицированного сегментного отношения сигнал/шум.

Более точно, есть множество способов расчета модифицированного сегментного отношения сигнал/шум на основе и . Нижеследующее предоставляет конкретный способ расчета.

Этап 1: Рассчитать усредненный амплитудный спектр сигнала частотной области левого канала и сигнала частотной области правого канала mого подкадра на основе и .

Например, может рассчитываться согласно формуле (5):

(5)

где

; и

где , A - заранее заданный коэффициент смешивания амплитудных спектров левого/правого каналов, и A обычно может иметь значение 0,5, 0,4, 0,3 или другое эмпирическое значение.

Этап 2: Рассчитать энергию поддиапазона на основе усредненного амплитудного спектра сигнала частотной области левого канала и сигнала частотной области правого канала mого подкадра, где , а - количество поддиапазонов.

Например, может рассчитываться посредством использования формуле (6):

(6)

где - заранее заданная таблица, используемая для разделения на поддиапазоны, - элемент разрешения по частоте нижнего предела iого поддиапазона, и - элемент разрешения по частоте верхнего предела iого поддиапазона.

Этап 3: Рассчитать модифицированное сегментное отношение mssnr сигнал/шум на основе энергии поддиапазона и оценки энергии шума поддиапазона.

Например, mssnr может рассчитываться посредством использования формулы (7) и формулы (8):

(7)

где, если , ;

(8)

где - модифицированное отношение сигнал/шум поддиапазона, G - заранее заданное пороговое значение модификации отношения сигнал/шум поддиапазона, и G обычно может иметь значение 5, 6, 7 или другое эмпирическое значение. Должно быть понятно, что есть множество способов для расчета модифицированного сегментного отношения сигнал/шум, и это является всего лишь примером в материалах настоящей заявки.

Этап 4: Обновить оценку энергии шума поддиапазона на основе модифицированного сегментного отношения сигнал/шум энергии поддиапазона.

Более точно, сначала средняя энергия поддиапазона может рассчитываться согласно формуле (9):

(9)

Если численность VAD, vad_fm_cnt, меньше заранее заданной начальной длины кадра шума, численность VAD может быть увеличена. Заранее заданная начальная длина кадра шума обычно является заранее заданным эмпирическим значением, например, может иметь значение 29, 30, 31 или другое эмпирическое значение.

Если численность VAD, vad_fm_cnt, меньше заранее заданной начальной установленной длины кадра шума, и средняя энергия поддиапазона меньше порогового значения энергии шума, ener_th, оценка энергии шума поддиапазона может обновляться, и флажковый признак обновления энергии шума устанавливается в 1. Пороговое значение энергии шума обычно является заранее заданным эмпирическим значением, например, может иметь значение 35000000, 40000000, 45000000 или другое эмпирическое значение.

Более точно, оценка энергии шума поддиапазона может обновляться посредством использования формулы (10):

(10)

где - историческая энергия шума поддиапазона, например, может быть энергией шума поддиапазона до обновления.

Иначе, если модифицированное сегментное отношение сигнал/шум меньше порогового значения thUPDATE обновления шума, оценка энергии шума поддиапазона также может обновляться, и флажковый признак обновления энергии шума устанавливается в 1. Пороговое значение thUPDATE обновления шума может иметь значение 4, 5, 6 или другое эмпирическое значение.

Более точно, оценка энергии шума поддиапазона может обновляться посредством использования формулы (11):

(11)

где - назначенная частота обновления шума и может быть постоянным значением между 0 и 1, например, может иметь значение 0,03, 0,04, 0,05 или другое эмпирическое значение; и - историческая энергия шума поддиапазона, например, может быть энергией шума поддиапазона до обновления.

В дополнение, для обеспечения эффективности расчета отношения сигнал/шум поддиапазона, значение обновленной оценки энергии шума поддиапазона, например, может быть ограничено минимальным значением , которое может быть ограничено 1.

Следует отметить, что есть много пороговых значений для обновления на основе модифицированного сегментного отношения сигнал/шум и . Это особо не ограничено в этом варианте осуществления данной заявки, и это является всего лишь примером в материалах настоящей заявки.

Затем, выявление активизации речи может выполняться для mого подкадра на основе модифицированного сегментного отношения сигнал/шум. Более точно, если модифицированное сегментное отношение сигнал/шум больше порогового значения thVAD выявления активизации речи, mый подкадр является речевым кадром и, в этом случае, флажковый признак vad_flag[m] выявления активизации речи mого подкадра устанавливается в 1; иначе, mый подкадр является кадром фонового шума и, в этом случае, флажковый признак vad_flag[m] выявления активизации речи mого подкадра может быть установлен в 0. Пороговым значением thVAD выявления активизации речи может быть 3500, 4000, 4500 или другое эмпирическое значение.

С 606 по 608: Рассчитать коэффициент взаимной корреляции сигнала частотной области левого канала и сигнала частотной области правого канала на основе сигнала частотной области левого канала и сигнала частотной области правого канала, и рассчитать начальное значение ITD текущего кадра на основе коэффициента взаимной корреляции сигнала частотной области левого канала и сигнала частотной области правого канала.

Может быть множество способов расчета коэффициента взаимной корреляции сигнала частотной области левого канала и сигнала частотной области правого канала на основе и . Нижеследующее предоставляет конкретную реализацию.

Сначала, спектр мощности взаимной корреляции сигнала частотной области левого канала и сигнала частотной области правого канала mого подкадра рассчитывается согласно формуле (12):

(12)

Затем, обработка сглаживанием выполняется над спектром мощности взаимной корреляции сигнала частотной области левого канала и сигнала частотной области правого канала согласно формуле (13) для получения сглаженного спектра мощности взаимной корреляции:

(13)

где - коэффициент сглаживания, и коэффициент сглаживания может быть любым положительным числом между 0 и 1, например, может иметь значение 0,4, 0,5, 0,6 или другое эмпирическое значение.

Затем, может рассчитываться на основе и посредством использования формулы (14):

(14)

где указывает обратное преобразование Фурье; диапазоном значений значения ITD, включенного в расчет, может быть ; и перехват и переупорядочение выполняются над на основе диапазона значений значения ITD для получения коэффициента взаимной корреляции, используемого для определения начального значения ITD текущего кадра, сигнала частотной области левого канала и сигнала частотной области правого канала, а в этом случае, .

Затем, начальное значение ITD текущего кадра может оцениваться на основе и посредством использования формулы (15):

(15)

С 610 по 612: Определить доверительный уровень начального значения ITD текущего кадра. Если доверительный уровень начального значения ITD высок, численность целевых кадров может быть установлена в заранее заданное начальное значение.

Более точно, сначала может определяться доверительный уровень начального значения ITD текущего кадра. Может быть множество специфичных способов определения. Нижеследующее предоставляет описания, пользуясь примерами

Например, значение амплитуды коэффициента взаимной корреляции, которое соответствует начальному значению ITD, и которое находится среди значений амплитуд коэффициента взаимной корреляции сигнала частотной области левого канала и сигнала частотной области правого канала, может сравниваться с заранее заданным пороговым значением. Если значение амплитуды больше заранее заданного порогового значения, может считаться, что доверительный уровень начального значения ITD текущего кадра высок.

Ради еще одного примера, значения коэффициента взаимной корреляции сигнала частотной области левого канала и сигнала частотной области правого канала сначала могут сортироваться в убывающем порядке значений амплитуды. Затем, целевой коэффициент взаимной корреляции в заранее заданном месте (место может быть представлено посредством использования значения индекса коэффициента взаимной корреляции) может выбираться из сортированных значений коэффициента взаимной корреляции. Затем, значение амплитуды коэффициента взаимной корреляции, которое соответствует начальному значению ITD, и которое находится среди значений амплитуд коэффициента взаимной корреляции сигнала частотной области левого канала и сигнала частотной области правого канала, сравнивается со значением амплитуды целевого коэффициента взаимной корреляции. Если разность между значениями амплитуды больше заранее заданного порогового значения, может считаться, что доверительный уровень начального значения ITD текущего кадра высок; если отношение между значениями амплитуды больше заранее заданного порогового значения, может считаться, что доверительный уровень начального значения ITD текущего кадра высок; или если значение амплитуды коэффициента взаимной корреляции, которое соответствует начальному значению ITD, и которое находится среди значений амплитуд коэффициента взаимной корреляции сигнала частотной области левого канала и сигнала частотной области правого канала, больше значения амплитуды целевого коэффициента взаимной корреляции, может считаться, что доверительный уровень начального значения ITD текущего кадра высок.

В дополнение, после того, как получен целевой коэффициент взаимной корреляции, сначала, целевой коэффициент взаимной корреляции может дополнительно модифицироваться. Затем, значение амплитуды коэффициента взаимной корреляции, которое соответствует начальному значению ITD, и которое находится среди значений амплитуд коэффициента взаимной корреляции сигнала частотной области левого канала и сигнала частотной области правого канала, сравнивается со значением амплитуды модифицированного целевого коэффициента взаимной корреляции. Если значение амплитуды коэффициента взаимной корреляции, которое соответствует начальному значению ITD, и которое находится среди значений амплитуд коэффициента взаимной корреляции сигнала частотной области левого канала и сигнала частотной области правого канала, больше значения амплитуды модифицированного целевого коэффициента взаимной корреляции, может считаться, что доверительный уровень начального значения ITD текущего кадра высок.

Если доверительный уровень начального значения ITD текущего кадра высок, начальное значение ITD может использоваться в качестве значения ITD текущего кадра. Кроме того, может быть заранее задан флажковый бит itd_cal_flag, указывающий точный расчет значения ITD. Если доверительный уровень начального значения ITD текущего кадра высок, itd_cal_flag может быть установлен в 1; или если доверительный уровень начального значения ITD текущего кадра низок, itd_cal_flag может быть установлен в 0.

Кроме того, если доверительный уровень начального значения ITD текущего кадра высок, численность целевых кадров может быть установлена в заранее заданное начальное значение, например, численность целевых кадров может быть установлена в 0 или 1.

614: Если доверительный уровень начального значения ITD низок, модификация значения ITD может выполняться над начальным значением ITD. Может быть много способов модифицирования значения ITD. Например, обработка затягивания может выполняться над значением ITD, или значение ITD может модифицироваться на основе корреляции двух смежных кадров. Это особо не ограничено в этом варианте осуществления данной заявки.

С 616 по 618: Определить, используется ли значение ITD предыдущего кадра повторно для текущего кадра; и если значение ITD предыдущего кадра повторно используется для текущего кадра, увеличить численность целевых кадров.

С 620 по 622: Определить, удовлетворяет ли модифицированное сегментное отношение сигнал/шум заранее заданному условию отношения сигнал/шум; и если модифицированное сегментное отношение сигнал/шум удовлетворяет заранее заданному условию отношения сигнал/шум, прекратить повторное использование значения ITD предыдущего кадра в качестве значения ITD текущего кадра. Например, значение численности целевых кадров может модифицироваться, так чтобы модифицированная численность целевых кадров была большей чем или равной пороговому значению численности целевых кадров (пороговое значение может указывать количество целевых кадров, непрерывное появление которых является допустимым), с тем чтобы прекращать повторное использование значения ITD предыдущего кадра текущего кадра в качестве значения ITD текущего кадра.

Может быть множество способов определения того, удовлетворяет ли модифицированное сегментное отношение сигнал/шум заранее заданному условию отношения сигнал/шум. По выбору, в некоторых вариантах осуществления, когда модифицированное сегментное отношение сигнал/шум меньше первого порогового значения или больше второго порогового значения, может считаться, что модифицированное сегментное отношение сигнал/шум удовлетворяет заранее заданному условию отношения сигнал/шум. В этом случае, значение численности целевых кадров может модифицироваться, так чтобы модифицированная численность целевых кадров была большей чем или равной пороговому значению численности целевых кадров.

Например, при условии, что пороговое значение HIGH_SNR_VOICE_TH речи с высоким отношением сигнал/шум заранее задано значением 10000, первое пороговое значение может быть установлено в A1*HIGH_SNR_VOICE_TH, а второе пороговое значение установлено в A2*HIGH_SNR_VOICE_TH, где A1 и A2 - положительные вещественные числа, и A1<A2. Здесь, A1 может иметь значение 0,5, 0,6, 0,7 или другое эмпирическое значение, а A2 может иметь значение 290, 300, 310 или другое эмпирическое значение. Пороговое значение численности целевых кадров может быть равно 9, 10, 11 или другому эмпирическому значению.

624: Если модифицированное сегментное отношение сигнал/шум не удовлетворяет заранее заданному условию отношения сигнал/шум, рассчитать параметр, представляющий собой степень стабильности положения пика коэффициента взаимной корреляции сигнала частотной области левого канала и сигнала частотной области правого канала.

Более точно, если модифицированное сегментное отношение сигнал/шум является большим чем или равным первому пороговому значению и меньшим чем или равным второму пороговому значению, может считаться, что модифицированное сегментное отношение сигнал/шум не удовлетворяет заранее заданному условию отношения сигнал/шум. В этом случае, рассчитывается параметр, представляющий собой степень стабильности положения пика коэффициента взаимной корреляции сигнала частотной области левого канала и сигнала частотной области правого канала.

В этом варианте осуществления, параметром, представляющим собой степень стабильности положения пика коэффициента взаимной корреляции сигнала частотной области левого канала и сигнала частотной области правого канала, может быть группа параметров. Группа параметров может включать в себя доверительный параметр амплитуды пика, peak_mag_prob, и параметр флуктуации положения пика, peak_pos_fluc, коэффициента взаимной корреляции.

Более точно, peak_mag_prob может рассчитываться следующим образом:

Сначала, значения коэффициента взаимной корреляции сигнала частотной области левого канала и сигнала частотной области правого канала сортируются в возрастающем порядке значений амплитуды, и peak_mag_prob рассчитывается на основе сортированных значений коэффициента взаимной корреляции сигнала частотной области левого канала и сигнала частотной области правого канала посредством использования формулы (16):

(16)

где X представляет собой индекс положения пика сортированных значений коэффициента взаимной корреляции сигнала частотной области левого канала и сигнала частотной области правого канала, и Y представляет собой индекс заранее заданного места сортированных значений коэффициента взаимной корреляции сигнала частотной области левого канала и сигнала частотной области правого канала. Например, значения коэффициента взаимной корреляции сигнала частотной области левого канала и сигнала частотной области правого канала сортируются в возрастающем порядке значений амплитуды, местом X является , а местом Y может быть . В данном случае, в этом варианте осуществления данной заявки, отношение разности между значением амплитуды пикового значения коэффициента взаимной корреляции сигнала частотной области левого канала и сигнала частотной области правого канала и значением амплитуды второго наибольшего значения коэффициента взаимной корреляции сигнала частотной области левого канала и сигнала частотной области правого канала к значению амплитуды пикового значения используется в качестве доверительного параметра амплитуды пика, а именно, peak_mag_prob, коэффициента взаимной корреляции. Естественно, это является всего лишь одним из способов выбора peak_mag_prob.

Кроме того, также может быть множество способов расчета peak_pos_fluc. По выбору, в некоторых вариантах осуществления, peak_pos_fluc может получаться посредством расчета на основе значения ITD, соответствующего индексу положения пика коэффициента взаимной корреляции сигнала частотной области левого канала и сигнала частотной области правого канала, и значения ITD предыдущих N кадров текущего кадра, где N - целое число, большее чем или равное 1. По выбору, в некоторых вариантах осуществления, peak_pos_fluc может быть получен посредством расчета на основе индекса положения пика коэффициента взаимной корреляции сигнала частотной области левого канала и сигнала частотной области правого канала, и индекса положения пика коэффициента взаимной корреляции сигнала частотной области левого канала и сигнала частотной области правого канала предыдущих N кадров текущего кадра, где N - целое число, большее чем или равное 1.

Например, со ссылкой на формулу (17), peak_pos_fluc может быть абсолютным значением разности между значением ITD, соответствующим индексу положения пика коэффициента взаимной корреляции сигнала частотной области левого канала и сигналом частотной области правого канала, и значением ITD предыдущего кадра текущего кадра:

(17)

где представляет собой значение ITD предыдущего кадра текущего кадра, представляет собой операцию получения абсолютного значения, а представляет собой операцию поиска места максимального значения.

С 626 по 628: Определить, удовлетворяет ли степень стабильности положения пика коэффициента взаимной корреляции сигнала частотной области левого канала и сигнала частотной области правого канала заранее заданному условию; и если степень стабильности удовлетворяет заранее заданному условию, увеличить численность целевых кадров.

Другими словами, когда степень стабильности положения пика коэффициента взаимной корреляции сигнала частотной области левого канала и сигнала частотной области правого канала удовлетворяет заранее заданному условию, количество целевых кадров, непрерывное появление которых является допустимым, уменьшается.

Например, если peak_mag_prob больше доверительного порогового значения амплитуды пика, и peak_pos_fluc больше порогового значения флуктуации положения пика, численность целевых кадров увеличивается. В этом варианте осуществления данной заявки, доверительное пороговое значение амплитуды пика может быть установлено в 0,1, 0,2, 0,3 или другое эмпирическое значение, а пороговое значение флуктуации положения пика может быть установлено в 4, 5, 6 или другое эмпирическое значение.

Должно быть понятно, что может быть множество способов увеличения численности целевых кадров.

По выбору, в некоторых вариантах осуществления, численность целевых кадров может непосредственно увеличиваться на 1.

По выбору, в некоторых вариантах осуществления, величина увеличения численности целевых кадров может управляться на основе модифицированного сегментного отношения сигнал/шум и/или одного или более из группы параметров, представляющих собой степень стабильности положения пика коэффициента взаимной корреляции между разными каналами.

Например, если , численность целевых кадров увеличивается на 1; если , численность целевых кадров увеличивается на 2; или, если , численность целевых кадров увеличивается на 3, где .

Ради еще одного примера, если U1<peak_mag_prob<U2, и peak_pos_fluc>thfluc, численность целевых кадров увеличивается на 1; если U2<peak_mag_prob<U3, и peak_pos_fluc>thfluc, численность целевых кадров увеличивается на 2; или, если U3≤peak_mag_prob, и peak_pos_fluc>thfluc, численность целевых кадров увеличивается на 3. Здесь, U1 может быть доверительным пороговым значением амплитуды пика thprob, и U1<U2<U3.

С 630 по 634: Определить, удовлетворяет ли текущий кадр условию для повторного использования значения ITD предыдущего кадра текущего кадра, и, если текущий кадр удовлетворяет условию, использовать значение ITD предыдущего кадра текущего кадра в качестве значения ITD текущего кадра и увеличить численность целевых кадров; или иначе, отменить повторное использование значения ITD предыдущего кадра текущего кадра в качестве значения ITD текущего кадра и выполнять обработку в следующем кадре.

Следует отметить, что, удовлетворяет ли текущий кадр условию для повторного использования значения ITD предыдущего кадра текущего кадра, особо не ограничено в этом варианте осуществления данной заявки. Условие может быть установлено на основе одного или более факторов, таких как точность начального значения ITD, достигает ли численность целевых кадров порогового значения, и является ли текущий кадр непрерывным речевым кадром.

Например, если результат выявления активизации речи mого подкадра текущего кадра и результат выявления активизации речи предыдущего кадра оба указывают речевые кадры, при условии, что значение ITD предыдущего кадра не равно 0, когда начальное значение ITD текущего кадра равно 0, доверительный уровень начального значения ITD текущего кадра низок (доверительный уровень начального значения ITD может идентифицироваться посредством использования значения itd_cal_flag, например, если itd_cal_flag не равен 1, доверительный уровень начального значения ITD низок, а ради подробностей обратитесь к описаниям этапа 612), и численность целевых кадров меньше порогового значения численности целевых кадров, значение ITD предыдущего кадра текущего кадра может использоваться в качестве значения ITD текущего кадра, и численность целевых кадров увеличивается.

Кроме того, если результат выявления активизации речи текущего кадра и результат выявления активизации речи mого подкадра предыдущего кадра текущего кадра оба указывают речевые кадры, флажковый бит pre_vad результата выявления активизации речи предыдущего кадра может обновляться флажковым признаком речевого кадра, то есть, pre_vad равен 1; иначе, результат pre_vad выявления активизации речи предыдущего кадра обновляется флажковым признаком кадра фонового шума, то есть, pre_vad равен 0.

Вышеизложенное подробно описывает способ расчета модифицированного сегментного отношения сигнал/шум со ссылкой на этап 604. Однако, этот вариант осуществления данной заявки не ограничен этим. Нижеследующее приводит еще одну реализацию модифицированного сегментного отношения сигнал/шум.

По выбору, в некоторых вариантах осуществления, модифицированное сегментное отношение сигнал/шум может рассчитываться следующим образом:

Этап 1: Рассчитать усредненный амплитудный спектр сигнала частотной области левого канала mого подкадра и усредненный амплитудный спектр сигнала частотной области правого канала mого подкадра на основе сигнала частотной области левого канала mого подкадра и сигнала частотной области правого канала mого подкадра, пользуясь формулами (18) и (19):

(18)

(19)

где , а L - длина быстрого преобразования Фурье, например, L может иметь значение 400 или 800.

Этап 2: Рассчитать усредненные амплитудные спектры и сигнала частотной области левого канала и сигнала частотной области правого канала текущего кадра на основе и , пользуясь формулами (20) и (21):

(20a)

(21a)

В качестве альтернативы, формулами могут быть:

(20b)

(21b)

где представляет собой количество подкадров, заключенных в звуковом кадре.

Этап 3: Рассчитать усредненный амплитудный спектр сигнала частотной области левого канала и сигнала частотной области правого канала текущего кадра на основе и , пользуясь формулой (22).

(22)

где A - заранее заданный коэффициент смешивания амплитудных спектров левого/правого каналов, и A может иметь значение 0,4, 0,5, 0,6 или другое эмпирическое значение.

Этап 4: Рассчитать энергию поддиапазона на основе посредством использования формулы (23), где , а представляет собой количество поддиапазонов:

(23)

где представляет собой заранее заданную таблицу, используемую для разделения на поддиапазоны, представляет собой элемент разрешения по частоте нижнего предела iого поддиапазона, и представляет собой элемент разрешения по частоте верхнего предела iого поддиапазона.

Этап 5: Рассчитать модифицированное сегментное отношение mssnr сигнал/шум на основе и оценки энергии шума поддиапазона. Более точно, mssnr может рассчитываться посредством использования реализации, описанной в формуле (7) и формуле (8). Подробности повторно в материалах настоящей заявки не описаны.

Этап 6: Обновить на основе . Более точно, может обновляться посредством использования реализации, описанной в формулах с (9) по (11). Подробности повторно в материалах настоящей заявки не описаны.

По выбору, в некоторых других вариантах осуществления, модифицированное сегментное отношение сигнал/шум может рассчитываться следующим образом:

Этап 1: Рассчитать усредненный амплитудный спектр сигнала частотной области левого канала mого подкадра и усредненный амплитудный спектр сигнала частотной области правого канала mого подкадра на основе сигнала частотной области левого канала mого подкадра и сигнала частотной области правого канала mого подкадра, пользуясь формулами (24) и (25):

(24)

(25)

где , а L - длина быстрого преобразования Фурье, например, L может иметь значение 400 или 800.

Этап 2: Рассчитать усредненный амплитудный спектр сигнала частотной области левого канала и сигнала частотной области правого канала mого подкадра на основе и , пользуясь формулой (26).

(26)

где A - заранее заданный коэффициент смешивания амплитудных спектров левого/правого каналов, и A может иметь значение 0,4, 0,5, 0,6 или другое эмпирическое значение.

Этап 3: Рассчитать усредненный амплитудный спектр сигнала частотной области левого канала и сигнала частотной области правого канала текущего кадра на основе , пользуясь формулой (27).

Необязательным способом расчета является следующий:

(27a)

Еще одним необязательным способом расчета является следующий:

(27b)

Этап 4: Рассчитать энергию поддиапазона на основе посредством использования формулы (28), где , а - количество поддиапазонов:

(28)

где представляет собой заранее заданную таблицу, используемую для разделения на поддиапазоны, представляет собой элемент разрешения по частоте нижнего предела iого поддиапазона, и представляет собой элемент разрешения по частоте верхнего предела iого поддиапазона.

Этап 5: Рассчитать модифицированное сегментное отношение mssnr сигнал/шум на основе и оценки энергии шума поддиапазона. Более точно, mssnr может рассчитываться посредством использования реализации, описанной в формуле (7) и формуле (8). Подробности повторно в материалах настоящей заявки не описаны.

Этап 6: Обновить на основе . Более точно, может обновляться посредством использования реализации, описанной в формулах с (9) по (11). Подробности повторно в материалах настоящей заявки не описаны.

По выбору, в некоторых других вариантах осуществления, модифицированное сегментное отношение сигнал/шум может рассчитываться следующим образом:

Этап 1: Рассчитать усредненный амплитудный спектр сигнала частотной области левого канала и сигнала частотной области правого канала mого подкадра на основе сигнала частотной области левого канала mого подкадра и сигнала частотной области правого канала mого подкадра, пользуясь формулой (29):

(29)

где

; и

где ; L - длина быстрого преобразования Фурье, например, L может иметь значение 400 или 800; и A - заранее заданный коэффициент смешивания амплитудных спектров левого/правого каналов, и A может иметь значение 0,4, 0,5, 0,6 или другое эмпирическое значение.

Этап 2: Рассчитать энергию поддиапазона mого подкадра на основе , используя формулу (30), где , и - количество поддиапазонов:

(30)

где представляет собой заранее заданную таблицу, используемую для разделения на поддиапазоны, представляет собой элемент разрешения по частоте нижнего предела iого поддиапазона, и представляет собой элемент разрешения по частоте верхнего предела iого поддиапазона.

Этап 3: Рассчитать энергию поддиапазона текущего кадра на основе энергии поддиапазона mого подкадра, пользуясь формулой (31):

(31a)

В качестве альтернативы, формулой может быть:

(31b)

Этап 4: Рассчитать модифицированное сегментное отношение mssnr сигнал/шум на основе и оценки энергии шума поддиапазона. Более точно, mssnr может рассчитываться посредством использования реализации, описанной в формуле (7) и формуле (8). Подробности повторно в материалах настоящей заявки не описаны.

Этап 5: Обновить на основе . Более точно, может обновляться посредством использования реализации, описанной в формулах с (9) по (11). Подробности повторно в материалах настоящей заявки не описаны.

Вышеизложенное подробно описывает реализацию выявления активизации речи со ссылкой на этап 605. Однако, этот вариант осуществления данной заявки не ограничен этим. Нижеследующее приводит еще одну реализацию выявления активизации речи.

Более точно, если модифицированное сегментное отношение сигнал/шум больше порогового значения thVAD выявления активизации речи, текущий подкадр является речевым кадром, и флажковый признак vad_flag выявления активизации речи текущего кадра установлен в 1; иначе, текущий кадр является кадром фонового шума, и флажковый признак vad_flag выявления активизации речи текущего кадра установлен в 0. Пороговое значение выявления активизации речи обычно является эмпирическим значением и здесь может иметь значение 3500, 4000, 4500, или тому подобное.

Соответственно, реализация этапов с 630 по 634 может быть модифицирована следующей реализацией:

Когда результат выявления активизации речи текущего кадра и результат pre_vad выявления активизации речи предыдущего кадра оба указывают речевые кадры, если значение ITD предыдущего кадра не равно 0, исходное значение ITD текущего кадра равно 0, доверительный уровень исходного значения ITD текущего кадра низок (доверительный уровень начального значения ITD может идентифицироваться посредством использования значения itd_cal_flag, например, если itd_cal_flag не равен 1, доверительный уровень начального значения ITD низок, а ради подробностей обратитесь к описаниям этапа 612), и численность целевых кадров меньше порогового значения численности целевых кадров, значение ITD предыдущего кадра используется в качестве значения ITD текущего кадра, и численность целевых кадров увеличивается.

Если результат выявления активизации речи текущего кадра указывает речевой кадр, результат pre_vad выявления активизации речи предыдущего кадра обновляется флажковым признаком речевого кадра, то есть, pre_vad равен 1; иначе, результат pre_vad выявления активизации речи предыдущего кадра обновляется флажковым признаком кадра фонового шума, то есть, pre_vad равен 0.

Со ссылкой на этапы с 626 по 628, вышеизложенное подробно описывает способ настройки или управления количеством целевых кадров, непрерывное появление которых является допустимым. Однако, этот вариант осуществления данной заявки не ограничен этим. Нижеследующее приводит еще один способ настройки или управления количеством целевых кадров, непрерывное появление которых является допустимым.

По выбору, в некоторых вариантах осуществления, сначала определяется, удовлетворяет ли степень стабильности положения пика коэффициента взаимной корреляции сигнала частотной области левого канала и сигнала частотной области правого канала заранее заданному условию; и если степень стабильности удовлетворяет заранее заданному условию, пороговое значение численности целевых кадров уменьшается. Другими словами, в этом варианте осуществления данной заявки, количество целевых кадров, непрерывное появление которых является допустимым, уменьшается посредством уменьшения порогового значения численности целевых кадров.

Следует отметить, что может быть множество способов определения, удовлетворяет ли степень стабильности положения пика коэффициента взаимной корреляции сигнала частотной области левого канала и сигнала частотной области правого канала заранее заданному условию. Это особо не ограничено в этом варианте осуществления данной заявки. Например, заранее заданным условием могут быть: Доверительный параметр амплитуды пика коэффициента взаимной корреляции сигнала частотной области левого канала и сигнала частотной области правого канала больше заранее заданного доверительного порогового значения амплитуды пика, и параметр флуктуации положения пика больше заранее заданного порогового значения флуктуации положения пика, где доверительное пороговое значение амплитуды пика может иметь значение 0,1, 0,2, 0,3 или другое эмпирическое значение, а пороговое значение флуктуации положения пика может иметь значение 4, 5, 6 или другое эмпирическое значение.

Следует отметить, что может быть множество способов уменьшения порогового значения численности целевых кадров. Это особо не ограничено в этом варианте осуществления данной заявки.

По выбору, в некоторых вариантах осуществления, пороговое значение численности целевых кадров может сразу уменьшаться на 1.

По выбору, в некоторых других вариантах осуществления, величина уменьшения порогового значения численности целевых кадров может управляться на основе модифицированного сегментного отношения сигнал/шум и одного или более из группы параметров, представляющих собой степень стабильности положения пика коэффициента взаимной корреляции сигнала частотной области левого канала и сигнала частотной области правого канала.

Например, если , пороговое значение численности целевых кадров может уменьшаться на 1; если , пороговое значение численности целевых кадров может уменьшаться на 2; или если , пороговое значение численности целевых кадров может уменьшаться на 3, где , , и удовлетворяют .

Ради еще одного примера, если U1<peak_mag_prob<U2, и peak_pos_fluc>thfluc, пороговое значение численности целевых кадров может быть уменьшено на 1; если U2<peak_mag_prob<U3, и peak_pos_fluc>thfluc, пороговое значение численности целевых кадров может быть уменьшено на 2; или если U3≤peak_mag_prob, и peak_pos_fluc>thfluc, пороговое значение численности целевых кадров может быть уменьшено на 3, где U1, U2 и U3 могут удовлетворять U1<U2<U3, и U1 может быть доверительным пороговым значением thprob амплитуды пика, описанным выше.

Со ссылкой на этап 624, вышеизложенное подробно описывает способ расчета параметра, представляющего собой степень стабильности положения пика коэффициента взаимной корреляции сигнала частотной области левого канала и сигнала частотной области правого канала. На этапе 624, параметр, представляющий собой степень стабильности положения пика коэффициента взаимной корреляции сигнала частотной области левого канала и сигнала частотной области правого канала, включает в себя главным образом два параметра: доверительный параметр амплитуды пика, peak_mag_prob, и параметр флуктуации положения пика, peak_pos_fluc. Однако, этот вариант осуществления данной заявки не ограничен этим.

По выбору, в некоторых вариантах осуществления, параметр, представляющий собой степень стабильности положения пика коэффициента взаимной корреляции сигнала частотной области левого канала и сигнала частотной области правого канала, может включать в себя только peak_pos_fluc. Соответственно, этап 626 может быть модифицирован, чтобы: Если peak_pos_fluc больше порогового значения флуктуации положения пика, увеличить численность целевых кадров.

По выбору, в некоторых других вариантах осуществления, параметр, представляющий собой степень стабильности положения пика коэффициента взаимной корреляции между разными каналами, может быть параметром peak_stable стабильности положения пика, полученным после того, как линейная и/или нелинейная операция выполняется над peak_mag_prob и peak_pos_fluc.

Например, зависимость между peak_stable, peak_mag_prob и peak_pos_fluc может быть представлена посредством использования формулы (32):

(32)

Ради еще одного примера, зависимость между peak_stable, peak_mag_prob и peak_pos_fluc может быть представлена посредством использования формулы (33):

(33)

где diff_factor представляет собой заранее заданную последовательность коэффициентов разности значений ITD смежных кадров; diff_factor может включать в себя коэффициенты разности, которыми являются значения ITD смежных кадров, и которые соответствуют всем возможным значениям peak_pos_fluc; diff_factor может устанавливаться на основе опыта или может получаться посредством обучения на основе массовых данных; и P может представлять собой показатель влияния флуктуации положения пика коэффициента взаимной корреляции сигнала частотной области левого канала и сигнала частотной области правого канала, и P может быть положительным целым числом, большим чем или равным 1, например, P может иметь значение 1, 2, 3 или другое эмпирическое значение.

Соответственно, этап 626 может быть модифицирован, чтобы: если больше заранее заданного порогового значения стабильности положения пика, увеличивать численность целевых кадров. Здесь, заранее заданное пороговое значение стабильности положения пика может быть положительным вещественным числом, большим чем или равным 0, или может быть другим эмпирическим значением.

Кроме того, в некоторых вариантах осуществления, обработка сглаживанием может выполняться над peak_stable для получения сглаженного параметра lt_peak_stable стабильности положения пика, и последующее определение выполняется на основе lt_peak_stable.

Более точно, lt_peak_stable может рассчитываться посредством использования формулы (34):

(34)

где альфа представляет собой коэффициент долговременного сглаживания и обычно может быть положительным вещественным числом, большим чем или равным 0 и меньшим чем или равным 1, например, альфа может иметь значение 0,4, 0,5, 0,6 или другое эмпирическое значение.

Соответственно, этап 626 может быть модифицирован, чтобы: Если lt_peak_stable больше заранее заданного порогового значения стабильности положения пика, увеличивать численность целевых кадров. Здесь, заранее заданное пороговое значение стабильности положения пика может быть положительным вещественным числом, большим чем или равным 0, или может быть другим эмпирическим значением.

Нижеследующее описывает варианты осуществления устройства по заявке. Варианты осуществления устройства могут использоваться для выполнения вышеизложенных способов. Поэтому, применительно к части, не описанной подробно, обратитесь к вышеизложенным вариантам осуществления способа.

Фиг. 7 - принципиальная структурная схема кодера согласно варианту осуществления данной заявки. Кодер 700 на фиг. 7 включает в себя:

блок 710 получения, выполненный с возможностью получать многоканальный сигнал текущего кадра;

первый блок 720 определения, выполненный с возможностью определять начальное значение ITD текущего кадра;

блок 730 управления, выполненный с возможностью управлять, на основе характеристической информации многоканального сигнала, количеством целевых кадров, непрерывное появление которых является допустимым, где характеристическая информация включает в себя по меньшей мере одно из параметра отношения сигнал/шум многоканального сигнала и признака пика коэффициентов взаимной корреляции многоканального сигнала, и значение ITD предыдущего кадра целевого кадра повторно используется в качестве значения ITD целевого кадра;

второй блок 740 определения, выполненный с возможностью определять значение ITD текущего кадра на основе начального значения ITD текущего кадра и количества целевых кадров, непрерывное появление которых является допустимым; и

блок 750 кодирования, выполненный с возможностью кодировать многоканальный сигнал на основе значения ITD текущего кадра.

Согласно этому варианту осуществления данной заявки, влияние факторов окружающей среды, таких как фоновый шум, реверберация и речь многих участников, на точность и стабильность результата расчета значения ITD может быть уменьшено; и когда есть фоновый шум, реверберация или речь многих участников, или не очевидна гармоническая характеристика сигнала, стабильность значения ITD при кодировании PS улучшается, и ненужные переходы значения ITD сокращаются в наибольшей степени, тем самым, избегая нарушения межкадровой непрерывности подвергнутого понижающему микшированию сигнала и нестабильности акустического образа декодированного сигнала. В дополнение, согласно этому варианту осуществления данной заявки, информация о фазе стереофонического сигнала может лучше сохраняться, и улучшается акустическое качество.

По выбору, в некоторых вариантах осуществления, кодер 700 дополнительно включает в себя: третий блок определения, выполненный с возможностью определять признак пика коэффициентов взаимной корреляции многоканального сигнала на основе амплитуды пикового значения коэффициентов взаимной корреляции многоканального сигнала и индекса положения пика коэффициентов взаимной корреляции многоканального сигнала.

По выбору, в некоторых вариантах осуществления, третий блок определения специально выполнен с возможностью: определять доверительный параметр амплитуды пика на основе амплитуды пикового значения коэффициентов взаимной корреляции многоканального сигнала, где доверительный параметр амплитуды пика представляет собой доверительный уровень амплитуды пикового значения коэффициентов взаимной корреляции многоканального сигнала; определять параметр флуктуации положения пика на основе значения ITD, соответствующего индексу положения пика коэффициентов взаимной корреляции многоканального сигнала, и значения ITD предыдущего кадра текущего кадра, где параметр флуктуации положения пика представляет собой разность между значением ITD, соответствующим индексу положения пика коэффициентов взаимной корреляции многоканального сигнала, и значением ITD предыдущего кадра текущего кадра; и определять признак пика коэффициентов взаимной корреляции многоканального сигнала на основе доверительного параметра амплитуды пика и параметра флуктуации положения пика.

По выбору, в некоторых вариантах осуществления, третий блок определения специально выполнен с возможностью определять, в качестве доверительного параметра амплитуды пика, отношение разности между значением амплитуды пикового значения коэффициентов взаимной корреляции многоканального сигнала и значением амплитуды второго наибольшего значения коэффициентов взаимной корреляции многоканального сигнала к значению амплитуды пикового значения.

По выбору, в некоторых вариантах осуществления, третий блок определения специально выполнен с возможностью определять, в качестве параметра флуктуации положения пика, абсолютное значение разности между значением ITD, соответствующим индексу положения пика коэффициентов взаимной корреляции многоканального сигнала, и значением ITD предыдущего кадра текущего кадра.

По выбору, в некоторых вариантах осуществления, блок 730 управления специально выполнен с возможностью: управлять, на основе признака пика коэффициентов взаимной корреляции многоканального сигнала, количеством целевых кадров, непрерывное появление которых является допустимым; и когда признак пика коэффициентов взаимной корреляции многоканального сигнала удовлетворяет заранее заданному условию, уменьшать, посредством настройки по меньшей мере одного из численности целевых кадров и порогового значения численности целевых кадров, количество целевых кадров, непрерывное появление которых является допустимым, где численность целевых кадров используется для представления количества целевых кадров, которые появлялись непрерывно на данный момент, а пороговое значение численности целевых кадров используется для указания количества целевых кадров, непрерывное появление которых является допустимым.

По выбору, в некоторых вариантах осуществления, блок управления специально выполнен с возможностью уменьшать, посредством увеличения численности целевых кадров, количество целевых кадров, непрерывное появление которых является допустимым.

По выбору, в некоторых вариантах осуществления, блок управления специально выполнен с возможностью уменьшать, посредством уменьшения порогового значения численности целевых кадров, количество целевых кадров, непрерывное появление которых является допустимым.

По выбору, в некоторых вариантах осуществления, блок 730 управления специально выполнен с возможностью: когда параметр отношения сигнал/шум многоканального сигнала не удовлетворяет заранее заданному условию отношения сигнал/шум, управлять, на основе признака пика коэффициентов взаимной корреляции многоканального сигнала, количеством целевых кадров, непрерывное появление которых является допустимым; и кодер 700 дополнительно включает в себя: блок прекращения, выполненный с возможностью: когда отношение сигнал/шум многоканального сигнала удовлетворяет условию отношения сигнал/шум, прекращать повторное использование значения ITD предыдущего кадра текущего кадра в качестве значения ITD текущего кадра.

По выбору, в некоторых вариантах осуществления, блок 730 управления специально выполнен с возможностью: определять, удовлетворяет ли параметр отношения сигнал/шум многоканального сигнала заранее заданному условию отношения сигнал/шум; и когда параметр отношения сигнал/шум многоканального сигнала не удовлетворяет условию отношения сигнал/шум, управлять, на основе признака пика коэффициентов взаимной корреляции многоканального сигнала, количеством целевых кадров, непрерывное появление которых является допустимым; или когда отношение сигнал/шум многоканального сигнала удовлетворяет условию отношения сигнал/шум, прекращать повторное использование значения ITD предыдущего кадра текущего кадра в качестве значения ITD текущего кадра.

По выбору, в некоторых вариантах осуществления, блок прекращения специально выполнен с возможностью увеличивать численность целевых кадров, так чтобы значение численности целевых кадров было большим чем или равным пороговому значению численности целевых кадров, где численность целевых кадров используется для представления количества целевых кадров, которые появлялись непрерывно на данный момент, и пороговое значение численности целевых кадров используется для указания количества целевых кадров, непрерывное появление которых является допустимым.

По выбору, в некоторых вариантах осуществления, второй блок 740 определения специально выполнен с возможностью определять значение ITD текущего кадра на основе начального значения ITD текущего кадра, численности целевых кадров и порогового значения численности целевых кадров, где численность целевых кадров используется для представления количества целевых кадров, которые появлялись непрерывно на данный момент, и пороговое значение численности целевых кадров используется для указания количества целевых кадров, непрерывное появление которых является допустимым.

По выбору, в некоторых вариантах осуществления, параметр отношения сигнал/шум является модифицированным сегментным отношением сигнал/шум многоканального сигнала.

Фиг. 8 - принципиальная структурная схема кодера согласно варианту осуществления данной заявки. Кодер 800 на фиг. 8 включает в себя:

память 810, выполненную с возможностью хранить программу; и

процессор 820, выполненный с возможностью исполнять программу, где, когда программа исполняется, процессор 820 выполнен с возможностью: получать многоканальный сигнал текущего кадра; определять начальное значение ITD текущего кадра; управлять, на основе характеристической информации многоканального сигнала, количеством целевых кадров, непрерывное появление которых является допустимым, где характеристическая информация включает в себя по меньшей мере одно из параметра отношения сигнал/шум многоканального сигнала и признака пика коэффициентов взаимной корреляции многоканального сигнала, и значение ITD предыдущего кадра целевого кадра повторно используется в качестве значения ITD целевого кадра; определять значение ITD текущего кадра на основе начального значения ITD текущего кадра и количества целевых кадров, непрерывное появление которых является допустимым; и кодировать многоканальный сигнал на основе значения ITD текущего кадра.

Согласно этому варианту осуществления данной заявки, влияние факторов окружающей среды, таких как фоновый шум, реверберация и речь многих участников, на точность и стабильность результата расчета значения ITD может быть уменьшено; и когда есть фоновый шум, реверберация или речь многих участников, или не очевидна гармоническая характеристика сигнала, стабильность значения ITD при кодировании PS улучшается, и ненужные переходы значения ITD сокращаются в наибольшей степени, тем самым, избегая нарушения межкадровой непрерывности подвергнутого понижающему микшированию сигнала и нестабильности акустического образа декодированного сигнала. В дополнение, согласно этому варианту осуществления данной заявки, информация о фазе стереофонического сигнала может лучше сохраняться, и улучшается акустическое качество.

По выбору, в некоторых вариантах осуществления, кодер 800 дополнительно выполнен с возможностью определять признак пика коэффициентов взаимной корреляции многоканального сигнала на основе амплитуды пикового значения коэффициентов взаимной корреляции многоканального сигнала и индекса положения пика коэффициентов взаимной корреляции многоканального сигнала.

По выбору, в некоторых вариантах осуществления, кодер 800 специально выполнен с возможностью: определять доверительный параметр амплитуды пика на основе амплитуды пикового значения коэффициентов взаимной корреляции многоканального сигнала, где доверительный параметр амплитуды пика представляет собой доверительный уровень амплитуды пикового значения коэффициентов взаимной корреляции многоканального сигнала; определять параметр флуктуации положения пика на основе значения ITD, соответствующего индексу положения пика коэффициентов взаимной корреляции многоканального сигнала, и значения ITD предыдущего кадра текущего кадра, где параметр флуктуации положения пика представляет собой разность между значением ITD, соответствующим индексу положения пика коэффициентов взаимной корреляции многоканального сигнала, и значением ITD предыдущего кадра текущего кадра; и определять признак пика коэффициентов взаимной корреляции многоканального сигнала на основе доверительного параметра амплитуды пика и параметра флуктуации положения пика.

По выбору, в некоторых вариантах осуществления, кодер 800 специально выполнен с возможностью определять, в качестве доверительного параметра амплитуды пика, отношение разности между значением амплитуды пикового значения коэффициентов взаимной корреляции многоканального сигнала и значением амплитуды второго наибольшего значения коэффициентов взаимной корреляции многоканального сигнала к значению амплитуды пикового значения.

По выбору, в некоторых вариантах осуществления, кодер 800 специально выполнен с возможностью определять, в качестве параметра флуктуации положения пика, абсолютное значение разности между значением ITD, соответствующим индексу положения пика коэффициентов взаимной корреляции многоканального сигнала, и значением ITD предыдущего кадра текущего кадра.

По выбору, в некоторых вариантах осуществления, кодер 800 специально выполнен с возможностью: управлять, на основе признака пика коэффициентов взаимной корреляции многоканального сигнала, количеством целевых кадров, непрерывное появление которых является допустимым; и когда признак пика коэффициентов взаимной корреляции многоканального сигнала удовлетворяет заранее заданному условию, уменьшать, посредством настройки по меньшей мере одного из численности целевых кадров и порогового значения численности целевых кадров, количество целевых кадров, непрерывное появление которых является допустимым, где численность целевых кадров используется для представления количества целевых кадров, которые появлялись непрерывно на данный момент, а пороговое значение численности целевых кадров используется для указания количества целевых кадров, непрерывное появление которых является допустимым.

По выбору, в некоторых вариантах осуществления, кодер 800 специально выполнен с возможностью уменьшать, посредством увеличения численности целевых кадров, количество целевых кадров, непрерывное появление которых является допустимым.

По выбору, в некоторых вариантах осуществления, кодер 800 специально выполнен с возможностью уменьшать, посредством уменьшения порогового значения численности целевых кадров, количество целевых кадров, непрерывное появление которых является допустимым.

По выбору, в некоторых вариантах осуществления, кодер 800 специально выполнен с возможностью: только когда параметр отношения сигнал/шум многоканального сигнала не удовлетворяет заранее заданному условию отношения сигнал/шум, управлять, на основе характеристической информации многоканального сигнала, количеством целевых кадров, непрерывное появление которых является допустимым; и кодер 800 дополнительно выполнен с возможностью: когда отношение сигнал/шум многоканального сигнала удовлетворяет условию отношения сигнал/шум, прекращать повторное использование значения ITD предыдущего кадра текущего кадра в качестве значения ITD текущего кадра.

По выбору, в некоторых вариантах осуществления, кодер 800 специально выполнен с возможностью: определять, удовлетворяет ли параметр отношения сигнал/шум многоканального сигнала заранее заданному условию отношения сигнал/шум; и когда параметр отношения сигнал/шум многоканального сигнала не удовлетворяет условию отношения сигнал/шум, управлять, на основе признака пика коэффициентов взаимной корреляции многоканального сигнала, количеством целевых кадров, непрерывное появление которых является допустимым; или когда отношение сигнал/шум многоканального сигнала удовлетворяет условию отношения сигнал/шум, прекращать повторное использование значения ITD предыдущего кадра текущего кадра в качестве значения ITD текущего кадра.

По выбору, в некоторых вариантах осуществления, кодер 800 специально выполнен с возможностью увеличивать численность целевых кадров, так чтобы значение численности целевых кадров было большим чем или равным пороговому значению численности целевых кадров, где численность целевых кадров используется для представления количества целевых кадров, которые появлялись непрерывно на данный момент, и пороговое значение численности целевых кадров используется для указания количества целевых кадров, непрерывное появление которых является допустимым.

По выбору, в некоторых вариантах осуществления, кодер 800 специально выполнен с возможностью определять значение ITD текущего кадра на основе начального значения ITD текущего кадра, численности целевых кадров и порогового значения численности целевых кадров, где численность целевых кадров используется для представления количества целевых кадров, которые появлялись непрерывно на данный момент, и пороговое значение численности целевых кадров используется для указания количества целевых кадров, непрерывное появление которых является допустимым.

По выбору, в некоторых вариантах осуществления, параметр отношения сигнал/шум является модифицированным сегментным отношением сигнал/шум многоканального сигнала.

Рядовой специалист в данной области техники может осознавать, что, со ссылкой на примеры, описанные в вариантах осуществления, раскрытых в этом описании изобретения, блоки и этапы алгоритмов могут быть реализованы электронными аппаратными средствами или комбинацией компьютерного программного обеспечения и электронных аппаратных средств. Выполняются ли функции аппаратными средствами или программным обеспечением, зависит от конкретных применений и условий конструктивных ограничений технических решений. Специалист в данной области техники может использовать разные способы для реализации описанных функций для каждого конкретного применения, но не должно считаться, что реализации выходят за пределы объема данной заявки.

Специалисту в данной области техники может быть ясно понятно, что, ради удобства и краткости описания, применительно к подробному рабочему процессу вышеизложенной описанных системы, устройства и блока, следует обратиться к соответствующему процессу в вышеизложенных вариантах осуществления способа, и подробности в материалах настоящей заявки повторно не описаны.

В нескольких вариантах осуществления, приведенных этой заявке, должно быть понятно, что раскрытые система, устройство и способ могут быть реализованы другими способами. Например, описанные варианты осуществления устройства являются всего лишь примерами. Например, разделение на блоки является всего лишь разделением логической функции и может быть другим разделением в фактической реализации. Например, множество блоков или компонентов может комбинироваться или встраиваться в другие системы, или некоторые признаки могут игнорироваться и не выполняться. В дополнение, показанные или обсужденные взаимные связи или прямые связи, или соединения для обмена информацией могут быть реализованы посредством использования некоторых интерфейсов. Опосредованные связи или соединения для обмена информацией между устройствами или блоками могут быть реализованы в электронной, механической или других формах.

Блоки, описанные в качестве отдельных частей могут быть или могут не быть физически отдельными, а части, отображенные в качестве блоков, могут быть или могут не быть физическими блоками, могут быть расположены в одном положении или могут быть распределены по множеству сетевых блоков. Некоторые или все из блоков могут быть выбраны в зависимости от фактических требований для достижения целей решений вариантов осуществления.

В дополнение, функциональные блоки в реализациях данной заявки могут быть объединены в один блок обработки, или каждый из блоков может существовать физически в одиночку, либо два или более блоков могут быть объединены в единый блок.

Когда функции реализованы в форме программного функционального блока и продаются или используются в качестве независимого продукта, функции могут храниться на машинно-читаемом запоминающем носителе. На основе такого понимания, технические решения данной заявки по существу или часть, вносящая вклад в предшествующий уровень техники, или некоторые технические решения могут быть реализованы в виде программного продукта. Компьютерный программный продукт хранится на запоминающем носителе и включает в себя несколько команд, чтобы инструктировать компьютерное устройство (которое может быть персональным компьютером, сервером, сетевым устройством, или тому подобным) для выполнения всех или некоторых этапов способов, описанных в вариантах осуществления данной заявки. Запоминающий носитель включает в себя: любой носитель, который может хранить управляющую программу, такой как флэш-накопитель с интерфейсом USB, съемный жесткий диск, постоянное запоминающее устройство (ПЗУ, ROM, Read-Only Memory), оперативное запоминающее устройство (ОЗУ, RAM, Random Access Memory), магнитный диск или оптический диск.

Вышеизложенные описания являются всего лишь специфичными реализации этой заявки, но не подразумеваются ограничивающими объем охраны данной заявки. Любые вариант или замена, без труда постигаемые специалистом в данной области техники в пределах технического объема, раскрытого в данной заявке, будут подпадать под объем охраны данной заявки. Поэтому, объем охраны данной заявки будет зависеть от объема охраны формулы изобретения.

1. Способ кодирования многоканального сигнала, содержащий этапы, на которых:

получают многоканальный сигнал текущего кадра;

определяют начальное значение межканальной разницы во времени (ITD) текущего кадра;

управляют, на основе характеристической информации многоканального сигнала, количеством целевых кадров, непрерывное появление которых является допустимым, при этом характеристическая информация содержит по меньшей мере одно из отношения сигнал/шум многоканального сигнала и признака пика коэффициентов взаимной корреляции многоканального сигнала, и значение ITD предыдущего кадра целевого кадра повторно используется в качестве значения ITD целевого кадра;

определяют значение ITD текущего кадра на основе начального значения ITD текущего кадра и количества целевых кадров, непрерывное появление которых является допустимым; и

кодируют многоканальный сигнал на основе значения ITD текущего кадра.

2. Способ по п. 1, при этом перед управлением, на основе характеристической информации многоканального сигнала, количеством целевых кадров, непрерывное появление которых является допустимым, способ дополнительно содержит этап, на котором определяют признак пика коэффициентов взаимной корреляции многоканального сигнала на основе амплитуды пикового значения коэффициентов взаимной корреляции многоканального сигнала и индекса положения пика коэффициентов взаимной корреляции многоканального сигнала.

3. Способ по п. 2, в котором определение признака пика коэффициентов взаимной корреляции многоканального сигнала на основе амплитуды пикового значения коэффициентов взаимной корреляции многоканального сигнала и индекса положения пика коэффициентов взаимной корреляции многоканального сигнала содержит этапы, на которых:

определяют параметр достоверности амплитуды пика на основе амплитуды пикового значения коэффициентов взаимной корреляции многоканального сигнала, при этом параметр достоверности амплитуды пика представляет уровень уверенности в отношении амплитуды пикового значения коэффициентов взаимной корреляции многоканального сигнала;

определяют параметр флуктуации положения пика на основе значения ITD, соответствующего индексу положения пика коэффициентов взаимной корреляции многоканального сигнала, и значения ITD предыдущего кадра текущего кадра, при этом параметр флуктуации положения пика представляет собой разность между значением ITD, соответствующим индексу положения пика коэффициентов взаимной корреляции многоканального сигнала, и значением ITD предыдущего кадра текущего кадра; и

определяют признак пика коэффициентов взаимной корреляции многоканального сигнала на основе параметра достоверности амплитуды пика и параметра флуктуации положения пика.

4. Способ по п. 3, в котором определение параметра достоверности амплитуды пика на основе амплитуды пикового значения коэффициентов взаимной корреляции многоканального сигнала содержит этап, на котором определяют, в качестве параметра достоверности амплитуды пика, отношение разности между значением амплитуды пикового значения коэффициентов взаимной корреляции многоканального сигнала и значением амплитуды второго наибольшего значения коэффициентов взаимной корреляции многоканального сигнала к значению амплитуды пикового значения.

5. Способ по п. 3 или 4, в котором определение параметра флуктуации положения пика на основе значения ITD, соответствующего индексу положения пика коэффициентов взаимной корреляции многоканального сигнала, и значения ITD предыдущего кадра текущего кадра содержит этап, на котором определяют, в качестве параметра флуктуации положения пика, абсолютное значение разности между значением ITD, соответствующим индексу положения пика коэффициентов взаимной корреляции многоканального сигнала, и значением ITD предыдущего кадра текущего кадра.

6. Способ по любому одному из пп. 1-4, в котором управление, на основе характеристической информации многоканального сигнала, количеством целевых кадров, непрерывное появление которых является допустимым, содержит этап, на котором управляют, на основе признака пика коэффициентов взаимной корреляции многоканального сигнала, количеством целевых кадров, непрерывное появление которых является допустимым; и когда признак пика коэффициентов взаимной корреляции многоканального сигнала удовлетворяет заранее заданному условию, уменьшают, посредством настройки по меньшей мере одного из численности целевых кадров и пороговой численности целевых кадров, количество целевых кадров, непрерывное появление которых является допустимым, при этом численность целевых кадров используется для представления количества целевых кадров, которые появлялись непрерывно на данный момент, а пороговая численность целевых кадров используется для указания количества целевых кадров, непрерывное появление которых является допустимым.

7. Способ по п. 6, в котором управление, на основе признака пика коэффициентов взаимной корреляции многоканального сигнала, количеством целевых кадров, непрерывное появление которых является допустимым, содержит этап, на котором только когда отношение сигнал/шум многоканального сигнала не удовлетворяет заранее заданному условию отношения сигнал/шум, управляют, на основе признака пика коэффициентов взаимной корреляции многоканального сигнала, количеством целевых кадров, непрерывное появление которых является допустимым; и

при этом способ дополнительно содержит этап, на котором когда отношение сигнал/шум многоканального сигнала удовлетворяет условию отношения сигнал/шум, прекращают повторное использование значения ITD предыдущего кадра текущего кадра в качестве значения ITD текущего кадра.

8. Способ по любому одному из пп. 1-4, в котором управление (530), на основе характеристической информации многоканального сигнала, количеством целевых кадров, непрерывное появление которых является допустимым, содержит этапы, на которых:

определяют, удовлетворяет ли отношение сигнал/шум многоканального сигнала заранее заданному условию отношения сигнал/шум; и

когда отношение сигнал/шум многоканального сигнала не удовлетворяет условию отношения сигнал/шум, управляют, на основе признака пика коэффициентов взаимной корреляции многоканального сигнала, количеством целевых кадров, непрерывное появление которых является допустимым; или когда отношение сигнал/шум многоканального сигнала удовлетворяет условию отношения сигнал/шум, прекращают повторное использование значения ITD предыдущего кадра текущего кадра в качестве значения ITD текущего кадра.

9. Способ по п. 8, в котором прекращение повторного использования значения ITD предыдущего кадра текущего кадра в качестве значения ITD текущего кадра содержит этап, на котором увеличивают численность целевых кадров, так чтобы значение численности целевых кадров было большим чем или равным пороговой численности целевых кадров, при этом численность целевых кадров используется для представления количества целевых кадров, которые появлялись непрерывно на данный момент, и пороговая численность целевых кадров используется для указания количества целевых кадров, непрерывное появление которых является допустимым.

10. Кодер, содержащий:

блок получения, выполненный с возможностью получать многоканальный сигнал текущего кадра;

первый блок определения, выполненный с возможностью определять начальное значение межканальной разницы во времени (ITD) текущего кадра;

блок управления, выполненный с возможностью управлять, на основе характеристической информации многоканального сигнала, количеством целевых кадров, непрерывное появление которых является допустимым, при этом характеристическая информация содержит по меньшей мере одно из отношения сигнал/шум многоканального сигнала и признака пика коэффициентов взаимной корреляции многоканального сигнала, и значение ITD предыдущего кадра целевого кадра повторно используется в качестве значения ITD целевого кадра;

второй блок определения, выполненный с возможностью определять значение ITD текущего кадра на основе начального значения ITD текущего кадра и количества целевых кадров, непрерывное появление которых является допустимым; и

блок кодирования, выполненный с возможностью кодировать многоканальный сигнал на основе значения ITD текущего кадра.

11. Кодер по п. 10, при этом кодер дополнительно содержит третий блок определения, выполненный с возможностью определять признак пика коэффициентов взаимной корреляции многоканального сигнала на основе амплитуды пикового значения коэффициентов взаимной корреляции многоканального сигнала и индекса положения пика коэффициентов взаимной корреляции многоканального сигнала.

12. Кодер по п. 11, в котором третий блок определения дополнительно выполнен с возможностью: определять параметр достоверности амплитуды пика на основе амплитуды пикового значения коэффициентов взаимной корреляции многоканального сигнала, при этом параметр достоверности амплитуды пика представляет уровень уверенности в отношении амплитуды пикового значения коэффициентов взаимной корреляции многоканального сигнала; определять параметр флуктуации положения пика на основе значения ITD, соответствующего индексу положения пика коэффициентов взаимной корреляции многоканального сигнала, и значения ITD предыдущего кадра текущего кадра, при этом параметр флуктуации положения пика представляет собой разность между значением ITD, соответствующим индексу положения пика коэффициентов взаимной корреляции многоканального сигнала, и значением ITD предыдущего кадра текущего кадра; и определять признак пика коэффициентов взаимной корреляции многоканального сигнала на основе параметра достоверности амплитуды пика и параметра флуктуации положения пика.

13. Кодер по п. 12, в котором третий блок определения дополнительно выполнен с возможностью определять, в качестве параметра достоверности амплитуды пика, отношение разности между значением амплитуды пикового значения коэффициентов взаимной корреляции многоканального сигнала и значением амплитуды второго наибольшего значения коэффициентов взаимной корреляции многоканального сигнала к значению амплитуды пикового значения.

14. Кодер по п. 12 или 13, в котором третий блок определения дополнительно выполнен с возможностью определять, в качестве параметра флуктуации положения пика, абсолютное значение разности между значением ITD, соответствующим индексу положения пика коэффициентов взаимной корреляции многоканального сигнала, и значением ITD предыдущего кадра текущего кадра.

15. Кодер по любому одному из пп. 10-13, в котором блок управления дополнительно выполнен с возможностью: управлять, на основе признака пика коэффициентов взаимной корреляции многоканального сигнала, количеством целевых кадров, непрерывное появление которых является допустимым; и когда признак пика коэффициентов взаимной корреляции многоканального сигнала удовлетворяет заранее заданному условию, уменьшать, посредством настройки по меньшей мере одного из численности целевых кадров и пороговой численности целевых кадров, количество целевых кадров, непрерывное появление которых является допустимым, при этом численность целевых кадров используется для представления количества целевых кадров, которые появлялись непрерывно на данный момент, а пороговая численность целевых кадров используется для указания количества целевых кадров, непрерывное появление которых является допустимым.

16. Кодер по п. 15, в котором блок управления дополнительно выполнен с возможностью: только когда отношение сигнал/шум многоканального сигнала не удовлетворяет заранее заданному условию отношения сигнал/шум, управлять, на основе признака пика коэффициентов взаимной корреляции многоканального сигнала, количеством целевых кадров, непрерывное появление которых является допустимым; и кодер дополнительно содержит блок прекращения, выполненный с возможностью: когда отношение сигнал/шум многоканального сигнала удовлетворяет условию отношения сигнал/шум, прекращать повторное использование значения ITD предыдущего кадра текущего кадра в качестве значения ITD текущего кадра.

17. Кодер по п. 16, в котором блок управления дополнительно выполнен с возможностью: определять, удовлетворяет ли отношение сигнал/шум многоканального сигнала заранее заданному условию отношения сигнал/шум; и когда отношение сигнал/шум многоканального сигнала не удовлетворяет условию отношения сигнал/шум, управлять, на основе признака пика коэффициентов взаимной корреляции многоканального сигнала, количеством целевых кадров, непрерывное появление которых является допустимым; или когда отношение сигнал/шум многоканального сигнала удовлетворяет условию отношения сигнал/шум, прекращать повторное использование значения ITD предыдущего кадра текущего кадра в качестве значения ITD текущего кадра.

18. Кодер по п. 16, в котором блок прекращения дополнительно выполнен с возможностью увеличивать численность целевых кадров, так чтобы значение численности целевых кадров было большим чем или равным пороговой численности целевых кадров, при этом численность целевых кадров используется для представления количества целевых кадров, которые появлялись непрерывно на данный момент, и пороговая численность целевых кадров используется для указания количества целевых кадров, непрерывное появление которых является допустимым.



 

Похожие патенты:

Группа изобретений относится к системе транспортного средства для осуществления скрытного вызова оператора аварийно-спасательных служб. Система транспортного средства содержит микрофон, анализатор речи и устройство обработки.

Группа изобретений относится к медицине, а именно к оценке состояния здоровья субъекта исследования. Предложены система и устройство, содержащие машиночитаемый носитель, для реализации способа, содержащий этапы, на которых: вычисляют, из характеристических величин, полученных из звуковых данных, издаваемых субъектом, одну характеристическую величину, не имеющую отношения к другим характеристическим величинам, и характеристическую величину, имеющую абсолютное значение корреляции с другими характеристическими величинами, меньшее заданного значения; и оценивают психосоматическое состояние субъекта, основываясь на вычисленной характеристической величине.

Изобретение относится к средствам голосового управления операцией вождения транспортного средства. Техническим результатом является обеспечение возможности устройства обработки информации, управляющего операцией вождения транспортного средства на основе высказывания пассажира, которому разрешается выполнять операцию вождения транспортного средства, быть мобильным.

Изобретение относится к средствам для преобразования коэффициентов линейного предсказания. Технический результат заключается в повышении эффективности оценивания фильтра синтеза линейного предсказания после преобразования внутренней частоты дискретизации.

Изобретение относится к средствам для оценивания фонового шума в аудиосигнале. Технический результат заключается в повышении точности оценивания, содержит ли аудиосигнал активную речь или музыку.

Изобретение относится к средствам для оценивания межканальной разницы во времени. Технический результат заключается в повышении точности определения межканальной разницы во времени.

Изобретение относится к области пользовательских интерфейсов. Технический результат заключается в осуществлении перевода и транслитерации вводимого текста в зависимости от заданных жестов, осуществляемых пользователем.

Изобретение относится к средствам для классификации типа эмоции для интерактивной диалоговой системы. Технический результат заключается в обеспечении возможности генерировать синтезированную речь с эмоциональными характеристиками для повышения эффективности взаимодействия с пользователем.

Изобретение относится к области обработки многоканальных сигналов. Технический результат заключается в повышении точности обработки многоканального сигнала.

Изобретение относится к области технологий для кодирования многоканального сигнала. Технический результат заключается в повышении точности кодирования многоканального сигнала.

Изобретение относится к акустике. Устройство для вывода стереофонического звукового сигнала, имеющего левый канал и правый канал, причем устройство содержит: демультиплексор, выполненный с возможностью получения битового аудиопотока и извлечения из него коэффициента предсказания для каждой из множества полос частот; декодер, выполненный с возможностью генерирования сигнала понижающего микширования и остаточного сигнала из кодированного битового аудиопотока; и устройство повышающего микширования, выполненное с возможностью работы либо в режиме с предсказанием, либо в режиме без предсказания на основании параметра, закодированного в битовом аудиопотоке, и вывода левого канала и правого канала в качестве стереофонического звукового сигнала, причем, когда устройство повышающего микширования работает в режиме с предсказанием, остаточный сигнал представляет разницу между побочным сигналом и предсказанной версией побочного сигнала, и устройство повышающего микширования генерирует левый канал и правый канал из комбинации сигнала понижающего микширования, остаточного сигнала и коэффициентов предсказания для каждой из множества полос частот, и причем, когда устройство повышающего микширования работает в режиме без предсказания, остаточный сигнал представляет побочный сигнал, устройство повышающего микширования генерирует левый канал на основании суммы сигнала понижающего микширования и остаточного сигнала, прошедших через декодер, и устройство повышающего микширования генерирует правый канал на основании разницы между сигналом понижающего микширования и остаточным сигналом, прошедшими через декодер.

Изобретение относится к средствам для кодирования и декодирования множественных аудиосигналов. Технический результат заключается в повышении эффективности кодирования и декодирования смеси аудиосигналов с улучшением их разделения.

Изобретение относится к обработке аудиоданных. Технический результат изобретения заключается в обработке сигналов звуковых объектов за счет указания местоположения каждого объекта.

Изобретение относится к области кодирования/декодирования сигналов. Технический результат изобретения заключается улучшении эффективности кодирования/декодирования сигналов за счет перцептивного взвешивания на основе входного сигнала.

Изобретение относится к обработке аудиосигнала и предназначено для разделения гармонического ударного остаточного звука с использованием структурного тензора на спектрограммах.

Изобретение относится к средствам для преобразования коэффициентов линейного предсказания. Технический результат заключается в повышении эффективности оценивания фильтра синтеза линейного предсказания после преобразования внутренней частоты дискретизации.

Изобретение относится к средствам для гибридного маскирования потери пакетов в частотной и временной области в аудиокодеках. Технический результат заключается в повышении эффективности маскирования потери пакетов.

Изобретение относится к средствам для улучшения перехода от маскированного участка аудиосигнала к последующему участку аудиосигнала. Технический результат заключается в повышении эффективности маскирования участков аудиосигнала.

Изобретение относится к средствам для оценивания фонового шума в аудиосигнале. Технический результат заключается в повышении точности оценивания, содержит ли аудиосигнал активную речь или музыку.

Изобретение относится к средствам для кодирования аудиосигналов. Технический результат заключается в повышении эффективности кодирования аудиосигналов.

Изобретение относится к средствам для кодирования многоканального сигнала. Технический результат заключается в повышении эффективности кодирования многоканального сигнала. Получают многоканальный сигнал текущего кадра. Определяют начальное значение межканальной разницы во времени текущего кадра. Управляют, на основе характеристической информации многоканального сигнала, количеством целевых кадров, непрерывное появление которых является допустимым. При этом характеристическая информация содержит по меньшей мере одно из отношения сигналшум многоканального сигнала и признака пика коэффициентов взаимной корреляции многоканального сигнала, и значение ITD предыдущего кадра целевого кадра повторно используется в качестве значения ITD целевого кадра. Определяют значение ITD текущего кадра на основе начального значения ITD текущего кадра и количества целевых кадров, непрерывное появление которых является допустимым. Кодируют многоканальный сигнал на основе значения ITD текущего кадра. 2 н. и 16 з.п. ф-лы, 8 ил.

Наверх