Устройство и способ оценки задержки
Изобретение относится к области вычислительной техники для обработки аудиоданных. Технический результат заключается в повышении точности оценки межканальной временной разности. Технический результат достигается за счет определения коэффициента взаимной корреляции многоканального сигнала текущего кадра; определения значения оценки дорожки задержки текущего кадра на основе буферизованной информации о межканальной временной разности по меньшей мере одного прошедшего кадра; определения адаптивной оконной функции текущего кадра; выполнения взвешивания над коэффициентом взаимной корреляции на основе значения оценки дорожки задержки текущего кадра и адаптивной оконной функции текущего кадра для получения взвешенного коэффициента взаимной корреляции и определения межканальной временной разности текущего кадра на основе взвешенного коэффициента взаимной корреляции. 4 н. и 38 з.п. ф-лы, 12 ил.
ОБЛАСТЬ ТЕХНИКИ
[0001] Эта заявка относится к области аудиообработки и, в частности, к устройству и способу оценки задержки.
УРОВЕНЬ ТЕХНИКИ
[0002] По сравнению с моносигналом, благодаря направленности и пространственности, люди предпочитают многоканальный сигнал (например, стереосигнал). Многоканальный сигнал включает в себя по меньшей мере два моносигнала. Например, стереосигнал включает в себя два моносигнала, а именно сигнал левого канала и сигнал правого канала. Кодированием стереосигнала может быть выполнение обработки понижающего микширования во временной области над сигналом левого канала и сигналом правого канала стереосигнала, чтобы получить два сигнала, а затем кодирование полученных двух сигналов. Этими двумя сигналами являются сигнал первичного канала и сигнал вторичного канала. Сигнал первичного канала используется для представления информации о корреляции между двумя моносигналами стереосигнала. Сигнал вторичного канала используется для представления информации о разности между двумя моносигналами стереосигнала.
[0003] Меньшая задержка между двумя моносигналами указывает на более сильный сигнал первичного канала, более высокую эффективность кодирования стереосигнала и лучшее качество кодирования и декодирования. Напротив, большая задержка между двумя моносигналами указывает на более сильный сигнал вторичного канала, более низкую эффективность кодирования стереосигнала и худшее качество кодирования и декодирования. Чтобы обеспечить лучший эффект стереосигнала, получаемого посредством кодирования и декодирования, необходимо оценить задержку между двумя моносигналами стереосигнала, а именно межканальную временную разность (ITD, Inter-channel Time Difference). Два моносигнала выравниваются посредством выполнения обработки корректировки (выравнивания) задержки, выполняемой на основе оцененной межканальной временной разности, и это усиливает сигнал первичного канала.
[0004] Типичный способ оценки задержки во временной области включает в себя: выполнение обработки сглаживания над коэффициентом взаимной корреляции стереосигнала в текущем кадре на основе коэффициента взаимной корреляции по меньшей мере одного прошедшего (прошлого) кадра, чтобы получить сглаженный коэффициент взаимной корреляции, поиск максимального значения сглаженного коэффициента взаимной корреляции и определение значения индекса, соответствующего этому максимальному значению, в качестве межканальной временной разности текущего кадра. Коэффициентом сглаживания текущего кадра является значение, получаемое путем адаптивной регулировки на основе энергии входного сигнала или другой характеристики. Коэффициент взаимной корреляции используется для указания степени взаимной корреляции между двумя моносигналами после того, как задержки, соответствующие разным межканальным временным разностям, отрегулированы. Коэффициент взаимной корреляции также может именоваться функцией взаимной корреляции.
[0005] Единый стандарт (коэффициент сглаживания текущего кадра) используется для устройства аудиокодирования, чтобы сгладить все значения взаимной корреляции текущего кадра. Это может привести к чрезмерному сглаживанию некоторых значений взаимной корреляции и/или к недостаточному сглаживанию других значений взаимной корреляции.
СУЩНОСТЬ ИЗОБРЕТЕНИЯ
[0006] Чтобы решить проблему, заключающуюся в том, что межканальная временная разность, оцениваемая устройством аудиокодирования, является неточной из-за чрезмерного сглаживания или недостаточного сглаживания, выполняемого над значением взаимной корреляции коэффициента взаимной корреляции текущего кадра устройством аудиокодирования, варианты осуществления настоящей заявки обеспечивают способ и устройство оценки задержки.
[0007] Способ оценки задержки обеспечен согласно первому аспекту. Способ включает в себя: определение коэффициента взаимной корреляции многоканального сигнала текущего кадра; определение значения оценки дорожки задержки (delay track estimation value) текущего кадра на основе буферизованной информации о межканальной временной разности по меньшей мере одного прошедшего кадра; определение адаптивной оконной функции текущего кадра; выполнение взвешивания (назначения весовых коэффициентов) для коэффициента взаимной корреляции на основе значения оценки дорожки задержки текущего кадра и адаптивной оконной функции текущего кадра для получения взвешенного коэффициента взаимной корреляции; и определение межканальной временной разности текущего кадра на основе взвешенного коэффициента взаимной корреляции.
[0008] Межканальная временная разность текущего кадра прогнозируется путем вычисления значения оценки дорожки задержки текущего кадра, и взвешивание выполняется над коэффициентом взаимной корреляции на основе значения оценки дорожки задержки текущего кадра и адаптивной оконной функции текущего кадра. Адаптивная оконная функция представляет собой окно типа приподнятого косинуса и имеет функцию относительного увеличения средней части и подавления краевой части. Следовательно, когда выполняется взвешивание над коэффициентом взаимной корреляции на основе значения оценки дорожки задержки текущего кадра и адаптивной оконной функции текущего кадра, если значение индекса находится ближе к значению оценки дорожки задержки, весовой коэффициент становится большим, избегая проблемы, заключающейся в том, что первый коэффициент взаимной корреляции является чрезмерно сглаженным, и если значение индекса находится дальше от значения оценки дорожки задержки, весовой коэффициент становится меньшим, избегая проблемы, заключающейся в том, что второй коэффициент взаимной корреляции является недостаточно сглаженным. Таким образом, адаптивная оконная функция адаптивно подавляет значение взаимной корреляции, соответствующее значению индекса, находящемуся на некотором удалении от значения оценки дорожки задержки, в коэффициенте взаимной корреляции, тем самым повышая точность определения межканальной временной разности во взвешенном коэффициенте взаимной корреляции. Первым коэффициентом взаимной корреляции является значение взаимной корреляции, соответствующее значению индекса, находящемуся рядом со значением оценки дорожки задержки, в коэффициенте взаимной корреляции, а вторым коэффициентом взаимной корреляции является значение взаимной корреляции, соответствующее значению индекса, находящемуся на некотором удалении от значения оценки дорожки задержки, в коэффициенте взаимной корреляции.
[0009] Со ссылкой на первый аспект, в первой реализации первого аспекта определение адаптивной оконной функции текущего кадра включает в себя: определение адаптивной оконной функции текущего кадра на основе отклонения сглаженной оценки межканальной временной разности (n - k)-го кадра, где 0 < k < n, а текущим кадром является n-й кадр.
[0010] Адаптивная оконная функция текущего кадра определяется с использованием отклонения сглаженной оценки межканальной временной разности (n - k)-го кадра, так что форма адаптивной оконной функции регулируется на основе отклонения сглаженной оценки межканальной временной разности, что позволяет избежать проблемы, связанной с тем, что формируемая адаптивная оконная функция является неточной из-за ошибки оценки дорожки задержки текущего кадра, и повысить точность формирования адаптивной оконной функции.
[0011] Со ссылкой на первый аспект или первую реализацию первого аспекта, во второй реализации первого аспекта, определение адаптивной оконной функции текущего кадра включает в себя: вычисление первого параметра ширины приподнятого косинуса на основе отклонения сглаженной оценки межканальной временной разности предыдущего кадра текущего кадра; вычисление первого смещения по высоте приподнятого косинуса на основе отклонения сглаженной оценки межканальной временной разности предыдущего кадра текущего кадра; и определение адаптивной оконной функции текущего кадра на основе первого параметра ширины приподнятого косинуса и первого смещения по высоте приподнятого косинуса.
[0012] Многоканальный сигнал предыдущего кадра у текущего кадра имеет сильную корреляцию с многоканальным сигналом текущего кадра. Следовательно, адаптивная оконная функция текущего кадра определяется на основе отклонения сглаженной оценки межканальной временной разности предыдущего кадра у текущего кадра, тем самым повышая точность вычисления адаптивной оконной функции текущего кадра.
[0013] Со ссылкой на вторую реализацию первого аспекта, в третьей реализации первого аспекта формула для вычисления первого параметра ширины приподнятого косинуса является следующей:
win_width1=TRUNC(width_par1 * (A * L_NCSHIFT_DS+1)), и
width_par1=a_width1 * smooth_dist_reg+b_width1; где
a_width1 = (xh_width1 - xl_width1)/(yh_dist1 - yl_dist1),
b_width1=xh_width1 - a_width1 * yh_dist1,
[0014] win_width1 является первым параметром ширины приподнятого косинуса, TRUNC указывает округление значения, L_NCSHIFT_DS является максимальным значением абсолютного значения межканальной временной разности, A является предустановленной постоянной, A больше или равна 4, xh_width1 является верхним предельным значением первого параметра ширины приподнятого косинуса, xl_width1 является нижним предельным значением первого параметра ширины приподнятого косинуса, yh_dist1 является отклонением сглаженной оценки межканальной временной разности, соответствующим верхнему предельному значению первого параметра ширины приподнятого косинуса, yl_dist1 является отклонением сглаженной оценки межканальной временной разности, соответствующим нижнему предельному значению первого параметра ширины приподнятого косинуса, smooth_dist_reg является отклонением сглаженной оценки межканальной временной разности предыдущего кадра относительно текущего кадра, и все xh_width1, xl_width1, yh_dist1 и yl_dist1 являются положительными числами.
[0015] Со ссылкой на третью реализацию первого аспекта, в четвертой реализации первого аспекта,
width_par1=min(width_par1, xh_width1); и
width_par1=max(width_par1, xl_width1), где
min представляет взятие минимального значения, а max представляет взятие максимального значения.
[0016] Когда width_par1 больше верхнего предельного значения первого параметра ширины приподнятого косинуса, width_par1 ограничивается верхним предельным значением первого параметра ширины приподнятого косинуса; или когда width_par1 меньше нижнего предельного значения первого параметра ширины приподнятого косинуса, width_par1 ограничивается нижним предельным значением первого параметра ширины приподнятого косинуса, чтобы гарантировать, что значение width_par1 не выйдет за пределы нормального диапазона значений параметра ширины приподнятого косинуса, что гарантирует точность вычисляемой адаптивной оконной функции.
[0017] Со ссылкой на любую со второй реализации по четвертую реализацию согласно первому аспекту, в пятой реализации первого аспекта формула для вычисления первого смещения по высоте приподнятого косинуса является следующей:
win_bias1=a_bias1 * smooth_dist_reg+b_bias1, где
a_bias1 = (xh_bias1 - xl_bias1)/(yh_dist2 - yl_dist2), и
b_bias1=xh_bias1 - a_bias1 * yh_dist2.
[0018] win_bias1 является первым смещением по высоте приподнятого косинуса, xh_bias1 является верхним предельным значением первого смещения по высоте приподнятого косинуса, xl_bias1 является нижним предельным значением первого смещения по высоте приподнятого косинуса, yh_dist2 является отклонением сглаженной оценки межканальной временной разности, соответствующим верхнему предельному значению первого смещения по высоте приподнятого косинуса, yl_dist2 является отклонением сглаженной оценки межканальной временной разности, соответствующим нижнему предельному значению первого смещения по высоте приподнятого косинуса, smooth_dist_reg является отклонением сглаженной оценки межканальной временной разности предыдущего кадра относительно текущего кадра, и все yh_dist2, yl_dist2, xh_bias1 и xl_bias1 являются положительными числами.
[0019] Со ссылкой на пятую реализацию первого аспекта, в шестой реализации первого аспекта,
win_bias1=min(win_bias1, xh_bias1); и
win_bias1=max(win_bias1, xl_bias1), где
min представляет взятие минимального значения, а max представляет взятие максимального значения.
[0020] Когда win_bias1 больше верхнего предельного значения первого смещения по высоте приподнятого косинуса, win_bias1 ограничивается верхним предельным значением первого смещения по высоте приподнятого косинуса; или когда win_bias1 меньше нижнего предельного значения первого смещения по высоте приподнятого косинуса, win_bias1 ограничивается нижним предельным значением первого смещения по высоте приподнятого косинуса, чтобы гарантировать, что значение win_bias1 не выйдет за пределы нормального диапазона значений смещения по высоте приподнятого косинуса, что гарантирует точность вычисляемой адаптивной оконной функции.
[0021] Со ссылкой на любую одну со второй реализации по пятую реализацию первого аспекта, в седьмой реализации первого аспекта,
yh_dist2=yh_dist1; и yl_dist2=yl_dist1.
[0022] Со ссылкой на любой из первого аспекта и с первой реализации по седьмую реализацию первого аспекта, в восьмой реализации первого аспекта,
когда 0 ≤ k ≤ TRUNC(A * L_NCSHIFT_DS/2) - 2 * win_width1-1,
loc_weight_win(k) = win_bias1;
когда TRUNC(A * L_NCSHIFT_DS/2) - 2 * win_width1 ≤ k ≤ TRUNC(A * L_NCSHIFT_DS/2) + 2 * win_width1-1,
loc_weight_win(k) = 0,5 * (1+win_bias1) + 0,5 * (1 - win_bias1) * cos(π * (k - TRUNC(A * L_NCSHIFT_DS/2))/(2 * win_width1)); и
когда TRUNC(A * L_NCSHIFT_DS/2) + 2 * win_width1 ≤ k ≤ A * L_NCSHIFT_DS,
loc_weight_win(k) = win_bias1.
[0023] loc_weight_win(k) используется для представления адаптивной оконной функции, при этом k=0, 1, ..., A * L_NCSHIFT_DS; A является предустановленной постоянной и больше или равна 4; L_NCSHIFT_DS является максимальным значением абсолютного значения межканальной временной разности; win_width1 является первым параметром ширины приподнятого косинуса; а win_bias1 является первым смещением по высоте приподнятого косинуса.
[0024] Со ссылкой на любую реализацию с первой реализации по восьмую реализацию первого аспекта, в девятой реализации первого аспекта, после определения межканальной временной разности текущего кадра на основе взвешенного коэффициента взаимной корреляции, способ дополнительно включает в себя: вычисление отклонения сглаженной оценки межканальной временной разности текущего кадра на основе отклонения сглаженной оценки межканальной временной разности предыдущего кадра относительно текущего кадра, значения оценки дорожки задержки текущего кадра и межканальной временной разности текущего кадра.
[0025] После того как межканальная временная разность текущего кадра определена, вычисляется отклонение сглаженной оценки межканальной временной разности текущего кадра. Когда необходимо определить межканальную временную разность следующего кадра, может быть использовано отклонение сглаженной оценки межканальной временной разности текущего кадра, чтобы гарантировать точность определения межканальной временной разности следующего кадра.
[0026] Со ссылкой на девятую реализацию первого аспекта, в десятой реализации первого аспекта отклонение сглаженной оценки межканальной временной разности текущего кадра получается посредством вычисления с использованием следующих формул вычисления:
smooth_dist_reg_update = (1 - γ) * smooth_dist_reg+γ * dist_reg', и
dist_reg' = |reg_prv_corr - cur_itd|.
[0027] smooth_dist_reg_update является отклонением сглаженной оценки межканальной временной разности текущего кадра; γ является первым коэффициентом сглаживания, и 0 < γ < 1; smooth_dist_reg является отклонением сглаженной оценки межканальной временной разности предыдущего кадра относительно текущего кадра; reg_prv_corr является значением оценки дорожки задержки текущего кадра; и cur_itd является межканальной временной разностью текущего кадра.
[0028] Со ссылкой на первый аспект, в одиннадцатой реализации первого аспекта начальное значение межканальной временной разности текущего кадра определяется на основе коэффициента взаимной корреляции; отклонение оценки межканальной временной разности текущего кадра вычисляется на основе значения оценки дорожки задержки текущего кадра и начального значения межканальной временной разности текущего кадра; и адаптивная оконная функция текущего кадра определяется на основе отклонения оценки межканальной временной разности текущего кадра.
[0029] Адаптивная оконная функция текущего кадра определяется на основе начального значения межканальной временной разности текущего кадра, так что адаптивная оконная функция текущего кадра может быть получена без необходимости буферизации отклонения сглаженной оценки межканальной временной разности n-го прошедшего кадра, тем самым сберегая ресурс хранения.
[0030] Со ссылкой на одиннадцатую реализацию первого аспекта, в двенадцатой реализации первого аспекта отклонение оценки межканальной временной разности текущего кадра получается посредством вычисления с использованием следующей формулы вычисления:
dist_reg = |reg_prv_corr - cur_itd_init|.
[0031] dist_reg является отклонением оценки межканальной временной разности текущего кадра, reg_prv_corr является значением оценки дорожки задержки текущего кадра, а cur_itd_init является начальным значением межканальной временной разности текущего кадра.
[0032] Со ссылкой на одиннадцатую реализацию или двенадцатую реализацию первого аспекта, в тринадцатой реализации первого аспекта второй параметр ширины приподнятого косинуса вычисляется на основе отклонения оценки межканальной временной разности текущего кадра; второе смещение по высоте приподнятого косинуса вычисляется на основе отклонения оценки межканальной временной разности текущего кадра; и адаптивная оконная функция текущего кадра определяется на основе второго параметра ширины приподнятого косинуса и второго смещения по высоте приподнятого косинуса.
[0033] Необязательно, формулы для вычисления второго параметра ширины приподнятого косинуса являются следующими:
win_width2=TRUNC(width_par2 * (A * L_NCSHIFT_DS+1)), и
width_par2=a_width2 * dist_reg+b_width2, где
a_width2 = (xh_width2 - xl_width2)/(yh_dist3 - yl_dist3), и
b_width2=xh_width2 - a_width2 * yh_dist3.
[0034] win_width2 является вторым параметром ширины приподнятого косинуса, TRUNC указывает округление значения, L_NCSHIFT_DS является максимальным значением абсолютного значения межканальной временной разности, A является предустановленной постоянной, A больше или равна 4, A * L_NCSHIFT_DS+1 является положительным целым числом, которое больше нуля, xh_width2 является верхним предельным значением второго параметра ширины приподнятого косинуса, xl_width2 является нижним предельным значением второго параметра ширины приподнятого косинуса, yh_dist3 является отклонением оценки межканальной временной разности, соответствующим верхнему предельному значению второго параметра ширины приподнятого косинуса, yl_dist3 является отклонением оценки межканальной временной разности, соответствующим нижнему предельному значению второго параметра ширины приподнятого косинуса, dist_reg является отклонением оценки межканальной временной разности, все xh_width2, xl_width2, yh_dist3 и yl_dist3 являются положительными числами.
[0035] Необязательно, второй параметр ширины приподнятого косинуса соответствует:
width_par2=min(width_par2, xh_width2), и
width_par2=max(width_par2, xl_width2), где
min представляет взятие минимального значения, а max представляет взятие максимального значения.
[0036] Когда width_par2 больше верхнего предельного значения второго параметра ширины приподнятого косинуса, width_par2 ограничивается верхним предельным значением второго параметра ширины приподнятого косинуса; или когда width_par2 меньше нижнего предельного значения второго параметра ширины приподнятого косинуса, width_par2 ограничивается нижним предельным значением второго параметра ширины приподнятого косинуса, чтобы гарантировать, что значение width_par2 не выйдет за пределы нормального диапазона значений параметра ширины приподнятого косинуса, что гарантирует точность вычисляемой адаптивной оконной функции.
[0037] Необязательно, формула для вычисления второго смещения по высоте приподнятого косинуса является следующей:
win_bias2=a_bias2 * dist_reg+b_bias2, где
a_bias2 = (xh_bias2 - xl_bias2)/(yh_dist4 - yl_dist4), и
b_bias2=xh_bias2 - a_bias2 * yh_dist4.
[0038] win_bias2 является вторым смещением по высоте приподнятого косинуса, xh_bias2 является верхним предельным значением второго смещения по высоте приподнятого косинуса, xl_bias2 является нижним предельным значением второго смещения по высоте приподнятого косинуса, yh_dist4 является отклонением оценки межканальной временной разности, соответствующим верхнему предельному значению второго смещения по высоте приподнятого косинуса, yl_dist4 является отклонением оценки межканальной временной разности, соответствующим нижнему предельному значению второго смещения по высоте приподнятого косинуса, dist_reg является отклонением оценки межканальной временной разности, и все yh_dist4, yl_dist4, xh_bias2 и xl_bias2 являются положительными числами.
[0039] Необязательно, второе смещение по высоте приподнятого косинуса соответствует:
win_bias2=min(win_bias2, xh_bias2), и
win_bias2=max(win_bias2, xl_bias2), где
min представляет взятие минимального значения, а max представляет взятие максимального значения.
[0040] Когда win_bias2 больше верхнего предельного значения второго смещения по высоте приподнятого косинуса, win_bias2 ограничивается верхним предельным значением второго смещения по высоте приподнятого косинуса; или когда win_bias2 меньше нижнего предельного значения второго смещения по высоте приподнятого косинуса, win_bias2 ограничивается нижним предельным значением второго смещения по высоте приподнятого косинуса, чтобы гарантировать, что значение win_bias2 не выйдет за пределы нормального диапазона значений смещения по высоте приподнятого косинуса, что гарантирует точность вычисляемой адаптивной оконной функции.
[0041] Необязательно, yh_dist4=yh_dist3 и yl_dist4=yl_dist3.
[0042] Необязательно, адаптивная оконная функция представляется с использованием следующих формул:
когда 0 ≤ k ≤ TRUNC(A * L_NCSHIFT_DS/2) - 2 * win_width2-1,
loc_weight_win(k) = win_bias2;
когда TRUNC(A * L_NCSHIFT_DS/2) - 2 * win_width2 ≤ k ≤ TRUNC(A * L_NCSHIFT_DS/2) + 2 * win_width2-1,
loc_weight_win(k) = 0,5 * (1+win_bias2) + 0,5 * (1 - win_bias2) * cos(π * (k - TRUNC(A * L_NCSHIFT_DS/2))/(2 * win_width2)); и
когда TRUNC(A * L_NCSHIFT_DS/2) + 2 * win_width2 ≤ k ≤ A * L_NCSHIFT_DS,
loc_weight_win(k) = win_bias2.
[0043] loc_weight_win(k) используется для представления адаптивной оконной функции, при этом k=0, 1, ..., A * L_NCSHIFT_DS; A является предустановленной постоянной и больше или равна 4; L_NCSHIFT_DS является максимальным значением абсолютного значения межканальной временной разности; win_width2 является вторым параметром ширины приподнятого косинуса; а win_bias2 является вторым смещением по высоте приподнятого косинуса.
[0044] Со ссылкой на любой из первого аспекта и с первой реализации по тринадцатую реализацию первого аспекта, в четырнадцатой реализации первого аспекта, взвешенный коэффициент взаимной корреляции представляется с использованием следующей формулы:
c_weight(x) = c(x) * loc_weight_win(x - TRUNC(reg_prv_corr) + TRUNC(A * L_NCSHIFT_DS/2) - L_NCSHIFT_DS).
[0045] c_weight(x) является взвешенным коэффициентом взаимной корреляции; c(x) является коэффициентом взаимной корреляции; loc_weight_win является адаптивной оконной функцией текущего кадра; TRUNC указывает округление значения; reg_prv_corr является значением оценки дорожки задержки текущего кадра; x является целым числом, которое больше или равно нулю и меньше или равно 2 * L_NCSHIFT_DS; и L_NCSHIFT_DS является максимальным значением абсолютного значения межканальной временной разности.
[0046] Со ссылкой на любой из первого аспекта и с первой реализации по четырнадцатую реализацию первого аспекта, в пятнадцатой реализации первого аспекта, перед определением адаптивной оконной функции текущего кадра способ дополнительно включает в себя: определение адаптивного параметра адаптивной оконной функции текущего кадра на основе параметра кодирования предыдущего кадра относительно текущего кадра, при этом параметр кодирования используется для указания типа многоканального сигнала предыдущего кадра относительно текущего кадра, или параметр кодирования используется для указания типа многоканального сигнала предыдущего кадра относительно текущего кадра, над которым выполнена обработка понижающего микширования во временной области; и адаптивный параметр используется для определения адаптивной оконной функции текущего кадра.
[0047] Адаптивная оконная функция текущего кадра должна адаптивно изменяться на основе различных типов многоканальных сигналов текущего кадра, чтобы гарантировать точность межканальной временной разности текущего кадра, получаемой посредством вычисления. С большой вероятностью тип многоканального сигнала текущего кадра является таким же, что и тип многоканального сигнала предыдущего кадра относительно текущего кадра. Следовательно, адаптивный параметр адаптивной оконной функции текущего кадра определяется на основе параметра кодирования предыдущего кадра относительно текущего кадра, так что точность определяемой адаптивной оконной функции повышается без дополнительной вычислительной сложности.
[0048] Со ссылкой на любой из первого аспекта и с первой реализации по пятнадцатую реализацию первого аспекта, в шестнадцатой реализации первого аспекта, определение значения оценки дорожки задержки текущего кадра на основе буферизованной информации о межканальной временной разности по меньшей мере одного прошедшего кадра включает в себя: выполнение оценки дорожки задержки на основе буферизованной информации о межканальной временной разности по меньшей мере одного прошедшего кадра с использованием метода линейной регрессии, чтобы определить значение оценки дорожки задержки текущего кадра.
[0049] Со ссылкой на любой из первого аспекта и с первой реализации по пятнадцатую реализацию первого аспекта, в семнадцатой реализации первого аспекта, определение значения оценки дорожки задержки текущего кадра на основе буферизованной информации о межканальной временной разности по меньшей мере одного прошедшего кадра включает в себя: выполнение оценки дорожки задержки на основе буферизованной информации о межканальной временной разности по меньшей мере одного прошедшего кадра с использованием метода взвешенной линейной регрессии, чтобы определить значение оценки дорожки задержки текущего кадра.
[0050] Со ссылкой на любой из первого аспекта и с первой реализации по семнадцатую реализацию первого аспекта, в восемнадцатой реализации первого аспекта, после определения межканальной временной разности текущего кадра на основе взвешенного коэффициента взаимной корреляции, способ дополнительно включает в себя: обновление буферизованной информации о межканальной временной разности по меньшей мере одного прошедшего кадра, при этом информация о межканальной временной разности по меньшей мере одного прошедшего кадра представляет собой сглаженное значение межканальной временной разности по меньшей мере одного прошедшего кадра или межканальную временную разность по меньшей мере одного прошедшего кадра.
[0051] Буферизованная информация о межканальной временной разности по меньшей мере одного прошедшего кадра обновляется, и когда вычисляется межканальная временная разность следующего кадра, значение оценки дорожки задержки следующего кадра может быть вычислено на основе обновленной информации о разности задержек, тем самым повышая точность вычисления межканальной временной разности следующего кадра.
[0052] Со ссылкой на восемнадцатую реализацию первого аспекта, в девятнадцатой реализации первого аспекта, буферизованная информация о межканальной временной разности по меньшей мере одного прошедшего кадра представляет собой сглаженное значение межканальной временной разности по меньшей мере одного прошедшего кадра, а обновление буферизованной информации о межканальной временной разности по меньшей мере одного прошедшего кадра включает в себя: определение сглаженного значения межканальной временной разности текущего кадра на основе значения оценки дорожки задержки текущего кадра и межканальной временной разности текущего кадра; и обновление буферизованного сглаженного значения межканальной временной разности упомянутого по меньшей мере одного прошедшего кадра на основе сглаженного значения межканальной временной разности текущего кадра.
[0053] Со ссылкой на девятнадцатую реализацию первого аспекта, в двадцатой реализации первого аспекта сглаженное значение межканальной временной разности текущего кадра получается посредством вычисления с использованием следующей формулы вычисления:
cur_itd_smooth=ϕ * reg_prv_corr + (1 - ϕ) * cur_itd.
[0054] cur_itd_smooth является сглаженным значением межканальной временной разности текущего кадра, ϕ является вторым коэффициентом сглаживания, reg_prv_corr является значением оценки дорожки задержки текущего кадра, cur_itd является межканальной временной разностью текущего кадра, и ϕ является постоянной, большей или равной 0 и меньшей или равной 1.
[0055] Со ссылкой на любую с восемнадцатой реализации по двадцатую реализацию первого аспекта, в двадцать первой реализации первого аспекта, обновление буферизованной информации о межканальной временной разности по меньшей мере одного прошедшего кадра включает в себя: когда результатом обнаружения голосовой активации предыдущего кадра относительно текущего кадра является активный кадр или результатом обнаружения голосовой активации текущего кадра является активный кадр, обновление буферизованной информации о межканальной временной разности упомянутого по меньшей мере одного прошедшего кадра.
[0056] Когда результатом обнаружения голосовой активации предыдущего кадра относительно текущего кадра является активный кадр или результатом обнаружения голосовой активации текущего кадра является активный кадр, это указывает на большую вероятность того, что многоканальный сигнал текущего кадра является активным кадром. Когда многоканальный сигнал текущего кадра является активным кадром, достоверность информации о межканальной временной разности текущего кадра является относительно высокой. Следовательно, на основе результата обнаружения голосовой активации предыдущего кадра относительно текущего кадра или результата обнаружения голосовой активации текущего кадра определяется, следует ли обновлять буферизованную информацию о межканальной временной разности по меньшей мере одного прошедшего кадра, тем самым улучшая достоверность буферизированной информации о межканальной временной разности по меньшей мере одного прошедшего кадра.
[0057] Со ссылкой по меньшей мере на одну реализацию с семнадцатой реализации по двадцать первую реализацию первого аспекта, в двадцать второй реализации первого аспекта, после определения межканальной временной разности текущего кадра на основе взвешенного коэффициента взаимной корреляции, способ дополнительно включает в себя: обновление буферизованного весового коэффициента по меньшей мере одного прошедшего кадра, при этом весовой коэффициент упомянутого по меньшей мере одного прошедшего кадра является коэффициентом в методе взвешенной линейной регрессии, а метод взвешенной линейной регрессии используется для определения значения оценки дорожки задержки текущего кадра.
[0058] Когда значение оценки дорожки задержки текущего кадра определяется с использованием метода взвешенной линейной регрессии, буферизованный весовой коэффициент по меньшей мере одного прошедшего кадра обновляется, так что значение оценки дорожки задержки следующего кадра может быть вычислено на основе обновленного весового коэффициента, тем самым повышая точность вычисления значения оценки дорожки задержки следующего кадра.
[0059] Со ссылкой на двадцать вторую реализацию первого аспекта, в двадцать третьей реализации первого аспекта, когда адаптивная оконная функция текущего кадра определяется на основе сглаженной межканальной временной разности предыдущего кадра относительно текущего кадра, обновление буферизованного весового коэффициента по меньшей мере одного прошедшего кадра включает в себя: вычисление первого весового коэффициента текущего кадра на основе отклонения сглаженной оценки межканальной временной разности текущего кадра; и обновление буферизованного первого весового коэффициента по меньшей мере одного прошедшего кадра на основе первого весового коэффициента текущего кадра.
[0060] Со ссылкой на двадцать третью реализацию первого аспекта, в двадцать четвертой реализации первого аспекта первый весовой коэффициент текущего кадра получают посредством вычисления с использованием следующих формул вычисления:
wgt_par1=a_wgt1 * smooth_dist_reg_update+b_wgt1,
a_wgt1 = (xl_wgt1 - xh_wgt1)/(yh_dist1' - yl_dist1'), и
b_wgt1=xl_wgt1 - a_wgt1 * yh_dist1'.
[0061] wgt_par1 является первым весовым коэффициентом текущего кадра, smooth_dist_reg_update является отклонением сглаженной оценки межканальной временной разности текущего кадра, xh_wgt является верхним предельным значением первого весового коэффициента, xl_wgt является нижним предельным значением первого весового коэффициента, yh_dist1' является отклонением сглаженной оценки межканальной временной разности, соответствующим верхнему предельному значению первого весового коэффициента, yl_dist1' является отклонением сглаженной оценки межканальной временной разности, соответствующим нижнему предельному значению первого весового коэффициента, и все yh_dist1', yl_dist1', xh_wgt1 и xl_wgt1 являются положительными числами.
[0062] Со ссылкой на двадцать четвертую реализацию первого аспекта, в двадцать пятой реализации первого аспекта,
wgt_par1=min(wgt_par1, xh_wgt1), и
wgt_par1=max(wgt_par1, xl_wgt1), где
min представляет взятие минимального значения, а max представляет взятие максимального значения.
[0063] Когда wgt_par1 больше верхнего предельного значения первого весового коэффициента, wgt_par1 ограничивается верхним предельным значением первого весового коэффициента; или когда wgt_par1 меньше нижнего предельного значения первого весового коэффициента, wgt_par1 ограничивается нижним предельным значением первого весового коэффициента, чтобы гарантировать, что значение wgt_par1 не выйдет за пределы нормального диапазона значений первого весового коэффициента, тем самым гарантируя точность вычисляемого значения оценки дорожки задержки текущего кадра.
[0064] Со ссылкой на двадцать вторую реализацию первого аспекта, в двадцать шестой реализации первого аспекта, когда адаптивная оконная функция текущего кадра определяется на основе отклонения оценки межканальной временной разности текущего кадра, обновление буферизованного весового коэффициента по меньшей мере одного прошедшего кадра включает в себя: вычисление второго весового коэффициента текущего кадра на основе отклонения оценки межканальной временной разности текущего кадра; и обновление буферизованного второго весового коэффициента по меньшей мере одного прошедшего кадра на основе второго весового коэффициента текущего кадра.
[0065] Необязательно, второй весовой коэффициент текущего кадра получают посредством вычисления с использованием следующих формул вычисления:
wgt_par2=a_wgt2 * dist_reg+b_wgt2,
a_wgt2 = (xl_wgt2 - xh_wgt2)/(yh_dist2' - yl_dist2'), и
b_wgt2=xl_wgt2 - a_wgt2 * yh_dist2'.
[0066] wgt_par2 является вторым весовым коэффициентом текущего кадра, dist_reg является отклонением оценки межканальной временной разности текущего кадра, xh_wgt2 является верхним предельным значением второго весового коэффициента, xl_wgt2 является нижним предельным значением второго весового коэффициента, yh_dist2' является отклонением оценки межканальной временной разности, соответствующим верхнему предельному значению второго весового коэффициента, yl_dist2' является отклонением оценки межканальной временной разности, соответствующим нижнему предельному значению второго весового коэффициента, и все yh_dist2', yl_dist2', xh_wgt2 и xl_wgt2 являются положительными числами.
[0067] Необязательно, wgt_par2=min(wgt_par2, xh_wgt2) и wgt_par2=max(wgt_par2, xl_wgt2).
[0068] Со ссылкой на любую с двадцать третьей реализации по двадцать шестую реализацию первого аспекта, в двадцать седьмой реализации первого аспекта, обновление буферизованного весового коэффициента по меньшей мере одного прошедшего кадра включает в себя: когда результатом обнаружения голосовой активации предыдущего кадра относительно текущего кадра является активный кадр или результатом обнаружения голосовой активации текущего кадра является активный кадр, обновление буферизованного весового коэффициента по меньшей мере одного прошедшего кадра.
[0069] Когда результатом обнаружения голосовой активации предыдущего кадра относительно текущего кадра является активный кадр или результатом обнаружения голосовой активации текущего кадра является активный кадр, это указывает на большую вероятность того, что многоканальный сигнал текущего кадра является активным кадром. Когда многоканальный сигнал текущего кадра является активным кадром, достоверность весового коэффициента текущего кадра является относительно высокой. Следовательно, на основе результата обнаружения голосовой активации предыдущего кадра относительно текущего кадра или результата обнаружения голосовой активации текущего кадра определяется, следует ли обновлять буферизованный весовой коэффициент по меньшей мере одного прошедшего кадра, тем самым улучшая достоверность буферизованного весового коэффициента по меньшей мере одного прошедшего кадра.
[0070] Устройство оценки задержки обеспечено согласно второму аспекту. Устройство включает в себя по меньшей мере один блок и этот по меньшей мере один блок выполнен с возможностью реализации способа оценки задержки, обеспеченного в любом(й) из первого аспекта или реализаций первого аспекта.
[0071] Устройство аудиокодирования обеспечено согласно третьему аспекту. Устройство аудиокодирования включает в себя процессор и память, соединенную с процессором.
[0072] Память выполнена с возможностью нахождения под управлением процессором, и процессор выполнен с возможностью реализации способа оценки задержки в любом(й) из первого аспекта или реализаций первого аспекта.
[0073] Считываемый компьютером носитель обеспечен согласно четвертому аспекту. Считываемый компьютером носитель хранит инструкцию, и когда эта инструкция выполняется на устройстве аудиокодирования, обеспечивается возможность выполнения устройством аудиокодирования способа оценки задержки, обеспеченного в любом(й) из первого аспекта или реализаций первого аспекта.
КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ
[0074] ФИГ. 1 представляет собой схематичное структурное представление системы кодирования и декодирования стереосигнала согласно примерному варианту осуществления этой заявки;
[0075] ФИГ. 2 представляет собой схематичное структурное представление системы кодирования и декодирования стереосигнала согласно другому примерному варианту осуществления этой заявки;
[0076] ФИГ. 3 представляет собой схематичное структурное представление системы кодирования и декодирования стереосигнала согласно другому примерному варианту осуществления этой заявки;
[0077] ФИГ. 4 представляет собой схематичное представление межканальной временной разности согласно примерному варианту осуществления этой заявки;
[0078] ФИГ. 5 представляет собой блок-схему последовательности операций способа оценки задержки согласно примерному варианту осуществления этой заявки;
[0079] ФИГ. 6 представляет собой схематичное представление адаптивной оконной функции согласно примерному варианту осуществления этой заявки;
[0080] ФИГ. 7 представляет собой схематичное представление взаимосвязи между параметром ширины приподнятого косинуса и информацией об отклонении оценки межканальной временной разности согласно примерному варианту осуществления этой заявки;
[0081] ФИГ. 8 представляет собой схематичное представление взаимосвязи между смещением по высоте приподнятого косинуса и информацией об отклонении оценки межканальной временной разности согласно примерному варианту осуществления этой заявки;
[0082] ФИГ. 9 представляет собой схематичное представление буфера согласно примерному варианту осуществления этой заявки;
[0083] ФИГ. 10 представляет собой схематичное представление обновления буфера согласно примерному варианту осуществления этой заявки;
[0084] ФИГ. 11 представляет собой схематичное структурное представление устройства аудиокодирования согласно примерному варианту осуществления этой заявки; и
[0085] ФИГ. 12 представляет собой блок-схему устройства оценки задержки согласно варианту осуществления этой заявки.
ОПИСАНИЕ ВАРИАНТОВ ОСУЩЕСТВЛЕНИЯ
[0086] Слова «первый», «второй» и подобные слова, упомянутые в данном описании, не означают какого-либо порядка, количества или важности, а используются для различения различных компонентов. Аналогичным образом, использование единственного числа или слов «один/одна/одно» или подобных не предназначено для указания какого-либо количественного ограничения, а предназначено для указания существования по меньшей мере одного. Термины «соединение», «линия связи» или подобные не ограничены физическим или механическим соединением, а могут включать в себя электрическое соединение вне зависимости от того, является ли соединение непосредственным или опосредованным.
[0087] В этом описании термин «множество» относится к двум или более чем двум. Термин «и/или» описывает только ассоциативную взаимосвязь для описания ассоциированных объектов и представляет, что могут иметь место три взаимосвязи. Например, A и/или B могут представлять следующие три случая: Существует только A, существуют как A, так и B, и существует только B. Символ «/» обычно указывает взаимосвязь «или» между ассоциированными объектами.
[0088] ФИГ. 1 представляет собой схематичное структурное представление системы кодирования и декодирования стереосигнала во временной области согласно примерному варианту осуществления этой заявки. Система кодирования и декодирования стереосигнала включает в себя компонент 110 кодирования и компонент 120 декодирования.
[0089] Компонент 110 кодирования выполнен с возможностью кодирования стереосигнала во временной области. Необязательно, компонент 110 кодирования может быть реализован с использованием программного обеспечения, может быть реализован с использованием аппаратного обеспечения или может быть реализован как комбинация программного обеспечения и аппаратного обеспечения. В данном варианте осуществления это не ограничено.
[0090] Кодирование стереосигнала во временной области компонентом 110 кодирования включает в себя следующие этапы:
[0091] (1) Выполнение предварительной обработки во временной области над полученным стереосигналом, чтобы получить предварительно обработанный сигнал левого канала и предварительно обработанный сигнал правого канала.
[0092] Стереосигнал получается (собирается) компонентом получения и отправляется в компонент 110 кодирования. Необязательно, компонент получения и компонент 110 кодирования могут быть расположены в одном и том же устройстве или в разных устройствах.
[0093] Предварительно обработанный сигнал левого канала и предварительно обработанный сигнал правого канала являются двумя сигналами предварительно обработанного стереосигнала.
[0094] Необязательно, предварительная обработка включает в себя по меньшей мере одну из обработки фильтрации верхних частот, обработки предыскажения, преобразования частоты дискретизации и преобразования каналов. В данном варианте осуществления это не ограничено.
[0095] (2) Выполнение оценки задержки на основе предварительно обработанного сигнала левого канала и предварительно обработанного сигнала правого канала, чтобы получить межканальную временную разность между предварительно обработанным сигналом левого канала и предварительно обработанным сигналом правого канала.
[0096] (3) Выполнение обработки корректировки задержки над предварительно обработанным сигналом левого канала и предварительно обработанным сигналом правого канала на основе межканальной временной разности, чтобы получить сигнал левого канала, полученный после обработки корректировки задержки, и сигнал правого канала, полученный после обработки корректировки задержки.
[0097] (4) Кодирование межканальной временной разности для получения индекса кодирования межканальной временной разности.
[0098] (5) Вычисление стереопараметра, используемого для обработки понижающего микширования во временной области, и кодирование этого стереопараметра, используемого для обработки понижающего микширования во временной области, для получения индекса кодирования этого стереопараметра, используемого для обработки понижающего микширования во временной области.
[0099] Стереопараметр, используемый для обработки понижающего микширования во временной области, используется для выполнения обработки понижающего микширования во временной области над сигналом левого канала, получаемым после обработки корректировки задержки, и сигналом правого канала, получаемым после обработки корректировки задержки.
[0100] (6) Выполнение на основе стереопараметра, используемого для обработки понижающего микширования во временной области, обработки понижающего микширования во временной области над сигналом левого канала и сигналом правого канала, которые получены после обработки корректировки задержки, чтобы получить сигнал первичного канала и сигнал вторичного канала.
[0101] Обработка понижающего микширования во временной области используется для получения сигнала первичного канала и сигнала вторичного канала.
[0102] После того, как сигнал левого канала и сигнал правого канала, которые получены после обработки корректировки задержки, обработаны с использованием технологии понижающего микширования во временной области, получают сигнал первичного канала (Primary channel или упоминаемый как сигнал центрального канала (Mid channel) и вторичный канал (Secondary channel или упоминаемый как сигнал бокового канала (Side channel)).
[0103] Сигнал первичного канала используется для представления информации о корреляции между каналами, а сигнал вторичного канала используется для представления информации о разнице между каналами. Когда сигнал левого канала и сигнал правого канала, которые получены после обработки корректировки задержки, выровнены во временной области, сигнал вторичного канала является самым слабым, и в этом случае, стереосигнал имеет наилучший эффект.
[0104] Ссылка делается на предварительно обработанный сигнал L левого канала и предварительно обработанный сигнал R правого канала в n-м кадре, показанном на ФИГ. 4. Предварительно обработанный сигнал L левого канала расположен перед предварительно обработанным сигналом R правого канала. Другими словами, по сравнению с предварительно обработанным сигналом R правого канала, предварительно обработанный сигнал L левого канала имеет задержку, и между предварительно обработанным сигналом L левого канала и предварительно обработанным сигналом R правого канала имеется межканальная временная разность 21. В этом случае сигнал вторичного канала усиливается, сигнал первичного канала ослабевает, а стереосигнал обладает относительно слабым эффектом.
[0105] (7) Отдельное кодирование сигнала первичного канала и сигнала вторичного канала для получения первого моно-кодированного битового потока, соответствующего сигналу первичного канала, и второго моно-кодированного битового потока, соответствующего сигналу вторичного канала.
[0106] (8) Запись индекса кодирования межканальной временной разности, индекса кодирования стереопараметра, первого моно-кодированного битового потока и второго моно-кодированного битового потока в стерео-кодированный битовый поток.
[0107] Компонент 120 декодирования выполнен с возможностью декодирования стерео-кодированного битового потока, сформированного компонентом 110 кодирования, для получения стереосигнала.
[0108] Необязательно, компонент 110 кодирования соединен с компонентом 120 декодирования проводным или беспроводным образом, и компонент 120 декодирования получает, через это соединение, стерео-кодированный битовый поток, сформированный компонентом 110 кодирования. Альтернативно, компонент 110 кодирования сохраняет сформированный стерео-кодированный битовый поток в память, а компонент 120 декодирования считывает стерео-кодированный битовый поток в памяти.
[0109] Необязательно, компонент 120 декодирования может быть реализован с использованием программного обеспечения, может быть реализован с использованием аппаратного обеспечения или может быть реализован как комбинация программного обеспечения и аппаратного обеспечения. В данном варианте осуществления это не ограничено.
[0110] Декодирование стерео-кодированного битового потока для получения стереосигнала компонентом 120 декодирования включает в себя следующие несколько этапов:
[0111] (1) Декодирование первого моно-кодированного битового потока и второго моно-кодированного битового потока в стерео-кодированном битовом потоке для получения сигнала первичного канала и сигнала вторичного канала.
[0112] (2) Получение на основе стерео-кодированного битового потока индекса кодирования стереопараметра, используемого для обработки повышающего микширования во временной области, и выполнение обработки повышающего микширования во временной области над сигналом первичного канала и сигналом вторичного канала, чтобы получить сигнал левого канала, полученный после обработки повышающего микширования во временной области, и сигнал правого канала, полученный после обработки повышающего микширования во временной области.
[0113] (3) Получение индекса кодирования межканальной временной разности на основе стерео-кодированного битового потока и выполнение регулировки задержки над сигналом левого канала, полученным после обработки повышающего микширования во временной области, и сигналом правого канала, полученным после обработки повышающего микширования во временной области, чтобы получить стереосигнал.
[0114] Опционально, компонент 110 кодирования и компонент 120 декодирования могут быть расположены в одном и том же устройстве или могут быть расположены в разных устройствах. Устройство может быть мобильным терминалом, который имеет функцию обработки аудиосигнала, таким как мобильный телефон, планшетный компьютер, портативный компьютер, настольный компьютер, Bluetooth-динамик, записывающее устройство или носимое устройство; или может быть сетевым элементом, который имеет возможность обработки аудиосигнала в базовой сети или радиосети. В данном варианте осуществления это не ограничено.
[0115] Например, со ссылкой на ФИГ. 2 показан пример, в котором компонент 110 кодирования расположен в мобильном терминале 130, а компонент 120 декодирования расположен в мобильном терминале 140. Мобильный терминал 130 и мобильный терминал 140 являются независимыми электронными устройствами с возможностью обработки аудиосигнала, и используемые в этом варианте осуществления мобильный терминал 130 и мобильный терминал 140 соединены друг с другом с использованием беспроводной или проводной сети.
[0116] Необязательно, мобильный терминал 130 включает в себя компонент 131 получения, компонент 110 кодирования и компонент 132 канального кодирования. Компонент 131 получения соединен с компонентом 110 кодирования, а компонент 110 кодирования соединен с компонентом 132 канального кодирования.
[0117] Необязательно, мобильный терминал 140 включает в себя компонент 141 воспроизведения аудио (звука), компонент 120 декодирования и компонент 142 канального декодирования. Компонент 141 воспроизведения аудио соединен с компонентом 110 декодирования, а компонент 110 декодирования соединен с компонентом 132 канального кодирования.
[0118] После получения стереосигнала с использованием компонента 131 получения мобильный терминал 130 кодирует стереосигнал с использованием компонента 110 кодирования для получения стерео-кодированного битового потока. Затем мобильный терминал 130 кодирует стерео-кодированный битовый поток, используя компонент 132 канального кодирования, чтобы получить сигнал передачи.
[0119] Мобильный терминал 130 отправляет сигнал передачи на мобильный терминал 140 с использованием беспроводной или проводной сети.
[0120] После приема сигнала передачи мобильный терминал 140 декодирует сигнал передачи с использованием компонента 142 канального декодирования для получения стерео-кодированного битового потока, декодирует стерео-кодированный битовый поток с использованием компонента 110 декодирования для получения стереосигнала и воспроизводит этот стереосигнал с использованием компонента 141 воспроизведения аудио.
[0121] Например, со ссылкой на ФИГ. 3, этот вариант осуществления описывается с использованием примера, в котором компонент 110 кодирования и компонент 120 декодирования расположены в одном и том же сетевом элементе 150, который имеет возможность обработки аудиосигнала в базовой сети или радиосети.
[0122] Необязательно, сетевой элемент 150 включает в себя компонент 151 канального декодирования, компонент 120 декодирования, компонент 110 кодирования и компонент 152 канального кодирования. Компонент 151 канального декодирования соединен с компонентом 120 декодирования, компонент 120 декодирования соединен с компонентом 110 кодирования, а компонент 110 кодирования соединен с компонентом 152 канального кодирования.
[0123] После приема сигнала передачи, отправленного другим устройством, компонент 151 канального декодирования декодирует сигнал передачи, чтобы получить первый стерео-кодированный битовый поток, декодирует стерео-кодированный битовый поток с использованием компонента 120 декодирования для получения стереосигнала, кодирует этот стереосигнал с использованием компонента 110 кодирования для получения второго стерео-кодированного битового потока и кодирует второй стерео-кодированный битовый поток с использованием компонента 152 канального кодирования для получения сигнала передачи.
[0124] Другое устройство может быть мобильным терминалом, который имеет возможность обработки аудиосигнала, или может быть другим сетевым элементом, который имеет возможность обработки аудиосигнала. В данном варианте осуществления это не ограничено.
[0125] Необязательно, компонент 110 кодирования и компонент 120 декодирования в сетевом элементе могут перекодировать стерео-кодированный битовый поток, отправленный мобильным терминалом.
[0126] Необязательно, в этом варианте осуществления устройство, на котором установлен компонент 110 кодирования, упоминается как устройство аудиокодирования. В фактической реализации устройство аудиокодирования также может иметь функцию аудиодекодирования. В данном варианте осуществления это не ограничено.
[0127] Необязательно, только стереосигнал используется в качестве примера для описания в этом варианте осуществления. В этой заявке устройство аудиокодирования может дополнительно обрабатывать многоканальный сигнал, причем многоканальный сигнал включает в себя сигналы по меньшей мере двух каналов.
[0128] Несколько существительных в вариантах осуществления этой заявки описаны ниже.
[0129] Многоканальный сигнал текущего кадра является кадром многоканальных сигналов, используемым для оценки текущей межканальной временной разности. Многоканальный сигнал текущего кадра включает в себя сигналы по меньшей мере двух каналов. Канальные сигналы различных каналов могут быть получены с использованием различных компонентов получения аудио в устройстве аудиокодирования, или канальные сигналы различных каналов могут быть получены различными компонентами получения аудио в другом устройстве. Канальные сигналы различных каналов передаются от одного и того же источника звука.
[0130] Например, многоканальный сигнал текущего кадра включает в себя сигнал L левого канала и сигнал R правого канала. Сигнал L левого канала получается с использованием компонента получения аудио левого канала, сигнал R правого канала получается с использованием компонент получения аудио правого канала, и сигнал L левого канала и сигнал R правого канала поступают от одного и того же источника звука.
[0131] Со ссылкой на ФИГ. 4, устройство аудиокодирования оценивает межканальную временную разность многоканального сигнала n-го кадра, и n-й кадр является текущим кадром.
[0132] Предыдущим кадром относительно текущего кадра является первый кадр, который расположен перед текущим кадром, например, если текущим кадром является n-й кадр, предыдущим кадром относительно текущего кадра является (n-1)-й кадр.
[0133] Необязательно, предыдущий кадр относительно текущего кадра также может кратко упоминаться как предыдущий кадр.
[0134] Прошедший кадр расположен перед текущим кадром во временной области, и прошедший кадр включает в себя предыдущий кадр относительно текущего кадра, первые два кадра относительно текущего кадра, первые три кадра относительно текущего кадра и т.п. Со ссылкой на ФИГ. 4, если текущий кадр является n-м кадром, прошедший кадр включает в себя: (n-1)-й кадр, (n-2)-й кадр, … и первый кадр.
[0135] Необязательно, в этой заявке, по меньшей мере один прошедший кадр может быть M кадрами, расположенными перед текущим кадром, например, восемью кадрами, расположенными перед текущим кадром.
[0136] Следующим кадром является первый кадр после текущего кадра. Со ссылкой на ФИГ. 4, если текущим кадром является n-й кадр, следующим кадром является (n+1)-й кадр.
[0137] Длительностью кадра является продолжительность кадра многоканальных сигналов. Необязательно, длительность (длина) кадра представляется количеством точек выборки, например, длительность кадра составляет N=320 точек выборки.
[0138] Коэффициент взаимной корреляции используется для представления степени взаимной корреляции между канальными сигналами разных каналов в многоканальном сигнале текущего кадра при различных межканальных временных разностях. Степень взаимной корреляции представляется с использованием значения взаимной корреляции. Для любых двух канальных сигналов в многоканальном сигнале текущего кадра, при некоторой межканальной временной разности, если два канальных сигнала, полученных после выполнения регулировки задержки на основе межканальной временной разности, являются более схожими, степень взаимной корреляции является более высокой, а значение взаимной корреляции является большим, или если различие между двумя канальными сигналами, полученными после выполнения регулировки задержки на основе межканальной временной разности, является большим, степень взаимной корреляции является более слабой, а значение взаимной корреляции является меньшим.
[0139] Значение индекса коэффициента взаимной корреляции соответствует межканальной временной разности, а значение взаимной корреляции, соответствующее каждому значению индекса коэффициента взаимной корреляции, представляет степень взаимной корреляции между двумя моносигналами, которые получены после регулировки задержки и которые соответствуют каждой межканальной временной разности.
[0140] Необязательно, коэффициент взаимной корреляции (коэффициенты взаимной корреляции) также может упоминаться как группа значений взаимной корреляции или упоминаться как функция взаимной корреляции. В данном варианте осуществления это не ограничено.
[0141] Со ссылкой на ФИГ. 4, когда вычисляется коэффициент взаимной корреляции канального сигнала a-го кадра, значения взаимной корреляции между сигналом L левого канала и сигналом R правого канала вычисляются отдельно при различных межканальных временных разностях.
[0142] Например, когда значение индекса коэффициента взаимной корреляции равно 0, межканальная временная разность составляет -N/2 точек выборки, и межканальная временная разность используется для выравнивания сигнала L левого канала и сигнала R правого канала, чтобы получить значение k0 взаимной корреляции;
когда значение индекса коэффициента взаимной корреляции равно 1, межканальная временная разность составляет (-N/2+1) точек выборки, и межканальная временная разность используется для выравнивания сигнала L левого канала и сигнала R правого канала, чтобы получить значение k1 взаимной корреляции;
когда значение индекса коэффициента взаимной корреляции равно 2, межканальная временная разность составляет (-N/2+2) точек выборки, и межканальная временная разность используется для выравнивания сигнала L левого канала и сигнала R правого канала, чтобы получить значение k2 взаимной корреляции;
когда значение индекса коэффициента взаимной корреляции равно 3, межканальная временная разность составляет (-N/2+3) точек выборки, и межканальная временная разность используется для выравнивания сигнала L левого канала и сигнала R правого канала, чтобы получить значение k3 взаимной корреляции; … и
когда значение индекса коэффициента взаимной корреляции равно N, межканальная временная разность составляет N/2 точек выборки, и межканальная временная разность используется для выравнивания сигнала L левого канала и сигнала R правого канала, чтобы получить значение kN взаимной корреляции.
[0143] Среди k0 - kN выполняют поиск максимального значения, например, максимумом является k3. В этом случае это указывает на то, что, когда межканальная временная разность составляет (-N/2+3) точек выборки, сигнал L левого канала и сигнал R правого канала являются наиболее схожими, другими словами, межканальная временная разность близка к реальной межканальной временной разности.
[0144] Следует отметить, что этот вариант осуществления используется только для описания принципа, согласно которому устройство аудиокодирования определяет межканальную временную разность с использованием коэффициента взаимной корреляции. При фактической реализации межканальная временная разность может определяться не с использованием вышеизложенного способа.
[0145] ФИГ. 5 представляет собой блок-схему последовательности операций способа оценки задержки согласно примерному варианту осуществления этой заявки. Способ включает в себя следующие несколько этапов.
[0146] Этап 301: Определение коэффициента взаимной корреляции многоканального сигнала текущего кадра.
[0147] Этап 302: Определение значения оценки дорожки задержки текущего кадра на основе буферизованной информации о межканальной временной разности по меньшей мере одного прошедшего кадра.
[0148] Необязательно, по меньшей мере один прошедший кадр является последовательным во времени, и последний кадр из по меньшей мере одного прошедшего кадра и текущий кадр являются последовательными во времени. Другими словами, последний прошедший кадр из по меньшей мере одного прошедшего кадра является предыдущим кадром относительно текущего кадра. В качестве альтернативы, по меньшей мере один прошедший кадр отстоит на предопределенное количество кадров во времени, а последний прошедший кадр из по меньшей мере одного прошедшего кадра отстоит на предопределенное количество кадров от текущего кадра. В качестве альтернативы, по меньшей мере один прошедший кадр является непоследовательным во времени, количество кадров между по меньшей мере одним прошедшим кадром не является фиксированным, и количество кадров между последним прошедшим кадром из по меньшей мере одного прошедшего кадра и текущим кадром фиксированным не является. Значение предопределенного количества кадров не ограничено в этом варианте осуществления, например, оно может равняться двум кадрам.
[0149] В этом варианте осуществления количество прошедших кадров не ограничено. Например, количество прошедших кадров составляет 8, 12 и 25.
[0150] Значение оценки дорожки задержки используется для представления прогнозного значения межканальной временной разности текущего кадра. В этом варианте осуществления дорожка задержки моделируется на основе информации о межканальной временной разности по меньшей мере одного прошедшего кадра и значение оценки дорожки задержки текущего кадра вычисляется на основе этой дорожки задержки.
[0151] Необязательно, информация о межканальной временной разности по меньшей мере одного прошедшего кадра представляет собой межканальную временную разность по меньшей мере одного прошедшего кадра или сглаженное значение межканальной временной разности по меньшей мере одного прошедшего кадра.
[0152] Сглаженное значение межканальной временной разности каждого прошедшего кадра определяется на основе значения оценки дорожки задержки кадра и межканальной временной разности кадра.
[0153] Этап 303: Определение адаптивной оконной функции текущего кадра.
[0154] Необязательно, адаптивная оконная функция представляет собой оконную функцию типа приподнятого косинуса. Адаптивная оконная функция имеет функцию относительного увеличения средней части и подавления краевой части.
[0155] Необязательно, адаптивные оконные функции, соответствующие кадрам канальных сигналов, являются различными.
[0156] Адаптивная оконная функция представляется с использованием следующих формул:
когда 0 ≤ k ≤ TRUNC(A * L_NCSHIFT_DS/2) - 2 * win_width - 1,
loc_weight_win(k) = win_bias;
когда TRUNC(A * L_NCSHIFT_DS/2) - 2 * win_width ≤ k ≤ TRUNC(A * L_NCSHIFT_DS/2) + 2 * win_width - 1,
loc_weight_win(k) = 0,5 * (1+win_bias) + 0,5 * (1 - win_bias) * cos(π *(k - TRUNC(A * L_NCSHIFT_DS/2))/(2 * win_width)); и
когда TRUNC(A * L_NCSHIFT_DS/2) + 2 * win_width ≤ k ≤ A * L_NCSHIFT_DS,
loc_weight_win(k) = win_bias.
[0157] loc_weight_win(k) используется для представления адаптивной оконной функции, при этом k=0, 1, ..., A * L_NCSHIFT_DS; A является предустановленной постоянной, которая больше или равна 4, например, A=4; TRUNC указывает округление значения, например, округление значения A * L_NCSHIFT_DS/2 в формуле адаптивной оконной функции; L_NCSHIFT_DS является максимальным значением абсолютного значения межканальной временной разности; win_width используется для представления параметра ширины приподнятого косинуса адаптивной оконной функции; и win_bias используется для представления смещения по высоте приподнятого косинуса адаптивной оконной функции.
[0158] Необязательно, максимальное значение абсолютного значения межканальной временной разности представляет собой предустановленное положительное число и обычно является положительным целым числом, которое больше нуля и меньшее или равно длительности кадра, например, 40, 60 или 80.
[0159] Необязательно, максимальное значение межканальной временной разности или минимальное значение межканальной временной разности является предустановленным положительным целым числом, и максимальное значение абсолютного значения межканальной временной разности получают посредством взятия абсолютного значения максимального значения межканальной временной разности, или максимальное значение абсолютного значения межканальной временной разности получают посредством взятия абсолютного значения минимального значения межканальной временной разности.
[0160] Например, максимальное значение межканальной временной разности равно 40, минимальное значение межканальной временной разности равно -40, а максимальное значение абсолютного значения межканальной временной разности равно 40, что получается посредством взятия абсолютного значения максимального значения межканальной временной разности, а также получается посредством взятия абсолютного значения минимального значения межканальной временной разности.
[0161] В другом примере, максимальное значение межканальной временной разности равно 40, минимальное значение межканальной временной разности равно -20, а максимальное значение абсолютного значения межканальной временной разности равно 40, что получается посредством взятия абсолютного значения максимального значения межканальной временной разности.
[0162] В другом примере, максимальное значение межканальной временной разности равно 40, минимальное значение межканальной временной разности равно -60, а максимальное значение абсолютного значения межканальной временной разности равно 60, что получается посредством взятия абсолютного значения минимального значения межканальной временной разности.
[0163] Из формулы адаптивной оконной функции можно узнать, что адаптивная оконная функция представляет собой окно типа приподнятого косинуса с фиксированной высотой с обеих сторон и выпуклостью в середине. Адаптивная оконная функция включает в себя окно с постоянным весом и окно с приподнятым косинусом со смещением по высоте. Вес окна с постоянным весом определяется на основе смещения по высоте. Адаптивная оконная функция главным образом определяется двумя параметрами: параметром ширины приподнятого косинуса и смещением по высоте приподнятого косинуса.
[0164] Ссылка приводится на схематичное представление адаптивной оконной функции, показанной на ФИГ. 6. По сравнению с широким окном 402 узкое окно 401 означает, что ширина окна собственно окна приподнятого косинуса в адаптивной оконной функции является относительно малой и разность между значением оценки дорожки задержки, соответствующим узкому окну 401, и фактической межканальной временной разностью является относительно малой. По сравнению с узким окном 401 широкое окно 402 означает, что ширина окна собственно окна приподнятого косинуса в адаптивной оконной функции является относительно большой и разность между значением оценки дорожки задержки, соответствующим широкому окну 402, и фактической межканальной временной разностью является относительно большой. Другими словами, ширина окна собственно окна приподнятого косинуса в адаптивной оконной функции положительно коррелирует с разностью между значением оценки дорожки задержки и фактической межканальной временной разностью.
[0165] Параметр ширины приподнятого косинуса и смещение по высоте приподнятого косинуса адаптивной оконной функции относятся к информации об отклонении оценки межканальной временной разности многоканального сигнала в каждом кадре. Информация об отклонении оценки межканальной временной разности используется для представления отклонения между прогнозным значением межканальной временной разности и фактическим значением.
[0166] Ссылка приводится на схематичное представление взаимосвязи между параметром ширины приподнятого косинуса и информацией об отклонении оценки межканальной временной разности, показанное на ФИГ. 7. Если верхнее предельное значение параметра ширины приподнятого косинуса составляет 0,25, значение информации об отклонении оценки межканальной временной разности, соответствующее этому верхнему предельному значению параметра ширины приподнятого косинуса, составляет 3,0. В этом случае значение информации об отклонении оценки межканальной временной разности является относительно большим, и ширина окна собственно окна приподнятого косинуса в адаптивной оконной функции является относительно большой (см. широкое окно 402 на ФИГ. 6). Если нижнее предельное значение параметра ширины приподнятого косинуса адаптивной оконной функции составляет 0,04, значение информации об отклонении оценки межканальной временной разности, соответствующее этому нижнему предельному значению параметра ширины приподнятого косинуса, составляет 1,0. В этом случае значение информации об отклонении оценки межканальной временной разности является относительно малым, и ширина окна собственно окна приподнятого косинуса в адаптивной оконной функции является относительно малой (см. узкое окно 401 на ФИГ. 6).
[0167] Ссылка приводится на схематичное представление взаимосвязи между смещением по высоте приподнятого косинуса и информацией об отклонении оценки межканальной временной разности, показанное на ФИГ. 8. Если верхнее предельное значение смещения по высоте приподнятого косинуса составляет 0,7, значение информации об отклонении оценки межканальной временной разности, соответствующее этому верхнему предельному значению смещения по высоте приподнятого косинуса, составляет 3,0. В этом случае отклонение оценки межканальной временной разности является относительно большим и смещение по высоте окна приподнятого косинуса в адаптивной оконной функции является относительно большим (см. широкое окно 402 на ФИГ. 6). Если нижнее предельное значение смещения по высоте приподнятого косинуса составляет 0,4, значение информации об отклонении оценки межканальной временной разности, соответствующее этому нижнему предельному значению смещения по высоте приподнятого косинуса, составляет 1,0. В этом случае значение информации об отклонении оценки межканальной временной разности является относительно малым и смещение по высоте окна приподнятого косинуса в адаптивной оконной функции является относительно малым (см. узкое окно 401 на ФИГ. 6).
[0168] Этап 304: Выполнение взвешивания над коэффициентом взаимной корреляции на основе значения оценки дорожки задержки текущего кадра и адаптивной оконной функции текущего кадра для получения взвешенного коэффициента взаимной корреляции.
[0169] Взвешенный коэффициент взаимной корреляции может быть получен посредством вычисления с использованием следующих формул вычисления:
c_weight(x) = c(x) * loc_weight_win(x - TRUNC(reg_prv_corr) + TRUNC(A * L_NCSHIFT_DS/2) - L_NCSHIFT_DS).
[0170] c_weight(x) является взвешенным коэффициентом взаимной корреляции; c(x) является коэффициентом взаимной корреляции; loc_weight_win является адаптивной оконной функцией текущего кадра; TRUNC указывает округление значения, например, округление reg_prv_corr в формуле взвешенного коэффициента взаимной корреляции и округление значения A * L_NCSHIFT_DS/2; reg_prv_corr является значением оценки дорожки задержки текущего кадра; и x является целым числом, большим или равным нулю и меньшим или равным 2 * L_NCSHIFT_DS.
[0171] Адаптивная оконная функция представляет собой окно типа приподнятого косинуса и имеет функцию относительного увеличения средней части и подавления краевой части. Следовательно, когда выполняется взвешивание над коэффициентом взаимной корреляции на основе значения оценки дорожки задержки текущего кадра и адаптивной оконной функции текущего кадра, если значение индекса находится ближе к значению оценки дорожки задержки, весовой коэффициент соответствующего значения взаимной корреляции становится большим, и если значение индекса находится дальше от значения оценки дорожки задержки, весовой коэффициент соответствующего значения взаимной корреляции становится меньшим. Параметр ширины приподнятого косинуса и смещение по высоте приподнятого косинуса адаптивной оконной функции адаптивно подавляют значение взаимной корреляции, соответствующее значению индекса, находящемуся на некотором удалении от значения оценки дорожки задержки, в коэффициенте взаимной корреляции.
[0172] Этап 305: Определение межканальной временной разности текущего кадра на основе взвешенного коэффициента взаимной корреляции.
[0173] Определение межканальной временной разности текущего кадра на основе взвешенного коэффициента взаимной корреляции включает в себя: поиск максимального значения собственно значения взаимной корреляции во взвешенном коэффициенте взаимной корреляции; и определение межканальной временной разности текущего кадра на основе значения индекса, соответствующего максимальному значению.
[0174] Необязательно, поиск максимального значения собственно значения взаимной корреляции во взвешенном коэффициенте взаимной корреляции включает в себя: сравнение второго значения взаимной корреляции с первым значением взаимной корреляции в коэффициенте взаимной корреляции для получения максимального значения из первого значения взаимной корреляции и второго значения взаимной корреляции; сравнение третьего значения взаимной корреляции с упомянутым максимальным значением для получения максимального значения из третьего значения взаимной корреляции и упомянутого максимального значения; и, в циклическом порядке, сравнение i-го значения взаимной корреляции с максимальным значением, полученным посредством предыдущего сравнения, чтобы получить максимальное значение из i-го значения взаимной корреляции и максимального значения, полученного посредством предыдущего сравнения. Предполагается, что i=i+1, а этап сравнения i-го значения взаимной корреляции с максимальным значением, получаемым посредством предыдущего сравнения, непрерывно выполняется до тех пор, пока все значения взаимной корреляции не будут сравнены для получения максимального значения из этих значений взаимной корреляции, при этом i является целым числом, которое больше 2.
[0175] Необязательно, определение межканальной временной разности текущего кадра на основе значения индекса, соответствующего максимальному значению, включает в себя: использование суммы значения индекса, соответствующего максимальному значению и минимальному значению межканальной временной разности, в качестве межканальной временной разности текущего кадра.
[0176] Коэффициент взаимной корреляции может отражать степень взаимной корреляции между двумя канальными сигналами, получаемыми после того, как задержка регулируется на основе различных межканальных временных разностей, и существует соответствие между значением индекса коэффициента взаимной корреляции и межканальной временной разностью. Следовательно, устройство аудиокодирования может определять межканальную временную разность текущего кадра на основе значения индекса, соответствующего максимальному значению коэффициента взаимной корреляции (с наивысшей степенью взаимной корреляции).
[0177] В заключение, согласно способу оценки задержки, предоставленному в этом варианте осуществления, межканальная временная разность текущего кадра прогнозируется на основе значения оценки дорожки задержки текущего кадра, а взвешивание выполняется на основе коэффициента взаимной корреляции на основе значения оценки дорожки задержки текущего кадра и адаптивной оконной функции текущего кадра. Адаптивная оконная функция является окном типа приподнятого косинуса и имеет функцию относительного увеличения средней части и подавления краевой части. Следовательно, когда выполняется взвешивание над коэффициентом взаимной корреляции на основе значения оценки дорожки задержки текущего кадра и адаптивной оконной функции текущего кадра, если значение индекса находится ближе к значению оценки дорожки задержки, весовой коэффициент становится большим, избегая проблемы, заключающейся в том, что первый коэффициент взаимной корреляции является чрезмерно сглаженным, и если значение индекса находится дальше от значения оценки дорожки задержки, весовой коэффициент становится меньшим, избегая проблемы, заключающейся в том, что второй коэффициент взаимной корреляции является недостаточно сглаженным. Таким образом, адаптивная оконная функция адаптивно подавляет значение взаимной корреляции, соответствующее значению индекса, находящемуся на некотором удалении от значения оценки дорожки задержки, в коэффициенте взаимной корреляции, тем самым повышая точность определения межканальной временной разности во взвешенном коэффициенте взаимной корреляции. Первым коэффициентом взаимной корреляции является значение взаимной корреляции, соответствующее значению индекса, находящемуся рядом со значением оценки дорожки задержки, в коэффициенте взаимной корреляции, а вторым коэффициентом взаимной корреляции является значение взаимной корреляции, соответствующее значению индекса, находящемуся на некотором удалении от значения оценки дорожки задержки, в коэффициенте взаимной корреляции.
[0178] Этапы с 301 по 303 в варианте осуществления, показанном на ФИГ. 5, подробно описаны ниже.
[0179] Во-первых, приводится описание определения коэффициента взаимной корреляции многоканального сигнала текущего кадра на этапе 301.
[0180] (1) Устройство аудиокодирования определяет коэффициент взаимной корреляции на основе сигнала временной области левого канала и сигнала временной области правого канала текущего кадра.
[0181] Максимальное значение Tmax межканальной временной разности и минимальное значение Tmin межканальной временной разности обычно необходимо предварительно установить, чтобы определить диапазон вычисления коэффициента взаимной корреляции. Как максимальное значение Tmax межканальной временной разности, так и минимальное значение Tmin межканальной временной разности являются действительными числами, и Tmax > Tmin. Значения Tmax и Tmin связаны с длительностью кадра, или значения Tmax и Tmin связаны с текущей частотой дискретизации.
[0182] Необязательно, максимальное значение L_NCSHIFT_DS абсолютного значения межканальной временной разности предварительно устанавливается для определения максимального значения Tmax межканальной временной разности и минимального значения Tmin межканальной временной разности. Например, максимальное значение Tmax межканальной временной разности=L_NCSHIFT_DS, а минимальное значение Tmin межканальной временной разности = -L_NCSHIFT_DS.
[0183] Значения Tmax и Tmin в этой заявке не ограничены. Например, если максимальное значение L_NCSHIFT_DS абсолютного значения межканальной временной разности составляет 40, Tmax=40 и Tmin = -40.
[0184] В реализации значение индекса коэффициента взаимной корреляции используется для указания разности между межканальной временной разностью и минимальным значением межканальной временной разности. В этом случае определение коэффициента взаимной корреляции на основе сигнала временной области левого канала и сигнала временной области правого канала текущего кадра представляется с использованием следующих формул:
[0185] В случае Tmin ≤ 0 и 0 < Tmax,
когда Tmin ≤ i ≤ 0,
когда 0 < i ≤ Tmax,
[0186] В случае Tmin ≤ 0 и Tmax ≤ 0,
когда Tmin ≤ i ≤ Tmax,
[0187] В случае Tmin ≥ 0 и Tmax ≥ 0,
когда Tmin ≤ i ≤ Tmax,
[0188] N является длительностью кадра, является сигналом временной области левого канала текущего кадра, является сигналом временной области правого канала текущего кадра, c(k) является коэффициентом взаимной корреляции текущего кадра, k является значением индекса коэффициента взаимной корреляции, k является целым числом не менее 0, а диапазон значений k равен [0, Tmax - Tmin].
[0189] Предполагается, что Tmax=40, а Tmin = -40. В этом случае устройство аудиокодирования определяет коэффициент взаимной корреляции текущего кадра, используя способ вычисления, соответствующий случаю, когда Tmin ≤ 0 и 0 < Tmax. В этом случае диапазон значений k равен [0, 80].
[0190] В другой реализации значение индекса коэффициента взаимной корреляции используется для указания межканальной временной разности. В этом случае определение устройством аудиокодирования коэффициента взаимной корреляции на основе максимального значения межканальной временной разности и минимального значения межканальной временной разности представляется с использованием следующих формул:
[0191] В случае Tmin ≤ 0 и 0 < Tmax,
когда Tmin ≤ i ≤ 0,
когда 0 < i ≤ Tmax,
[0192] В случае Tmin ≤ 0 и Tmax ≤ 0,
когда Tmin ≤ i ≤ Tmax,
[0193] В случае Tmin ≥ 0 и Tmax ≥ 0,
когда Tmin ≤ i ≤ Tmax,
[0194] N является длительностью кадра, является сигналом временной области левого канала текущего кадра, является сигналом временной области правого канала текущего кадра, c(i) является коэффициентом взаимной корреляции текущего кадра, i является значением индекса коэффициента взаимной корреляции, а диапазон значений i равен [Tmin, Tmax].
[0195] Предполагается, что Tmax=40, а Tmin = -40. В этом случае устройство аудиокодирования определяет коэффициент взаимной корреляции текущего кадра, используя способ вычисления, соответствующий случаю, когда Tmin ≤ 0 и 0 < Tmax. В этом случае диапазон значений i равен [-40, 40].
[0196] Во-вторых, приводится описание определения значения оценки дорожки задержки текущего кадра на этапе 302.
[0197] В первой реализации оценка дорожки задержки выполняется на основе буферизованной информации о межканальной временной разности по меньшей мере одного прошедшего кадра с использованием метода линейной регрессии, чтобы определить значение оценки дорожки задержки текущего кадра.
[0198] Эта реализация реализуется с использованием следующих нескольких этапов:
[0199] (1) Генерирование M пар данных на основе информации о межканальной временной разности по меньшей мере одного прошедшего кадра и соответствующего порядкового номера, где M является положительным целым числом.
[0200] Буфер хранит информацию о межканальной временной разности М прошедших кадров.
[0201] Необязательно, информация о межканальной временной разности представляет собой межканальную временную разность. Необязательно, информация о межканальной временной разности представляет собой сглаженное значение межканальной временной разности.
[0202] Необязательно, межканальные временные разности, которые происходят из М прошедших кадров и которые хранятся в буфере, следуют принципу «первым пришел - первым вышел». Если быть точнее, местоположение в буфере межканальной временной разности, которая буферизована первой и которая происходит из прошедшего кадра, находится впереди, а местоположение в буфере межканальной временной разности, которая буферизована позже и которая происходит из прошедшего кадра, находится позади.
[0203] Кроме того, для межканальной временной разности, которая буферизуется позже и которая происходит из прошедшего кадра, межканальная временная разность, которая буферизована первой и которая происходит из прошедшего кадра, выходит из буфера первой.
[0204] Необязательно, в этом варианте осуществления каждая пара данных формируется с использованием информации о межканальной временной разности каждого прошедшего кадра и соответствующего порядкового номера.
[0205] Порядковый номер именуется местоположением каждого прошедшего кадра в буфере. Например, если в буфере хранятся восемь прошедших кадров, порядковые номера равны 0, 1, 2, 3, 4, 5, 6 и 7 соответственно.
[0206] Например, формируемыми парами данных M являются: {(x0, y0), (x1, y1), (x2, y2) … (xr, yr), … и (xM-1, yM-1)}. (xr, yr) является (r+1)-й парой данных, а xr используется для указания порядкового номера (r+1)-ой пары данных, то есть xr=r; и yr используется для указания межканальной временной разности, которая происходит из прошедшего кадра, и которая соответствует (r+1)-ой паре данных, где r=0, 1, … и (M - 1).
[0207] ФИГ. 9 представляет собой схематичное представление восьми буферизированных прошедших кадров. Местоположение, соответствующее каждому порядковому номеру, буферизует межканальную временную разность одного прошедшего кадра. В этом случае, восемью парами данных являются: {(x0, y0), (x1, y1), (x2, y2) … (xr, yr), … и (x7, y7)}. В этом случае r=0, 1, 2, 3, 4, 5, 6 и 7.
[0208] (2) Вычисление первого параметра линейной регрессии и второго параметра линейной регрессии на основе M пар данных.
[0209] В этом варианте осуществления предполагается, что yr в парах данных представляет собой линейную функцию, которая относится к xr и которая имеет ошибку измерения εr. Линейная функция выглядит следующим образом:
yr=α+β * xr+εr.
[0210] α является первым параметром линейной регрессии, β является вторым параметром линейной регрессии, а εr является ошибкой измерения.
[0211] Линейная функция должна удовлетворять следующему условию: Расстояние между наблюдаемым значением yr (фактически буферизованная межканальная временная разность), соответствующим точке xr наблюдения, и значением α+β * xr оценки, вычисляемым на основе линейной функции, должно быть наименьшим, если быть точнее, выполняется минимизация стоимостной функции Q (α, β).
[0212] Стоимостная функция Q (α, β) выглядит следующим образом:
[0213] Для удовлетворения вышеуказанного условия первый параметр линейной регрессии и второй параметр линейной регрессии в линейной функции должны соответствовать следующему:
;
[0214] xr используется для указания порядкового номера (r+1)-ой пары данных из M пар данных, а yr является информацией о межканальной временной разности (r+1)-ой пары данных.
[0215] (3) Получение значения оценки дорожки задержки текущего кадра на основе первого параметра линейной регрессии и второго параметра линейной регрессии.
[0216] Значение оценки, соответствующее порядковому номеру (M+1)-ой пары данных, вычисляется на основе первого параметра линейной регрессии и второго параметра линейной регрессии, и значение оценки определяется как значение оценки дорожки задержки текущего кадра. Формула выглядит следующим образом:
reg_prv_corr=α+β * M, где
reg_prv_corr представляет значение оценки дорожки задержки текущего кадра, M является порядковым номером (M+1)-ой пары данных, а α+β * M является значением оценки (M+1)-ой пары данных.
[0217] Например, M=8. После того, как α и β определены на основе восьми сформированных пар данных, межканальная временная разность в девятой паре данных оценивается на основе α и β, и межканальная временная разность в девятой паре данных определяется как значение оценки дорожки задержки текущего кадра, то есть reg_prv_corr=α+β * 8.
[0218] Необязательно, в этом варианте осуществления лишь способ формирования пары данных с использованием порядкового номера и межканальной временной разности используется в качестве примера для описания. При фактической реализации пара данных может в качестве альтернативы формироваться другим способом. В данном варианте осуществления это не ограничено.
[0219] Во второй реализации оценка дорожки задержки выполняется на основе буферизованной информации о межканальной временной разности по меньшей мере одного прошедшего кадра с использованием метода взвешенной линейной регрессии, чтобы определить значение оценки дорожки задержки текущего кадра.
[0220] Эта реализация реализуется с использованием следующих нескольких этапов:
[0221] (1) Генерирование M пар данных на основе информации о межканальной временной разности по меньшей мере одного прошедшего кадра и соответствующего порядкового номера, где M является положительным целым числом.
[0222] Этот этап является таким же, как этап (1) в первой реализации и связанное с ним описание, и подробности в этом варианте осуществления повторно не приводятся.
[0223] (2) Вычисление первого параметра линейной регрессии и второго параметра линейной регрессии на основе M пар данных и весовых коэффициентов M прошедших кадров.
[0224] Необязательно, буфер хранит не только информацию о межканальной временной разности M прошедших кадров, но также хранит весовые коэффициенты M прошедших кадров. Весовой коэффициент используется для вычисления значения оценки дорожки задержки соответствующего прошедшего кадра.
[0225] Необязательно, весовой коэффициент каждого прошедшего кадра получается посредством вычисления на основе отклонения сглаженной оценки межканальной временной разности прошедшего кадра. В качестве альтернативы, весовой коэффициент каждого прошедшего кадра получается посредством вычисления на основе отклонения оценки межканальной временной разности прошедшего кадра.
[0226] В этом варианте осуществления предполагается, что yr в парах данных представляет собой линейную функцию, которая относится к xr и которая имеет ошибку измерения εr. Линейная функция выглядит следующим образом:
yr=α+β * xr+εr.
[0227] α является первым параметром линейной регрессии, β является вторым параметром линейной регрессии, а εr является ошибкой измерения.
[0228] Линейная функция должна удовлетворять следующему условию: Весовое расстояние между наблюдаемым значением yr (фактически буферизованная межканальная временная разность), соответствующим точке xr наблюдения, и значением α+β * xr оценки, вычисляемым на основе линейной функции, должно быть наименьшим, если быть точнее, выполняется минимизация стоимостной функции Q (α, β).
[0229] Стоимостная функция Q (α, β) выглядит следующим образом:
[0230] wr является весовым коэффициентом прошедшего кадра, соответствующего r-й паре данных.
[0231] Для удовлетворения вышеуказанного условия первый параметр линейной регрессии и второй параметр линейной регрессии в линейной функции должны соответствовать следующему:
[0232] xr используется для указания порядкового номера (r+1)-ой пары данных из М пар данных, yr является информацией о межканальной временной разности в (r+1)-й паре данных, wr является весовым коэффициентом, соответствующим информации о межканальной временной разности в (r+1)-й паре данных в по меньшей мере одном прошедшем кадре.
[0233] (3) Получение значения оценки дорожки задержки текущего кадра на основе первого параметра линейной регрессии и второго параметра линейной регрессии.
[0234] Этот этап является таким же, как этап (3) в первой реализации и связанное с ним описание, и подробности в этом варианте осуществления повторно не приводятся.
[0235] Необязательно, в этом варианте осуществления лишь способ формирования пары данных с использованием порядкового номера и межканальной временной разности используется в качестве примера для описания. При фактической реализации пара данных может в качестве альтернативы формироваться другим способом. В данном варианте осуществления это не ограничено.
[0236] Следует отметить, что в этом варианте осуществления описание предоставляется с использованием примера, в котором значение оценки дорожки задержки вычисляется лишь с использованием метода линейной регрессии или метода взвешенной линейной регрессии. При фактической реализации значение оценки дорожки задержки может в качестве альтернативы вычисляться другим способом. В данном варианте осуществления это не ограничено. Например, значение оценки дорожки задержки вычисляется с использованием метода B-сплайна (B-spline), или значение оценки дорожки задержки вычисляется с использованием метода кубического сплайна, или значение оценки дорожки задержки вычисляется с использованием метода квадратичного сплайна.
[0237] В-третьих, приводится описание определения адаптивной оконной функции текущего кадра на этапе 303.
[0238] В этом варианте осуществления предусмотрены два способа вычисления адаптивной оконной функции текущего кадра. В первом способе адаптивная оконная функция текущего кадра определяется на основе отклонения сглаженной оценки межканальной временной разности предыдущего кадра. В этом случае информация об отклонении оценки межканальной временной разности является отклонением сглаженной оценки межканальной временной разности, а параметр ширины приподнятого косинуса и смещение по высоте приподнятого косинуса адаптивной оконной функции относятся к отклонению сглаженной оценки межканальной временной разности. Во втором способе адаптивная оконная функция текущего кадра определяется на основе отклонения оценки межканальной временной разности текущего кадра. В этом случае информация об отклонении оценки межканальной временной разности является отклонением оценки межканальной временной разности, а параметр ширины приподнятого косинуса и смещение по высоте приподнятого косинуса адаптивной оконной функции относятся к отклонению оценки межканальной временной разности.
[0239] Эти два способа отдельно описаны ниже.
[0240] Этот первый способ реализуется с использованием следующих нескольких этапов:
[0241] (1) Вычисление первого параметра ширины приподнятого косинуса на основе отклонения сглаженной оценки межканальной временной разности предыдущего кадра относительно текущего кадра.
[0242] Поскольку точность вычисления адаптивной оконной функции текущего кадра с использованием многоканального сигнала рядом с текущим кадром является относительно высокой, в этом варианте осуществления описание предоставляется с использованием примера, в котором адаптивная оконная функция текущего кадра определяется на основе отклонения сглаженной оценки межканальной временной разности предыдущего кадра относительно текущего кадра.
[0243] Необязательно, отклонение сглаженной оценки межканальной временной разности предыдущего кадра относительно текущего кадра сохраняется в буфере.
[0244] Этот этап представляется с использованием следующих формул:
win_width1=TRUNC(width_par1 * (A * L_NCSHIFT_DS+1)), и
width_par1=a_width1 * smooth_dist_reg+b_width1, где
a_width1 = (xh_width1 - xl_width1)/(yh_dist1 - yl_dist1),
b_width1=xh_width1 - a_width1 * yh_dist1,
win_width1 является первым параметром ширины приподнятого косинуса, TRUNC указывает округление значения, L_NCSHIFT_DS является максимальным значением абсолютного значения межканальной временной разности, A является предустановленной постоянной, и A больше или равна 4.
[0245] xh_width1 является верхним предельным значением первого параметра ширины приподнятого косинуса, например, 0,25 на ФИГ. 7; xl_width1 является нижним предельным значением первого параметра ширины приподнятого косинуса, например, 0,04 на ФИГ. 7; yh_dist1 является отклонением сглаженной оценки межканальной временной разности, соответствующим верхнему предельному значению первого параметра ширины приподнятого косинуса, например, 3,0, что соответствует 0,25 на ФИГ. 7; yl_dist1 является отклонением сглаженной оценки межканальной временной разности, соответствующим нижнему предельному значению первого параметра ширины приподнятого косинуса, например, 1,0, что соответствует 0,04 на ФИГ. 7.
[0246] smooth_dist_reg является отклонением сглаженной оценки межканальной временной разности предыдущего кадра относительно текущего кадра, а все xh_width1, xl_width1, yh_dist1 и yl_dist1 являются положительными числами.
[0247] Необязательно, в вышеприведенной формуле b_width1=xh_width1 - a_width1 * yh_dist1 может быть заменено на b_width1=xl_width1 - a_width1 * yl_dist1.
[0248] Необязательно, на этом этапе width_par1=min(width_par1, xh_width1) и width_par1=max(width_par1, xl_width1), где min представляет взятие минимального значения, а max представляет взятие максимального значения. В частности, когда width_par1, полученный посредством вычисления, больше, чем xh_width1, width_par1 устанавливается равным xh_width1; или когда width_par1, полученный посредством вычисления, меньше, чем xl_width1, width_par1 устанавливается равным xl_width1.
[0249] В этом варианте осуществления, когда width_par1 больше верхнего предельного значения первого параметра ширины приподнятого косинуса, width_par1 ограничивается верхним предельным значением первого параметра ширины приподнятого косинуса; или когда width_par1 меньше нижнего предельного значения первого параметра ширины приподнятого косинуса, width_par1 ограничивается нижним предельным значением первого параметра ширины приподнятого косинуса, чтобы гарантировать, что значение width_par1 не выйдет за пределы нормального диапазона значений параметра ширины приподнятого косинуса, что гарантирует точность вычисляемой адаптивной оконной функции.
[0250] (2) Вычисление первого смещения по высоте приподнятого косинуса на основе отклонения сглаженной оценки межканальной временной разности предыдущего кадра относительно текущего кадра.
[0251] Этот этап представляется с использованием следующей формулы:
win_bias1=a_bias1 * smooth_dist_reg+b_bias1, где
a_bias1 = (xh_bias1 - xl_bias1)/(yh_dist2 - yl_dist2), и
b_bias1=xh_bias1 - a_bias1 * yh_dist2.
[0252] win_bias1 является первым смещением по высоте приподнятого косинуса; xh_bias1 является верхним предельным значением первого смещения по высоте приподнятого косинуса, например, 0,7 на ФИГ. 8; xl_bias1 является нижним предельным значением первого смещения по высоте приподнятого косинуса, например, 0,4 на ФИГ. 8; yh_dist2 является отклонением сглаженной оценки межканальной временной разности, соответствующим верхнему предельному значению первого смещения по высоте приподнятого косинуса, например, 3,0, что соответствует 0,7 на ФИГ. 8; yl_dist2 является отклонением сглаженной оценки межканальной временной разности, соответствующим нижнему предельному значению первого смещения по высоте приподнятого косинуса, например, 1,0, что соответствует 0,4 на ФИГ. 8; smooth_dist_reg является отклонением сглаженной оценки межканальной временной разности предыдущего кадра относительно текущего кадра; и все yh_dist2, yl_dist2, xh_bias1 и xl_bias1 являются положительными числами.
[0253] Необязательно, в приведенной выше формуле b_bias1=xh_bias1 - a_bias1 * yh_dist2 можно заменить на b_bias1=xl_bias1 - a_bias1 * yl_dist2.
[0254] Необязательно, в этом варианте осуществления win_bias1=min(win_bias1, xh_bias1) и win_bias1=max(win_bias1, xl_bias1). В частности, когда win_bias1, полученное посредством вычисления, больше, чем xh_bias1, win_bias1 устанавливается равным xh_bias1; или когда win_bias1, полученное посредством вычисления, меньше, чем xl_bias1, win_bias1 устанавливается равным xl_bias1.
[0255] Необязательно, yh_dist2=yh_dist1 и yl_dist2=yl_dist1.
[0256] (3) Определение адаптивной оконной функции текущего кадра на основе первого параметра ширины приподнятого косинуса и первого смещения по высоте приподнятого косинуса.
[0257] Первый параметр ширины приподнятого косинуса и первое смещение по высоте приподнятого косинуса вводятся в адаптивную оконную функцию на этапе 303 для получения следующих формул вычисления:
когда 0 ≤ k ≤ TRUNC(A * L_NCSHIFT_DS/2) - 2 * win_width1-1,
loc_weight_win(k) = win_bias1;
когда TRUNC(A * L_NCSHIFT_DS/2) - 2 * win_width1 ≤ k ≤ TRUNC(A * L_NCSHIFT_DS/2) + 2 * win_width1-1,
loc_weight_win(k) = 0,5 * (1+win_bias1) + 0,5 * (1 - win_bias1) * cos(π * (k - TRUNC(A * L_NCSHIFT_DS/2))/(2 * win_width1)); и
когда TRUNC(A * L_NCSHIFT_DS/2) + 2 * win_width1 ≤ k ≤ A * L_NCSHIFT_DS,
loc_weight_win(k) = win_bias1.
[0258] loc_weight_win(k) используется для представления адаптивной оконной функции, при этом k=0, 1, …, A * L_NCSHIFT_DS; A является предустановленной постоянной, которая больше или равна 4, например, A=4, L_NCSHIFT_DS является максимальным значением абсолютного значения межканальной временной разности; win_width1 является первым параметром ширины приподнятого косинуса; а win_bias1 является первым смещением по высоте приподнятого косинуса.
[0259] В этом варианте осуществления адаптивная оконная функция текущего кадра вычисляется с использованием отклонения сглаженной оценки межканальной временной разности предыдущего кадра, так что форма адаптивной оконной функции регулируется на основе отклонения сглаженной оценки межканальной временной разности, тем самым избегая проблемы, связанной с тем, что формируемая адаптивная оконная функция является неточной из-за ошибки оценки дорожки задержки текущего кадра, и повышая точность формирования адаптивной оконной функции.
[0260] Необязательно, после определения межканальной временной разности текущего кадра на основе адаптивной оконной функции, определенной согласно первому способу, отклонение сглаженной оценки межканальной временной разности текущего кадра может быть дополнительно определено на основе отклонения сглаженной оценки межканальной временной разности предыдущего кадра относительно текущего кадра, значения оценки дорожки задержки текущего кадра и межканальной временной разности текущего кадра.
[0261] Необязательно, отклонение сглаженной оценки межканальной временной разности предыдущего кадра относительно текущего кадра в буфере обновляется на основе отклонения сглаженной оценки межканальной временной разности текущего кадра.
[0262] Необязательно, после каждого определения межканальной временной разности текущего кадра, отклонение сглаженной оценки межканальной временной разности предыдущего кадра относительно текущего кадра в буфере обновляется на основе отклонения сглаженной оценки межканальной временной разности текущего кадра.
[0263] Необязательно, обновление отклонения сглаженной оценки межканальной временной разности предыдущего кадра относительно текущего кадра в буфере на основе отклонения сглаженной оценки межканальной временной разности текущего кадра включает в себя: замену отклонения сглаженной оценки межканальной временной разности предыдущего кадра относительно текущего кадра в буфере отклонением сглаженной оценки межканальной временной разности текущего кадра.
[0264] Отклонение сглаженной оценки межканальной временной разности текущего кадра получается посредством вычисления с использованием следующих формул вычисления:
smooth_dist_reg_update = (1 - γ) * smooth_dist_reg+γ * dist_reg', и
dist_reg' = |reg_prv_corr - cur_itd|.
[0265] smooth_dist_reg_update является отклонением сглаженной оценки межканальной временной разности текущего кадра; γ является первым коэффициентом сглаживания, и 0 < γ < 1, например, ; smooth_dist_reg является отклонением сглаженной оценки межканальной временной разности предыдущего кадра относительно текущего кадра; reg_prv_corr является значением оценки дорожки задержки текущего кадра; и cur_itd является межканальной временной разностью текущего кадра.
[0266] В этом варианте осуществления, после того, как межканальная временная разность текущего кадра определена, вычисляется отклонение сглаженной оценки межканальной временной разности текущего кадра. Когда необходимо определить межканальную временную разность следующего кадра, адаптивная оконная функция следующего кадра может быть определена с использованием отклонения сглаженной оценки межканальной временной разности текущего кадра, чтобы гарантировать точность определения межканальной временной разности следующего кадра.
[0267] Необязательно, после того, как межканальная временная разность текущего кадра определена на основе адаптивной оконной функции, определенной согласно вышеупомянутому первому способу, буферизованная информация о межканальной временной разности по меньшей мере одного прошедшего кадра может быть дополнительно обновлена.
[0268] В способе обновления буферизованная информация о межканальной временной разности по меньшей мере одного прошедшего кадра обновляется на основе межканальной временной разности текущего кадра.
[0269] В другом способе обновления буферизованная информация о межканальной временной разности по меньшей мере одного прошедшего кадра обновляется на основе сглаженного значения межканальной временной разности текущего кадра.
[0270] Необязательно, сглаженное значение межканальной временной разности текущего кадра определяется на основе значения оценки дорожки задержки текущего кадра и межканальной временной разности текущего кадра.
[0271] Например, на основе значения оценки дорожки задержки текущего кадра и межканальной временной разности текущего кадра сглаженное значение межканальной временной разности текущего кадра может быть определено с использованием следующей формулы:
cur_itd_smooth=ϕ * reg_prv_corr + (1 - ϕ) * cur_itd.
[0272] cur_itd_smooth является сглаженным значением межканальной временной разности текущего кадра, ϕ является вторым коэффициентом сглаживания, reg_prv_corr является значением оценки дорожки задержки текущего кадра, cur_itd является межканальной временной разностью текущего кадра. ϕ является постоянной, большей или равной 0 и меньшей или равной 1.
[0273] Обновление буферизованной информации о межканальной временной разности по меньшей мере одного прошедшего кадра включает в себя: добавление межканальной временной разности текущего кадра или сглаженного значения межканальной временной разности текущего кадра в буфер.
[0274] Необязательно, например, сглаженное значение межканальной временной разности обновляется в буфере. Буфер хранит сглаженные значения межканальной временной разности, соответствующие фиксированному количеству прошедших кадров, например, буфер сохраняет сглаженные значения межканальной временной разности восьми прошедших кадров. Если сглаженное значение межканальной временной разности текущего кадра добавляется в буфер, то сглаженное значение межканальной временной разности прошедшего кадра, который исходно находился в первом бите (начало очереди) в буфере, удаляется. Соответственно, сглаженное значение межканальной временной разности прошедшего кадра, который исходно находился во втором бите, обновляется до первого бита. По аналогии, сглаженное значение межканальной временной разности текущего кадра помещается в последний бит (хвост очереди) в буфере.
[0275] Ссылка приводится на процесс обновления буфера, показанный на ФИГ. 10. Предполагается, что буфер хранит сглаженные значения межканальной временной разности восьми прошедших кадров. Перед добавлением в буфер сглаженного значения 601 межканальной временной разности (то есть, восемь прошедших кадров, соответствующих текущему кадру), сглаженное значение межканальной временной разности (i-8)-го кадра буферизовано в первом бите и сглаженное значение межканальной временной разности (i-7)-го кадра буферизовано во втором бите ... и сглаженное значение межканальной временной разности (i-1)-го кадра буферизовано в восьмом бите.
[0276] Если сглаженное значение 601 межканальной временной разности текущего кадра добавляется в буфер, первый бит (который представлен пунктирной рамкой на фигуре) удаляется, порядковый номер второго бита становится порядковым номером первого бита, порядковый номер третьего бита становится порядковым номером второго бита ... и порядковый номер восьмого бита становится порядковым номером седьмого бита. Сглаженное значение 601 межканальной временной разности текущего кадра (i-го кадра) помещается в восьмом бите, чтобы получить восемь прошедших кадров, соответствующих следующему кадру.
[0277] Необязательно, после добавления сглаженного значения межканальной временной разности текущего кадра в буфер, сглаженное значение межканальной временной разности, буферизованное в первом бите, может не удаляться, вместо этого сглаженные значения межканальной временной разности в битах со второго бита по девятый бит непосредственно используются для вычисления межканальной временной разности следующего кадра. В качестве альтернативы, сглаженные значения межканальной временной разности в битах с первого бита по девятый бит используются для вычисления межканальной временной разности следующего кадра. В этом случае количество прошедших кадров, соответствующих каждому текущему кадру, является переменным. Способ обновления буфера в этом варианте осуществления не ограничен.
[0278] В этом варианте осуществления после определения межканальной временной разности текущего кадра вычисляется сглаженное значение межканальной временной разности текущего кадра. Когда должно быть определено значение оценки дорожки задержки следующего кадра, значение оценки дорожки задержки следующего кадра может быть определено с использованием сглаженного значения межканальной временной разности текущего кадра. Это гарантирует точность определения значения оценки дорожки задержки следующего кадра.
[0279] Необязательно, если значение оценки дорожки задержки текущего кадра определяется на основе вышеупомянутой второй реализации определения значения оценки дорожки задержки текущего кадра, после обновления буферизованного сглаженного значения межканальной временной разности по меньшей мере одного прошедшего кадра, буферизованный весовой коэффициент упомянутого по меньшей мере одного прошедшего кадра может быть обновлен дополнительно. Весовой коэффициент по меньшей мере одного прошедшего кадра является весовым коэффициентом в методе взвешенной линейной регрессии.
[0280] В первом способе определения адаптивной оконной функции, обновление буферизованного весового коэффициента по меньшей мере одного прошедшего кадра включает в себя: вычисление первого весового коэффициента текущего кадра на основе отклонения сглаженной оценки межканальной временной разности текущего кадра; и обновление буферизованного первого весового коэффициента по меньшей мере одного прошедшего кадра на основе первого весового коэффициента текущего кадра.
[0281] За связанным описанием обновления буфера в этом варианте осуществления обращайтесь к ФИГ. 10. Подробности в этом варианте осуществления повторно не приводятся.
[0282] Первый весовой коэффициент текущего кадра получают посредством вычисления с использованием следующих формул вычисления:
wgt_par1=a_wgt1 * smooth_dist_reg_update+b_wgt1,
a_wgt1 = (xl_wgt1 - xh_wgt1)/(yh_dist1' - yl_dist1'), и
b_wgt1=xl_wgt1 - a_wgt1 * yh_dist1'.
[0283] wgt_par1 является первым весовым коэффициентом текущего кадра, smooth_dist_reg_update является отклонением сглаженной оценки межканальной временной разности текущего кадра, xh_wgt является верхним предельным значением первого весового коэффициента, xl_wgt является нижним предельным значением первого весового коэффициента, yh_dist1' является отклонением сглаженной оценки межканальной временной разности, соответствующим верхнему предельному значению первого весового коэффициента, yl_dist1' является отклонением сглаженной оценки межканальной временной разности, соответствующим нижнему предельному значению первого весового коэффициента, и все yh_dist1', yl_dist1', xh_wgt1 и xl_wgt1 являются положительными числами.
[0284] Необязательно, wgt_par1=min(wgt_par1, xh_wgt1) и wgt_par1=max(wgt_par1, xl_wgt1).
[0285] Необязательно, значения yh_dist1', yl_dist1', xh_wgt1 и xl_wgt1 в этом варианте осуществления не ограничены. Например, xl_wgt1=0,05, xh_wgt1=1,0, yl_dist1' = 2,0 и yh_dist1' = 1,0.
[0286] Необязательно, в вышеприведенной формуле b_wgt1=xl_wgt1 - a_wgt1 * yh_dist1' может быть заменено на b_wgt1=xh_wgt1 - a_wgt1 * yl_dist1'.
[0287] В этом варианте осуществления xh_wgt1 > xl_wgt1 и yh_dist1' < yl_dist1'.
[0288] В этом варианте осуществления, когда wgt_par1 больше верхнего предельного значения первого весового коэффициента, wgt_par1 ограничивается верхним предельным значением первого весового коэффициента; или когда wgt_par1 меньше нижнего предельного значения первого весового коэффициента, wgt_par1 ограничивается нижним предельным значением первого весового коэффициента, чтобы гарантировать, что значение wgt_par1 не выйдет за пределы нормального диапазона значений первого весового коэффициента, тем самым гарантируя точность вычисляемого значения оценки дорожки задержки текущего кадра.
[0289] Кроме того, после определения межканальной временной разности текущего кадра, вычисляется первый весовой коэффициент текущего кадра. Когда значение оценки дорожки задержки следующего кадра должно быть определено, значение оценки дорожки задержки следующего кадра может быть определено с использованием первого весового коэффициента текущего кадра, тем самым гарантируя точность определения значения оценки дорожки задержки следующего кадра.
[0290] Во втором способе начальное значение межканальной временной разности текущего кадра определяется на основе коэффициента взаимной корреляции; отклонение оценки межканальной временной разности текущего кадра вычисляется на основе значения оценки дорожки задержки текущего кадра и начального значения межканальной временной разности текущего кадра; и адаптивная оконная функция текущего кадра определяется на основе отклонения оценки межканальной временной разности текущего кадра.
[0291] Необязательно, начальным значением межканальной временной разности текущего кадра является максимальное значение, которое происходит из значения взаимной корреляции в коэффициенте взаимной корреляции и которое определяется на основе коэффициента взаимной корреляции текущего кадра и межканальной временной разности, определенной на основе значения индекса, соответствующего максимальному значению.
[0292] Необязательно, определение отклонения оценки межканальной временной разности текущего кадра на основе значения оценки дорожки задержки текущего кадра и начального значения межканальной временной разности текущего кадра представляется с использованием следующей формулы:
dist_reg = |reg_prv_corr - cur_itd_init|.
[0293] dist_reg является отклонением оценки межканальной временной разности текущего кадра, reg_prv_corr является значением оценки дорожки задержки текущего кадра, а cur_itd_init является начальным значением межканальной временной разности текущего кадра.
[0294] Основываясь на отклонении оценки межканальной временной разности текущего кадра определение адаптивной оконной функции текущего кадра реализуется с использованием следующих этапов.
[0295] (1) Вычисление второго параметра ширины приподнятого косинуса на основе отклонения оценки межканальной временной разности текущего кадра.
[0296] Этот этап представляется с использованием следующих формул:
win_width2=TRUNC(width_par2 * (A * L_NCSHIFT_DS+1)), и
width_par2=a_width2 * dist_reg+b_width2, где
a_width2 = (xh_width2 - xl_width2)/(yh_dist3 - yl_dist3), и
b_width2=xh_width2 - a_width2 * yh_dist3.
[0297] win_width2 является вторым параметром ширины приподнятого косинуса, TRUNC указывает округление значения, L_NCSHIFT_DS является максимальным значением абсолютного значения межканальной временной разности, A является предустановленной постоянной, A больше или равна 4, A * L_NCSHIFT_DS+1 является положительным целым числом, которое больше нуля, xh_width2 является верхним предельным значением второго параметра ширины приподнятого косинуса, xl_width2 является нижним предельным значением второго параметра ширины приподнятого косинуса, yh_dist3 является отклонением оценки межканальной временной разности, соответствующим верхнему предельному значению второго параметра ширины приподнятого косинуса, yl_dist3 является отклонением оценки межканальной временной разности, соответствующим нижнему предельному значению второго параметра ширины приподнятого косинуса, dist_reg является отклонением оценки межканальной временной разности, все xh_width2, xl_width2, yh_dist3 и yl_dist3 являются положительными числами.
[0298] Необязательно, на этом этапе b_width2=xh_width2 - a_width2 * yh_dist3 может быть заменено на b_width2=xl_width2 - a_width2 * yl_dist3.
[0299] Необязательно, на этом этапе width_par2=min(width_par2, xh_width2) и width_par2=max(width_par2, xl_width2), где min представляет взятие минимального значения, а max представляет взятие максимального значения. В частности, когда width_par2, полученный посредством вычисления, больше, чем xh_width2, width_par2 устанавливается равным xh_width2; или когда width_par2, полученный посредством вычисления, меньше, чем xl_width2, width_par2 устанавливается равным xl_width2.
[0300] В этом варианте осуществления, когда width_par2 больше верхнего предельного значения второго параметра ширины приподнятого косинуса, width_par2 ограничивается верхним предельным значением второго параметра ширины приподнятого косинуса; или когда width_par2 меньше нижнего предельного значения второго параметра ширины приподнятого косинуса, width_par2 ограничивается нижним предельным значением второго параметра ширины приподнятого косинуса, чтобы гарантировать, что значение width_par2 не выйдет за пределы нормального диапазона значений параметра ширины приподнятого косинуса, что гарантирует точность вычисляемой адаптивной оконной функции.
[0301] (2) Вычисление второго смещения по высоте приподнятого косинуса на основе отклонения оценки межканальной временной разности текущего кадра.
[0302] Этот этап может быть представлен с использованием следующей формулы:
win_bias2=a_bias2 * dist_reg+b_bias2, где
a_bias2 = (xh_bias2 - xl_bias2)/(yh_dist4 - yl_dist4), и
b_bias2=xh_bias2 - a_bias2 * yh_dist4.
[0303] win_bias2 является вторым смещением по высоте приподнятого косинуса, xh_bias2 является верхним предельным значением второго смещения по высоте приподнятого косинуса, xl_bias2 является нижним предельным значением второго смещения по высоте приподнятого косинуса, yh_dist4 является отклонением оценки межканальной временной разности, соответствующим верхнему предельному значению второго смещения по высоте приподнятого косинуса, yl_dist4 является отклонением оценки межканальной временной разности, соответствующим нижнему предельному значению второго смещения по высоте приподнятого косинуса, dist_reg является отклонением оценки межканальной временной разности, и все yh_dist4, yl_dist4, xh_bias2 и xl_bias2 являются положительными числами.
[0304] Необязательно, на этом этапе b_bias2=xh_bias2 - a_bias2 * yh_dist4 может быть заменено на b_bias2=xl_bias2 - a_bias2 * yl_dist4.
[0305] Необязательно, в этом варианте осуществления win_bias2=min(win_bias2, xh_bias2) и win_bias2=max(win_bias2, xl_bias2). В частности, когда win_bias2, полученное посредством вычисления, больше, чем xh_bias2, win_bias2 устанавливается равным xh_bias2; или когда win_bias2, полученное посредством вычисления, меньше, чем xl_bias2, win_bias2 устанавливается равным xl_bias2.
[0306] Необязательно, yh_dist4=yh_dist3 и yl_dist4=yl_dist3.
[0307] (3) Определение устройством аудиокодирования адаптивной оконной функции текущего кадра на основе второго параметра ширины приподнятого косинуса и второго смещения по высоте приподнятого косинуса.
[0308] Введение устройством аудиокодирования второго параметра ширины приподнятого косинуса и второго смещения по высоте приподнятого косинуса в адаптивную оконную функцию на этапе 303 для получения следующих формул вычисления:
когда 0 ≤ k ≤ TRUNC(A * L_NCSHIFT_DS/2) - 2 * win_width2-1,
loc_weight_win(k) = win_bias2;
когда TRUNC(A * L_NCSHIFT_DS/2) - 2 * win_width2 ≤ k ≤ TRUNC(A * L_NCSHIFT_DS/2) + 2 * win_width2-1,
loc_weight_win(k) = 0,5 * (1+win_bias2) + 0,5 * (1 - win_bias2) * cos(π * (k - TRUNC(A * L_NCSHIFT_DS/2))/(2 * win_width2)); и
когда TRUNC(A * L_NCSHIFT_DS/2) + 2 * win_width2 ≤ k ≤ A * L_NCSHIFT_DS,
loc_weight_win(k) = win_bias2.
[0309] loc_weight_win(k) используется для представления адаптивной оконной функции, при этом k=0, 1, ..., A * L_NCSHIFT_DS; A является предустановленной постоянной, которая больше или равна 4, например, A=4, L_NCSHIFT_DS является максимальным значением абсолютного значения межканальной временной разности; win_width2 является вторым параметром ширины приподнятого косинуса; а win_bias2 является вторым смещением по высоте приподнятого косинуса.
[0310] В этом варианте осуществления адаптивная оконная функция текущего кадра определяется на основе отклонения оценки межканальной временной разности текущего кадра, и когда отклонение сглаженной оценки межканальной временной разности предыдущего кадра не нужно буферизовать, адаптивная оконная функция текущего кадра может быть определена, тем самым сберегая ресурс хранения.
[0311] Необязательно, после того, как межканальная временная разность текущего кадра определена на основе адаптивной оконной функции, определенной согласно вышеупомянутому второму способу, буферизованная информация о межканальной временной разности по меньшей мере одного прошедшего кадра может быть дополнительно обновлена. За связанным описанием обращайтесь к первому способу определения адаптивной оконной функции. Подробности в этом варианте осуществления повторно не приводятся.
[0312] Необязательно, если значение оценки дорожки задержки текущего кадра определяется на основе вышеупомянутой второй реализации определения значения оценки дорожки задержки текущего кадра, после обновления буферизованного сглаженного значения межканальной временной разности по меньшей мере одного прошедшего кадра, буферизованный весовой коэффициент упомянутого по меньшей мере одного прошедшего кадра может быть обновлен дополнительно.
[0313] Во втором способе определения адаптивной оконной функции, весовой коэффициент по меньшей мере одного прошедшего кадра является вторым весовым коэффициентом по меньшей мере одного прошедшего кадра.
[0314] Обновление буферизованного весового коэффициента по меньшей мере одного прошедшего кадра включает в себя: вычисление второго весового коэффициента текущего кадра на основе отклонения оценки межканальной временной разности текущего кадра; и обновление буферизованного второго весового коэффициента по меньшей мере одного прошедшего кадра на основе второго весового коэффициента текущего кадра.
[0315] Вычисление второго весового коэффициента текущего кадра на основе отклонения оценки межканальной временной разности текущего кадра представляется с использованием следующих формул:
wgt_par2=a_wgt2 * dist_reg+b_wgt2,
a_wgt2 = (xl_wgt2 - xh_wgt2)/(yh_dist2' - yl_dist2'), и
b_wgt2=xl_wgt2 - a_wgt2 * yh_dist2'.
[0316] wgt_par2 является вторым весовым коэффициентом текущего кадра, dist_reg является отклонением оценки межканальной временной разности текущего кадра, xh_wgt2 является верхним предельным значением второго весового коэффициента, xl_wgt2 является нижним предельным значением второго весового коэффициента, yh_dist2' является отклонением оценки межканальной временной разности, соответствующим верхнему предельному значению второго весового коэффициента, yl_dist2' является отклонением оценки межканальной временной разности, соответствующим нижнему предельному значению второго весового коэффициента, и все yh_dist2', yl_dist2', xh_wgt2 и xl_wgt2 являются положительными числами.
[0317] Необязательно, wgt_par2=min(wgt_par2, xh_wgt2) и wgt_par2=max(wgt_par2, xl_wgt2).
[0318] Необязательно, в этом варианте осуществления значения yh_dist2', yl_dist2', xh_wgt2 и xl_wgt2 в этом варианте осуществления не ограничены. Например, xl_wgt2=0,05, xh_wgt2=1,0, yl_dist2' = 2,0 и yh_dist2' = 1,0.
[0319] Необязательно, в вышеприведенной формуле b_wgt2=xl_wgt2 - a_wgt2 * yh_dist2' может быть заменено на b_wgt2=xh_wgt2 - a_wgt2 * yl_dist2'.
[0320] В этом варианте осуществления xh_wgt2 > x2_wgt1 и yh_dist2' < yl_dist2'.
[0321] В этом варианте осуществления, когда wgt_par2 больше верхнего предельного значения второго весового коэффициента, wgt_par2 ограничивается верхним предельным значением второго весового коэффициента; или когда wgt_par2 меньше нижнего предельного значения второго весового коэффициента, wgt_par2 ограничивается нижним предельным значением второго весового коэффициента, чтобы гарантировать, что значение wgt_par2 не выйдет за пределы нормального диапазона значений второго весового коэффициента, тем самым гарантируя точность вычисляемого значения оценки дорожки задержки текущего кадра.
[0322] Кроме того, после определения межканальной временной разности текущего кадра, вычисляется второй весовой коэффициент текущего кадра. Когда значение оценки дорожки задержки следующего кадра должно быть определено, значение оценки дорожки задержки следующего кадра может быть определено с использованием второго весового коэффициента текущего кадра, тем самым гарантируя точность определения значения оценки дорожки задержки следующего кадра.
[0323] Необязательно, в вышеприведенных вариантах осуществления буфер обновляется независимо от того, является ли многоканальный сигнал текущего кадра действительным сигналом. Например, информация о межканальной временной разности по меньшей мере одного прошедшего кадра и/или весовой коэффициент по меньшей мере одного прошедшего кадра в буфере обновляется/обновляются.
[0324] Необязательно, буфер обновляется только тогда, когда многоканальный сигнал текущего кадра является действительным сигналом. Таким образом, повышается достоверность данных в буфере.
[0325] Действительный сигнал представляет собой сигнал, энергия которого выше предустановленной энергии и/или принадлежит к предустановленному типу, например, действительный сигнал является речевым сигналом или действительный сигнал является периодическим сигналом.
[0326] В этом варианте осуществления алгоритм обнаружения голосовой активности (Voice Activity Detection, VAD) используется для обнаружения того, является ли многоканальный сигнал текущего кадра активным кадром. Если многоканальный сигнал текущего кадра является активным кадром, это указывает, что многоканальный сигнал текущего кадра является действительным сигналом. Если многоканальный сигнал текущего кадра не является активным кадром, это указывает, что многоканальный сигнал текущего кадра является не является действительным сигналом.
[0327] Таким образом, на основании результата обнаружения голосовой активации предыдущего кадра относительно текущего кадра определяется, следует ли обновить буфер.
[0328] Когда результатом обнаружения голосовой активации предыдущего кадра относительно текущего кадра является активный кадр, это означает, что велика вероятность того, что текущий кадр является активным кадром. В этом случае буфер обновляется. Когда результатом обнаружения голосовой активации предыдущего кадра относительно текущего кадра не является активный кадр, это означает, что велика вероятность того, что текущий кадр не является активным кадром. В этом случае буфер не обновляется.
[0329] Необязательно, результат обнаружения голосовой активации предыдущего кадра относительно текущего кадра определяется на основе результата обнаружения голосовой активации сигнала первичного канала предыдущего кадра относительно текущего кадра и результата обнаружения голосовой активации сигнала вторичного канала предыдущего кадра относительно текущего кадра.
[0330] Если и результат обнаружения голосовой активации сигнала первичного канала предыдущего кадра относительно текущего кадра и результат обнаружения голосовой активации сигнала вторичного канала предыдущего кадра относительно текущего кадра являются активными кадрами, результат обнаружения голосовой активации предыдущего кадра относительно текущего кадра является активным кадром. Если и результат обнаружения голосовой активации сигнала первичного канала предыдущего кадра относительно текущего кадра и/или результат обнаружения голосовой активации сигнала вторичного канала предыдущего кадра относительно текущего кадра не является/являются активным кадром/активными кадрами, результат обнаружения голосовой активации предыдущего кадра относительно текущего кадра не является активным кадром.
[0331] Другим способом, определение, следует ли обновить буфер, выполняется на основании результата обнаружения голосовой активации текущего кадра.
[0332] Когда результатом обнаружения голосовой активации текущего кадра является активный кадр, это означает, что велика вероятность того, что текущий кадр является активным кадром. В этом случае устройство аудиокодирования обновляет буфер. Когда результатом обнаружения голосовой активации текущего кадра не является активный кадр, это означает, что велика вероятность того, что текущий кадр не является активным кадром. В этом случае устройство аудиокодирования не обновляет буфер.
[0333] Необязательно, результат обнаружения голосовой активации текущего кадра определяется на основе результатов обнаружения голосовой активации множества канальных сигналов текущего кадра.
[0334] Если все результаты обнаружения голосовой активации множества канальных сигналов текущего кадра являются активными кадрами, результатом обнаружения голосовой активации текущего кадра является активный кадр. Если результатом обнаружения голосовой активации по меньшей мере одного канала канального сигнала из множества канальных сигналов текущего кадра не является активный кадр, результатом обнаружения голосовой активации текущего кадра не является активный кадр.
[0335] Следует отметить, что в этом варианте осуществления описание предоставляется с использованием примера, в котором буфер обновляется с использованием только критерия того, является ли текущий кадр активным кадром. При фактической реализации буфер может в качестве альтернативы обновляться на основе по меньшей мере одного из невокализации или вокализации, периодичности или апериодичности, транзиентности или нетранзиентности, наличия или отсутствия речевой части текущего кадра.
[0336] Например, если и сигнал первичного канала, и сигнал вторичного канала предыдущего кадра относительно текущего кадра являются вокализованными, это указывает на то, что существует большая вероятность того, что текущий кадр является вокализованным. В этом случае буфер обновляется. Если по меньшей мере один из сигнала первичного канала и сигнала вторичного канала предыдущего кадра относительно текущего кадра является невокализованным, существует большая вероятность того, что текущий кадр не является вокализованным. В этом случае буфер не обновляется.
[0337] Необязательно, на основе вышеупомянутых вариантов осуществления, адаптивный параметр предустановленной модели оконной функции может быть дополнительно определен на основе параметра кодирования предыдущего кадра текущего кадра. Таким образом, адаптивный параметр в предустановленной модели оконной функции текущего кадра регулируется адаптивно и точность определения адаптивной оконной функции повышается.
[0338] Параметр кодирования используется для указания типа многоканального сигнала предыдущего кадра относительно текущего кадра, или параметр кодирования используется для указания типа многоканального сигнала предыдущего кадра относительно текущего кадра, в котором выполнена обработка понижающего микширования во временной области, например, активный кадр или неактивный кадр, невокализованный или вокализованный, периодический или апериодический, транзиентный или нетранзиентный, или речь или музыка.
[0339] Адаптивный параметр включает в себя по меньшей мере одно из верхнего предельного значения параметра ширины приподнятого косинуса, нижнего предельного значения параметра ширины приподнятого косинуса, верхнего предельного значения смещения по высоте приподнятого косинуса, нижнего предельного значения смещения по высоте приподнятого косинуса, отклонения сглаженной оценки межканальной временной разности, соответствующего верхнему предельному значению параметра ширины приподнятого косинуса, отклонения сглаженной оценки межканальной временной разности, соответствующего нижнему предельному значению параметра ширины приподнятого косинуса, отклонения сглаженной оценки межканальной временной разности, соответствующего верхнему предельному значению смещения по высоте приподнятого косинуса, отклонения сглаженной оценки межканальной временной разности, соответствующего нижнему предельному значению смещения по высоте приподнятого косинуса.
[0340] Необязательно, когда устройство аудиокодирования определяет адаптивную оконную функцию первым способом определения адаптивной оконной функции, верхнее предельное значение параметра ширины приподнятого косинуса является верхним предельным значением первого параметра ширины приподнятого косинуса, нижним предельным значением параметра ширины приподнятого косинуса является нижнее предельное значение первого параметра ширины приподнятого косинуса, верхнее предельное значение смещения по высоте приподнятого косинуса является верхним предельным значением первого смещения по высоте приподнятого косинуса, а нижнее предельное значение смещения по высоте приподнятого косинуса является нижним предельным значением первого смещения по высоте приподнятого косинуса. Соответственно, отклонением сглаженной оценки межканальной временной разности, соответствующим верхнему предельному значению параметра ширины приподнятого косинуса, является отклонение сглаженной оценки межканальной временной разности, соответствующее верхнему предельному значению первого параметра ширины приподнятого косинуса, отклонением сглаженной оценки межканальной временной разности, соответствующим нижнему предельному значению параметра ширины приподнятого косинуса, является отклонение сглаженной оценки межканальной временной разности, соответствующее нижнему предельному значению первого параметра ширины приподнятого косинуса, отклонением сглаженной оценки межканальной временной разности, соответствующим верхнему предельному значению смещения по высоте приподнятого косинуса, является отклонение сглаженной оценки межканальной временной разности, соответствующее верхнему предельному значению первого смещения по высоте приподнятого косинуса, и отклонением сглаженной оценки межканальной временной разности, соответствующим нижнему предельному значению смещения по высоте приподнятого косинуса, является отклонение сглаженной оценки межканальной временной разности, соответствующее нижнему предельному значению первого смещения по высоте приподнятого косинуса.
[0341] Необязательно, когда устройство аудиокодирования определяет адаптивную оконную функцию вторым способом определения адаптивной оконной функции, верхнее предельное значение параметра ширины приподнятого косинуса является верхним предельным значением второго параметра ширины приподнятого косинуса, нижним предельным значением параметра ширины приподнятого косинуса является нижнее предельное значение второго параметра ширины приподнятого косинуса, верхнее предельное значение смещения по высоте приподнятого косинуса является верхним предельным значением второго смещения по высоте приподнятого косинуса, а нижнее предельное значение смещения по высоте приподнятого косинуса является нижним предельным значением второго смещения по высоте приподнятого косинуса. Соответственно, отклонением сглаженной оценки межканальной временной разности, соответствующим верхнему предельному значению параметра ширины приподнятого косинуса, является отклонение сглаженной оценки межканальной временной разности, соответствующее верхнему предельному значению второго параметра ширины приподнятого косинуса, отклонением сглаженной оценки межканальной временной разности, соответствующим нижнему предельному значению параметра ширины приподнятого косинуса, является отклонение сглаженной оценки межканальной временной разности, соответствующее нижнему предельному значению второго параметра ширины приподнятого косинуса, отклонением сглаженной оценки межканальной временной разности, соответствующим верхнему предельному значению смещения по высоте приподнятого косинуса, является отклонение сглаженной оценки межканальной временной разности, соответствующее верхнему предельному значению второго смещения по высоте приподнятого косинуса, и отклонением сглаженной оценки межканальной временной разности, соответствующим нижнему предельному значению смещения по высоте приподнятого косинуса, является отклонение сглаженной оценки межканальной временной разности, соответствующее нижнему предельному значению второго смещения по высоте приподнятого косинуса.
[0342] Необязательно, в этом варианте осуществления описание предоставляется с использованием примера, в котором отклонение сглаженной оценки межканальной временной разности, соответствующее верхнему предельному значению параметра ширины приподнятого косинуса, равно отклонению сглаженной оценки межканальной временной разности, соответствующему верхнему предельному значению смещения по высоте приподнятого косинуса, а отклонение сглаженной оценки межканальной временной разности, соответствующее нижнему предельному значению параметра ширины приподнятого косинуса, равно отклонению сглаженной оценки межканальной временной разности, соответствующему нижнему предельному значению смещения по высоте приподнятого косинуса.
[0343] Необязательно, в этом варианте осуществления описание предоставляется с использованием примера, в котором параметр кодирования предыдущего кадра относительно текущего кадра используется для указания невокализации или вокализации сигнала первичного канала предыдущего кадра относительно текущего кадра и невокализации или вокализации сигнала вторичного канала предыдущего кадра относительно текущего кадра.
[0344] (1) Определение верхнего предельного значения параметра ширины приподнятого косинуса и нижнего предельного значения параметра ширины приподнятого косинуса в адаптивном параметре на основе параметра кодирования предыдущего кадра относительно текущего кадра.
[0345] Невокализация или вокализация сигнала первичного канала предыдущего кадра относительно текущего кадра и невокализация или вокализация сигнала вторичного канала предыдущего кадра относительно текущего кадра определяются на основе параметра кодирования. Если и сигнал первичного канала, и сигнал вторичного канала являются невокализованными, верхнее предельное значение параметра ширины приподнятого косинуса устанавливается равным первому параметру невокализации, а нижнее предельное значение параметра ширины приподнятого косинуса устанавливается равным второму параметру невокализации, то есть xh_width=xh_width_uv и xl_width=xl_width_uv.
[0346] Если и сигнал первичного канала, и сигнал вторичного канала являются вокализованными, верхнее предельное значение параметра ширины приподнятого косинуса устанавливается равным первому параметру вокализации, а нижнее предельное значение параметра ширины приподнятого косинуса устанавливается равным второму параметру вокализации, то есть xh_width=xh_width_v и xl_width=xl_width_v.
[0347] Если сигнал первичного канала является вокализованным, а сигнал вторичного канала является невокализованным, верхнее предельное значение параметра ширины приподнятого косинуса устанавливается равным третьему параметру вокализации, а нижнее предельное значение параметра ширины приподнятого косинуса устанавливается равным четвертому параметру вокализации, то есть xh_width=xh_width_v2 и xl_width=xl_width_v2.
[0348] Если сигнал первичного канала является невокализованным, а сигнал вторичного канала является вокализованным, верхнее предельное значение параметра ширины приподнятого косинуса устанавливается равным третьему параметру невокализации, а нижнее предельное значение параметра ширины приподнятого косинуса устанавливается равным четвертому параметру невокализации, то есть xh_width=xh_width_uv2 и xl_width=xl_width_uv2.
[0349] Первый параметр xh_width_uv невокализации, второй параметр xl_width_uv невокализации, третий параметр xh_width_uv2 невокализации, четвертый параметр xl_width_uv2 невокализации, первый параметр xh_width_v вокализации, второй параметр xl_width_v вокализации, третий параметр xh_width_v2 вокализации и четвертый параметр xl_width_v2 вокализации все являются положительными числами, при этом xh_width_v < xh_width_v2 < xh_width_uv2 < xh_width_uv и xl_width_uv < xl_width_uv2 < xl_width_v2 < xl_width_v.
[0350] Значения xh_width_v, xh_width_v2, xh_width_uv2, xh_width_uv, xl_width_uv, xl_width_uv2, xl_width_v2 и xl_width_v в этом варианте осуществления не ограничены. Например, xh_width_v=0,2, xh_width_v2=0,25, xh_width_uv2=0,35, xh_width_uv=0,3, xl_width_uv=0,03, xl_width_uv2=0,02, xl_width_v2=0,04 и xl_width_v=0,05.
[0351] Необязательно, по меньшей мере один параметр из первого параметра невокализации, второго параметра невокализации, третьего параметра невокализации, четвертого параметра невокализации, первого параметра вокализации, второго параметра вокализации, третьего параметра вокализации и четвертого параметра вокализации регулируется с использованием параметра кодирования предыдущего кадра относительно текущего кадра.
[0352] Например, то, что устройство аудиокодирования регулирует по меньшей мере один параметр из первого параметра невокализации, второго параметра невокализации, третьего параметра невокализации, четвертого параметра невокализации, первого параметра вокализации, второго параметра вокализации, третьего параметра вокализации и четвертого параметра вокализации на основе параметра кодирования предыдущего кадра относительно текущего кадра представляется с использованием следующих формул:
xh_width_uv=fach_uv * xh_width_init; xl_width_uv=facl_uv * xl_width_init;
xh_width_v= fach_v * xh_width_init; xl_width_v=facl_v * xl_width_init;
xh_width_v2=fach_v2 * xh_width_init; xl_width_v2=facl_v2 * xl_width_init; и
xh_width_uv2=fach_uv2 * xh_width_init; and xl_width_uv2=facl_uv2 * xl_width_init.
[0353] fach_uv, fach_v, fach_v2, fach_uv2, xh_width_init и xl_width_init являются положительными числами, определяемыми на основе параметра кодирования.
[0354] Значения fach_uv, fach_v, fach_v2, fach_uv2, xh_width_init и xl_width_init в этом варианте осуществления не ограничены. Например, fach_uv=1,4, fach_v=0,8, fach_v2=1,0, fach_uv2=1,2, xh_width_init=0,25 и xl_width_init=0,04.
[0355] (2) Определение верхнего предельного значения смещения по высоте приподнятого косинуса и нижнего предельного значения смещения по высоте приподнятого косинуса в адаптивном параметре на основе параметра кодирования предыдущего кадра относительно текущего кадра.
[0356] Невокализация или вокализация сигнала первичного канала предыдущего кадра относительно текущего кадра и невокализация или вокализация сигнала вторичного канала предыдущего кадра относительно текущего кадра определяются на основе параметра кодирования. Если и сигнал первичного канала, и сигнал вторичного канала являются невокализованными, верхнее предельное значение смещения по высоте приподнятого косинуса устанавливается равным пятому параметру невокализации, а нижнее предельное значение смещения по высоте приподнятого косинуса устанавливается равным шестому параметру невокализации, то есть xh_bias=xh_bias_uv и xl_bias=xl_bias_uv.
[0357] Если и сигнал первичного канала, и сигнал вторичного канала являются вокализованными, верхнее предельное значение смещения по высоте приподнятого косинуса устанавливается равным пятому параметру вокализации, а нижнее предельное значение смещения по высоте приподнятого косинуса устанавливается равным шестому параметру вокализации, то есть xh_bias=xh_bias_v и xl_bias=xl_bias_v.
[0358] Если сигнал первичного канала является вокализованным, а сигнал вторичного канала является невокализованным, верхнее предельное значение смещения по высоте приподнятого косинуса устанавливается равным седьмому параметру вокализации, а нижнее предельное значение смещения по высоте приподнятого косинуса устанавливается равным восьмому параметру вокализации, то есть xh_bias=xh_bias_v2 и xl_bias=xl_bias_v2.
[0359] Если сигнал первичного канала является невокализованным, а сигнал вторичного канала является вокализованным, верхнее предельное значение смещения по высоте приподнятого косинуса устанавливается равным седьмому параметру невокализации, а нижнее предельное значение смещения по высоте приподнятого косинуса устанавливается равным восьмому параметру невокализации, то есть xh_bias=xh_bias_uv2 и xl_bias=xl_bias_uv2.
[0360] Пятый параметр xh_bias_uv невокализации, шестой параметр xl_bias_uv невокализации, седьмой параметр xh_bias_uv2 невокализации, восьмой параметр xl_bias_uv2 невокализации, пятый параметр xh_bias_v невокализации, шестой параметр xl_bias_v невокализации, седьмой параметр xh_bias_v2 вокализации и восьмой параметр xl_bias_v2 вокализации все являются положительными числами, при этом xh_bias_v < xh_bias_v2 < xh_bias_uv2 < xh_bias_uv, xl_bias_v < xl_bias_v2 < xl_bias_uv2 < xl_bias_uv, xh_bias является верхним предельным значением смещения по высоте приподнятого косинуса, а xl_bias является нижним предельным значением смещения по высоте приподнятого косинуса.
[0361] Значения xh_bias_v, xh_bias_v2, xh_bias_uv2, xh_bias_uv, xl_bias_v, xl_bias_v2, xl_bias_uv2 и xl_bias_uv в этом варианте осуществления не ограничены. Например, xh_bias_v=0,8, xl_bias_v=0,5, xh_bias_v2=0,7, xl_bias_v2=0,4, xh_bias_uv=0,6, xl_bias_uv=0,3, xh_bias_uv2=0,5 и xl_bias_uv2=0,2.
[0362] Необязательно, по меньшей мере один из пятого параметра невокализации, шестого параметра невокализации, седьмого параметра невокализации, восьмого параметра невокализации, пятого параметра вокализации, шестого параметра вокализации, седьмого параметра вокализации и восьмого параметра вокализации регулируется на основе параметра кодирования канального сигнала предыдущего кадра относительно текущего кадра.
[0363] Например, для представления используется следующая формула:
xh_bias_uv=fach_uv' * xh_bias_init; xl_bias_uv=facl_uv' * xl_bias_init;
xh_bias_v=fach_v' * xh_bias_init; xl_bias_v=facl_v' * xl_bias_init;
xh_bias_v2=fach_v2' * xh_bias_init; xl_bias_v2=facl_v2' * xl_bias_init;
xh_bias_uv2=fach_uv2' * xh_bias_init; и xl_bias_uv2=facl_uv2' * xl_bias_init.
[0364] fach_uv', fach_v', fach_v2', fach_uv2', xh_bias_init и xl_bias_init являются положительными числами, определяемыми на основе параметра кодирования.
[0365] Значения fach_uv', fach_v', fach_v2', fach_uv2', xh_bias_init и xl_bias_init в этом варианте осуществления не ограничены. Например, fach_v'= 1,15, fach_v2' = 1,0, fach_uv2'= 0,85, fach_uv' = 0,7, xh_bias_init=0,7 и xl_bias_init=0,4.
[0366] (3) Определение на основе параметра кодирования предыдущего кадра относительно текущего кадра отклонения сглаженной оценки межканальной временной разности, соответствующего верхнему предельному значению параметра ширины приподнятого косинуса, и отклонения сглаженной оценки межканальной временной разности, соответствующего нижнему предельному значению параметра ширины приподнятого косинуса в адаптивном параметре.
[0367] Невокализованные или вокализованные сигналы первичного канала предыдущего кадра относительно текущего кадра и невокализованные или вокализованные сигналы вторичного канала предыдущего кадра относительно текущего кадра определяются на основе параметра кодирования. Если и сигнал первичного канала, и сигнал вторичного канала являются невокализованными, отклонение сглаженной оценки межканальной временной разности, соответствующее верхнему предельному значению параметра ширины приподнятого косинуса, устанавливается равным девятому параметру невокализации, а отклонение сглаженной оценки межканальной временной разности, соответствующее нижнему предельному значению параметра ширины приподнятого косинуса, устанавливается равным десятому параметру невокализации, то есть yh_dist=yh_dist_uv и yl_dist=yl_dist_uv.
[0368] Если и сигнал первичного канала, и сигнал вторичного канала являются вокализованными, отклонение сглаженной оценки межканальной временной разности, соответствующее верхнему предельному значению параметра ширины приподнятого косинуса, устанавливается равным девятому параметру вокализации, а отклонение сглаженной оценки межканальной временной разности, соответствующее нижнему предельному значению параметра ширины приподнятого косинуса, устанавливается равным десятому параметру вокализации, то есть yh_dist=yh_dist_v и yl_dist=yl_dist_v.
[0369] Если сигнал первичного канала является вокализованным, а сигнал вторичного канала является невокализованным, отклонение сглаженной оценки межканальной временной разности, соответствующее верхнему предельному значению параметра ширины приподнятого косинуса, устанавливается равным одиннадцатому параметру вокализации, а отклонение сглаженной оценки межканальной временной разности, соответствующее нижнему предельному значению параметра ширины приподнятого косинуса, устанавливается равным двенадцатому параметру вокализации, то есть yh_dist=yh_dist_v2 и yl_dist=yl_dist_v2.
[0370] Если сигнал первичного канала является невокализованным, а сигнал вторичного канала является вокализованным, отклонение сглаженной оценки межканальной временной разности, соответствующее верхнему предельному значению параметра ширины приподнятого косинуса, устанавливается равным одиннадцатому параметру невокализации, а отклонение сглаженной оценки межканальной временной разности, соответствующее нижнему предельному значению параметра ширины приподнятого косинуса, устанавливается равным двенадцатому параметру невокализации, то есть yh_dist=yh_dist_uv2 и yl_dist=yl_dist_uv2.
[0371] Девятый параметр yh_dist_uv невокализации, десятый параметр yl_dist_uv невокализации, одиннадцатый параметр yh_dist_uv2 невокализации, двенадцатый параметр yl_dist_uv2 невокализации, девятый параметр yh_dist_v вокализации, десятый параметр yl_dist_v вокализации, одиннадцатый параметр yh_dist_v2 вокализации и двенадцатый параметр yl_dist_v2 вокализации все являются положительными числами, при этом yh_dist_v < yh_dist_v2 < yh_dist_uv2 < yh_dist_uv и yl_dist_uv < yl_dist_uv2 < yl_dist_v2 < yl_dist_v.
[0372] Значения yh_dist_v, yh_dist_v2, yh_dist_uv2, yh_dist_uv, yl_dist_uv, yl_dist_uv2, yl_dist_v2 и yl_dist_v в этом варианте осуществления не ограничены.
[0373] Необязательно, по меньшей мере один параметр из девятого параметра невокализации, десятого параметра невокализации, одиннадцатого параметра невокализации, двенадцатого параметра невокализации, девятого параметра вокализации, десятого параметра вокализации, одиннадцатого параметра вокализации и двенадцатого параметра вокализации регулируется посредством использования параметра кодирования предыдущего кадра относительно текущего кадра.
[0374] Например, для представления используется следующая формула:
yh_dist_uv=fach_uv'' * yh_dist_init; yl_dist_uv=facl_uv'' * yl_dist_init;
yh_dist_v=fach_v'' * yh_dist_init; yl_dist_v=facl_v'' * yl_dist_init;
yh_dist_v2=fach_v2'' * yh_dist_init; yl_dist_v2=facl_v2'' * yl_dist_init;
yh_dist_uv2=fach_uv2'' * yh_dist_init; и yl_dist_uv2=facl_uv2'' * yl_dist_init.
[0375] fach_uv'', fach_v'', fach_v2'', fach_uv2'', yh_dist_init и yl_dist_init являются положительными числами, определяемыми на основе параметра кодирования, и значения этих параметров в этом варианте осуществления не ограничены.
[0376] В этом варианте осуществления адаптивный параметр в предустановленной модели оконной функции регулируется на основе параметра кодирования предыдущего кадра относительно текущего кадра, так что подходящая адаптивная оконная функция определяется адаптивно на основе параметра кодирования предыдущего кадра относительно текущего кадра, тем самым повышая точность формирования адаптивной оконной функции и повышая точность оценки межканальной временной разности.
[0377] Необязательно, на основе вышеизложенных вариантов осуществления, перед этапом 301 предобработка во временной области выполняется над многоканальным сигналом.
[0378] Необязательно, многоканальный сигнал текущего кадра в этом варианте осуществления этой заявки представляет собой многоканальный сигнал, вводимый в устройство аудиокодирования, или многоканальный сигнал, получаемый посредством предобработки после того, как этот многоканальный сигнал введен в устройство аудиокодирования.
[0379] Необязательно, многоканальный сигнал, вводимый в устройство аудиокодирования, может быть получен компонентом получения в устройстве аудиокодирования или может быть получен устройством получения, независимым от устройства аудиокодирования, и отправлен в устройство аудиокодирования.
[0380] Необязательно, многоканальный сигнал, вводимый в устройство аудиокодирования, является многоканальным сигналом, получаемым после аналого-цифрового (Analog to Digital, A/D) преобразования. Необязательно, многоканальный сигнал является сигналом импульсной кодовой модуляции (Pulse Code Modulation, PCM).
[0381] Частота дискретизации многоканального сигнала может составлять 8 кГц, 16 кГц, 32 кГц, 44,1 кГц, 48 кГц или тому подобное. В данном варианте осуществления это не ограничено.
[0382] Например, частота дискретизации многоканального сигнала составляет 16 кГц. В этом случае продолжительность кадра многоканальных сигналов составляет 20 мс, а длительность кадра обозначается как N, где N=320, другими словами, длительность кадра составляет 320 точек выборки. Многоканальный сигнал текущего кадра включает в себя сигнал левого канала и сигнал правого канала, сигнал левого канала обозначается как xL(n), а сигнал правого канала обозначается как xR(n), где n является порядковым номером точки выборки, а n=0, 1, 2, … и (N - 1).
[0383] Необязательно, если обработка фильтрации верхних частот выполняется над текущим кадром, обработанный сигнал левого канала обозначается как xL_HP(n), а обработанный сигнал правого канала обозначается как xR_HP(n), где n является порядковым номером точки выборки, а n=0, 1, 2, … и (N - 1).
[0384] ФИГ. 11 представляет собой схематичное структурное представление устройства аудиокодирования согласно примерному варианту осуществления этой заявки. В этом варианте осуществления этой заявки устройство аудиокодирования может быть электронным устройством, которое имеет функцию обработки аудиосигнала, таким как мобильный телефон, планшетный компьютер, портативный компьютер, настольный компьютер, Bluetooth-динамик, записывающее устройство или носимое устройство, или может быть сетевым элементом, который имеет возможность обработки аудиосигнала в базовой сети и радиосети. В данном варианте осуществления это не ограничено.
[0385] Устройство аудиокодирования включает в себя процессор 701, память 702 и шину 703.
[0386] Процессор 701 включает в себя одно или несколько процессорных ядер и процессор 701 исполняет модуль или программу программного обеспечения для выполнения приложений различной функциональности и обработки информации.
[0387] Память 702 соединена с процессором 701 с использованием шины 703. Память 702 хранит инструкцию, необходимую для устройства аудиокодирования.
[0388] Процессор 701 выполнен с возможностью исполнения инструкции из памяти 702 для реализации способа оценки задержки, предусмотренного в вариантах осуществления способа согласно этой заявке.
[0389] Кроме того, память 702 может быть реализована с помощью любого типа энергозависимого или энергонезависимого запоминающего устройства или их комбинации, такого как статическая оперативная память (SRAM), электрически стираемая программируемая постоянная память (EEPROM), стираемая программируемая постоянная память (EPROM), программируемая постоянная память (PROM), постоянная память (ROM), магнитная память, флэш-память, магнитный диск или оптический диск.
[0390] Память 702 дополнительно выполнена с возможность буферизации информации о межканальной временной разности по меньшей мере одного прошедшего кадра и/или весового коэффициента этого по меньшей мере одного прошедшего кадра.
[0391] Необязательно, устройство аудиокодирования включает в себя компонент получения, и этот компонент получения выполнен с возможностью получения многоканального сигнала.
[0392] Необязательно, компонент получения включает в себя по меньшей мере один микрофон. Каждый микрофон выполнен с возможностью получения одного канала канального сигнала.
[0393] Необязательно, устройство аудиокодирования включает в себя компонент приема, и этот компонент приема выполнен с возможностью приема многоканального сигнала, отправленного другим устройством.
[0394] Необязательно, устройство аудиокодирования дополнительно имеет функцию декодирования.
[0395] Должно быть понятно, что на ФИГ. 11 проиллюстрировано лишь упрощенное представление устройства аудиокодирования. В другом варианте осуществления устройство аудиокодирования может включать в себя любое количество передатчиков, приемников, процессоров, контроллеров, блоков памяти, блоков связи, блоков отображения, блоков воспроизведения и им подобных. В данном варианте осуществления это не ограничено.
[0396] Необязательно, эта заявка предоставляет считываемый компьютером носитель данных. Считываемый компьютером носитель данных хранит инструкцию. Когда инструкция исполняется на устройстве аудиокодирования, устройству аудиокодирования обеспечивается возможность выполнения способа оценки задержки, предусмотренного в предшествующих вариантах осуществления.
[0397] ФИГ. 12 представляет собой блок-схему устройства оценки задержки согласно варианту осуществления этой заявки. Устройство оценки задержки может быть реализовано как все или часть устройства аудиокодирования, показанного на ФИГ. 11, с использованием программного обеспечения, аппаратного обеспечения или их комбинации. Устройство оценки задержки может включать в себя блок 810 определения коэффициента взаимной корреляции, блок 820 оценки дорожки задержки, блок 830 определения адаптивной функции, блок 840 взвешивания и блок 850 определения межканальной временной разности.
[0398] Блок 810 определения коэффициента взаимной корреляции выполнен с возможностью определения коэффициента взаимной корреляции многоканального сигнала текущего кадра.
[0399] Блок 820 оценки дорожки задержки выполнен с возможностью определения значения оценки дорожки задержки текущего кадра на основе буферизованной информации о межканальной временной разности по меньшей мере одного прошедшего кадра.
[0400] Блок 803 определения адаптивной функции выполнен с возможностью определения адаптивной оконной функции текущего кадра.
[0401] Блок 840 взвешивания выполнен с возможностью выполнения взвешивания над коэффициентом взаимной корреляции на основе значения оценки дорожки задержки текущего кадра и адаптивной оконной функции текущего кадра, чтобы получить взвешенный коэффициент взаимной корреляции.
[0402] Блок 850 определения межканальной временной разности выполнен с возможностью определения межканальной временной разности текущего кадра на основе взвешенного коэффициента взаимной корреляции.
[0403] Необязательно, блок 830 определения адаптивной функции дополнительно выполнен с возможностью:
вычисления первого параметра ширины приподнятого косинуса на основе отклонения сглаженной оценки межканальной временной разности предыдущего кадра относительно текущего кадра;
вычисления первого смещения по высоте приподнятого косинуса на основе отклонения сглаженной оценки межканальной временной разности предыдущего кадра относительно текущего кадра; и
определения адаптивной оконной функции текущего кадра на основе первого параметра ширины приподнятого косинуса и первого смещения по высоте приподнятого косинуса.
[0404] Необязательно, устройство дополнительно включает в себя: блок 860 определения отклонения сглаженной оценки межканальной временной разности.
[0405] Блок 860 определения отклонения сглаженной оценки межканальной временной разности выполнен с возможностью вычисления отклонения сглаженной оценки межканальной временной разности текущего кадра на основе отклонения сглаженной оценки межканальной временной разности предыдущего кадра относительно текущего кадра, значения оценки дорожки задержки текущего кадра и межканальной временной разности текущего кадра.
[0406] Необязательно, блок 830 определения адаптивной функции дополнительно выполнен с возможностью:
определения начального значения межканальной временной разности текущего кадра на основе коэффициента взаимной корреляции;
вычисления отклонения оценки межканальной временной разности текущего кадра на основе значения оценки дорожки задержки текущего кадра и начального значения межканальной временной разности текущего кадра; и
определения адаптивной оконной функции текущего кадра на основе отклонения оценки межканальной временной разности текущего кадра.
[0407] Необязательно, блок 830 определения адаптивной функции дополнительно выполнен с возможностью:
вычисления второго параметра ширины приподнятого косинуса на основе отклонения оценки межканальной временной разности текущего кадра;
вычисления второго смещения по высоте приподнятого косинуса на основе отклонения оценки межканальной временной разности текущего кадра; и
определения адаптивной оконной функции текущего кадра на основе второго параметра ширины приподнятого косинуса и второго смещения по высоте приподнятого косинуса.
[0408] Необязательно, устройство дополнительно включает в себя блок 870 определения адаптивных параметров.
[0409] Блок 870 определения адаптивных параметров выполнен с возможностью определения адаптивного параметра адаптивной оконной функции текущего кадра на основе параметра кодирования предыдущего кадра относительно текущего кадра.
[0410] Необязательно, блок 820 оценки дорожки задержки дополнительно выполнен с возможностью:
выполнения оценки дорожки задержки на основе буферизованной информации о межканальной временной разности по меньшей мере одного прошедшего кадра с использованием метода линейной регрессии, чтобы определить значение оценки дорожки задержки текущего кадра.
[0411] Необязательно, блок 820 оценки дорожки задержки дополнительно выполнен с возможностью:
выполнения оценки дорожки задержки на основе буферизованной информации о межканальной временной разности по меньшей мере одного прошедшего кадра с использованием метода взвешенной линейной регрессии, чтобы определить значение оценки дорожки задержки текущего кадра.
[0412] Необязательно, устройство дополнительно включает в себя блок 880 обновления.
[0413] Блок 880 обновления выполнен с возможностью обновления буферизованной информации о межканальной временной разности упомянутого по меньшей мере одного прошедшего кадра.
[0414] Необязательно, буферизованная информация о межканальной временной разности по меньшей мере одного прошедшего кадра представляет собой сглаженное значение межканальной временной разности упомянутого по меньшей мере одного прошедшего кадра, а блок 880 обновления выполнен с возможностью:
определения сглаженного значения межканальной временной разности текущего кадра на основе значения оценки дорожки задержки текущего кадра и межканальной временной разности текущего кадра; и
обновления буферизованного сглаженного значения межканальной временной разности упомянутого по меньшей мере одного прошедшего кадра на основе сглаженного значения межканальной временной разности текущего кадра.
[0415] Необязательно, блок 880 обновления дополнительно выполнен с возможностью:
определения на основе результата обнаружения голосовой активации предыдущего кадра относительно текущего кадра или результата обнаружения голосовой активации текущего кадра, следует ли обновлять буферизованную информацию о межканальной временной разности по меньшей мере одного прошедшего кадра.
[0416] Необязательно, блок 880 обновления дополнительно выполнен с возможностью:
обновления буферизованного весового коэффициента по меньшей мере одного прошедшего кадра, при этом весовой коэффициент упомянутого по меньшей мере одного прошедшего кадра является коэффициентом в методе взвешенной линейной регрессии.
[0417] Необязательно, когда адаптивная оконная функция текущего кадра определяется на основе сглаженной межканальной временной разности предыдущего кадра относительно текущего кадра, блок 880 обновления дополнительно выполнен с возможностью:
вычисления первого весового коэффициента текущего кадра на основе отклонения сглаженной оценки межканальной временной разности текущего кадра; и
обновления буферизованного первого весового коэффициента по меньшей мере одного прошедшего кадра на основе первого весового коэффициента текущего кадра.
[0418] Необязательно, когда адаптивная оконная функция текущего кадра определяется на основе отклонения сглаженной оценки межканальной временной разности текущего кадра, блок 880 обновления дополнительно выполнен с возможностью:
вычисления второго весового коэффициента текущего кадра на основе отклонения оценки межканальной временной разности текущего кадра; и
обновления буферизованного второго весового коэффициента по меньшей мере одного прошедшего кадра на основе второго весового коэффициента текущего кадра.
[0419] Необязательно, блок 880 обновления дополнительно выполнен с возможностью:
когда результатом обнаружения голосовой активации предыдущего кадра относительно текущего кадра является активный кадр или результатом обнаружения голосовой активации текущего кадра является активный кадр, обновления буферизованного весового коэффициента по меньшей мере одного прошедшего кадра.
[0420] За связанными деталями обратитесь к вышеупомянутым вариантам осуществления способа.
[0421] Необязательно, вышеупомянутые блоки могут быть реализованы процессором в устройстве аудиокодирования путем исполнения инструкции в памяти.
[0422] Специалист в данной области техники с легкостью поймет, что за подробным рабочим процессом вышеупомянутого устройства и блоков следует обратиться к описанию соответствующего процесса в вышеупомянутых вариантах осуществления способа, и такие подробности повторно здесь не приводятся для простоты и краткости описания.
[0423] В вариантах осуществления, предусмотренных в настоящей заявке, следует понимать, что раскрытые устройство и способ могут быть реализованы другими способами. Например, описанные варианты осуществления устройства являются просто примерами. Например, разделение на блоки может быть лишь логическим разделением функций, но может и быть другим разделением при фактической реализации. Например, множество блоков или компонентов могут быть объединены или интегрированы в другую систему, или некоторые особенности могут игнорироваться или не выполняться.
[0424] В вышеприведенном описании представлены лишь опциональные реализации данной заявки, но они не предназначены для ограничения области охраны этой заявки. Любое изменение или замена, легко обнаруживаемая специалистом в данной области техники в пределах технического объема, раскрытого в настоящей заявке, должно/должна попадать в область охраны данной заявки. Следовательно, объем защиты данной заявки должен быть предметом объема охраны формулы изобретения.
1. Способ оценки задержки, при этом способ содержит:
определение коэффициента взаимной корреляции многоканального сигнала текущего кадра;
определение значения оценки дорожки задержки текущего кадра на основе буферизованной информации о межканальной временной разности по меньшей мере одного прошедшего кадра;
определение адаптивной оконной функции текущего кадра;
выполнение взвешивания над коэффициентом взаимной корреляции на основе значения оценки дорожки задержки текущего кадра и адаптивной оконной функции текущего кадра для получения взвешенного коэффициента взаимной корреляции; и
определение межканальной временной разности текущего кадра на основе взвешенного коэффициента взаимной корреляции.
2. Способ по п. 1, в котором определение адаптивной оконной функции текущего кадра содержит:
вычисление первого параметра ширины приподнятого косинуса на основе отклонения сглаженной оценки межканальной временной разности предыдущего кадра относительно текущего кадра;
вычисление первого смещения по высоте приподнятого косинуса на основе отклонения сглаженной оценки межканальной временной разности предыдущего кадра относительно текущего кадра; и
определение адаптивной оконной функции текущего кадра на основе первого параметра ширины приподнятого косинуса и первого смещения по высоте приподнятого косинуса.
3. Способ по п. 2, в котором первый параметр ширины приподнятого косинуса получают посредством вычисления с использованием следующих формул вычисления:
win_width1=TRUNC(width_par1 * (A * L_NCSHIFT_DS+1)), и
width_par1=a_width1 * smooth_dist_reg+b_width1; где
a_width1 = (xh_width1 - xl_width1)/(yh_dist1 - yl_dist1),
b_width1=xh_width1 - a_width1 * yh_dist1,
при этом win_width1 является первым параметром ширины приподнятого косинуса, TRUNC указывает округление значения, L_NCSHIFT_DS является максимальным значением абсолютного значения межканальной временной разности, A является предустановленной постоянной, A больше или равна 4, xh_width1 является верхним предельным значением первого параметра ширины приподнятого косинуса, xl_width1 является нижним предельным значением первого параметра ширины приподнятого косинуса, yh_dist1 является отклонением сглаженной оценки межканальной временной разности, соответствующим верхнему предельному значению первого параметра ширины приподнятого косинуса, yl_dist1 является отклонением сглаженной оценки межканальной временной разности, соответствующим нижнему предельному значению первого параметра ширины приподнятого косинуса, smooth_dist_reg является отклонением сглаженной оценки межканальной временной разности предыдущего кадра относительно текущего кадра и все xh_width1, xl_width1, yh_dist1 и yl_dist1 являются положительными числами.
4. Способ по п. 3, в котором
width_par1=min(width_par1, xh_width1), и
width_par1=max(width_par1, xl_width1),
при этом min представляет взятие минимального значения, а max представляет взятие максимального значения.
5. Способ по п. 3, в котором первое смещение по высоте приподнятого косинуса получают посредством вычисления с использованием следующей формулы вычисления:
win_bias1=a_bias1 * smooth_dist_reg+b_bias1, где
a_bias1 = (xh_bias1 - xl_bias1)/(yh_dist2 - yl_dist2),
b_bias1=xh_bias1 - a_bias1 * yh_dist2,
при этом win_bias1 является первым смещением по высоте приподнятого косинуса, xh_bias1 является верхним предельным значением первого смещения по высоте приподнятого косинуса, xl_bias1 является нижним предельным значением первого смещения по высоте приподнятого косинуса, yh_dist2 является отклонением сглаженной оценки межканальной временной разности, соответствующим верхнему предельному значению первого смещения по высоте приподнятого косинуса, yl_dist2 является отклонением сглаженной оценки межканальной временной разности, соответствующим нижнему предельному значению первого смещения по высоте приподнятого косинуса, smooth_dist_reg является отклонением сглаженной оценки межканальной временной разности предыдущего кадра относительно текущего кадра и все yh_dist2, yl_dist2, xh_bias1 и xl_bias1 являются положительными числами.
6. Способ по п. 5, в котором
win_bias1=min(win_bias1, xh_bias1), и
win_bias1=max(win_bias1, xl_bias1),
при этом min представляет взятие минимального значения, а max представляет взятие максимального значения.
7. Способ по п. 5, в котором yh_dist2=yh_dist1 и yl_dist2=yl_dist1.
8. Способ по любому из пп. 1-7, в котором адаптивную оконную функцию представляют с использованием следующих формул:
когда 0 ≤ k ≤ TRUNC(A * L_NCSHIFT_DS/2) - 2 * win_width1-1,
loc_weight_win(k) = win_bias1;
когда TRUNC(A * L_NCSHIFT_DS/2) - 2 * win_width1 ≤ k ≤ TRUNC(A * L_NCSHIFT_DS/2) + 2 * win_width1-1,
loc_weight_win(k) = 0,5 * (1+win_bias1) + 0,5 * (1 - win_bias1) * cos(π * (k - TRUNC(A * L_NCSHIFT_DS/2))/(2 * win_width1)); и
когда TRUNC(A * L_NCSHIFT_DS/2) + 2 * win_width1 ≤ k ≤ A * L_NCSHIFT_DS,
loc_weight_win(k) = win_bias1; где
loc_weight_win(k) используется для представления адаптивной оконной функции, при этом k=0, 1, …, A * L_NCSHIFT_DS; A является предустановленной постоянной и больше или равна 4; L_NCSHIFT_DS является максимальным значением абсолютного значения межканальной временной разности; win_width1 является первым параметром ширины приподнятого косинуса; а win_bias1 является первым смещением по высоте приподнятого косинуса.
9. Способ по любому из пп. 2-7, после определения межканальной временной разности текущего кадра на основе взвешенного коэффициента взаимной корреляции, дополнительно содержащий:
вычисление отклонения сглаженной оценки межканальной временной разности текущего кадра на основе отклонения сглаженной оценки межканальной временной разности предыдущего кадра относительно текущего кадра, значения оценки дорожки задержки текущего кадра и межканальной временной разности текущего кадра; и
отклонение сглаженной оценки межканальной временной разности текущего кадра получается посредством вычисления с использованием следующих формул вычисления:
smooth_dist_reg_update = (1 - γ) * smooth_dist_reg+γ * dist_reg', и
dist_reg' = |reg_prv_corr - cur_itd|,
при этом smooth_dist_reg_update является отклонением сглаженной оценки межканальной временной разности текущего кадра; γ является первым коэффициентом сглаживания и 0 < γ < 1; smooth_dist_reg является отклонением сглаженной оценки межканальной временной разности предыдущего кадра относительно текущего кадра; reg_prv_corr является значением оценки дорожки задержки текущего кадра и cur_itd является межканальной временной разностью текущего кадра.
10. Способ по п. 1, в котором определение адаптивной оконной функции текущего кадра содержит:
определение начального значения межканальной временной разности текущего кадра на основе коэффициента взаимной корреляции;
вычисление отклонения оценки межканальной временной разности текущего кадра на основе значения оценки дорожки задержки текущего кадра и начального значения межканальной временной разности текущего кадра; и
определение адаптивной оконной функции текущего кадра на основе отклонения оценки межканальной временной разности текущего кадра; и
причем отклонение оценки межканальной временной разности текущего кадра получают посредством вычисления с использованием следующей формулы вычисления:
dist_reg = |reg_prv_corr - cur_itd_init|,
при этом dist_reg является отклонением оценки межканальной временной разности текущего кадра, reg_prv_corr является значением оценки дорожки задержки текущего кадра, а cur_itd_init является начальным значением межканальной временной разности текущего кадра.
11. Способ по п. 10, в котором определение адаптивной оконной функции текущего кадра на основе отклонения оценки межканальной временной разности текущего кадра содержит:
вычисление второго параметра ширины приподнятого косинуса на основе отклонения оценки межканальной временной разности текущего кадра;
вычисление второго смещения по высоте приподнятого косинуса на основе отклонения оценки межканальной временной разности текущего кадра; и
определение адаптивной оконной функции текущего кадра на основе второго параметра ширины приподнятого косинуса и второго смещения по высоте приподнятого косинуса.
12. Способ по любому из пп. 1-7, в котором взвешенный коэффициент взаимной корреляции получают посредством вычисления с использованием следующей формулы вычисления:
c_weight(x) = c(x) * loc_weight_win(x - TRUNC(reg_prv_corr) + TRUNC(A * L_NCSHIFT_DS/2) - L_NCSHIFT_DS),
при этом c_weight(x) является взвешенным коэффициентом взаимной корреляции; c(x) является коэффициентом взаимной корреляции; loc_weight_win является адаптивной оконной функцией текущего кадра; TRUNC указывает округление значения; reg_prv_corr является значением оценки дорожки задержки текущего кадра; x является целым числом, которое больше или равно нулю и меньше или равно 2 * L_NCSHIFT_DS; и L_NCSHIFT_DS является максимальным значением абсолютного значения межканальной временной разности.
13. Способ по любому из пп. 1-7, который перед определением адаптивной оконной функции текущего кадра дополнительно содержит:
определение адаптивного параметра адаптивной оконной функции текущего кадра на основе параметра кодирования предыдущего кадра относительно текущего кадра, при этом
параметр кодирования используется для указания типа многоканального сигнала предыдущего кадра относительно текущего кадра или параметр кодирования используется для указания типа многоканального сигнала предыдущего кадра относительно текущего кадра, над которым выполнена обработка понижающего микширования во временной области; и адаптивный параметр используется для определения адаптивной оконной функции текущего кадра.
14. Способ по любому из пп. 1-7, в котором определение значения оценки дорожки задержки текущего кадра на основе буферизованной информации о межканальной временной разности по меньшей мере одного прошедшего кадра содержит:
выполнение оценки дорожки задержки на основе буферизованной информации о межканальной временной разности по меньшей мере одного прошедшего кадра с использованием метода линейной регрессии, чтобы определить значение оценки дорожки задержки текущего кадра.
15. Способ по любому из пп. 1-7, в котором определение значения оценки дорожки задержки текущего кадра на основе буферизованной информации о межканальной временной разности по меньшей мере одного прошедшего кадра содержит:
выполнение оценки дорожки задержки на основе буферизованной информации о межканальной временной разности по меньшей мере одного прошедшего кадра с использованием метода взвешенной линейной регрессии, чтобы определить значение оценки дорожки задержки текущего кадра.
16. Способ по любому из пп. 1-7, который после определения межканальной временной разности текущего кадра на основе взвешенного коэффициента взаимной корреляции дополнительно содержит:
обновление буферизованной информации о межканальной временной разности по меньшей мере одного прошедшего кадра, причем информация о межканальной временной разности по меньшей мере одного прошедшего кадра представляет собой сглаженное значение межканальной временной разности по меньшей мере одного прошедшего кадра или межканальную временную разность по меньшей мере одного прошедшего кадра.
17. Способ по п. 16, в котором информация о межканальной временной разности по меньшей мере одного прошедшего кадра представляет собой сглаженное значение межканальной временной разности по меньшей мере одного прошедшего кадра, а обновление буферизованной информации о межканальной временной разности по меньшей мере одного прошедшего кадра содержит:
определение сглаженного значения межканальной временной разности текущего кадра на основе значения оценки дорожки задержки текущего кадра и межканальной временной разности текущего кадра; и
обновление буферизованного сглаженного значения межканальной временной разности упомянутого по меньшей мере одного прошедшего кадра на основе сглаженного значения межканальной временной разности текущего кадра; при этом
сглаженное значение межканальной временной разности текущего кадра получается с использованием следующей формулы вычисления:
cur_itd_smooth=ϕ * reg_prv_corr + (1 - ϕ) * cur_itd, при этом
cur_itd_smooth является сглаженным значением межканальной временной разности текущего кадра, ϕ является вторым коэффициентом сглаживания и является постоянной, большей или равной 0 и меньшей или равной 1, reg_prv_corr является значением оценки дорожки задержки текущего кадра и cur_itd является межканальной временной разностью текущего кадра.
18. Способ по п. 16, в котором обновление буферизованной информации о межканальной временной разности по меньшей мере одного прошедшего кадра содержит:
когда результатом обнаружения голосовой активации предыдущего кадра относительно текущего кадра является активный кадр или результатом обнаружения голосовой активации текущего кадра является активный кадр, обновление буферизованной информации о межканальной временной разности упомянутого по меньшей мере одного прошедшего кадра.
19. Способ по п. 15, который после определения межканальной временной разности текущего кадра на основе взвешенного коэффициента взаимной корреляции дополнительно содержит:
обновление буферизованного весового коэффициента по меньшей мере одного прошедшего кадра, при этом весовой коэффициент упомянутого по меньшей мере одного прошедшего кадра является весовым коэффициентом в методе взвешенной линейной регрессии.
20. Способ по п. 19, в котором, когда адаптивная оконная функция текущего кадра определяется на основе сглаженной межканальной временной разности предыдущего кадра относительно текущего кадра, обновление буферизованного весового коэффициента по меньшей мере одного прошедшего кадра содержит:
вычисление первого весового коэффициента текущего кадра на основе отклонения сглаженной оценки межканальной временной разности текущего кадра; и
обновление буферизованного первого весового коэффициента по меньшей мере одного прошедшего кадра на основе первого весового коэффициента текущего кадра, при этом
первый весовой коэффициент текущего кадра получают посредством вычисления с использованием следующих формул вычисления:
wgt_par1=a_wgt1 * smooth_dist_reg_update+b_wgt1,
a_wgt1 = (xl_wgt1 - xh_wgt1)/(yh_dist1' - yl_dist1'), и
b_wgt1=xl_wgt1 - a_wgt1 * yh_dist1',
при этом wgt_par1 является первым весовым коэффициентом текущего кадра, smooth_dist_reg_update является отклонением сглаженной оценки межканальной временной разности текущего кадра, xh_wgt является верхним предельным значением первого весового коэффициента, xl_wgt является нижним предельным значением первого весового коэффициента, yh_dist1' является отклонением сглаженной оценки межканальной временной разности, соответствующим верхнему предельному значению первого весового коэффициента, yl_dist1' является отклонением сглаженной оценки межканальной временной разности, соответствующим нижнему предельному значению первого весового коэффициента, и все yh_dist1', yl_dist1', xh_wgt1 и xl_wgt1 являются положительными числами.
21. Способ по п. 20, в котором
wgt_par1=min(wgt_par1, xh_wgt1), и
wgt_par1=max(wgt_par1, xl_wgt1),
при этом min представляет взятие минимального значения, а max представляет взятие максимального значения.
22. Способ по п. 19, в котором, когда адаптивная оконная функция текущего кадра определяется на основе отклонения сглаженной оценки межканальной временной разности текущего кадра, обновление буферизованного весового коэффициента по меньшей мере одного прошедшего кадра содержит:
вычисление второго весового коэффициента текущего кадра на основе отклонения оценки межканальной временной разности текущего кадра; и
обновление буферизованного второго весового коэффициента по меньшей мере одного прошедшего кадра на основе второго весового коэффициента текущего кадра.
23. Способ по п. 19, в котором обновление буферизованного весового коэффициента по меньшей мере одного прошедшего кадра содержит:
когда результатом обнаружения голосовой активации предыдущего кадра относительно текущего кадра является активный кадр или результатом обнаружения голосовой активации текущего кадра является активный кадр, обновление буферизованного весового коэффициента по меньшей мере одного прошедшего кадра.
24. Устройство оценки задержки, при этом устройство содержит:
блок определения коэффициента взаимной корреляции, выполненный с возможностью определения коэффициента взаимной корреляции многоканального сигнала текущего кадра;
блок оценки дорожки задержки, выполненный с возможностью определения значения оценки дорожки задержки текущего кадра на основе буферизованной информации о межканальной временной разности по меньшей мере одного прошедшего кадра;
блок определения адаптивной функции, выполненный с возможностью определения адаптивной оконной функции текущего кадра;
блок взвешивания, выполненный с возможностью взвешивания над коэффициентом взаимной корреляции на основе значения оценки дорожки задержки текущего кадра и адаптивной оконной функции текущего кадра для получения взвешенного коэффициента взаимной корреляции; и
блок определения межканальной временной разности, выполненный с возможностью определения межканальной временной разности текущего кадра на основе взвешенного коэффициента взаимной корреляции.
25. Устройство по п. 24, в котором блок определения адаптивной функции выполнен с возможностью:
вычисления первого параметра ширины приподнятого косинуса на основе отклонения сглаженной оценки межканальной временной разности предыдущего кадра относительно текущего кадра;
вычисления первого смещения по высоте приподнятого косинуса на основе отклонения сглаженной оценки межканальной временной разности предыдущего кадра относительно текущего кадра; и
определения адаптивной оконной функции текущего кадра на основе первого параметра ширины приподнятого косинуса и первого смещения по высоте приподнятого косинуса.
26. Устройство по п. 25, в котором первый параметр ширины приподнятого косинуса получается посредством вычисления с использованием следующих формул вычисления:
win_width1=TRUNC(width_par1 * (A * L_NCSHIFT_DS+1)), и
width_par1=a_width1 * smooth_dist_reg+b_width1; где
a_width1 = (xh_width1 - xl_width1)/(yh_dist1 - yl_dist1),
b_width1=xh_width1 - a_width1 * yh_dist1,
win_width1 является первым параметром ширины приподнятого косинуса, TRUNC указывает округление значения, L_NCSHIFT_DS является максимальным значением абсолютного значения межканальной временной разности, A является предустановленной постоянной, A больше или равна 4, xh_width1 является верхним предельным значением первого параметра ширины приподнятого косинуса, xl_width1 является нижним предельным значением первого параметра ширины приподнятого косинуса, yh_dist1 является отклонением сглаженной оценки межканальной временной разности, соответствующим верхнему предельному значению первого параметра ширины приподнятого косинуса, yl_dist1 является отклонением сглаженной оценки межканальной временной разности, соответствующим нижнему предельному значению первого параметра ширины приподнятого косинуса, smooth_dist_reg является отклонением сглаженной оценки межканальной временной разности предыдущего кадра относительно текущего кадра и все xh_width1, xl_width1, yh_dist1 и yl_dist1 являются положительными числами.
27. Устройство по п. 26, в котором
width_par1=min(width_par1, xh_width1), и
width_par1=max(width_par1, xl_width1), где
min представляет взятие минимального значения, а max представляет взятие максимального значения.
28. Устройство по п. 26, в котором первое смещение по высоте приподнятого косинуса получается посредством вычисления с использованием следующей формулы вычисления:
win_bias1=a_bias1 * smooth_dist_reg+b_bias1, где
a_bias1 = (xh_bias1 - xl_bias1)/(yh_dist2 - yl_dist2),
b_bias1=xh_bias1 - a_bias1 * yh_dist2,
win_bias1 является первым смещением по высоте приподнятого косинуса, xh_bias1 является верхним предельным значением первого смещения по высоте приподнятого косинуса, xl_bias1 является нижним предельным значением первого смещения по высоте приподнятого косинуса, yh_dist2 является отклонением сглаженной оценки межканальной временной разности, соответствующим верхнему предельному значению первого смещения по высоте приподнятого косинуса, yl_dist2 является отклонением сглаженной оценки межканальной временной разности, соответствующим нижнему предельному значению первого смещения по высоте приподнятого косинуса, smooth_dist_reg является отклонением сглаженной оценки межканальной временной разности предыдущего кадра относительно текущего кадра и все yh_dist2, yl_dist2, xh_bias1 и xl_bias1 являются положительными числами.
29. Устройство по п. 28, в котором
win_bias1=min(win_bias1, xh_bias1), и
win_bias1=max(win_bias1, xl_bias1), где
min представляет взятие минимального значения, а max представляет взятие максимального значения.
30. Устройство по п. 28, в котором yh_dist2=yh_dist1 и yl_dist2=yl_dist1.
31. Устройство по любому из пп. 24-30, в котором адаптивную оконную функцию представляют с использованием следующих формул:
когда 0 ≤ k ≤ TRUNC(A * L_NCSHIFT_DS/2) - 2 * win_width1-1,
loc_weight_win(k) = win_bias1;
когда TRUNC(A * L_NCSHIFT_DS/2) - 2 * win_width1 ≤ k ≤ TRUNC(A * L_NCSHIFT_DS/2) + 2 * win_width1-1,
loc_weight_win(k) = 0,5 * (1+win_bias1) + 0,5 * (1 - win_bias1) * cos(π * (k - TRUNC(A * L_NCSHIFT_DS/2))/(2 * win_width1)); и
когда TRUNC(A * L_NCSHIFT_DS/2) + 2 * win_width1 ≤ k ≤ A * L_NCSHIFT_DS,
loc_weight_win(k) = win_bias1; где
loc_weight_win(k) используется для представления адаптивной оконной функции, при этом k=0, 1, ..., A * L_NCSHIFT_DS; A является предустановленной постоянной и больше или равна 4; L_NCSHIFT_DS является максимальным значением абсолютного значения межканальной временной разности; win_width1 является первым параметром ширины приподнятого косинуса; а win_bias1 является первым смещением по высоте приподнятого косинуса.
32. Устройство по любому из пп. 25-30, при этом устройство дополнительно содержит:
блок определения отклонения сглаженной оценки межканальной временной разности, выполненный с возможностью вычисления отклонения сглаженной оценки межканальной временной разности текущего кадра на основе отклонения сглаженной оценки межканальной временной разности предыдущего кадра относительно текущего кадра, значения оценки дорожки задержки текущего кадра и межканальной временной разности текущего кадра; и
отклонение сглаженной оценки межканальной временной разности текущего кадра получается посредством вычисления с использованием следующих формул вычисления:
smooth_dist_reg_update = (1 - γ) * smooth_dist_reg+γ * dist_reg', и
dist_reg' = |reg_prv_corr - cur_itd|, при этом
smooth_dist_reg_update является отклонением сглаженной оценки межканальной временной разности текущего кадра; γ является первым коэффициентом сглаживания и 0 < γ < 1; smooth_dist_reg является отклонением сглаженной оценки межканальной временной разности предыдущего кадра относительно текущего кадра; reg_prv_corr является значением оценки дорожки задержки текущего кадра и cur_itd является межканальной временной разностью текущего кадра.
33. Устройство по любому из пп. 24-30, в котором взвешенный коэффициент взаимной корреляции получается посредством вычисления с использованием следующей формулы вычисления:
c_weight(x) = c(x) * loc_weight_win(x - TRUNC(reg_prv_corr) + TRUNC(A * L_NCSHIFT_DS/2) - L_NCSHIFT_DS), где
c_weight(x) является взвешенным коэффициентом взаимной корреляции; c(x) является коэффициентом взаимной корреляции; loc_weight_win является адаптивной оконной функцией текущего кадра; TRUNC указывает округление значения; reg_prv_corr является значением оценки дорожки задержки текущего кадра; x является целым числом, которое больше или равно нулю и меньше или равно 2 * L_NCSHIFT_DS; и L_NCSHIFT_DS является максимальным значением абсолютного значения межканальной временной разности.
34. Устройство по любому из пп. 24-30, в котором блок оценки дорожки задержки выполнен с возможностью:
выполнения оценки дорожки задержки на основе буферизованной информации о межканальной временной разности по меньшей мере одного прошедшего кадра с использованием метода линейной регрессии, чтобы определить значение оценки дорожки задержки текущего кадра.
35. Устройство по любому из пп. 24-30, в котором блок оценки дорожки задержки выполнен с возможностью:
выполнения оценки дорожки задержки на основе буферизованной информации о межканальной временной разности по меньшей мере одного прошедшего кадра с использованием метода взвешенной линейной регрессии, чтобы определить значение оценки дорожки задержки текущего кадра.
36. Устройство по любому из пп. 24-30, при этом устройство дополнительно содержит:
блок обновления, выполненный с возможностью обновления буферизованной информации о межканальной временной разности по меньшей мере одного прошедшего кадра, при этом информация о межканальной временной разности по меньшей мере одного прошедшего кадра представляет собой сглаженное значение межканальной временной разности по меньшей мере одного прошедшего кадра или межканальную временную разность по меньшей мере одного прошедшего кадра.
37. Устройство по п. 36, в котором информация о межканальной временной разности по меньшей мере одного прошедшего кадра представляет собой сглаженное значение межканальной временной разности по меньшей мере одного прошедшего кадра и блок обновления выполнен с возможностью:
определения сглаженного значения межканальной временной разности текущего кадра на основе значения оценки дорожки задержки текущего кадра и межканальной временной разности текущего кадра; и
обновления буферизованного сглаженного значения межканальной временной разности упомянутого по меньшей мере одного прошедшего кадра на основе сглаженного значения межканальной временной разности текущего кадра; при этом
сглаженное значение межканальной временной разности текущего кадра получается с использованием следующей формулы вычисления:
cur_itd_smooth=ϕ * reg_prv_corr + (1 - ϕ) * cur_itd, при этом
cur_itd_smooth является сглаженным значением межканальной временной разности текущего кадра, ϕ является вторым коэффициентом сглаживания и является постоянной, большей или равной 0 и меньшей или равной 1, reg_prv_corr является значением оценки дорожки задержки текущего кадра и cur_itd является межканальной временной разностью текущего кадра.
38. Устройство по п. 35, при этом блок обновления дополнительно выполнен с возможностью:
обновления буферизованного весового коэффициента по меньшей мере одного прошедшего кадра, при этом весовой коэффициент упомянутого по меньшей мере одного прошедшего кадра является весовым коэффициентом в методе взвешенной линейной регрессии.
39. Устройство по п. 38, в котором, когда адаптивная оконная функция текущего кадра определяется на основе сглаженной межканальной временной разности предыдущего кадра относительно текущего кадра, блок обновления выполнен с возможностью:
вычисления первого весового коэффициента текущего кадра на основе отклонения сглаженной оценки межканальной временной разности текущего кадра; и
обновления буферизованного первого весового коэффициента по меньшей мере одного прошедшего кадра на основе первого весового коэффициента текущего кадра, при этом
первый весовой коэффициент текущего кадра получают посредством вычисления с использованием следующих формул вычисления:
wgt_par1=a_wgt1 * smooth_dist_reg_update+b_wgt1,
a_wgt1 = (xl_wgt1 - xh_wgt1)/(yh_dist1' - yl_dist1'), и
b_wgt1=xl_wgt1 - a_wgt1 * yh_dist1’, где
wgt_par1 является первым весовым коэффициентом текущего кадра, smooth_dist_reg_update является отклонением сглаженной оценки межканальной временной разности текущего кадра, xh_wgt является верхним предельным значением первого весового коэффициента, xl_wgt является нижним предельным значением первого весового коэффициента, yh_dist1' является отклонением сглаженной оценки межканальной временной разности, соответствующим верхнему предельному значению первого весового коэффициента, yl_dist1' является отклонением сглаженной оценки межканальной временной разности, соответствующим нижнему предельному значению первого весового коэффициента, и все yh_dist1', yl_dist1', xh_wgt1 и xl_wgt1 являются положительными числами.
40. Устройство по п. 39, в котором
wgt_par1=min(wgt_par1, xh_wgt1), и
wgt_par1=max(wgt_par1, xl_wgt1), где
min представляет взятие минимального значения, а max представляет взятие максимального значения.
41. Устройство аудиокодирования, при этом устройство аудиокодирования содержит процессор и память, соединенную с процессором; и
память выполнена с возможностью нахождения под управлением процессором, и процессор выполнен с возможностью реализации способа оценки задержки по любому из пп. 1-7.
42. Считываемый компьютером носитель, на который записана программа; причем программа побуждает компьютер к исполнению способа по любому из пп. 1-7.