Способ и устройство для обработки звуковых данных, а также носитель информации

Настоящее изобретение относится к области обработки звуковых сигналов. Способ включает получение звуковых данных, подлежащих обработке, и коэффициента регулировки скорости по меньшей мере одного звукового кадра звуковых данных; последовательное использование по меньшей мере одного звукового кадра в качестве текущего звукового кадра, подлежащего обработке, и преобразование текущего звукового кадра в частотную область; определение целевого фазового сигнала текущего звукового кадра в соответствии с коэффициентом регулировки скорости текущего звукового кадра и коэффициентом регулировки скорости предшествующего звукового кадра; и, в соответствии с целевым фазовым сигналом, выполнение преобразования во временную область текущего звукового кадра, преобразованного в частотную область, для получения обработанного текущего звукового кадра. Технический результат заключается в обеспечении сохранения качества воспроизведения обработанных звуковых данных при регулировке скорости при комбинировании двух и более сегментов с различными коэффициентами регулировки скорости. 4 н. и 10 з.п. ф-лы, 7 ил.

 

По данной заявке испрашивается приоритет согласно заявке на патент КНР №201811436053.2, поданной в Патентное ведомство КНР 28 ноября 2018 года, раскрытие которой полностью включено в это описание посредством ссылки.

ОБЛАСТЬ ТЕХНИКИ

Настоящая заявка относится к технической области обработки звуковых сигналов, например, - к способу и устройству для обработки звуковых данных, а также к носителю информации.

ПРЕДПОСЫЛКИ СОЗДАНИЯ ИЗОБРЕТЕНИЯ

При обработке звуковых данных иногда требуется воспроизводить эти данные на скорости более высокой или более низкой по сравнению с исходной скоростью записи, без изменения тональности, тембра и других характеристик звукового сигнала. Такая обработка для регулировки скорости воспроизведения звуковых данных обычно называется воспроизведением звуковых данных с регулируемой скоростью.

Для воспроизведения звуковых данных с регулируемой скоростью существуют традиционные способы двух типов, а именно: обработка для регулировки скорости во временной области и обработка для регулировки скорости в фазовой области (также называемая обработкой для регулировки скорости в частотной области). Обработка для регулировки скорости во временной области отличается простотой при выполнении и, вследствие этого, в целом подходит для некоторых сценариев с жесткими требованиями в отношении сложности вычислений. Недостаток обработки для регулировки скорости во временной области состоит в том, что звуковой сигнал после обработки для регулировки скорости характеризуется низким качеством звука или отличается от исходного звукового сигнала по тембру и тональности. Обработка для регулировки скорости в фазовой области выполняется немного сложнее, но, в случае единственного коэффициента регулировки скорости, обработка для регулировки скорости в фазовой области позволяет поддерживать более высокое качество звука обработанных звуковых данных и уменьшить различия в тембре и тональности между обработанными и исходными звуковыми данными.

Однако на практике, если выполняется обработка для воспроизведения звукового сигнала с регулируемой скоростью, возникает ситуация, в которой коэффициент регулировки скорости звуковых данных постоянно изменяется. Например, на платформе прямого вещания пользователь выбирает конкретные различные скорости для записанных многосегментных звуковых данных с целью воспроизведения звуковых данных с регулируемой скоростью. Например, в процессе синхронизации и модификации звукового сигнала кантаты пользователя, может быть необходимо выполнять различные настройки регулируемой скорости в различных сегментах звуковых данных и т.п. В такой ситуации в случае стандартной обработки для регулировки скорости в фазовой области при комбинировании двух сегментов звуковых данных с различными коэффициентами регулировки скорости, если коэффициент регулировки скорости одного сегмента значительно отличается от коэффициента регулировки скорости другого сегмента звуковых данных, то легко генерируется скачок фазы и амплитуды, и, таким образом, качество звука ухудшается, что отрицательно воздействует на качество воспроизведения обработанных звуковых данных.

СУЩНОСТЬ ИЗОБРЕТЕНИЯ

В рамках вариантов осуществления, представленных в настоящей заявке, предлагается способ и устройство для обработки звуковых данных, компьютерное устройство и носитель информации, позволяющие решить проблему, связанную с тем, что при выполнении обработки звуковых данных с целью регулировки скорости звуковые данные с различными коэффициентами регулировки скорости не могут эффективно обрабатываться.

Согласно вариантам осуществления, представленным в настоящей заявке, предлагается способ обработки звуковых данных. Способ включает описанные ниже шаги.

Выполняется получение звуковых данных, подлежащих обработке, и коэффициента регулировки скорости по меньшей мере одного звукового кадра звуковых данных.

Этот по меньшей мере один звуковой кадр последовательно используется в качестве текущего звукового кадра, подлежащего обработке, и текущий звуковой кадр преобразуется в частотную область.

Целевой фазовый сигнал текущего звукового кадра определяется в соответствии с коэффициентом регулировки скорости текущего звукового кадра и коэффициентом регулировки скорости предшествующего звукового кадра.

В соответствии с целевым фазовым сигналом, выполняется преобразование во временную область текущего звукового кадра, преобразованного в частотную область, для получения обработанного текущего звукового кадра.

В настоящей заявке предлагается устройство для обработки звуковых данных. Устройство содержит модуль получения информации, модуль преобразования в частотную область, модуль обработки звукового сигнала и модуль получения результата.

Модуль получения информации сконфигурирован для получения звуковых данных, подлежащих обработке, и коэффициента регулировки скорости по меньшей мере одного звукового кадра звуковых данных.

Модуль преобразования в частотную область сконфигурирован для последовательного использования по меньшей мере одного звукового кадра в качестве текущего звукового кадра, подлежащего обработке, и преобразования текущего звукового кадра в частотную область.

Модуль обработки звукового сигнала сконфигурирован для определения целевого фазового сигнала текущего звукового кадра в соответствии с коэффициентом регулировки скорости текущего звукового кадра и коэффициентом регулировки скорости предшествующего звукового кадра.

Модуль получения результата сконфигурирован для выполнения, в соответствии с целевым фазовым сигналом, преобразования во временную область текущего звукового кадра, преобразованного в частотную область, для получения обработанного текущего звукового кадра.

Согласно вариантам осуществления, представленным в настоящей заявке, предлагается также компьютерное устройство. Компьютерное устройство содержит один или более процессоров и запоминающее устройство.

Запоминающее устройство сконфигурировано для хранения одной или более программ.

При выполнении одной или более программ один или более процессоров осуществляют способ согласно вариантам осуществления, представленным в настоящей заявке.

В рамках вариантов осуществления, представленных в настоящей заявке, предлагается также машиночитаемый носитель информации, на котором хранится компьютерная программа. При выполнении компьютерной программы процессором осуществляется способ обработки звуковых данных согласно вариантам осуществления, представленным в настоящей заявке.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ

На фиг. 1 показан алгоритм выполнения способа обработки звуковых данных в соответствии с первым вариантом осуществления, представленным в настоящей заявке;

на фиг. 2 показана блок-схема формирования перекрывающихся кадров звуковых данных в соответствии с первым вариантом осуществления, представленным в настоящей заявке;

на фиг. 3 показан алгоритм выполнения способа обработки звуковых данных в соответствии со вторым вариантом осуществления, представленным в настоящей заявке;

на фиг. 4 показан алгоритм выполнения способа обработки звуковых данных в соответствии с третьим вариантом осуществления, представленным в настоящей заявке;

на фиг. 5 показана блок-схема реализации обработки звуковых данных в соответствии с третьим вариантом осуществления, представленным в настоящей заявке;

на фиг. 6 показана блок-схема структуры устройства для обработки звуковых данных в соответствии с четвертым вариантом осуществления, представленным в настоящей заявке; и

на фиг. 7 показана блок-схема аппаратной структуры компьютерного устройства в соответствии с четвертым вариантом осуществления, представленным в настоящей заявке.

ПОДРОБНОЕ ОПИСАНИЕ

Далее изобретение описывается совместно с чертежами и вариантами осуществления. Описываемые варианты осуществления предназначены только для разъяснения, но не для ограничения изобретения. Структуры или конфигурации, относящиеся к настоящей заявке, для простоты описания на чертежах изображены только частично, а не полностью.

Первый вариант осуществления

На фиг. 1 показан алгоритм выполнения способа обработки звуковых данных в соответствии с первым вариантом осуществления, представленным в настоящей заявке. Способ подходит для ситуации обработки с целью регулировки скорости звуковых данных, подлежащих воспроизведению с разными коэффициентами регулировки скорости. Способ может выполняться устройством для обработки звуковых данных, которое может быть реализовано программно и/или аппаратно и обычно интегрировано в компьютерное устройство.

В этом варианте осуществления компьютерное устройство может представлять собой интеллектуальный терминал с функцией записи или с функцией прямого вещания и с функцией сегментации видеосигнала. В этом варианте осуществления компьютерное устройство может представлять собой электронное устройство, такое как мобильный телефон, планшет и ноутбук.

Как показано на фиг. 1, способ обработки звуковых данных выполняется в соответствии с первым вариантом осуществления, представленным в настоящей заявке. Способ включает описываемые ниже операции.

На шаге S1010 выполняется получение звуковых данных, подлежащих обработке, и коэффициента регулировки скорости для по меньшей мере одного звукового кадра звуковых данных.

Согласно этому варианту осуществления, звуковые данные, подлежащие обработке, могут представлять собой звуковые данные, вводимые пользователем, которые требуется воспроизводить с регулируемыми скоростями, и эти звуковые данные могут являться речевыми данными, записанными пользователем посредством компьютерного устройства, или данными выбранного звукового файла. Перед вводом звуковых данных, подлежащих обработке, пользователь может указать коэффициент регулировки скорости для сегмента с регулируемой скоростью звуковых данных и может задать различные коэффициенты регулировки скорости для звуковых данных различных сегментов с регулируемой скоростью.

Посредством этого шага могут быть получены звуковые данные, подлежащие обработке, после указания пользователем коэффициента регулировки скорости. При этом единицами обработки звуковых данных, согласно этому варианту осуществления, являются кадры, и, таким образом, получение коэффициента регулировки скорости соответствует по меньшей мере одному звуковому кадру звуковых данных согласно коэффициенту регулировки скорости, указанному пользователем. Согласно варианту осуществления, полученные звуковые данные могут включаться в кадры с помощью процедуры формирования перекрывающихся кадров, и звуковой кадр, сформированный таким образом, содержит часть звуковых сигналов смежного звукового кадра. Согласно варианту осуществления, если звуковой кадр содержит звуковые сигналы с двумя коэффициентами регулировки скорости, то в этом варианте осуществления первый коэффициент регулировки скорости может использоваться как коэффициент регулировки скорости звукового кадра.

В соответствии со способом обработки звуковых данных, представленным в этом варианте осуществления, после получения звуковых данных, подлежащих обработке, способ также включает: выполнение формирования перекрывающихся кадров со второй длиной кадра из звуковых данных с использованием первой длины кадра в качестве сдвига кадра, для того чтобы получить по меньшей мере один звуковой кадр; и запись первого звукового сигнала с первой длиной кадра в каждом звуковом кадре из упомянутого по меньшей мере одного звукового кадра в качестве кадра временной области, соответствующего каждому звуковому кадру, и кэширование по меньшей мере одного кадра временной области, соответствующего по меньшей мере одному звуковому кадру, в заданную область кэширования.

Согласно этому варианту осуществления, после выполнения операции получения звуковых данных, подлежащих обработке, звуковые данные включают в кадры с помощью процедуры формирования перекрывающихся кадров. В этом варианте осуществления первая длина кадра устанавливается в качестве сдвига кадра при формировании перекрывающихся кадров, а вторая длина кадра используется как длина кадра при формировании перекрывающихся кадров, в результате чего выполняется получение по меньшей мере одного звукового кадра. Например, предположим, что первая длина кадра составляет 240 отсчетов звукового сигнала, а вторая длина кадра составляет 2048 отсчетов звукового сигнала, тогда это эквивалентно формированию звукового кадра длиной 2048 путем смещения каждый раз на 240 отсчетов звукового сигнала от первого отсчета звукового сигнала звуковых данных.

Каждый звуковой кадр, образуемый посредством формирования перекрывающихся кадров, эквивалентен включению в него множества звуковых сигналов с первой длиной кадра. Согласно этому варианту осуществления, первый звуковой сигнал с первой длиной кадра, включаемый в каждый звуковой кадр, может определяться как кадр временной области, соответствующий каждому звуковому кадру, и по меньшей мере один кадр временной области кэшируется в заданную область кэширования. Таким образом, звуковые данные кэшируются в заданную область кэширования в виде кадров временной области без перекрытия.

В примере, показанном на фиг. 2, показана блок-схема формирования кадров звуковых данных с перекрытием в соответствии с первым вариантом осуществления, представленным в настоящей заявке. Как показано на фиг. 2, после получения звуковых данных 21, подлежащих обработке, звуковые данные сначала могут включаться в кадр с первой длиной кадра, затем первая длина кадра используется в качестве сдвига 22 кадра, и выполняется получение по меньшей мере одного звукового кадра 23 со второй длиной кадра. В этом примере перекрывающиеся звуковые сигналы присутствуют в смежных звуковых кадрах, а первые звуковые сигналы с первой длиной кадра в множестве звуковых кадров 23 могут формировать полные звуковые данные. В этом варианте осуществления первый звуковой сигнал с первой длиной кадра в каждом звуковом кадре отмечается как кадр временной области, соответствующий каждому звуковому кадру.

На шаге S1020 по меньшей мере один звуковой кадр последовательно используется в качестве текущего звукового кадра, подлежащего обработке, и текущий звуковой кадр преобразуется в частотную область.

Обработка звуковых данных для регулировки скорости согласно этому варианту осуществления может представлять собой обработку для регулировки скорости по меньшей мере одного звукового кадра звуковых данных. Согласно варианту осуществления, звуковой кадр, подлежащий в настоящий момент обработке для регулировки скорости, записывается как текущий звуковой кадр, а смежный звуковой кадр, подлежащий обработке для регулировки скорости перед текущим звуковым кадром, записывается как предшествующий звуковой кадр. Кроме того, в этом варианте осуществления для звуковых данных используется обработка для регулировки скорости в фазовой области (то есть, в частотной области). Таким образом, на этом шаге вначале выполняется преобразование Фурье текущего звукового кадра для получения текущего звукового кадра, преобразованного в частотную область, и текущий звуковой кадр в частотной области может быть представлен амплитудным сигналом и фазовым сигналом.

На шаге S1030 целевой фазовый сигнал текущего звукового кадра определяется в соответствии с коэффициентом регулировки скорости текущего звукового кадра и коэффициентом регулировки скорости предшествующего звукового кадра.

Согласно этому варианту осуществления, целевой фазовый сигнал можно рассматривать как фазовый сигнал, получаемый после выполнения обработки для регулировки скорости текущего звукового сигнала для достижения настройки фазового сигнала, если текущий звуковой кадр воспроизводится с соответствующим коэффициентом регулировки скорости. Целевой фазовый сигнал может определяться на этом шаге различным образом, в соответствии с тем, совпадает ли коэффициент регулировки скорости текущего звукового кадра с коэффициентом регулировки скорости предшествующего звукового кадра или отличается от него.

Например, на этом шаге величина фазового сдвига, получаемая вследствие того факта, что коэффициент регулировки скорости текущего звукового кадра влияет на фазовый сигнал текущего звукового кадра, вначале определяется в соответствии с коэффициентом регулировки скорости текущего звукового кадра и коэффициентом регулировки скорости предшествующего звукового кадра. Таким образом, исходный фазовый сигнал, представляющий текущий звуковой кадр, настраивается по величине фазового сдвига. Если коэффициент регулировки скорости текущего звукового кадра совпадает с коэффициентом регулировки скорости предшествующего звукового кадра, фазовый сигнал после настройки исходного фазового сигнала текущего звукового кадра на основе величины фазового сдвига может непосредственно использоваться для представления целевого фазового сигнала текущего звукового кадра после регулировки скорости. Если коэффициент регулировки скорости текущего звукового кадра отличается от коэффициента регулировки скорости предшествующего звукового кадра, необходимо вначале определить фазовый сигнал компенсации с использованием фазового сигнала после настройки исходного фазового сигнала текущего звукового кадра на основе величины фазового сдвига и коэффициента регулировки скорости текущего звукового кадра, и окончательно целевой фазовый сигнал определяется посредством фазового сигнала компенсации и фазового сигнала после настройки исходного фазового сигнала текущего звукового кадра на основе величины фазового сдвига.

На шаге S1040 в соответствии с целевым фазовым сигналом выполняется преобразование во временную область текущего звукового кадра, преобразованного в частотную область, для получения обработанного текущего звукового кадра.

Согласно этому варианту осуществления, после определения целевого фазового сигнала на основе коэффициента регулировки скорости звукового кадра целевой фазовый сигнал может объединяться с исходным амплитудным сигналом текущего звукового кадра, чтобы получить обработанный текущий звуковой кадр во временной области с помощью обратного преобразования Фурье. Согласно этому варианту осуществления, после завершения обработки текущего звукового кадра процесс может возвращаться к шагу S1020 для использования следующего звукового кадра в качестве нового текущего звукового кадра, после чего снова выполняются операции S1020-S1040 для осуществления обработки для регулировки скорости следующего звукового кадра. Операции S1020-S1040 могут выполняться циклически, пока не завершится обработка для регулировки скорости последнего звукового кадра звуковых данных.

В соответствии с вариантом осуществления, представленным в настоящей заявке, вначале выполняется получение звуковых данных, подлежащих обработке, и коэффициента регулировки скорости по меньшей мере одного звукового кадра звуковых данных; затем по меньшей мере один звуковой кадр последовательно выбирается в качестве текущего звукового кадра, подлежащего обработке, и текущий звуковой кадр преобразуется в частотную область; затем определяется целевой фазовый сигнал текущего звукового кадра в соответствии с коэффициентом регулировки скорости текущего звукового кадра и коэффициентом регулировки скорости предшествующего звукового кадра; наконец, в соответствии с целевым фазовым сигналом выполняется преобразование во временную область текущего звукового кадра, преобразованного в частотную область, для получения обработанного текущего звукового кадра. С помощью этого способа выполняется обработка для регулировки скорости звуковых данных, характеризующихся различными коэффициентами регулировки скорости, в фазовой области, что не только обеспечивает согласованность звуковых данных после обработки с регулировкой скорости и исходных звуковых данных, в том что касается тональности и тембра, но также устраняет проблему, связанную с тем, что между смежными звуковыми кадрами звуковых данных с различными коэффициентами регулировки скорости возникает скачок фазы и амплитуды, и, таким образом, этот способ гарантирует целостность качества звука и обеспечивает требуемый эффект воспроизведения обработанных звуковых данных.

Второй вариант осуществления

На фиг. 3 показан алгоритм выполнения способа обработки звуковых данных в соответствии со вторым вариантом осуществления, представленным в настоящей заявке. Этот вариант осуществления, представленный в настоящей заявке, иллюстрируется на основе предшествующего варианта осуществления. Согласно этому варианту осуществления, шаг определения целевого фазового сигнала текущего звукового кадра в соответствии с коэффициентом регулировки скорости текущего звукового кадра и коэффициентом регулировки скорости предшествующего звукового кадра включает: получение потенциального фазового сигнала текущего звукового кадра в соответствии с коэффициентом регулировки скорости предшествующего звукового кадра; и в том случае, если коэффициент регулировки скорости текущего звукового кадра совпадает с коэффициентом регулировки скорости предшествующего звукового кадра, определение этого потенциального фазового сигнала в качестве целевого фазового сигнала текущего звукового кадра; а в том случае, если коэффициент регулировки скорости текущего звукового кадра отличается от коэффициента регулировки скорости предшествующего звукового кадра, определение фазового сигнала компенсации в соответствии с коэффициентом регулировки скорости текущего звукового кадра и потенциальным фазовым сигналом, определение целевого фазового сигнала текущего звукового кадра на основе фазового сигнала компенсации и обновление целевого фазового сигнала заданного количества звуковых кадров перед текущим звуковым кадром.

На фиг. 3 показан способ обработки звуковых данных в соответствии со вторым вариантом осуществления, представленным в настоящей заявке. Способ включает описываемые ниже операции.

На шаге S2010 выполняется получение звуковых данных, подлежащих обработке, и коэффициента регулировки скорости по меньшей мере одного звукового кадра звуковых данных.

На шаге S2020 по меньшей мере один звуковой кадр последовательно используется в качестве текущего звукового кадра, подлежащего обработке, и текущий звуковой кадр преобразуется в частотную область.

Шаги S2010 и S2020 этого варианта осуществления были соответственно разъяснены при описании первого варианта осуществления, и далее они повторно не описываются.

На шаге S2030 выполняется получение потенциального фазового сигнала текущего звукового кадра в соответствии с коэффициентом регулировки скорости предшествующего звукового кадра.

Когда выполняется обработка в фазовой области для регулировки скорости звуковых данных, подлежащих воспроизведению с регулируемыми скоростями, в основном принимается во внимание воздействие коэффициента регулировки скорости на исходный фазовый сигнал звуковых данных в частотной области. Для звуковых данных с различными коэффициентами регулировки скорости, если текущий звуковой кадр обрабатывается для регулировки скорости, исходный фазовый сигнал текущего звукового кадра может вначале настраиваться в соответствии с коэффициентом регулировки скорости предшествующего звукового кадра, и фазовый сигнал, получаемый после этой настройки, определяется как потенциальный фазовый сигнал текущего звукового кадра. Согласно варианту осуществления, величина фазового сдвига, требуемая для настройки, вначале может определяться в соответствии с коэффициентом регулировки скорости предшествующего звукового кадра и формулой вычисления величины фазового сдвига, а затем исходный фазовый сигнал текущего звукового кадра настраивается на основе этой величины фазового сдвига, в результате чего получают настроенный потенциальный фазовый сигнал текущего звукового кадра.

На шаге S2040 определяется, совпадает ли коэффициент регулировки скорости текущего звукового кадра с коэффициентом регулировки скорости предшествующего звукового кадра, и если это так, выполняется шаг S2050; а если коэффициент регулировки скорости текущего звукового кадра отличается от коэффициента регулировки скорости предшествующего звукового кадра, выполняется шаг S2060.

В целом, определение потенциального фазового сигнала эквивалентно выполнению обработки для регулировки скорости в фазовой области, когда коэффициент регулировки скорости постоянен. Этот вариант осуществления, главным образом, решает проблему низкого качества обработки для регулировки скорости при изменении коэффициента регулировки скорости. Таким образом, после определения потенциального фазового сигнала в этом варианте осуществления выполняется определение, на основе этого шага, изменился ли коэффициент регулировки скорости текущего звукового кадра по сравнению с коэффициентом регулировки скорости предшествующего звукового кадра, и, в соответствии с результатом определения, выполняется последующая обработка.

На шаге S2050 потенциальный фазовый сигнал определяется в качестве целевого фазового сигнала текущего звукового кадра.

Согласно варианту осуществления, если в результате определения, выполняемого на шаге S2040, определяется, что коэффициент регулировки скорости текущего звукового кадра совпадает с коэффициентом регулировки скорости предшествующего звукового кадра, то в качестве целевого фазового сигнала текущего звукового кадра может непосредственно использоваться потенциальный фазовый сигнал, который был определен. Целевой фазовый сигнал можно рассматривать как фазовый сигнал, получаемый после обработки для регулировки скорости исходного фазового сигнала текущего звукового кадра в фазовой области.

На шаге S2060 определяется фазовый сигнал компенсации в соответствии с коэффициентом регулировки скорости текущего звукового кадра и потенциальным фазовым сигналом.

В этом варианте осуществления, если коэффициент регулировки скорости текущего звукового кадра отличается от коэффициента регулировки скорости предшествующего звукового кадра, то это означает, что потенциальный фазовый сигнал, который был определен, не может непосредственно использоваться как обработанный целевой фазовый сигнал, и в этом случае также требуется определять фазовый сигнал компенсации на основе коэффициента регулировки скорости текущего звукового кадра и потенциального фазового сигнала, который был определен, чтобы выполнить настройку исходного фазового сигнала текущего звукового кадра посредством фазового сигнала компенсации и потенциального фазового сигнала.

Теоретически, для получения целевого фазового сигнала, соответствующего коэффициенту регулировки скорости текущего звукового кадра, целевой фазовый сигнал текущего звукового кадра может определяться непосредственно на основе коэффициента регулировки скорости текущего звукового кадра совместно с соответствующей информацией предшествующего звукового кадра, такой как исходный фазовый сигнал предшествующего звукового кадра и обработанный целевой фазовый сигнал предшествующего звукового кадра. Однако на практике для обеспечения точности различных целевых фазовых сигналов звукового кадра, полученных, когда коэффициенты изменения скорости различны, в этом варианте осуществления потенциальные фазовые сигналы заданного количества звуковых кадров перед текущим звуковым кадром повторно определяют с использованием коэффициента регулировки скорости текущего звукового кадра. Затем выполняется получение фазового сигнала компенсации на основе потенциального фазового сигнала, повторно определенного на предыдущем шаге. Наконец, с помощью полученного фазового сигнала компенсации определяется целевой фазовый сигнал текущего звукового кадра.

После первоначального получения звуковых данных также выполняется операция кэширования кадра временной области, соответствующего звуковому кадру, в заданную область кэширования, когда по меньшей мере один звуковой кадр получен после формирования перекрывающихся кадров на основе звуковых данных. Цель такой операции состоит в кэшировании исходных звуковых данных перед обработкой звуковых данных, чтобы звуковые данные использовались, когда это необходимо, при обработке.

После установки заданной области для кэширования кадра временной области звукового кадра, в этом варианте осуществления рассматривается использование исходных звуковых данных, кэшированных в заданной области кэширования, для определения фазового сигнала компенсации. Согласно варианту осуществления, шаг определения фазового сигнала компенсации в соответствии с коэффициентом регулировки скорости текущего звукового кадра и потенциальным фазовым сигналом включает: получение, из заданной области кэширования, текущего кадра во временной области, соответствующего текущему звуковому кадру, и заданного количества предыдущих кадров временной области перед текущим кадром временной области; последовательное определение, на основе коэффициента регулировки скорости текущего звукового кадра, новых потенциальных фазовых сигналов звуковых кадров, соответствующих заданному количеству предыдущих кадров временной области, и нового потенциального фазового сигнала звукового кадра, соответствующего текущему кадру временной области; и определение разности между новым потенциальным фазовым сигналом, соответствующим текущему звуковому кадру, и потенциальным фазовым сигналом в качестве фазового сигнала компенсации.

Что касается предшествующих шагов этого варианта осуществления, текущий кадр временной области, соответствующий текущему звуковому кадру, вначале получают из заданной области кэширования, и одновременно выполняется получение заданного количества предыдущих кадров временной области перед текущим кадром временной области. Согласно варианту осуществления, заданное количество кадров следует задавать таким образом, чтобы длина всех полученных кадров временной области по меньшей мере равнялась длине одного звукового кадра. Например, предположим, что длина звукового кадра составляет 2048, и длина одного кадра временной области составляет 240, тогда 2048 / 240 = 8,53. В этом случае заданное количество кадров может быть задано равным 9 для обеспечения общей длины выбранных кадров временной области по меньшей мере равной длине звукового кадра. В этом варианте осуществления после получения текущего кадра временной области и заданного количества предыдущих кадров временной области последовательно определяют новые потенциальные фазовые сигналы звуковых кадров в соответствии с заданным количеством предыдущих кадров временной области и текущим кадром временной области от начала к концу, начиная с первого из предыдущих кадров временной области.

Например, операция определения нового потенциального фазового сигнала может быть описана следующим образом. Предположим, что текущий кадр временной области является i-м кадром и заданное количество кадров составляет 9, тогда звуковой кадр второй длины кадра формируется, начиная с (i - 9)-го кадра временной области. Этот (i - 9)-й кадр временной области является первым кадром первой длины кадра в звуковом кадре, и звуковой кадр может записываться как (i - 9)-й звуковой кадр. Для (i - 9)-го звукового кадра может применяться шаг S2030. Текущий звуковой кадр на шаге S2030 рассматривается как (i - 9)-й звуковой кадр. Коэффициент регулировки скорости предшествующего звукового кадра заменяется коэффициентом регулировки скорости звукового кадра, соответствующего i-му кадру временной области (текущий кадр временной области), для определения нового потенциального фазового сигнала (i - 9)-го звукового кадра. Когда новый потенциальный фазовый сигнал (i - 9)-го звукового кадра определен, другая требуемая релевантная информация предшествующего звукового кадра фактически является релевантной информацией (i - 10)-го звукового кадра. Затем, таким же образом, как определялся потенциальный фазовый сигнал (i -9)-го звукового кадра, определяется новый потенциальный фазовый сигнал (i - 8)-го звукового кадра (предшествующим звуковым кадром является (i - 9)-й звуковой кадр, новый потенциальный фазовый сигнал (i - 9)-го звукового кадра может использоваться как требуемый целевой фазовый сигнал предшествующего звукового кадра, и коэффициент регулировки скорости звукового кадра, соответствующего i-му кадру временной области, может использоваться в качестве требуемого коэффициента регулировки скорости предшествующего звукового кадра в процессе выполнения). Итерация в обратном направлении выполняется последовательно до тех пор, пока не определяется новый потенциальный фазовый сигнал i-го звукового кадра (эквивалентного звуковому кадру, соответствующему текущему кадру временной области).

После определения на основе предшествующей операции нового потенциального фазового сигнала текущего звукового кадра, соответствующего текущему кадру временной области, в качестве фазового сигнала компенсации может определяться разность между новым потенциальным фазовым сигналом и ранее определенным потенциальным фазовым сигналом.

На шаге S2070 определяется целевой фазовый сигнал текущего звукового кадра на основе фазового сигнала компенсации, и целевой фазовый сигнал заданного количества звуковых кадров перед текущим звуковым кадром обновляется.

В этом варианте осуществления, после определения нового потенциального фазового сигнала текущего звукового кадра может определяться фазовый сигнал компенсации, и осуществляется настройка нового потенциального фазового сигнала (например, два сигнала складываются) на основе фазового сигнала компенсации для получения целевого фазового сигнала текущего звукового кадра.

Когда определяется новый потенциальный фазовый сигнал текущего звукового кадра, также пересчитываются потенциальные фазовые сигналы заданного количества звуковых кадров перед текущим звуковым кадром. Таким образом, целевые фазовые сигналы заданного количества звуковых кадров могут обновляться на основе фазового сигнала компенсации и новых потенциальных фазовых сигналов заданного количества звуковых кадров перед текущим звуковым кадром для получения новых целевых фазовых сигналов заданного количества звуковых кадров.

Согласно варианту осуществления, шаг определения целевого фазового сигнала текущего звукового кадра на основе фазового сигнала компенсации и обновления целевого фазового сигнала заданного количества звуковых кадров перед текущим звуковым кадром включает: определение суммы нового потенциального фазового сигнала текущего звукового кадра и фазового сигнала компенсации в качестве целевого фазового сигнала текущего звукового кадра; и определение сумм новых потенциальных фазовых сигналов звуковых кадров, соответствующих заданному количеству предыдущих кадров временной области и фазовому сигналу компенсации, в качестве новых целевых фазовых сигналов заданного количества звуковых кадров перед текущим звуковым кадром, соответственно.

В этом варианте осуществления может вычисляться сумма фазового сигнала компенсации и нового потенциального фазового сигнала текущего звукового кадра, и вычисленная сумма фазового сигнала компенсации и нового потенциального фазового сигнала текущего звукового кадра используется в качестве целевого фазового сигнала текущего звукового кадра. Кроме того, заданное количество звуковых кадров перед текущим звуковым кадром фактически эквивалентно звуковым кадрам, соответствующим заданному количеству предыдущих кадров временной области. Возможно также получить новые потенциальные фазовые сигналы для заданного количества звуковых кадров. Затем суммы новых потенциальных фазовых сигналов заданного количества звуковых кадров и фазового сигнала компенсации определяют в качестве новых целевых фазовых сигналов соответствующих звуковых кадров, для того чтобы выполнить обновление целевых фазовых сигналов заданного количества звуковых кадров.

На шаге S2080 в соответствии с целевым фазовым сигналом выполняется преобразование во временную область текущего звукового кадра, преобразованного в частотную область, для получения обработанного текущего звукового кадра. В целом, в рамках варианта осуществления, представленного в настоящей заявке, описывается процесс выполнения обработки для регулировки скорости в отношении текущего звукового кадра в фазовой области для получения целевого фазового сигнала при изменениях коэффициента регулировки скорости. Согласно этому варианту осуществления, в процессе обработки учитывается влияние изменений коэффициентов регулировки скорости различных звуковых кадров звуковых данных на целевой фазовый сигнал, сформированный при обработке для регулировки скорости, благодаря чему обеспечивается согласованность звуковых данных, полученных в результате обработки для регулировки скорости, и исходных звуковых данных в том что касается тональности и тембра, устраняется проблема, связанная с тем, что возникает скачок фазы и амплитуды между смежными звуковыми кадрами в звуковых данных с различными коэффициентами регулировки скорости, и, таким образом, гарантируется целостность качества звука обработанных звуковых данных и улучшается пользовательский опыт.

На основе предшествующего шага также предлагается способ обработки звуковых данных в соответствии со вторым вариантом осуществления настоящего изобретения и описывается предшествующий шаг S2030. Способ включает: определение величины фазового сдвига текущего звукового кадра в соответствии с коэффициентом регулировки скорости предшествующего звукового кадра, исходным фазовым сигналом предшествующего звукового кадра и целевым фазовым сигналом предшествующего звукового кадра; и определение потенциального фазового сигнала текущего звукового кадра в соответствии с величиной фазового сдвига и исходным фазовым сигналом текущего звукового кадра.

В этом варианте осуществления величина фазового сдвига, требуемая для настройки исходного фазового сигнала, может определяться формулой вычисления величины фазового сдвига. Когда величина фазового сдвига вычисляется по формуле вычисления величины фазового сдвига, в состав требуемой известной информации входит коэффициент регулировки скорости предшествующего звукового кадра, исходный фазовый сигнал, если предшествующий звуковой кадр преобразуется в частотную область, и целевой фазовый сигнал, полученный после обработки для регулировки скорости предшествующего звукового кадра и исходного фазового сигнала текущего звукового кадра.

Согласно варианту осуществления, шаг определения величины фазового сдвига текущего звукового кадра в соответствии с коэффициентом регулировки скорости предшествующего звукового кадра, исходным фазовым сигналом предшествующего звукового кадра и целевым фазовым сигналом предшествующего звукового кадра включает: определение разности фаз между текущим звуковым кадром и предшествующим звуковым кадром в соответствии со следующей формулой вычисления разницы фаз: Δi = ζ +[ϕi - ϕi-1 - ζ], исходным фазовым сигналом текущего звукового кадра и исходным фазовым сигналом предшествующего звукового кадра; и определение величины фазового сдвига текущего звукового кадра в соответствии со следующей формулой вычисления величины фазового сдвига: θi = [ψi-1 + ri-1Δi - ϕi], целевым фазовым сигналом предшествующего звукового кадра, коэффициентом регулировки скорости предшествующего звукового кадра, исходным фазовым сигналом текущего звукового кадра и разностью фаз между текущим звуковым кадром и предшествующим звуковым кадром. Здесь θi обозначает величину фазового сдвига i-го звукового кадра, Δi обозначает разность фаз между i-м звуковым кадром и (i - 1)-м звуковым кадром, ϕi обозначает исходный фазовый сигнал i-го звукового кадра, фi-1 обозначает исходный фазовый сигнал (i - 1)-го звукового кадра, ζ обозначает заданную константу компенсации фазы, ψi-1 обозначает целевой фазовый сигнал (i - 1)-го звукового кадра, ri-1 обозначает коэффициент регулировки скорости (i - 1)-го звукового кадра, и [.] обозначает "по модулю 2π".

Согласно варианту осуществления, когда вычисляется величина фазового сдвига текущего звукового кадра, вначале требуется вычислить разность фаз между текущим звуковым кадром и предшествующим звуковым кадром в соответствии с формулой вычисления разности фаз. При вычислении разности фаз требуемыми известными величинами являются исходный фазовый сигнал текущего звукового кадра, исходный фазовый сигнал предшествующего звукового кадра и константа компенсации фазы, устанавливаемая опытным путем. После определения разности фаз может определяться величина фазового сдвига текущего звукового кадра в соответствии с формулой вычисления величины фазового сдвига. При вычислении величины фазового сдвига требуемыми известными величинами являются целевой фазовый сигнал, полученный после обработки предшествующего звукового кадра, коэффициент регулировки скорости предшествующего звукового кадра, исходный фазовый сигнал текущего звукового кадра и ранее определенная разность фаз.

Настройка фазового сигнала по меньшей мере одного звукового кадра звуковых данных эквивалентна итерационному процессу обработки, для выполнения которого требуется коэффициент регулировки скорости предшествующего звукового кадра и определенная информация о фазовом сигнале; затем сумма исходного фазового сигнала текущего звукового кадра и определенная величина фазового сдвига могут использоваться в качестве настроенного потенциального фазового сигнала.

Согласно варианту осуществления, шаг определения потенциального фазового сигнала текущего звукового кадра в соответствии с величиной фазового сдвига и исходным фазовым сигналом текущего звукового кадра включает: 1) получение амплитудного сигнала текущего звукового кадра и определение множества амплитудных меток, соответствующих множеству точек пиков в амплитудном сигнале; 2) определение величины пикового фазового сдвига текущего звукового кадра в соответствии с величиной фазового сдвига текущего звукового кадра и амплитудной меткой, соответствующей каждой точке пика; и 3) определение суммы исходного фазового сигнала текущего звукового кадра и величины пикового фазового сдвига в качестве потенциального фазового сигнала текущего звукового кадра.

Предшествующие шаги этого варианта осуществления позволяют выполнить процесс определения потенциального фазового сигнала текущего звукового кадра. Потенциальный фазовый сигнал требуется определять с использованием величины фазового сдвига, полученной до этого в рамках этого варианта осуществления. Согласно варианту осуществления, для обеспечения качества воспроизводимого звука звукового кадра после обработки с регулировкой скорости сначала рассматривается настройка величины фазового сдвига, способ выполнения которой приведен в указанных выше шагах 1) и 2).

Что касается шага 1), в этом варианте осуществления амплитудный сигнал может быть получен непосредственно после преобразования текущего звукового кадра в частотную область. Полученный амплитудный сигнал фактически эквивалентен вектору, длина которого составляет половину длины текущего звукового кадра. В этом варианте осуществления множество пиков амплитудного сигнала может извлекаться путем последовательного прохождения множества амплитудных значений амплитудного сигнала, и могут определяться амплитудные метки, соответствующие каждой точке пика.

Что касается шага 2), в этом варианте осуществления k используется для обозначения амплитудной метки для значения амплитуды в амплитудном сигнале, соответствующем текущему звуковому кадру, k ∈ [1, m], где m составляет половину длины звукового кадра; Pj используется для обозначения амплитудной метки пика амплитудного сигнала, при этом j ∈ [1, m), амплитудная метка по меньшей мере одного пика амплитудного сигнала может быть пройдена от k = 1, и амплитудная метка Jj (k) пика, ближайшего к k, может определяться формулой Jj (k) = argmPj |k - Pj|. Кроме того, величина фазового сдвига фактически эквивалентна вектору фазового сдвига с той же длиной, что и фазовый сигнал. Величина фазового сдвига также соответствует амплитудному сигналу звукового кадра, что эквивалентно тому, что амплитудная метка в амплитудном сигнале соответствует значению вектора в величине фазового сдвига.

Например, *a обозначает значение вектора, соответствующее амплитудной метке "а" в величине фазового сдвига; таким образом, для амплитудной метки к, после определения амплитудной метки Jj (k), ближайшей к пику, значение θJj(k) вектора, соответствующее Jj (k), может быть использовано для замены значения θk вектора, в настоящий момент соответствующее k, в результате чего формируется величина пикового фазового сдвига текущего звукового кадра.

Что касается предшествующего шага 3), для того чтобы лучшим образом сохранить качество звука после обработки с регулировкой скорости, в варианте осуществления используется точка пика в амплитудном сигнале звукового кадра для настройки величины фазового сдвига, а затем определяется сумма оптимизированной величины фазового сдвига и исходного фазового сигнала в качестве настроенного потенциального фазового сигнала. Таким образом, гарантируется целостность качества звука обработанных звуковых данных, и в большей степени обеспечивается требуемый эффект обработки звуковых данных с различными коэффициентами регулировки скорости.

Третий вариант осуществления

На фиг. 4 показан алгоритм выполнения способа обработки звуковых данных в соответствии с третьим вариантом осуществления, представленным в настоящей заявке. Третий вариант осуществления, представленный в настоящей заявке, описывается на основе предшествующих вариантов осуществления. В рамках предшествующих вариантов осуществления, представленных в настоящей заявке, выполняется определение целевого фазового сигнала по меньшей мере одного звукового кадра звукового сигнала и преобразование во временную область на основе целевого фазового сигнала для окончательного получения обработанного звукового кадра. На этой основе в третий вариант осуществления, представленный в настоящей заявке, также добавлен шаг формирования звуковых данных с регулируемой скоростью на основе обработанного звукового кадра. Добавляемый шаг заключается в выполнении обработки методом окна и суммирования обработанного текущего звукового кадра и предшествующих звуковых данных с регулируемой скоростью, соответствующих предшествующему звуковому кадру, для получения текущих звуковых данных с регулируемой скоростью для обработанного текущего звукового кадра.

Кроме того, в этот вариант осуществления также добавлен шаг выполнения сглаживающей обработки текущих звуковых данных с регулируемой скоростью для получения сглаженных звуковых данных с регулируемой скоростью.

На фиг. 4 показан способ обработки звуковых данных в соответствии с третьим вариантом осуществления, представленным в настоящей заявке. Способ включает описываемые ниже операции.

На шаге S3010 выполняется получение звуковых данных, подлежащих обработке, и коэффициента регулировки скорости по меньшей мере одного звукового кадра звуковых данных.

На шаге S3020 по меньшей мере один звуковой кадр последовательно используется в качестве текущего звукового кадра, подлежащего обработке, и текущий звуковой кадр преобразуется в частотную область.

На шаге S3030 целевой фазовый сигнал текущего звукового кадра определяется в соответствии с коэффициентом регулировки скорости текущего звукового кадра и коэффициентом регулировки скорости предшествующего звукового кадра.

На шаге S3040 в соответствии с целевым фазовым сигналом выполняется преобразование во временную область текущего звукового кадра, преобразованного в частотную область, для получения обработанного текущего звукового кадра.

Реализация шагов S3010-S3040 этого варианта осуществления описана при описании первого и второго вариантов осуществления. Повторное описание этих шагов далее не приводится.

На шаге S3050 выполняется обработка методом окна и суммирования в отношении обработанного текущего звукового кадра и предшествующих звуковых данных с регулируемой скоростью, соответствующих предшествующему звуковому кадру, для получения текущих звуковых данных с регулируемой скоростью для обработанного текущего звукового кадра.

Согласно варианту осуществления, этот шаг может выполняться каждый раз после получения обработанного звукового кадра. То есть, обработка методом окна и суммирования может выполняться для обработанного текущего звукового кадра и предшествующих звуковых данных с регулируемой скоростью, соответствующих предшествующему звуковому кадру, для получения соответствующих текущих звуковых данных с регулируемой скоростью. Если текущий звуковой кадр является последним звуковым кадром, сформированные текущие звуковые данные с регулируемой скоростью могут использоваться как звуковые данные, подлежащие последующему воспроизведению.

Например, получение звуковых данных с регулируемой скоростью можно описать следующим образом: для первого звукового кадра соответствующие звуковые данные с регулируемой скоростью являются первым звуковым кадром после обработки непосредственно первого звукового кадра; для второго звукового кадра обработанный второй звуковой кадр и предшествующие звуковые данные с регулируемой скоростью (обработанный первый звуковой кадр) могут подлежать обработке методом окна и суммирования для получения звуковых данных с регулируемой скоростью, соответствующих второму звуковому кадру; и далее для третьего и последующих звуковых кадров соответствующие звуковые данные с регулируемой скоростью могут быть получены итерационно описанным выше способом, пока не будет обработан последний звуковой кадр. Таким образом, итерационно выполняется получение текущих звуковых данных с регулируемой скоростью посредством обработки методом окна и суммирования обработанного текущего звукового кадра и предшествующих звуковых данных с регулируемой скоростью.

Для текущего звукового кадра, перед обработкой текущего звукового кадра, предшествующий звуковой кадр обрабатывается для регулировки скорости, то есть выполняется получение соответствующего обработанного звукового кадра. Предполагается, что коэффициент регулировки скорости отличается от предшествующего коэффициента регулировки скорости в процессе обработки текущего звукового кадра. При этом требуется обновить целевые фазовые сигналы заданного количества звуковых кадров перед текущим звуковым кадром, что также эквивалентно повторному определению обработанных звуковых кадров заданного количества звуковых кадров в соответствии с новым целевым фазовым сигналом. Кроме того, если далее выполняется обработка звуковых кадров методом окна и суммирования, требуется использовать заново обработанные звуковые кадры для формирования новых соответствующих звуковых данных с регулируемой скоростью.

На этом шаге процесс выполнения оконного суммирования для звуковых кадров эквивалентен процессу объединения звуковых кадров для формирования фрагмента звуковых данных. Поскольку изначально используется формирование перекрывающихся кадров, применение в это время обработки методом окна и суммирования эквивалентно объединению множества звуковых кадров с заданным сдвигом кадров, в результате чего гарантируется отсутствие дублирования звукового сигнала в сформированных звуковых данных. Сдвиг кадров может устанавливаться в соответствии со сдвигом кадров в процессе формирования кадров, и в общем случае он устанавливается как произведение сдвига кадров в процессе формирования кадров и коэффициента регулировки скорости текущего звукового кадра. На шаге S3060 выполняется сглаживающая обработка текущих звуковых данных с регулируемой скоростью для получения сглаженных звуковых данных с регулируемой скоростью.

В этом варианте осуществления, когда определен потенциальный фазовый сигнал, используется настроенная величина пикового фазового сдвига, и это может привести к наличию фазовой связи между двумя смежными кадрами при объединении звуковых кадров для получения более сложной структуры. Кроме того, если коэффициент регулировки скорости текущего звукового кадра отличается от коэффициента регулировки скорости предшествующего звукового кадра, то для двух соответствующих звуковых кадров при изменении коэффициента регулировки скорости все еще будет существовать небольшая проблема, связанная с перекрытием, после выполнения фазовой компенсации на основе определенного фазового сигнала компенсации. Таким образом, в этом варианте осуществления применяется данный шаг выполнения сглаживающей обработки полученных текущих звуковых данных с регулируемой скоростью. Согласно этому варианту осуществления, для выполнения сглаживающей обработки сегмента сигнала, подлежащего сглаживанию, применяется функция четвертой степени, чтобы устранить проблему перекрытия после выполнения обработки методом окна и суммирования звуковых кадров, соответствующих различным коэффициентам регулировки скорости.

Согласно варианту осуществления, представленному в настоящей заявке, шаг выполнения сглаживающей обработки текущих звуковых данных с регулируемой скоростью для получения сглаженных звуковых данных с регулируемой скоростью включает: определение начальной и конечной позиций сегмента сигнала, подлежащего сглаживанию, в текущих звуковых данных с регулируемой скоростью; определение, в соответствии с заданной формулой вычисления функции четвертой степени, значения уровня целевого сигнала и первой производной в начальной позиции и значения уровня целевого сигнала и первой производной в конечной позиции; и формирование сглаженной кривой на основе значения уровня целевого сигнала и первой производной в начальной позиции и значения уровня целевого сигнала и первой производной в конечной позиции, и использование сглаженной кривой для замены сегмента сигнала, подлежащего сглаживанию, с целью получения сглаженных звуковых данных с регулируемой скоростью для текущих звуковых данных с регулируемой скоростью.

Согласно этому варианту осуществления, текущие звуковые данные с регулируемой скоростью могут быть эквивалентны комбинации обработанного текущего звукового кадра и предшествующих звуковых данных с регулируемой скоростью, соответствующих обработанному предшествующему звуковому кадру. Таким образом, для объединенной части текущего звукового кадра и предшествующих звуковых данных с регулируемой скоростью характерна проблема, связанная с перекрытием. Следовательно, в этом варианте осуществления рассматривается определение сегмента сигнала, подлежащего сглаживанию, в объединенной части текущего звукового кадра и предшествующих звуковых данных с регулируемой скоростью. Последние два отсчета сигнала в обработанном предшествующем звуковом кадре могут использоваться как начальная позиция сегмента сигнала, подлежащего сглаживанию. Затем один из первых максимальных отсчетов или первых минимальных отсчетов выбирается из обработанного текущего звукового кадра в качестве конечной позиции сегмента сигнала, подлежащего сглаживанию. Принцип выбора первого максимального отсчета или первого минимального отсчета может заключаться в достижении меньшей скорости изменения градиента полученной сглаженной кривой.

После определения начальной и конечной позиций сегмента сигнала, подлежащего сглаживанию, могут определяться значение уровня целевого сигнала и соответствующая первая производная в начальной позиции и значение уровня целевого сигнала и соответствующая первая производная в конечной позиции в соответствии с заданной формулой вычисления функции четвертой степени. Затем сглаженная кривая может определяться на основе определенных значений уровня сигнала и первых производных. Согласно этому варианту осуществления, предполагается, что сглаженная кривая должна использоваться для замены сегмента сигнала, подлежащего сглаживанию, чтобы получить сглаженные звуковые данные с регулируемой скоростью из текущих звуковых данных с регулируемой скоростью.

В целом, согласно предшествующим вариантам осуществления, представленным в настоящей заявке, обработанные звуковые кадры временной области формируют воспроизводимые звуковые данные с регулируемой скоростью после обработки и сглаживания звуковых данных с регулируемой скоростью, что позволяет лучшим образом решить проблему, связанную с тем, что при обработке звуковых данных с регулировкой скорости возникает скачок фазы и амплитуды между смежными звуковыми кадрами, обеспечить согласованность обработанных звуковых данных и исходных звуковых данных, в том что касается тональности и тембра, гарантировать целостность качества звука и, таким образом, обеспечить требуемый эффект воспроизведения обработанных звуковых данных.

В качестве примера, в совокупности с первым и вторым вариантами осуществления, для этого варианта осуществления также предоставляется подробное описание обработки звуковых данных для регулировки скорости. На фиг. 5 показана блок-схема реализации обработки звуковых данных в соответствии с вариантом осуществления, представленным в настоящей заявке. Как показано на фиг.5, процесс реализации обработки звуковых данных для регулировки скорости в целом описывается следующим образом. Процесс включает описанные ниже шаги. На шаге S10 выполняется получение звуковых данных, подлежащих обработке. На шаге S20 выполняется формирование перекрывающихся кадров для получения коэффициента регулировки скорости, соответствующего по меньшей мере одному звуковому кадру. На шаге S30 в заданной области кэширования выполняется кэширование кадра временной области, соответствующего по меньшей мере одному звуковому кА дру. На шаге S40 звуковой кадр, подлежащий в текущий момент обработке, выбирается в качестве текущего звукового кадра, выполняется преобразование в частотную область, и последующие операции выполняются, пока текущий звуковой кадр не окажется последним звуковым кадром. На шаге S50 определяется потенциальный фазовый сигнал текущего звукового кадра. На шаге S60 определяется коэффициент регулировки скорости; шаг S70 выполняется, если коэффициент регулировки скорости предшествующего звукового кадра совпадает с коэффициентом регулировки скорости текущего звукового кадра, и шаг S80 выполняется, если коэффициент регулировки скорости предшествующего звукового кадра отличается от коэффициента регулировки скорости текущего звукового кадра. На шаге S70 потенциальный фазовый сигнал используется в качестве целевого фазового сигнала текущего звукового кадра. На шаге S80 определяется фазовый сигнал компенсации в комбинации с кадром временной области, кэшированным на шаге S20. На шаге S90 выполняется получение целевого фазового сигнала текущего звукового кадра после компенсации на основе фазового сигнала компенсации. В то же время на шаге S100 выполняется получение новых целевых фазовых сигналов для заданного количества предшествующих кадров на основе фазового сигнала компенсации. За шагами S70 и S90 следует шаг S110, на котором выполняется получение обработанного текущего звукового кадра во временной области из целевого фазового сигнала. За шагом S100 следует шаг S120, на котором выполняется получение обработанного заданного количества звуковых кадров во временной области из новых целевых фазовых сигналов, соответствующих заданному количеству звуковых кадров, и определяются коэффициенты регулировки скорости звуковых данных, соответствующие заданному количеству звуковых кадров. За шагом S120 следует шаг S130, на котором выполняется получение предшествующих звуковых данных с регулируемой скоростью, соответствующих предшествующему звуковому кадру текущего звукового кадра. Шаг S110 объединяется с шагом S130 в виде информации для выполнения шага S140. На шаге S140 выполняется обработка методом окна и суммирования предшествующих звуковых данных с регулируемой скоростью и текущего звукового кадра для получения текущих звуковых данных с регулируемой скоростью. Наконец, на шаге S150 выполняется сглаживание текущих звуковых данных с регулируемой скоростью для получения сглаженных текущих звуковых данных с регулируемой скоростью. После выполнения шага S150 процесс может вернуться к шагу S40 для повторного выполнения, пока выбранный текущий звуковой кадр не окажется последним звуковым кадром.

Согласно варианту осуществления, шаги S100 или S120 могут не выполняться после шага S80, то есть в этом случае новые целевые фазовые сигналы заданного количества кадров перед текущим звуковым кадром не обновляются, и получение соответствующих звуковых данных с регулируемой скоростью выполняется на шаге S130 в соответствии с предшествующим звуковым кадром текущего звукового кадра, который не обновляется.

Для простоты описания варианты осуществления способа изложены в виде последовательности комбинаций действий. Однако специалисты в этой области техники должны понимать, что варианты осуществления, представленные в этой заявке, не ограничены описанными последовательностями действий, и в соответствии с вариантами осуществления некоторые шаги могут выполняться в другой последовательности или параллельно.

Четвертый вариант осуществления

На фиг. 6 показана блок-схема структуры устройства для обработки звуковых данных в соответствии с четвертым вариантом осуществления, представленным в настоящей заявке. Устройство подходит для ситуации обработки для регулировки скорости звуковых данных, подлежащих воспроизведению с разными коэффициентами регулировки скорости. Устройство может быть реализовано с помощью программного и/или аппаратного обеспечения и обычно интегрируется в компьютерное устройство. Как показано на фиг.6, устройство содержит модуль 61 получения информации, модуль 62 преобразования в частотную область, модуль 63 обработки звукового сигнала и модуль 64 получения результата.

Модуль 61 получения информации сконфигурирован для получения звуковых данных, подлежащих обработке, и коэффициента регулировки скорости по меньшей мере одного звукового кадра звуковых данных.

Модуль 62 преобразования в частотную область сконфигурирован для последовательного использования по меньшей мере одного звукового кадра в качестве текущего звукового кадра, подлежащего обработке, и преобразования текущего звукового кадра в частотную область.

Модуль 63 обработки звукового сигнала сконфигурирован для определения целевого фазового сигнала текущего звукового кадра в соответствии с коэффициентом регулировки скорости текущего звукового кадра и коэффициентом регулировки скорости предшествующего звукового кадра.

Модуль 64 получения результата сконфигурирован для выполнения, в соответствии с целевым фазовым сигналом, преобразования во временную область текущего звукового кадра, преобразованного в частотную область, для получения обработанного текущего звукового кадра.

На фиг. 7 показана блок-схема аппаратной структуры компьютерного устройства в соответствии с вариантом осуществления, представленным в настоящей заявке. Компьютерное устройство включает процессор и память. В памяти хранится по меньшей мере одна инструкция, исполняемая процессором таким образом, чтобы компьютерное устройство выполняло способ обработки данных, описанный выше в рамках вариантов осуществления способа.

Как показано на фиг.7, компьютерное устройство может содержать процессор 70, запоминающее устройство 71, экран 72 дисплея с функцией сенсорного ввода, устройство 73 ввода, устройство 74 вывода и устройство 75 связи. Запоминающее устройство 71 в виде машиночитаемого носителя может быть сконфигурировано для хранения программного обеспечения, а также программ и модулей, исполняемых компьютером, например программных инструкций/модулей, соответствующих варианту осуществления, представленному в настоящей заявке (например, модуль 61 получения информации, модуль 62 преобразования в частотную область, модуль 63 обработки звукового сигнала и модуль 64 получения результата в устройстве для обработки звуковых данных, представленном в предшествующем варианте осуществления). Процессор 70 исполняет программы, инструкции и модули, хранимые в запоминающем устройстве 71 для выполнения различных функциональных приложений и обработки данных компьютерного устройства, то есть осуществляет описанный выше способ обработки звуковых данных.

Согласно варианту осуществления, если процессор 70 исполняет одну или более программ, хранимых в запоминающем устройстве 71, то выполняются следующие операции: получение звуковых данных, подлежащих обработке, и коэффициента регулировки скорости по меньшей мере одного звукового кадра звуковых данных; последовательное использование по меньшей мере одного звукового кадра в качестве текущего звукового кадра, подлежащего обработке, и преобразование текущего звукового кадра в частотную область; определение целевого фазового сигнала текущего звукового кадра в соответствии с коэффициентом регулировки скорости текущего звукового кадра и коэффициентом регулировки скорости предшествующего звукового кадра; и, в соответствии с целевым фазовым сигналом, выполнение преобразования во временную область текущего звукового кадра, преобразованного в частотную область, для получения обработанного текущего звукового кадра.

В рамках вариантов осуществления изобретения, представленных в настоящей заявке, предлагается также машиночитаемый носитель информации. При обработке программы, хранимой на носителе информации, процессором компьютерного устройства компьютерное устройство выполняет способ обработки звуковых данных, описанный в предшествующем варианте осуществления. Например, способ обработки звуковых данных, описанный в предшествующем варианте осуществления, включает: получение звуковых данных, подлежащих обработке, и коэффициента регулировки скорости по меньшей мере одного звукового кадра звуковых данных; последовательное использование по меньшей мере одного звукового кадра в качестве текущего звукового кадра, подлежащего обработке, и преобразование текущего звукового кадра в частотную область; определение целевого фазового сигнала текущего звукового кадра в соответствии с коэффициентом регулировки скорости текущего звукового кадра и коэффициентом регулировки скорости предшествующего звукового кадра; и, в соответствии с целевым фазовым сигналом, выполнение преобразования во временную область текущего звукового кадра, преобразованного в частотную область, для получения обработанного текущего звукового кадра.

1. Способ обработки звуковых данных, включающий:

получение звуковых данных, подлежащих обработке, и коэффициента регулировки скорости каждого звукового кадра звуковых данных при воспроизведении;

последовательное использование каждого звукового кадра в качестве текущего звукового кадра, подлежащего обработке, и преобразование текущего звукового кадра в частотную область;

определение целевого фазового сигнала в соответствии с тем, совпадает ли коэффициент регулировки скорости текущего звукового кадра с коэффициентом регулировки скорости предшествующего звукового кадра, и,

в соответствии с целевым фазовым сигналом, выполнение преобразования во временную область для получения обработанного текущего звукового кадра.

2. Способ по п. 1, в котором определение целевого фазового сигнала текущего звукового кадра в соответствии с тем, совпадает ли коэффициент регулировки скорости текущего звукового кадра с коэффициентом регулировки скорости предшествующего звукового кадра, включает:

получение потенциального фазового сигнала текущего звукового кадра в соответствии с коэффициентом регулировки скорости предшествующего звукового кадра;

в том случае, если коэффициент регулировки скорости текущего звукового кадра совпадает с коэффициентом регулировки скорости предшествующего звукового кадра, определение упомянутого потенциального фазового сигнала в качестве целевого фазового сигнала текущего звукового кадра; и

в том случае, если коэффициент регулировки скорости текущего звукового кадра отличается от коэффициента регулировки скорости предшествующего звукового кадра, определение фазового сигнала компенсации в соответствии с коэффициентом регулировки скорости текущего звукового кадра и упомянутым потенциальным фазовым сигналом, определение целевого фазового сигнала текущего звукового кадра на основе фазового сигнала компенсации и обновление целевого фазового сигнала заданного количества звуковых кадров перед текущим звуковым кадром.

3. Способ по п. 2, в котором получение потенциального фазового сигнала текущего звукового кадра в соответствии с коэффициентом регулировки скорости предшествующего звукового кадра включает:

определение величины фазового сдвига текущего звукового кадра в соответствии с коэффициентом регулировки скорости предшествующего звукового кадра, исходным фазовым сигналом, преобразованным в частотную область, и соответствующим целевым фазовым сигналом; и

определение потенциального фазового сигнала текущего звукового кадра в соответствии с величиной фазового сдвига и исходным фазовым сигналом текущего звукового кадра.

4. Способ по п. 3, в котором определение величины фазового сдвига текущего звукового кадра в соответствии с коэффициентом регулировки скорости предшествующего звукового кадра, исходным фазовым сигналом, преобразованным в частотную область, и соответствующим целевым фазовым сигналом включает:

определение разности фаз между текущим звуковым кадром и предшествующим звуковым кадром в соответствии с формулой вычисления разности фаз Δi = ζ + [ϕi - ϕi-1 - ζ], исходным фазовым сигналом текущего звукового кадра и исходным фазовым сигналом предшествующего звукового кадра; и определение величины фазового сдвига текущего звукового кадра в соответствии с формулой вычисления величины фазового сдвига θi = [ψi-1 + ri-1 Δi - ϕi], целевым фазовым сигналом предшествующего звукового кадра и коэффициентом регулировки скорости предшествующего звукового кадра;

где θi обозначает величину фазового сдвига i-го звукового кадра, Δi, обозначает разность фаз между i-м звуковым кадром и (i - 1)-м звуковым кадром, ϕi обозначает исходный фазовый сигнал i-го звукового кадра, ϕi-1 обозначает исходный фазовый сигнал (i - 1)-го звукового кадра, ζ обозначает заданную константу компенсации фазы, ψi-1 обозначает целевой фазовый сигнал (i - 1)-го звукового кадра, ri-1 обозначает коэффициент регулировки скорости (i - 1)-го звукового кадра, и [.] обозначает по модулю 2π.

5. Способ по п. 3, в котором определение потенциального фазового сигнала текущего звукового кадра в соответствии с величиной фазового сдвига и исходным фазовым сигналом текущего звукового кадра включает:

получение амплитудного сигнала текущего звукового кадра и определение амплитудной метки, соответствующей каждой точке пика в амплитудном сигнале;

определение величины пикового фазового сдвига текущего звукового кадра в соответствии с величиной фазового сдвига текущего звукового кадра и амплитудной меткой, соответствующей каждой точке пика; и

определение суммы исходного фазового сигнала текущего звукового кадра и величины пикового фазового сдвига в качестве потенциального фазового сигнала текущего звукового кадра.

6. Способ по п. 2, который после получения звуковых данных, подлежащих обработке, также включает:

выполнение формирования перекрывающихся кадров со второй длиной кадра из звуковых данных с использованием первой длины кадра в качестве сдвига кадра, так чтобы получить по меньшей мере один звуковой кадр; и

запись первого звукового сигнала с первой длиной кадра в каждом звуковом кадре в качестве соответствующего кадра временной области и кэширование кадра временной области каждого звукового кадра в заданную область кэширования.

7. Способ по п. 6, в котором определение фазового сигнала компенсации в соответствии с коэффициентом регулировки скорости текущего звукового кадра и потенциальным фазовым сигналом включает:

получение, из заданной области кэширования, текущего кадра временной области, соответствующего текущему звуковому кадру, и заданного количества предыдущих кадров временной области перед текущим кадром временной области;

последовательное определение, на основе коэффициента регулировки скорости текущего звукового кадра, новых потенциальных фазовых сигналов звуковых кадров, соответствующих каждому предыдущему кадру временной области, и нового потенциального фазового сигнала звукового кадра, соответствующего текущему кадру временной области; и

определение, в качестве фазового сигнала компенсации, разности между новым потенциальным фазовым сигналом, соответствующим текущему звуковому кадру, и потенциальным фазовым сигналом.

8. Способ по п. 7, в котором определение целевого фазового сигнала текущего звукового кадра на основе фазового сигнала компенсации и обновление целевого фазового сигнала заданного количества звуковых кадров перед текущим звуковым кадром включает:

определение суммы нового потенциального фазового сигнала текущего звукового кадра и фазового сигнала компенсации в качестве целевого фазового сигнала текущего звукового кадра и

определение сумм новых потенциальных фазовых сигналов звуковых кадров, соответствующих каждому предыдущему кадру временной области, и фазового сигнала компенсации в качестве новых целевых фазовых сигналов заданного количества звуковых кадров перед текущим звуковым кадром, соответственно.

9. Способ по п. 1, включающий также:

выполнение обработки методом окна и суммирования в отношении обработанного текущего звукового кадра и предшествующих звуковых данных с регулируемой скоростью, соответствующих предшествующему звуковому кадру, для получения текущих звуковых данных с регулируемой скоростью для обработанного текущего звукового кадра.

10. Способ по п. 9, включающий также:

выполнение сглаживающей обработки текущих звуковых данных с регулируемой скоростью для получения сглаженных звуковых данных с регулируемой скоростью.

11. Способ по п. 10, в котором выполнение сглаживающей обработки текущих звуковых данных с регулируемой скоростью для получения сглаженных звуковых данных с регулируемой скоростью включает:

определение начальной позиции сегмента сигнала, подлежащего сглаживанию, в текущих звуковых данных с регулируемой скоростью и конечной позиции сегмента сигнала, подлежащего сглаживанию, в текущих звуковых данных с регулируемой скоростью;

определение, в соответствии с заданной формулой вычисления функции четвертой степени, значения уровня целевого сигнала и первой производной в начальной позиции и значения уровня целевого сигнала и первой производной в конечной позиции; и

формирование сглаженной кривой на основе значения уровня целевого сигнала и первой производной в начальной позиции и значения уровня целевого сигнала и первой производной в конечной позиции, и использование сглаженной кривой для замены сегмента сигнала, подлежащего сглаживанию, для получения сглаженных звуковых данных с регулируемой скоростью из текущих звуковых данных с регулируемой скоростью.

12. Устройство для обработки звуковых данных, содержащее:

модуль получения информации, сконфигурированный для получения звуковых данных, подлежащих обработке, и коэффициента регулировки скорости каждого звукового кадра звуковых данных при воспроизведении;

модуль преобразования в частотную область, сконфигурированный для последовательного использования каждого звукового кадра в качестве текущего звукового кадра, подлежащего обработке, и преобразования текущего звукового кадра в частотную область;

модуль обработки звукового сигнала, сконфигурированный для определения целевого фазового сигнала в соответствии с тем, совпадает ли коэффициент регулировки скорости текущего звукового кадра с коэффициентом регулировки скорости предшествующего звукового кадра; и

модуль получения результата, сконфигурированный для выполнения, в соответствии с целевым фазовым сигналом, преобразования во временную область для получения обработанного текущего звукового кадра.

13. Компьютерное устройство, содержащее: по меньшей мере один процессор и запоминающее устройство, сконфигурированное для хранения по меньшей мере одной программы;

при этом при выполнении упомянутой по меньшей мере одной программы упомянутый по меньшей мере один процессор осуществляет способ обработки звуковых данных по любому из пп. 1-11.

14. Машиночитаемый носитель информации, на котором хранится компьютерная программа, при исполнении которой процессором осуществляется способ обработки звуковых данных по любому из пп. 1-11.



 

Похожие патенты:

Изобретение относится к области обработки данных. Техническим результатом является усовершенствование индикации информации блоков доступа произвольного доступа и повышение надежности обнаружения границ блока доступа.

Группа изобретений относится к технологиям усовершенствованного видеокодирования, а именно к структуре разбиения на тайлы и подизображения. Техническим результатом является повышение эффективности кодирования/декодирования видеопотока.

Изобретение относится к области обработки и передаче видео, а более конкретно к передаче сигналов изображения или частей изображения, размер которых может изменяться от изображения к изображению или от части изображения к части изображения. Техническим результатом является повышение эффективности кодирования.

Изобретение относится к диагностированию цифровых телевизионных систем, в частности к способам поиска неисправностей и мониторинга возможной деградации качества в сетях цифрового телевидения на базе транспортных потоков MPEG TS, и может быть использовано при передаче цифровых телевизионных сигналов. Технический результат изобретения заключается в сокращении времени поиска неисправных узлов в сети, а также в возможности прогнозирования деградации качества сигнала до момента непосредственного возникновения неисправности.

Изобретение относится к способам кодирования и декодирования изображений, в которых изображение разделяется на блоки и выполняется предсказание. Техническим результатом является уменьшение вычислительной нагрузки и повышение эффективности кодирования.

Изобретение относится к области видеокодирования. Техническим результатом является повышение эффективности видеокодирования.

Изобретение относится к средствам для кодирования изображений на основе внутриблочного кодирования. Технический результат заключается в повышении эффективности кодирования.

Изобретение относится к технологиям, устройствам и системам кодирования и декодирования видео. Техническим результатом является повышение степени сжатия видео.

Изобретение относится к области телевидения и радиовещания и может быть использовано в составе оборудования головных станций телевидения, центров формирования телевизионных сигналов. Технический результат заключается в обеспечении вещательного кодирующего устройства с возможностью ввода видео-аудио сигналов от различных источников сигналов (камеры, устройства автоматизации вещания) и вывод видео-аудио сигналов для различного приемного оборудования сигналов (видео матрицы, микшерские пульты).

Изобретение относится к декодеру, кодеру, способам, системе и носителям данных для кодирования-декодирования полезных данных последовательности необработанных байтов. Технический результат заключается в повышении эффективности кодирования-декодирования данных.

Изобретение относится к средствам для временного согласования данных обработки на основе квадратурного зеркального фильтра. Технический результат заключается в уменьшении задержки при кодировании и декодировании звука.
Наверх