Способ очистки речевой фонограммы

Авторы патента:

G10L21/0208 - Обработка сигналов речи для получения иного слышимого или неслышимого сигнала, например визуального, осязаемого, для того, чтобы модифицировать их качество или их разборчивость (G10L 19/00 имеет преимущество)

G10L19/00 - Техника анализа-синтеза речи для уменьшения избыточности, например в вокодерах ; кодирование или декодирование речи

Владельцы патента RU 2700394:

Трошинкин Федор Павлович (RU)

Изобретение относится к области вычислительной техники для цифровой обработки звуковой фонограммы. Технический результат заключается в повышении скорости обработки цифровой фонограммы с записью речи. Технический результат достигается за счет способа очистки сигнала цифровой речевой фонограммы от импульсных помех и артефактов артикуляции речевого аппарата, который осуществляется с помощью параллельных и последовательных операций, осуществляемых модулем очистки от импульсных щелчков, модулем выделения щелчков, модулем динамической обработки, первым и вторым служебными сигналами, первым и вторым модулями задержки, модулями финальной задержки и сумматором. 1 ил.

Область техники, к которой относится изобретение

Изобретение относится к области звукозаписи, в частности к цифровой обработке звуковой фонограммы.

Характеристика прототипа

Ближайшим аналогом изобретения является US 8311229 В2 - Reduction of clicking sounds in audio data stream, в котором раскрыт метод уменьшения звуков щелчка в потоке аудиоданных. Образцы аудиоданных задерживаются на заданную величину в скользящем окне времени. Производится обнаружение заданного щелчка и замена его на аудиоданные из заранее подготовленного потока. Недостатком данного способа является различие звуков замененных щелчков относительно первоначальной фонограммы, отсутствие единства звучания. В отличие от прототипа в охарактеризованном способе очитка от щелчков производится путем изменения первоначального сигнала, а не заменой его элементов.

Техническая задача, решаемая изобретением

Повышение скорости обработки цифровой фонограммы с записью речи за счет автоматической очистки от артефактов повышенной влажности речевого аппарата.

Сущность изобретения (Раскрытие изобретения)

Сигнал цифровой речевой фонограммы в первоначальном виде насыщен щелчками и импульсными помехами, которые порождены артикуляцией речевого аппарата носителя голоса. В представленном способе учитывается ряд особенностей речевого аппарата человека, что позволяет подробно очистить запись речи от вышеуказанных помех, при этом сохранив качество фонограммы, а также снизить время обработки фонограммы.

Модуль очистки от импульсных щелчков осуществляет полную очистку первоначальной фонограммы путем разбиения цифровыми фильтрами на поддиапазоны. Здесь учтены особенности спектральной огибающей речевого сигнала. Затем осуществляется обработка каждого поддиапазона отдельной обработкой очистки от щелчков, причем для каждого щелчка глубина обработки выбирается с учетом эффективности и максимального сохранения качества. Все поддиапазоны суммируются. В результате получается фонограмма с очищенным речевым сигналом.

Резкие, импульсные звуки при произношении таких букв, как «П», «Т», «К» и подобных как же подверглись обработке и частично удаляются или смягчаются. Полученная речевая фонограмма, где присутствуют вышеуказанные звуки, при субъективном прослушивании ощущается сильно искаженной. Чтобы вышеуказанные звуки присутствовали в фонограмме в неискаженном виде, осуществляется ряд обработок целью которых является восстановление импульсных звуков таких букв, как «П», «Т», «К» и подобных.

На модуль выделения щелчков поступает первоначальная фонограмма, осуществляется обработка элементом очистки от щелчков, инвертирование и суммирование с исходной фонограммой. Таким образом, на выходе получается фонограмма, включающая в себя только ряд импульсных звуков. Дале сигнал поступает на первый модуль задержки.

Из потока фонограммы с импульсами также должны быть выделены только необходимые импульсные звуки, которые были образованы артикуляцией при произношении таких звуков, как «П», «Т», «К» и подобных и добавлены к фонограмме полученной с выхода модуля очистки от импульсных щелчков. Для выделения необходимых звуков используется система динамического подавления всех посторонних импульсных звуков фонограммы в модуле динамической обработки, который включает в себя несколько последовательно соединенных элементов обработки - гейт, компрессор и фильтр. Для осуществления процесса используются два дополнительных служебных модуля. Первый служебный модуль получает сигнал с выхода модуля очистки от импульсных щелчков, фильтрует его, и передает на вход сайдчена первого элемента в модуле динамической обработки - гейта. Задача последнего - подавлять все импульсные щелчки в фонограмме при отсутствии сигнала с первого служебного модуля. Второй служебный модуль забирает сигнал с модуля очистки от импульсных щелчков предварительно пропущенный через второй модуль задержки. Сигнал фильтруется и отправляется на вход сайдчена второго элемента в модуле динамической обработки - компрессора, задачей которого является подавление импульсных щелчков при присутствии сигнала с второго служебного модуля.

Таким образом формируются два потока фонограмм. Первый поток - очищенная речевая фонограмма с выхода модуля очистки от импульсных щелчков, второй поток - фонограмма, содержащая щелчки, образованные при произнесении таких букв, как «П», «Т», «К» и подобных с выхода модуля динамической обработки. Перед суммированием этих сигналов выставлены третий и четвертый модули задержки соответственно, задачей которых является компенсация расхождения и выставление синфазности двух потоков.

В результате финального суммирования получается поток речевой фонограммы, очищенный от большинства нежелательных импульсных помех при этом сохранив яркость и четкость произношения всех букв.

Краткое описание чертежей

На фиг. 1 представлен способ очистки речевой фонограммы, где:

1. Модуль очистки от импульсных щелчков,

2. Модуль выделения щелчков,

3. Модуль динамической обработки,

4. Первый модуль задержки,

5. Второй модуль задержки,

6. Первый служебный сигнал,

7. Второй служебный сигнал,

8. Модуль финальной задержки

9. Сумматор.

Осуществление изобретения

Технический результат достигается при помощи параллельных и последовательных операций, осуществляемых модулем очистки от импульсных щелчков 1, модулем выделения щелчков 2, модулем динамической обработки 3, первым 6 и вторым 7 служебными сигналами, первым 4 и вторым 5 модулями задержки, модулями финальной задержки 8 и сумматором 9. Модуль очистки звука от импульсных щелчков 1 содержит фильтры, разделяющие сигнал на две или более частотных полос и производит очистку каждой из частотных полос от щелчков в отдельности и последующее суммирование частотных полос. Модуль выделения щелчков 2 производит выделение из первоначального сигнала всех щелчков первоначальной фонограммы. Модуль динамической обработки 3 производит подавление нежелательных импульсных щелчков сигнала полученного с модуля выделения щелчков 2 с помощью экспандера и затем компрессора которые управляются служебными сигналами 6 и 7. Первый служебный сигнал 6 выделяет узкую низкочастотную полосу и осуществляет контроль над работой модуля динамической обработки 3. Второй служебный сигнал 7 выделяет узкую низкочастотную полосу и задерживает сигнал на 1-50 (мс) и также управляет работой модуля динамической обработки 3. Служебные сигналы 6 и 7 основаны на сигнале с модуля очистки от импульсных щелчков 1. Сигнал с модуля очистки от импульсных щелчков 1 и модуля динамической обработки 3 синфазно выравниваются с помощью модулей финальной задержки 8 и суммируются при помощи сумматора 9.

Способ очистки сигнала цифровой речевой фонограммы от импульсных помех и артефактов артикуляции речевого аппарата осуществляется с помощью параллельных и последовательных операций, осуществляемых модулем очистки от импульсных щелчков, модулем выделения щелчков, модулем динамической обработки, первым и вторым служебными сигналами, первым и вторым модулями задержки, модулями финальной задержки и сумматором, отличающийся тем, что модуль очистки звука от импульсных щелчков содержит фильтры, разделяющие сигнал на две или более частотных полос, и производит очистку каждой из частотных полос от щелчков в отдельности и последующее суммирование частотных полос, модуль выделения щелчков производит выделение из первоначального сигнала всех щелчков первоначальной фонограммы, модуль динамической обработки производит подавление нежелательных импульсных щелчков сигнала, полученного с модуля выделения щелчков с помощью экспандера и затем компрессора, которые управляются служебными сигналами, первый служебный сигнал выделяет узкую низкочастотную полосу и осуществляет контроль над работой модуля динамической обработки, второй служебный сигнал выделяет узкую низкочастотную полосу и задерживает сигнал на 1-50 (мс) и также управляет работой модуля динамической обработки, служебные сигналы основаны на сигнале с модуля очистки от импульсных щелчков, сигнал с модуля очистки от импульсных щелчков и модуля динамической обработки синфазно выравниваются с помощью модулей финальной задержки и суммируются при помощи сумматора.

Изобретение относится к области техники передачи и трансляции речевой информации и может найти применение в устройствах связи. Техническим результатом является увеличение значения вероятности правильного решения о появлении речевого сигнала и повышение точности определения момента его появления при наличии речеподобного шума.

Способ компенсации шумовых помех у устройства громкой связи в автомобиле и устройство громкой связи // 2698324

Изобретение относится к компенсации шумовых помех у устройства (1) громкой связи в автомобиле. Техническим результатом является повышение скорости индивидуальной для транспортного средства компенсации возмущающих воздействий устройства громкой связи.

Адаптивное улучшение аудио для распознавания многоканальной речи // 2698153

Раскрыты средства для адаптивного формирования диаграммы направленности нейронной сети для многоканального распознавания речи. Технический результат заключается в повышении эффективности распознавания речи.

Аудиокодировщик и декодер // 2696952

Изобретение относится к средствам пространственного аудиокодирования, когда аудиоинформация представлена множеством аудиообъектов, содержащим по меньшей мере один объект с диалогом.

Система отображения мобильных аудиоустройств // 2696554

Изобретение относится к области вычислительной техники для воспроизведения аудио данных. Технический результат заключается в повышении качества воспроизведения диапазона частот аудио источника.

Устройство и способ для выбора режима генерирования комфортного шума // 2696466

Изобретение относится к средствам для кодирования аудиоинформации. Технический результат заключается в повышении эффективности кодирования.

Способ и устройство для проведения прямой трансляции по игре // 2693873

Изобретение относится к области технологии прямой видеотрансляции. Техническим результатом является обеспечение прямой трансляции игры через мобильный телефон.

Кодер, декодер, способ кодирования, способ декодирования и программа // 2689181

Изобретение относится к средствам для кодирования аудиосигналов. Технический результат заключается в повышении эффективности кодирования аудио.

Устройство и способ для расширения диапазона частот для акустических сигналов // 2688247

Изобретение относится к средствам для расширения диапазона частот для акустических сигналов. Технический результат заключается в повышении эффективности расширения диапазона частот входных сигналов для повышения качества аудио.

Способ, устройство и система для подавления шума // 2685391

Изобретение относится к средствам для подавления шума. Технический результат заключается в повышении эффективности подавления шума.

Устройство обработки информации и способ обработки информации // 2699406

Изобретение относится к области вычислительной техники. Технический результат заключается в повышении эффективности получения предварительно заданного типа аудиоданных из числа множества типов аудиоданных.

Устройство передачи, способ передачи, устройство приема и способ приема // 2698779

Изобретение относится к средствам для приема и передачи аудиоданных. Технический результат заключается в повышении эффективности обработки на приемной стороне при передаче аудиоданных нескольких типов.

Способ и устройство для рендеринга звукового сигнала и компьютерно-читаемый носитель информации // 2698775

Изобретение относится к обработке аудиосигналов, в частности, к способу воспроизведения многоканального аудиосигнала, включающего в себя звуковой сигнал с возвышением в окружении с горизонтальной схемой расположения, тем самым получая параметр рендеринга в соответствии с типом рендеринга и конфигурируя матрицу понижающего микширования.

Стереофоническое кодирование на основе mdct с комплексным предсказанием // 2698154

Изобретение относится к средствам стереофонического кодирования на основе MDCT с комплексным предсказанием. Технический результат заключается в повышении эффективности стереофонического кодирования при передаче данных с высокой битовой скоростью.

Аудиокодировщик и декодер // 2696952

Устройство и способ для выбора режима генерирования комфортного шума // 2696466

Аудиокодер и аудиодекодер с метаданными сведений о программе или структуры вложенных потоков // 2696465

Изобретение относится к средствам для генерирования кодированного битового аудиопотока. Технический результат заключается в повышении эффективности кодирования аудиоданных.

Аудиокодер и декодер // 2696292

Изобретение относится к средствам кодирования и декодирования. Технический результат заключается в повышении качества кодированного и декодированного сигналов при пониженной скорости передачи данных.

Устройство предоставления аудио и способ предоставления аудио // 2695508

Изобретение относится к обработке аудиосигналов. Технический результат – оптимизация канального аудиосигнала для среды прослушивания.

Способ аудиокодирования и способ аудиодекодирования // 2695504

Изобретение относится к системам обработки медиаданных и, в частности, к адаптивной обработке медиаданных на основе состояний обработки медиаданных для медиаданных.

Устройство передачи данных, способ передачи данных, приёмное устройство и способ приёма // 2700405

Изобретение относится к средствам для приема и передачи данных. Технический результат заключается в повышении эффективности приемопередачи аудиоданных. Генерируют заданное количество потоков аудиоданных, включающих в себя первые закодированные данные и вторые закодированные данные, которые имеют отношение к первым закодированным данным. Вставляют в уровень контейнера данных информацию идентификации, идентифицирующую наличие вторых закодированных данных, которые имеют отношение к первым закодированным данным, встроены в область пользовательских данных в потоках аудиоданных, имеющих первые закодированные данные, и включены в контейнер, и вставляют в уровень контейнера данных информацию атрибута, которая показывает атрибут каждого фрагмента вторых закодированных данных. Передают с помощью передающего модуля контейнер данных в заданном формате, включающий в себя сгенерированное заданное количество потоков аудиоданных. Первые закодированные данные кодированы с использованием первого способа кодирования, а вторые закодированные данные кодированы с использованием второго способа кодирования. 4 н. и 9 з.п. ф-лы, 31 ил.