Способ синтеза речи с передачей достоверного интонирования клонируемого образца

Авторы патента:

G10L25/30 - Анализирование или синтезирование речи; распознавание речи (ввод/вывод звука для компьютеров G06F 3/16; способы или устройства для обработки цифровых данных, специально предназначенных для манипулирования данными на естественном языке G06F 17/20; обучение или общение со слепыми, глухими или немыми G09B 21/00; телефонная связь H04M)

G10L15/16 - с использованием искусственных нейронных сетей

G10L13/00 - Синтезирование речи; текст для систем синтезирования речи, например речевого диапазона (электрические музыкальные инструменты G10H)

Владельцы патента RU 2754920:

Автономная некоммерческая организация поддержки и развития науки, управления и социального развития людей в области разработки и внедрения искусственного интеллекта "ЦифровойТы" (RU)

Изобретение относится к способам синтезирования речи с использованием искусственных нейронных сетей и может быть применено для синтеза речи выбранного спикера с передачей достоверного интонирования клонируемого образца. Технический результат изобретения состоит в том, что достигается передача достоверного интонирования клонируемого образца речи выбранного спикера на естественном языке. Производят предварительную подготовку обучающего датасета, состоящего из текста и соответствующей ему аудиозаписи речи выбранного спикера. Осуществляют глубокое обучение нейронной сети на основе обучающего датасета и получение на выходе мел-спектрограммы голоса выбранного спикера, преобразование мел-спектрограммы с помощью вокодера с получением на выходе аудиофайла в формате WAV. В качестве глубоко обучаемой нейронной сети применяется сеть Tacotron2, в качестве вокодера применяется нейронная сеть Waveglow. В процессе глубокого обучения нейросети Tacotron2 на основе подготовленного датасета осуществляется ее модификация путем увеличения количества весов ее модели и расширения объема ее памяти. Повторно применяют уже обученную нейронную сеть и вокодер для преобразования загружаемого пользователем произвольного текста в речь выбранного спикера, с получением на выходе аудиофайла озвучивания произвольного текста голосом выбранного спикера.

Изобретение относится к области способов и устройств распознавания, обработки, анализирования и синтезирования речи, а именно к способам синтезирования речи с использованием искусственных нейронных сетей, и может быть применено для клонирования и синтеза речи выбранного спикера с передачей достоверного интонирования клонируемого образца.

Из общего уровня техники известны различные технические решения в области способов и устройств распознавания, обработки, анализирования и синтезирования речи. Некоторая часть из данных решений предполагает применение в процессе обработки, анализирования и синтезирования речи искусственных нейронных сетей. Основной задачей при синтезировании речи является преобразование того или иного текста в слышимую речь. Искусственные нейронные сети обладают свойством глубокого обучения (по аналогии с мозгом человека), в связи с чем позволяют преобразовать текст не в некий механический безжизненный голос, а добиться того, чтобы текст озвучивался «живым», естественным человеческим голосом, в том числе голосом выбранных людей (например, известных личностей) за счет предварительного обучения нейронной сети голосу выбранного спикера.

В качестве наиболее известных и совершенных нейронных сетей, применяемых в настоящее время для синтеза речи с передачей достоверного интонирования клонируемого образца, можно выделить нейронные сети Tacotron 2 и Waveglow. Tacotron 2 (tacotron2//сайт NVIDIA Corporation// электронный ресурс URL: https://github.com/NVIDIA/tacotron2 (дата доступа 29.07.2020) состоит из двух нейронных сетей, первая из которых преобразует текст в мел-спектрограмму, которая затем передается во вторую сеть (WaveNet) для считывания визуальных изображений и создания соответствующих звуковых элементов. Waveglow (WAVEGLOW: A FLOW-BASED GENERATIVE NETWORK FOR SPEECH SYNTHESIS»//Ryan Prenger, Rafael Valle, Bryan Catanzaro NVIDIA Corporation// электронный ресурс URL: https://arxiv.org/pdf/1811.00002.pdf (дата доступа 27.07.2020) представляет собой сеть на основе потоков, способную генерировать высококачественную речь из мел-спектрограмм. WaveGlow сочетает в себе идеи от Glow и WaveNet, чтобы обеспечить быстрый, эффективный и высококачественный синтез звука без необходимости авторегрессии.

В качестве примеров запатентованных технических решений, применяющих искусственные нейронные сети для синтезирования речи, можно привести иностранный патент на изобретение № CN 110335587 A «МЕТОД СИНТЕЗА РЕЧИ, СИСТЕМА СИНТЕЗА РЕЧИ, ТЕРМИНАЛЬНОЕ ОБОРУДОВАНИЕ И МАШИНОЧИТАЕМЫЙ НОСИТЕЛЬ ДЛЯ ХРАНЕНИЯ», иностранный патент на изобретение № CN 110853616 А «СПОСОБ И СИСТЕМА СИНТЕЗА РЕЧИ НА ОСНОВЕ НЕЙРОННОЙ СЕТИ И НОСИТЕЛЬ ИНФОРМАЦИИ», иностранный патент на изобретение № CN 108597492A «СПОСОБ И УСТРОЙСТВО СИНТЕЗА ГОЛОСА», иностранный патент на изобретение № JP 2018036413 А «УЧЕБНОЕ УСТРОЙСТВО ГОЛОСОВОГО СИНТЕЗА, СПОСОБ И ПРОГРАММА», российский патент на изобретение №2686589 «РАСПОЗНАВАНИЕ СМЕШАННОЙ РЕЧИ», российский патент на изобретение №2720359 «СПОСОБ И ОБОРУДОВАНИЕ РАСПОЗНАВАНИЯ ЭМОЦИЙ В РЕЧИ», российский патент на изобретение №2698153 «АДАПТИВНОЕ УЛУЧШЕНИЕ АУДИО ДЛЯ РАСПОЗНАВАНИЯ МНОГОКАНАЛЬНОЙ РЕЧИ». В качестве общих признаков данных технических решений с предлагаемым способом синтеза речи с передачей достоверного интонирования клонируемого образца можно выделить применение обучаемых искусственных нейронных сетей, в том числе одновременно двух нейронных сетей, предварительную подготовку обучающей базы данных для нейронной сети, применение преобразования исходных данных в мел-спектрограмму и дальнейшей обработки мел-спектрограммы и ее преобразование в речь, применение программного обеспечения, использование сверточной нейронной сети для глубокого обучения.

Также в открытом доступе содержатся упоминания платформы RESEMBLE (сайт RESEMBLE PLATFORM// электронный ресурс URL:https://www.resemble.ai/ (дата доступа 28.07.2020)) для клонирования голоса и проект VeraVoice (сайт VeraVoice// электронный ресурс URL: https://veravoice.ai/(дата доступа 28.07.2020)). Однако отсутствует техническое описание данных решений.

Наиболее близким техническим решением (прототипом) является техническое решение по российскому патенту на изобретение №2632424 «СПОСОБ И СЕРВЕР ДЛЯ СИНТЕЗА РЕЧИ ПО ТЕКСТУ» (дата приоритета 29.09.2015). Данное решение характеризуется тем, что представляет собой способ синтеза речи по тексту, включающий в себя этапы получения обучающих текстовых данных и соответствующих обучающих акустических данных, извлечения одной или нескольких фонетических и лингвистических характеристик обучающих текстовых данных, извлечения вокодерных характеристик соответствующих обучающих акустических данных, и корреляции вокодерных характеристик с фонетическими и лингвистическими характеристиками обучающих текстовых данных и с одним или несколькими определенными речевыми атрибутами, использования глубокой нейронной сети для определения факторов взаимозависимости между речевыми атрибутами в обучающих данных, получения текста, получения выбора речевого атрибута, преобразования текста в синтезированную речь с использованием акустической пространственной модели, вывода синтезированной речи в виде аудио, обладающего выбранным речевым атрибутом. Технический результат заключается в повышении естественности человеческого голоса в синтезированной речи. Общими признаками прототипа с заявляемым техническим решением являются использование глубоко обучаемой нейронной сети, предварительная подготовка обучающей базы данных, состоящей из текстовых и акустических данных.

Однако прототип имеет ряд недостатков:

- отсутствует техническое описание глубоко-обучаемой нейронной сети и принципа ее работы. В решении весьма подробно описана аппаратная часть способа синтеза речи по тексту, но опущено описание самой нейронной сети, ее свойств, между тем как нейронные сети значительно отличаются друг от друга, обладают различной структурой, свойствами, а для использования для клонирования речи нейронная сеть должна обладать строго определенными свойствами (например, быть рекуррентной), иметь определенные слои;

- отсутствует техническое описание способа подготовки базы обучающих данных, состоящей из обучающих текстовых данных и соответствующих обучающих акустических данных. Текстовые и акустические данные должны строго соответствовать друг другу, транскрипция голоса должна совпадать с текстом. При увеличении количества данных возрастает риск появления ошибок, неточностей, в результате чего снижается качество обучения нейронной сети, а значит и соответствия синтезированной речи образцу;

- преобразование текста в синтезированную речь с использованием акустической пространственной модели с применением преимущественно аппаратных средств без использования мел-спектрограмм может повлечь также ошибки и неточности при преобразовании текста в речь, делать голос частично искусственным, «неживым» в связи с неполноценной передачей всех интонаций голоса реального человека.

В результате недостатки прототипа не позволяют обеспечить качественное, точное соответствие интонирования синтезированной речи клонируемому образца речи любого спикера на любом естественном языке, в том числе на сложном, например на русском языке.

Таким образом, ни одно из представленных технических решений из указанной области техники не предлагает полноценного программно-аппаратного способа синтеза любой речи на любом естественном языке, в том числе на русском или другом сложном языке, выполненной любым спикером с передачей достоверного интонирования клонируемого образца во всех его аспектах с максимальным соответствием синтезированного голоса голосу реального человека-спикера.

В отличие от прототипа и иных технических решений, заявляемый на регистрацию способ синтеза речи с передачей достоверного интонирования клонируемого образца решает данную техническую проблему, так как представляет собой полноценный программно-аппаратный способ синтеза любой речи на любом естественном языке, в том числе на русском или другом сложном языке, выполненной любым спикером с передачей достоверного интонирования клонируемого образца во всех его аспектах с максимальным соответствием синтезированного голоса голосу реального человека-спикера, что достигается тщательной ручной (механической) подготовкой обучающего датасета для нейронный сетей, использованием одновременно нейронный сетей Tacotron2 и Waveglow, с глубоким обучением и модификацией сети Tacotron2 с целью максимальной адаптации нейронной сети под особенности того или иного языка, использованием программного обеспечения для управления работой нейронных сетей, и применением веб-сервиса и веб-сайта для взаимодействия любого пользователя с программным обеспечением и компьютером.

Соответственно, технический результат заявляемого технического решения «Способ синтеза речи с передачей достоверного интонирования клонируемого образца» состоит в том, что в результате синтеза речи согласно предлагаемому способу за счет тщательной ручной (механической) подготовки обучающего датасета, качественного изменения архитектуры применяемой искусственной нейронной сети для ее максимальной адаптации под особенности того или иного языка достигается передача достоверного интонирования клонируемого образца речи выбранного любого спикера на любом естественном языке, в том числе на сложном языке, например русском, то есть максимальное соответствие всех аспектов интонации синтезированной на основе введенного сторонним пользователем произвольного текста речи голосу выбранного любого спикера на любом естественном языке, в результате чего синтезированная речь становится неотличимой от естественной, а также в целом расширение арсенала способов синтеза речи с использованием искусственных нейронных сетей.

Технический результат достигается тем, что способ синтеза речи с передачей достоверного интонирования клонируемого образца включает в себя этапы предварительной подготовки обучающего датасета, состоящего из текста и соответствующей ему аудиозаписи речи выбранного спикера, глубокого обучения нейронной сети на основе тренировочного датасета и получения на выходе мел-спектрограммы голоса выбранного спикера, преобразования мел-спектрограммы с помощью вокодера с получением на выходе аудиофайла в формате WAV, повторного применения уже обученной нейронной сети и вокодера для преобразования загружаемого пользователем произвольного текста в речь выбранного спикера, обработанного на этапах подготовки датасета и глубокого обучения нейронной сети с получением на выходе аудиофайла озвучивания произвольного текста голосом выбранного спикера в формате WAV, отличающийся тем, что аудиозапись речи выбранного спикера разбита на фрагменты длительностью не более 16 секунд каждая, подготовка датасета осуществляется в ручном режиме путем тщательной проверки человеком каждого фрагмента аудиозаписи и соответствующего ему фрагмента текста на предмет полного совпадения транскрипции аудиозаписи тексту, в качестве глубоко обучаемой нейронной сети применяется сеть Tacotron2, в качестве вокодера применяется нейронная сеть Waveglow, в процессе глубокого обучения нейросети Tacotron2 на основе подготовленного датасета осуществляется ее модификация путем увеличения количества весов ее модели, расширения объема ее памяти с целью максимальной адаптации нейронной сети под особенности того или иного языка, процессы модификации и глубокого обучения модели Tacotron2 с получением на выходе мел-спектрограммы, преобразования сетью Waveglow мел-спектрограммы в аудиофайл в формате WAV и дальнейшего преобразования загружаемого пользователем произвольного текста в речь спикера, обработанного на этапах подготовки датасета и глубокого обучения модели Tacotron2, контролируются программным обеспечением, взаимодействие пользователя с программным обеспечением и компьютерным оборудованием при загрузке им произвольного текста для его озвучивания голосом выбранного спикера и получении на выходе аудиофайла в формате WAV осуществляется с помощью веб-сервиса на языке Java и веб-сайта.

Для получения технического результата изобретение может быть осуществлено следующим предпочтительным образом, не исключающим иных способов осуществления в рамках заявленной формулы изобретения.

Способ синтеза речи с передачей достоверного интонирования клонируемого образца включает в себя следующие этапы. На первом этапе вручную подготавливается обучающий датасет, состоящий из текста и соответствующей ему аудиозаписи речи выбранного спикера, разбитой на фрагменты длительностью не более 16 секунд каждая. Ручная подготовка датасета означает, что каждый фрагмент аудиозаписи и соответствующий ему фрагмент текста тщательно проверяется человеком путем прослушивания фрагмента аудиозаписи и прочтения одновременно соответствующего ему фрагмента текста на предмет их полного совпадения. В случае несовпадения текста с аудиозаписью, человек с помощью компьютера вносит изменения в текст для максимизации соответствия транскрипции аудиозаписи тексту. При этом минимальный объем датасета для будущего полноценного обучения нейросети на основе данного датасета, например, для русской речи, составляет 20 часов аудиозаписи для удовлетворительного (тестового) качества и 30 часов речи для промышленной эксплуатации голоса выбранного спикера. Далее на основе подготовленного датасета осуществляется процесс модификации и глубокого обучения искусственной нейронной сети (модели) Tacotron2 применительно к специфике того или иного естественного языка, например русского. Полученный вручную подготовленный тренировочный датасет и нейронные сети (модели) Tacotron2 и Waveglow загружаются в графический и центральный процессоры компьютера и производятся тензорные вычисления весов моделей Tacotron2 и Waveglow, определяющих особенности речи выбранного спикера. Далее следует этап кодирования - преобразование символов текста из датасета в их численное представление. Далее сверточные слои нейронной сети Tacotron2 определяют взаимосвязь букв в слове и в тексте в целом. Затем результат поступает в двунаправленный слой нейронной сети Tacotron2, использующий свою внутреннюю память для обработки последовательностей произвольной длины, который сохраняет состояние о «прошлом» и «будущем», то есть запоминает контекст того или иного фрагмента текста и аудиозаписи. Далее следует этап декодирования - полученный на этапе кодирования результат проходит через слой сети Tacotron2 «внимания», который вычисляет средний момент по всем возможным результатам сети этапа кодирования, который в свою очередь состоит из двух однонаправленных слоев памяти нейронной сети Tacotron2, слоя pre-net, необходимого для обучения внимания, и слоя линейного преобразования в мел-спектрограмму. Полученный результат этапа декодирования проходит через пятисверточный слой (post-net) нейронной сети Tacotron2 для повышения качества мел-спектрограммы. Далее полученная обработанная мел-спектрограмма передается в вокодер, качестве которого выступает нейронная сеть Waveglow, которая на выходе выдает аудиофайл в формате WAV. Далее модифицированная на предыдущих этапах глубокого обучения модель Tacotron2 и сеть Waveglow с вычисленными весами загружаются повторно на графический и центральный процессор компьютера и производится преобразование загружаемого пользователем произвольного текста в речь спикера, обработанного на этапах подготовки датасета и глубокого обучения модели Tacotron2. Процессы модификации и глубокого обучения модели Tacotron2 с получением на выходе мел-спектрограммы, преобразования сетью Waveglow мел-спектрограммы в аудиофайл в формате WAV и дальнейшего преобразования загружаемого пользователем произвольного текста в речь спикера, обработанного на этапах подготовки датасета и глубокого обучения модели Tacotron2, контролируются программным обеспечением. Взаимодействие пользователя с программным обеспечением и компьютерным оборудованием при загрузке им произвольного текста для его озвучивания голосом выбранного спикера и получении на выходе аудиофайла в формате WAV осуществляется с помощью веб-сервиса на языке Java и веб-сайта.

Новизна и изобретательский уровень представленного изобретения состоит в том, что в изложенном способе синтеза речи с передачей достоверного интонирования клонируемого образца осуществляется тщательная ручная (механическая) подготовка обучающего датасета для нейронный сетей Tacotron2 и Waveglow, нейронная сеть Tacotron2 проходит процесс модификации путем увеличения количества весов ее модели, расширения объема ее памяти и последующего ее глубокого обучения на основе подготовленного обучающего датасета с использованием большего количества «фичей» (специфических программных возможностей) с целью максимальной адаптации нейронной сети под особенности того или иного языка. В результате применения предложенного способа достигается качественное соответствие звучания синтезированной речи голосу реального выбранного пользователем любого человека (спикера), выполненного на любом естественном языке.

Способ синтеза речи с передачей достоверного интонирования клонируемого образца характеризуется тем, что включает в себя этапы предварительной подготовки обучающего датасета, состоящего из текста и соответствующей ему аудиозаписи речи выбранного спикера, глубокого обучения нейронной сети на основе обучающего датасета и получения на выходе мел-спектрограммы голоса выбранного спикера, преобразования мел-спектрограммы с помощью вокодера с получением на выходе аудиофайла в формате WAV, повторного применения уже обученной нейронной сети и вокодера для преобразования загружаемого пользователем произвольного текста в речь выбранного спикера, обработанного на этапах подготовки датасета и глубокого обучения нейронной сети с получением на выходе аудиофайла озвучивания произвольного текста голосом выбранного спикера в формате WAV, отличающийся тем, что аудиозапись речи выбранного спикера разбита на фрагменты длительностью не более 16 секунд каждая, подготовка датасета осуществляется в ручном режиме путем тщательной проверки человеком каждого фрагмента аудиозаписи и соответствующего ему фрагмента текста на предмет полного совпадения транскрипции аудиозаписи тексту, в качестве глубоко обучаемой нейронной сети применяется сеть Tacotron2, в качестве вокодера применяется нейронная сеть Waveglow, в процессе глубокого обучения нейросети Tacotron2 на основе подготовленного датасета осуществляется ее модификация путем увеличения количества весов ее модели, расширения объема ее памяти с целью максимальной адаптации нейронной сети под особенности того или иного языка, процессы модификации и глубокого обучения модели Tacotron2 с получением на выходе мел-спектрограммы, преобразования сетью Waveglow мел-спектрограммы в аудиофайл в формате WAV и дальнейшего преобразования загружаемого пользователем произвольного текста в речь спикера, обработанного на этапах подготовки датасета и глубокого обучения модели Tacotron2, контролируются программным обеспечением, взаимодействие пользователя с программным обеспечением и компьютерным оборудованием при загрузке им произвольного текста для его озвучивания голосом выбранного спикера и получении на выходе аудиофайла в формате WAV осуществляется с помощью веб-сервиса на языке Java и веб-сайта.

Изобретение относится к акустике. Устройство захвата звука содержит формирователь диаграммы направленности, который выполнен с возможностью генерировать выходной аудиосигнал со сформированной диаграммой направленности.

Компьютерное устройство коммуникации с пользователем // 2746468

Изобретение относится к компьютерным устройствам коммуникации с пользователем. Технический результат заключается в обеспечении возможности в ответ на голосовые запросы пользователя передавать ему объемную визуальную информацию из внешних источников, при этом адаптировать ее для вывода на объёмный дисплей.

Оборудование и способ определения информации основного тона // 2745717

Изобретение относится к обработке аудиосигналов и может быть использовано для получения информации основного тона из аудиосигнала. Оборудование для определения информации основного тона на основе аудиосигнала выполнено с возможностью получать значение подобия, связанное с данной парой частей аудиосигнала, имеющего данный сдвиг по времени, при этом оборудование выполнено с возможностью выбирать длину частей сигнала для аудиосигнала, используемого для того, чтобы получать значение подобия для данного сдвига по времени, в зависимости от данного сдвига по времени, и причем оборудование выполнено с возможностью выбирать длину частей сигнала таким образом, что она линейно зависит от данного сдвига по времени, в пределах допуска в ±1 дискретный отсчет.

Выбор задержки основного тона // 2742739

Изобретение относится к области вычислительной техники для кодирования и декодирования информационного сигнала. Технический результат заключается в повышении точности оценок задержки основного тона, которые лучше подходят к комплексным сигналам, с такой же или меньшей сложностью, чем в известном уровне техники.

Декодер речи, кодер речи, способ декодирования речи, способ кодирования речи, программа декодирования речи и программа кодирования речи // 2742199

Изобретение относится к вычислительной технике. Технический результат заключается в уменьшении опережающего и запаздывающего эха.

Биометрический способ идентификации абонента по речевому сигналу // 2742040

Изобретение относится к области вычислительной техники и связи. Технический результат заключается в обеспечении возможности дистанционной идентификации абонента.

Система голосового управления // 2741622

Изобретение относится к средствам для голосового управления. Технический результат заключается в повышении эффективности голосового управления.

Способ и устройство для обработки звука и носитель информации // 2735363

Изобретение относится к акустике. Способ заключается в приеме аудиоданных, их распознавании, проверке наличия в них информации об активации приложения, активации приложения, приеме первых и вторых речевых данных.

Устройство и способы для обработки аудиосигнала // 2733533

Изобретение относится к средствам для обработки аудиосигнала. Технический результат заключается в повышении эффективности обработки аудиосигнала.

Устройство и способ для определения предварительно определенной характеристики, относящейся к обработке спектрального улучшения аудиосигнала // 2733278

Изобретение относится к средствам для спектральной обработки аудиосигнала. Технический результат заключается в повышении эффективности обработки аудиосигнала.

Способ и оборудование распознавания эмоций в речи // 2720359

Изобретение относится к средствам для распознавания эмоций в речи. Технический результат заключается в повышении точности распознавания эмоций.