Способ слоговой компиляции речи

 

1. СПОСОБ СЛОГОВОЙ КОМПИЛЯЦИИ РЕЧИ по тексту, использующий набор заранее записанных сигна i l .i,:--#K:-J - . -V- . , 1 .Ч S ц г.,; : ...: « и ..:,.-.-ХЧ:л..; S eJits.ij Mrif лов открытых слогов типа согласный гласный и отдельных гласных фиксированной длительности, отличающийся тем, что, с целью повышения качества звучания компилированной речи, перед согласными звуками слогов формируют переходные сегменты различной длительности из последующих гласных звуков. 2. Способ по п. 1, отличающийся тем, что длительность переходных сегментов выбирают в зависимости от предшествующего звука в пределах 0,1-0,4 от фиксированной длительности гласных, при этом, если этот звук согласный, S то длительность берут наименьшую, а если гласный, то длительность (Л берут тем бс5льшую, чем больше различия в характеристиках между типами гласных. сл 00

СОЮЗ СОВЕТСНИХ

СОЦИАЛИСТИЧЕСНИХ

РЕСПУБЛИН ц5п С 10 б. 1/06 ю ты

Фиг.1

ГОСУДАРСТВЕННЫЙ КОМИТЕТ СССР

FlO ДЕЛАМ ИЗОБРЕТЕНИЙ И ОТКРЫТИЙ (21t 3525639/18-10 (22! 21.12.82 (46) 23.02.84. Бюл. Р 7 (721 A.Ï. Ваййшток, А.В. Книппер, И.A. Орлов и В.Г. Потапов (71I ИйститУт проблем передачи информацйй Ан СССР (53) 534.42(088.8 } (561 1. Патент СИ Р 4278838, кл. G 10 L 1/00, 1981.

2. Патент Франции 9 1602936, кл. Q 10 L 1/00, 1971.

3. Токура Е. и Сагисаки Е. Синтез по правилам, использующий

СГ-слоги и его качество. — Доклады секции речи Акустического общества

Японии, 1980, с. 371-376 ° (54)(57 1 1. СПОСОБ СЛОГОВОЙ КОМПИЛЯЦИИ РЕЧИ по тексту, использующий набор заранее записанных сигна„„SU„„ 1 075300 лов открытых слогов типа согласный— гласный и отдельных гласных фиксированной длительности, о т л и ч а ю шийся тем, что, с целью повышения качества звучания компилированной речи, перед согласными звуками слогов формируют переходные сегменты различной длительности из последующих гласных звуков.

2. Способ по п. 1, о т л и— ч а ю шийся тем, что длительность переходных сегментов выбирают в зависимости от предшествующего звука в пределах 0,1-0,4 от фиксированной длительности гласных, при этом, если этот звук согласный, то длительность берут наименьшую, щ а если гласный, то длительность берут тем ббльшуш, чем больше рееличия в характеристиках между типами гласных. С:

1075300

Изобретение относится к приборостроению и может быть использовано для синтеза произвольного речевого сообщения.

Известны способы компиляции речи из отдельных речевых элементов, 5 которые реализуются последовательным соединением аллофонов (частей фонем ) или дифонов (сочетанием отрезков. двух звуков)(1 ) и Г21.

Однако указанные способы облада- 10 ют тем недостатком, что при аллофонном или дифонном синтезах речи требуются, соответственно, или сложные программы управления, осуществляющие сшивание речи иэ аллофонов с 15 учетом их контекстной и позиционной вариативности, или большое число дифонов разнообразного типа, отражающих коартикуляционные связи между двумя соседними звуками.

Наиболее близким по технической сущности к изобретению является способ слоговой компиляции речи по тексту, использующий набор заранее записанных сигналов открытых слогов типа согласный — гласный и отдельных:. гласных фиксированной длительности, в котором произвольное сообщение формируют последовательным выбором и объединением слогов и отдельных звуков линейным интерполированием их параметров на постоянном временном интервале. Позиционную изменчивость звуков задают контуром основного тона и длительностью гласных и согласных звуков на основе фонети- 35 ко-просодического анализа синтезируемого текста (3 1.

Однако известный способ слоговой компиляции речи не имитирует естественные коартикуляционные связи 40 между соединяемыми слогами и звуками при их линейном интерполировании на постоянном временном интервале. Поэтому слоговая компиляция речи, обладая высокой разборчивостью,45 имеет выраженную слоговую структуру, что воспринимается слушающими как ухудшение качества звучания компилированной речи.

Целью изобретения является повышение качества звучания компилированной речи.

Поставленная цель достигается тем, что согласно способу слоговой компиляции речи по тексту, использующему набор заранее записанных сигналов открытых слогов типа согласный — гласный и отдельных гласных фиксированной длительности, перед согласными звуками слогов формируют переходные сегменты различной 60 длительности иэ последующих гласных звуков фиксированной длительности.

При этом длительность переходных сегментов выбирают в зависимости от предшествующего звука в пределах 65

0,1-0,4 от фиксированной длительности гласных, причем, если этот звук согласный, то длительность берут наименьшую, а если гласный, то тем большую, чем больше различия в характеристиках между типами гласных.

Более высокое качество звучания компилированной речи по предлагаемому способу объясняется тем, что при сшивании слогов и звуков в слитное речевое сообщение между естественными речевыми элементами формируют переходные сегменты различной длительности из гласного звука последующего слога. Эти переходные сегменты создают искусственную коартикуляцию звуков, близкую к естественной, так как для тех случаев, когда перестройка артикуляторных органов человека более длительна, обеспечивается большая длительность переходных сегментов.

На фиг. 1 показано формирование переходов, имитирующих коартикуляцию между сшиваемыми базовыми элементами речи; на фиг. 2 — блоксхема системы, реализующей способ слоговой компиляции речи.

Различия между параметрами гласных, интерпретируемые фазовыми порт-. ретами на плоскостях формантных часTOT F1 Fg P2 3 опреде расстояние в этих пространствах.

Длительность элементов речи, хранящихся в памяти, 300 мс. Если предшествующий звук согласный, то длительность переходного сегмента составляет 20-30 мс, а если гласный, то 50-120 мс, т.е. длительность переходного гласного составляет

0,1-0,4 от фиксированной длительности гласных, хранящихся в памяти.

Способ слоговой компиляции речи манжет быть реализован в соответствии со структурной схемой (фиг. 2) .

В лингвистическом процессоре 1 осуществляют фонетико-просодическое преобразование текстовой записи синтезируемой речи. На выходе этого блока текст представляют цепочкой открытых слогов и отдельных гласных звуков. Просодический анализатор задает контур основного тона и производит маркировку слогов на ударные, предударные и эаударные. В блоке эмуляции эффекта коартикуляции 2 осуществляют вставку гласных сегментов в цепочку символов с блока 1 в соответствии с предлагаемым способом. В вычислителе временных интервалов 3 формируют временные траектории параметров синтезируемого сообщения и его просодические характеристики для дальнейшего их преобразования в речевой сигнал синтезатором 4 вокодерного типа. Базовые

1075300

Составитель В.Суханов

Редактор Н.Пушненкова Техред С.Мигунова Корректор Г.ОгаР

Заказ 508/44

Тираж 375 Подписное

ВНИИПИ Государственного комитета СССР по делам изобретений и открытий

113035, Москва, Ж-35, Раушская наб., д. 4/5

Филиал ППП "Патент", г. Ужгород, ул. Проектная, 4 элементы, которые могут быть представлейы для экономии памяти в параметрическом виде, хранят в блоке 5 памяти и вызывают блоком 3 по мере образования временных траекторий параметров синтезируемого сообщения. Громкоговоритель б осуществляет преобразование речевого сигнала на выходе синтезатора 4 в акустические колебания.

Использование предлагаемого способа слоговой компиляции речи позволит повысить качество звучания синтезированной речи.

Способ слоговой компиляции речи Способ слоговой компиляции речи Способ слоговой компиляции речи 

 

Похожие патенты:

Изобретение относится к речевой информатике и приборостроению для синтеза речевых сообщений по тексту в системах акустического общения человека с автоматам

Изобретение относится к области синтеза речи из текста

Изобретение относится к области синтезирования речи из текста

Изобретение относится к информационным технологиям, в частности к предварительной обработке текстовой информации, и может быть использовано при распознавании и синтезе речи, аннотировании баз данных, а также при автоматическом синхронном переводе с языка на язык и других областях знаний

Изобретение относится к информационным технологиям, в частности к предварительной обработке текстовой информации, и может быть использовано при распознавании и синтезе речи и других технических областях, в которых требуется обработка текстовой информации средствами вычислительной техники

Изобретение относится к области сетей связи и устройств для приема и отправки сообщений через сети связи, а именно к предоставлению пользователю анимированного изображения лица отправителя сообщения

Изобретение направлено на формирование речевого сигнала с заданными характеристиками. Технический результат заключается в повышении естественности, разборчивости речи и ее эмоциональной окраски при генерации речевого сигнала при уменьшении вычислительной сложности за счет усовершенствования структуры элементов системы синтеза речи и разделения используемых баз данных. Устройство синтеза речи на основе текста, содержит блок, принимающий текстовую строку и формирующий из нее последовательность идентификаторов звуковых единиц, подаваемую в блок формирования звукового сигнала, а затем в блок воспроизведения. В блок формирования звукового сигнала параллельно подаются дополнительные команды управления, вырабатываемые из сформированной последовательности идентификаторов звуковых единиц блоком формирования управляющих команд, зависящих от языка, блоком формирования управляющих команд, зависящих от моделируемых параметров диктора, а именно параметров голоса и/или его физических и физиологических параметров, и блоком формирования управляющих параметров окраса голоса, настроенных на определенное психофизиологическое состояние, предназначенных для формирования управляющих параметров для коррекции интенсивности речевого сигнала. 1 з.п. ф-лы, 1 ил.

Изобретение относится к средствам синтеза речи по тексту. Технический результат заключается в повышении естественности человеческого голоса в синтезированной речи. Акустическая пространственная модель обучается на основе обучающих данных речевых атрибутов с использованием глубокой нейронной сети для определения факторов взаимозависимости между речевыми атрибутами в обучающих данных. Глубокая нейронная сеть создает единственную непрерывную акустическую пространственную модель на основе факторов взаимозависимости. Акустическая пространственная модель, таким образом, учитывает множество взаимозависимых речевых атрибутов и дает возможность моделировать непрерывный спектр взаимозависимых речевых атрибутов. Далее происходит получение текста; получение выбора одного или нескольких речевых атрибутов, причем каждый речевой атрибут обладает весом выбранного атрибута. Текст преобразуется в синтезированную речь с использованием акустической пространственной модели, и синтезированная речь обладает выбранным речевым атрибутом. Синтезированная речь выводится в виде аудио, обладающего выбранным речевым атрибутом. 2 н. и 12 з.п. ф-лы, 4 ил.
Наверх