Классификация типа эмоции для интерактивной диалоговой системы

Изобретение относится к средствам для классификации типа эмоции для интерактивной диалоговой системы. Технический результат заключается в обеспечении возможности генерировать синтезированную речь с эмоциональными характеристиками для повышения эффективности взаимодействия с пользователем. Выбирают, на основании по меньшей мере одного ввода факта или профиля, код типа эмоции, ассоциированный с высказыванием вывода, причем код типа эмоции указывает один из множества предварительно определенных типов эмоции. Генерируют высказывание вывода на естественном языке, причем высказывание вывода имеет предварительно определенное семантическое содержимое и указанный предварительно определенный тип эмоции, ассоциированный с кодом типа эмоции. Генерируют речь, соответствующую высказыванию вывода, причем речь генерируется с предварительно определенным типом эмоции, указанным посредством кода типа эмоции. 3 н. и 6 з.п. ф-лы, 12 ил.

 

ПРЕДПОСЫЛКИ СОЗДАНИЯ ИЗОБРЕТЕНИЯ

[0001] Искусственные интерактивные диалоговые системы становятся все более распространенным признаком в современных устройствах потребительской электроники. Например, современные беспроводные интеллектуальные телефоны включают программное обеспечение распознавания речи, интерактивного диалога, и синтеза речи, чтобы участвовать в интерактивной беседе в режиме реального времени с пользователем, чтобы доставлять такие услуги как информация и новости, конфигурирование и программирование дистанционных устройств, и т.д.

[0002] Для обеспечения пользователю восприятия более естественной и прозрачной беседы с диалоговой системой, желательно генерировать речь или другой вывод с эмоциональным содержимым в дополнение к семантическому содержимому. Например, при доставке новостей, задач планирования, или иного взаимодействия с пользователем, было бы желательным придавать эмоциональные характеристики синтезированной речи и/или другому выводу, чтобы более эффективно вовлекать пользователя в беседу.

[0003] Соответственно, желательно предоставить методики для определения пригодных эмоций для придания семантическому содержимому, которое доставляется интерактивной диалоговой системой, и классифицируя такие определенные эмоции в соответствии с одним из множества предварительно определенных типов эмоции.

СУЩНОСТЬ ИЗОБРЕТЕНИЯ

[0004] Данная Сущность Изобретения предоставляется, чтобы представить выбор концепций в упрощенной форме, которые дополнительно описываются ниже в Подробном Описании. Данная Сущность Изобретения как не предназначена для того, чтобы идентифицировать ключевые признаки или неотъемлемые признаки заявленного предмета изобретения, так и не предназначена для того, чтобы быть использованной для ограничения объема заявленного предмета изобретения.

[0005] Кратко, разнообразные аспекты предмета изобретения, описываемого в данном документе, направлены в отношении методик для предоставления устройства для интерактивной диалоговой системы. В аспекте, вводы факта или профиля, доступные для устройства мобильной связи, могут быть объединены с предыдущим или текущим вводом пользователя, чтобы выбирать соответствующий код типа эмоции, чтобы ассоциировать с высказыванием вывода, генерируемым посредством интерактивной диалоговой системы. Вводы факта или профиля могут быть извлечены из некоторых аспектов использования устройства, например, онлайновой активности пользователя, связи пользователя, функций календаря и планирования, и т.д. Алгоритмы для выбора кода типа эмоции могут быть основанными на правилах, или предварительно сконфигурированными, используя методики машинного обучения. Код типа эмоции может быть объединен с высказыванием вывода, чтобы генерировать синтезированную речь с эмоциональными характеристиками для улучшенного восприятия пользователя.

[0006] Другие преимущества могут стать очевидными из нижеследующего подробного описания и чертежей.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ

[0007] Фиг. 1 иллюстрирует сценарий использования устройства мобильной связи, в котором могут быть применены методики настоящего раскрытия.

[0008] Фиг. 2 иллюстрирует примерный вариант осуществления обработки, которая может быть выполнена посредством процессора или других элементов устройства.

[0009] Фиг. 3 иллюстрирует примерный вариант осуществления обработки, выполняемой посредством диалоговой машины.

[0010] Фиг. 4 иллюстрирует примерный вариант осуществления блока классификации типа эмоции в соответствии с настоящим раскрытием.

[0011] Фиг. 5 иллюстрирует примерный вариант осуществления алгоритма гибридной классификации типа эмоции.

[0012] Фиг. 6 иллюстрирует примерный вариант осуществления основанного на правилах алгоритма.

[0013] Фиг. 7 иллюстрирует альтернативный вариант осуществления основанного на правилах алгоритма.

[0014] Фиг. 8 иллюстрирует примерный вариант осуществления обучающей схемы для извлечения обучаемого алгоритма для выбора типа эмоции.

[0015] Фиг. 9 иллюстрирует примерный вариант осуществления способа в соответствии с настоящим раскрытием.

[0016] Фиг. 10 схематично показывает неограничивающую вычислительную систему, которая может выполнять один или более из описанных выше способов и процессов.

[0017] Фиг. 11 иллюстрирует примерный вариант осуществления устройства в соответствии с настоящим раскрытием.

[0018] Фиг. 12 иллюстрирует примерный вариант осуществления, в котором методики настоящего раскрытия включены в диалоговую систему с эмоциональным содержимым, которое придается отображаемому тексту, вместо или в дополнение к слышимой речи.

ПОДРОБНОЕ ОПИСАНИЕ

[0019] Разнообразные аспекты технологии, описываемой в данном документе, в целом направлены на технологию для выбора кода типа эмоции, ассоциированного с выражением вывода в электронной интерактивной диалоговой системе. Подробное описание, излагаемое ниже в связи с прилагаемыми чертежами, предназначено в качестве описания примерных аспектов изобретения и не предназначено для того, чтобы представить только примерные аспекты, в которых изобретение может быть реализовано на практике. Понятие «примерный», используемое на всем протяжении данного описания, означает «служащий в качестве примера, экземпляра, или иллюстрации», и не обязательно должно толковаться в качестве предпочтительного или преимущественного над другими примерными аспектами. Подробное описание включает в себя конкретные подробности в целях обеспечения исчерпывающего понимания примерных аспектов изобретения. Специалистам в соответствующей области техники будет очевидно, что примерные аспекты изобретения могут быть реализованы на практике без этих конкретных подробностей. В некоторых примерах, хорошо известные структуры и устройства показаны в форме структурной схемы для того, чтобы избежать затенения новизны примерных аспектов, представленных в данном документе.

[0020] Фиг. 1 иллюстрирует сценарий использования устройства 120 мобильной связи, в котором могут быть применены методики настоящего раскрытия. Отметим, что Фиг. 1 показана лишь в целях иллюстрации, и не означает, что ограничивает объем настоящего раскрытия только приложениями настоящего раскрытия к устройствам мобильной связи. Например, методики, описываемые в данном документе, могут быть легко применены в других устройствах и системах, например, в системах интерфейса «человек-машина» ноутбука или настольных компьютеров, автомобильных навигационных системах, и т.д. Такие альтернативные приложения рассматриваются как находящиеся в рамках объема настоящего раскрытия.

[0021] На Фиг. 1 пользователь 110 осуществляет связь с устройством 120 мобильной связи, например, переносным интеллектуальным телефоном. Интеллектуальный телефон можно понимать как включающий в себя любое мобильное устройство, интегрирующее функции связи, такой как голосовой вызов и доступ к Интернет, с относительно сложным микропроцессором для реализации разнообразной массы вычислительных задач. Пользователь 110 может предоставлять ввод 122 речи в микрофон 124 в устройстве 120. Один или более процессоры 125 внутри устройства 120, и/или процессоры (не показано) доступные через сеть (например, реализующие схему облачных вычислений), могут обрабатывать сигнал речи, принятый посредством микрофона 124, например, выполняя функции, как дополнительно описывается со ссылкой на Фиг. 2 ниже. Отметим, что не требуется, чтобы процессор 125 имел любую конкретную форму, очертание, или функциональное разбиение, такое как описанное в данном документе лишь в примерных целях, и такие процессоры могут, в целом, быть реализованы, используя разнообразные методики известные в области техники.

[0022] На основании обработки, выполняемой посредством процессора 125, устройство 120 может генерировать вывод 126 речи, отвечающий на ввод 122 речи, используя аудио громкоговоритель 128. В некоторых сценариях, устройство 120 также может генерировать вывод 126 речи независимо от ввода 122 речи, например, устройство 120 может автономно предоставлять предупреждения или ретранслировать сообщения от других пользователей (не показано) к пользователю 110 в форме вывода 126 речи. В примерном варианте осуществления, вывод, отвечающий на ввод 122 речи, также может быть отображен на дисплее 129 устройства 120, например, в качестве текста, графики, анимации, и т.д.

[0023] Фиг. 2 иллюстрирует примерный вариант осуществления интерактивной диалоговой системы 200, которая может быть реализована посредством процессора 125 и других элементов устройства 120. Отметим, что обработка, показанная на Фиг. 2, служит лишь в иллюстративных целях, и не предназначена для того, чтобы ограничивать объем настоящего раскрытия любой конкретной последовательностью или набором операций, показанных на Фиг. 2. Например, в альтернативных примерных вариантах осуществления, некоторые методики, раскрываемые в данном документе для выбора кода типа эмоции, могут быть применены независимо от обработки, показанной на Фиг. 2. Кроме того, один или более блоки, показанные на Фиг. 2, могут быть объединены или опущены в зависимости от конкретного функционального разбиения в системе, и, вследствие этого, Фиг. 2 не предполагает любой функциональной зависимости или независимости показанных блоков. Такие альтернативные примерные варианты осуществления считаются находящимися в рамках объема настоящего раскрытия.

[0024] На Фиг. 2, в блоке 210, принимается ввод речи. Ввод 210 речи может соответствовать представлению в форме волны акустического сигнала, извлекаемого из, например, микрофона 124 в устройстве 120. Вывод 210a ввода 210 речи может соответствовать оцифрованной версии акустической формы волны, содержащей содержимое речи.

[0025] В блоке 220, распознавание речи выполняется над выводом 210a. В примерном варианте осуществления, распознавание речи 220 переводит речь, такую как присутствующую в выводе 210a, в текст. Вывод 220a распознавания 220 речи может соответственно соответствовать текстовому представлению речи, присутствующей в оцифрованном акустическом в форме волны выводе 210a. Например, если вывод 210a включает в себя аудио в форме волны представление фрагмента речи человека такой, как «Какая погода будет завтра?», например, как собранная посредством микрофона 124, тогда распознавание 220 речи может выводить текст ASCII (или другое представление текста), соответствующий тексту «Какая погода будет завтра?» на основании его возможностей распознавания речи. Распознавание речи, как выполняемое посредством блока 220, может быть выполнено, используя методики акустического моделирования и языкового моделирования, включающие в себя, например, Скрытые Марковские Модели (HMM), нейронные сети, и т.д.

[0026] В блоке 230, понимание языка выполняется над выводом 220a распознавания 220 речи, на основании знаний ожидаемого естественного языка у вывода 210a. В примерном варианте осуществления, методики понимания естественного языка, такие как синтаксический анализ и грамматический анализ, могут быть выполнены, используя знание, например, морфологии и синтаксиса, для извлечения предполагаемого смысла текста в выводе 220a. Вывод 230a понимания 230 языка, может включать в себя формальное представление семантического и/или эмоционального содержимого речи, присутствующей в выводе 220a.

[0027] В блоке 240, диалоговая машина генерирует пригодный ответ на речь, как определенный из вывода 230a. Например, если понимание 230 языка определяет, что ввод речи пользователя соответствует запросу о погоде применительно к конкретной географии, тогда диалоговая машина 240 может получать и компоновать требуемую информацию о погоде из источников, например, услуги или базы данных прогноза погоды. Например, извлекаемая информация о погоде может соответствовать коду времени/даты для прогноза погоды, коду типа погоды, соответствующему «солнечной» погоде, и температурному полю, указывающему среднюю температуру в 72 градуса.

[0028] В примерном варианте осуществления, диалоговая машина 240 может дополнительно «упаковывать» извлеченную информацию так, что она может быть представлена для свободного понимания пользователем. Соответственно, вывод 240a семантического содержимого диалоговой машины 240 может соответствовать представлению семантического содержимого, такого как «солнечная погода сегодня; температура 72 градуса».

[0029] В дополнение к семантическому содержимому 240a, диалоговая машина может дополнительно генерировать код 240b типа эмоции, ассоциированный с семантическим содержимым 240a. Код 240b типа эмоции может указывать конкретный тип эмоционального содержимого, чтобы придавать семантическому содержимому 240a, при доставке пользователю в качестве речи вывода. Например, если пользователь планирует пикник на некоторый день, тогда солнечный прогноз погоды может быть одновременно доставлен с помощью эмоционально приподнятого тона голоса. В данном случае, код 240b тип эмоции может относиться к типу эмоционального содержимого, соответствующему «умеренное счастье». Методики для генерирования кода 240b типа эмоции по данным, фактам, и вводам, доступным для интерактивной диалоговой системы 200, будут дополнительно описаны ниже, например, со ссылкой на Фиг. 3.

[0030] В блоке 250, генерирование языка выполняется по выводам 240a, 240b диалоговой машины 240. Генерирование языка представляет вывод диалоговой машины 240 в формате естественного языка, например, в качестве предложений на целевом языке, подчиняющихся лексическим и грамматическим правилам, для свободного понимания пользователем-человеком. Например, на основании семантического содержимого 240a, генерирование 250 языка может генерировать следующее высказывание: «Сегодня погода будет 72 градуса и солнечной».

[0031] В примерном варианте осуществления, блок 250 может дополнительно осуществлять принятие ввода 255a от блока 255 индивидуальности системы. Блок 255 индивидуальности системы может указывать параметры 255a по умолчанию для диалоговой машины в соответствии с предварительно выбранной «индивидуальностью» для интерактивной диалоговой системы. Например, если индивидуальность системы выбрана, чтобы соответствовать «мужскому полу» или «женскому полу», или «веселому» или «задумчивому», тогда блок 255 может указывать параметры, соответствующие индивидуальности системы в качестве опорного ввода 255a. Отметим, что в некоторых примерных вариантах осуществления, блок 255 может быть опущен, или его функциональность может быть включена в другие блоки, например, диалоговую машину 240 или блок 250 генерирования языка, и такие альтернативные примерные варианты осуществления рассматриваются, как находящиеся в рамках объема настоящего раскрытия.

[0032] В примерном варианте осуществления, блок 250 генерирования языка может объединять семантическое содержимое 240a, код 240b типа эмоции, и эмоциональные параметры 255a по умолчанию, чтобы синтезировать высказывание 250a вывода. Например, код 240b типа эмоции, соответствующий «умеренному счастью», может предписывать блоку 250 генерировать предложение естественного языка (например, Английского), такое как «Хорошие новости - сегодня погода будет 72 градуса и солнечной!» Высказывание 250a вывода блока 250 генерирования языка предоставляется последующему блоку 260 текста-в-речь, чтобы генерировать аудио речь, соответствующую высказыванию 250a вывода.

[0033] Отметим, что в некоторых примерных вариантах осуществления, некоторая функциональность блока 250 генерирования языка, описанная выше, может быть опущена. Например, блоку 250 генерирования языка не требуется в частности учитывать код 240b типа эмоция при генерировании высказывания 250a вывода, и вместо этого на блок 260 текст-в-речь (который также имеет доступ к коду 240b типа эмоции) может быть возложено предоставление полного эмоционального содержимого синтезированного вывода речи. Кроме того, в некоторых случаях, где информация, извлекаемая посредством диалоговой машины, уже присутствует в формате естественного языка, тогда можно эффективно обходить блок 250 генерирования языка. Например, услуга погоды Интернет, к которой осуществляется доступ посредством диалоговой машины 240, может предоставлять обновления погоды непосредственно на естественном языке, таком как Английский, так что генерированию 250 языка может не требоваться выполнять любую существенную пост-обработку над сематическим содержимым 240a. Такие альтернативные примерные варианты осуществления рассматриваются, как находящиеся в рамках объема настоящего раскрытия.

[0034] В блоке 260, преобразование текст-в-речь выполняется над выводом 250a генерирования 250 языка. В примерном варианте осуществления, код 240b типа эмоции также предоставляется блоку 260 TTS, чтобы синтезировать речь с текстовым содержимым, соответствующим 250a, и эмоциональным содержимым, соответствующим коду 240b типа эмоции. Выводом преобразования 260 текст-в-речь может быть аудио в форме волны.

[0035] В блоке 270, акустический вывод генерируется из вывода преобразования 260 текст-в-речь. Вывод речи может быть предоставлен слушателю, например, пользователю 110 на Фиг. 1, посредством громкоговорителя 128 устройства 120.

[0036] Поскольку интерактивные диалоговые системы становятся все более сложными, было бы желательным предоставить методики для эффективного выбора пригодных кодов типа эмоции для речи и других типов вывода, генерируемого посредством таких систем. Например, как предлагается посредством предоставления кода 240b типа эмоции наряду с семантическим содержимым 240a, в некоторых приложениях применительно к выводу 270 речи желательно, чтобы он генерировался не только в качестве эмоционально нейтрального рендеринга речи, но также, чтобы он включал предварительно указанное эмоциональное содержимое при доставке слушателю. Таким образом, высказывание 250a вывода может быть ассоциировано с пригодным кодом 240b типа эмоции так, что пользователь 110 будет воспринимать соответствующее эмоциональное содержимое, которое должно присутствовать в выводе 270 речи.

[0037] Например, если диалоговая машина 240 указывает, что семантическое содержимое 240a соответствует информации о том, что некоторая бейсбольная команда выиграла Мировую Серию, и пользователь 110 дополнительно является поклонником той бейсбольной команды, тогда выбор кода 240b типа эмоции, чтобы представлять «возбужденный» (в противоположность, например, нейтральному или несчастливому), чтобы совпадать с эмоциональным состоянием пользователя, вероятно приведет к более удовлетворяющему интерактивному восприятию для пользователя 110.

[0038] Фиг. 3 иллюстрирует примерный вариант осуществления 240.1 обработки, выполняемой посредством диалоговой машины 240, чтобы генерировать соответствующее семантическое содержимое, как впрочем, и ассоциированный код типа эмоции. Отметим, что Фиг. 3 показана лишь в иллюстративных целях, и не предназначена для того, чтобы ограничивать объем настоящего раскрытия любым конкретным приложением методик, описываемых в данном документе.

[0039] На Фиг. 3, диалоговая машина 240.1 включает в себя блок 310 генерирования семантического содержимого и блок 320 классификации типа эмоции, также именуемый в данном документе «блоком классификации». Как блоку 310, так и блоку 320 предоставляется ввод 230a диалога пользователя, который может включать в себя вывод понимания 230 языка, выполненного над одним или более высказываниями или запросами посредством пользователя 110 в текущем или любом предыдущем диалоговом сеансе. В частности, блок 310 генерирования семантического содержимого генерирует семантическое содержимое 240.1a, соответствующее информации, которая должна быть доставлена пользователю, в то время как блок 320 классификации типа эмоции генерирует соответствующий тип эмоции, представленный посредством кода 240.1b типа эмоции, который должен быть придан семантическому содержимому 240.1a. Отметим, что ввод 230a диалога пользователя может быть понят, как включающий в себя любые или все из вводов пользователя из текущего или предыдущего диалоговых сеансов, например, как хранящиеся в файлах истории на локальном устройстве памяти, и т.д.

[0040] В дополнение к вводу 230a диалога пользователя, блоку 320 дополнительно предоставляются вводы 301 «факта или профиля», которые могут включать в себя параметры, извлеченные из использования устройства, на котором реализуется диалоговая машина 240.1. Блок 320 классификации типа эмоции может генерировать соответствующий код 240.1b типа эмоции на основании сочетания вводов 301 факта и профиля и ввода 230a диалога пользователя в соответствии с одним или более алгоритмами, например, с параметрами, полученных посредством обучения в режиме офлайн в соответствии с методиками машинного обучения, которые дополнительно раскрываются ниже. В примерном варианте осуществления, код 240.1 типа эмоции может включать в себя спецификацию как эмоции (например, «счастливый», и т.д.), так впрочем и индикатор степени, указывающий степень, в которой демонстрируется та эмоция (например, число от 1-5, с 5, указывающим «очень счастливый»). В примерном варианте осуществления, код 240.1b типа эмоции может быть выражен в формате, таком как указанный на Языке Разметки Эмоции (EmotionML) для указания одного из множества предварительно определенных типов эмоции, который может быть придан речи вывода.

[0041] Отмечается, что текущая тенденция современных потребительских устройств, таких как интеллектуальные телефоны, состоит в том, что они все чаще берут на себя роль незаменимых персональных помощников, интегрирующих разнообразный набор функций в едином мобильном устройстве, которое пользователь носит часто, и частенько постоянно. Повторное использование такого устройства одним пользователем для широкого многообразия целей (например, голосовых связей, доступа к Интернету, планирования расписания, отдыха, и т.д.) обеспечивает потенциальный доступ посредством интерактивной диалоговой системы 200 к большому количеству существенных данных для выбора кода 240.1b типа эмоции. Например, если услуги местоположения доступны для интеллектуального телефона, тогда данные, касающиеся географического места действия пользователя с периодом времени, могут быть использованы, чтобы подразумевать некоторые географические предпочтения пользователя, например, который является поклонником местной спортивной команды, или склонности к посещению новых ресторанов в некоторой зоне, и т.д. Другие примеры сценариев использования, генерирующих существенные данные, включают в себя, но не ограничиваются, осуществление доступа к Интернету, используя интеллектуальный телефон, чтобы выполнять поиски темы или ключевого слова, планирование дат или встреч календаря, установку профилей пользователя во время инициализации устройства, и т.д. Такие данные могут совокупно использоваться диалоговой системой, чтобы осуществлять доступ к соответствующему коду 240.1b типа эмоции, чтобы придавать его семантическому содержимому 240.1a во время интерактивного диалогового сеанса с пользователем 110. С учетом таких сценариев использования, в частности преимущественным является извлечение, по меньшей мере, одного или даже нескольких вводов 301 факта или профиля из использования устройства мобильной связи, реализующего интерактивную диалоговую систему.

[0042] Фиг. 4 иллюстрирует примерный вариант осуществления 320.1 блока классификации типа эмоции в соответствии с настоящим раскрытием. На Фиг. 4, примерные вводы 301.1 факта или профиля, которые могут быть получены посредством устройства 120, включают в себя множество параметров 402-422 факта или профиля, выбираемых проектировщиком системы в качестве существенных для задачи классификации типа эмоции. Отметим, что примерные вводы 301.1 факта или профиля приводятся лишь в иллюстративных целях. В альтернативных примерных вариантах осуществления, любые из индивидуальных параметров вводов 301.1 факта или профиля могут быть опущены, и/или могут быть добавлены другие параметры, не показанные на Фиг. 4. Не требуется, чтобы параметры 402-422 описывали непересекающиеся классы параметров, т.е. один тип ввода, используемого блоком 320.1 классификации типов эмоции, может одновременно попадать в две или более категории вводов 402-422. Такие альтернативные примерные варианты осуществления рассматриваются как находящиеся в рамках объема настоящего раскрытия.

[0043] Конфигурация 402 пользователя включает в себя информацию, которая непосредственно вводится пользователем 110 в устройство 120, которая способствует классификации типа эмоции. В примерном варианте осуществления, во время настройки устройства 120, или, как правило, во время работы устройства 120, у пользователя 110 может быть запрошено ответить на ряд вопросов профиля. Например, пользователю 110 может быть предоставлен запрос касательно возраста и пола, увлечений, интересов, любимых фильмов, видов спорта, черт характера, и т.д. В некоторых случаях, информацию касательно черт характера пользователя (например, экстраверт или интроверт, доминирующий или покорный, и т.д.) можно предположить, задав вопросы из анкеты опроса о личности. Информация из конфигурации 402 пользователя может быть сохранена для дальнейшего использования блоком 320.1 классификации типа эмоции для выбора кода 240.1 типа эмоции.

[0044] Онлайновая активность 404 пользователя включает в себя статистику использования Интернет и/или содержимое данных, передаваемых к и из Интернет или других сетей через устройство 120. В примерном варианте осуществления, онлайновая активность 404 может включать в себя поисковые запросы пользователя, например, как подаваемые веб-поисковой машине через устройство 120. Может отмечаться содержимое поисковых запросов пользователя, как, впрочем, и другая статистика, такая как частота и/или хронометрах сходных запросов и т.д. В примерном варианте осуществления, онлайновая активность 404 может дополнительно включать в себя идентификационные данные часто посещаемых веб-сайтов, содержимое сообщения электронной почты, размещение сообщений на веб-сайтах социальных сетей, и т.д.

[0045] Связь 406 пользователя включает в себя текстовую или голосовую связь, которая проводится, используя устройство 120. Такая связь может включать в себя, например, текстовые сообщения, отправленные через услугу коротких сообщений (SMS), голосовые вызовы через беспроводную сеть, и т.д. Связь 406 пользователя также может включать в себя обмен сообщениями в собственных или сторонних социальных сетях, например, веб-сайтах Интернет, доступ к которым осуществляет пользователь 110, используя устройство 120, или приложения мгновенного обмена сообщениями или чата.

[0046] Местоположение 408 пользователя может включать в себя записи местоположения пользователя, доступные устройству 120, например, через беспроводную связь с помощью одной или более сотовых базовых станций, или основанные на Интернет услуги местоположения, если такие услуги задействованы. Местоположение 408 пользователя может дополнительно указывать контекст местоположения пользователя, например, если пользователь находится дома или на работе, в автомобиле, в переполненной среде, на собрании, и т.д.

[0047] Календарь/функции планирования/локальная дата и время 410 могут включать в себя информацию о времени в качестве существенной для классификации эмоции на основании расписания активностей пользователя. Например, такая информация может базироваться на использовании устройства 120 пользователем 110 в качестве персонального средства организации планирования. В примерном варианте осуществления, тот факт, является ли сегмент времени в календаре пользователя доступным или недоступным, может быть существенным для классификации типа эмоции. Кроме того, природа предстоящей встречи, например, запланированных каникул или важного делового собрания, также может быть существенным.

[0048] Календарь/функции планирования/локальная дата и время 410 могут дополнительно включать информацию, такую как пересекается ли определенное время с рабочими часами пользователя, или соответствует ли текущая дата выходным дням, и т.д.

[0049] Эмоциональное состояние 412 пользователя включает в себя данные, которые относятся к определению эмоциональному состоянию пользователя в режиме реального время. Такие данные могут включать в себя содержимое фрагментов речи пользователя для диалоговой системы, как впрочем и параметры голоса, психологические сигналы, и т.д. Технология распознавания эмоции может дополнительно быть использована, чтобы подразумевать эмоции пользователя посредством регистрации, например, речи пользователя, выражения лица, последних текстовых сообщений, которые были сообщены к и от устройства 120, физиологические знаки, включая температуру тела и частоту сердцебиения, и т.д., как регистрируемые посредством разнообразных датчиков (например, вводов 420 физического датчика) на устройстве 120.

[0050] Статистика 414 использования устройства включает в себя информацию касательно того, насколько часто пользователь 110 использует устройство 120, насколько долго пользователь использовал устройство 120, для каких целей, и т.д. В примерном варианте осуществления, количество раз и частота взаимодействий пользователя с устройством 120 на протяжении дня могут быть записаны, как, впрочем, и использованные приложения, или посещенные веб-сайты, во время этих взаимодействий.

[0051] Онлайновые информационные ресурсы 416 могут включать в себя новости или события, которые относятся к интересам пользователя, как полученные из онлайновых информационных источников. Например, на основании определения того, что пользователь 110 является поклонником спортивной команды, тогда онлайновые информационные ресурсы 416 могут включать в себя новости о том, что та спортивная команда недавно выиграла игру. В качестве альтернативы, если пользователь 110 определяется как имеющий предпочтение в отношении некоторого типа кухни, например, тогда онлайновые информационные ресурсы 416 могут включать в себя новости о том, что новый ресторан того типа только что открылся рядом с домом пользователя.

[0052] Индивидуальность 418 цифрового помощника (DA) может указывать профиль индивидуальности для диалоговой системы так, что взаимодействие с диалоговой системой посредством пользователя более точно имитирует взаимодействие с помощником-человеком. Профиль индивидуальности DA может указывать, например, является ли DA экстравертом или интровертом, доминирующим или покорным, или пол DA. Например, индивидуальность 418 DA может указывать профиль, соответствующий женской, веселой индивидуальности, для цифрового помощника. Отметим, что данное свойство может быть предоставлено альтернативно, или в связи с, блоком 255 индивидуальности системы, как описано выше со ссылкой на Фиг. 2.

[0053] Вводы 420 физического датчика могут включать в себя сигналы, извлекаемые из датчиков на устройстве 120 для регистрации физических параметров устройства 120. Например, вводы 420 физического датчика могут включать в себя сигналы датчика от акселерометров и/или гироскопов в устройстве 120, например, для определения, идет ли в настоящий момент пользователь 110 или находится в автомобиле, и т.д. Знание текущей ситуации мобильности пользователя может предоставлять информацию для блока 320.1 классификации типа эмоции, содействующую генерированию должного эмоционального ответа. Вводы 420 физического датчика также могут включать в себя сигналы датчика от микрофонов или других акустических записывающих устройств в устройстве 120, например, чтобы подразумевать характеристики среды на основании фонового шума, и т.д.

[0054] История 422 беседы может включать в себя любые записи настоящей и прошлой бесед между пользователем и цифровым помощником.

[0055] Вводы 301.1 факта или профиля, наряду с вводом 230a диалога пользователя, могут быть предоставлены в качестве ввода в алгоритм 450 классификации типа эмоции блока 320.1 классификации типа эмоции. Алгоритм 450 классификации типа эмоции может соотносить многомерный вектор, указываемый посредством конкретных вводов 301.1 факта или профиля и ввод 230a диалога пользователя, с конкретным определением вывода кода 240.1b типа эмоции, например, указывая должный тип эмоции и соответствующую степень той эмоции.

[0056] Фиг. 5 иллюстрирует примерный вариант осуществления 450.1 гибридного алгоритма классификации типа эмоции. Отметим, что Фиг. 5 показана только для иллюстративных целей, и не предназначена для того, чтобы ограничивать объем настоящего раскрытия любым конкретным типом показанного алгоритма.

[0057] На Фиг. 5, алгоритм 450.1 классификации типа эмоции включает в себя блок 510 выбора алгоритма для выбора, по меньшей мере, одного алгоритма, который должен быть использован для выбора типа эмоции. В примерном варианте осуществления, по меньшей мере, один алгоритм включает в себя основанные на правилах алгоритмы 512 и обучаемые алгоритмы 514. Основанные на правилах алгоритмы 512 могут соответствовать алгоритмам, указанным проектировщиками диалоговой системы, и могут, как правило, быть основаны на фундаментальных обоснованиях, которые выявляются проектировщиками для назначения заданного типа эмоции конкретным сценариям, фактам, профилям, и/или вводам диалога пользователя. Обучаемые алгоритмы 514, с другой стороны, могут соответствовать алгоритмам, параметры и функциональные соотнесения которых извлекаются, например, офлайн, из больших наборов обучающих данных. Следует иметь в виду, что взаимосвязи между входами и выходами в обучаемых алгоритмах 514 могут быть менее прозрачны для проектировщика системы, чем в основанных на правилах алгоритмах 512, и обучаемые алгоритмы 514 могут, как правило, захватывать более сложные взаимные зависимости среди переменных, как определяется из обучения алгоритма.

[0058] Как видно на Фиг. 5, как основанные на правилах алгоритмы 512, так и обучаемые алгоритмы 514 могут осуществлять принятие в качестве вводов вводов 301.1 факта или профиля и ввода 230a диалога пользователя. Блок 510 выбора алгоритма может выбирать должный один из алгоритмов 512 или 514, чтобы использовать для выбора кода 240.1b типа эмоции в любом случае. Например, в ответ на вводы 301.1 факта или профиля и/или ввод 230a диалога пользователя, соответствующие предварительно определенному набору значений, блок 510 выбора может выбирать реализацию конкретного основанного на правилах алгоритма 512 вместо обучаемого алгоритма 514, или наоборот. В примерном варианте осуществления основанные на правилах алгоритмы 512 могут быть предпочтительными в некоторых случаях над обучаемыми алгоритмами 514, например, если их исполнение, основанное на фундаментальных обоснованиях, может приводить к более точной классификации типа эмоции в некоторых случаях. Основанные на правилах алгоритмы 512 также могут быть предпочтительными в некоторых сценариях, в которых, например, отсутствуют достаточные обучающие данные, доступные для исполнения некоторого типа обучаемого алгоритма 514. В примерном варианте осуществления основанные на правилах алгоритмы 512 могут быть выбраны, когда для проектировщика является относительно простым извлечение ожидаемого ответа на основании конкретного набора вводов.

[0059] Фиг. 6 иллюстрирует примерный вариант осуществления 600 основанного на правилах алгоритма. Отметим, что Фиг. 6 показана только для иллюстративных целей, и не предназначена для того, чтобы ограничивать объем настоящего раскрытия основанными на правилах алгоритмами, любой конкретной реализацией основанных на правилах алгоритмов, или любым конкретным форматом или содержимым для показанных вводов 301.1 факта и профиля или типов 240b эмоции.

[0060] На Фиг. 6, в блоке 610 принятия решения, определяется, является ли эмоциональное состояние 412 пользователя «Счастливым». Если нет, алгоритм переходит к блоку 612, который устанавливает код 240b типа эмоции в «Нейтральный». Если да, алгоритм переходит к блоку 620 принятия решения.

[0061] В блоке 620 принятия решения, дополнительно определяется, является ли параметр 402.1 индивидуальности конфигурации 402 пользователя «Экстравертом». Если нет, тогда алгоритм переходит к блоку 622, который устанавливает код 240b типа эмоции в «Заинтересованный(1)», обозначающий тип эмоции «Заинтересованный» со степенью 1. Если да, алгоритм переходит к блоку 630, который устанавливает код 240b типа эмоции в «Счастливый(3)».

[0062] Следует иметь в виду, что основанный на правилах алгоритм 600 выборочно устанавливает код 240b типа эмоции на основании индивидуальности пользователя, в предположении, что экстровертированный пользователь будет больше привлечен диалоговой системой, демонстрирующей более приподнятый или «более счастливый» тип эмоции. Основанный на правилах алгоритм 600 дополнительно устанавливает код 240b типа эмоции на основании текущего эмоционального состояния пользователя, в предположении, что в настоящий момент счастливый пользователь будет реагировать более позитивно на систему с типом эмоции, который также счастливый. В альтернативных примерных вариантах осуществления, другие основанные на правилах алгоритмы, в явной форме не описанные в данном документе, могут легко быть исполнены, чтобы связывать код 240b типа эмоции с другими параметрами и значениями вводов 301.1 факта или профиля.

[0063] Как иллюстрируется посредством алгоритма 600, определению кода 240b типа эмоции не требуется всегда использовать все доступные параметры в вводах 301.1 факта или профиля и вводе 230a диалога пользователя. В частности, алгоритм 600 использует только эмоциональное состояние 412 пользователя и конфигурацию 402 пользователя. Такие примерные варианты осуществления алгоритмов, использующие любое подмножество доступных параметров, как, впрочем, и альтернативные примерные варианты осуществления алгоритмов, использующих параметры, которые явным образом не описаны в данном документе, рассматриваются как находящиеся в рамках объема настоящего раскрытия.

[0064] Фиг. 7 иллюстрирует альтернативный примерный вариант 700 осуществления основанного на правилах алгоритма. На Фиг. 7, в блоке 710 принятия решения, определяется, соответствует ли ввод 230a диалога пользователя запросу пользователя в отношении обновленных новостей. Если да, тогда алгоритм переходит к блоку 720 принятия решения.

[0065] В блоке 720 принятия решения определяется, является ли эмоциональное состояние 412 пользователя «Счастливым», и дополнительно, указывают ли онлайновые информационные ресурсы 416, что любимая спортивная команда пользователя, только что выиграла игру. В примерном варианте осуществления, сама по себе любимая спортивная команда пользователя может быть извлечена из других параметров вводов 301.1 факта или профиля, например, из конфигурации 402 пользователя, онлайновой активности 404 пользователя, календаря/функций 410 планирования, и т.д. Если выводом блока 720 принятия решения является да, тогда алгоритм переходит к блоку 730, где код 240b типа эмоции устанавливается в «Возбужденный(3)».

[0066] В дополнение к основанным на правилах алгоритмам для выбора кода 240b типа эмоции, алгоритм 450.1 классификации типа эмоции может в качестве альтернативы или совместно использовать обучаемые алгоритмы. Фиг. 8 иллюстрирует примерный вариант осуществления 800 обучающей схемы для извлечения обучаемого алгоритма для выбора типа эмоции. Отметим, что Фиг. 8 показана только в иллюстративных целях, и не предназначена для того, чтобы ограничивать объем настоящего раскрытия любыми конкретными методиками для обучения алгоритмов для выбора типа эмоции.

[0067] На Фиг. 8, во время фазы 801 обучения, блоку 810 обучения алгоритма предоставляются вводы, включающие в себя ряд или множество опорных вводов 301.1* факта или профиля, соответствующие ряду опорных предшествующих вводов 230* пользователя, и соответствующий ряд опорных кодов 240.1b* типа эмоции. Отметим, что параметр x, заключенный в фигурные скобки {x}, обозначает в данном документе множество или ряд объектов x. В частности, каждый опорный ввод 301.1* факта или профиля соответствует конкретной комбинации установок для вводов 301.1 факта или профиля.

[0068] Например, один примерный опорный ввод 301.1* факта или профиля может указывать на то, что конфигурация 402 пользователя включает в себя «экстровертированный» тип индивидуальности, онлайновая активность 404 пользователя включает в себя несколько экземпляров онлайновых поисков фразы «Морские Ястребы», местоположение 408 пользователя соответствует «Сиэтл» в качестве города проживания, и т.д. Соответствуя данному опорному вводу 301.1* факта или профиля, опорный ввод 230a* диалога пользователя может включать в себя запрос пользователя касательно последних новостей спорта. В альтернативном случае, опорным вводом 230a* диалога пользователя, соответствующим данному опорному вводу 301.1* факта или профиля, может быть пустая (NULL) строка, указывающая отсутствующий предыдущий ввод пользователя. На основании данной примерной комбинации опорного ввода 301.1* факта или профиля и соответствующего опорного ввода 230a* диалога пользователя, опорный код 240.1b* типа эмоции может быть указан блоку 810 обучения алгоритма во время фазы 801 обучения.

[0069] В примерном варианте осуществления, должный опорный код 240.1b* типа эмоции для конкретных установок опорного ввода 301.1* факта или профиля и ввода 230a* диалога пользователя может быть предоставлен людьми-комментаторами или людьми-экспертами. Этим людям-комментаторам могут быть представлены индивидуальные комбинации опорных вводов факта или профиля и опорных вводов пользователя во время фазы 801 обучения, и они могут комментировать каждую комбинацию пригодным типом эмоции, отвечающим ситуации. Данный процесс может повторяться, используя много людей-комментаторов и много комбинаций опорных вводов факта или профиля и предыдущих вводов пользователя, так что большой объем данных обучения становится доступен блоку 810 обучения алгоритма. На основании обучающих данных и опорных комментариев типа эмоции, оптимальный набор параметров 810a обучаемого алгоритма может быть извлечен для обучаемого алгоритма, который наиболее точно соотносит заданную комбинацию опорных вводов с опорным выводом.

[0070] В примерном варианте осуществления, человек-комментатор может обладать некоторыми характеристиками, которые сходны или идентичны соответствующим характеристикам индивидуальности цифрового помощника. Например, человек-комментатор может иметь тот же самый пол или тип индивидуальности как и сконфигурированные характеристики цифрового помощника, как обозначено, например, индивидуальностью 255 системы и/или индивидуальностью 418 цифрового помощника.

[0071] Блок 810 обучения алгоритма выполнен с возможностью, в ответ на несколько поставляемых экземпляров опорного ввода 301.1* факта или профиля, ввода 230a* диалога пользователя, и опорного кода 240.1b* типа эмоции, извлечения набора параметров алгоритма, например, весовых коэффициентов, структур, коэффициентов, и т.д., которые оптимально соотносят каждую комбинацию вводов с подаваемым опорным типом эмоции. В примерном варианте осуществления, могут быть использованы методики из машинного обучения, например, контролируемое обучение, которое оптимально извлекает общее правило для соотнесения вводов с выводами. Блок 810 обучения алгоритма соответственно генерирует оптимальный набор параметров 810a обучаемого алгоритма, который предоставляется примерному варианту осуществления 514.1 блока 514 обучаемого алгоритма, такого как показанный на Фиг. 5. В частности, блок 514.1 выбирает тип 240.1b эмоции во время операции 802 в режиме реального времени в соответствии с параметрами 810a обучаемого алгоритма.

[0072] Дополнительно ниже предоставляется иллюстративное описание примерного приложения методик настоящего раскрытия. Отметим, что пример приведен только в иллюстративных целях, и не предназначен для того, чтобы ограничивать объем настоящего раскрытия любыми конкретными наборами или типами вводов факта или профиля, ответов системы, или сценариев.

[0073] Марк является поклонником футбола. Он всегда обращает внимание на новости касательно Национальной Футбольной Лиги (NFL). Будучи жителем Сиэтла, его любимой командой являются Сиэтлские Морские Ястребы. Каждое Воскресенье, Марк смотрит матчи по футболу онлайн при помощи своего интеллектуального телефона, и обсуждает игроков и команды со своими друзьями через онлайновые приложения чата. Он также делится своими активностями и интересами в приложениях социальных сетей. Несколько месяцев назад, когда Морские Ястребы победили Людей 49-ого в овертайме, он был очень возбужден и широко обсуждал победу на своей странице профиля в социальной сети.

[0074] В данный Понедельник, Морские Ястребы играют с Людьми 49-ого в Сан-Франциско в Ночном Футболе по Понедельникам. К сожалению, у Марка был ужин с клиентом, и он пропустил игру. Ужин был важной встречей для Марка, так как он собирался закрыть сделку. Оказалось, что встреча прошла очень хорошо, и предложение Марка было принято клиентом. После ужина, когда Марк вел автомобиль к своему дому, он активировал интерактивную диалоговую систему (или цифрового помощника DA) на своем интеллектуальном телефоне для участия в голосовой беседе в режиме реального времени.

[0075] Марк: «Эй, это был отличный ужин! Я скрепил сделку. Думаю, Дону (начальник Марка) это понравится.»

[0076] Цифровой Помощник (приподнятым тоном голоса»: «Отлично! Приятно слышать!». (Ответ 1 DA).

[0077] Марк: «Итак, как насчет Морских Ястребов? Расскажи мне!»

[0078] Цифровой Помощник (возбужденным тоном голоса): «Угадай, твои Морские Ястребы победили! Они обыграли Людей 49-ого 30 на 25. Рассел Вилсон отдал два пасса с тачдауном в четвертой четверти». (Ответ 2 DA).

[0079] Марк: «Ух ты, здорово. Мне жаль, что я пропустил эту игру. Я думаю, что они вновь выйдут в плей-офф в этом году!»

[0080] Цифровой Помощник (продолжая возбужденным тоном голоса, чуть более сдержано): «Да! Я должен просто заблокировать Ваш календарь на время плей-офф! Я не думаю, что вы хотели бы пропустить это!» (Ответ 3 DA).

[0081] Предшествующий результат иллюстрирует несколько аспектов методик настоящего раскрытия. В частности, интерактивная диалоговая система знает, что Марк является поклонником футбола, и также поклонником Морских Ястребов. Он получает данную информацию из, например, явных установок, сконфигурированных Марком в своем цифровом помощнике, указывающих, что Марк желает отслеживать футбольные новости, и также что его любимой командой являются Морские Ястребы. Из онлайновых информационных источников, DA также осведомлен о том, что Морские Ястребы играли этой ночью против их команды-соперника, Людей 49-го из Сан-Франциско, и что в результате Морские Ястребы их победили. Это позволяет DA выбирать тип эмоции, соответствующий возбужденному тону голоса (Ответ 2 DA) при представлении Марку отчета о новости, что Морские Ястребы победили. Кроме того, на основании знания предпочтений Марка и его предшествующего ввода, DA выбирает возбужденный тон голоса, предлагая заблокировать время для Марка в его календаре (Ответ 3 DA).

[0082] Диалоговая система дополнительно обладает информацией касательно индивидуальности Марка, как извлеченной из, например, шаблона использования Марком его интеллектуального телефона (например, частота использования, время использования, и т.д.), персональных интересов и увлечений, как указанных Марком во время настройки его интеллектуального телефона, как, впрочем, и обновлений статуса его социальной сети. В данном примере, диалоговая система может определять, что Марк является экстравертом и добросовестным человеком на основании алгоритмов машинного обучения, разработанных для работы с большим количеством статистики, сгенерированной посредством шаблона использования Марком его телефона, чтобы подразумевать индивидуальность Марка.

[0083] Дополнительная информация извлекается из того факта, что Марк активировал систему DA около двух месяцев назад, и что он с того момента использует DA регулярно и с нарастающей частотой. В последнюю неделю, Марк взаимодействовал с DA в среднем 5 раз в день. В примерном варианте осуществления, некоторый алгоритм классификации типа эмоции может подразумевать растущую близость между Марком и DA из-за такой частоты взаимодействия.

[0084] DA дополнительно определяет текущее эмоциональное состояние Марка как счастливое по его голосу. По его использованию календаря/функции планирования на устройстве, DA знает, что сейчас нерабочие часы, и что Марк только что закончил встречу с его клиентом. Во время взаимодействия, DA идентифицирует, что Марк находится в его автомобиле, например, по созданию беспроводного соединения Bluetooth с электроникой автомобиля, по интервалам неподвижности, следующим за интервалами ходьбы, как определяемые акселерометром, по более низкому уровню фонового шума внутри автомобиля, по измеренной скорости перемещения, и т.д. Кроме того, по прошлым данным, таким как история данных местоположения, сопоставленных со статистикой времени дня, и т.д., предполагается, что Марк ведет автомобиль домой после ужина. Соответственно, посредством алгоритма классификации, такого как описанный со ссылкой на блок 450.1 на Фиг. 4, DA выбирает тип эмоции, соответствующий приподнятому тону голоса (Ответ 1 DA).

[0085] Фиг. 9 иллюстрирует примерный вариант осуществления способа 900 в соответствии с настоящим раскрытием. Отметим, что Фиг. 9 показана только в иллюстративных целях, и не предназначена для того, чтобы ограничивать объем настоящего раскрытия любым конкретным показанным способом.

[0086] На Фиг. 9, в блоке 910, способ включает в себя выбор, на основании, по меньшей мере, одного ввода факта или профиля, кода типа эмоции, ассоциированного с высказыванием вывода, причем код типа эмоции указывает один из множества предварительно определенных типов эмоции.

[0087] В блоке 920, способ включает в себя генерирование речи, соответствующей высказыванию вывода, причем речь генерируется с предварительно определенным типом эмоции, указанным посредством кода типа эмоции. В примерном варианте осуществления, по меньшей мере, один ввод факта или профиля извлекается из использования устройства мобильной связи, реализующего интерактивную диалоговую систему.

[0088] Фиг. 10 схематично показывает не ограничивающую вычислительную систему 1000, которая может выполнять один или более из описанных выше способов и процессов. Вычислительная система 1000 показана в упрощенной форме. Следует понимать, что виртуально любая компьютерная архитектура может быть использована, не отступая от объема данного раскрытия. В разных вариантах осуществления, вычислительная система 1000 может принимать форму компьютера класса мэйнфрейм, серверного компьютера, системы облачных вычислений, настольного компьютера, компьютера класса лэптоп, планшетного компьютера, домашнего развлекательного компьютера, сетевого вычислительного устройства, мобильного вычислительного устройства, устройства мобильной связи, интеллектуального телефона, игрового устройства, и т.д.

[0089] Вычислительная система 1000 включает в себя процессор 1010 и память 1020. Вычислительная система 1000 может опционально включать в себя подсистему дисплея, подсистему связи, подсистему датчика, подсистему камеры, и/или другие компоненты, не показанные на Фиг. 10. Вычислительная система 100 также может опционально включать в себя устройства ввода пользователя, такие как клавиатуры, мыши, игровые контроллеры, камеры, микрофоны, и/или сенсорные экраны, например.

[0090] Процессор 1010 может выключать в себя одно или более физические устройства, выполненные с возможностью исполнения одной или более инструкций. Например, процессор может быть выполнен с возможностью исполнения одной или более инструкций, которые являются частью одного или более приложений, услуг, программ, подпрограмм, библиотек, объектов, компонентов, структур данных, или других логических конструкций. Такие инструкции могут быть реализованы, чтобы выполнять задачу, реализовывать тип данных, преобразовывать состояние одного или более устройств, или иным образом достигать желаемого результата.

[0091] Процессор может включать в себя один или более процессоры, которые выполнены с возможностью исполнения инструкций программного обеспечения. Дополнительно или в качестве альтернативы, процессор может включать в себя одну или более машины аппаратной или встроенной программной логики, выполненные с возможностью исполнения аппаратных или встроенных программных инструкций. Процессоры у процессора могут быть одноядерными или многоядерными, и программы, исполняемые на них, могут быть сконфигурированы для параллельной или распределенной обработки. Процессор может опционально включать в себя индивидуальные компоненты, которые распределены по двум или более устройствам, которые могут удаленно располагаться и/или конфигурироваться для скоординированной обработки. Один или более аспекты процессора могут быть виртуализированы и исполняться посредством удаленно доступных сетевых вычислительных устройств, сконфигурированных в конфигурации облачных вычислений.

[0092] Память 1020 может включать в себя одно или более физические устройства, выполненные с возможностью удержания данных и/или инструкций, исполняемых посредством процессора, чтобы реализовывать способы и процессы, описываемые в данном документе. При реализации таких способов и процессов, может быть трансформировано состояние памяти 1020 (например, чтобы удерживать другие данные).

[0093] Память 1020 может включать в себя съемные носители информации и/или встроенные устройства. Память 1020 может включать в себя оптические устройства памяти (например, CD, DVD, HD-DVD, Blu-Ray Диск, и т.д.) полупроводниковые устройства памяти (например, RAM, EPROM, EEPROM, и т.д.), и/или магнитные устройства памяти (например, накопитель на жестком диске, накопитель на гибком диске, накопитель на ленте, MRAM, и т.д.), среди прочего. Память 1020 может включать в себя устройства с одной или более из следующих характеристик: энергозависимое, энергонезависимое, динамическое, статическое, чтения/записи, только чтения, произвольного доступа, последовательного доступа, с адресацией по ячейке, с адресацией по файлу, и с адресацией по контенту. В некоторых вариантах осуществления, процессор 1010 и память 1020 могут быть интегрированы в одном или более общих устройствах, таких как проблемно-ориентированная интегральная микросхема или система на кристалле.

[0094] Память 1020 также может принимать форму съемных машиночитаемых запоминающих носителей информации, которые могут быть использованы, чтобы хранить и/или переносить данные и/или инструкции, исполняемые чтобы реализовывать описываемые в данном документе способы и процессы. Память 1020 может принимать форму CD, DVD, HD-DVD, Blu-Ray Дисков, EEPROM, и/или гибких дисков, среди прочего.

[0095] Следует иметь в виду, что память 102 включает в себя одно или более физические устройства, которые хранят информацию. Понятия «модуль», «программа», и «машина» могут быть использованы, чтобы описывать аспект вычислительной системы 1000, который реализуется, чтобы выполнять одну или более конкретные функции. В некоторых случаях, такой модуль, программа, или машина, может быть создан через процессор 1010, исполняющий инструкции, удерживаемые памятью 1020. Следует понимать, что разные модули, программы, и/или машины могут быть созданы из одного и того же приложения, услуги, блока кода, объекта, библиотеки, подпрограммы, API, функции, и т.д. Подобным образом, один и тот же модуль, программа, и/или машина может быть создан посредством разных приложения, услуг, блоков кода, объектов, подпрограмм, API, функций, и т.д. Понятия «модуль», «программа», и «машина» должны охватывать индивидуальные или группы исполняемых файлов, файлов данных, библиотек, драйверов, сценариев, записей базы данных, и т.д.

[0096] В аспекте, вычислительная система 1000 может соответствовать вычислительному устройству, включающему в себя память 1020, удерживающую инструкции, исполняемые посредством процессора 1010, чтобы выбирать, на основании, по меньшей мере, одного ввода факта или профиля, код типа эмоции, ассоциированный с высказыванием вывода, причем код типа эмоции указывает один из множества предварительно определенных типов эмоции. Инструкции дополнительно являются исполняемыми посредством процессор 1010, чтобы генерировать речь, соответствующую высказыванию вывода, причем речь генерируется с предварительно определенным типом эмоции, указанным посредством кода типа эмоции. В примерном варианте осуществления, по меньшей мере, один ввод факта или профиля извлекается из использования устройства мобильной связи, реализующего интерактивную диалоговую систему. Отметим, что будет пониматься, что такое вычислительное устройство соответствует процессу, машине, изделию, или композиции предмета.

[0097] Фиг. 11 иллюстрирует примерный вариант осуществления устройства 110 в соответствии с настоящим раскрытием. Отметим, что устройство 110 показано только в иллюстративных целях, и не предназначено для того, чтобы ограничивать объем настоящего раскрытия любым показанным конкурентным устройством.

[0098] На Фиг. 11, блок 120 классификации выполнен с возможностью выбора, на основании, по меньшей мере, одного ввода 1120b факта или профиля, кода 1120a типа эмоции, ассоциированного с высказыванием 1110a вывода. Код 1120a типа эмоции указывает один из множества предварительно определенных типов эмоции. Блок 1130 текста-в-речь выполнен с возможностью генерирования речи 1130a, соответствующей высказыванию 1110a вывод и предварительно определенному типу эмоции, указанному посредством кода 1120 типа эмоции. В примерном варианте осуществления, по меньшей мере, один ввод 1120b факта или профиля извлекается из использования устройства мобильной связи, реализующего интерактивную диалоговую систему.

[0099] Отметим, что методики настоящего раскрытия не обязательно ограничиваются вариантами осуществления, включающими устройство мобильной связи. В альтернативных примерных вариантах осуществления, настоящие методики также могут быть включены в не-мобильные устройства, например, настольные компьютеры, домашние игровые системы, и т.д. Кроме того, устройства мобильной связи, включающие настоящие методики, не обязательно ограничиваются интеллектуальными телефонами, и также могут включать в себя носимые устройства, такие как компьютеризированные наручные часы, очки, и т.д. Такие альтернативные примерные варианты осуществления рассматриваются как находящиеся в рамках объема настоящего раскрытия.

[0100] Фиг. 12 иллюстрирует примерный вариант осуществления 1200, в котором методики настоящего раскрытия включены в диалоговую систему с эмоциональным содержимым, которое придается отображаемому тексту, вместо или в дополнение к слышимой речи. Отметим, что блоки, показанные на Фиг. 12, соответствуют сходным образом помеченным блокам на Фиг. 2, и некоторые блоки, показанные на Фиг. 2, опущены на Фиг. 12 для простоты иллюстрации.

[0101] На Фиг. 12, вывод 250a блока 250 генерирования языка объединяется с кодом 240b типа эмоции, генерируемым посредством диалоговой машины 240, и выводится в блок 1260 текста в речь и/или текст для отображения. В аспекте текста в речь, блок 1260 генерирует речь с семантическим содержимым 240a и кодом 240b типа эмоции. В аспекте текста для отображения, блок 1260 в качестве альтернативы или дополнительно генерирует текст для отображения с семантическим содержимым 240a и кодом 240b типа эмоции. Следует иметь в виду, что код 240b типа эмоции может придавать эмоцию отображаемому тексту, используя такие методики, как, например, регулирование размера или шрифта символов отображаемого текста, предоставление эмотиконов (например, смайликов или других картинок), соответствующих коду 240b типа эмоции, и т.д. В примерном варианте осуществления, блок 1260 в качестве альтернативы или в дополнение генерирует основанную на эмоции анимацию или графические модификации для одного или более аватаров, представляющих DA или пользователя на дисплее. Например, если код 240b типа эмоции соответствует «грусти», тогда предварительно выбранный аватар, представляющий DA, может быть сгенерирован с предварительно сконфигурированным «грустным» выражением лица, или иным образом анимирован, чтобы выражать грусть через движение, например, плачущие действия. Такие альтернативные примерные варианты осуществления рассматриваются как находящиеся в рамках объема настоящего раскрытия.

[0102] В данном техническом описании и в формуле изобретения, следует понимать, что когда элемент упоминается как «соединенный с» ил «связанный с» другим элементом, он может быть непосредственно соединен или связан с другим элементом или могут присутствовать промежуточные элементы. В противоположность, когда элемент упоминается как «непосредственно соединенный с» или «непосредственно связанный с» другим элементом, то отсутствуют промежуточные элементы. Кроме того, когда элемент упоминается как «электрически связанный» с другим элементом, это обозначает, что путь низкого сопротивления присутствует между такими элементами, в то время когда элемент именуется как просто «связанный» с другим элементом, может быть или может не быть путь низкого сопротивления между такими элементами.

[0103] Функциональность, описанная в данном документе, может быть выполнена, по меньшей мере, частично посредством одного или более компонентов аппаратной и/или программной логики. Например, и без ограничения, иллюстрируемые типы компонентов аппаратной логики, которые могут быть использованы, включают в себя Программируемые Вентильные Матрицы (FPGA), Проблемно-ориентированные Интегральные Микросхемы (ASIC), Проблемно-ориентированные Стандартные Изделия (ASSP), системы вида Система-на-кристалле (SOC), Сложные Устройства с Программируемой Логикой (CPLD), и т.д.

[0104] Несмотря на то, что изобретение допускает разнообразные модификации или альтернативные конструкции, некоторые иллюстративные его варианты осуществления показаны на чертежах и были подробно описаны выше. Следует понимать, тем не менее, что отсутствует намерение ограничить изобретение конкретными раскрытыми формами, а наоборот, намерение состоит в том, чтобы охватить все модификации, альтернативные конструкции, и эквиваленты, лежащие в рамках сущности и объема изобретения.

1. Устройство для интерактивной диалоговой системы (200), при этом устройство содержит:

блок (320) классификации, выполненный с возможностью выбора (910), на основании по меньшей мере одного ввода факта или профиля, кода типа эмоции, ассоциированного с высказыванием вывода, причем код типа эмоции указывает один из множества предварительно определенных типов эмоции;

блок (250) генерирования языка, выполненный с возможностью генерирования высказывания вывода на естественном языке, причем высказывание вывода имеет предварительно определенное семантическое содержимое и указанный предварительно определенный тип эмоции, ассоциированный с кодом типа эмоции; и

блок (260) текста-в-речь, выполненный с возможностью генерирования (920) речи, соответствующей высказыванию вывода, причем речь генерируется с предварительно определенным типом эмоции, указанным посредством кода типа эмоции;

при этом упомянутый по меньшей мере один ввод факта или профиля извлекается из использования устройства мобильной связи, реализующего интерактивную диалоговую систему (200) и выполненного с возможностью предоставления услуг голосового вызова и доступа к Интернету.

2. Устройство по п. 1, в котором упомянутый по меньшей мере один ввод факта или профиля содержит по меньшей мере один параметр конфигурации пользователя, конфигурируемый пользователем, причем по меньшей мере один параметр конфигурации пользователя содержит по меньшей мере одно из следующего: увлечения, интересы, черты характера, любимые фильмы, любимые виды спорта и любимые типы кухни.

3. Устройство по п. 1, в котором упомянутый по меньшей мере один ввод факта или профиля дополнительно содержит по меньшей мере один параметр, извлеченный из онлайновой активности пользователя, используя устройство, причем по меньшей мере один параметр, извлеченный из онлайновой активности пользователя, содержит по меньшей мере одно из следующего: поисковые запросы в Интернет, посещенные веб-сайты Интернет, содержимое сообщений электронной почты и размещения сообщений на онлайновых веб-сайтах социальных сетей.

4. Устройство по п. 1, в котором упомянутый по меньшей мере один ввод факта или профиля дополнительно содержит по меньшей мере одно из следующего: местоположение пользователя, содержимое текстовой или голосовой связи пользователя и по меньшей мере одно событие, запланированное пользователем, используя функцию планирования календаря устройства.

5. Устройство по п. 1, в котором упомянутый по меньшей мере один ввод факта или профиля дополнительно содержит по меньшей мере одно из следующего: текущее эмоциональное состояние пользователя, статистику использования устройства, онлайновые информационные ресурсы и индивидуальность цифрового помощника.

6. Устройство по п. 1, в котором блок классификации выполнен с возможностью выбора кода типа эмоции, используя алгоритм, содержащий по меньшей мере одно функциональное соотнесение между множеством опорных вводов факта или профиля и соответствующим множеством опорных типов эмоции, причем по меньшей мере одно функциональное соотнесение извлекается по методикам машинного обучения.

7. Вычислительное устройство, включающее в себя процессор и память, удерживающую инструкции, исполняемые посредством процессора, чтобы:

выбирать (910), на основании по меньшей мере одного ввода факта или профиля, код типа эмоции, ассоциированный с высказыванием вывода, причем код типа эмоции указывает один из множества предварительно определенных типов эмоции;

генерировать высказывание вывода на естественном языке, причем высказывание вывода имеет предварительно определенное семантическое содержимое и указанный предварительно определенный тип эмоции, ассоциированный с кодом типа эмоции; и

генерировать (920) речь, соответствующую высказыванию вывода, причем речь генерируется с предварительно определенным типом эмоции, указанным посредством кода типа эмоции;

при этом по меньшей мере один ввод факта или профиля извлекается из использования устройства мобильной связи, реализующего интерактивную диалоговую систему (200).

8. Способ генерирования речи, содержащий этапы, на которых:

выбирают (910), на основании по меньшей мере одного ввода факта или профиля, код типа эмоции, ассоциированный с высказыванием вывода, причем код типа эмоции указывает один из множества предварительно определенных типов эмоции;

генерируют высказывание вывода на естественном языке, причем высказывание вывода имеет предварительно определенное семантическое содержимое и указанный предварительно определенный тип эмоции, ассоциированный с кодом типа эмоции; и

генерируют (920) речь, соответствующую высказыванию вывода, причем речь генерируется с предварительно определенным типом эмоции, указанным посредством кода типа эмоции;

при этом по меньшей мере один ввод факта или профиля извлекается из использования устройства мобильной связи, реализующего интерактивную диалоговую систему (200).

9. Способ по п.8, в котором упомянутый по меньшей мере один ввод факта или профиля содержит по меньшей мере одно из следующего: местоположение пользователя, параметр конфигурации пользователя, конфигурируемый пользователем, онлайновую активность пользователя, местоположение пользователя, содержимое текстовой или голосовой связи пользователя и по меньшей мере одно событие, запланированное пользователем, используя функцию планирования календаря.



 

Похожие патенты:

Изобретение относится к области обработки многоканальных сигналов. Технический результат заключается в повышении точности обработки многоканального сигнала.

Изобретение относится к области технологий для кодирования многоканального сигнала. Технический результат заключается в повышении точности кодирования многоканального сигнала.

Группа изобретений относится к области вычислительной техники и может быть использована в искусственных нейронных сетях. Техническим результатом является обеспечение назначения оценки релевантности для искусственных нейронных сетей.

Изобретение относится к вычислительной технике. Технический результат – улучшение маскирования ошибки.

Изобретение относится к области техники передачи и трансляции речевой информации и может найти применение в устройствах связи. Техническим результатом является увеличение значения вероятности правильного решения о появлении речевого сигнала и повышение точности определения момента его появления при наличии речеподобного шума.

Изобретение относится к вычислительной технике для распознавания речи. Технический результат заключается в повышении точности распознавания речи пользователя.

Изобретение относится к коммуникационному устройству и коммуникационному роботу. Технический результат заключается в создании коммуникационного устройства, которое позволяет персонажу отображать даже для одного и того же диалога различные выражения лица в зависимости от ситуации.

Изобретение относится к области кодирования аудио и речи. Технический результат – обеспечение эффективного сокращения объема вычислений при преобразовании коэффициентов линейного предсказания.

Изобретение относится к оценке качества аудиовизуального сигнала. Техническим результатом является обеспечение оценки качества аудиовизуального сигнала с возможностью адекватного представления качества аудиовизуального сигнала, воспринимаемого зрителем.

Изобретение относится к средствам стереофонического кодирования и декодирования аудиосигналов. Технический результат заключается в повышении эффективности использования полосы частот.

Изобретение относится к вычислительной технике. Технический результат – создание машинных высказываний без видимой для пользователя задержки.

Изобретение относится к области обработки синтеза речи и интерактивных диалогов. Техническим результатом является обеспечение возможности регулировки формы и/или содержания диалогового контента, произносимого человекоподобным роботом.

Изобретение относится к вычислительным системам. Технический результат направлен на повышение точности, извлекаемой из текстов на естественном языке информации.

Изобретение относится к области обработки текстов. Технический результат заключается в обеспечении более точной обработки текста.

Изобретение относится к средствам синтеза речи по тексту. Технический результат заключается в повышении естественности человеческого голоса в синтезированной речи.

Изобретение направлено на формирование речевого сигнала с заданными характеристиками. Технический результат заключается в повышении естественности, разборчивости речи и ее эмоциональной окраски при генерации речевого сигнала при уменьшении вычислительной сложности за счет усовершенствования структуры элементов системы синтеза речи и разделения используемых баз данных.

Изобретение относится к области сетей связи и устройств для приема и отправки сообщений через сети связи, а именно к предоставлению пользователю анимированного изображения лица отправителя сообщения.

Изобретение относится к информационным технологиям, в частности к предварительной обработке текстовой информации, и может быть использовано при распознавании и синтезе речи и других технических областях, в которых требуется обработка текстовой информации средствами вычислительной техники.

Изобретение относится к информационным технологиям, в частности к предварительной обработке текстовой информации, и может быть использовано при распознавании и синтезе речи, аннотировании баз данных, а также при автоматическом синхронном переводе с языка на язык и других областях знаний.

Изобретение относится к вычислительной технике. Технический результат – предоставление логических ответов, которые подражают стилю речи пользователя.

Изобретение относится к средствам для классификации типа эмоции для интерактивной диалоговой системы. Технический результат заключается в обеспечении возможности генерировать синтезированную речь с эмоциональными характеристиками для повышения эффективности взаимодействия с пользователем. Выбирают, на основании по меньшей мере одного ввода факта или профиля, код типа эмоции, ассоциированный с высказыванием вывода, причем код типа эмоции указывает один из множества предварительно определенных типов эмоции. Генерируют высказывание вывода на естественном языке, причем высказывание вывода имеет предварительно определенное семантическое содержимое и указанный предварительно определенный тип эмоции, ассоциированный с кодом типа эмоции. Генерируют речь, соответствующую высказыванию вывода, причем речь генерируется с предварительно определенным типом эмоции, указанным посредством кода типа эмоции. 3 н. и 6 з.п. ф-лы, 12 ил.

Наверх