Обнаружение разговора

Изобретение относится к средствам для обнаружения разговора между пользователями. Технический результат заключается в повышении точности автоматического обнаружения разговора между пользователями. Принимают поток аудиоданных от одного или более датчиков. Обнаруживают разговор между первым пользователем и вторым пользователем на основе потока аудиоданных. Обнаруживают фрагменты человеческой речи поочередно между первым и вторым пользователями, включая пользователя, носящего устанавливаемое на голове устройство отображения, и другое лицо, на основе потока аудиоданных. Принимают изображения сцены, включающей в себя упомянутое другое лицо, от оптического датчика устанавливаемого на голове устройства отображения. Подтверждают, что другое лицо разговаривает с носящим пользователем, на основе упомянутого изображения. Изменяют представление элемента цифрового контента в ответ на обнаружение разговора. Причем элемент цифрового контента включает в себя один или более элементов визуального контента. 3 н. и 7 з.п. ф-лы, 12 ил.

 

СУЩНОСТЬ ИЗОБРЕТЕНИЯ

[0001] Раскрыты различные варианты осуществления, относящиеся к обнаружению разговора (диалога) во время представления контента на вычислительном устройстве и выполнению одного или более действий в ответ на обнаружение разговора. В одном примере принимается поток аудио данных от одного или более датчиков, на основе потока аудио данных обнаруживается разговор между первым пользователем и вторым пользователем, и представление элемента цифрового контента модифицируется вычислительным устройством в ответ на обнаружение разговора.

[0002] Настоящее описание сущности изобретения предоставлено, чтобы в упрощенной форме ввести выбор понятий, которые дополнительно описаны ниже в подробном описании. Настоящее описание сущности изобретения не предназначено для определения ключевых признаков или существенных признаков заявленного предмета изобретения, а также не предназначено, чтобы использоваться для ограничения объема заявленного предмета изобретения. Кроме того, заявленный предмет изобретения не ограничивается реализациями, которые преодолевают какие-либо или все недостатки, отмеченные в любой части настоящего раскрытия.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ

[0003] Фиг. 1 показывает пример представления элементов цифрового контента через устанавливаемое на голове устройство отображения (HMD-устройство).

[0004] Фиг. 2 показывает пользователя, носящего HMD-устройство согласно фиг. 1, ведущего разговор с другим лицом.

[0005] Фиг. 3-5 показывают примеры модификаций, которые могут быть внесены в представление цифрового контента согласно фиг. 1 в ответ на обнаружение разговора между пользователем, носящим HMD-устройство, и другим лицом.

[0006] Фиг. 6 показывает еще один пример представления элементов цифрового контента.

[0007] Фиг. 7 показывает пользователя согласно фиг. 6, ведущего разговор с другим лицом.

[0008] Фиг. 8 показывает примерную модификацию, которая может быть внесена в представление цифрового контента согласно фиг. 6 в ответ на обнаружение разговора между пользователем и другим лицом.

[0009] Фиг. 9 показывает пример конвейера обработки обнаружения разговора.

[0010] Фиг. 10 показывает блок-схему последовательности операций, изображающую пример способа для обнаружения разговора.

[0011] Фиг. 11 показывает пример HMD-устройства.

[0012] Фиг.12 показывает пример вычислительной системы.

ПОДРОБНОЕ ОПИСАНИЕ

[0013] Вычислительные устройства могут быть использованы для представления цифрового контента в различных формах. В некоторых случаях вычислительные устройства могут обеспечивать контент иммерсионным (создающим эффект присутствия) и увлекательным образом, например, путем отображения трехмерных (3D) изображений и/или голографических изображений. Кроме того, такой визуальный контент может быть объединен с представлением аудио контента, чтобы обеспечить восприятие с еще большим эффектом погружения.

[0014] Представления цифрового контента могут потребляться при настройках иных, чем традиционные настройки развлекательной системы, по мере того как вычислительные устройства становятся все более портативными. Таким образом, время от времени пользователь такого вычислительного устройства может участвовать в разговорах с другими во время представления контента. В зависимости от характера представления, презентация может быть отвлекающей по отношению к разговору.

[0015] Таким образом, в данном документе раскрыты варианты осуществления, которые относятся к автоматическому обнаружению разговора между пользователями, и изменению представления цифрового контента, в то время как происходит разговор, например, чтобы уменьшить заметность представления во время разговора. Путем обнаружения разговоров, в противоположность простому присутствию человеческих голосов, такие вычислительные устройства могут определять вероятное намерение пользователей вычислительных устройств отвлечься, по меньшей мере частично, от отображаемого контента, чтобы вступить в разговор с другим человеком. Кроме того, подходящие модификации представления контента могут быть осуществлены, чтобы облегчить пользователю отвлечение от контента.

[0016] Разговоры могут быть обнаружены любым подходящим способом. Например, разговор между пользователями может быть обнаружен путем обнаружения первого пользователя, произносящего фрагмент человеческой речи (например, по меньшей мере несколько слов), а затем второго пользователя, произносящего фрагмент человеческой речи, а затем первого пользователя, произносящего фрагмент человеческой речи. Другими словами, разговор может быть обнаружен как ряд фрагментов человеческой речи, которые чередуются между различными местоположениями источников.

[0017] На фиг. 1-5 показан примерный сценарий физической среды 100, в которой носящий пользователь 102 взаимодействует с вычислительным устройством в форме устанавливаемого на голове устройства отображения (HMD-устройства) 104. HMD-устройство 104 может быть сконфигурировано так, чтобы представлять один или более элементов цифрового контента носящему пользователю и изменять представление в ответ на обнаружение разговора между носящим пользователем и другим лицом. HMD-устройство 104 может обнаруживать разговор с использованием, например, аудио и/или видео данных, принимаемых от одного или более датчиков, как описано более подробно ниже.

[0018] На фиг. 1 множество элементов цифрового контента в форме голографических объектов 106 изображены в качестве отображаемых на просвечивающем дисплее 108 HMD-устройства 104 с точки зрения носящего пользователя 102. Множество голографических объектов 106 могут появляться как виртуальные объекты, которые окружают носящего пользователя 102, как будто плавающие в физической среде 100. В другом примере голографические объекты также могут появляться, как будто висящие на стенах или другом объекте, связанном с другими поверхностями в физической среде.

[0019] В изображенном варианте осуществления голографические объекты отображаются как ʺпланшетыʺ, которые могут быть использованы для отображения различного контента. Такие планшеты могут включать в себя любое подходящее видео, изображения или другой визуальный контент. В одном примере первый планшет может представлять портал электронной почты, второй планшет может представлять портал социальной сети, а третий планшет может представлять новостную ленту. В другом примере различные планшеты могут представлять различные телевизионные каналы, такие как различные спортивные события. В еще одном примере один планшет может представлять видеоигру, а другие планшеты могут представлять сопутствующие приложения к видеоигре, такие как ʺкомната чатаʺ (дискуссионная группа), приложение социальных сетей, приложение игровой статистики и отслеживания достижений или другое подходящее приложение. В некоторых случаях один элемент цифрового контента может отображаться через просвечивающий дисплей. Следует понимать, что планшеты согласно фиг. 1 изображены с целью примера, и что голографический контент может отображаться в любой другой подходящей форме.

[0020] HMD-устройство 104 также может быть сконфигурировано, чтобы выводить аудио контент, отдельно или в сочетании с видео контентом, к носящему пользователю 102. Например, HMD-устройство 104 может включать в себя встроенные динамики или наушники для воспроизведения аудио контента.

[0021] Следует понимать, что HMD-устройство может быть сконфигурировано, чтобы представлять любой подходящий тип и количество элементов цифрового контента носящему пользователю. Неограничительные примеры цифрового контента, которые могут быть представлены, включают фильмы, телевизионные шоу, видеоигры, приложения, песни, радиопередачи, подкасты, веб-сайты, текстовые документы, изображения, фотографии и т.д.

[0022] На фиг. 2 в то время как носящий пользователь 102 взаимодействует с множеством голографических объектов 106, отображаемых через просвечивающий дисплей 108, другое лицо 110 входит в физическую среду 100. При виде другого лица 110 носящий пользователь 102 инициирует разговор 112 с другим лицом. Разговор включает в себя то, что каждый из носящего пользователя и другого лица произносит фрагменты человеческой речи друг к другу. Таким образом, HMD-устройство может быть сконфигурировано, чтобы обнаруживать разговор путем обнаружения того, что носящий пользователь говорит как до, так и после того, как говорит другое лицо. Аналогичным образом, HMD-устройство может быть сконфигурировано, чтобы обнаруживать разговор путем обнаружения того, что другое лицо говорит как до, так и после того, как говорит пользователь, носящий HMD-устройство.

[0023] На фиг. 3-5 представлены неограничительные примеры того, как HMD-устройство может изменять представление отображаемых голографических объектов в ответ на обнаружение разговора между носящим пользователем и другим лицом. Во-первых, со ссылкой на фиг. 3, в ответ на обнаружение разговора, HMD-устройство 104 может быть сконфигурировано, чтобы скрывать множество объектов из отображения на просвечивающем дисплее 108. В некоторых реализациях, просвечивающий дисплей может быть полностью очищен от каких-либо виртуальных объектов или наложений. Кроме того, в некоторых реализациях, объекты могут быть скрыты, а виртуальная граница, наложение или инструментальная панель могут оставаться отображаемыми на просвечивающем дисплее. В сценариях, где объекты представляют видео и/или аудио контент, такой контент может быть приостановлен в ответ на скрытие планшетов из вида. Таким образом, носящий пользователь может возобновить потребление контента в момент, в который контент был приостановлен, когда разговор закончится.

[0024] В другом примере, показанном на фиг. 4, в ответ на обнаружение разговора HMD-устройство 104 может быть сконфигурировано так, чтобы перемещать один или более из множества объектов в другое положение на просвечивающем дисплее, которое может быть вне центрального вида носящего пользователя, и, таким образом, менее вероятно блокировать взгляд носящего пользователя в направлении на другое лицо. Кроме того, в некоторых реализациях, HMD-устройство может быть сконфигурировано, чтобы определять положение другого лица по отношению к носящему пользователю, и перемещать множество объектов в положение на просвечивающем дисплее, которое не блокирует направление на другое лицо. Например, направление на другое лицо может быть определено с использованием аудио данных (например, направленных аудио данных от решетки микрофонов), видео данных (цвета, инфракрасных, глубины и т.д.), их комбинации или любых других подходящих данных.

[0025] В другом примере, показанном на фиг. 5, в ответ на обнаружение разговора, HMD-устройство 104 может быть сконфигурировано, чтобы изменять размеры отображаемых объектов и перемещать множество объектов в другое положение на просвечивающем дисплее. В качестве одного неограничительного примера, размер каждого из множества объектов может быть уменьшен, и множество объектов могут быть перемещены в угол просвечивающего дисплея. Множество объектов могут быть изменены, чтобы появиться в виде вкладок в углу, что может служить в качестве напоминания о контенте, который носящий пользователь потреблял до участия в разговоре, или может иметь любой другой подходящий вид. В качестве еще одного примера, изменение представления множества объектов может включать в себя увеличение просвечиваемости отображаемых объектов, чтобы позволить носящему пользователю видеть другого человека через просвечивающий дисплей.

[0026] В описанных выше сценариях виртуальные объекты, представленные посредством просвечиваемого дисплея, являются связанными с корпусом относительно носящего пользователя HMD-устройства. Другими словами, положение виртуального объекта представляется фиксированным или блокированным относительно положения пользователя, носящего HMD-устройство. Таким образом, связанный с корпусом виртуальный объект, может представляться остающимся в том же положении на просвечивающем дисплее с точки зрения носящего пользователя, даже когда носящий пользователь перемещается в пределах физической среды.

[0027] В некоторых реализациях виртуальные объекты, представленные посредством просвечивающего дисплея, могут представляться носящему пользователю, как связанные с реальным миром. Другими словами, положение виртуального объекта представляется фиксированным по отношению к положению в реальном мире в физической среде. Например, голографический планшет может представляться, как будто он висит на стене в физической среде. В некоторых случаях, положение связанного с реальным миром виртуального объекта может создать помеху разговору. Соответственно, в некоторых реализациях, изменение представления виртуального объекта в ответ на обнаружение разговора может включать в себя изменение положения в реальном мире связанного с реальным миром виртуального объекта. Например, виртуальный объект, находящийся в положении в реальном мире между пользователем, носящим HMD-устройство, и другим пользователем, может быть перемещен в другое положение в реальном мире, которое не находится между носящим пользователем и другим пользователем. В одном примере положение может находиться в направлении, отличном от направления на пользователя.

[0028] В некоторых реализациях HMD-устройство может быть дополнительно сконфигурировано, чтобы обнаруживать конец разговора. В ответ на обнаружение конца разговора, HMD-устройство может быть сконфигурировано, чтобы возвращать визуальное состояние объектов на просвечивающем дисплее в их состояние, которое существовало до обнаружения разговора (например, не скрытое, менее прозрачное, более центрированное в визуализации и т.д.). В других реализациях носящий пользователь может обеспечивать ручную команду (например, нажатие кнопки, голосовую команду, жест и т.д.), чтобы повторно инициировать отображение множества объектов на просвечивающем дисплее.

[0029] Обнаружение разговора, как это описано выше, может быть использовано с любым подходящим вычислительным устройством, в том числе, но без ограничения указанным, HMD согласно фиг. 1-5. На фиг. 6-8 показан другой примерный сценарий, в котором первый пользователь 602 в физической среде 600 взаимодействует с крупномасштабным устройством 604 отображения. Устройство 604 отображения может осуществлять связь с вычислительным устройством 606 развлекательной системы. Кроме того, вычислительное устройство 606 может осуществлять связь с сенсорным устройством 608, которое включает в себя один или более датчиков, сконфигурированных для захвата данных о физической среде 600. Сенсорное устройство может включать в себя один или более аудио датчиков для захвата потока аудио данных. В некоторых реализациях сенсорное устройство может включать в себя один или более датчиков изображения для захвата потока видео данных (например, датчики изображения глубины, датчики инфракрасного изображения, датчики изображения видимого света и т.д.).

[0030] Вычислительное устройство 606 развлекательной системы может быть сконфигурировано, чтобы управлять представлением одного или более элементов цифрового контента другому лицу с помощью устройства 604 отображения. Далее, вычислительное устройство 606 развлекательной системы может быть сконфигурировано, чтобы обнаруживать разговор между пользователями на основе аудио и/или видео данных, получаемых от сенсорного устройства 608, и изменять представление одного или более из множества элементов цифрового контента в ответ на обнаружение разговора. Хотя сенсорное устройство, крупномасштабное устройство отображения и вычислительное устройство развлекательной системы показаны в виде отдельных компонентов, в некоторых реализациях сенсорное устройство, крупномасштабное устройство отображения и вычислительное устройство развлекательной системы могут быть объединены в одном корпусе.

[0031] На фиг. 6 первый пользователь 602 играет в видеоигру, исполняемую вычислительным устройством 606 развлекательной системы. В то время как первый пользователь играет в видеоигру, сенсорное устройство 608 захватывает аудио данные, представляющие звуки в физической среде 600. На фиг. 7, в то время как первый пользователь 602 занят видеоигрой, отображаемой на крупномасштабном устройстве 604 отображения, второй пользователь 610 входит в физическую среду 600. Увидев второго пользователя 610, первый пользователь 602 инициирует разговор 612 с вторым пользователем. Разговор включает в себя то, что каждый из первого пользователя и второго пользователя говорит фрагменты человеческой речи друг другу. В качестве одного примера, разговор может быть обнаружен, основываясь на том, что первый пользователь говорит до и после того, как говорит второй пользователь, или второй пользователь говорит до и после того, как говорит первый пользователь.

[0032] Разговор между первым и вторым пользователем может приниматься сенсорным устройством 608 и выводится как поток аудио данных, и вычислительное устройство 606 развлекательной системы может принимать поток аудио данных от сенсорного устройства 608. Вычислительное устройство 606 развлекательной системы может быть сконфигурировано, чтобы обнаруживать разговор между первым пользователем 602 и вторым пользователем 610 на основе потока аудио данных и изменять представление видеоигры в ответ на обнаружение разговора, чтобы уменьшить заметность видеоигры во время разговора.

[0033] Вычислительное устройство 606 развлекательной системы может выполнять любые подходящие действия в ответ на обнаружение разговора. В одном примере, как показано на фиг. 8, вычислительное устройство 606 развлекательной системы может изменить представление видеоигры, приостановив видеоигру. Кроме того, в некоторых реализациях может быть отображен визуальный индикатор 614, чтобы указывать, что представление видеоигры было изменено, причем визуальный индикатор может обеспечить едва заметную индикацию пользователю того, что вычислительное устройство развлекательной системы реагирует на обнаружение разговора. В качестве другого примера, в ответ на обнаружение разговора, вычислительное устройство развлекательной системы может приглушить или уменьшить громкость видеоигры без приостановки видеоигры.

[0034] В некоторых реализациях в ответ на обнаружение разговора, представление элемента цифрового контента может быть изменено различными способами на основе одного или более факторов. В одном примере представление элемента цифрового контента может быть изменено различным образом на основе типа контента элемента цифрового контента. Например, видеоигры могут быть приостановлены, и телевизионные шоу в прямой трансляции могут быть сокращены в размерах, и громкость может быть уменьшена. В другом примере представление элемента цифрового контента может быть изменено различным образом на основе уровня вовлечения или взаимодействия с элементом цифрового контента. Например, может быть реализован механизм для оценки уровня взаимодействия на основе различных показаний датчиков, например, как ʺизмеритель вовлеченияʺ. В одном примере, если пользователь определен, как имеющий высокий уровень вовлечения, то представление элемента цифрового контента может быть изменено просто путем снижения уровня громкости. С другой стороны, если пользователь определен как имеющий пониженный уровень вовлечения, то представление элемента цифрового контента может быть изменено путем скрытия и приглушения элемента цифрового контента. Другие неограничительные факторы, которые могут быть использованы для определения того, как изменяется представление элемента цифрового контента, могут включать в себя время суток, географическое местоположение и физическую настройку (например, работа, дом, кафе и т.д.).

[0035] Возникновение разговора может быть определено различными способами. Например, разговор может быть обнаружен на основе аудио данных, видео данных или их комбинации. Фиг. 9 показывает пример конвейера 900 обработки разговора, который может быть реализован в одном или более вычислительных устройствах для обнаружения разговора. Конвейер 900 обработки разговора может быть сконфигурирован, чтобы обрабатывать потоки данных, принимаемые от множества различных датчиков 902, которые захватывают информацию о физической среде.

[0036] В изображенном варианте осуществления поток 904 аудио данных может быть принят от решетки 904 микрофонов, и поток 924 данных изображения может быть принят от датчика 906 изображения. Поток 908 аудио данных может быть пропущен через стадию 910 обнаружения голосовой активности (VAD), сконфигурированную, чтобы определять, является ли поток аудио данных характерным для человеческого голоса или другого фонового шума. Аудио данные, указанные как включающие в себя голосовую активность 912, могут выводиться из стадии 910 VAD и вводиться в стадию 914 распознавания речи, сконфигурированную, чтобы обнаруживать фрагменты речи из голосовой активности. Стадия 914 распознавания речи может выводить фрагменты 916 человеческой речи. Например, фрагменты человеческой речи могут включать в себя части слов и/или полные слова.

[0037] В некоторых реализациях стадия распознавания речи может выводить уровень достоверности, ассоциированный с фрагментом человеческой речи. Конвейер обработки разговора может быть сконфигурирован так, чтобы устанавливать порог достоверности (например, 50% уверенности в том, что речевой фрагмент является словом), и может отклонять фрагменты человеческой речи, имеющие уровень достоверности, который меньше, чем порог достоверности.

[0038] В некоторых реализациях стадия распознавания речи может быть реализована локально на вычислительном устройстве. В других реализациях стадия распознавания речи может быть реализована как служба, расположенная на удаленном вычислительном устройстве (например, реализованная в вычислительной облачной сети), или распределенная между локальными и удаленными устройствами.

[0039] Фрагменты 916 человеческой речи, выведенные из стадии 914 распознавания речи, могут быть введены в стадию 918 локатора источника речи, сконфигурированную, чтобы определять местоположение источника фрагмента человеческой речи. В некоторых реализациях местоположение источника может быть оценено путем сравнения громкостей преобразователей и/или фаз микрофонов в решетке 904 микрофонов. Например, каждый микрофон в решетке может быть откалиброван, чтобы сообщать уровень громкости преобразователя и/или фазу относительно других микрофонов в решетке. Используя цифровую обработку сигнала, может быть вычислена среднеквадратичная воспринимаемая громкость от каждого микрофонного преобразователя (например, каждые 20 миллисекунд или с другим подходящим интервалом), чтобы обеспечить взвешенную функцию, которая указывает, какие микрофоны сообщают о более громком уровне аудио и насколько больше. Сравнение уровней громкости преобразователей каждого из микрофонов в решетке может быть использовано для оценки местоположения источника захваченных аудио данных.

[0040] В некоторых реализациях диаграммообразующий пространственный фильтр может быть применен к множеству аудио выборок решетки микрофонов, чтобы оценивать местоположение источника захваченных аудио данных. В случае HMD-устройства, аудио поток в сформированной диаграмме может быть направлен непосредственно вперед от HMD-устройства для выравнивания со ртом носящего пользователя. Как таковое, аудио от носящего пользователя и любого другого непосредственно перед носящим пользователем может быть ясным, даже на расстоянии. В некоторых реализациях сравнение уровней громкости преобразователей и диаграммообразующего пространственного фильтра может быть использовано в комбинации, чтобы оценивать местоположение источника захваченных аудио данных.

[0041] Стадия 918 локатора источника речи может вводить местоположения источников фрагментов 920 человеческой речи в стадию 922 детектора разговора, сконфигурированную, чтобы обнаруживать разговор на основе определения, что фрагменты человеческой речи чередуются между различными местоположениями источников. Чередующийся паттерн может указывать, что разные пользователи говорят в направлении назад и вперед друг к другу в разговоре.

[0042] В некоторых реализациях стадия 922 детектора разговора может быть сконфигурирована, чтобы обнаруживать разговор, если фрагменты человеческой речи чередуются между различными местоположениями источников в пределах порогового периода времени, или фрагменты человеческой речи возникают в пределах назначенного диапазона ритма (чередования звука и пауз). Пороговый период времени и ритм могут быть установлены любым подходящим образом. Пороговый период может гарантировать, что чередующиеся фрагменты человеческой речи возникают во времени достаточно близко, чтобы быть разговором, а не несвязанными речевыми фрагментами.

[0043] В некоторых реализациях конвейер 900 обработки разговора может быть сконфигурирован, чтобы анализировать поток 908 аудио данных для определения того, исходят ли один или более фрагментов человеческой речи из электронного аудио устройства, например, из фильма или телевизионного шоу, представляемых на дисплее. В одном примере определение может выполняться на основе идентификации аудио сигнатуры или сигнатуры громкости электронного аудио устройства. В другом примере определение может быть выполнено на основе известного местоположения источника электронного аудио устройства. Кроме того, конвейер 900 обработки разговора может быть сконфигурирован, чтобы активно игнорировать эти один или более фрагментов человеческой речи, обеспечиваемых электронным аудио устройством, при определении того, что фрагменты человеческой речи чередуются между различными местоположениями источников. Таким образом, например, разговор, происходящий между персонажами в кино, невозможно спутать с разговором между реальными пользователями-людьми.

[0044] В некоторых реализациях анализ потока аудио данных может быть улучшен за счет анализа потока 924 данных изображения, принятого от датчика 906 изображения. Например, поток данных изображения может включать в себя изображения одного или обоих говорящих пользователей, потенциально вовлеченных в разговор (например, изображения пользователя с точки зрения пользователя, носящего HMD-устройство, или изображения обоих пользователей с точки зрения сенсорного устройства). Поток 924 данных изображения может быть введен в стадию 926 распознавания признаков. Стадия 926 распознавания признаков может быть сконфигурирована, например, чтобы анализировать изображения для определения того, движется ли рот пользователя. Стадия 926 распознавания признаков может выводить идентифицированный признак и/или уровень 930 достоверности, указывающий уровень достоверности того, что пользователь говорит. Уровень 930 достоверности может быть использован стадией 922 детектора разговора в комбинации с анализом потока аудио данных для обнаружения разговора.

[0045] Поток 924 данных изображения также может быть введен в стадию 928 идентификации пользователя. Стадия 928 идентификации пользователя может быть сконфигурирована, чтобы анализировать изображения для распознавания пользователя, который говорит. Например, структура лица или тела может сравниваться с пользовательскими профилями для идентификации пользователя. Следует понимать, что пользователь может быть идентифицирован на основе любого подходящего визуального анализа. Стадия 928 идентификации пользователя может выводить идентификатор говорящего 932 в стадию 922 детектора разговора, а также уровень достоверности, отражающий достоверность в определении. Стадия 922 детектора разговора может использовать идентификатор 932 говорящего для классификации фрагментов человеческой речи в качестве произнесенных конкретными идентифицированными пользователями. Таким образом, достоверность обнаружения разговора может быть увеличена. Следует понимать, что изображенный конвейер обработки разговора является лишь одним примером способа, которым анализируется поток аудио данных, чтобы обнаружить разговор, и любой подходящий подход может быть реализован, чтобы обнаружить разговор, без отклонения от объема настоящего изобретения.

[0046] На фиг. 10 показана блок-схема последовательности операций, изображающая примерный способ 1000 обнаружения разговора с помощью вычислительного устройства, чтобы помочь уменьшить заметность представления контента во время разговора. Способ 1000 может выполняться, например, с помощью HMD-устройства 104, показанного на фиг. 1, вычислительного устройства 606 развлекательной системы, показанного на фиг. 6, или любого другого подходящего вычислительного устройства.

[0047] На этапе 1002 способ 1000 включает в себя представление одного или более элементов цифрового контента. Например, представление может включать в себя отображение элемента видео контента на дисплее. В другом примере представление может включать в себя воспроизведение элемента аудио контента. Кроме того, на этапе 1004 способ 1000 включает в себя прием потока аудио данных из одного или более датчиков. В одном примере поток аудио данных может быть принят от решетки микрофонов.

[0048] На этапе 1006 способ 1000 включает в себя анализ потока аудио данных на наличие голосовой активности, и на этапе 1008 - определение того, включает ли поток аудио данных голосовую активность. Если поток аудио данных включает в себя голосовую активность, то способ 1000 переходит к этапу 1010. В противном случае, способ 1000 возвращается к другим операциям.

[0049] На этапе 1010 способ 1000 включает в себя анализ голосовой активности на наличие фрагментов человеческой речи, и на этапе 1012 - определение, включает ли в себя голосовая активность фрагменты человеческой речи. Если голосовая активность включает в себя фрагменты человеческой речи, то способ 1000 переходит к этапу 1014. В противном случае, способ 1000 возвращается к другим операциям.

[0050] На этапе 1014 способ 1000 включает в себя определение того, предоставлены ли фрагменты человеческой речи электронным аудио устройством. Если какие-либо из фрагментов человеческой речи предоставляются электронным аудио устройством, то способ 1000 переходит к этапу 1016. В противном случае, способ 1000 переходит к этапу 1018. На этапе 1016 способ 1000 включает в себя активное игнорирование фрагментов человеческой речи, предоставленных электронным аудио устройством. Другими словами, эти фрагменты человеческой речи могут быть исключены из учета при обнаружении разговора. На этапе 1018 способ 1000 включает в себя определение местоположения источника каждого фрагмента человеческой речи потока аудио данных. Далее, на этапе 1020 способ 1000 включает в себя определение, чередуются ли фрагменты человеческой речи между различными местоположениями источников. В одном примере разговор может быть обнаружен, когда фрагменты человеческой речи, произнесенные первым пользователем, возникают до и после фрагмента человеческой речи, произнесенного вторым пользователем. В другом примере разговор может быть обнаружен, когда фрагменты человеческой речи, произнесенные вторым пользователем, возникают до и после фрагмента человеческой речи, произнесенного первым пользователем. В некоторых реализациях это может включать в себя определение, находятся ли чередующиеся фрагменты человеческой речи в пределах назначенного периода времени. Кроме того, в некоторых реализациях это может включать в себя определение, возникают ли чередующиеся фрагменты человеческой речи в пределах назначенного диапазона ритма. Если фрагменты человеческой речи чередуются между различными местоположениями источников (и находятся в пределах назначенного периода времени и возникают в пределах назначенного диапазона ритма), то разговор обнаруживается, и способ 1000 переходит к этапу 1022. В противном случае способ 1000 возвращается к другим операциям.

[0051] Если разговор обнаружен, то на этапе 1022 способ 1000 включает в себя, в ответ на обнаружение разговор, изменение представления одного или более элементов цифрового контента. Например, представление может быть приостановлено, громкость элемента аудио контента может быть снижена, один или более элементов визуального контента могут быть скрыты от просмотра на дисплее, один или более элементов визуального контента могут быть перемещены в другое положение на экране, и/или размер одного или более элементов визуального контента на дисплее может быть изменен.

[0052] Путем изменения представления элемента цифрового контента в ответ на обнаружение разговора между пользователями, представление элемента цифрового контента может быть сделано менее заметными во время разговора. К тому же, таким образом, пользователю не требуется вручную изменять представление элемента цифрового контента, например, вручную приостанавливать воспроизведение контента, уменьшать громкость и т.д., когда разговор инициируется.

[0053] Реализации обнаружения разговора, описанные здесь, могут быть использованы с любым подходящим вычислительным устройством. Например, в некоторых вариантах осуществления, раскрытая реализация может быть осуществлена с использованием HMD-устройства. Фиг. 11 показывает неограничительный пример HMD- устройства 1100 в виде носимых очков с прозрачным дисплеем 1102. Следует понимать, что HMD-устройство может иметь любую другую подходящую форму, в которой прозрачный, полупрозрачный и/или непрозрачный дисплей поддерживается перед глазом или глазами наблюдателя.

[0054] HMD-устройство 1100 включает в себя контроллер 1104, сконфигурированный, чтобы управлять работой просвечивающего дисплея 1102. Просвечивающий дисплей 1102 может обеспечивать то, что изображения, такие как голографические объекты, попадают в глаза пользователя HMD-устройства 1100. Просвечивающий дисплей 1102 может быть сконфигурирован, чтобы визуально усилить внешний вид реального мира, физической среды для носящего пользователя, просматривающего физическую среду через прозрачный дисплей. Например, внешний вид физической среды может быть усилен с помощью графического контента, который представляется с помощью прозрачного дисплея 1102, чтобы создать среду смешанной реальности. В одном примере дисплей может быть сконфигурирован, чтобы отображать один или более элементов цифрового контента. В некоторых случаях, элементы цифрового контента могут быть виртуальными объектами, наложенными перед средой реального мира. Кроме того, в некоторых случаях, элементы цифрового контента могут включать в себя объекты реального мира среды реального мира, просматриваемой через прозрачный дисплей 1102.

[0055] Любой подходящий механизм может быть использован для отображения изображений при помощи прозрачного дисплея 1102. Например, прозрачный дисплей 1102 может включать в себя элементы формирования изображения, расположенные внутри линз 1106 (например, просвечивающий дисплей на органических светоизлучающих диодах (OLED)). В качестве другого примера, прозрачный дисплей 1102 может включать в себя модулятор света, расположенный в оправе HMD-устройства 1100. В этом примере линзы 1106 могут служить световодом для доставки света от модулятора света в глаза пользователя. Такой световод может позволить носящему пользователю воспринимать 3D голографическое изображение, расположенное в физической среде, которую наблюдает носящий пользователь, в то же время позволяя носящему пользователю просматривать физические объекты в физической среде, тем самым создавая среду смешанной реальности.

[0056] HMD-устройство 1100 может также включать в себя различные датчики и связанные с ними системы для предоставления информации контроллеру 1104. Такие датчики могут включать в себя, без ограничения указанным, решетку микрофонов, один или более обращенных вовне датчиков 1108 изображения и блок инерциальных измерений (IMU) 1110.

[0057] В качестве неограничительного примера, решетка микрофонов может включать в себя шесть микрофонов, расположенных в разных частях HMD-устройства 1100. В некоторых реализациях микрофоны 1112 и 1114 могут быть расположены на верхней части линзы 1106, и могут, как правило, быть обращены вперед. Микрофоны 1112 и 1114 могут быть ориентированы под углами сорок пять градусов по отношению к направлению вперед HMD-устройства 1100. Микрофоны 1112 и 1114 могут быть дополнительно ориентированы в плоской горизонтальной плоскости HMD-устройства 1100. Микрофоны 1112 и 1114 могут быть всенаправленными микрофонами, сконфигурированными, чтобы захватывать звук в общей области/направлении перед HMD-устройством 1100, или могут иметь любую другую подходящую форму.

[0058] Микрофоны 1116 и 1118 могут быть расположены на нижней части линзы 1106. В качестве одного неограничительного примера микрофоны 1116 и 1118 могут быть обращены вперед и направлены вниз, чтобы захватывать звук, исходящий от рта носящего пользователя. В некоторых реализациях микрофоны 1116 и 1118 могут быть направленными микрофонами. В некоторых реализациях микрофоны 1112, 1114, 1116 и 1118 могут быть расположены в оправе, окружающей линзу 1106.

[0059] Микрофоны 1120 и 1122 могут, каждый, располагаться в боковой оправе HMD-устройства 1100. Микрофоны 1122 и 1120 могут быть ориентированы под углами девяносто градусов относительно направления вперед HMD-устройства 1100. Микрофоны 1122 и 1120 могут быть дополнительно ориентированы в плоской горизонтальной плоскости HMD устройства 1100. Микрофоны 1122 и 1120 могут быть всенаправленными микрофонами, сконфигурированными, чтобы захватывать звук в общей области/направлении на каждой стороне HMD-устройства 1100. Следует понимать, что любая другая подходящая решетка микрофонов, кроме описанной выше, также может быть использована.

[0060] Как описано выше, решетка микрофонов может формировать поток аудио данных, которые могут анализироваться контроллером 1104, чтобы обнаруживать разговор между пользователем, носящим HMD-устройство, и другим лицом. В одном неограничительном примере с использованием цифровой обработки сигнала, может быть вычислена среднеквадратичная воспринимаемая громкость от каждого микрофонного преобразователя, и взвешенная функция может сообщать, сообщают ли микрофоны слева или справа более громкий звук, и насколько. Аналогично, может быть сообщено значение для случаев ʺко ртуʺ и ʺот ртаʺ и ʺспереди относительно сбокуʺ. Эти данные могут быть использованы для определения местоположения источников фрагментов человеческой речи. Кроме того, контроллер 1104 может быть сконфигурирован, чтобы обнаруживать разговор путем определения того, что фрагменты человеческой речи чередуются между различными положениями источников.

[0061] Следует понимать, что изображенная решетка микрофонов является лишь одним неограничительным примером подходящей решетки микрофонов, и любое подходящее количество микрофонов в любой подходящей конфигурации может быть реализовано без отклонения от сущности и объема настоящего раскрытия.

[0062] Один или более обращенных вовне датчиков 1108 изображения могут быть сконфигурированы, чтобы захватывать визуальные данные из физической среды, в которой расположено HMD-устройство 1100. Например, обращенные вовне датчики 1108 могут быть сконфигурированы, чтобы обнаруживать движения в пределах поля зрения дисплея 1102, такие как движения, выполняемые носящим пользователем или лицом или физическим объектом в поле зрения. В одном примере обращенные вовне датчики 1108 могут обнаруживать пользователя, разговаривающего с пользователем, носящим HMD-устройство. Обращенные вовне датчики могут также захватывать информацию 2D-изображения и информацию о глубине из физической среды и физических объектов в среде. Как описано выше, такие данные изображения могут быть использованы для визуального распознавания того, что пользователь разговаривает с носящим пользователем. Такой анализ может быть скомбинирован с анализом потока аудио данных, чтобы увеличить достоверность обнаружения разговора.

[0063] IMU 1110 может быть сконфигурирован, чтобы предоставлять данные положения и/или ориентации HMD-устройства 1100 в контроллер 1104. В одном варианте осуществления IMU 1110 может быть сконфигурирован в виде трехосной или имеющей три степени свободы системы датчиков положения. Эта примерная система датчиков положения может, например, включать в себя три гироскопа для указания или измерения изменения в ориентации HMD-устройства 1100 в 3D-пространстве относительно трех ортогональных осей (например, х, y, z) (например, по крену, тангажу, рысканию). Ориентация, полученная из сигналов датчиков IMU, может быть использована для определения направления пользователя, которое участвует в разговоре с пользователем, носящим HMD-устройство.

[0064] В другом примере IMU 1110 может быть выполнен в виде шестиосной или имеющей шесть степеней свободы системы датчиков положения. Такая конфигурация может включать в себя три акселерометра и три гироскопа, чтобы указывать или измерять изменение в местоположении HMD-устройства 1100 вдоль трех ортогональных осей и изменение в ориентации устройства относительно трех ортогональных осей. В некоторых вариантах осуществления, данные положения и ориентации от датчика 1108 изображения и IMU 1110 могут использоваться в сочетании для определения положения и ориентации HMD-устройства 100.

[0065] HMD-устройство 1100 может дополнительно включать в себя динамики 1124 и 1126, сконфигурированные для вывода звука к пользователю, носящему HMD-устройство. Динамики 1124 и 1126 могут быть размещены на каждой боковой части оправы HMD-устройства вблизи ушей пользователя. Например, динамики 1124 и 1126 могут воспроизводить аудио контент, такой как музыка или звуковое сопровождение к визуальному контенту, отображаемому через просвечивающий дисплей 1102. В некоторых случаях громкость динамиков может снижаться или приглушаться в ответ на обнаружение разговора между носящим пользователем и другим лицом.

[0066] Контроллер 1104 может включать в себя логическую машину и машину хранения, как описано более подробно ниже со ссылками на фиг. 12, которые могут осуществлять связь с различными датчиками и дисплеем HMD-устройства 1100. В одном примере машина хранения может включать в себя инструкции, которые являются исполняемыми логической машиной, чтобы принимать поток аудио данных от одного или более датчиков, таких, как решетка микрофонов, обнаруживать разговор между носящим пользователем и другим пользователем на основе потока аудио данных и изменять представление элемента цифрового контента в ответ на обнаружение разговора.

[0067] В некоторых вариантах осуществления способы и процессы, описанные здесь, могут быть связаны с вычислительной системой одного или более вычислительных устройств. В частности, такие способы и процессы могут быть реализованы в виде компьютерной прикладной программы или службы, интерфейса программирования приложений (API), библиотеки и/или другого компьютерного программного продукта.

[0068] Фиг. 12 схематично показывает неограничительный вариант осуществления вычислительной системы 1200, которая может вводить в действие один или более способов и процессов, описанных выше. Вычислительная система 1200 показана в упрощенной форме. Вычислительная система 1200 может принимать форму одного или более персональных компьютеров, серверных компьютеров, планшетных компьютеров, компьютеров домашней развлекательной системы, сетевых вычислительных устройств, игровых устройств, мобильных вычислительных устройств, устройств мобильной связи (например, смартфона) и/или других вычислительных устройств. Например, вычислительная система может принимать форму HMD-устройства 104, показанного на фиг. 1, вычислительного устройства 606 развлекательной системы, показанного на фиг. 6, или другого подходящего вычислительного устройства.

[0069] Вычислительная система 1200 включает в себя логическую машину 1202 и машину 1204 хранения. Вычислительная система 1200 может опционально включать в себя подсистему 106 отображения, подсистему 1208 ввода, подсистему 1210 связи и/или другие компоненты, не показанные на фиг. 12.

[0070] Логическая машина 1202 включает в себя одно или более физических устройств, сконфигурированных для выполнения инструкций. Например, логическая машина может быть сконфигурирована для исполнения инструкций, которые являются частью одного или более приложений, служб, программ, подпрограмм, библиотек, объектов, компонентов, структур данных или других логических конструкций. Такие инструкции могут быть реализованы для выполнения задачи, реализации типа данных, преобразования состояния одного или более компонентов, достижения технического результата или достижения иным образом желательного результата.

[0071] Логическая машина может включать в себя один или более процессоров, сконфигурированных для исполнения инструкций программного обеспечения. Дополнительно или в качестве альтернативы, логическая машина может включать в себя одну или более аппаратных или программно-аппаратных логических машин, сконфигурированных для исполнения инструкций аппаратных или программно-аппаратных средств. Процессоры логической машины могут быть одноядерными или многоядерными, и инструкции, исполняемые на них, могут быть сконфигурированы для последовательной, параллельной и/или распределенной обработки. Отдельные компоненты логической машины опционально могут быть распределены среди двух или более отдельных устройств, которые могут быть удаленно расположенными и/или сконфигурированными для скоординированной обработки. Аспекты логической машины могут быть виртуализованными и могут выполняться удаленно доступными, взаимодействующими по сети вычислительными устройствами, сконфигурированными в конфигурации облачных вычислений.

[0072] Машина 1204 хранения включает в себя одно или более физических устройств, сконфигурированных для хранения инструкций, исполняемых логической машиной для реализации методов и процессов, описанных здесь. Когда такие методы и процессы реализуются, состояние машины 1204 хранения может быть преобразовано, например, для сохранения различных данных.

[0073] Машина 1204 хранения может включать в себя съемные и/или встроенные устройства. Машина 1204 хранения может включать в себя оптическую память (например, CD, DVD, HD-DVD, Blu-Ray Disc и т.д.), полупроводниковую память (например, RAM, EPROM, EEPROM и т.д.) и/или магнитную память (например, накопитель на жестком диске, накопитель на гибком диске, накопитель на магнитной ленте, MRAM и т.д.), среди других. Машина 1204 хранения может включать в себя энергозависимые, энергонезависимые, динамические, статические, для чтения/записи, только для чтения, с произвольным доступом, с последовательным доступом, позиционно-адресуемые, с адресацией файла и/или контентно-адресуемые устройства.

[0074] Следует понимать, что машина 1204 хранения включает в себя одно или более физических устройств. Однако аспекты инструкций, описанных здесь, могут быть распространены на коммуникационную среду (например, электромагнитный сигнал, оптический сигнал и т.д.), которая не удерживается физическим устройством в течение конечной длительности.

[0075] Аспекты логической машины 1202 и машины 1204 хранения могут быть интегрированы вместе в один или более аппаратно-логических компонентов. Такие аппаратно-логические компоненты могут включать в себя, например, программируемые пользователем вентильные матрицы (FPGA), программно-ориентированные и ориентированные на приложение интегральные схемы (PASIC/ASIC), программно-ориентированные и ориентированные на приложение стандартные продукты (PSSP/ASSP), однокристальные системы (SOC) и сложные программируемые логические устройства (CPLD).

[0076] Следует понимать, что ʺслужбаʺ, как используется здесь, представляет собой прикладную программу, исполняемую по множеству пользовательских сеансов. Служба может быть доступна для одного или более системных компонентов, программ и/или других служб. В некоторых реализациях служба может исполняться на одном или более серверных вычислительных устройствах.

[0077] Подсистема 1206 отображения, если она включена, может быть использована для обеспечения визуального представления данных, хранящихся в машине 1204 хранения. Это визуальное представление может принимать форму графического пользовательского интерфейса (GUI). Поскольку описанные в данном документе способы и процессы изменяют данные, хранимые машиной хранения, и, таким образом, преобразуют состояние машины хранения, состояние подсистемы 1206 отображения может аналогичным образом преобразовываться, чтобы визуально представлять изменения в исходных данных. Подсистема 1206 отображения может включать в себя одно или более устройств отображения, использующих практически любой тип технологии. Такие устройства отображения могут быть объединены с логической машиной 1202 и/или машиной 1204 хранения в общем корпусе, или такие устройства отображения могут быть периферийными устройствами отображения.

[0078] Подсистема 1208 ввода, если она включена, может содержать или взаимодействовать с одним или более устройствами пользовательского ввода, такими как клавиатура, мышь, сенсорный экран или игровой контроллер. В некоторых вариантах осуществления подсистема ввода может содержать или взаимодействовать с выбранными компонентами естественного пользовательского ввода (NUI). Такие компоненты могут быть интегрированными или периферийными, а преобразование и/или обработка действий ввода могут обрабатываться встроенными или внешними средствами. Пример компонентов NUI может включать в себя микрофон для распознавания речи и/или голоса; инфракрасную, цветную, стереоскопическую камеру и/или камеру с восприятием глубины для систем машинного зрения и/или распознавания жестов; средство слежения за положением головы пользователя, средство слежения за движением глаз пользователя, акселерометр и/или гироскоп для обнаружения движения и/или распознавания намерения; а также компоненты восприятия электрического поля для оценки активности мозга. Например, подсистема 1208 ввода может быть сконфигурирована, чтобы принимать поток сенсорных данных от сенсорного устройства 608, показанного на фиг. 6.

[0079] Подсистема 1210 связи, если она включена, может быть сконфигурирована, чтобы коммуникативно связывать вычислительную систему 1200 с одним или более другими вычислительными устройствами. Подсистема 1210 связи может включать в себя проводные и/или беспроводные устройства связи, совместимые с одним или более различными протоколами связи. В качестве неограничительных примеров, подсистема связи может быть сконфигурирована для связи через беспроводную телефонную сеть, проводную или беспроводную локальную сеть или сеть широкого охвата. В некоторых вариантах осуществления настоящего изобретения подсистема связи может позволить вычислительной системе 1200 передавать и/или принимать сообщения к и/или от других устройств через сеть, такую как Интернет.

[0080] Следует понимать, что конфигурации и/или подходы, описанные в настоящем документе, являются примерными по своей природе, и что эти конкретные варианты осуществления или примеры не следует рассматривать в ограничительном смысле, так как возможны многочисленные вариации. Конкретные процедуры или способы, описанные здесь, могут представлять одну или более из любого числа стратегий обработки. Как таковые, различные проиллюстрированные и/или описанные действия могут выполняться в проиллюстрированной и/или описанной последовательности, в других последовательностях, параллельно или могут быть опущены. Подобным же образом, порядок вышеописанных процессов может быть изменен.

[0081] Предмет настоящего изобретения включает в себя все новые и неочевидные комбинации и подкомбинации различных процессов, систем и конфигураций, а также другие признаки, функции, действия и/или свойства, описанные в настоящем документе, а также любые и все их эквиваленты.

1. Реализуемый компьютером способ обнаружения разговора между пользователями, причем способ содержит:

прием потока аудиоданных от одного или более датчиков;

обнаружение разговора между первым пользователем и вторым пользователем на основе потока аудиоданных;

обнаружение фрагментов человеческой речи поочередно между первым и вторым пользователями, включая пользователя, носящего устанавливаемое на голове устройство отображения, и другое лицо, на основе потока аудиоданных,

прием изображения сцены, включающей в себя упомянутое другое лицо, от оптического датчика устанавливаемого на голове устройства отображения, и

подтверждение, что другое лицо разговаривает с носящим пользователем, на основе упомянутого изображения;

изменение представления элемента цифрового контента в ответ на обнаружение разговора,

причем элемент цифрового контента включает в себя один или более элементов визуального контента, и в котором изменение представления элемента цифрового контента включает в себя одно или более из скрытия одного или более элементов визуального контента из просмотра на дисплее, перемещение одного или более элементов визуального контента в другое положение на экране, изменение просвечиваемости одного или более элементов визуального контента и изменение размера одного или более элементов визуального контента на дисплее.

2. Способ по п. 1, в котором обнаружение разговора между первым пользователем и вторым пользователем включает в себя

обнаружение голосовой активности в потоке аудиоданных, определение того, что голосовая активность включает в себя фрагменты человеческой речи, и

определение того, что фрагменты человеческой речи чередуются между различными местоположениями источников.

3. Способ по п. 2, в котором один или более датчиков включают в себя решетку микрофонов, содержащую множество микрофонов, и в котором определение местоположения источника фрагмента человеческой речи включает в себя применение диаграммообразующего пространственного фильтра для множества аудиовыборок решетки микрофонов, чтобы оценивать различные местоположения источников.

4. Способ по п. 2, в котором обнаружение разговора между первым пользователем и вторым пользователем дополнительно включает в себя определение того, что фрагменты человеческой речи возникают в пределах назначенного диапазона ритма.

5. Способ по п. 2, в котором обнаружение разговора между первым пользователем и вторым пользователем дополнительно включает в себя определение того, что фрагменты человеческой речи чередуются между различными местоположениями источников в пределах порогового периода времени.

6. Способ по п. 2, дополнительно содержащий:

определение того, что один или более фрагментов человеческой речи предоставлены электронным аудиоустройством, и

игнорирование этих одного или более фрагментов человеческой речи, предоставленных электронным аудиоустройством, при определении, что фрагменты человеческой речи чередуются между различными местоположениями источников.

7. Способ по п. 1, в котором элемент цифрового контента включает в себя один или более из элемента аудиоконтента и элемента видеоконтента и в котором изменение представления элемента цифрового контента включает в себя приостановку представления элемента аудиоконтента или элемента видеоконтента.

8. Способ по п. 1, в котором элемент цифрового контента включает в себя элемент аудиоконтента и в котором изменение представления элемента цифрового контента включает в себя снижение громкости элемента аудиоконтента.

9. Машина хранения, хранящая инструкции, исполняемые логической машиной вычислительной системы, чтобы выполнять способ по любому из предыдущих пунктов.

10. Устанавливаемое на голове устройство отображения, содержащее:

один или более аудиодатчиков, сконфигурированных, чтобы регистрировать поток аудиоданных;

оптический датчик, сконфигурированный, чтобы регистрировать изображение сцены;

просвечиваемый дисплей, сконфигурированный, чтобы отображать элемент цифрового контента;

логическую машину и

машину хранения по п. 9.



 

Похожие патенты:

Изобретение относится к средствам для подавления шума. Технический результат заключается в повышении эффективности подавления шума.

Изобретение относится к средствам для получения кадра модификации речевой активности. Технический результат заключается в повышении эффективности обработки речевых сигналов.

Изобретение относится к области обработки звуковых сигналов. Технический результат заключается в повышении качества обработки звукового сигнала при расширении частотного диапазона звукового сигнала.

Изобретение относится к вычислительной технике для обработки цифрового аудиосигнала. Технический результат заключается в повышении качества аудиосигнала после коррекции потери кадра.

Изобретение относится к области вычислительной техники для обработки голоса. Технический результат заключается в повышении точности идентификации голосовых команд пользователя.

Изобретение относится к аудиокодеку для использования параллельно с кодированным видео. Техническим результатом является обеспечение синхронизации и выравнивания аудио и видео.

Изобретение относится к области техники передачи и трансляции речевой информации. Технический результат заключается в повышении точности определения момента появления и увеличении значения вероятности правильного решения о появлении речевого сигнала при наличии акустического шума.

Изобретение относится к обнаружению голосовой активности (VAD). Технический результат – увеличение точности обнаружения кадров речевой неактивности до и после голосовых сегментов.

Изобретение относится к средствам для обработки аудиосигнала. Технический результат заключается в повышении эффективности обработки аудиосигнала.

Изобретение относится к области декодирования аудиоинформации. Технический результат – обеспечение улучшенного маскирования ошибки аудиоинформации.

Изобретение относится к средствам для распознавания смешанной речи. Технический результат заключается в повышении точности распознавания смешанной речи. Обучают первую нейронную сеть для распознавания речевого сигнала, произнесенного говорящим с более высоким уровнем речевой характеристики, из выборки смешанной речи. Обучают вторую нейронную сеть для распознавания речевого сигнала, произнесенного говорящим с более низким уровнем речевой характеристики, из выборки смешанной речи. Декодируют выборку смешанной речи первой нейронной сетью и второй нейронной сетью путем оптимизации объединенной вероятности наблюдения упомянутых двух речевых сигналов, где объединенная вероятность означает вероятность того, что конкретный кадр является точкой переключения речевой характеристики. Обучают третью нейронную сеть для предсказания переключения речевой характеристики. Декодируют выборку смешанной речи на основе упомянутого предсказания. 3 н. и 12 з.п. ф-лы, 5 табл., 6 ил.

Изобретение относится к средствам для обнаружения разговора между пользователями. Технический результат заключается в повышении точности автоматического обнаружения разговора между пользователями. Принимают поток аудиоданных от одного или более датчиков. Обнаруживают разговор между первым пользователем и вторым пользователем на основе потока аудиоданных. Обнаруживают фрагменты человеческой речи поочередно между первым и вторым пользователями, включая пользователя, носящего устанавливаемое на голове устройство отображения, и другое лицо, на основе потока аудиоданных. Принимают изображения сцены, включающей в себя упомянутое другое лицо, от оптического датчика устанавливаемого на голове устройства отображения. Подтверждают, что другое лицо разговаривает с носящим пользователем, на основе упомянутого изображения. Изменяют представление элемента цифрового контента в ответ на обнаружение разговора. Причем элемент цифрового контента включает в себя один или более элементов визуального контента. 3 н. и 7 з.п. ф-лы, 12 ил.

Наверх