Способ и система для распознавания воспроизведенного речевого фрагмента

Авторы патента:

Артём Константин Юрьевич (BY)

G10L15/18 - с использованием моделирования естественного языка

G06F3/16 - ввод с помощью звука; вывод в виде звука (преобразование речи в дискретную информацию или наоборот G10L)

Владельцы патента RU 2767962:

ОБЩЕСТВО С ОГРАНИЧЕННОЙ ОТВЕТСТВЕННОСТЬЮ «ЯНДЕКС» (RU)

Изобретение относится к области вычислительной техники для обработки аудиоданных. Технический результат заключается в повышении точности распознавания приложением виртуального помощника адаптированного контента, содержащего речевой фрагмент активационного слова. Технический результат достигается за счет фиксации акустическим устройством аудиосигнала, сформированного вблизи акустического устройства пользователем-человеком или другим электронным устройством; получения акустическим устройством обрабатывающего фильтра, указывающего на заранее заданный шаблон коррекции сигнала, представляющий исключенную часть, которая была исключена из исходного речевого фрагмента, содержащего активационное слово и предназначенного для воспроизведения другим электронным устройством; применения акустическим устройством обрабатывающего фильтра для определения наличия в аудиосигнале заранее заданного шаблона коррекции сигнала и определения того, что аудиосигнал был сформирован другим электронным устройством, при наличии в аудиосигнале заранее заданного шаблона коррекции сигнала. 2 н. и 23 з.п. ф-лы, 9 ил.

Область техники, к которой относится изобретение

[001] Настоящая технология в целом относится к обработке естественного языка и в частности - к способу и системе для обработки речевого фрагмента, воспроизведенного электронным устройством.

Уровень техники

[002] Электронные устройства, такие как смартфоны и планшеты, способны обеспечивать доступ к постоянно растущему количеству разнообразных приложений и сервисов для доступа к информации различных видов и/или ее обработки. При этом начинающие пользователи и/или пользователи с ограниченными возможностями могут быть неспособными эффективно взаимодействовать с такими устройствами, главным образом, вследствие разнообразия предоставляемых ими функций или из-за невозможности использовать человеко-машинные интерфейсы, предоставляемые такими устройствами (такие как клавиатура). Например, пользователь, управляющий транспортным средством, или пользователь с нарушениями зрения может быть неспособным использовать клавиатуру на сенсорном экране, связанную с некоторыми из таких устройств.

[003] Для выполнения функций по запросам таких пользователей разработаны приложения виртуального помощника. Например, приложения виртуального помощника могут использоваться для поиска информации, навигации и выполнения других команд. Традиционное приложение виртуального помощника (такое как Siri™, Alexa™ и т.п.) способно принимать речевой фрагмент пользователя в виде цифрового аудиосигнала от электронного устройства и выполнять разнообразные задачи для пользователя. В частности, пользователь может обмениваться информацией с приложением виртуального помощника, используя речевые фрагменты, например, чтобы узнать текущую погоду, местоположение ближайшего торгового центра и т.п. Пользователь также может запросить выполнение различных приложений, установленных в электронном устройстве.

[004] Разумеется, чтобы активировать приложение виртуального помощника, пользователю может потребоваться использовать (т.е. произнести) активационное слово или фразу (например, «Hey Siri», «Alexa», «OK Google» и т.п.). Приняв активационное слово, приложение виртуального помощника может принять от пользователя речевую команду для выполнения.

[005] Тем не менее, для эффективного управления со стороны пользователя приложение виртуального помощника должно быть предварительно настроено для предотвращения ложных активаций, т.е. активаций, вызванных не пользователем, а фоновым шумом, создаваемым другим электронным устройством. Например, приложение виртуального помощника может быть активировано фоновыми звуками телевизора, когда телереклама приложения виртуального помощника, содержащая активационное слово и пример команды, воспроизводится телевизором вблизи электронного устройства, выполняющего приложение виртуального помощника. В результате приложение виртуального помощника, принявшее активационное слово из телерекламы, может отреагировать на него и выполнить пример команды, создав таким образом ненужные сложности для пользователя.

[006] В других примерах, если приложение виртуального помощника используется, когда пользователь управляет автомобилем, такие ложные активации (например, вызванные радиорекламой из встроенного радиоприемника автомобиля) могут отвлекать внимание пользователя, создавая опасность дорожно-транспортного происшествия.

[007] Для решения описанной выше технической проблемы предложены некоторые известные подходы, позволяющие исключать ложную активацию приложения виртуального помощника и включающее в себя формирование «адаптированного» звукового контента. Иными словами, на звуковой контент, содержащий активационное слово для приложения виртуального помощника (реклама приложения виртуального помощника и любое другое широковещательное звуковое сообщение о нем), накладывается дополнительный аудиосигнал (т.н. «водяной знак»), который не слышен человеку, но может распознаваться приложением виртуального помощника при его воспроизведении другим электронным устройством и обеспечивать игнорирование приложением виртуального помощника активационного слова.

[008] В патенте US 10276175 B1 «Key Phrase Detection with Audio Watermarking» (Google LLC, выдан 30.04.2019) описаны способы, системы и устройства, включая компьютерные программы на компьютерных носителях информации, для использования звуковых водяных знаков с ключевыми фразами. Один из способов включает в себя получение звуковоспроизводящим устройством аудиоданных, определение перед выводом звуковоспроизводящим устройством потока аудиоданных того, закодирована ли в части потока аудиоданных конкретная ключевая фраза, путем анализа этой части с использованием автоматического распознавателя речи, модификацию потока аудиоданных с целью добавления звукового водяного знака, если определено, что в части потока аудиоданных закодирована конкретная ключевая фраза, и предоставление модифицированного потока аудиоданных для вывода.

[009] В патентной заявке US 20180350376 A1 «High Frequency Injection for Improved False Acceptance Reduction» (Dell products LP, опубликована 06.12.2018) описаны способы и системы для добавления и обнаружения высокочастотных сигналов с целью лучшего предотвращения ложной идентификации. Система обработки информации может получать аудиоданные и добавлять к ним опознавательный сигнал, определяемый на основе аудиоданных. Сочетание аудиоданных и опознавательного сигнала может выдаваться в приемное устройство. Система обработки информации также может получать данные, содержащие аудиоданные и опознавательный сигнал, связанный с одной или несколькими частотами в аудиоданных, определять одну или несколько частот в аудиоданных, связанных с опознавательным сигналом, и ослаблять сигнал на одной или нескольких частотах в аудиоданных с целью получения модифицированных аудиоданных. Модифицированные аудиоданные могут выдаваться для обработки аудиосигналов.

[0010] В патенте US 9928840 B2 «Hotword Recognition» (Google LLC, выдан 27.03. 2018) описаны способы, системы и устройства, включая компьютерные программы на компьютерных носителях информации, для получения аудиоданных, соответствующих речевому фрагменту, определения того, что аудиоданные соответствуют активационному слову, формирования звуковой сигнатуры активационного слова для аудиоданных, которые определены как соответствующие активационному слову, сравнения звуковой сигнатуры активационного слова с одной или несколькими сохраненными звуковыми сигнатурами аудиоданных, которые ранее были определены как соответствующие активационному слову, определения соответствия звуковой сигнатуры активационного слова сохраненной звуковой сигнатуре аудиоданных, которые ранее были определены как соответствующие активационному слову, на основе результата сравнения, указывающего на то, что сходство между звуковой сигнатурой активационного слова и одной из сохраненных звуковых сигнатур соответствует заранее заданному порогу, и запрета доступа к вычислительному устройству, для которого был воспроизведен речевой фрагмент, если определено, что звуковая сигнатура активационного слова соответствует сохраненной звуковой сигнатуре.

Раскрытие изобретения

[0011] Целью настоящего изобретения является устранение по меньшей мере некоторых недостатков известных решений.

[0012] Разработчики настоящей технологии установили, что распознавание приложением виртуального помощника адаптированного контента, содержащего речевой фрагмент активационного слова, может быть более эффективным и точным, если адаптированный контент вместо водяных знаков содержит «пропуски» в аудиосигнале.

[0013] Аудиосигнал звукового контента, подлежащего широковещательной передаче, предварительно обрабатывается, чтобы исключить конкретные его части на заранее заданных частотах и таким образом сформировать в аудиосигнале конкретный звуковой шаблон, который может распознаваться приложением виртуального помощника. Получив обработанный аудиосигнал, приложение виртуального помощника может путем распознавания в нем конкретного звукового шаблона определять, что обработанный аудиосигнал сформирован другим электронным устройством, а не пользователем. Соответственно, приложение виртуального помощника может игнорировать активационное слово в обработанном аудиосигнале и не активироваться.

[0014] Не имеющие ограничительного характера варианты осуществления настоящей технологии, относящиеся к способу распознавания воспроизведенного речевого фрагмента, позволяют повысить его эффективность и точность по сравнению с известными подходами, среди прочего, благодаря более высокой скорости реагирования и повышенной помехоустойчивости.

[0015] Таким образом, согласно первому аспекту настоящей технологии, реализован компьютерный способ обеспечения работы акустического устройства. Акустическое устройство связано с первым режимом работы и со вторым режимом работы. Акустическое устройство также связано с заранее заданным активационным словом, которое после его распознавания акустическим устройством, работающим в первом режиме работы, способно инициировать переключение акустического устройства во второй режим работы. Способ выполняется акустическим устройством и включает в себя фиксацию акустическим устройством аудиосигнала, сформированного вблизи акустического устройства пользователем-человеком или другим электронным устройством, получение акустическим устройством обрабатывающего фильтра, указывающего на заранее заданный шаблон коррекции сигнала, представляющий исключенную часть, которая была исключена из исходного речевого фрагмента, содержащего активационное слово и предназначенного для воспроизведения другим электронным устройством, применение акустическим устройством обрабатывающего фильтра для определения наличия в аудиосигнале заранее заданного шаблона коррекции сигнала и определение того, что аудиосигнал был сформирован другим электронным устройством, если в аудиосигнале определено наличие заранее заданного шаблона коррекции сигнала.

[0016] В некоторых вариантах осуществления способа он дополнительно включает в себя исключение аудиосигнала из дальнейшей обработки в случае наличия в аудиосигнале заранее заданного шаблона коррекции сигнала.

[0017] В некоторых вариантах осуществления способа он дополнительно включает в себя выполнение заранее заданного дополнительного действия, отличного от обработки аудиосигнала для определения наличия в нем заранее заданного активационного слова, в случае наличия в аудиосигнале заранее заданного шаблона коррекции сигнала.

[0018] В некоторых вариантах осуществления способа при отсутствии в аудиосигнале заранее заданного шаблона коррекции сигнала способ дополнительно включает в себя определение того, что аудиосигнал был сформирован пользователем-человеком, применение акустическим устройством алгоритма преобразования речи в текст в отношении аудиосигнала для формирования его текстового представления, обработку акустическим устройством текстового представления для определения наличия в нем активационного слова и переключение акустического устройства во второй режим работы в случае наличия активационного слова.

[0019] В некоторых вариантах осуществления способа шаблон коррекции сигнала связан с одним из заранее заданных значений частоты.

[0020] В некоторых вариантах осуществления способа шаблон коррекции сигнала связан со множеством заранее заданных значений частоты, выбранных из спектра, воспринимаемого человеческим слухом.

[0021] В некоторых вариантах осуществления способа множество заранее заданных значений частоты таково, что они не делятся друг на друга.

[0022] В некоторых вариантах осуществления способа шаблон коррекции сигнала связан со множеством заранее заданных значений частоты, выбранных из спектра, воспринимаемого человеческим слухом, и не делящихся друг на друга.

[0023] В некоторых вариантах осуществления способа множество заранее заданных значений частоты выбрано случайным образом.

[0024] В некоторых вариантах осуществления способа множество заранее заданных значений частоты заранее выбрано случайным образом.

[0025] В некоторых вариантах осуществления способа множество заранее заданных значений частоты содержит следующие значения: 486 Гц, 638 Гц, 814 Гц, 1355 Гц, 2089 Гц, 2635 Гц, 3351 Гц, 4510 Гц.

[0026] В некоторых вариантах осуществления способа заранее заданный шаблон коррекции сигнала представляет собой первый заранее заданный шаблон коррекции сигнала, а способ дополнительно включает в себя получение указания на второй заранее заданный шаблон коррекции сигнала, отличный от первого заранее заданного шаблона коррекции сигнала.

[0027] В некоторых вариантах осуществления способа второй заранее заданный шаблон коррекции сигнала предназначен для указания вида другого электронного устройства.

[0028] В некоторых вариантах осуществления способа первый режим работы связан с локальным преобразованием речи в текст, а второй режим работы связан с серверным преобразованием речи в текст.

[0029] В некоторых вариантах осуществления способа другое электронное устройство находится вблизи акустического устройства.

[0030] В некоторых вариантах осуществления способа в результате исключения исключенной части при воспроизведении другим устройством исходного речевого фрагмента формируется пропуск звука, который по существу не заметен для человеческого слуха.

[0031] В некоторых вариантах осуществления способа применение обрабатывающего фильтра включает в себя предварительное преобразование аудиосигнала в его частотно-временное представление.

[0032] В некоторых вариантах осуществления способа преобразование аудиосигнала включает в себя применение преобразования Фурье.

[0033] В некоторых вариантах осуществления способа преобразование Фурье выполняется с использованием последовательных окон.

[0034] В некоторых вариантах осуществления способа обрабатывающий фильтр применяется акустическим устройством для каждого из последовательных окон.

[0035] В некоторых вариантах осуществления способа наличие заранее заданного шаблона коррекции сигнала в аудиосигнале определяется при наличии заранее заданного шаблона коррекции сигнала в по меньшей мере одном из последовательных окон.

[0036] В некоторых вариантах осуществления способа применение обрабатывающего фильтра для определения наличия в аудиосигнале заранее заданного шаблона коррекции сигнала включает в себя определение уровней энергии для множества заранее заданных частот, на которых был отфильтрован звуковой сигнал.

[0037] В некоторых вариантах осуществления способа определение уровней энергии включает в себя сравнение уровня энергии на частоте из множества заранее заданных частот, на которой аудиосигнал был отфильтрован, с уровнем энергии на соседней частоте, на которой аудиосигнал не был отфильтрован.

[0038] В некоторых вариантах осуществления способа наличие заранее заданного шаблона коррекции сигнала определяется, если разность между уровнями энергии превышает заранее заданный порог.

[0039] В некоторых вариантах осуществления способа заранее заданный порог рассчитывается в виде частоты, умноженной на заранее заданный множитель.

[0040] В соответствии с другим аспектом настоящей технологии реализован компьютерный способ формирования аудиопотока для отправки электронному устройству с целью его обработки. Аудиопоток содержит контент, содержащий заранее заданное активационное слово. Заранее заданное активационное слово, распознанное акустическим устройством, работающим в первом режиме работы, способно инициировать переключение акустического устройства из первого режима работы во второй режим работы. Способ выполняется рабочим сервером. Способ включает в себя получение рабочим сервером заранее записанного аудиопотока, содержащего контент, получение рабочим сервером обрабатывающего фильтра, указывающего на заранее заданный шаблон коррекции сигнала, представляющий исключенную часть, подлежащую исключению из аудиопотока с целью указания акустическому устройству на необходимость игнорирования активационного слова, содержащегося в контенте, исключение рабочим сервером исключенной части из аудиопотока с целью формирования пропуска звука при воспроизведении аудиопотока электронным устройством и инициирование отправки аудиопотока электронному устройству.

[0041] В контексте настоящего описания термин «сервер» означает компьютерную программу, выполняемую соответствующими аппаратными средствами и способную принимать запросы (например, от клиентских устройств) через сеть и выполнять эти запросы или инициировать их выполнение. Аппаратные средства могут представлять собой один физический компьютер или одну компьютерную систему, что не существенно для настоящей технологии. В настоящем контексте выражение «сервер» не означает, что каждая задача (например, принятая команда или запрос) или некоторая конкретная задача принимается, выполняется или запускается одним и тем же сервером (т.е. одними и теми же программными и/или аппаратными средствами). Это выражение означает, что любое количество программных средств или аппаратных средств может принимать, отправлять, выполнять или инициировать выполнение любой задачи или запроса либо результатов любых задач или запросов. Все эти программные и аппаратные средства могут представлять собой один сервер или несколько серверов, причем оба эти случая подразумеваются в выражении «по меньшей мере один сервер».

[0042] В контексте настоящего описания термин «клиентское устройство» означает любое компьютерное аппаратное средство, способное выполнять программы, подходящие для решения поставленной задачи. Таким образом, некоторые (не имеющие ограничительного характера) примеры клиентских устройств включают в себя персональные компьютеры (настольные, ноутбуки, нетбуки и т.п.), смартфоны и планшеты, а также сетевое оборудование, такое как маршрутизаторы, коммутаторы и шлюзы. Следует отметить, что в данном контексте устройство, функционирующее как клиентское устройство, также может функционировать как сервер для других клиентских устройств. Использование выражения «клиентское устройство» не исключает использования нескольких клиентских устройств для приема, отправки, выполнения или инициирования выполнения любой задачи или запроса либо результатов любых задач или запросов либо шагов любого описанного здесь способа.

[0043] В контексте настоящего описания термин «база данных» означает любой структурированный набор данных, независимо от его конкретной структуры, программного обеспечения для управления базой данных или компьютерных аппаратных средств для хранения этих данных, их применения или обеспечения их использования иным способом. База данных может располагаться в тех же аппаратных средствах, где реализован процесс, обеспечивающий хранение или использование информации, хранящейся в базе данных, либо база данных может располагаться в отдельных аппаратных средствах, таких как специализированный сервер или множество серверов.

[0044] В контексте настоящего описания выражение «информация» включает в себя информацию любого рода или вида, допускающую хранение в базе данных. Таким образом, информация включает в себя аудиовизуальные произведения (изображения, фильмы, звукозаписи, презентации и т.д.), данные (данные о местоположении, числовые данные и т.д.), текст (мнения, комментарии, вопросы, сообщения и т.д.), документы, электронные таблицы, списки слов и т.д., но не ограничивается ими.

[0045] В контексте настоящего описания выражение «компонент» включает в себя обозначение программного обеспечения (подходящего для определенных аппаратных средств), необходимого и достаточного для выполнения определенной функции или нескольких функций.

[0046] В контексте настоящего описания выражение «пригодный для использования в компьютере носитель информации» означает носители любого рода и вида, включая оперативное запоминающее устройство (ОЗУ), постоянное запоминающее устройство (ПЗУ), диски (CD-ROM, DVD, гибкие диски, жесткие диски и т.д.), USB-накопители, твердотельные накопители, накопители на магнитных лентах и т.д.

[0047] В контексте настоящего описания числительные «первый» «второй», «третий» и т.д. используются лишь для указания различия между существительными, к которым они относятся, но не для описания каких-либо определенных взаимосвязей между этими существительными. Например, должно быть понятно, что использование терминов «первый сервер» и «третий сервер» не подразумевает какого-либо определенного порядка, типа, хронологии, иерархии или классификации, в данном случае, серверов, а также что их использование (само по себе) не подразумевает наличие «второго сервера» в любой ситуации. Кроме того, как встречается в настоящем описании в другом контексте, ссылка на «первый» элемент и «второй» элемент не исключает того, что эти два элемента в действительности могут быть одним и тем же элементом. Таким образом, например, в некоторых случаях «первый» сервер и «второй» сервер могут представлять собой одно и то же программное и/или аппаратное средство, а в других случаях - различные программные и/или аппаратные средства.

[0048] Каждый вариант осуществления настоящей технологии относится к по меньшей мере одной из вышеупомянутых целей и/или аспектов, но не обязательно ко всем ним. Должно быть понятно, что некоторые аспекты настоящей технологии, связанные с попыткой достижения вышеупомянутой цели, могут не соответствовать этой цели и/или могут соответствовать другим целям, явным образом здесь не упомянутым.

[0049] Дополнительные и/или альтернативные признаки, аспекты и преимущества вариантов осуществления настоящей технологии содержатся в дальнейшем описании, в приложенных чертежах и в формуле изобретения.

Краткое описание чертежей

[0050] Дальнейшее описание приведено для лучшего понимания настоящей технологии, а также других аспектов и их признаков, и должно использоваться совместно с приложенными чертежами.

[0051] На фиг. 1 приведена схема примера компьютерной системы для реализации некоторых вариантов осуществления систем и/или способов согласно настоящей технологии.

[0052] На фиг. 2 представлена сетевая компьютерная среда, пригодная для некоторых вариантов осуществления настоящей технологии.

[0053] На фиг. 3 приведена схема процесса формирования рабочим сервером в сетевой компьютерной среде, представленной на фиг. 2, частотно-временного представления аудиопотока согласно не имеющим ограничительного характера вариантам осуществления настоящей технологии.

[0054] На фиг. 4 приведена схема процесса применения рабочим сервером в сетевой компьютерной среде фильтра для обработки сигнала, использующего заранее заданный шаблон коррекции сигнала, с целью получения частотно-временного представления, сформированного с использованием процесса, представленного на фиг. 3, т.е. скорректированного частотно-временного представления аудиопотока согласно не имеющим ограничительного характера вариантам осуществления настоящей технологии.

[0055] На фиг. 5 приведена схема процесса формирования рабочим сервером в сетевой компьютерной среде звукового документа на основе скорректированного частотно-временного представления, сформированного с использованием процесса, представленного на фиг. 4, согласно не имеющим ограничительного характера вариантам осуществления настоящей технологии.

[0056] На фиг. 6 приведена схема процесса формирования процессором из компьютерной системы, представленной на фиг. 1, частотно-временного представления полученного аудиосигнала согласно не имеющим ограничительного характера вариантам осуществления настоящей технологии.

[0057] На фиг. 7 приведена схема процесса определения процессором из компьютерной системы, представленной на фиг. 1, заранее заданного шаблона коррекции сигнала в полученном аудиосигнале согласно не имеющим ограничительного характера вариантам осуществления настоящей технологии.

[0058] На фиг. 8 приведена блок-схема способа формирования рабочим сервером в сетевой компьютерной среде, представленной на фиг. 2, звукового документа согласно не имеющим ограничительного характера вариантам осуществления настоящей технологии.

[0059] На фиг. 9 приведена блок-схема способа работы электронного устройства в сетевой компьютерной среде, представленной на фиг. 2, со звуковым документом согласно не имеющим ограничительного характера вариантам осуществления настоящей технологии.

Осуществление изобретения

[0060] Представленные здесь примеры и условный язык предназначены для обеспечения лучшего понимания принципов настоящей технологии, а не для ограничения ее объема до таких специально приведенных примеров и условий. Очевидно, что специалисты в данной области техники способны разработать различные способы и устройства, которые явно не описаны и не показаны, но реализуют принципы настоящей технологии в пределах ее существа и объема.

[0061] Кроме того, чтобы способствовать лучшему пониманию, последующее описание может содержать упрощенные варианты реализации настоящей технологии. Специалистам в данной области должно быть понятно, что другие варианты осуществления настоящей технологии могут быть значительно сложнее.

[0062] В некоторых случаях приводятся полезные примеры модификаций настоящей технологии. Они способствуют пониманию, но также не определяют объем или границы настоящей технологии. Представленный перечень модификаций не является исчерпывающим и специалист в данной области может разработать другие модификации в пределах объема настоящей технологии. Кроме того, если в некоторых случаях модификации не описаны, это не означает, что они невозможны и/или что описание содержит единственно возможный вариант реализации того или иного элемента настоящей технологии.

[0063] Более того, описание принципов, аспектов и вариантов реализации настоящей технологии, а также их конкретные примеры предназначены для охвата их структурных и функциональных эквивалентов, независимо от того, известны они в настоящее время или будут разработаны в будущем. Например, специалистам в данной области техники должно быть понятно, что любые описанные здесь структурные схемы соответствуют концептуальным представлениям иллюстративных принципиальных схем, реализующих основы настоящей технологии. Также должно быть понятно, что любые блок-схемы, схемы процессов, диаграммы изменения состояния, псевдокоды и т.п. соответствуют различным процессам, которые могут быть представлены на машиночитаемом физическом носителе информации и могут выполняться компьютером или процессором, независимо от того, показан такой компьютер или процессор явно или нет.

[0064] Функции различных элементов, показанных на чертежах, включая любой функциональный блок, обозначенный как «процессор» или «графический процессор», могут быть реализованы с использованием специализированных аппаратных средств, а также с использованием аппаратных средств, способных выполнять соответствующее программное обеспечение. Если используется процессор, эти функции могут выполняться одним выделенным процессором, одним совместно используемым процессором и/или множеством отдельных процессоров, некоторые из которых могут использоваться совместно. В некоторых вариантах осуществления настоящей технологии процессор может представлять собой процессор общего назначения, такой как центральный процессор (CPU), или специализированный процессор, такой как графический процессор (GPU). Кроме того, явное использование термина «процессор» или «контроллер» не должно трактоваться как указание исключительно на аппаратные средства, способные выполнять программное обеспечение, и может подразумевать, помимо прочего, аппаратные средства цифрового сигнального процессора (DSP), сетевой процессор, специализированную интегральную схему (ASIC), программируемую вентильную матрицу (FPGA), постоянное запоминающее устройство (ПЗУ) для хранения программного обеспечения, оперативное запоминающее устройство (ОЗУ) и/или энергонезависимое запоминающее устройство. Также могут подразумеваться другие аппаратные средства, общего назначения и/или заказные.

[0065] Программные модули или просто модули, реализация которых предполагается в виде программных средств, могут быть представлены здесь как любое сочетание элементов блок-схемы или других элементов, указывающих на выполнение шагов процесса и/или содержащих текстовое описание. Такие модули могут выполняться аппаратными средствами, показанными явно или подразумеваемыми.

[0066] Далее с учетом вышеизложенных принципов рассмотрены некоторые не имеющие ограничительного характера примеры, иллюстрирующие различные варианты реализации аспектов настоящей технологии.

Компьютерная система

[0067] На фиг. 1 представлена компьютерная система 100, пригодная для использования с некоторыми вариантами осуществления настоящей технологии. Компьютерная система 100 содержит различные аппаратные элементы, включая один или несколько одно- или многоядерных процессоров, обобщенно представленных процессором 110, графический процессор (GPU) 111, твердотельный накопитель 120, ОЗУ 130, интерфейс 140 дисплея и интерфейс 150 ввода-вывода.

[0068] Связь между различными компонентами компьютерной системы 100 может осуществляться через одну или несколько внутренних и/или внешних шин 160 (таких как шина PCI, универсальная последовательная шина, шина FireWire стандарта IEEE 1394, шина SCSI, шина Serial-ATA и т.д.), с которыми различные аппаратные компоненты соединены электронными средствами.

[0069] Интерфейс 150 ввода-вывода может соединяться с сенсорным экраном 190 и/или с одной или несколькими внутренними и/или внешними шинами 160. Сенсорный экран 190 может входить в состав дисплея. В некоторых вариантах реализации сенсорный экран 190 представляет собой дисплей. Сенсорный экран 190 может также называться экраном 190. В представленных на фиг. 1 вариантах осуществления изобретения сенсорный экран 190 содержит сенсорные аппаратные средства 194 (например, чувствительные к нажатию ячейки, встроенные в дисплей и позволяющие обнаруживать физическое взаимодействие между пользователем и дисплеем) и контроллер 192 ввода-вывода для сенсорных устройств, который обеспечивает связь с интерфейсом 140 дисплея и/или с одной или несколькими внутренними и/или внешними шинами 160. В некоторых вариантах осуществления изобретения интерфейс 150 ввода-вывода может соединяться с клавиатурой (не показана), мышью (не показана) или сенсорной площадкой (не показана), обеспечивающими взаимодействие пользователя с компьютерной системой 100 в дополнение к сенсорному экрану 190 или вместо него. В некоторых вариантах осуществления изобретения компьютерная система 100 может содержать один или несколько микрофонов (не показаны). Микрофоны могут записывать аудиосигнал, такой как речевой фрагмент пользователя. Речевые фрагменты пользователя могут преобразовываться в команды для управления компьютерной системой 100.

[0070] Следует отметить, что в некоторых не имеющих ограничительного характера вариантах осуществления изобретения некоторые элементы компьютерной системы 100 могут отсутствовать. Например, может отсутствовать сенсорный экран 190, в частности, если компьютерная система реализована в виде интеллектуального акустического устройства (умной колонки), но не ограничиваясь этим.

[0071] Согласно вариантам осуществления настоящей технологии, твердотельный накопитель 120 хранит программные команды, пригодные для загрузки в ОЗУ 130 и для выполнения процессором 110 и/или GPU 111. Программные команды могут, например, входить в состав библиотеки или приложения.

Сетевая компьютерная среда

[0072] На фиг. 2 представлена схема сетевой компьютерной среды 200, пригодной для использования с некоторыми вариантами осуществления систем и/или способов согласно настоящей технологии. Сетевая компьютерная среда 200 содержит сервер 202, соединенный через сеть 208 связи с первым электронным устройством 204. В не имеющих ограничительного характера вариантах осуществления настоящей технологии первое электронное устройство 204 может быть связано с пользователем 216.

[0073] В не имеющих ограничительного характера вариантах осуществления настоящей технологии первое электронное устройство 204 может представлять собой любое компьютерное аппаратное средство, способное выполнять программы, подходящие для решения поставленной задачи. Таким образом, некоторые не имеющие ограничительного характера примеры первого электронного устройства 204 могут включать в себя персональные компьютеры (настольные, ноутбуки, нетбуки и т.п.), смартфоны и планшеты.

[0074] Первое электронное устройство 204 может содержать некоторые или все элементы компьютерной системы 100, представленной на фиг. 1. В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии первое электронное устройство 204 может представлять собой умную колонку (например, Yandex.Station™, предоставленную компанией Yandex LLC, ул. Льва Толстого, 16, Москва, 119021, Россия), содержащую процессор 110, твердотельный накопитель 120 и ОЗУ 130.

[0075] В не имеющих ограничительного характера вариантах осуществления настоящей технологии первое электронное устройство 204 может содержать аппаратные средства и/или прикладное программное обеспечение и/или встроенное программное обеспечение (либо их сочетание), в частности, процессор, способный выполнять приложение 205 виртуального помощника. В общем случае приложение 205 виртуального помощника может быть активировано без использования рук в ответ на одно или несколько активационных слов (также известных как ключевые слова) и способно выполнять задачи или сервисы в ответ на принятые в дальнейшем команды. Например, приложение 205 виртуального помощника может быть реализовано в виде приложения виртуального помощника ALISA™ (предоставленного компанией Yandex LLC, ул. Льва Толстого, 16, Москва, 119021, Россия) либо в виде других коммерческих или проприетарных приложений виртуального помощника, заранее установленных в первом электронном устройстве 204. Таким образом, первое электронное устройство 204 может получать команду с использованием микрофона 207, реализованного в первом электронном устройстве 204.

[0076] В не имеющих ограничительного характера вариантах осуществления настоящей технологии микрофон 207 способен фиксировать любой звук, изданный в окрестности 250 первого электронного устройства 204, формируя при этом аналоговый аудиосигнал. Например, микрофон 207 первого электронного устройства 204 может формировать аудиосигнал 240. В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии микрофон 207 может представлять собой автономное устройство, связанное с первым электронным устройством 204, или может входить в состав первого электронного устройства 204.

[0077] В не имеющих ограничительного характера вариантах осуществления настоящей технологии первое электронное устройство 204 может работать по меньшей мере в первом режиме работы и во втором режиме работы.

Первый режим работы

[0078] В не имеющих ограничительного характера вариантах осуществления настоящей технологии в первом режиме работы процессор 110 способен получать аудиосигнал 240 и определять наличие в нем заранее заданного активационного слова, связанного с приложением 205 виртуального помощника. Например, аудиосигнал 240 может быть сформирован из речевого фрагмента 260 пользователя 216. Иными словами, в первом режиме работы процессор 110 способен ожидать получения заранее заданного активационного слова, чтобы активировать приложение 205 виртуального помощника для приема и выполнения дополнительных команд.

[0079] Для этого процессор 110 может содержать аналого-цифровой преобразователь (отдельно не показан) (или иметь доступ к нему иным образом), способный преобразовывать аудиосигнал 240, сформированный микрофоном 207, в цифровой сигнал.

[0080] После преобразования аудиосигнала в цифровой сигнал процессор 110 может дополнительно применять алгоритм преобразования речи в текст для формирования текстового представления цифрового сигнала с целью определения наличия в нем заранее заданного активационного слова.

[0081] В не имеющих ограничительного характера вариантах осуществления настоящей технологии алгоритм преобразования речи в текст может содержать алгоритм обработки естественного языка (NLP, Natural Language Processing) (отдельно не показан). На реализацию алгоритма NLP не накладывается каких-либо ограничений. Например, алгоритм NLP может основываться на латентно-семантическом анализе (LSA, Latent Semantic Analysis), на вероятностном латентно-семантическом анализе (pLSA, Probabilistic Latent Semantic Analysis), на модели Word2vec, на глобальных векторах для представления слов (GloVe, Global Vectors for Word Representation) или на латентном размещении Дирихле (LDA, Latent Dirichlet Allocation).

[0082] Если в текстовом представлении цифрового сигнала определено наличие заранее заданного активационного слова, процессор 110 может инициировать переключение первого электронного устройства 204 во второй режим работы. И наоборот, обработав текстовое представление цифрового сигнала и не обнаружив в нем заранее заданного активационного слова, процессор 110 обеспечивает продолжение работы первого электронного устройства 204 в первом режиме работы.

Второй режим работы

[0083] Согласно не имеющим ограничительного характера вариантам осуществления настоящей технологии, процессор 110, определив наличие заранее заданного активационного слова в аудиосигнале 240, может инициировать переключение первого электронного устройства 204 во второй режим работы. В некоторых вариантах осуществления настоящей технологии во втором режиме работы работает приложение 205 виртуального помощника.

[0084] С этой целью процессор 110 после получения заранее заданного активационного слова может инициировать получение приложением 205 виртуального помощника речевой команды для выполнения, сформированной в окрестности 250 первого электронного устройства 204.

[0085] Согласно не имеющим ограничительного характера вариантам осуществления настоящей технологии, выполнение полученной речевой команды может быть связано с выполнением процессором 110 по меньшей мере одного приложения из множества 209 сервисных приложений, выполняемых первым электронным устройством 204 или сервером 202 (или доступных им иным образом).

[0086] В общем случае множество 209 сервисных приложений соответствует электронным приложениям, доступным процессору 110 первого электронного устройства 204. В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии множество 209 сервисных приложений содержит по меньшей мере одно сервисное приложение (отдельно не показано), управляемое организацией, предоставляющей вышеупомянутое приложение 205 виртуального помощника. Например, если приложение 205 виртуального помощника представляет собой приложение виртуального помощника ALISA™, то множество 209 сервисных приложений может содержать приложение веб-браузера Yandex.Browser™, новостное приложение Yandex.News™, приложение для поиска товаров Yandex.Market™ и т.п. Очевидно, что множество 209 сервисных приложений также может содержать сервисные приложения, которые не управляются организацией, предоставляющей вышеупомянутое приложение 205 виртуального помощника, например, приложения социальных медиа, такие как приложение социальной сети Vkontakte™, и приложения потоковой трансляции музыки, такие как приложение потоковой трансляции музыки Spotify™. В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии множество 209 сервисных приложений может содержать дополнительный электронный сервис, например, приложение для голосового управления (такое как Yandex.Dialogs™), приложение для заказа такси, приложение для заказа продуктов питания и т.п. В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии множество 209 сервисных приложений может быть связано с одним или несколькими электронными устройствами (не показаны), соединенными с первым электронным устройством 204.

[0087] В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии для определения связи между полученной речевой командой и соответствующим приложением из множества 209 сервисных приложений процессор 110 может инициировать отправку приложением 205 виртуального помощника данных, указывающих на полученную речевую команду, серверу 202 для их дополнительной обработки выполняемым на нем приложением автоматического распознавания речи (ASR, Automatic Speech Recognition) (отдельно не показано). Согласно не имеющим ограничительного характера вариантам осуществления настоящей технологии, приложение ASR может быть реализовано, как описано в патентной заявке того же заявителя «Method and system for processing user spoken utterance» с номером дела поверенного 40700-173 (номер патентной заявки США еще недоступен), содержание которой полностью включено в настоящий документ посредством ссылки.

[0088] Таким образом, в не имеющих ограничительного характера вариантах осуществления настоящей технологии сервер 202 может получать от первого электронного устройства 204 речевую команду для выполнения приложения из множества 209 сервисных приложений.

[0089] В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии сервер 202 реализован в виде традиционного компьютерного сервера и может содержать некоторые или все компоненты компьютерной системы 100, представленной на фиг. 1. В одном не имеющем ограничительного характера примере сервер 202 реализован в виде сервера Dell™ PowerEdge™, работающего под управлением операционной системы Microsoft™ Windows Server™, но он также может быть реализован с использованием любых других подходящих аппаратных средств, прикладного программного обеспечения и/или встроенного программного обеспечения либо их сочетания. В представленных не имеющих ограничительного характера вариантах осуществления настоящей технологии сервер 202 представляет собой один сервер. В других не имеющих ограничительного характера вариантах осуществления настоящей технологии (не показаны) функции сервера 202 могут быть распределены между несколькими серверами.

[0090] В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии сервер 202 может управляться организацией, предоставляющей описанное выше приложение 205 виртуального помощника. Например, если приложение 205 виртуального помощника представляет собой приложение виртуального помощника ALISA™, то сервер 202 также может управляться компанией Yandex LLC (ул. Льва Толстого, 16, Москва, 119021, Россия). В других вариантах осуществления сервер 202 может управляться организацией, отличной от той, что предоставляет описанное выше приложение 205 виртуального помощника.

[0091] В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии сетевая компьютерная среда 200 может дополнительно содержать второе электронное устройство 206, также подключенное к сети 208 связи.

[0092] В общем случае в не имеющих ограничительного характера вариантах осуществления настоящей технологии второе электронное устройство 206 может (а) принимать через сеть 208 связи аудио- или аудиовизуальный контент и (б) воспроизводить аудио- или аудиовизуальный контент в окрестности 250 первого электронного устройства 204. Для этого второе электронное устройство 206 может дополнительно содержать один или несколько громкоговорителей (отдельно не показаны).

[0093] Несмотря на то, что в приведенных на фиг. 2 вариантах осуществления изобретения второе электронное устройство 206 представляет собой телевизор, очевидно, что в других не имеющих ограничительного характера вариантах осуществления настоящей технологии второе электронное устройство 206 может содержать электронное устройство любого другого вида, как указано выше в контексте настоящего описания в отношении первого электронного устройства 204. В других не имеющих ограничительного характера вариантах осуществления настоящей технологии второе электронное устройство 206 может содержать множество электронных устройств.

[0094] С сетью 208 связи также соединен рабочий сервер 214. В общем случае рабочий сервер 214 может быть реализован подобно серверу 202 и может (а) обрабатывать аудиопотоки, принятые от сторонних медиа-серверов (отдельно не показаны), формируя таким образом аудиофайлы, и (б) направлять сформированные аудиофайлы через сеть 208 связи электронным устройствам (таким как второе электронное устройство 206) для их воспроизведения.

[0095] Например, рабочий сервер 214 может отправлять, а второе электронное устройство 206 может получать и воспроизводить в окрестности 250 первого электронного устройства 204 аудиофайл 230.

[0096] Также следует отметить, что второе электронное устройство 206 может быть связано не только с рабочим сервером 214, но и со сторонними медиа-серверами (отдельно не показаны) для воспроизведения звукового контента, полученного от них через сеть 208 связи.

[0097] Таким образом, предполагается, что аудиофайл 230, пригодный для воспроизведения вторым электронным устройством 206, может содержать заранее заданное активационное слово, связанное с приложением 205 виртуального помощника. В этом случае возможна ложная активация приложения 205 виртуального помощника, инициирующая переключение первого электронного устройства 204 из первого режима работы во второй режим работы, при воспроизведении аудиофайла 230 вторым электронным устройством 206.

[0098] В общем случае не имеющие ограничительного характера варианты осуществления настоящей технологии относятся к определению процессором 110 первого электронного устройства 204 того, был аудиосигнал 240 сформирован микрофоном 207 из речевого фрагмента 260 пользователя или он был сформирован при воспроизведении аудиофайла 230 вторым электронным устройством 206. Соответственно, процессор 110, определив, что аудиосигнал 240 был сформирован не из речевого фрагмента 260 пользователя, может исключить аудиосигнал 240 из дальнейшей обработки. Если процессор 110 определяет, что аудиосигнал 240 сформирован из речевого фрагмента 260 пользователя, он переходит к определению наличия в нем заранее заданного активационного слова. Иными словами, не имеющие ограничительного характера варианты осуществления настоящей технологии направлены на то, чтобы процессор 110 «отфильтровывал» аудиосигналы, сформированные не из речевого фрагмента 260 пользователя, а в результате воспроизведения аудиофайла 230, полученного через сеть 208 связи.

[0099] В не имеющих ограничительного характера вариантах осуществления настоящей технологии определение процессором 110 способа формирования аудиосигнала 240 включает в себя определение наличия в нем заранее заданного шаблона коррекции сигнала.

[00100] Ниже со ссылкой на фиг. 3-6 описано формирование заранее заданного шаблона коррекции сигнала.

Сеть связи

[00101] В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии сеть 208 связи представляет собой сеть Интернет. В альтернативных не имеющих ограничительного характера вариантах осуществления настоящей технологии сеть 208 связи может быть реализована в виде любой подходящей локальной сети (LAN, Local Area Network), глобальной сети (WAN, Wide Area Network), частной сети связи и т.п. Очевидно, что варианты осуществления сети связи приведены лишь в иллюстративных целях. Реализация соответствующей линии связи (отдельно не обозначена) между сервером 202, рабочим сервером 214, первым электронным устройством 204 и вторым электронным устройством 206 с одной стороны и сетью 208 связи с другой стороны зависит, среди прочего, от реализации сервера 202, рабочего сервера 214, первого электронного устройства 204 и второго электронного устройства 206. В качестве примера, не имеющего ограничительного характера, в тех вариантах осуществления настоящей технологии, где первое электронное устройство 204 реализовано в виде устройства беспроводной связи, такого как умная колонка, линия связи может быть реализована в виде беспроводной линии связи. Примеры беспроводных линий связи включают в себя канал сети связи 3G, канал сети связи 4G и т.п. В сети 208 связи также может использоваться беспроводное соединение с сервером 202 и с рабочим сервером 214.

Формирование звукового контента

[00102] Как описано выше, в некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии рабочий сервер 214 может обрабатывать заранее записанные аудиопотоки, формируя таким образом аудиофайлы (например, аудиофайл 230) для последующей отправки через сеть 208 связи для воспроизведения в ответ на запросы от второго электронного устройства 206. Рабочий сервер 214 может получать аудиопотоки через сеть 208 связи, например, от других сторонних медиа-серверов (отдельно не показаны) без выхода за границы настоящей технологии.

[00103] В контексте настоящего описания термины «аудиопоток» и «аудиофайл» соответствуют любому цифровому аудиофайлу и/или аналоговым фонограммам (включая входящие в состав видеоматериала) любого формата и характера, включая рекламные объявления, новости, фонограммы из видеоблогов и телешоу и т.п. Таким образом, в контексте настоящего документа аудиопотоки соответствуют элементам электронного медиаконтента, которые представляют собой электрические сигналы с частотами, воспринимаемыми человеческим слухом и подходящими для передачи, приема, хранения и воспроизведения с использованием соответствующих программных и аппаратных средств.

[00104] Разумеется, что рабочий сервер 214 может быть связан с аналого-цифровым преобразователем рабочего сервера (отдельно не показан) (или иметь доступ к нему иным образом), чтобы иметь возможность получать аудиопотоки в аналоговых аудиоформатах и преобразовывать их в цифровые аудиофайлы.

[00102] Согласно не имеющим ограничительного характера вариантам осуществления настоящей технологии, рабочий сервер 214 может быть связан с базой 210 данных контента (или иметь доступ к ней иным образом) для хранения в ней аудиопотоков.

[00106] В не имеющих ограничительного характера вариантах осуществления настоящей технологии по меньшей мере один аудиопоток из аудиопотоков, хранящихся в базе 210 данных контента, например, аудиопоток 215, может быть заранее записанным, включая речевой фрагмент заранее заданного активационного слова, связанного с приложением 205 цифрового помощника.

[00107] В не имеющих ограничительного характера вариантах осуществления настоящей технологии рабочий сервер 214 перед отправкой через сеть 208 связи способен обрабатывать аудиопоток 215 с целью формирования в нем соответствующего заранее заданного шаблона коррекции сигнала, формируя таким образом аудиофайл 230. В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии рабочий сервер 214 может обрабатывать аудиопоток 215 в ответ на запрос от второго электронного устройства 206. В альтернативных вариантах осуществления настоящей технологии рабочий сервер 214 может обрабатывать аудиопоток 215 без получения запроса на его отправку, например, после получения аудиопотока 215 рабочим сервером 214 от других сторонних медиа-серверов (отдельно не показаны).

[00108] В общем случае сформированный и включенный в состав аудиопотока 215 заранее заданный шаблон коррекции сигнала может указывать первому электронному устройству 204 на необходимость игнорирования аудиосигналов, сформированных при воспроизведении аудиофайла 230 в окрестности 250. Иными словами, если процессор 110 определяет, что аудиосигнал (например, аудиосигнал 240) сформирован микрофоном 207 при воспроизведении аудиофайла 230, например, вторым электронным устройством 206, то процессор 110 исключает аудиосигнал 240 из дальнейшей обработки, имеющей целью определение наличия в нем заранее заданного активационного слова.

[00109] В этой связи, согласно не имеющим ограничительного характера вариантам осуществления настоящей технологии, процессор 110 первого электронного устройства 204 после получения аудиосигнала 240 может определять наличие в нем заранее заданного шаблона коррекции сигнала до определения наличия заранее заданного активационного слова. Ниже со ссылкой на фиг. 6 описано определение процессором 110 наличия заранее заданного шаблона коррекции сигнала.

[00110] Согласно не имеющим ограничительного характера вариантам осуществления настоящей технологии, заранее заданный шаблон коррекции сигнала может быть сформирован рабочим сервером 214 путем обработки аудиопотока 215 с использованием одного или нескольких фильтров для обработки сигнала, полученных через сеть 208 связи от сервера 202.

[00111] В контексте настоящего описания термин «фильтр для обработки сигнала» соответствует программному коду, выполняемому рабочим сервером 214 с использованием подходящего программного обеспечения, удаляющего некоторые заранее заданные компоненты или признаки из сигнала. В частности, такие программные коды могут быть способными удалять некоторые частоты или диапазоны частот из сигнала.

[00112] В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии один или несколько фильтров для обработки сигнала могут содержать соответствующие фрагменты программного кода, хранящиеся в базе 212 данных фильтров, поддерживаемой сервером 202.

[00113] Например, рабочий сервер 214 может запросить у сервера 202 предоставление одного или нескольких фильтров для обработки сигнала (например, фильтра 220 для обработки сигнала) из базы 212 данных фильтров для обработки аудиопотока 215, чтобы сформировать и включить в его состав заранее заданный шаблон коррекции сигнала, сформировав таким образом аудиофайл 230. При этом рабочий сервер 214 может предварительно формировать частотно-временное представление аудиопотока 215.

[00114] На фиг. 3 представлена схема процесса 300 формирования первоначального частотно-временного представления 304 аудиопотока 215 согласно не имеющим ограничительного характера вариантам осуществления настоящей технологии.

[00115] Сначала рабочий сервер 214 может формировать первоначальное амплитудно-временное представление 302 аудиопотока 215, содержащее первоначальный сигнал аудиопотока 215, дискретизированный с использованием одного из способов дискретизации сигналов. Например, сервер 214, в числе прочего, может использовать способ дискретизации на основе частоты Найквиста.

[00116] Затем согласно не имеющим ограничительного характера вариантам осуществления настоящей технологии рабочий сервер 214 может применять оконное преобразование Фурье (STFT, Short-Time Fourier Transform) в отношении первоначального амплитудно-временного представления 302, формируя таким образом первоначальное частотно-временное представление 304 аудиопотока 215.

[00117] В общем случае преобразование STFT позволяет продемонстрировать изменение частотных составляющих сигнала во времени. Таким образом, преобразование STFT включает в себя последовательность преобразований Фурье сигнала для всех более коротких временных интервалов (т.н. «временных окон»), расположенных последовательно друг за другом вдоль оси времени.

[00118] Таким образом, рабочий сервер 214 может применять преобразование STFT с временным окном 306 в отношении первоначального амплитудно-временного представления 302 аудиопотока 215, формируя его первоначальное частотно-временное представление 304. Таким образом, можно сказать, что путем применения преобразования STFT в отношении первоначального амплитудно-временного представления 302 рабочий сервер 214 способен последовательно применять преобразование Фурье в отношении каждой части первоначального амплитудно-временного представления 302, соответствующей размеру временного окна 306, «скользящего вдоль» оси времени.

[00119] В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии размер временного окна 306 для аудиопотока 215 может выбираться на основе компромисса между временным разрешением и частотным разрешением первоначального частотно-временного представления 304: чем уже временное окно 306, тем выше разрешение по времени и ниже разрешение по частоте первоначального частотно-временного представления 304 аудиопотока 215, и наоборот.

[00120] В других не имеющих ограничительного характера вариантах осуществления настоящей технологии размер временного окна 306 может выбираться на основе среднего времени, требуемого для произношения заранее заданного активационного слова, связанного с приложением 205 виртуального помощника.

[00121] В этой связи разработчики настоящей технологии на основе проведенного исследования определили, что размер временного окна 306, равный 0,5 секунды, может быть оптимальным для реализации конкретных не имеющих ограничительного характера вариантов осуществления настоящей технологии. Тем не менее, в альтернативных не имеющих ограничительного характера вариантах осуществления настоящей технологии временное окно 306 может, например, составлять 0,2-0,8 секунды.

[00122] В качестве иллюстрации первоначальное частотно-временное представление 304 аудиопотока 215 может изображаться в виде его трехмерного частотно-временного спектра, который содержит данные, указывающие на значения частот аудиопотока 215 в зависимости от времени, представленные с использованием двух соответствующих горизонтальных осей, и значения амплитуды аудиопотока 215, представленные по вертикальной оси. В качестве альтернативы первоначальное частотно-временное представление 304 аудиопотока 215 может быть изображено в виде его двумерного частотно-временного спектра, содержащего только плоскость частота-время трехмерного частотно-временного спектра (пример представлен на фиг. 4).

[00123] На фиг. 4 представлен процесс 400 применения рабочим сервером 214 фильтра 220 для обработки сигнала в отношении первоначального частотно-временного представления 304 аудиопотока 215 и формирования таким образом его скорректированного частотно-временного представления 402, содержащего заранее заданный шаблон 410 коррекции сигнала, согласно не имеющим ограничительного характера вариантам осуществления настоящей технологии.

[00124] В не имеющих ограничительного характера вариантах осуществления настоящей технологии фильтр 220 для обработки сигнала может представлять собой режекторный фильтр. В общем случае режекторный фильтр представляет собой фильтр для обработки сигнала, способный удалять (или исключать иным образом) по меньшей мере одну конкретную заранее заданную частоту из частотно-временного спектра аудиопотока 215, представленного с использованием его первоначального частотно-временного представления 304. Например, режекторный фильтр может исключать значение 403 частоты f₁ в пределах по меньшей мере одного временного окна 306 в первоначальном частотно-временном представлении 304 аудиопотока 215. Таким образом, значение 403 частоты f₁ исключается из скорректированного частотно-временного представления 402 аудиопотока 215 в пределах по меньшей мере одного временного окна 306.

[00125] Соответственно, исключенное по меньшей мере одно значение частоты в по меньшей мере одном временном окне 306 скорректированного частотно-временного представления 402 аудиопотока 215 образует заранее заданный шаблон 410 коррекции сигнала. В целом, можно сказать, что заранее заданный шаблон 410 коррекции сигнала представляет собой «вырезанную часть» в скорректированном частотно-временном представлении 402, которая впоследствии может быть распознана. Таким образом, заранее заданный шаблон 410 коррекции сигнала указывает на соответствующие пропуски звука при воспроизведении аудиосигнала, сформированного на основе скорректированного частотно-временного представления 402.

[00126] В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии фильтр 220 для обработки сигнала может представлять собой множество режекторных фильтров, указывающих на множество 404 заранее заданных значений частоты {f₁, f₂, f₃, ..., f_i,...f_n}, подлежащих исключению в пределах по меньшей мере одного временного окна 306 первоначального частотно-временного представления 304 аудиопотока 215. В этих вариантах осуществления изобретения множество 404 заранее заданных значений частоты заранее задается сервером 202 до отправки фильтра 220 для обработки сигнала рабочему серверу 214.

[00127] В не имеющих ограничительного характера вариантах осуществления изобретения сервер 202 может выбирать каждое значение из множества 404 заранее заданных значений частоты в диапазоне слышимых человеком частот.

[00128] В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии сервер 202 может выбирать каждое значение из множества 404 заранее заданных значений частоты так, чтобы они не делились друг на друга (т.е. так, чтобы ни одно значение из множества 404 заранее заданных значений частоты не являлось кратным любого другого из них). Кроме того, в некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии сервер 202 может выбирать каждое значение из множества 404 заранее заданных значений частоты случайным образом, исходя из заранее заданного распределения значений частоты в диапазоне слышимых человеком частот. В этих вариантах осуществления изобретения заранее заданное распределение значений частоты в диапазоне слышимых человеком частот может представлять собой равномерное распределение вероятности.

[00129] В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии сервер 202 может определять количество (и значения) заранее заданных частот для включения в состав множества 404 заранее заданных значений частоты на основе компромисса между качеством получаемого в результате аудиофайла (например, аудиофайла 230), сформированного рабочим сервером 214 на основе скорректированного частотно-временного представления 402 аудиопотока 215, и точностью обнаружения, например, первым электронным устройством 204. Ниже со ссылкой на фиг. 5 описан возможный вариант формирования аудиофайла 230.

[00130] Таким образом, один из примеров описанного выше подхода к выбору значений частоты для включения в состав множества 404 заранее заданных значений частоты может содержать значения частоты в диапазоне слышимых человеком частот, исключение которых при воспроизведении аудиофайла 230 по существу не заметно для человеческого слуха.

[00131] Таким образом, в конкретных не имеющих ограничительного характера вариантах осуществления настоящей технологии множество 404 заранее заданных значений частоты может содержать восемь заранее заданных значений частоты. В этих вариантах осуществления изобретения множество 404 заранее заданных значений частоты может содержать следующие значения: 486 Гц, 638 Гц, 814 Гц, 1355 Гц, 2089 Гц, 2635 Гц, 3351 Гц, 4510 Гц.

[00132] В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии рабочий сервер 214 может формировать множество заранее заданных шаблонов коррекции сигнала подобно формированию заранее заданного шаблона 410 коррекции сигнала. При этом каждый шаблон из множества заранее заданных шаблонов коррекции сигнала может кодировать конкретные указания для первого электронного устройства 204.

[00133] Как описано выше, заранее заданный шаблон 410 коррекции сигнала может быть предназначен для указания первому электронному устройству 204 того, что аудиофайл 230, сформированный на основе скорректированного частотно-временного представления 402 аудиопотока 215, содержит, например, речевой фрагмент заранее заданного активационного слова, связанного с первым электронным устройством 204. Соответственно, при воспроизведении аудиофайла 230 в окрестности 250 первое электронное устройство 204 может игнорировать воспроизведенное заранее заданное активационное слово. Например, другой заранее заданный шаблон коррекции сигнала (отдельно не показан) может быть использован для кодирования и последующего указания первому электронному устройству 204 вида электронного устройства, воспроизводящего аудиофайл 230. В частности, рабочий сервер 214 до обработки аудиопотока 215 может получить данные, указывающие на то, что аудиофайл 230 должен воспроизводиться телевизорами. При этом рабочий сервер 214 может закодировать эти данные с использованием другого заранее заданного шаблона коррекции сигнала (отдельно не показан) так, что процессор 110 первого электронного устройства 204 при воспроизведении вторым электронным устройством 206 аудиофайла 230 сможет определить, что он воспроизводится вторым электронным устройством 206.

[00134] Сформировав скорректированное частотно-временное представление 402 аудиопотока 215, рабочий сервер 215 может сформировать из него аудиофайл 230 (см. фиг. 2 и 4).

[00135] На фиг. 5 представлена схема процесса 500 восстановления скорректированного амплитудно-временного представления 502 для аудиофайла 230 на основе скорректированного частотно-временного представления 402 согласно не имеющим ограничительного характера вариантам осуществления настоящей технологии.

[00136] Для реализации процесса 500 согласно не имеющим ограничительного характера вариантам осуществления настоящей технологии рабочий сервер 214 может применять обратное преобразование Фурье. Например, рабочий сервер 214 может применять обратное преобразование STFT с тем же временным окном 306, формируя таким образом скорректированное амплитудно-временное представление 502 аудиофайла 230.

[00137] Как описано выше, согласно не имеющим ограничительного характера вариантам осуществления настоящей технологии, аудиофайл 230 в отличие от аудиопотока 215 при воспроизведении содержит пропуски звука, соответствующие каждому значению из множества 404 заранее заданных значений частоты. Иными словами, различие между аудиопотоком 215 и аудиофайлом 230 состоит в том, что в последнем случае частоты, соответствующие множеству 404 заранее заданных значений частоты, ослаблены с применением фильтра 220 для обработки сигнала.

Обнаружение заранее заданного шаблона коррекции сигнала в аудиосигнале

[00138] Как описано выше, процессор 110 (например, процессор 110 первого электронного устройства 204) может обнаруживать заранее заданный шаблон коррекции сигнала (например, заранее заданный шаблон 410 коррекции сигнала) в принятом сигнале (например, в аудиосигнале 240). Тем не менее, представленное ниже описание с соответствующими изменениями также может применяться для тех вариантов осуществления настоящей технологии, где обнаружение заранее заданного шаблона 410 коррекции сигнала выполняется сервером 202.

[00139] При этом согласно не имеющим ограничительного характера вариантам осуществления настоящей технологии процессор 110 может (а) принимать аудиосигнал 240, сформированный микрофоном 207 из звука, зафиксированного в окрестности 250, (б) определять наличие заранее заданного шаблона 410 коррекции сигнала в аудиосигнале 240 и (в) при положительном результате такого определения исключать аудиосигнал из дальнейшей обработки, представляющей собой определение наличия в нем заранее заданного активационного слова.

[00140] Как описано выше, в некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии аудиосигнал 240 может быть сформирован микрофоном 207 (а) при воспроизведении вторым электронным устройством звукового контента (например, аудиофайла 230) или (б) при произнесении речевого фрагмента 260 пользователя. Таким образом, процессор 110 способен определять наличие заранее заданного шаблона 410 коррекции сигнала в аудиосигнале 240 для установления его происхождения.

[00141] В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии для определения наличия заранее заданного шаблона 410 коррекции сигнала в аудиосигнале 240 процессор 110 способен предварительно формировать его частотно-временное представление.

[00142] На фиг. 6 представлен процесс 600 формирования процессором 110 воспроизведенного частотно-временного представления 604 аудиосигнала 240 согласно не имеющим ограничительного характера вариантам осуществления настоящей технологии.

[00143] В не имеющих ограничительного характера вариантах осуществления настоящей технологии процесс 600 по существу аналогичен описанному выше со ссылкой на фиг. 3 процессу 300 формирования рабочим сервером 214 первоначального частотно-временного представления 304 аудиопотока 215.

[00144] Соответственно, подобно рабочему серверу 214, процессор 110 может формировать воспроизведенное амплитудно-частотное представление 602 аудиосигнала 240. Кроме того, процессор 110 может применять преобразование STFT с временным окном 306 в отношении воспроизведенного амплитудно-частотного представления 602, формируя таким образом воспроизведенное частотно-временное представление 604 аудиосигнала 240.

[00145] Согласно не имеющим ограничительного характера вариантам осуществления настоящей технологии, процессор 110 может определять наличие заранее заданного шаблона 410 коррекции сигнала в аудиосигнале 240 на основе его воспроизведенного частотно-временного представления 604 путем определения уровней энергии для частот, соответствующих множеству 404 заранее заданных значений частоты, использованных для формирования заранее заданного шаблона 410 коррекции сигнала.

[00146] С этой целью процессор 110 может дополнительно принимать от сервера 202 указание на фильтр 220 для обработки сигнала, включая указание на множество 404 заранее заданных значений частоты.

[00147] На фиг. 7 представлена схема процесса 700 формирования процессором 110 уровней энергии для частот, соответствующих множеству 404 заранее заданных значений частоты, согласно не имеющим ограничительного характера вариантам осуществления настоящей технологии.

[00148] В частности, для значения из множества 404 заранее заданных значений частоты (например, для значения 403 частоты) процессор 110 может сначала определять два соответствующих соседних значения частоты: нижнее соседнее значение 704 частоты и верхнее соседнее значение 706 частоты.

[00149] На определение нижнего соседнего значения 704 частоты и верхнего соседнего значения 706 частоты не накладывается каких-либо особых ограничений. Например, в числе прочего, соседние значения частоты могут определяться на основе заранее заданной константы (например, 1 Гц), заранее заданного значения множителя (например, 0,3) или выбираться непосредственно выше или ниже значения 403 частоты с учетом частоты дискретизации аналого-цифрового преобразователя, связанного с первым электронным устройством 204.

[00150] Далее процессор 110 переходит к определению (1) первого уровня 714 энергии аудиосигнала 240 для нижнего соседнего значения 704 частоты, (2) базового уровня 715 энергии аудиосигнала 240 для значения 403 частоты и (3) второго уровня 716 энергии аудиосигнала 240 для верхнего соседнего значения 706 частоты.

[00151] В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии процессор 110 вместо определения абсолютных значений первого уровня 714 энергии, базового уровня 715 энергии и второго уровня 716 энергии может определять их логарифмические значения.

[00152] Согласно конкретным не имеющим ограничительного характера вариантам осуществления настоящей технологии, воспроизведенное частотно-временное представление 604 аудиосигнала 240 может быть представлено множеством комплексных чисел, каждое из которых соответствует соответствующему значению частоты из частотного спектра воспроизведенного частотно-временного представления 604 в соответствующий момент времени. В этих вариантах осуществления изобретения уровень энергии для соответствующего значения частоты в соответствующий момент времени может быть определен в виде квадрата модуля соответствующего комплексного числа.

[00153] Согласно не имеющим ограничительного характера вариантам осуществления настоящей технологии, определив первый уровень 714 энергии, базовый уровень 715 энергии и второй уровень 716 энергии, процессор 110 может определить разности между ними. В частности, процессор 110 может определить первое значение разности между первым уровнем 714 энергии и базовым уровнем 715 энергии, а также второе значение разности между вторым уровнем 716 энергии и базовым уровнем 715 энергии.

[00154] Для оставшихся значений из множества 404 заранее заданных значений частоты процессор 110 может применять ту же процедуру определения уровней энергии, что описана выше для значения 403 частоты.

[00155] Кроме того, согласно не имеющим ограничительного характера вариантам осуществления настоящей технологии, процессор 110 может рассчитывать первое значение обнаружения в виде суммы соответствующих первых значений разности и второе значение обнаружения в виде суммы соответствующих вторых значений разности, определенных для каждого значения из множества 404 заранее заданных значений частоты.

[00156] Наконец, определив первое значение обнаружения и второе значение обнаружения, процессор 110 может сравнивать по меньшей мере первое значение обнаружения и/или второе значение обнаружения с заранее заданным пороговым значением для определения наличия в аудиосигнале заранее заданного шаблона коррекции сигнала 240. В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии процессор 110 может выбирать максимальное значение из первого значения обнаружения и второго значения обнаружения для сравнения с заранее заданным пороговым значением.

[00157] В альтернативных не имеющих ограничительного характера вариантах осуществления настоящей технологии процессор 110 может выбирать первое значение обнаружения и второе значение обнаружения различными способами. Например, сервер 110 может сначала определять: (1) сумму уровней энергии для базовой частоты, определенных для всех значений из множества 404 заранее заданных значений частоты; (2) сумму уровней энергии для нижней соседней частоты, определенных для всех соответствующих значений из множества 404 заранее заданных значений частоты; и (3) сумму уровней энергии для верхней соседней частоты, определенных для всех соответствующих значений из множества 404 заранее заданных значений частоты. В этих вариантах осуществления изобретения процессор 110 может формировать логарифмические значения суммы для базовой частоты, суммы для нижней соседней частоты и суммы для верхней соседней частоты. Далее процессор 110 может определять первое значение обнаружения в виде разности между суммой для базовой частоты и суммой для нижней соседней частоты и второе значение обнаружения в виде разности между суммой для базовой частоты и суммой для верхней соседней частоты. Процессор 110 также может выбирать максимальное значение из первого значения обнаружения и второго значения обнаружения для сравнения с заранее заданным пороговым значением.

[00158] В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии заранее заданное пороговое значение может быть выбрано эмпирически в виде постоянного значения энергии сигнала.

[00159] В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии процессор 110 может определять первое значение обнаружения и второе значение обнаружения в пределах по меньшей мере одного временного окна 306. Таким образом, эти не имеющие ограничительного характера варианты осуществления настоящей технологии основаны на понимании разработчиками того, что определение первого значения обнаружения и второго значения обнаружения в пределах по меньшей мере одного временного окна 306 позволяет повысить скорость реагирования на определение наличия заранее заданного шаблона 410 коррекции сигнала в аудиосигнале 240 по сравнению с определением первого значения обнаружения и второго значения обнаружения в пределах всего временного интервала аудиосигнала 240.

[00160] В альтернативных не имеющих ограничительного характера вариантах осуществления настоящей технологии процессор 110 может определять первое значение обнаружения и второе значение обнаружения во всех временных окнах 306, которые последовательно расположены вдоль оси времени воспроизведенного частотно-временного представления 604 аудиосигнала 240.

[00161] Таким образом, например, если процессор 110 определил в по меньшей мере одном временном окне 306 воспроизведенного частотно-временного представления 604 аудиосигнала 240, что максимальное значение первого значения обнаружения или второго значения обнаружения превышает заранее заданное пороговое значение, то процессор 110 определяет, что аудиосигнал 240 содержит заранее заданный шаблон 410 коррекции сигнала. При этом процессор 110 способен определять, что аудиосигнал 240 мог быть сформирован микрофоном 207 при воспроизведении аудиофайла 230 вторым электронным устройством 206. Далее процессор 110 способен игнорировать аудиосигнал 240 при дальнейшей обработке.

[00162] В конкретных не имеющих ограничительного характера вариантах осуществления настоящей технологии процессор 110 также может определять другой заранее заданный шаблон коррекции сигнала (отдельно не показан) после выполнения описанной выше процедуры в отношении заранее заданного шаблона 410 коррекции сигнала. С этой целью процессор 110 может декодировать информацию, указывающую на вид электронного устройства, воспроизводящего аудиофайл 230, определяя таким образом, что аудиофайл 230 воспроизводится, в частности, вторым электронным устройством 206.

[00163] С другой стороны, если процессор 110 не определил, что первое значение обнаружения и/или второе значение обнаружения превышает заранее заданное пороговое значение, то процессор 110 может определить, что аудиосигнал 240 сформирован из речевого фрагмента 260 пользователя. Соответственно, как описано выше, процессор 110 может перейти к определению наличия в аудиосигнале 240 заранее заданного активационного слова, связанного с приложением 205 виртуального помощника, с использованием алгоритма преобразования речи в текст, как описано выше для приложения 205 виртуального помощника.

[00164] Определив наличие заранее заданного активационного слова в аудиосигнале 240, процессор 110 может переключить первое электронное устройство 204 из первого режима работы во второй режим работы, как описано выше для приложения 205 виртуального помощника.

[00165] Описанные выше архитектура и примеры позволяют выполнять способ формирования аудиопотока (например, аудиофайла 230). На фиг. 8 , представлена блок-схема способа 800 согласно не имеющим ограничительного характера вариантам осуществления настоящей технологии. Способ 800 выполняется рабочим сервером 214.

Шаг 802: получение рабочим сервером заранее записанного аудиопотока, содержащего контент.

[00166] Способ 800 начинается с шага 802, на котором рабочий сервер 214 может получать, например, через сеть 208 связи аудиопоток (в частности, аудиопоток 215) от одного из сторонних медиа-серверов (отдельно не показаны).

[00167] В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии аудиопоток 215 заранее записан с целью включения в него речевого фрагмента заранее заданного активационного слова, связанного с приложением 205 виртуального помощника. В этих вариантах осуществления изобретения аудиопоток может обрабатываться рабочим сервером для последующей отправки через сеть 208 связи электронному устройству (например, второму электронному устройству 206) для воспроизведения полученного в результате аудиофайла (например, аудиофайла 230).

[00168] Как описано выше, заранее заданное активационное слово используется для активации приложения 205 виртуального помощника, т.е. когда процессор 110 первого электронного устройства 204 инициирует переключение первого электронного устройства 204 из первого режима работы во второй режим работы с целью получения речевой команды от пользователя 216 для выполнения, как описано выше в отношении приложения 205 виртуального помощника.

[00169] В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии рабочий сервер 214 может предварительно обрабатывать аудиопоток 215 для включения в него заранее заданного шаблона коррекции сигнала (например, шаблона 410 коррекции сигнала), формируя таким образом аудиофайл 230, указывающий электронным устройствам, выполняющим приложение 205 электронного помощника, (например, первому электронному устройству 204) на необходимость игнорирования заранее заданного активационного слова, содержащегося в аудиофайле 230, когда он воспроизводится вблизи этих электронных устройств (например, в окрестности 250).

[00170] С этой целью в некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии рабочий сервер 214 после получения аудиопотока 215 способен формировать первоначальное амплитудно-частотное представление 205, как подробно описано выше со ссылкой на фиг. 3.

[00171] Кроме того, согласно не имеющим ограничительного характера вариантам осуществления настоящей технологии, рабочий сервер 214 может формировать первоначальное частотно-временное представление 304 аудиопотока 215 с применением преобразования STFT с заранее заданным временным окном (например, с временным окном 306) в первоначальное амплитудно-частотное представление 306, как описано выше со ссылкой на фиг. 3.

Шаг 804: получение рабочим сервером обрабатывающего фильтра, указывающего на заранее заданный шаблон коррекции сигнала, представляющий исключенную часть, подлежащую исключению из аудиопотока с целью указания акустическому устройству на необходимость игнорирования активационного слова, содержащегося в контенте.

[00172] На шаге 804, сформировав первоначальное частотно-временное представление 304 аудиопотока 215, рабочий сервер 214 может дополнительно получать и применять один или несколько фильтров для обработки сигнала (например, фильтр 220 для обработки сигнала). Согласно ни имеющим ограничительного характера вариантам осуществления настоящей технологии, рабочий сервер 214 может получать фильтр 220 для обработки сигнала через сеть 208 связи от сервера 202, связанного с базой 212 данных фильтров.

[00173] В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии фильтр 220 для обработки сигнала представляет собой режекторный фильтр, способный удалять (или исключать иным образом) по меньшей мере одно заранее заданное значение частоты (например значение 403 частоты) из аудиосигнала, в отношении которого он применяется.

[00174] В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии фильтр 220 для обработки сигнала может представлять собой множество режекторных фильтров, указывающих на множество заранее заданных значений частоты (например, на множество 404 заранее заданных значений частоты), подлежащих исключению из аудиосигнала, в отношении которого он применяется. С этой целью сервер 202 способен выбирать множество 404 заранее заданных значений частоты перед отправкой фильтра 220 для обработки сигнала рабочему серверу 214.

[00175] В не имеющих ограничительного характера вариантах осуществления изобретения сервер 202 способен выбирать каждое значение из множества 404 заранее заданных значений частоты в диапазоне слышимых человеком частот.

[00176] В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии сервер 202 способен осуществлять выбор из множества 404 заранее заданных значений частоты так, чтобы они не делились друг на друга (т.е. так, чтобы ни одно значение из множества 404 заранее заданных значений частоты не являлось кратным любого другого из них).

[00177] Кроме того, в некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии сервер 202 может выбирать каждое значение из множества 404 заранее заданных значений частоты случайным образом из заранее заданного распределения значений частоты в диапазоне слышимых человеком частот. В этих вариантах осуществления изобретения заранее заданное распределение значений частоты в диапазоне слышимых человеком частот может представлять собой равномерное распределение вероятности.

[00178] В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии множество 404 заранее заданных значений частоты содержит восемь значений частоты: 486 Гц, 638 Гц, 814 Гц, 1355 Гц, 2089 Гц, 2635 Гц, 3351 Гц, 4510 Гц.

Шаг 806: исключение рабочим сервером исключенной части из аудиопотока с формированием, таким образом, пропуска звука при воспроизведении аудиопотока электронным устройством.

[00179] На шаге 806, получив фильтр 220 для обработки сигнала, рабочий сервер 214 может применять его в по меньшей мере одном временном окне 306 первоначального частотно-временного представления 304 аудиопотока 215. В альтернативных не имеющих ограничительного характера вариантах осуществления настоящей технологии рабочий сервер 214 может применять фильтр 220 для обработки сигнала во всех временных окнах 306, последовательно расположенных вдоль оси времени первоначального частотно-временного представления 304.

[00180] Согласно не имеющим ограничительного характера вариантам осуществления настоящей технологии, с применением фильтра 220 для обработки сигнала в отношении первоначального частотно-временного представления 304 рабочий сервер 214 способен формировать в нем («вырезать») заранее заданный шаблон 410 коррекции сигнала, формируя таким образом скорректированное частотно-временное представление 402 аудиопотока 215, как описано выше со ссылкой на фиг. 4.

[00181] Кроме того, согласно не имеющим ограничительного характера вариантам осуществления настоящей технологии, рабочий сервер 214 способен восстанавливать на основе сформированного таким образом частотно-временного представления 402 аудиопотока 215 скорректированное амплитудно-временное представление 502 аудиофайла 230. Аудиофайл 230 готов к отправке через сеть 208 связи в ответ на запрос от электронного устройства (такого как второе электронное устройство 206).

[00182] Таким образом, когда аудиофайл 230 воспроизводится вторым электронным устройством 206 в окрестности 250, распознанный первым электронным устройством 204 заранее заданный шаблон 410 коррекции сигнала указывает первому электронному устройству 204 на необходимость игнорирования заранее заданного активационного слова, связанного с приложением 205 виртуального помощника, речевой фрагмент которого был включен в состав аудиофайла 230.

[00183] В некоторых не имеющих ограничительного характера вариантах настоящей технологии после выполнения описанной выше процедуры формирования заранее заданного шаблона 410 коррекции сигнала рабочий сервер 214 может получать другой шаблон для обработки сигнала, например, от сервера 202, для формирования другого шаблона коррекции сигнала (отдельно не показан). Например, чтобы обеспечить возможность использования другого шаблона коррекции сигнала, рабочий сервер кодирует в аудиофайле 230 информацию, указывающую на электронное устройство, которое должно воспроизводить аудиофайл 230.

[00184] Таким образом, путем применения фильтра 220 для обработки сигнала в отношении первоначального частотно-временного представления 404 аудиопотока 215, рабочий сервер 214 способен формировать аудиофайл 230, который при воспроизведении вторым электронным устройством 206 содержит пропуски звука в пределах по меньшей мере одного временного окна 306, соответствующие значениям из множества 404 заранее заданных значений частоты.

[00185] Согласно не имеющим ограничительного характера вариантам осуществления настоящей технологии, множество 404 заранее заданных значений частоты выбирается сервером 202 так, чтобы сформированные таким образом пропуски звука в аудиофайле 230 в основном были неразличимыми человеческим ухом.

Шаг 808: инициирование отправки аудиопотока электронному устройству.

[00186] На шаге 808 рабочий сервер 214 может отправлять через сеть 208 связи аудиофайл 230, содержащий по меньшей мере один заранее заданный шаблон коррекции сигнала, т.е. шаблон 410 коррекции сигнала, электронному устройству (например, второму электронному устройству 206) для его последующего воспроизведения.

[00187] На этом выполнение способа 800 завершается.

[00188] Описанные выше архитектура и примеры позволяют реализовать способ работы акустического устройства (например, первого электронного устройства 204). На фиг. 9 , представлена блок-схема способа 900 согласно не имеющим ограничительного характера вариантам осуществления настоящей технологии. Способ 900 выполняется процессором 110 (таким как процессор 110 первого электронного устройства 204 или сервера 202).

Шаг 902: фиксация акустическим устройством аудиосигнала, сформированного вблизи акустического устройства пользователем-человеком или другим электронным устройством.

[00189] Способ 900 начинается с шага 902, на котором первое электронное устройство 204, работая в первом режиме работы, ожидает получения заранее заданного активационного слова, связанного с приложением 205 виртуального помощника, с целью активации приложения 205 виртуального помощника для приема речевых команд.

[00190] С этой целью, согласно не имеющим ограничительного характера вариантам осуществления настоящей технологии, микрофон 207 первого электронного устройства 204 способен фиксировать любой звук, изданный в окрестности 250 первого электронного устройства 204, и формировать аудиосигнал (например аудиосигнал 240) для последующей обработки.

[00191] Например, таким образом аудиосигнал 240 может быть сформирован микрофоном 207 из речевого фрагмента пользователя 216 (например, речевого фрагмента 260 пользователя) или при воспроизведении вторым электронным устройством 206 аудиоконтента (например, аудиофайла 230, полученного от рабочего сервера 214).

[00192] Соответственно, в некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии процессор 110, получив аудиосигнал 240, способен определять его происхождение путем определения наличия в нем заранее заданного шаблона коррекции сигнала (например, заранее заданного шаблона 410 коррекции сигнала).

[00193] Согласно не имеющим ограничительного характера вариантам осуществления настоящей технологии, процессор 110 перед дальнейшей обработкой может формировать воспроизведенное амплитудно-временное представление 602 аудиосигнала 240, как подробно описано выше со ссылкой на фиг. 6. Кроме того, на основе воспроизведенного амплитудно-временного представления 604 процессор 110 путем применения преобразования STFT с временным окном 306 способен формировать воспроизведенное частотно-временное представление 604 аудиосигнала 240.

[00194] Затем способ 900 продолжается на шаге 904.

Шаг 904: получение акустическим устройством обрабатывающего фильтра, указывающего на заранее заданный шаблон коррекции сигнала, представляющий исключенную часть, которая была исключена из исходного речевого фрагмента, содержащего активационное слово.

[00195] На шаге 904 для определения наличия заранее заданного шаблона 410 коррекции сигнала в аудиосигнале 240 процессор 110 сначала может получать фильтр для обработки сигнала, использованный для формирования заранее заданного шаблона 410 коррекции сигнала. В этой связи процессор 110 может принимать от сервера 202 указание на фильтр 220 для обработки сигнала, включая указание на множество 404 заранее заданных значений частоты.

[00196] Затем способ 900 продолжается на шаге 906.

Шаг 906: применение акустическим устройством обрабатывающего фильтра для определения наличия в аудиосигнале заранее заданного шаблона коррекции сигнала.

[00197] На шаге 906 процессор 110 может определять наличие в аудиосигнале 240 заранее заданного шаблона 410 коррекции сигнала на основе полученного указания на множество 404 заранее заданных значений частоты.

[00198] С этой целью, согласно не имеющим ограничительного характера вариантам осуществления настоящей технологии, процессор 110 способен определять в по меньшей мере одном временном окне 306 соответствующие уровни энергии сигнала 240, соответствующее множеству заранее заданных значений 404 частоты, как подробно описано выше со ссылкой на фиг. 7.

[00199] Например, на основе воспроизведенного частотно-временного представления 604 аудиосигнала 240 процессор 110 может определять уровень энергии аудиосигнала 240 для значения из множества 404 заранее заданных значений частоты, для верхнего соседнего значения частоты и для нижнего соседнего значения частоты. Процессор 110 может рассчитывать соответствующие первую и вторую разности между уровнем энергии для значения частоты из множества 404 заранее заданных значений частоты и уровнями энергии, соответствующими верхним и нижним соседним значениям частоты.

[00200] Таким образом, процессор 110 может определять первое значение обнаружения в виде суммы соответствующих первых разностей, соответствующих каждому значению из множества 404 заранее заданных значений частоты, и второе значение обнаружения в виде суммы соответствующих вторых разностей, соответствующих каждому значению из множества 404 заранее заданных значений частоты.

[00201] В альтернативных вариантах осуществления настоящей технологии процессор 110 может сначала определять первое значение обнаружения и второе значение обнаружения путем определения (1) суммы уровней энергии для базовой частоты, определенных для каждого значения из множества 404 заранее заданных значений частоты, (2) суммы уровней энергии для нижних соседних частот, определенных для соответствующих нижних соседних значений частоты для каждого значения из множества 404 заранее заданных значений частоты, и (3) суммы уровней энергии для верхних соседних частот, определенных для соответствующих верхних соседних значений частоты для каждого значения из множества 404 заранее заданных значений частоты. В этих вариантах осуществления изобретения процессор 110 может формировать логарифмические значения суммы для базовой частоты, суммы для нижней соседней частоты и суммы для верхней соседней частоты. Кроме того, процессор 110 может определять первое значение обнаружения в виде разности между суммой на базовой частоте и суммой на нижней соседней частоте и второе значение обнаружения в виде разности между суммой на базовой частоте и суммой на верхней соседней частоте.

[00202] В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии процессор 110 способен определять первое значение обнаружения и второе значение обнаружения в по меньшей мере одном временном окне 306 воспроизведенного частотно-временного представления 604 аудиосигнала 240. В других не имеющих ограничительного характера вариантах осуществления настоящей технологии процессор 110 способен определять первое значение обнаружения и второе значение обнаружения во всех временных окнах 306, последовательно расположенных вдоль оси времени воспроизведенного частотно-временного представления 604 аудиосигнала 240.

[00203] В не имеющих ограничительного характера вариантах осуществления настоящей технологии процессор 110 также способен сравнивать первое значение обнаружения и второе значение обнаружения с заранее заданным пороговым значением. В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии процессор 110 способен сравнивать максимальное значение из числа первого значения обнаружения и второго значения обнаружения с заранее заданным пороговым значением.

Шаг 908: определение того, что аудиосигнал был сформирован другим электронным устройством, если определено наличие заранее заданного шаблона коррекции сигнала в аудиосигнале.

[00204] На шаге 908, согласно не имеющим ограничительного характера вариантам осуществления настоящей технологии, если первое значение обнаружения или второе значение обнаружения превышает заранее заданное пороговое значение, процессор 110 определяет наличие в аудиосигнале 240 заранее заданного шаблона 410 шаблона коррекции сигнала. Соответственно, процессор 110 способен определять, что аудиосигнал 240 был сформирован микрофоном 207 при воспроизведении аудиофайла 230 вторым электронным устройством 206. При этом процессор 110 способен игнорировать аудиофайл 240 при дальнейшей обработке, имеющей целью определение наличия в нем заранее заданного активационного слова, связанного с приложением 205 виртуального помощника.

[00205] Вместо этого процессор 110 может выполнять заранее заданное дополнительное действие, например, инициировать формирование первым электронным устройством 204 заранее заданного звукового сигнала или инициировать мигание по меньшей мере одного из светодиодов (отдельно не показаны) на корпусе первого электронного устройства 204 или выполнять сочетание этих действий.

[00206] В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии после определения наличия в аудиосигнале 240 заранее заданного шаблона 410 коррекции сигнала процессор 110 может определять наличие в нем другого заранее заданного шаблона коррекции сигнала. Как описано выше, другой заранее заданный шаблон коррекции сигнала может указывать на вид электронного устройства, вызвавшего формирование микрофоном 207 аудиосигнала 240. При этом процессор 110 может определять, что аудиосигнал 240 был сформирован при воспроизведении аудиофайла 230, в частности, вторым электронным устройством 206, т.е., например, телевизором, согласно вариантам осуществления изобретения, представленным на фиг. 2.

[00207] И наоборот, если ни одно из первого значения обнаружения и второго значения обнаружения не превышает заранее заданного порогового значения, процессор 110 может определять, что аудиосигнал 240 был сформирован микрофоном 207 из речевого фрагмента 260 пользователя.

[00208] При этом процессор 110 также способен определять наличие в аудиосигнале 240 заранее заданного активационного слова, связанного с приложением 205 виртуального помощника. Как описано выше, с этой целью процессор 110 способен применять в первом электронном устройстве 204 алгоритм преобразования речи в текст в отношении аудиосигнала 240, чтобы сформировать текстовое представление. Затем процессор 110 может обрабатывать текстовое представление аудиосигнала с целью определения наличия в нем заранее заданного активационного слова, связанного с приложением 205 виртуального помощника.

[00209] Если в текстовом представлении аудиосигнала 240 определено наличие заранее заданного активационного слова, процессор 110 способен переключать первое электронное устройство 204 из первого режима работы во второй режим работы.

[00210] Согласно не имеющим ограничительного характера вариантам осуществления настоящей технологии, во втором режиме работы первое электронное устройство 204 способно получать речевую команду от пользователя 216, например, для выполнения приложения из множества 209 сервисных приложений. С этой целью процессор 110 может формировать пакет данных, связанный с полученной речевой командой, и отправлять его серверу 202 для дальнейшей обработки, например с целью определения приложения из множества 209 сервисных приложений, связанного с принятой речевой командой пользователя 216.

[00211] И наоборот, если процессор 110 не определил наличие заранее заданного активационного слова в текстовом представлении аудиосигнала 240, процессор 110 обеспечивает продолжение работы первого электронного устройства 204 в первом режиме работы.

[00212] На этом выполнение способа 900 завершается.

[00213] Очевидно, что не все упомянутые в данном описании технические эффекты должны присутствовать в каждом варианте осуществления настоящей технологии.

[00214] Для специалиста в данной области могут быть очевидными возможные изменения и усовершенствования описанных выше вариантов осуществления настоящей технологии. Предшествующее описание приведено лишь в иллюстративных целях, а не для ограничения объема изобретения. Объем охраны настоящей технологии определяется исключительно объемом приложенной формулы изобретения.

1. Компьютерный способ обеспечения работы акустического устройства, связанного с первым режимом работы, со вторым режимом работы и с заранее заданным активационным словом, которое после его распознавания акустическим устройством в первом режиме работы способно инициировать переключение акустического устройства во второй режим работы, при этом способ выполняется акустическим устройством и включает в себя:

- фиксацию акустическим устройством аудиосигнала, сформированного вблизи акустического устройства пользователем-человеком или другим электронным устройством;

- получение акустическим устройством обрабатывающего фильтра, указывающего на заранее заданный шаблон коррекции сигнала, представляющий исключенную часть, которая была исключена из исходного речевого фрагмента, содержащего активационное слово и предназначенного для воспроизведения другим электронным устройством;

- применение акустическим устройством обрабатывающего фильтра для определения наличия в аудиосигнале заранее заданного шаблона коррекции сигнала и

- определение того, что аудиосигнал был сформирован другим электронным устройством, при наличии в аудиосигнале заранее заданного шаблона коррекции сигнала.

2. Способ по п. 1, отличающийся тем, что если определено наличие в аудиосигнале заранее заданного шаблона коррекции сигнала, способ дополнительно включает в себя исключение аудиосигнала из дальнейшей обработки.

3. Способ по п. 1, отличающийся тем, что если определено наличие в аудиосигнале заранее заданного шаблона коррекции сигнала, способ дополнительно включает в себя выполнение заранее заданного дополнительного действия, отличного от обработки аудиосигнала для определения наличия в нем заранее заданного активационного слова.

4. Способ по п. 1, отличающийся тем, что если не определено наличие в аудиосигнале заранее заданного шаблона коррекции сигнала, способ дополнительно включает в себя:

- определение того, что аудиосигнал был сформирован пользователем-человеком;

- применение акустическим устройством алгоритма преобразования речи в текст в отношении аудиосигнала для формирования его текстового представления;

- обработку акустическим устройством текстового представления для определения наличия в нем активационного слова и

- переключение акустического устройства во второй режим работы при наличии активационного слова.

5. Способ по п. 1, отличающийся тем, что шаблон коррекции сигнала связан с одним из заранее заданных значений частоты.

6. Способ по п. 5, отличающийся тем, что шаблон коррекции сигнала связан со множеством заранее заданных значений частоты, выбранных из спектра, воспринимаемого человеческим слухом.

7. Способ по п. 5, отличающийся тем, что множество заранее заданных значений частоты таково, что они не делятся друг на друга.

8. Способ по п. 5, отличающийся тем, что шаблон коррекции сигнала связан со множеством заранее заданных значений частоты, которые выбраны из спектра, воспринимаемого человеческим слухом, и не делятся друг на друга.

9. Способ по п. 5, отличающийся тем, что множество заранее заданных значений частоты выбрано случайным образом.

10. Способ по п. 9, отличающийся тем, что множество заранее заданных значений частоты заранее выбрано случайным образом.

11. Способ по п. 5, отличающийся тем, что множество заранее заданных значений частоты включает в себя 486 Гц, 638 Гц, 814 Гц, 1355 Гц, 2089 Гц, 2635 Гц, 3351 Гц, 4510 Гц.

12. Способ по п. 11, отличающийся тем, что заранее заданный шаблон коррекции сигнала представляет собой первый заранее заданный шаблон коррекции сигнала, а способ дополнительно включает в себя получение указания на второй заранее заданный шаблон коррекции сигнала, отличный от первого заранее заданного шаблона коррекции сигнала.

13. Способ по п. 12, отличающийся тем, что второй заранее заданный шаблон коррекции сигнала предназначен для указания вида другого электронного устройства.

14. Способ по п. 1, отличающийся тем, что первый режим работы связан с локальным преобразованием речи в текст, а второй режим работы связан с серверным преобразованием речи в текст.

15. Способ по п. 1, отличающийся тем, что другое электронное устройство находится вблизи акустического устройства.

16. Способ по п. 1, отличающийся тем, что исключение исключенной части при воспроизведении другим устройством исходного речевого фрагмента приводит к пропуску звука, который по существу не заметен для человеческого слуха.

17. Способ по п. 1, отличающийся тем, что применение обрабатывающего фильтра включает в себя предварительное преобразование аудиосигнала в его частотно-временное представление.

18. Способ по п. 17, отличающийся тем, что обработка аудиосигнала включает в себя применение преобразования Фурье.

19. Способ по п. 18, отличающийся тем, что преобразование Фурье выполняется с использованием последовательных окон.

20. Способ по п. 19, отличающийся тем, что обрабатывающий фильтр применяется акустическим устройством для каждого из последовательных окон.

21. Способ по п. 20, отличающийся тем, что наличие заранее заданного шаблона коррекции сигнала в аудиосигнале определяется при наличии заранее заданного шаблона коррекции сигнала в по меньшей мере одном из последовательных окон.

22. Способ по п. 1, отличающийся тем, что применение обрабатывающего фильтра для определения наличия в аудиосигнале заранее заданного шаблона коррекции сигнала включает в себя определение уровней энергии для множества заранее заданных частот, на которых был отфильтрован звук.

23. Способ по п. 22, отличающийся тем, что определение уровней энергии включает в себя сравнение уровня энергии на частоте из множества заранее заданных частот, на которой звук был отфильтрован, с уровнем энергии на соседней частоте, на которой звук не был отфильтрован.

24. Способ по п. 23, отличающийся тем, что наличие заранее заданного шаблона коррекции сигнала определяется, если разность между уровнями энергии превышает заранее заданный порог.

25. Компьютерный способ формирования аудиопотока для отправки электронному устройству с целью его обработки, контент которого содержит заранее заданное активационное слово, способное при его распознавании акустическим устройством в первом режиме работы инициировать переключение акустического устройства из первого режима работы во второй режим работы, при этом способ выполняется рабочим сервером и включает в себя:

- получение рабочим сервером заранее записанного аудиопотока, содержащего контент;

- получение рабочим сервером обрабатывающего фильтра, указывающего на заранее заданный шаблон коррекции сигнала, представляющий исключенную часть, подлежащую исключению из аудиопотока с целью указания акустическому устройству на необходимость игнорирования активационного слова, содержащегося в контенте;

- исключение рабочим сервером исключенной части из аудиопотока с обеспечением таким образом пропуска звука при воспроизведении аудиопотока электронным устройством и

- инициирование отправки аудиопотока электронному устройству.

Изобретение относится к области вычислительной техники для обработки аудиоданных системами обработки информации, а именно к способам построения систем распознавания речи. Технический результат заключается в повышении достоверности дикторонезависимого распознания речи.

Система и способ автоматизированной оценки намерений и эмоций пользователей диалоговой системы // 2762702

Изобретение относится к области компьютерной техники. Технический результат - обеспечение в реальном времени автоматизированного анализа сообщений пользователя для выбора наиболее релевантной реакции для автоматического ответа со стороны диалоговой системы.

Система и способ автоматизированной оценки намерений и эмоций пользователей диалоговой системы // 2762702

Голосовая роботизированная вопросно-ответная система и способ ее автоматического взаимодействия с пользователем через его электронное устройство // 2744971

Группа изобретений относится к области средств автоматического информирования, консультирования и сбора опросных данных и может быть использована для голосового и текстового взаимодействия с сотрудниками и клиентами различных организаций и предприятий, а также с частными лицами. Технический результат, на достижение которого направлена группа изобретений, заключается в расширении функциональных возможностей модуля взаимодействия с пользователем через его электронное устройство голосовой роботизированной вопросно-ответной системы.

Совершение задачи без монитора в цифровом персональном помощнике // 2710984

Группа изобретений относится к цифровым помощникам. Технический результат – обеспечение возможности совершения задачи в цифровом помощнике без монитора.

Способы для понимания неполного запроса на естественном языке // 2710966

Изобретение относится к области вычислительной техники. Технический результат заключается в повышении точности интерпретации намерений пользователя вычислительным устройством, представленным на естественном языке.

Система голосовых действий разработчика // 2704876

Изобретение относится к области вычислительной техники. Технический результат заключается в обеспечении возможности развертывать новые голосовые действия для ранее установленных программных приложений.

Способ функционирования канала беспроводной связи и система портативного терминала // 2661791

Изобретение относится к мобильному терминалу с поддержкой функции голосового общения и способу управления голосовым общением. Технический результат заключается в расширении арсенала средств.

Генерирование диалоговых рекомендаций для чатовых информационных систем // 2637874

Изобретение относится к средствам для генерирования диалоговых рекомендаций для чатовых информационных систем. Технический результат заключается в повышении эффективности взаимодействия пользователя с чатовой информационной системой.

Распознавание с помощью повторного распознавания и статистической классификации // 2571519

Изобретение относится к области распознавания речи. Техническими результатами являются уменьшение задержки распознавания речи, увеличение точности распознавания речи, а также увеличение общего грамматического охвата в распознавании речи.

Способ голосового управления и электронное устройство // 2766255

Изобретение относится к области вычислительной техники. Технический результат заключается в повышении эффективности речевого управления речевого приложения в электронном устройстве.