Способ аутентификации диктора по голосу

Авторы патента:

Хакимов Тимерхан Мусагитович (RU)

Юдаков Дмитрий Сергеевич (RU)

Чернышов Анатолий Павлович (RU)

Гребенюк Андрей Витальевич (RU)

G10L17/22 - Установление или подтверждение личности говорящего

Владельцы патента RU 2789689:

Федеральное государственное казенное военное образовательное учреждение высшего образования "Военный учебно-научный центр Военно-воздушных сил "Военно-воздушная академия имени профессора Н.Е. Жуковского и Ю.А. Гагарина" (г. Воронеж) (RU)

Изобретение относится к области вычислительной техники для анализа речи. Технический результат изобретения заключается в повышении вероятности правильной аутентификации диктора. Технический результат достигается за счет того, что входной речевой сигнал преобразуют при помощи аналого-цифрового преобразования к цифровому представлению, разделяют на временные участки - фреймы, осуществляют фильтрацию каждого фрейма в заданном частотном диапазоне набором N цифровых фильтров во временной области, при этом суммарная полоса пропускания которых равна ширине заданного частотного диапазона, а амплитудно-частотная характеристика каждого фильтра аналогична характеристике Мел-фильтра, результаты фильтрации усредняют по количеству фреймов и используют для оценки меры различия с эталоном. 6 ил.

Изобретение относится к области техники анализа речи, в частности к системам ограничения несанкционированного доступа к материальным или информационным ресурсам, в системах связи экипажей самолетов с наземными службами, на основе биометрической информации о личности диктора, полученной на основе его голоса.

Известен способ верификации диктора по голосу, основанный на сравнении входного речевого сигнала диктора с заранее сохраненными эталонами, оценке меры их близости и принятии решения (см., например, патент RU 2399102, С2, МПК G10L 17/00, опуб. 10.09.2010).

Недостатком известной системы являются большие временные затраты на вычисление коэффициентов корреляции, что увеличивает время обработки, а анализ речевого сигнала без разделения его на участки снижает точность результатов из-за наличия в сигнале пауз и воздействия случайных шумов.

Наиболее близким к предложенному является способ аутентификации диктора по парольной фразе, представленный в RU 2422920 С2 МПК G10L 17/00, опуб. 27.08.2010.

Способ аутентификации диктора по парольной фразе включает посегментное сравнение входного речевого сигнала диктора с заранее сохраненными эталонами параметров эталонных фраз, произносимых заранее известными дикторами, для чего осуществляют сравнение параметрических описаний последовательных сегментов входного речевого сигнала с параметрическими описаниями последовательных сегментов из выбранных для сравнения с упомянутым эталоном с последующей аутентификацией диктора, при этом, в качестве упомянутых параметрических описаний берут матрицу переходов, построенную в соответствии с правилом, заключающимся в том, что строят последовательность особых точек, выделенных сравнением отсчета в сегменте с окружением отсчета, определенным посредством обобщенных коэффициентов линейного предсказания и порога Т, далее агрегируют последовательности особых точек в блоки длины L, строят матрицу переходов, аналогичную матрице переходов в цепи Маркова, по числу особых точек в блоке и сравнивают полученную матрицу с образцом эталонной матрицы с заданной точностью ε и принимают решение о правильности аутентификации диктора.

Недостатком известной системы является снижение вероятности аутентификации диктора, что обусловлено привязанностью к заранее созданным парольным фразам, а также сужение области применения, так как на фоне стационарных и нестационарных шумов, обладающих сплошным спектром, возникают сильные искажения парольных фраз.

Техническим результатом изобретения является повышение вероятности правильной аутентификации диктора, расширение области применения способа, за счет устойчивости к воздействию шума на анализируемый сигнал, а также снижение времени аутентификации диктора за счет переноса обработки сигнала из области спектра во временную область, позволяющее значительно уменьшить число этапов обработки исходного речевого сигнала.

Указанный технический результат достигается тем, что входной речевой сигнал диктора, фильтруют, сравнивают с заранее сохраненными эталонами, оценивают меру их различия и по результатам оценки принимают решение об аутентификации, согласно изобретению входной речевой сигнал преобразуют к цифровому виду, разделяют его на фреймы, т.е. отдельные временные участки, фреймы являются более подходящей единицей анализа данных, чем конкретные значения сигнала, так как анализировать волны намного удобней на некотором промежутке, чем в конкретных точках, фреймы располагают "внахлест", что позволяет сгладить результаты анализа фреймов, превращая их в некоторое "окно", движущееся вдоль исходного речевого сигнала, процесс разделения сигнала на фреймы представлен на фигуре 1, отдельно взятый фрейм представлен на фигуре 2, разделение сигнала на временные участки можно реализовать при помощи сдвигающих регистров, признак диктора однозначно описывается частотными идентификаторами, представляющими собой энергию сигнала на выходе полосового фильтра, заданной частоты и шириной полосы пропускания, далее каждый фрейм фильтруют при помощи N цифровых фильтров равномерно распределенных в частотном диапазоне речи диктора, при этом суммарная полоса пропускания фильтров равна ширине заданного частотного диапазона, а амплитудно-частотная характеристика каждого фильтра аналогична характеристике Мел-фильтра, банк Мел-фильтров представлен на фигуре 3, а АЧХ цифровых фильтров для получения идентификаторов представлены на фигуре 4, тем самым определяют частотные идентификаторы по аналогии с фильтрацией спектра набором из N Мел-фильтров, синтез таких цифровых фильтров и процесс получения набора идентификаторов подробно описан в статье «Алгоритм расчета Мел-спектральных коэффициентов для систем текстонезависимой идентификации абонента радиосети» [Д.С. Юдаков, А.П. Чернышев, С.В. Митрофанова // Научно-технический журнал «ВКС Теория и практика» // ВУНЦ ВВС «ВВА» №20, декабрь 2021 г.], синтез таких фильтров возможен на основе программируемых микроконтроллеров.

Предложенный способ формирования частотных идентификаторов, в отличие от применяемых в настоящее время, производит основную часть расчетов с временной реализацией сигнала, а не со спектром, что позволяет избавиться от операций, связанных с преобразованием сигнала к спектральному виду, фильтрации спектра и обратного преобразования к временному представлению доступному к восприятию на слух. Фильтрация во временной области позволит избавиться от ошибок, связанных с ограничением спектра гармонического сигнала, ввиду того, что реальные сигналы всегда имеют конечное время наблюдения, что показано в статье «Алгоритм формирования идентификаторов для автоматического текстонезависимого распознавания диктора»[Д.С. Юдаков, А.П. Чернышов, К.Ч. Колбая // Научно-технический журнал «Теория и техника радиосвязи»//АО Концерн «Созвездие» №4, 2020 г.].

Далее производят усреднение вычисленных идентификаторов для каждого из N фильтров по всему набору фреймов, усреднение осуществляется ввиду того, что количество значений каждого идентификатора определяется количеством используемых фреймов, что значительно увеличивает время на обработку результата, усреднение возможно осуществить на основе метода векторного квантования [https://en.wikipedia.org/wiki/Vector_quantization], и на их основе получают эталон голоса диктора, как набор идентификаторов полученных на выходе фильтров, набор из 10 идентификаторов представлен на фигуре 5, оценивают меру близости полученных частотных идентификаторов с заранее записанными эталонами, вычисленными по предложенному способу для набора дикторов заранее, данную процедуру можно осуществить используя метрику основанную на вычислении невязки между эталонным и входным сигналами [https://ru.wikipedia.org/wiki/Невязка] и, если мера близости лежит в заданных пределах, то принимают решение о том, что диктор идентифицирован, в противном случае принимается решение попытке несанкционированного доступа. Процедура идентификации напрямую связана с аутентификацией, устанавливающее подлинность лица, получающего доступ к системе, путем сопоставления сообщенного им идентификатора и предъявленного подтверждающего фактора.

При прохождении аутентификации, формируется команда на блок управления периферийными устройствами, которое позволяет запрограммировать определенное действие - например, открыть дверь, произвести расшифровку текста.

Способ может быть реализован, например, с помощью устройства, структурная схема которого приведена на фигуре 6, где обозначено: 1 - аналого-цифровой преобразователь сигнала, предназначенный для преобразования входного речевого сигнала в цифровую форму; 2 - блок деления на фреймы, предназначен для разделения оцифрованного сигнала на пересекающиеся временные участки; 3 - набор цифровых фильтров, предназначен для фильтрации сигнала на заданной частоте, с заданной полосой пропускания и получения значения энергии на выходе; 4 - блок усреднения, предназначен для вычисления среднего значения каждого идентификатора по набору фреймов; 5 - блок сравнения и принятия решения, производит сравнение полученных идентификаторов с сохраненными в базе эталонов и сравнение полученной разности с пороговым значением; 6 - база заранее вычисленных эталонов, представляет собой базу данных заранее вычисленных наборов идентификаторов для дикторов, подлежащих аутентификации.

Устройство работает следующим образом: входной речевой сигнал диктора поступает на вход аналого-цифрового преобразователя, где происходит его преобразование к цифровому представлению, далее цифровой сигнал при помощи сдвигающих регистров разделяется на отдельные временные участки (фреймы), затем, каждый фрейм поступает параллельно в набор цифровых фильтров, фильтры реализуются программным способом на однокристальной ЭВМ, далее происходит фильтрация на заданной частоте и с заданной полосой пропускания и определяется энергия сигнала на выходе каждого фильтра, что соответствует вычисленному частотному идентификатору, набор идентификаторов с выхода N фильтров однозначно определяет голосовой идентификатор диктора, далее сигнал поступает в блок усреднения, где каждый из вычисленных идентификаторов усредняется по количеству фреймов, данную операцию реализуют на основе метода векторного квантования программным способом при помощи ЭВМ, полученные частотные идентификаторы поступают в блок сравнения идентификаторов с эталонами, где происходит вычисление невязки между заранее вычисленным эталонным и входным сигналами и сравнение ее с пороговым уровнем, данная операция также реализуется программным способом при помощи ЭВМ, выходной сигнал блока определяет успешное прохождение аутентификации в случае превышения порога, либо отказ в доступе в случае если порог не был превышен.

Заявленное техническое решение соответствует критерию «новизна», предъявляемому к изобретениям, так как, в результате исследований заявителем не выявлены технические решения, обладающие совокупностью заявленных признаков, приводящих к реализации поставленных целей - созданию способа аутентификации диктора без привязки к парольной фразе, т.е. текстонезависимо, при учете идентификаторов, вычисленных во временной области с использованием набора цифровых фильтров.

Заявленное техническое решение соответствует критерию «изобретательский уровень», предъявляемому к изобретениям, так как для специалиста в заявленной области техники не являются очевидным полученные технические результаты, выражающиеся в том, что заявителем решена актуальная, не разрешенная до даты подачи настоящей заявки проблема, заключающаяся в необходимости создании надежного способа аутентификации диктора без использования парольной фразы, существовавшая в течение длительного периода времени, которая разрешена авторами посредством создания принципиально нового способа, заключающегося в вычислении при помощи цифровых фильтров частотных характеристик голоса диктора - идентификаторов, при этом под идентификатором понимается усредненный по набору фреймов идентификатор, характеризующий биометрические особенности голоса диктора. Таким образом, заявленное решение не вытекает явным образом из известного уровня техники, что также является дополнительным доказательством соответствия заявленного технического решения критерию «изобретательский уровень».

Заявленное техническое решение реализовано в лабораторных условиях ВУНЦ ВСС «ВВА» (г. Воронеж) и может быть реализовано на любом специализированном предприятии с использованием стандартного оборудования, что является доказательством соответствия заявленного технического решения критерию «промышленная применимость», предъявляемого к изобретениям.

Способ аутентификации диктора по голосу, основанный на приеме входного речевого сигнала диктора, сравнении с заранее сохраненными эталонами, оценке меры их различия и по результатам оценки принятии решения о доступе, отличающийся тем, что входной речевой сигнал преобразуют при помощи аналого-цифрового преобразования к цифровому представлению, разделяют на временные участки - фреймы, осуществляют фильтрацию каждого фрейма в заданном частотном диапазоне набором N цифровых фильтров во временной области, при этом суммарная полоса пропускания которых равна ширине заданного частотного диапазона, а амплитудно-частотная характеристика каждого фильтра аналогична характеристике Мел-фильтра, результаты фильтрации усредняют по количеству фреймов и используют для оценки меры различия с эталоном.

Изобретение относится к области вычислительной техники. Технический результат заключается в повышении точности идентификации личности диктора.

Устройство помощи в управлении транспортным средством // 2768509

Настоящее изобретение относится к устройству помощи в управлении для транспортных средств, которое работает для получения информации рекомендации, подходящей для состава пользователей, включающего в себя отношения между людьми, и выдачи информации рекомендации для помощи в различных операциях с транспортным средством, выполняемых одним или более пользователями.

Устройство и способ для голосового взаимодействия с сохранением конфиденциальности // 2768506

Настоящее техническое решение относится к области вычислительной техники. Технический результат заключается в сохранении конфиденциальности пользователя в многопользовательской среде при голосовом взаимодействии с устройством виртуального помощника по дому.

Способ и устройство диаризации аудиосигнала // 2759493

Изобретение относится к области вычислительной техники для обработки аудиоданных. Технический результат заключается в обеспечении возможности разметки (сегментации) аудиосигнала с малой погрешностью и с малым энергопотреблением на основе данных, полученных с двух микрофонов, в том числе в режиме реального времени.

Способ и система аутентификации пользователя с помощью голосовой биометрии // 2747935

Изобретение относится к области вычислительной техники для аутентификации пользователя с помощью голосовой биометрии. Технический результат заключается в повышении надежности аутентификации пользователя с помощью голосовой биометрии и устойчивости к атакам.

Способ и система определения говорящего пользователя управляемого голосом устройства // 2744063

Изобретение относится к системам для определения личности говорящего пользователя управляемого голосом устройства. Технический результат заключается в повышении точности идентификации определенного говорящего пользователя.

Биометрический способ идентификации абонента по речевому сигналу // 2742040

Изобретение относится к области вычислительной техники и связи. Технический результат заключается в обеспечении возможности дистанционной идентификации абонента.

Способ и устройство аутентификации личности // 2738325

Изобретение относится к вычислительной технике. Технический результат заключается в повышении эффективности и надежности аутентификации личности.

Способ создания модели анализа диалогов на базе искусственного интеллекта для обработки запросов пользователей и система, использующая такую модель // 2730449

Изобретение относится к области обработки данных. Технический результат заключается в расширении арсенала средств.

Способ верификации голосовых биометрических данных // 2723902

Изобретение относится к области вычислительной техники, в частности к технологиям верификации пользователей. Технический результат заключается в повышении безопасности верификации голосовых биометрических данных и защиты от фальсификации голосовых биометрических данных.