Биометрический способ идентификации абонента по речевому сигналу

Авторы патента:

G10L25/18 - Анализирование или синтезирование речи; распознавание речи (ввод/вывод звука для компьютеров G06F 3/16; способы или устройства для обработки цифровых данных, специально предназначенных для манипулирования данными на естественном языке G06F 17/20; обучение или общение со слепыми, глухими или немыми G09B 21/00; телефонная связь H04M)

G10L17/00 - Установление или подтверждение личности говорящего

Владельцы патента RU 2742040:

Общество с ограниченной ответственностью "Центр компетенции инновационных технологий" (RU)

Изобретение относится к области вычислительной техники и связи. Технический результат заключается в обеспечении возможности дистанционной идентификации абонента. Способ включает предварительное определение набора характеристик речевого портрета абонента, установление указанных характеристик для различных абонентов, запись их в базу данных, определение речевого портрета обратившегося абонента, сравнение этого речевого портрета с речевыми портретами из базы данных и определение абонента. Определение характеристик голоса абонента для составления речевого портрета проводят с использованием методов одновременного спектрального, временного и спектрально-временного анализа совместно с аналого-цифровым преобразованием с использованием Вейвлет-преобразования. В качестве голосового примера может быть использован любой фрагмент речи, кроме пауз. Идентификация производится не по огибающей сигнала, а по специально обработанному его цифровому представлению. Это существенно ускоряет процесс идентификации и дает возможность работать в реальном времени на сети связи с емкостью до 3000 абонентов.

Изобретение относится к области инфо-коммуникационных технологий (вычислительная техника и связь), в частности к автоматизированной системе идентификации и аутентификации личности по биометрическим и иным параметрам личности, и предназначена для решения задач предоставления доступа к специальной информации и/или операциям с ней на основе идентификации и верификации по голосу, либо по голосу и лицу, и через распознавание речи.

Известен (RU, патент 5995927, опубл. 30.11.1999) способ распознавания абонента на основе чисто стохастического подхода. В данном способе распознавание абонента выполняют путем построения и сравнения матриц ковариации признаковых описаний входного речевого сигнала и эталонов речевого сигнала известных абонентов.

Этот известный способ не пригоден для ситуации, когда используемые голосовые сообщения (пароли) очень коротки (5 секунд и менее), а также очень чувствителен к пропаданию сигнала на отдельных участках частотного речевого диапазона за счет окружающего шума и низкокачественных микрофонов.

Известен (RU, патент 2047912, опубл. 10.11.1995) способ распознавания изолированных слов речи с адаптацией к диктору, основанный на обработке с предискажениями входного речевого сигнала, дискретизации и последовательной сегментации речевого сигнала, кодировании сегментов дискретными элементами, вычислении энергетического спектра, измерении формантных частот и определении амплитуд и энергии в различных частотных полосах речевого сигнала, классификации артикуляторных событий и состояний, формировании и сортировке эталонов слов, вычислении расстояний между эталонами слов с реализацией распознаваемого слова, принятии решений о распознавании или отказе от распознавания слова с дополнением словаря эталонов в процессе адаптации к диктору. Предискажение входного речевого сигнала выполняют во временной области при дифференцировании со сглаживанием, квантование энергетического спектра выполняют в зависимости от дисперсии шума канала связи, формантные частоты определяют при нахождении глобального максимума логарифмического спектра и вычитании из этого спектра заданной частотно-зависимой функции, при классификации артикуляторных событий и состояний определяют доли периодического и шумового источников возбуждения при сравнении с порогом коэффициентов автокорреляции последовательности прямоугольных импульсов в нескольких частотных полосах, начало и конец артикуляторных движений и соответствующих им акустических процессов определяют при сравнении с порогом функции правдоподобия от значений коэффициентов автокорреляции, формантных частот и энергий в заданных частотных полосах, речевой сигнал сегментируют на интервалы между началом и концом акустических процессов, соответствующих специфическим артикуляторным движениям, и последовательно, начиная с гласных звуков, причем опознавание сегмента производят только в случае совпадения типов переходов на его левой и правой границах и заканчивают сегментацию при опознавании слева и справа по времени сегментов паузы между словами. Эталоны слов формируют в виде матриц с бинарными значениями правдоподобия признаков, а отказ от распознавания осуществляют при нормированной разности расстояния от неизвестной реализации до двух ближайших эталонов, принадлежащих разным словам, меньшей установленного порога.

Недостатками данного известного способа распознавания изолированных слов речи с адаптацией к диктору является слабая различительная сила данного способа при его использовании для распознавания дикторов по произнесению голосового пароля, так как данный способ не различает дикторов при произнесении ими паролей с совпадающим словесным составом.

Известен (RU, патент 2406163, опубл. 10.12.2010) способ аутентификации пользователя, содержащий этапы, на которых:

- сохраняют набор персональной информации в обслуживающей программе, причем этот набор персональной информации получен от пользователя во время ориентированного на обслуживание взаимодействия пользователя с обслуживающей программой;

- используют средство извлечения информации для осуществления доступа к упомянутому набору персональной информации;

- выполняют операцию аутентификации, которая основана на упомянутом наборе персональной информации и задействует по меньшей мере один динамический компонент, при этом операция аутентификации включает в себя передачу пользователю вопроса, который основывается, по меньшей мере частично, на этом наборе персональной информации, причем операция аутентификации сконфигурирована таким образом, чтобы приглашать пользователя дать ответ на этот вопрос в форме фрагмента речи;

- принимают от пользователя фрагмент речи;

- выполняют проверку на предмет того, что фрагмент речи является правильным ответом на упомянутый вопрос;

- используют компьютерный процессор, являющийся функциональным компонентом компьютера, для сравнения фрагмента речи с сохраненным профилем голоса; после чего предоставляют пользователю доступ к обслуживающей программе при условии того, что фрагмент речи является правильным ответом на упомянутый вопрос, и того, что фрагмент речи, по меньшей мере, в значительной степени соответствует сохраненному профилю голоса.

Недостатком известного технического решения являются узкие функциональные возможности, не позволяющие производить регистрацию и идентификацию людей в самых различных ситуациях, а также их идентификацию и распознавание голосов в режиме реального времени.

Известное техническое решение принято в качестве ближайшего аналога.

Техническая проблема, решаемая путем реализации разработанного способа, состоит в обеспечении возможности идентификации абонентов по голосовому портрету.

Технический результат, достигаемый при реализации разработанного способа, состоит в обеспечении возможности дистанционной идентификации абонента. В качестве голосового примера может быть использован любой фрагмент речи кроме пауз.

Идентификация производится не по огибающей сигнала, а по специально обработанному его цифровому представлению. Это существенно ускоряет процесс идентификации и дает возможным работать в реальном времени на сети связи с емкостью до 3000 абонентов. В канале связи нигде не передается информация о речевом сигнале в открытом виде - все передачи в открытых каналах используют шифрование. Это дает возможность эффективно применять данный алгоритм в облачных сервисах (распределенных инфо-коммуникационных системах, где информация хранится и обрабатывается в разных местах).

Для достижения указанного технического результата предложено использовать разработанный биометрический способ идентификации абонента по речевому сигналу. Согласно разработанному способу проводят предварительное определение набора характеристик речевого портрета абонента, установление указанных характеристик для различных абонентов, запись их в базу данных, определение речевого портрета обратившегося абонента, сравнение этого речевого портрета с речевыми портретами из базы данных и определение абонента, причем определение характеристик голоса абонента для составления речевого портрета речевого портрета проводят с использованием методов одновременного спектрального, временного и спектрально-временного анализа совместно с аналого-цифровым преобразованием с использованием Вейвлет-преобразования при этом в качестве указанных характеристик используют, характеристики, выбранные из группы, содержащей, по меньшей мере, среднее значение спектра речевого сигнала, нормализованные средние значения спектра, относительное время пребывания сигнала в полосах спектра, нормализованное время пребывания сигнала в полосах спектра, медианное значение спектра речи в полосах, относительная мощность спектра речи в полосах, вариацию огибающих спектра речи, нормализованные величины вариации огибающих спектра речи, коэффициенты кросскорреляции спектральных огибающих между полосами спектра, длительность сегмента фонемы, высоту сегмента фонемы, коэффициент формы сегмента фонемы, а также характеристики тональных участков звуковой волны, непериодических участков звуковой волны, участков, не содержащих речевых пауз и средней частоты пауз. А в процессе произнесения неизвестным абонентом речевого сигнала, определяют аналогичные характеристики и путем сравнения данных характеристик с записанными в базу данных определяют абонента.

При реализации разработанного способа произвольный фрагмент речевого сигнала длительностью в 120 сек преобразуют с использованием Вейвлет преобразования в цифровой код, который хранится в базе данных абонентов. По указанному фрагменту оценивают, по меньшей мере, следующие характеристики голосового сигнала абонента:

Среднее значение спектра речевого сигнала - среднее арифметическое между гармониками речевого сигнала, представляющими крайне верхнюю и крайне нижнюю. Вычисляется посредством обработки кода, полученного в результате Вейвлет предобразования.

Нормализованные средние значения спектра - значения, полученные из средних значений спектра, нормированные относительно средней гармоники. Вычисляется посредством обработки кода, полученного в результате Вейвлет предобразования.

Относительное время пребывания сигнала в полосах спектра - вектор числовых значений, соответствующих времени, когда сигнал находится в границах частотных диапазонов. Спектр речевого сигнала локализован в полосе 100 Гц - 4000 Гц. Эта полоса разбивается на неравномерные составляющие, по характерной окраске речи. Выделяются 8 полос. В каждой полосе речевой сигнал находится определенное время - это и есть составляющая вектора относительного пребывания сигнала в полосах частот. Вычисляется посредством обработки кода, полученного в результате Вейвлет предобразования.

Нормализованное время пребывания сигнала в полосах спектра - векторная величина, получающаяся из вектора относительного пребывания сигнала в полосах частот при нормировании среднего значения спектра речевого сигнала. Вычисляется посредством обработки кода, полученного в результате Вейвлет предобразования.

Медианное значение спектра речи в полосах - векторная характеристика распределения амплитуды речевого сигнала в полосах анализа спектра. Вычисляется посредством обработки кода, полученного в результате Вейвлет предобразования.

Относительная мощность спектра речи в полосах векторная характеристика распределения мощности речевого сигнала в полосах анализа спектра. Вычисляется посредством обработки кода, полученного в результате Вейвлет предобразования.

Вариация огибающих спектра речи - векторная характеристика рассчитывается на основе сравнения нескольких речевых сигналов одинаковой длины. Вычисляется посредством обработки кода, полученного в результате Вейвлет предобразования.

Нормализованные величины вариации огибающих спектра речи векторная характеристика рассчитывается на основе Вариация огибающих спектра речи при нормировании среднего значения спектра. Вычисляется посредством обработки кода, полученного в результате Вейвлет предобразования.

Коэффициенты кросскорреляции спектральных огибающих между полосами спектра - векторная характеристика, для оценки совпадения огибающих. Вычисляется посредством обработки кода, полученного в результате Вейвлет предобразования.

В некоторых вариантах реализации разработанного способа по речевому фрагменту длинной 50 сек оценивают такие характеристики, как

- Длительность сегмента, фонемы

Высота сегмента

- Коэффициент формы сегмента

В некоторых вариантах реализации разработанного способа по речевому фрагменту в 120 сек оценивают такие характеристики голоса как:

- Коэффициент тональных участков звуковой волны

- Коэффициент непериодических участков звуковой волны

- Коэффициент участков, не содержащих речевых пауз

средняя частота пауз

средняя продолжительность пауз

Данные характеристики получаются при помощи обработки огибающей аналогового речевого сигнала специально сконструированным фильтром.

Каждой полученной характеристике присваивают четырехзначный цифровой код, с получением кодовой последовательность длиной 64. Данная последовательность называется речевым портретом, однозначно характеризующем абонента. Речевой портрет сохраняют в базе данных абонентов. Для каждого нового абонента вычисляют речевой портрет и сравнивают с имеющимися в базе. Сравнение делают по каждым четырем символам отдельно. Если по минимум 12 характеристикам значение попадает в установленный допуск, то принимается решение о совпадении речевых портретов и абонент идентифицируется по базе, а речевой портрет из распознаваемого сигнала добавляется в базу, как уточняющий. Всего для каждого абонента хранят, по меньшей мере, по три речевых портрета, если есть возможность их получить. Идентификацию проводят по каждому из них отдельно. Положительное решение (известность абонента) принимают при совпадении двух из трех.

Пример реализации.

1. Получаем речевой сигнал.

2. Выделяем произвольные фрагменты дительностью 50 с и 120 с. Фрагменты могут накладываться друг на друга.

3. Пропускаем сигналы 50 с и 120 с через специальный фильтр и получаем значения характеристик:

Длительность сегмента, фонемы - L1

Высота сегмента фонемы - L2

Коэффициент формы сегмента фонемы - L3

Коэффициент тональных участков звуковой волны - L4

Коэффициент непериодических участков звуковой волны - L5

Коэффициент участков, не содержащих речевых пауз - L6

Средняя частота пауз - L7

средняя продолжительность пауз - L8

Каждому значению присваивается четырехзначный двоичный код, соответствующий диапазону, в который оно попадает.

Формируется кодовое слово 32 шестнадцатиричных, состоящее из сегментов K1 - К8 - акустическая составляющая речевого портрета (АС РП)

4. Сегмент сигнала длительностью 120 с пропускаем через Вейвлет преобразователь и оцениваем характеристики:

Среднее значение спектра речевого сигнала - S1

Нормализованные средние значения спектра - S2

Относительное время пребывания сигнала в полосах спектра - S3

Нормализованное время пребывания сигнала в полосах спектра - S4

Медианное значение спектра речи - S5

Относительная мощность спектра речи в полосах - S6

Вариация огибающих спектра речи - S7

Нормализованные величины вариации огибающих спектра речи - S8

Каждое значение каждой характеристики укладывается в диапазон

0000 - FFFF (шестнадцатиричные). Значению присваивается четырехзначный шестнадцатиричный код, соответствующий диапазону, в который оно попадает.

Формируется кодовое слово, состоящее из 32 шестнадцатиричных символов сегментов К9 - К16 - спектральная составляющая речевого портрета (СС РП)

Кодовые слова объединяются в 64 разрядный речевой портрет РП. Например у нас получился РП

23AF 4257 ААЕЕ 2433 993F АВ01 32F1 FF32 - АС РП

207F 6857 А32Е 24А3 453F А351 77F1 F342 - СС РП

Речевой портрет пропускается через кодер и передается по сети связи.

В базе данных речевых портретов (БД РП) принятый сигнал декодируется и сравнивается с РП, хранящимися в базе

Например, мы приняли

23AF 4257 ААЕЕ 2433 993F АВ01 32F1 FF32 - АС РП

207F 6857 А32Е 24А3 453F А351 77F1 F342 - СС РП

И в БД РП имеется запись

23AF 4257 ААЕЕ 993F А 431 32 FA - АС РП

207F 6857A32F 24А3 453F 77FFF F388 - ССРП

Эта запись имеет 12 коэффициентов, отличающиеся на единицу или совпадающих.

Принимается решение об идентификации принятого РП и принятый РП добавляется к БД РП, как уточняющий для данного абонента.

Биометрический способ идентификации абонента по речевому сигналу, включающий предварительное определение набора характеристик речевого портрета абонента, установление указанных характеристик для различных абонентов, запись их в базу данных, определение речевого портрета обратившегося абонента, сравнение этого речевого портрета с речевыми портретами из базы данных и определение абонента, отличающийся тем, что определение характеристик голоса абонента для составления речевого портрета проводят с использованием методов одновременного спектрального, временного и спектрально-временного анализа совместно с аналого-цифровым преобразованием с использованием Вейвлет-преобразования, при этом в качестве указанных характеристик используют характеристики, выбранные из группы, содержащей, по меньшей мере, среднее значение спектра речевого сигнала, нормализованные средние значения спектра, относительное время пребывания сигнала в полосах спектра, нормализованное время пребывания сигнала в полосах спектра, медианное значение спектра речи в полосах, относительную мощность спектра речи в полосах, вариацию огибающих спектра речи, нормализованные величины вариации огибающих спектра речи, коэффициенты кросскорреляции спектральных огибающих между полосами спектра, длительность сегмента фонемы, высоту сегмента фонемы, коэффициент формы сегмента фонемы, а также характеристики тональных участков звуковой волны, непериодических участков звуковой волны, участков, не содержащих речевых пауз и средней частоты пауз, а в процессе произнесения неизвестным абонентом речевого сигнала определяют аналогичные характеристики и путем сравнения данных характеристик с записанными в базу данных определяют абонента.

Изобретение относится к средствам для голосового управления. Технический результат заключается в повышении эффективности голосового управления.

Способ и устройство для обработки звука и носитель информации // 2735363

Изобретение относится к акустике. Способ заключается в приеме аудиоданных, их распознавании, проверке наличия в них информации об активации приложения, активации приложения, приеме первых и вторых речевых данных.

Устройство и способы для обработки аудиосигнала // 2733533

Изобретение относится к средствам для обработки аудиосигнала. Технический результат заключается в повышении эффективности обработки аудиосигнала.

Устройство и способ для определения предварительно определенной характеристики, относящейся к обработке спектрального улучшения аудиосигнала // 2733278

Изобретение относится к средствам для спектральной обработки аудиосигнала. Технический результат заключается в повышении эффективности обработки аудиосигнала.

Способ и система для разложения акустического сигнала на звуковые объекты, а также звуковой объект и его использование // 2731372

Изобретение относится к области обработки звуковых сигналов. Технический результат изобретения заключается в возможности разложения акустического сигнала на звуковые объекты, имеющие форму сигналов с медленно изменяющейся амплитудой и частотой.

Способ создания модели анализа диалогов на базе искусственного интеллекта для обработки запросов пользователей и система, использующая такую модель // 2730449

Изобретение относится к области обработки данных. Технический результат заключается в расширении арсенала средств.

Способ разделения речи и пауз по значениям дисперсий амплитуд спектральных составляющих // 2723301

Изобретение относится к области техники передачи и трансляции речевой информации и может найти применение в устройствах связи. Техническим результатом является повышение эффективности принятия правильного решения о появлении речевого сигнала при наличии акустического шума.

Способ и оборудование распознавания эмоций в речи // 2720359

Изобретение относится к средствам для распознавания эмоций в речи. Технический результат заключается в повышении точности распознавания эмоций.

Способ оценки фонового шума, блок оценки фонового шума и машиночитаемый носитель // 2720357

Изобретение относится к средствам для оценки фонового шума. Технический результат заключается в повышении точности детектирования в аудиосигнале речи или музыки.

Устройство и способ для определения предварительно определенной характеристики, относящейся к обработке искусственного ограничения частотной полосы аудиосигнала // 2719543

Изобретение относится к средствам для определения характеристики, относящейся к искусственному ограничению частотной полосы аудиосигнала. Технический результат заключается в обеспечении обнаружения факта обработки аудиосигнала, которая могла внести артефакты в аудиосигнал, а также сокращение таких артефактов.

Способ и устройство аутентификации личности // 2738325

Изобретение относится к вычислительной технике. Технический результат заключается в повышении эффективности и надежности аутентификации личности.