Способ аутентификации диктора по парольной фразе

Авторы патента:

G10L17 - Установление или подтверждение личности говорящего

G10L15 - Распознавание речи (G10L 17/00 имеет преимущество)

Владельцы патента RU 2422921:

Государственное образовательное учреждение высшего профессионального образования "Казанский государственный университет им. В.И. Ульянова-Ленина" (RU)

Изобретение относится к области техники анализа речи, в частности к системам ограничения несанкционированного доступа в помещения или информационным ресурсам. Техническим результатом является повышение достоверности распознавания диктора при использовании парольной фразы ограниченной длины. Указанный технический результат достигается тем, что осуществляют сравнение параметров входного речевого сигнала диктора в виде парольной фразы с заданной точностью ε с заранее сохраненными эталонами параметров входных речевых сигналов в виде той же парольной фразы, произносимых заранее известными дикторами, с последующей аутентификацией. В качестве упомянутых параметров берется низкочастотная часть вейвлет преобразования от нормированной функции распределения особых точек вдоль звукового файла, отвечающего входному речевому сигналу диктора в виде парольной фразы, выделенных сравнением отсчета в этой точке в звуковом файле с предшествующими и последующими отсчетами посредством обобщенных коэффициентов линейного предсказания и порога Т. Нормирование функции распределения сводится к приведению ее к стандартной длине Len, принятой при подсчете эталонных параметров входных речевых сигналов в виде парольной фразы, произносимых заранее известными дикторами. 1 ил.

Заявляемый способ относится к области техники анализа речи, в частности к системам ограничения несанкционированного доступа в помещения или к информационным ресурсам.

Известны способы и устройства для распознавания дикторов по речевому файлу, не зависящему от текста, на основе оценки статистических параметров в файле [1].

Данный способ предполагает наличие звукового файла для настройки и анализа продолжительностью порядка минуты, что не может быть применимо для аутентификации по парольной фразе, продолжительность которой составляет около 2-3 секунд.

Наибольшую популярность получили методы оценки параметров в модели на основе смеси Гауссовских распределений, например [2].

Этот метод позволяет распознавать диктора по произвольной фразе, но и в этом способе необходимы звуковые файлы продолжительностью порядка половины минуты, и сама процедура подсчета параметров требует значительных вычислительных ресурсов.

Известен метод идентификации диктора на основе коэффициентов линейного предсказания, теория которого представлена в [3]. Эти коэффициенты подсчитываются согласно формуле

Недостатком этого метода является слабая устойчивость коэффициентов предсказания, когда размер звукового файла имеет малую длину.

Известен способ идентификации диктора, совпадающий с заявленным решением по наибольшему количеству существенных признаков и достигаемому техническому результату, принятому за прототип, по особенностям произнесения парольной фразы на основе разбиения звукового файла на отдельные зоны и анализу различных параметров, вычисленных по этим зонам [4]. Полученная информация обрабатывается статистическими методами. Решение принимается путем оценки вероятности появления вычисленного вектора параметров в принятой статистической модели с учетом длин доверительных интервалов.

Недостатком известного метода является привязка способа разбиения на зоны к процедуре вычисления основного тона, который по короткой фразе определяется с высокой вариабельностью (изменчивостью). Таким образом, недостатком всех известных методов является отсутствие учета особенностей произнесения последовательности фонем в заданном контексте, который представлен парольной фразой. Известные методы основаны на применении гармонического анализа, предполагающего стационарность исследуемого участка звукового файла, что приводит к ошибкам при исследовании файлов малой длины.

Задачей данного изобретения является создание способа, учитывающего особенности произнесения последовательности отдельных фонем в контексте одной и той же парольной фразы, основанного на оценках параметров, не зависящих от коэффициента усиления микрофона и устойчивых к колебаниям длины звукового файла, отвечающего парольной фразе.

Поставленная задача решается путем выделения особых точек в звуковом файле и методом обработки распределения особых точек. Под особой точкой звукового файла заявителем понимается отсчет в звуковом файле, который сильно отличается от своего окружения. В отличие от метода линейного предсказания отклонение в каждой точке от окружения оценивается по разности между этим отсчетом и линейной аппроксимацией отсчетов как предшествующих этому отсчету, так и следующих за ним.

Заявленное техническое решение реализуется посредством применения ЭВМ с устройством звукового ввода и программы, обеспечивающей реализацию заявленного способа выделения особых точек и способа описания распределения этих особых точек.

Технический результат достигается тем, что способ аутентификации диктора по входному речевому сигналу диктора в виде парольной фразы включает сравнение параметров этого сигнала с заданной точностью ε с заранее сохраненными эталонами параметров входных речевых сигналов в виде той же парольной фразы, произносимых заранее известными дикторами, с последующей аутентификацией, при этом в качестве упомянутых параметров берется низкочастотная часть вейвлет преобразования от нормированной функции распределения особых точек вдоль звукового файла, отвечающего входному речевому сигналу диктора в виде парольной фразы, выделенных сравнением отсчета в этой точке в звуковом файле с предшествующими и последующими отсчетами посредством обобщенных коэффициентов линейного предсказания и порога Т, при этом нормирование функции распределения сводится к приведению ее к стандартной длине Len, принятой при подсчете эталонных параметров входных речевых сигналов в виде парольной фразы, произносимых заранее известными дикторами.

Сущность заявленного технического решения заключается в том, что аутентификация диктора по входному речевому сигналу диктора в виде парольной фразы включает сравнение параметрического описания этого сигнала с заранее сохраненными эталонными параметрическими описаниями входных речевых сигналов в виде той же парольной фразы, произнесенной известными дикторами, с последующей аутентификацией диктора на основе результатов сравнения, характеризуется тем, что в качестве упомянутых параметрических описаний берется низкочастотная часть вейвлет преобразования от нормированной функции распределения особых точек, выделенных сравнением отсчета в звуковом файле с его окружением, определенным посредством 2р обобщенных коэффициентов линейного предсказания и порога Т, при этом нормированная функция распределения особых точек получается из экспериментальной функции распределения путем приведения последней к стандартной длине Len, эта низкочастотная часть сравнивается с эталонными параметрическими описаниями с заданной точностью ε с последующим принятием решения о правильности аутентификации диктора.

Блок-схема алгоритма заявленного способа приведена на чертеже. Блок-схема состоит из четырех последовательно включенных блоков с номерами 1, 2. 3, 4, реализующих заявленный способ.

На вход блока 1 поступает звуковой файл. Этот блок подсчитывает обобщенные коэффициенты линейного предсказания согласно формуле

по формулам, приведенным ниже, и среднеквадратическое отклонение σ по стандартной формуле. В формуле (1) отсчет x_n аппроксимируется линейной комбинацией Р отсчетов до отсчета x_n и р отсчетов после отсчета x_n. Для отыскания коэффициенты a_k, b_k введем следующие обозначения:

, ,

В этих обозначениях отыскание коэффициентов в (1) сводится к решению системы уравнений

Обоснование указанных формул приведено в [5].

Блок 2 определяет, является ли центр интервала длины 2р+1 особой точкой.

На вход блока поступают звуковой файл, среднеквадратическое отклонение σ, обобщенные коэффициенты линейного предсказания a_k, b_k, k=1,…,p и порог T (выбирается из существующей экспериментальной базы КГУ). Для центра каждого интервала проверяется выполнение неравенства

При выполнении неравенства (2) центр интервала объявляется особой точкой. В силу однородности формулы выполнение неравенства (2) не зависит коэффициента усиления микрофона. На выходе блока получается последовательность z_n, состоящая из 1 и 0 в зависимости от того, является ли x_n особой точкой соответствующего интервала длины 2р+1 или не является особой точкой.

На вход блока 3 поступает последовательность {z_n}, сгенерированная блоком 2, и параметр Len, равный степени 2 (выбирается из существующей экспериментальной базы КГУ).

Блок 3 сначала подсчитывает обычную функцию распределения согласно формуле , где N - длина поступившей последовательности z_n. После этого производится нормирование найденной функции согласно формуле G(t)=F(t*N/Len), t=1,…,Len. Значения функции G(t) в виде последовательности длины Len поступают на вход блока 4.

Блок 4 осуществляет вейвлет преобразование полученной последовательности согласно формулам [L,H]=Wav(G), где L - низкочастотная часть, а H - высокочастотная часть вейвлет преобразования (см., например, [6]).

В частности, был использован фильтр Добеши db4. Последовательность L длины Len/2 сравнивается с эталонной последовательностью L′, хранящейся в базе данных КГУ. Если имеет место неравенство |L-L′|<ε, где ε(L) параметр из экспериментальной базы КГУ, то принимается решение о правильной аутентификации, в противном случае принимается решение об отказе в доступе к ресурсу.

Для эксперимента были использованы файлы из базы TIMIT, которая стала фактическим стандартом в задачах исследования речевых фалов. Эта база содержит фразы, произносимые разными дикторами, и эти фразы служили аналогами голосовых паролей.

Для исследования устойчивости найденных параметров использовалась одна и та же фраза, произносимая одним и тем же диктором.

Приведем результаты одного из экспериментов.

В качестве парольной фразы использована фраза "She had your dark suit in greasy wash water all year" из базы, произнесенная двенадцатью разными мужчинами.

После этого та же фраза была произнесена 10 раз одним оператором.

Файлы записаны в формате 16000 kHz, 16 bit и имеют длину 80-100 килобайт. Приведем результат одного из экспериментов.

Число коэффициентов линейного предсказания 2р выбиралось равным 12, параметр Т для выделения особых точек брался равным 0.02, длина Len нормированной функции распределения бралась равной 1024, для подсчета низкочастотной составляющей вейвлет преобразования использовалось преобразование db4. Параметр ε в процедуре принятия решения выбирался таким образом, чтобы вероятность ошибки первого рода (диктор не был аутентифицирован) составляла 0.05.

При указанном значении ε вероятность ошибки второго рода (неверная аутентификация диктора) равнялась 0.26.

Заявленное техническое решение соответствует критерию «новизна», предъявляемому к изобретениям, так как в результате исследования уровня техники на дату подачи заявки заявителем не выявлены технические решения, обладающие совокупностью заявленных признаков, приводящих к реализации поставленных целей - созданию способа аутентификации диктора по входному речевому сигналу диктора в виде парольной фразы, учитывающего особенности произнесения последовательности отдельных фонем в контексте одной и той же парольной фразы, основанного на оценках параметров, не зависящих от коэффициента усиления микрофона и устойчивых к колебаниям длины звукового файла, отвечающего парольной фразе.

Заявленное техническое решение соответствует критерию «изобретательский уровень», предъявляемому к изобретениям, так как для специалиста в заявленной области техники не являются очевидным полученные технические результаты, выражающиеся в том, что заявителем решена актуальная, не разрешенная до даты подачи настоящей заявки проблема, заключающаяся в необходимости создания надежного способа аутентификации диктора по входному речевому сигналу диктора в виде парольной фразы, существовавшая в течение длительного периода времени, которая разрешена авторами посредством создания принципиально нового способа, заключающегося в выделения особых точек в звуковом файле и методом обработки распределения особых точек, при этом под особой точкой звукового файла заявителем понимается отсчет в звуковом файле, который сильно отличается от своего окружения. В отличие от метода линейного предсказания отклонение в каждой точке от окружения оценивается по разности между этим отсчетом и линейной аппроксимацией отсчетов как предшествующих этому отсчету, так и следующих за ним. Таким образом, заявленное решение не вытекает явным образом из известного уровня техники, что также является дополнительным доказательством соответствия заявленного технического решения критерию «изобретательский уровень».

Заявленное техническое решение реализовано в лабораторных условиях Казанского государственного университета и может быть реализовано на любом специализированном предприятии(учреждении) с использованием стандартного оборудования, что является доказательством соответствия заявленного технического решения критерию «промышленная применимость», предъявляемому к изобретениям.

Источники информации

1. Патент РФ 2107950.

2. Патент США 6411930.

3. A.Oppenheim, R.Schafer. Discrete-time signal processing. Prentice Hall, 1989.

4. Патент РФ 2230375.

5. Е.Л.Столов. Алгоритм обработки голосового пароля // Исследования по информатике, № 11, "Отечество", Казань, 2007, с.103-108.

6. С.Малла. Вейвлеты в обработке сигналов. М.: Мир, 2005.

Способ аутентификации диктора по входному речевому сигналу диктора в виде парольной фразы, включающий сравнение параметров этого сигнала с заданной точностью ε с заранее сохраненными эталонами параметров входных речевых сигналов в виде той же парольной фразы, произносимой заранее известными дикторами, с последующей аутентификацией, отличающийся тем, что в качестве упомянутых параметров берется низкочастотная часть вейвлет преобразования от нормированной функции распределения особых точек вдоль звукового файла, отвечающего входному речевому сигналу диктора в виде парольной фразы, выделенных сравнением отсчета в этой точке в звуковом файле с предшествующими и последующими отсчетами посредством обобщенных коэффициентов линейного предсказания и порога Т, при этом нормирование функции распределения сводится к приведению ее к стандартной длине Len, принятой при подсчете эталонных параметров входных речевых сигналов в виде парольной фразы, произносимой заранее известным дикторами.

Изобретение относится к области техники анализа речи, в частности к системам ограничения несанкционированного доступа в помещения или информационным ресурсам. .

Аутентификация пользователя посредством комбинирования установления личности говорящего и обратного теста тьюринга // 2406163

Изобретение относится к технике аутентификации пользователя. .

Способ и устройство автоматической верификации личности по голосу // 2399102

Изобретение относится к системам установления или подтверждения личности говорящего. .

Усовершенствованная идентификация вызывающего абонента на основе распознавания речи // 2383938

Изобретение относится к идентификации вызывающего абонента. .

Способ верификации пользователя в системах санкционирования доступа // 2351023

Изобретение относится к системам биометрии человека по индивидуальным характеристикам его голоса к санкционированному доступу, например, к операционной системе, компьютерным ресурсам, банковскому счету или физическому доступу к помещению и к случаям, требующим санкционированного доступа.

Система голосового распознавания пользователя транспортного средства // 2337020

Изобретение относится к системам распознавания человека, в частности к системам идентификации личности по голосу, и предназначено для использования в охранных и противоугонных системах для транспортных средств (ТС).

Способ и система автоматической проверки присутствия лица живого человека в биометрических системах безопасности // 2316051

Изобретение относится к системам безопасности и контроля. .

Способ автоматического распознавания человека с использованием акустических сигналов, снимаемых с тела человека // 2263358

Изобретение относится к области автоматического распознавания человека по его голосовым характеристикам и может быть использовано для ограничения и разграничения доступа (в том числе удаленного) к устройствам и системам, к средствам электронно-вычислительной техники, к конфиденциальной информации, к услугам (например, телекоммуникационным, информационным, банковским), а также к охраняемым зонам и помещениям.

Метод распознавания диктора и устройство для его осуществления // 2230375

Изобретение относится к области техники анализа речи, в частности к системам ограничения несанкционированного доступа к материальным или информационным ресурсам на основе биометрической информации о говорящем.

Способ и устройство для управления вводами речевой регистрации устройства распознавания речи для использования в микротелефонной трубке и в комплекте громкоговорящей связи // 2187902

Изобретение относится к телефонии. .

Способ аутентификации диктора по парольной фразе // 2422920

Повышение качества речи с использованием множества датчиков с помощью модели состояний речи // 2420813

Изобретение относится к распознаванию и передаче речи, в частности к способам и устройствам для определения правдоподобия состояния речи на основании сигнала альтернативного датчика и сигнала микрофона, основанного на принципе воздушной проводимости.

Способ идентификации говорящего по фонограммам произвольной устной речи на основе формантного выравнивания // 2419890

Изобретение относится к области опознавания говорящего по голосу, в частности к способам идентификации говорящего по фонограммам произвольной устной речи, предназначенным в том числе для криминалистических исследований.

Способ организации синхронного перевода устной речи с одного языка на другой посредством электронной приемопередающей системы // 2419142

Изобретение относится к области электроники, в частности к переводу фраз с первого языка на второй. .

Классификатор на основе нейронных сетей для выделения аудио источников из монофонического аудио сигнала // 2418321

Изобретение относится к выделению множества произвольных и заранее неизвестных аудио источников, микшированных в отдельный монофонический аудио сигнал на основе нейронной сети.

Система эмоциональной стабилизации речевых коммуникаций "эмос" // 2408087

Изобретение относится к психофизиологии и клинической нейрофизиологии Система содержит модуль ввода, распознавания и преобразования речевого сигнала, модуль анализа и накопления частотно-амплитудных характеристик (АЧХ) речевого сигнала, модуль распознавания отклонений спектров текущего речевого сигнала, электронную базу данных эталонных шаблонов, модуль визуализации, модуль дискриминации с образованием последовательно соединенных между собой модуля распознавания отклонений спектров текущего речевого сигнала, модуля дискриминации и модуля визуализации, а также модуль психоэмоциональной коррекции, последовательно соединенный с модулем визуализации, при этом модуль анализа и накопления АЧХ речевого сигнала выполнен с возможностью определения временных колебаний высоко/низкочастотных спектров речевого сигнала, модуль распознавания отклонений спектров текущего речевого сигнала выполнен с возможностью определения отклонения упомянутых временных колебаний высоко/низкочастотных спектров речевого сигнала от эталонных шаблонов, модуль дискриминации выполнен с возможностью передачи генерируемого им управляющего сигнала временного прерывания к модулю ввода, распознавания и преобразования, а модуль психоэмоциональной коррекции выполнен с возможностью воспроизведения релаксирующего музыкального и/или речевого сопровождения или обратной трансляции фрагмента речевой коммуникации.

Изобретение относится к технике аутентификации пользователя. .

Способ распознавания ключевых слов в слитной речи // 2403628

Изобретение относится к системам обработки информации и управления, в частности к способам построения систем распознавания речи. .

Система искажения голоса диктора // 2403627

Изобретение относится к технике противодействия опознаванию личности по голосу и предназначено для использования, например, в охранных системах. .

Способ и устройство для распознавания речи // 2393549

Изобретение относится к распознаванию речи. .

Способ и устройство для естественно-речевого распознавания речевого высказывания // 2432623

Изобретение относится к способу и устройству для естественно-речевого распознавания речевого высказывания