Языконезависимая технология исправления опечаток, с возможностью верификации результата

Авторы патента:

G06F17/273 - Устройства или методы цифровых вычислений или обработки данных, специально предназначенные для специфических функций

G06F17/27 - автоматический анализ, например, синтаксический разбор, коррекция орфографических ошибок

Владельцы патента RU 2684578:

Общество с ограниченной ответственностью "Лаборатория ИнфоВотч" (RU)

Изобретение относится к области обработки данных, а именно к классификации текстовых данных. Технический результат - более точная классификация текстовых данных путем исправления случайных опечаток и преднамеренных искажений слов (например, замена кириллических букв аналогичными латинскими). Данный результат достигается за счет создания сравнительно быстрого и универсального способа, который позволил бы повысить качество выделения из анализируемого текста слов за счет того, что неправильно написанные слова так же будут выделяться, тем самым будет повышена полнота и точность работы классификатора, улучшены результаты работы классификатора, уменьшены или полностью исключены доли полученных опечаток в набираемых человеком текстах и преодолены недостатки известных решений. В заявляемом изобретении опечатки исправляются «на лету» в потоке поступающего на анализ текста. 2 з.п. ф-лы.

В современном мире остро стоит проблема классификации текстовых данных. В области DLP (Data Leak Prevention) - технологий по предотвращению утечек конфиденциальной информации из информационной системы вовне, классификация данных необходима для упорядочивания текстовой информации, а так же для предотвращения утечек информации на заданные темы, например, секретных документов, корпоративной информации и иных конфиденциальных документов (баз данных клиентов, выгрузок баз из корпоративных систем, персональных данных клиентов, сотрудников, контрагентов, коммерческая тайна, ноу-хау, производственные секреты, медицинская тайна и т.д.).

В текстах, набранных человеком, обычно довольно значимая доля опечаток. Например, по исследованиям Яндекса (https://yandex.ru/company/researches/2009/ya_search_2009/#toc7) доля опечаток в поисковых запросах - 13% и это с учетом подсказок поисковика. В поисковиках без подсказок - около 18%.

Для более точной классификации текстовых данных необходим способ исправления случайных опечаток и преднамеренных искажений слов (например, замена кириллических букв аналогичными латинскими). Предлагаемое решение позволяет повысить качество выделения из анализируемого текста слов за счет того, что неправильно написанные слова так же будут выделяться, тем самым повысить полноту и точность работы классификатора.

Известен способ проверки орфографии в сети (патент США «Network-based spell checker», US 20020194229 А1, дата публикации 19.12.2001). Указанный способ определяет незнакомое слово, генерирует, по меньшей мере, одно альтернативное написание незнакомого слова, чтобы создать вариант слова, учитывая незнакомое слово и вариант, по меньшей мере, одного слова в поисковой системе, выполненный с возможностью поиска частоты использования незнакомого слова и, по меньшей мере, один вариант слова и представляет результаты поиска слова для пользователя.

Указанный способ определяет возможность выявления орфографических ошибок в тексте и замену неправильных слов на «условно правильные», существующие в базе данных слов или в Интернете, или добавлять свой вариант правильного написания слова в базу данных, не осуществляет замену кириллических букв латинскими и наоборот.

В данном способе опечатки ищутся для всех слов, в заявляемом способе - только для слов, которые используются как термины для классификации, т.е. в заявленном способе заявитель мы не производит лишней работы, что в итоге приводит к тому, что заявленный алгоритм для решения поставленных задач работает быстрее.

Известен способ фоновой проверки орфографии в документе (патент США «Method for background spell checking a word processing document», US 5649222, дата публикации 15.07.1997). Указанный способ выполняет проверку орфографии в документе в фоновом режиме во время периодов ожидания, когда текстовый процессор находится в режиме редактирования (т.е. когда пользователь не печатает или не выполняет команды).

Для работы данного изобретения нужен текстовый процессор, кроме того метод ориентирован на статический текст. В заявляемом изобретении опечатки исправляются «на лету» в потоке поступающего на анализ текста.

Таким образом, существует потребность в улучшении качества классификации текстовых данных за счет создания сравнительно быстрого и универсального способа, который позволил бы повысить качество выделения из анализируемого текста слов за счет того, что неправильно написанные слова так же будут выделяться, тем самым повысить полноту и точность работы классификатора, улучшить результаты работы классификатора, уменьшить или полностью исключить доли полученных опечаток в набираемых человеком текстах, и преодолеть недостатки известных решений.

Для работы заявленного алгоритма необходимы следующие данные:

1. Список слов (и/или терминов) используемых при классификации - онтология, которая необходима для реализации эффективного поиска.

2. Желательно, но не обязательно морфологические словари различных языков.

Шаги алгоритма следующие:

1. На вход в систему анализа поступает текст.

2. Текст разбивают на лексемы (по небуквенным символам). Лексема - слово, выражение, оборот речи, в лингвистике - слово как абстрактная единица морфологического анализа. В одну лексему объединяются разные парадигматические формы (словоформы) одного слова.

3. Для каждой лексемы выполняют следующие действия:

1) Проверяют словарность лексемы, т.е. ищут данное сочетание букв во всех морфологических словарях. Если словарей нет, то пропускают этот шаг.

2) Если предложенной лексемы нет ни в одном морфологическом словаре, либо в систему не загружены словари, то переходят к п. 3, иначе заканчивают обработку.

3) Из онтологии выбирают все термины, длина которых на 1 меньше, равна, либо на 1 больше длинны предложенной лексемы.

4) Для каждого термина из п. 3.3 считают Расстояние Левенштейна до текущей лексемы. Это минимальное количество операций вставки одного символа, удаления одного символа и замены одного символа на другой, необходимых для превращения одной строки в другую.

5) Если Расстояние Левенштейна равно 1, то данный термин помещают в список найденных терминов.

4. На выходе алгоритма получают список терминов, для которых в анализируемом тексте есть лексемы, отстающие от них на Расстояние Левенштейна, равное 1 и не являющиеся словарными формами данного языка.

Полученный результат можно использовать для повышения качества классификации текстов, уменьшения или полного исключения доли полученных опечаток в набираемых человеком текстах.

Кроме того, так же сказывается и окружение данных. В мессенджерах опечаток может быть еще больше, так как пользователи не считают эту переписку деловой и относятся к ней без должного внимания. Т.е. данный способ применим и для классификации текста в мессенджерах. При этом, например, в системах DLP довольно часто нужно классифицировать и переписку в мессенджерах.

1. Способ выделения из анализируемого текста слов и/или терминов, используемых при классификации текстов, состоящий из следующих этапов:

- создание списка слов и/или терминов, используемых при классификации;

- получение текста в систему анализа;

- идентификация текста в системе анализа;

- разбивка текста по небуквенным символам на лексемы;

- из списка слов и/или терминов выбирают все термины, длина которых на 1 меньше, равна либо на 1 больше длины предложенной лексемы;

- для каждого термина из списка считают Расстояние Левенштейна до текущей лексемы;

- если Расстояние Левенштейна равно 1, то данный термин помещают в список найденных терминов;

- получают список терминов, для которых в тексте есть лексемы, отстающие от них на Расстояние Левенштейна, равное 1, и не являющиеся словарными формами данного языка.

2. Способ по п. 1, в котором используют морфологические словари различных языков.

3. Способ по пп. 1, 2, в котором поиск сочетания букв осуществляют во всех присутствующих в системе морфологических словарях.

Изобретение относится к средствам структурирования объектов для функционирования в программных средах. Техническим результатом является расширение арсенала технических средств, обеспечивающих повышение защищенности и снижение уязвимости программных элементов взаимодействия и функционирования в программных средах, в том числе в блокчейн среде.

Изменение визуального контента для содействия усовершенствованному распознаванию речи // 2684475

Изобретение относится к области вычислительной техники для изменения визуального контента. Технический результат заключается в повышении точности изменения визуального контента.

Многоскоростной цифровой экстраполятор // 2684190

Изобретение относится к области цифровой техники для обработки данных, предназначенных для вычисления значений функций приближенными методами, в особенности экстраполяцией.

Устройство для моделирования процессов функционирования экраноплана при эксплуатации // 2683845

Изобретение относится к устройству для моделирования процессов функционирования экраноплана при эксплуатации. Технический результат заключается в повышении точности моделирования процессов функционирования экраноплана при эксплуатации.

Способ цифрового управления процессом мониторинга, технического обслуживания и локального ремонта вл и система для его осуществления // 2683411

Изобретение относится к области электроэнергетики. Способ цифрового управления процессом мониторинга, технического обслуживания и ремонта воздушных линий электропередачи включает в себя сбор информации о параметрах ВЛ при помощи датчиков и роботизированных устройств, трёхмерное представление ВЛ, хранение информации о состоянии элементов ВЛ в пополняемой информационной системе в виде цифровой модели ВЛ, состоящей из трехмерных моделей элементов ВЛ и отражающей текущее состояние элементов ВЛ с отображением имеющихся дефектов, а также прогнозируемого времени возникновения возможных дефектов.

Преобразование чернил в текстовое представление // 2683174

Изобретение относится к устройствам преобразования рукописного ввода в текстовые аннотации. Технический результат заключается в обеспечении возможности осуществления рукописного ввода чернилами в отношении контента, отображенного на вычислительном устройстве, для правки и внесения пометок в контент.

Способ и устройство преобразования сигнала произвольной формы с использованием ступенчатых пилообразных функций // 2682862

Группа изобретений относится к области измерений, вычислительной технике и предназначено для прямого и обратного преобразований сигналов произвольной формы. Техническим результатом является уменьшение аппаратной среднеквадратичной погрешности, максимального уклонения восстановленного сигнала от исходного сигнала.

Способ и устройство преобразования сигналов произвольной формы с использованием пилообразных ступенчатых вейвлетов // 2682860

Изобретение относится к области измерений, вычислительной техники и предназначено для прямого и обратного преобразований сигнала. Техническим результатом является уменьшение аппаратной погрешности.

Система формирования финансовой и управленческой отчетностей по международным стандартам финансовой отчетности (мсфо) // 2682479

Изобретение относится к системе формирования финансовой и управленческой отчетностей по МСФО. Технический результат заключается в автоматизации формирования отчетностей по МСФО.

Способ выбора рациональной стратегии в боевых действиях разнородных группировок // 2682386

Изобретение относится к цифровой вычислительной технике, а именно к цифровым вычислительным системам для обработки входной информации о характеристиках боевых средств.

Способ и система для сопоставления исходного лексического элемента первого языка с целевым лексическим элементом второго языка // 2682002

Изобретение относится к системам обработки исходного цифрового текста и целевого цифрового текста. Технический результат заключается в повышении скорости обработки данных.

Обучение классификаторов, используемых для извлечения информации из текстов на естественном языке // 2681356

Изобретение относится к средствам извлечения фактов из текстов на естественных языках. Технический результат заключается в повышении эффективности и качества извлечения информации.

Обучение классификаторов, используемых для извлечения информации из текстов на естественном языке // 2681356

Извлечение информационных объектов с помощью комбинации классификаторов // 2679988

Изобретение относится к области вычислительной техники для обработки естественного языка. Технический результат заключается в повышении эффективности обработки естественного языка в части выявления информационных объектов и отношений между ними.

Использование автоэнкодеров для обучения классификаторов текстов на естественном языке // 2678716

Группа изобретений относится к вычислительным системам и способам обработки естественного языка. Технический результат состоит в достижении высокой точности классификации при обучении классификатора на обучающих выборках относительно небольшого объема посредством использования результата скрытого слоя автоэнкодера для дообучения классификатора.

Способ и система выявления и классификации причин возникновения претензий пользователей в устройствах самообслуживания // 2673001

Изобретение относится к системам и способам выявления причин возникновения претензий и инцидентов в сети устройств самообслуживания. Техническими результатами являются повышение качества анализа клиентских обращений, повышение точности и скорости анализа претензий пользователей устройства самообслуживания.

Способ верификации программного обеспечения по естественной семантике идентификаторов исходного кода программы при статическом анализе // 2672786

Изобретение относится к способу верификации программного обеспечения. Технический результат заключается в автоматизации верификации программного обеспечения.

Способ и система автоматического создания тезауруса // 2672393

Изобретение относится к способам и серверам для автоматического создания тезауруса. Техническим результатом является расширение арсенала технических средств автоматического создания цифрового тезауруса.

Способ и система автоматического создания тезауруса // 2672393