Способ автоматической классификации формализованных текстовых документов и авторизованных пользователей системы электронного документооборота

Авторы патента:

Мезенцев Александр Сергеевич (RU)

Носенко Сергей Владимирович (RU)

Поддубный Максим Игоревич (RU)

Королев Игорь Дмитриевич (RU)

G06F17/27 - автоматический анализ, например, синтаксический разбор, коррекция орфографических ошибок

G06F17/21 - обработка текста (G06F 17/27,G06F 17/28 имеют преимущество; системы для наборных машин B41B 27/00)

G06F16/9535 - Обработка цифровых данных с помощью электрических устройств (вычислительные машины, в которых часть вычислений осуществляется гидравлическими или пневматическими устройствами G06D; оптическими средствами G06E; автономные внешние вводные и выводные устройства G06K; компьютерные системы, основанные на специфических вычислительных моделях G06N; цепи полного /активного и реактивного/ сопротивления H03H)

G06F15/18 - с модификацией программ, осуществляемой самой машиной в соответствии с опытом, накопленным машиной за время полного цикла работы; самообучающиеся машины (самонастраивающиеся системы управления G05B 13/00)

Владельцы патента RU 2692043:

Федеральное государственное казенное военное образовательное учреждение высшего образования "Краснодарское высшее военное училище имени генерала армии С.М. Штеменко" Министерство обороны Российской Федерации (RU)

Изобретение относится к вычислительной технике. Технический результат – обеспечение автоматической классификации формализованных текстовых документов и авторизованных пользователей системы электронного документооборота по меткам конфиденциальности. Способ включает: извлечение метаданных и информативной части документа, преобразование документа из формата хранения в текст, преобразование слов в словоформы, отбрасывание незначимых слов, подсчет весов слов, формирование набора классификационных признаков, при этом на этапе обучения по набору классифицированных документов формируют систему предикатов идентификации метки конфиденциальности документа; на этапе классификации документа на основании признаков принимают решение об относимости документа каждой из меток конфиденциальности, на этапе обучения по набору классифицированных вручную авторизованных пользователей формируют систему предикатов идентификации их метки конфиденциальности, причем на основе меток конфиденциальности поступивших документов и прав доступа авторизованных пользователей системы к этим документам формируют набор классификационных признаков. 1 ил., 1 табл.

Изобретение относится к системам классификации документов и может использоваться в системах электронного документооборота, базах данных, автоматизированных системах, использующих метки конфиденциальности, где объектами доступа являются формализованные текстовые документы, субъектами - авторизованные пользователи, в условиях произвольного числа применяемых меток конфиденциальности.

Уровень техники

а) Описание аналогов

Известен аналог - способ автоматической классификации документов (Li Y., Jain A. "Classification of text documents", The Computer Journal 41, 8, pp. 537-546, 1998), заключающийся в том, что осуществляют преобразование документа из формата хранения в текст на естественном языке, преобразуют слова документа в базовые словоформы, отбрасывают незначимые слова, осуществляют подсчет весов слов в документе в соответствии с частотами их появления, на этапе обучения, по предъявленному набору классифицированных вручную документов, формируют набор классификационных признаков, а при классификации документа осуществляют преобразование его из формата хранения в текст на естественном языке, преобразуют слова документа в базовые словоформы, отбрасывают незначимые слова, осуществляют подсчет весов слов в документе, на основе простого байесовского классификационного критерия и классификационных признаков определяют принадлежность документа к информационной области [1].

Недостатками данного способа являются:

не позволяет классифицировать формализованные текстовые документы по меткам конфиденциальности;