Способ автоматической классификации электронных документов в системе электронного документооборота с автоматическим формированием реквизита резолюции руководителя

Авторы патента:

Акинфиев Данил Викторович (RU)

Королев Игорь Дмитриевич (RU)

Кисленко Илья Анатольевич (RU)

Волков Игорь Константинович (RU)

Поддубный Максим Игоревич (RU)

Мезенцев Александр Сергеевич (RU)

Минаев Владимир Александрович (RU)

G06F17/20 - манипулирование данными, представленными на естественном языке (анализ или синтез речи G10L)

G06F16/00 - Обработка цифровых данных с помощью электрических устройств (вычислительные машины, в которых часть вычислений осуществляется гидравлическими или пневматическими устройствами G06D; оптическими средствами G06E; автономные внешние вводные и выводные устройства G06K; компьютерные системы, основанные на специфических вычислительных моделях G06N; цепи полного /активного и реактивного/ сопротивления H03H)

Владельцы патента RU 2692972:

Федеральное государственное казенное военное образовательное учреждение высшего образования "Краснодарское высшее военное училище имени генерала армии С.М. Штеменко" Министерство обороны Российской Федерации (RU)

Изобретение относится к системам классификации документов. Техническим результатом является автоматизация классификации формализованных документов в системе электронного документооборота по областям компетенции должностных лиц, формирования на основе классификации реквизита «резолюция» каждого документа. Способ заключается в выделении и анализе формальной части поступившего документа, осуществлении преобразования информативной части документа в текст на естественном языке, преобразования слов преобразованного документа в базовые словоформы, отбрасывании незначимых слов, осуществлении подсчета весов слов в документе в соответствии с частотами их появления и формировании признаков документа. На этапе обучения формируют системы предикатов идентификации признаков текста поступившего документа и сохраняют их в базе данных. При классификации документа на основании полученных классификационных признаков с помощью базы данных принимают решение об относимости документа к компетенции должностного лица, определяют соответствующую ему метку конфиденциальности и поручения по нему, формируя реквизит «резолюция». 1 ил.

Изобретение относится к системам классификации и аннотирования документов и может использоваться в системах электронного документооборота, базах данных, автоматизированных системах, где существует необходимость классификации формализованных электронных документов по степеням конфиденциальности, содержащейся в них информации и областям информационной ответственности должностных лиц с учетом уровня их допуска к указанной информации, а также необходимость автоматического формирования проекта поручений руководителя указанным должностным лицам по результатам аннотирования информативной части каждого документа.

Уровень техники

а) Описание аналогов

Известен аналог - способ мультиклассовой классификации (Schapire R.E., Singer Y. "BoosTexter: A boosting-based system for text categorization". MachineLearning 39, 2/3, 2000, pp. 135-168), заключающийся в том, что осуществляют преобразование документа из формата хранения в текст на естественном языке, преобразуют слова документа в базовые словоформы, отбрасывают незначимые слова, осуществляют подсчет весов слов в документе в соответствии с частотами их появления и тем самым формируют вектор признаков документа; на этапе обучения по предъявленному набору классифицированных вручную документов формируют набор классификационных признаков, сохраняют классификационные признаки в базе данных; при классификации документа осуществляют преобразование его из формата хранения в текст на естественном языке, преобразуют слова документа в базовые словоформы, отбрасывают незначимые слова, осуществляют подсчет весов слов в документе и формируют вектор признаков документа, после чего принимают решение о принадлежности либо не принадлежности документа каждой информационной области [1].

Недостатками данного способа являются:

не позволяет классифицировать документы по степени конфиденциальности;

не позволяет формировать по результатам классификации отдельные реквизиты электронного формализованного документа (например, реквизит «резолюция»).

Известен также аналог - способ автоматической классификации документов (Пат. 6327581 Соединенные Штаты Америки, МПК G06F 015/18. Methods and apparatus for building a support vector machine classifier), заключающийся в том, что осуществляют преобразование документа из формата хранения в текст на естественном языке, преобразуют слова документа в базовые словоформы, отбрасывают незначимые слова, осуществляют подсчет весов слов в документе в соответствии с частотами их появления; на этапе обучения по предъявленному набору классифицированных вручную документов формируют набор классификационных признаков; при классификации документа осуществляют преобразование его из формата хранения в текст на естественном языке, преобразуют слова документа в базовые словоформы, отбрасывают незначимые слова, осуществляют подсчет весов слов в документе, на основе классификационного критерия SVM (SupportVectorMachines) и классификационных признаков определяют принадлежность документа к информационной области [2].

Недостатками данного способа являются:

не позволяет классифицировать документы по степени конфиденциальности;

Также известен аналог - способ автоматической классификации документов (Пат. 2254610 Российская Федерация, МПК G06F 17/30. Способ автоматической классификации документов / Аграновский А.В., Арутюнян Р.Э., Хади Р.А., Телеснин Б.А.), заключающийся в том, что осуществляют преобразование документа из формата хранения в текст на естественном языке, преобразуют слова преобразованного документа в базовые словоформы, отбрасывают незначимые слова, осуществляют подсчет весов слов в упомянутом документе в соответствии с частотами их появления и тем самым формируют вектор признаков документа; на этапе обучения по предъявленному набору классифицированных вручную документов формируют набор классификационных признаков, сохраняют классификационные признаки в базе данных; при классификации документа осуществляют преобразование его из формата хранения в текст на естественном языке, преобразуют слова документа в базовые словоформы, отбрасывают незначимые слова, осуществляют подсчет весов слов в документе и формируют вектор признаков документа, после чего принимают решение о принадлежности либо не принадлежности документа каждой из категорий [3].

Недостатками данного способа являются:

не позволяет классифицировать документы по степени конфиденциальности;

б) Описание ближайшего аналога (прототипа)

Наиболее близким по технической сущности к предлагаемому является способ автоматической классификации конфиденциальных формализованных документов в системе электронного документооборота (Пат. 2647640 Российская Федерация, МПК G06F 17/30, G06F 17/21. Способ автоматической классификации конфиденциальных формализованных документов в системе электронного документооборота [Текст] / Поддубный М.И., Королев И.Д., Носенко С.В.), заключающийся в том, что определяют области формализованного документа для извлечения метаданных и информативной части, осуществляют преобразование документа из формата хранения в текст на естественном языке, преобразуют слова преобразованного документа в базовые словоформы, отбрасывают незначимые слова, осуществляют подсчет весов слов в документе в соответствии с частотами их появления и тем самым формируют признаки документа; на этапе обучения по набору классифицированных вручную документов формируют набор классификационных признаков, сохраняют классификационные признаки в базе данных; при классификации документа на основании полученных классификационных признаков с помощью базы данных принимают решение об относимости документа к каждой из информационных областей и к каждой из меток конфиденциальности, заданных в информационной системе, на этапе определения принадлежности документа к каждой информационной области и метке конфиденциальности используют априорную информацию о зависимостях категорий друг от друга [4].

Недостатком данного способа является:

Раскрытие сущности изобретения

Целью настоящего изобретения является повышение оперативности электронного документооборота за счет сокращения времени рассмотрения руководителем поступивших электронных документов и составления резолюции подчиненным должностным лицам по их исполнению. Техническим результатом является автоматизация классификации формализованных документов в системе электронного документооборота по областям компетенции должностных лиц (исполнителей), аннотирования указанных документов и формирования на основе классификации и аннотирования реквизита «резолюция» каждого документа.

Для достижения указанного технического результата предложен способ автоматической классификации электронных документов в системе электронного документооборота с автоматическим формированием реквизита резолюции руководителя, заключающийся в том, что определяют области формализованного документа для извлечения метаданных и информативной части, осуществляют преобразование документа из формата хранения в текст на естественном языке, преобразуют слова преобразованного документа в базовые словоформы, отбрасывают незначимые слова, осуществляют подсчет весов слов в документе в соответствии с частотами их появления и формируют набор классификационных признаков; на этапе обучения по набору классифицированных вручную документов формируют систему предикатов определения области информационной ответственности; формируют систему предикатов идентификации метки конфиденциальности документа; сохраняют указанные системы предикатов в базе данных; при классификации документов на основании полученного набора классификационных признаков с помощью базы данных принимают решение об относимости документа каждой из информационных областей и каждой из меток конфиденциальности, отличающийся тем, что на основе распознанных реквизитов и значений ключевых слов этих реквизитов определяют конкретный вид электронного документа; при преобразовании слов документа в базовые словоформы выделяют и оставляют без изменений отдельные слова и словосочетания, соответствующие временным интервалам выполнения определяемой документом деятельности, формируя тем самым вектор данных о сроках исполнения документа; на основе определенных областей информационной ответственности, а также априорных сведений о структуре организации (учреждения), в том числе об отношениях подчиненности между должностными лицами организации (учреждения) и уровнях их допуска к различным степеням конфиденциальности документов, формируют первый набор классификационных признаков; на основе определенных вида документа, областей информационной ответственности, к которым он относится, при помощи предикатов узнавания ключевых слов и отдельных реквизитов формальной части формируют второй набор классификационных признаков; на этапе обучения по набору документов, для которых вручную заполнен реквизит «резолюция», формируют систему предикатов идентификации исполнителя поручения по поступившему документу и систему предикатов идентификации поручения, сохраняют системы предикатов в базу данных; при классификации подставляют первый набор классификационных признаков в систему предикатов идентификации исполнителя поручения и по предикатам, принявшим значение «истина» принимают решение об отнесении документа к компетенции конкретных сотрудников, подчиненных руководителю; подставляют второй набор классификационных признаков в систему предикатов идентификации поручения и по предикатам, принявшим значение «истина» принимают решение о назначении исполнителям конкретных поручений по исполнению поступившего документа; объединяют полученные данные об исполнителе, поручении и сроке исполнения, а также полученные любым способом данные о дате рассмотрения документа, в кортеж данных и присваивают его реквизиту документа «резолюция».

Краткое описание чертежей

На фигуре представлена блок-схема вычислительного устройства для реализации способа. Устройство для реализации способа состоит из блоков:

ввода формализованных электронных документов 1, анализа характеристик текста 2, распознавания реквизитов документа 3, распознавания вида документа 4, выделения метаданных 5, определения базовых словоформ 6, создания рабочего словаря 7, определения весов словоформ текста документа 8, распознавания области информационной ответственности 9, учета документа по метаданным 10, обучения 11, распознавания метки конфиденциальности документа 12, адресации документа 13, формирования проекта резолюции руководителя 14 и загрузки документа в систему 15.

Осуществление изобретения

При поступлении документа выделяют характеристики одинаковых участков текста Z - реквизитов. При этом, априорно известно, что количество реквизитов формализованного документа ограничено [5]. Каждый реквизит представим конечным предикатом P_Z(T, L), где Т - конечное множество характеристик текста t, L={l_q} - множество ключевых слов l реквизита, где q' - количество всех используемых ключевых слов. Для написания правил построения предикатов используем математический аппарат теории алгебры конечных предикатов [6].

Правило построения предиката узнавания реквизита формализованного документа, выразится следующей формулой [7]:

где - предикат узнавания значения а h-той переменной текста;

h' - количество переменных текста,

a' - величина алфавита h-той переменной текста;

- предикат узнавания значения b ключевого слова q соответствующего i-той зоне.

Вид документа определяется при помощи конечного предиката P_V(Z, L), где V={ν_j}, где - множество видов документов, j' - количество всех используемых видов документов, Z - множество реквизитов документа, n - количество всех реквизитов документов. Правило построения предиката узнавания вида документа выразится следующей формулой:

где z_i - предикат узнавания i-того реквизита для j-того вида документа;

- предикат узнавания уникального значения γ ключевого слова q i-того реквизита j-того вида документа.

С использованием правил (1, 2) создаются системы предикатов идентификации формуляров (расположения и значений реквизитов) и видов поступающих документов. Формуляр документа однозначно задает места расположения реквизитов документа, что позволяет классифицировать документы по виду и степени ограничения доступа.

Затем информативную часть документа (далее - текст) преобразуют из формата хранения в текст на естественном языке, преобразуют слова документа в базовые словоформы, отбрасывают незначимые слова, осуществляют подсчет весов слов в тексте в соответствии с частотами их появления и тем самым формируют предикаты идентификации признаков текста.

Вес словоформы w_p в тексте документа d_y, рассчитывается по формуле:

где - количество раз, которое w_p-я словоформа встречается в d_y-м тексте документа;

- общее количество словоформ в d_y-м тексте документа.

Классифицируемые документы могут быть представлены в различных форматах: текстовые файлы различных форматов, графические файлы с графическим представлением некоторого текста, звуковые файлы с записью речи и другие файлы, для которых существует механизм выделения из них текста, отражающего их содержание.

Каждый документ предварительно проходит стадию первичной обработки, на которой производится определение формата документа и установление того, возможно ли извлечение текста из документа данного формата. В случае положительного решения производится извлечение текста из документа. После разбиения текста на слова происходит определение для каждого слова его базовой словоформы по одному из способов [8-11]. Для документов на естественном языке славянской группы предпочтительными являются алгоритмы лемматизации (процесса приведения слова к его нормальной форме (лемме), допустимо применение алгоритмов усечения окончаний, стохастических и статистических алгоритмов; для документов на естественном языке западногерманской группы - алгоритмов усечения окончаний, например, стеммер Портера (использование специальных правил отсечения и замены окончаний слов).

Правило построения предиката Р_U(W) узнавания информационной области U={u_β}, где β' - количество областей информационной ответственности, выражается следующей формулой [12]:

где W={w_p} - множество значимых слов текстов, где

р' - количество значимых слов текстов;

- предикат узнавания значения веса ƒ значимого слова w_p, в тексте документа d_y u_β-той информационной области по g-тому значению веса слова.

Правило построения предиката P_M(U, Z) узнавания метки конфиденциальности документа М={m_λ}, где λ' - количество определенных в системе меток конфиденциальности выразится следующей формулой [12]:

где - предикат узнавания k-го значения r-ого реквизита;

m_o - метка конфиденциальности документа d_y, при этом m_o ∈ М; u_β - предикат узнавания β-ой области, где β' - количество информационных областей системы.

После определения метки конфиденциальности документа переходят к формированию проекта резолюции руководителя организации. Реквизит «резолюция», исходя из его определения [5], представим в виде кортежа данных:

где μ_ϕ - наименование должности, либо фамилии и инициалов ϕ-го должностного лица организации (учреждения), ϕ' - количество должностных лиц, непосредственно подчиненных руководителю и являющихся исполнителями его поручений по поступающим электронным документам;

- χ-oe поручение руководителя ϕ-му должностному лицу;

- срок исполнения χ-ого поручения руководителя ϕ-му должностному лицу и соответствующий ему атомарный предикат узнавания дат и сроков в информативной части документа;

- подпись руководителя.

Правило построения предиката P_μ(U, M) узнавания должностного лица организации (учреждения), компетентного в β-ой области информационной ответственности u_β, имеющего соответствующий степени ограничения λ допуск и являющегося исполнителем формируемого поручения руководителя (далее - исполнитель) по поступившему электронному документу d_yвыразится следующим образом:

где - предикат узнавания значения λ метки конфиденциальности m_oпоступившего документа d_y, λ' - общее количество меток конфиденциальности в системе.

Правило построения предиката выбора поручения из списка готовых поручений, будет иметь вид:

Согласно предлагаемому способу каждый документ d_y представляется декартовым произведением переменных из множеств Т×L×W, где для инициализации классификатора и построения классификационных признаков служит этап обучения классификатора. При этом должно быть задано множество обучающих документов, заранее вручную классифицированных по областям информационной ответственности и меткам конфиденциальности, а также содержащих непустой реквизит «резолюция». После извлечения из них текстового содержания происходит построение словаря значимых слов. Словарь содержит базовые словоформы всех слов, встречающихся в обучающих документах.

При классификации документа в расчет берутся не все словоформы из словаря документов, а лишь те из них, которые входят в рабочий словарь классификатора. В рабочий словарь классификатора включаются наиболее информативные словоформы с точки зрения определения принадлежности документа данной области (метке). Информативность словоформы w_p для классификатора по информационной области u_β определяется по следующей формуле [13]:

В рабочий словарь классификатора включаются все словоформы, не попавшие в стоп-словарь, информативность которых превышает заданный порог информативности ε. Стоп-словарь состоит из словоформ, частоты встречаемости которых во множестве обучающих документов превышают заранее установленный порог δ. При этом могут отсекаться слова, не несущие смысловой нагрузки, такие как предлоги, союзы, вводные и общие слова и т.д. Значения коэффициента δ, согласно данному способу, устанавливаются в пределах от 0.05 до 0.7 и могут быть различны в зависимости от специфики и условий его использования.

В режиме обучения, по предъявленному набору классифицированных вручную текстов формируют систему предикатов идентификации признаков текста, где количество предикатов в системе предикатов определяется количеством областей информационной ответственности, на которые необходимо классифицировать документы. Сохраняют предикаты в базе данных.

В режиме обучения, по предъявленному набору классифицированных вручную конфиденциальных документов формируют системы предикатов идентификации их меток конфиденциальности. Количество предикатов в системе определяется количеством меток конфиденциальности, заданных в информационной системе. Сохраняют системы предикатов в базе данных.

В режиме обучения, по предъявленному набору документов, содержащих заполненный вручную реквизит «резолюция», формируют системы предикатов идентификации исполнителей и готовых поручений. Количество предикатов в системе идентификации исполнителей определяется количеством должностных лиц организации (учреждения), непосредственно подчиненных руководителю и являющихся исполнителями его поручений, а также их ближайших по иерархии управления подчиненных. Первоначальное количество предикатов идентификации готовых поручений определяется экспертным методом на основании априорных сведений о стиле руководителя. Сохраняют системы предикатов в базе данных.

В режиме классификации документов осуществляют преобразование документа из формата хранения в текст на естественном языке, затем - слов текста в базовые словоформы, отбрасывают незначимые слова, осуществляют подсчет весов слов в тексте, получившиеся значения подставляют в систему предикатов (3), находящуюся в базе данных. По предикатам, принявшим значение «истина», однозначно определяют области информационной ответственности, к которым относится документ. Используя извлеченные метаданные документа, полученные по (1), определяют соответствующую ему метку конфиденциальности, для чего указанные значения подставляют в систему предикатов, построенных по (4). По предикату, принявшему значение «истина», определяют метку конфиденциальности, после чего переходят к построению проекта реквизита «резолюция». Для этого, во-первых, определенные по (3) значения областей информационной ответственности и определенное по (4) значение метки конфиденциальности документа подставляют в систему предикатов, построенных по (5), и по предикатам, принявшим значение «истина», определяют исполнителя. Во-вторых, подставляя в систему предикатов, построенных по (6), значения определенных по (1) реквизитов документа, по (2) вида документа и по (3) области информационной ответственности, а также значения отдельных ключевых слов, по предикатам, принявшим значения «истина» определяют конкретные поручения. Дополняя полученные значения исполнителя и поручения определенными атомарными предикатами узнавания значениями сроков исполнения и определенной любым способом даты поступления документа, получают кортеж данных, который присваивается реквизиту «резолюция» поступившего документа.

Отметим, что данный способ предназначен для обработки машиночитаемых текстов на естественном языке.

Сопоставительный анализ заявляемого решения с прототипом показывает, что предлагаемый способ отличается формированием проекта резолюции руководителя с использованием правил (5) и (6), а также усовершенствованными правилами определения вида документа (2) и метки конфиденциальности (3).

Благодаря новой совокупности существенных признаков способ позволяет автоматизировать процесс рассмотрения руководителем поступающих в системе электронного документооборота формализованных документов и процесс формирования его резолюции подчиненным должностным лицам с учетом уровня их допуска к содержащейся в указанных документах информации (сведениям), когда число меток конфиденциальности (степеней ограничения доступа) не ограничено.

Анализ уровня техники позволил установить, что аналоги, характеризующиеся совокупностью признаков, тождественных признакам заявленного технического решения, отсутствуют, что указывает на соответствие заявленного способа условию патентоспособности «новизна».

Результаты поиска известных решений в данной и смежных областях техники с целью выявления признаков, совпадающих с отличительными от прототипа признаками заявленного объекта, показали, что они не следуют явным образом из уровня техники. Из уровня техники также не выявлена известность отличительных существенных признаков, обуславливающих тот же технический результат, который достигнут в заявленном способе. Следовательно, заявленное изобретение соответствует условию патентоспособности «изобретательский уровень».

Автоматическая классификация электронных документов в системе электронного документооборота с автоматическим формированием реквизита резолюции руководителя осуществляется следующим образом:

1. В режиме классификации.

При появлении в блоке ввода 1 нового формализованного электронного документа он поступает в блок 2, который выявляет значения характеристик текста t участков документа и ключевых слов l в них. Значения t и l участков документа поступают в блок 3, где с помощью системы предикатов, построенных по правилу (1) распознаются реквизиты документа. Информация о распознанных реквизитах документа поступает в блок 4, где система предикатов, построенная по правилу (2) осуществляет распознавание вида документа.

В блоке 5 из поступившего от блока 2 документа, используя сведения об определенном в блоке 4 виде документа, который, обладая установленным требованиями нормативных документов формуляром, задает места расположения и значения реквизитов документа, выделяют требуемые значения реквизитов, которые используются как метаданные документа. Из блока 5 документ и соответствующие ему метаданные поступают в блок 10, где документ учитывается по своим метаданным и организуется хранение его эталонной копии. Определенная в блоке 5 информативная часть документа поступает в блок 6, где слова преобразуются в словоформы, и поступают далее в блок 7, где в процессе работы системы происходит создание рабочего словаря из значимых слов.

Полученные в блоке 6 словоформы поступают также в блок 8, где производится расчет весов словоформ информативной части документа, попавших в рабочий словарь. Из блока 8 значения весов полученных словоформ поступают в блок 9, где происходит распознавание информационной области u_β путем вычисления значений предикатов системы предикатов, построенной по правилу (3).

В блоке 12 на основе поступивших из блока 10 реквизитов документа и полученных в блоке 9 областей информационной ответственности на основе системы предикатов, построенной по правилу (4), определяют соответствующую классифицируемому документу метку конфиденциальности.

В блоке 14 на основе поступивших из блоков 9 и 12 данных при помощи системы предикатов, построенных по правилу (5), определяют исполнителя поступившего документа, сохраняют его для дальнейшей обработки, а также передают его в блок 13 для выбора адресата. В блоке 14 на основе данных, поступивших из блоков 3, 4, 8 и 9 (значений реквизитов и вида документа, области информационной ответственности, а также значений отдельных ключевых слов), при помощи системы предикатов, построенных по правилу (6), определяют поручение исполнителю. В блоке 14 информативная часть документа проходит обработку с применением атомарных предикатов узнавания сроков исполнения. Все полученные данные объединяются в кортеж и передаются в блок 10, где присваиваются реквизиту «резолюция».

Из блока 10 документ и метаданные поступает в блок 13. В блоке 13 на основе значений, поступивших из блоков 10, 12 и 14, формируют соответствующее метке конфиденциальности ограничение доступа к классифицируемому документу и направляют исполнителю.

Далее через блок 15 происходит загрузка документа в информационную систему в соответствии с определенными классами.

2. В режиме обучения.

Режим обучения системой используется в следующих случаях:

в случае невозможности распознавания системой предикатов реквизитов документа в блоке 3 по значениям переменных документа t и l. В этом случае оператором системы через блок 11 вносятся изменения в систему предикатов блока 3 или определяется реквизит документа «вручную»;

в случае невозможности распознавания системой предикатов вида документа в блоке 4 по значениям предикатов системы предикатов блока 3. В этом случае оператором системы через блок 11 вносятся изменения в систему предикатов блока 4 или определяется вид документа «вручную»;

в случае невозможности распознавания системой предикатов информационной области в блоке 9 по значениям весов значимых слов из рабочего словаря, извлеченных из информативной части документа. В этом случае оператором системы через блок 11 вносятся изменения в систему предикатов блока 9 или определяется информационная область документа «вручную»;

в случае невозможности распознавания системой предикатов метки конфиденциальности документа в блоке 12 по значениям предикатов системы предикатов блока 9 и метаданным блока 10. В этом случае оператором системы через блок 11 вносятся изменения в систему предикатов блока 12 или определяется метка конфиденциальности «вручную»;

в случае внесения в проект резолюции изменений, в части, касающейся поручений, выбранных из списка готовых поручений, через блок 11 осуществляется автоматическое добавление скорректированных поручений в указанный список.

Таким образом, способ позволяет классифицировать формализованные электронные документы по областям информационной ответственности должностных лиц организации (учреждения) с учетом уровня их допуска к содержащейся в этих документах информации, а также формировать проект поручений руководителя указанным должностным лицам по результатам автоматического аннотирования информативной части каждого документа, чем достигается заявленный технический результат.

Источники информации:

1. Schapire R.E., Singer Y. "BoosTexter: A boosting-based system for text categorization". MachineLearning 39, 2/3, 2000, pp. 135-168.

2. Пат. 6327581 Соединенные Штаты Америки, МПК G06F 015/18. Methods and apparatus for building a support vector machine classifier [Текст] / CarltonJ.; заявитель и патентообладатель Microsoft Corporation. - №09/055477; заявл. 06.04.98; опубл. 04.12.01.

3. Пат. 2254610 Российская Федерация, МПК G06F 17/30. Способ автоматической классификации документов [Текст] / Аграновский А.В., Арутюнян Р.Э., Хади Р.А., Телеснин Б.А.; заявитель и патентообладатель Государственное научное учреждение научно-исследовательский институт "СПЕЦВУЗАВТОМАТИКА''. - №2003126907/09; заявл. 04.09.03; опубл. 20.06.05.

4. Пат. 2647640 Российская Федерация, МПК G06F 17/30, G06F 17/21. Способ автоматической классификации конфиденциальных формализованных документов в системе электронного документооборота [Текст] / Поддубный М.И., Королев И.Д., Носенко С.В.; заявитель и патентообладатель Федеральное государственное казенное военное образовательное учреждение высшего профессионального образования «Краснодарское высшее военное училище имени генерала армии С.М. Штеменко» Министерства обороны Российской Федерации - №2015152418; заявл. 07.12.2015; опубл. 13.06.2017 Бюл. №17.

5. ГОСТ Р 7.0.97-2016. Национальный стандарт Российской Федерации. Система стандартов по информации, библиотечному и издательскому делу. Организационно-распорядительная документация. Требования к оформлению документов: утв. и введ. в действие приказом Федерального агенства по техническому регулированию и метрологии от 8.12.2016 №2004 - ст. -М.: Стандартинформ, 2017 г. - 23 с.

6. Бондаренко М.Ф., Шабанов-Кушнаренко Ю.П.. Об алгебре конечных предикатов. [Текст]// Научно-технический журнал «Бионика интеллекта». ХНУРЭ, г. Харьков, Украина - 2011 №3(77).

7. Королев И.Д. Подходы к оперативной идентификации формализованных электронных документов в автоматизированных делопроизводствах / И.Д. Королев, С.В. Носенко // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КубГАУ) [Электронный ресурс]. - Краснодар: КубГАУ, 2013. - №08(092). - IDA [article ID]: 0921308074. - Режим доступа: http://ej.kubagro.ru/2013/08/pdf/74.pdf, 0,875 у.п.л

8. Porter M.F. "An algorithm for suffix stripping", Program, Vol. 14, No. 3, 1980, pp. 130-137.

9. Пат. 2096825 Российская Федерация, МПК G06F 17/00, G06F 17/30. Устройство обработки информации для информационного поиска [Текст] / Ковалев М.В., Виргунов И.В., Наймушин И.А., Четверов В.В; заявитель и патентообладатель Общество с ограниченной ответственностью "Информбюро". - №96119820/09; заявл. 14.10.96; опубл. 20.11.97, Бюл. №14.

10. Пат. 6308149 Соединенные Штаты Америки, МПК G06F 17/27.Grouping words with equivalent substrings by automatic clustering based on suffix relationships [Текст] / Gaussier E., Grefenstette G., Chanod J.-P.; заявитель и патентообладатель Xerox Corporation. - №09/213309; заявл. 16.12.98; опубл. 23.10.01.

11. Пат. 6430557 Соединенные Штаты Америки, МПК G06F 017/30; G06F 017/27; G06F 017/21. Identifying a group of words using modified query words obtained from successive suffix relationships [Текст] / Gaussier E., Grefenstette G., Chanod J.-P.; заявитель и патентообладатель Xerox Corporation. - №09/212662; заявл. 16.12.98; опубл. 06.08.02.

12. Способ автоматической классификации конфиденциальных формализованных документов в системе электронного документооборота / Д.В. Малышев, И.Н. Шайков, М.И. Поддубный, И.Д. Королев // Телекоммуникации.: ежемес. произв., информ.-аналит. и учеб.-метод. ж-л, г. Москва: МГТУ им. Баумана, 2016 №8. - С. 18-22.

13. Craven М., DiPasquo D., Freitag D. et al. "Learning to construct knowledge bases from the World Wide Web", Artificial Intelligence, Vol. 118(1-2), 2000, pp. 69-113.

Способ автоматической классификации электронных документов в системе электронного документооборота с автоматическим формированием реквизита резолюции руководителя, заключающийся в том, что определяют области формализованного документа для извлечения метаданных и информативной части, осуществляют преобразование документа из формата хранения в текст на естественном языке, преобразуют слова преобразованного документа в базовые словоформы, отбрасывают незначимые слова, осуществляют подсчет весов слов в документе в соответствии с частотами их появления и формируют набор классификационных признаков; на этапе обучения по набору классифицированных вручную документов формируют систему предикатов определения области информационной ответственности; формируют систему предикатов идентификации метки конфиденциальности документа; сохраняют указанные системы предикатов в базе данных; при классификации документов на основании полученного набора классификационных признаков с помощью базы данных принимают решение об относимости документа каждой из информационных областей и каждой из меток конфиденциальности, отличающийся тем, что на основе распознанных реквизитов и значений ключевых слов этих реквизитов определяют конкретный вид электронного документа; при преобразовании слов документа в базовые словоформы выделяют и оставляют без изменений отдельные слова и словосочетания, соответствующие временным интервалам выполнения определяемой документом деятельности, формируя тем самым вектор данных о сроках исполнения документа; на основе определенных областей информационной ответственности, а также априорных сведений о структуре организации (учреждения), в том числе об отношениях подчиненности между должностными лицами организации (учреждения) и уровнях их допуска к различным степеням конфиденциальности документов, формируют первый набор классификационных признаков; на основе определенных вида документа, областей информационной ответственности, к которым он относится, при помощи предикатов узнавания ключевых слов и отдельных реквизитов формальной части формируют второй набор классификационных признаков; на этапе обучения по набору документов, для которых вручную заполнен реквизит «резолюция», формируют систему предикатов идентификации исполнителя поручения по поступившему документу и систему предикатов идентификации поручения, сохраняют системы предикатов в базу данных; при классификации подставляют первый набор классификационных признаков в систему предикатов идентификации исполнителя поручения и по предикатам, принявшим значение «истина», принимают решение об отнесении документа к компетенции конкретных сотрудников, подчиненных руководителю; подставляют второй набор классификационных признаков в систему предикатов идентификации поручения и по предикатам, принявшим значение «истина», принимают решение о назначении исполнителям конкретных поручений по исполнению поступившего документа; объединяют полученные данные об исполнителе, поручении и сроке исполнения, а также полученные любым способом данные о дате рассмотрения документа в кортеж данных и присваивают его реквизиту документа «резолюция».

Изобретение относится к вычислительной технике. Технический результат – повышение точности определения наличия у пользователя интереса к словам, отсутствующим в диалоговой информации пользователя.

Способ преобразования структурированного массива данных, содержащего основные лингво-логические объекты // 2691836

Изобретение относится к области обработки структурированных массивов данных (СМД), содержащих текст на естественном языке. Техническим результатом является повышение точности поиска в структурированном массиве данных.

Способ и система для выстраивания диалога с пользователем в удобном для пользователя канале // 2688758

Изобретение относится к вычислительной технике. Технический результат – увеличение скорости обслуживания пользователя.

Поиск изображений на естественном языке // 2688271

Изобретение относится к средствам поиска изображений на естественном языке. Достигаемый технический результат заключается в расширении арсенала средств для действенного и эффективного поиска на естественном языке в коллекциях изображений.

Извлечение информационных объектов с помощью комбинации классификаторов // 2679988

Изобретение относится к области вычислительной техники для обработки естественного языка. Технический результат заключается в повышении эффективности обработки естественного языка в части выявления информационных объектов и отношений между ними.

Устройство составления разметки и способ поддержки многоэкранной услуги // 2676890

Изобретение относится к области вычислительной техники. Технический результат заключается в предоставлении конфигурационной информации множеству цифровых устройств для обеспечения разделения экрана каждого цифрового устройства.

Способ разделения текстов и иллюстраций в изображениях документов с использованием дескриптора спектра документа и двухуровневой кластеризации // 2656708

Изобретение относится к области анализа и обработки изображений документов. Технический результат – повышение точности разделения текстов и иллюстраций в изображениях документов и минимизация ошибок такого разделения.

Создание вариаций при преобразовании данных в потребляемый контент // 2645276

Изобретение относится к способу генерирования вывода данных. Технический результат заключается в улучшении способа генерирования вывода данных.

Метод и система для генерации статей в словаре естественного языка // 2639280

Изобретение относится к области обработки текста на естественном языке. Технический результат направлен на повышение точности обработки текста на естественном языке.

Способ многоуровневого контроля целостности электронных документов // 2637482

Изобретение относится к области защиты информации в системах электронного документооборота. Технический результат заключается в обеспечении многоуровневого контроля целостности электронных документов.

Формирование и верификация защищенных документов // 2692572

Изобретение относится к области формирования и верификации защищенных документов. Технический результат заключается в расширении технических средств.

Способ и устройство для чтения сообщений // 2692570

Изобретение относится к области технологии электронных устройств. Технический результат заключается в расширении арсенала технических средств.

Система иммерсионного охлаждения серверного оборудования // 2692569

Изобретение относится к области вычислительной техники. Технический результат заключается в расширении арсенала технических средств.

Способ моделирования двусторонних воздействий при использовании конфликтующими системами управления общего технологического ресурса // 2692423

Изобретение относится к области моделирования двусторонних воздействий при использовании конфликтующими системами управления общего технологического ресурса. Техническим результатом изобретения является определение среднего времени деградации потенциала конфликтующих систем управления с заданной точностью и достоверностью.

Способ и система для синтеза речи из текста // 2692051

Изобретение относится к вычислительной технике. Технический результат – создание машинных высказываний без видимой для пользователя задержки.

Способ и сервер для преобразования значения категориального фактора в его числовое представление и для создания разделяющего значения категориального фактора // 2692048

Изобретение относится к области вычислительной техники. Техническим результатом является формирование алгоритма машинного обучения, использующего модель дерева решений и предназначенного для классификации объектов, обладающих значением категориального фактора, которое преобразуется в его числовое представление.

Способ и система для рекомендации свежих саджестов поисковых запросов в поисковой системе // 2692045

Изобретение относится к средствам для создания свежих саджестов запроса. Технический результат заключается в повышении точности и релевантности поиска.

Способ автоматической классификации формализованных текстовых документов и авторизованных пользователей системы электронного документооборота // 2692043

Изобретение относится к вычислительной технике. Технический результат – обеспечение автоматической классификации формализованных текстовых документов и авторизованных пользователей системы электронного документооборота по меткам конфиденциальности.

Способ защиты информации в облачных вычислениях с использованием гомоморфного шифрования // 2691874

Изобретение относится к области вычислительной техники. Техническим результатом является обеспечение защиты информации в облачных вычислениях.

Способ распараллеливания программ в среде логического программирования в вычислительной системе // 2691860

Изобретение относится к способу распараллеливания программ в среде логического программирования. Технический результат заключается в обеспечении распараллеливания задач (алгоритмов) логического программирования, которые не обладают списочным гомоморфизмом.