Способ формирования квазиструктурированных моделей фактографического информационного наполнения документов

Авторы патента:

G06F7/00 - Способы и устройства для обработки данных с воздействием на порядок их расположения или на содержание обрабатываемых данных (логические схемы H03K 19/00)

G06F17/00 - Устройства или методы цифровых вычислений или обработки данных, специально предназначенные для специфических функций

Владельцы патента RU 2517428:

Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования "Самарский государственный университет путей сообщения" (СамГУПС) (RU)

Изобретение относится к вычислительной технике и может быть использовано при создании баз данных. Техническим результатом является оптимизация процесса формирования квазиструктурированных моделей фактографического информационного наполнения документов. Способ формирования квазиструктурированных моделей фактографического информационного наполнения документов заключается в определении параметров эффекта и целевой функции. В качестве параметров эффекта выбирают валидацию модели, степень детализации модели, равномерность распределения структурных единиц по документу, насыщенность структурных единиц в документе, гибкость модели. В качестве целевой функции выбирают свертку параметров эффекта. Вычисляют значения всех параметров эффекта и целевой функции для каждого документа, затем вычисляют среднее значение целевой функции. Анализируют контент структурных единиц полученной модели с целью внесения изменений и вычисляют значения параметров эффекта и целевой функции для каждого документа, затем вычисляют среднее значение целевой функции. Сравнивают средние значения целевой функции. Если среднее значение целевой функции снизилось, то новая скорректированная модель оптимальна. 5 з.п. ф-лы, 1 ил.

Изобретение относится к вычислительной технике, конкретнее к способам формирования квазиструктурированных моделей фактографического информационного наполнения документов, и может быть использовано при создании баз данных.

Известен способ оценки систем с помощью параметров [Гмошинский, В.Г. Теоретические основы инженерного прогнозирования / В.Г.Гмошинский, Г.И.Флиорент. - М.: Наука, 1973. - 304 с.].

Недостатком данного способа является отсутствие адаптации для формирования квазиструктурированных моделей фактографического информационного наполнения документов, отсутствие рекомендации по сверткам параметров и виду целевой функции для моделей документов.

Наиболее близким к предлагаемому способу является способ формирования технических объектов с помощью параметров эффекта и сформированной целевой функции в виде их свертки [Руднев, В.Е. Формирование технических объектов на основе системного анализа / В.Е.Руднев, В.В.Володин, К.М.Лучанский, В.Б.Петров - М.: Машиностроение, 1991. - 320 с.].

Под параметром эффекта понимают параметр, обладающий физическим смыслом. Важнейшей особенностью параметров эффекта является то, что они устанавливаются через операцию - законченное действие, направленное на решение определенной задачи.

Недостатком известного способа также является отсутствие его адаптации к формированию квазиструктурированных моделей фактографического информационного наполнения документов и отсутствие определения вида целевой функции.

Техническим результатом предлагаемого способа является оптимизация процесса формирования квазиструктурированных моделей фактографического информационного наполнения документов.

Технический результат достигается тем, что в способе формирования квазиструктурированных моделей фактографического информационного наполнения документов, заключающемся в определении параметров эффекта и целевой функции, в качестве параметров эффекта выбирают валидацию модели, степень детализации модели, равномерность распределения структурных единиц модели по документу, насыщенность структурных единиц модели в документе, гибкость модели, а в качестве целевой функции выбирают свертку параметров эффекта, причем валидацию модели определяют из соответствия модели стандарту на содержание и она равна единице, степень детализации модели определяют из отношения количества символов контента структурных единиц модели к общему количеству структурных единиц модели и она минимизирована, равномерность распределения структурных единиц модели по документу определяют из отношения количества символов фрагмента к количеству структурных единиц модели данного фрагмента и она минимизирована, насыщенность структурных единиц модели в документе определяют из отношения количества символов документа к количеству символов контента структурных единиц модели и она минимизирована, гибкость модели определяют из отношения общего количества структурных единиц модели без учета необязательных и повторяющихся структурных единиц модели к общему количеству структурных единиц модели и она стремится к нулю, а целевую функцию определяют из отношения суммы значений всех вышеперечисленных параметров эффекта к значению параметра валидации модели.

Валидацию модели выполняют успешно только при использовании обязательных структурных единиц в порядке следования, определенном его моделью, и при соответствии контента обязательных структурных единиц типам данных и шаблонам, которые заданы в модели в качестве как строковых, целочисленных, вещественных, так и бинарных, темпоральных и пользовательских типов данных.

В качестве шаблонов используют наборы правил, которые накладывают дополнительные ограничения на формат контента структурных единиц в дополнение к типу данных.

В качестве пользовательских типов данных используют набор структурных единиц, правил их использования в документе, а также их шаблоны и типы данных.

Математическая модель информационного наполнения документа с учетом спецификации Xml Schema Definition (XSD) записана следующим образом:

$S = 〈 r o o t, s O b j, L O b j, \min O c c u r s, \max O c c u r s, s M e t, O b j_s m e t 〉, (1)$

где root - корневой объект, root∈sObj; sObj - конечное множество объектов, каждый из которых содержит фрагмент информационного наполнения документа (текст, рисунок и т.д.) или выполняет роль контейнера для одного или нескольких объектов. Для объектов-контейнеров доступны следующие метасвойства: smet_c - определяет объект в качестве контейнера; mixed - разрешает использование объектов-потомков в произвольном порядке; kol_o - количество объектов модели; LObj - отображение, определенное на множестве sObj, такое что $s O b j \overset{L O b j}{\to} {o b j_{1}, \dots, o b j_{n}}$ , где obj_i - дочерний объект, obj_i∈sObj; i=1, …, n, n - число дочерних объектов; minOccurs - функция, определяющая минимально возможное число раз использования объекта в модели; maxOccurs - функция, определяющая максимально возможное число раз использования объекта в модели; sMet - конечное множество метасвойств ограничений на содержимое объекта; Obj_smet - отображение, определенное на множестве sObj, такое что $s O b j \overset{O b j_s m e t}{\to} {s m e t_{c} | s m e t_{c}, m i x e d | s m e t_{1}, \dots, s m e t_{k}}$ , где smet_j - метасвойство ограничения на содержимое объекта, smet_j∈sMet, j=1, …, kol_m, kol_m - количество доступных метасвойств модели.

На фиг.1 представлен графический вид электронного документа по предлагаемому способу.

Документ состоит из пяти объектов. Объект А выполняет роль контейнера для объектов В и С, объект В выполняет роль контейнера для объектов D и Е. Объекты А, В, D обязательно должны быть использованы при разработке документа, объект С является необязательным к использованию, объект Е в рассматриваемом примере должен быть использован от трех до пяти раз. Объекту-контейнеру А соответствует метасвойство ограничения smet_c, а для объекта-контейнера В определено дополнительно метасвойство mixed. Объект С представлен числовым наполнением, т.е. ему соответствует метасвойство ограничения smet₂. Объекты D, Е - имеют символьное информационное наполнение, которому соответствует метасвойство ограничения smet₁.

Модель документа имеет вид:

root={A}; sObj=[A,B,C,D,E}; LObj(A)={B,C}, LObj(B)={D,E|E,D], LObj(C)={}, LObj(D)={}, LObj(E}={};

Obj_smet(A)={smet_c}, Obj_smet(B)=[smet_c,mixed}, Obj_smet(C)={smet₂}, Obj_smet(D)={smet₁}, Obj_smet(E)={smet₁};

minOccurs(A)=1, maxOccurs(A)=1; minOccurs(B)=1, maxOccurs(B)=1;

minOccurs(c)=0, maxOccurs(C)=1; minOccurs(D)=1, maxOccurs(D)=1;

mmOccurs(E)=3, maxOccurs(E)=5.

Для оценки качества квазиструктурированных моделей используют пять параметров эффекта.

Параметр эффекта в виде валидации документа характеризует соответствие модели стандарту на содержание рассматриваемых документов.

$P_{1} = \prod_{k = 1}^{k o l_o} O o b j (O b j_{k}) = 1, (2)$

где Oobj - функция, возвращающая единицу для обязательных к использованию объектов в документе, удовлетворяющих условию: minOccurs(Obj_k)=1, где Obj_k∈sObj, если они корректно использованы в документе, в противном случае функция возвращает ноль. Данный параметр эффекта должен быть равен единице, так как использование обязательных структурных единиц модели является условием применения модели документа.

Параметр эффекта в виде степени детализации, т.е. размера контента использованных в документе объектов (структурных единиц) модели должен быть минимизирован, так как при работе с объектами всегда проще укрупнять, чем детализировать информационное наполнение документа.

$P_{2} = \frac{\sum L e n (O b j_{l})}{C o b j (s O b j)} \to \min, O b j_{l} \in s O b j и O b j_s m e t (O b j_{l}) \cap {s m e t_{c}} = \emptyset, (3)$

l=1, …, kol_o,

где Len - функция, возвращающая число символов в контенте для указанного объекта; Cobj - функция, возвращающая число объектов множества, удовлетворяющих условию Obj_smet(Obj_m)∩{smet_c}=⌀, m=1, …, kol_o.

Параметр эффекта в виде плотности использования объектов модели, т.е. уровня проработки модели документа, характеризует равномерность распределения объектов (структурных единиц) модели по документу.

$P_{3} = \sqrt{\prod_{f r = 1}^{f r} P c_{z}} \to \min, P c_{f r} = \frac{p_c h a r_c o u n t (f r)}{p_o b j_c o u n t (f r)}, (4)$

где Pc_fr - плотность объектов модели на фрагменте документа (фрагмент равен странице документа или абзацу, т.е. документ состоит mfr (фрагментов);

p_char_count - функция, возвращающая число символов в заданном фрагменте; p_obj_count - функция, возвращающая число объектов Obj_o таких, что Obj_smet(Obj_o)∩{smet_c}=⌀, O=1, …, kol_o целиком размещенных в заданном фрагменте. Рассматриваемый параметр должен быть минимизирован.

Параметр эффекта в виде насыщенности объектов (структурных единиц) модели в документе, т.е. характеризует качество описания информационного наполнения документа.

$P_{4} = \frac{c h a r_c o u n t}{\sum L e n (O b j_{p})} \to \min, O b j_s m e t (O b j_{p}) \cap {s m e t_{c}} = \emptyset, p = 1, \dots k o l_o (5)$

где char_count - функция, возвращающая количество символов в документе. Параметр P₄ должен быть минимизирован, так как необходимо сократить неописываемое информационное наполнение в документе.

Параметр эффекта в виде гибкости модели, которая позволяет эффективнее описать квазиструктурированное информационное наполнение документа, следовательно, данный параметр эффекта должен быть минимизирован.

$P_{5} = \frac{A o b j (s O b j) - (U o b j (s O b j) + R o b j (s O b j))}{A o b j (s O b j)} \to 0, (6)$

где Aobj - функция, возвращающая число объектов без учета корневого элемента root, Uobj - функция, возвращающая число объектов множества, удовлетворяющих условиям: minOccurs(Obj_r}=0; maxOccurs{Obj_r)=>1, r=1, …, kol_o; Robj - функция, возвращающая число объектов множества, удовлетворяющих условиям minOccurs(Obj_t)=1; maxOccurs(Obj_t)>1, t=1, …, kol_о.

Для окончательной оценки качества рассматриваемых моделей вводят целевую функцию в виде скалярной критериальной функции:

$R = \frac{\sum_{w = 2}^{5} P_{w}}{P_{1}} \to \min, (7)$

где P_w - значение w-го параметра анализируемой модели. Ее значение для лучшей из рассматриваемых моделей будет минимальным.

Когда модель не соответствует информационному наполнению документа и не выполняется ее валидация, целевая функция (7) будет неопределена, а следовательно, она не может быть использована для описания фактографического информационного наполнения.

Квазиструктурированную модель фактографического информационного наполнения может быть сформирована следующим образом.

Разработку модели для определенного вида документов начинают с поиска ГОСТов и нормативно-технических документов, описывающих требования к контенту документов данного вида.

Если требования к содержимому документов определены в ГОСТах или нормативно-технических документах, то их учитывают при создании модели, в противном случает данные требования формируют на основе анализа содержимого документов данного вида.

Полученные требования организуют в виде модели фактографического информационного наполнения документа, таким образом, чтобы полученная модель была валидной для всех документов данного вида.

Вычисляют значения всех обозначенных выше параметров эффекта и целевой функции для каждого документа, затем вычисляют среднее значение целевой функции.

Проводят анализ контента структурных единиц полученной модели с целью внесения изменений в структуру модели для уменьшения значений параметров эффекта за исключением параметра валидации.

После учета изменений для новой модели выполняют вычисление значений параметров эффекта и целевой функции для каждого документа, затем вычисляют среднее значение целевой функции.

Выполняют сравнение средних значений целевой функции для первоначальной модели и для скорректированной. Если внесение изменений привело к снижению среднего значения целевой функции, то новая скорректированная модель оптимальна с точки зрения эффективности описания фактографического контента информационного наполнения для данного вида документов.

Рассмотренный алгоритм выполняют до тех пор, пока внесение корректировок в модель снижает среднее значение целевой функции для данного вида документов. Алгоритм соответствует методу векторной оптимизации на дискретном множестве.

Использование данного способа для формирования квазиструктурированных моделей фактографического информационного наполнения документов обеспечивает повышение эффективности описания контента на 30% и более в зависимости от вида документов.

1. Способ формирования квазиструктурированных моделей фактографического информационного наполнения документов, заключающийся в построении первоначальной модели, определении параметров эффекта и целевой функции для каждого документа первоначальной модели, вычислении среднего значения целевой функции первоначальной модели, выполнении анализа контента структурных единиц полученной модели с внесением изменений в структуру первоначальной модели для уменьшения значений параметров эффекта за исключением параметра валидации, определении параметров эффекта и целевой функции для каждого документа скорректированной модели, вычислении среднего значения целевой функции скорректированной модели, сравнении средних значений целевой функции для первоначальной и скорректированной моделей в рамках хотя бы одной итерации, причем в качестве параметров эффекта выбирают валидацию модели, степень детализации модели, равномерность распределения структурных единиц модели по документу, насыщенность структурных единиц модели в документе, гибкость модели, а в качестве целевой функции выбирают свертку параметров эффекта, причем валидацию модели определяют из соответствия модели стандарту на содержание и она равна единице, степень детализации модели определяют из отношения количества символов контента структурных единиц модели к общему количеству структурных единиц модели и она минимизирована, равномерность распределения структурных единиц модели по документу определяют из отношения количества символов фрагмента к количеству структурных единиц модели данного фрагмента и она минимизирована, насыщенность структурных единиц модели в документе определяют из отношения количества символов документа к количеству символов контента структурных единиц модели и она минимизирована, гибкость модели определяют из отношения общего количества структурных единиц модели без учета необязательных и повторяющихся структурных единиц модели к общему количеству структурных единиц модели и она стремится к нулю, а целевую функцию определяют из отношения суммы значений всех вышеперечисленных параметров эффекта к значению параметра валидации модели.

2. Способ по п.1 отличающийся тем, что в первом параметре эффекта валидацию выполняют при использовании обязательных структурных единиц в порядке следования в модели.

3. Способ по п.1 отличающийся тем, что в первом параметре эффекта валидацию выполняют при соответствии контента обязательных структурных единиц типам данных и шаблонам, которые заданы в модели.

4. Способ по п.3 отличающийся тем, что в качестве типов данных используют строковые, целочисленные, вещественные, бинарные, темпоральные и пользовательские.

5. Способ по п.3 отличающийся тем, что в качестве шаблонов используют набор дополнительных ограничений на формат контента структурных единиц.

6. Способ по п.4 отличающийся тем, что в качестве пользовательских типов данных используют набор структурных единиц, правил их использования в документе, а также их шаблоны.

Группа изобретений относится к вычислительной технике и может быть использована при построении арифметических устройств и выполнения арифметических процедур суммирования позиционных аргументов аналоговых сигналов слагаемых с применением арифметических аксиом троичной системы счисления f(+1,0,-1).

Комбинационный сумматор // 2514785

Изобретение относится к вычислительной технике и может быть использовано в системах цифровой вычислительной техники как средство арифметической обработки дискретной информации.

Устройство деления и извлечения квадратного корня // 2510072

Изобретение относится к вычислительной технике и может быть использовано в цифровых вычислительных машинах в качестве арифметического блока. Техническим результатом является увеличение быстродействия, а также возможность реализации функции устройства для деления и устройства для извлечения квадратного корня в едином устройстве.

Способы выполнения элементарных вычислительных операций (эво) и устройство для его осуществления // 2505850

Изобретение относится к области цифровой вычислительной техники и устройствам цифровой автоматики. Техническим результатом является повышение быстродействия выполнения ЭВО при минимальных затратах оборудования.

Логический вычислитель // 2504826

Изобретение относится к вычислительной технике и может быть использовано в системах цифровой вычислительной техники как средство преобразования кодов. Техническим результатом является уменьшение аппаратурных затрат.

Программируемое логическое устройство // 2503993

Изобретение относится к вычислительной технике и может быть использовано для вычисления логических функций в отказоустойчивой аппаратуре. Техническим результатом является сокращение аппаратных затрат при реализации систем логических функций большого количества переменных.

Способ организации умножения чисел с плавающей запятой, представленных в системе остаточных классов // 2500018

Изобретение относится к вычислительной технике и предназначено для построения быстродействующих параллельно-конвейерных умножителей. Техническим результатом является повышение скорости вычисления.

Способ деления целых двоичных чисел без остатка начиная с младших разрядов // 2498393

Изобретение относится к вычислительной технике и предназначено для построения быстродействующих параллельно-конвейерных делителей, обрабатывающих массивы положительных целых чисел.

Устройство предсказания исключительной ситуации "потеря точности" блока операции "умножение с накоплением" // 2498392

Изобретение относится к области вычислительной техники, а именно к вычислительным системам на основе микропроцессоров с блоками вещественной и специализированной комплексной арифметики, включающими в себя подблоки операции умножения с накоплением.

Логический модуль // 2497181

Изобретение предназначено для реализации симметричных логических функций и может быть использовано в системах цифровой вычислительной техники как средство преобразования кодов.

Способ оценки эффективности управления и устройство для его осуществления // 2517409

Группа изобретений относится к вычислительной технике и может найти применение при оценке эффективности управления техническими системами широкого класса. Техническим результатом является повышение точности оценки эффективности управления за счет обеспечения оценки вероятности своевременного сбора всей необходимой для принятия решений информации.

Устройство и способ для определения информации о парковках // 2516575

Изобретение относится к устройству и способу для определения информации о парковках. Технический результат заключается в повышении вероятности определения доступности места для парковки на площадке, даже когда эта площадка для парковки идентифицирована в картографических данных.

Способ и система поиска нарушений авторских прав на изображения // 2515706

Изобретение относится к вычислительной технике и может быть использовано в компьютерных системах для поиска и выявления изображений, авторские права на которые нарушены.

Спецпроцессор для поиска гамильтоновых циклов в графах // 2515211

Изобретение относится к вычислительной технике и направлено на построение эффективного спецпроцессора, осуществляющего поиск Гамильтонова цикла в графе, заданном матрицей смежностей, хранящейся в памяти.

Спецпроцессор для задачи выполнимости булевых формул // 2515206

Изобретение относится к вычислительной технике, в частности к специализированным процессорам с высокой степенью параллелизма. Технический результат заключается в снижении сложности спецпроцессора и повышении скорости решения задачи о выполнимости булевых функций за счет упрощения структуры спецпроцессора, основой которого является сумматор-аккумулятор, приоритетная цепочка и матрица, содержащая N×M однотипных ячеек (CELL).

Способ ускоренного поиска широкополосных сигналов и устройство для его реализации // 2514133

Изобретение относится к способам и устройствам обработки данных в широкополосной радиосвязи и радионавигации. Технический результат заключается в сокращении временных затрат на поиск широкополосных сигналов по задержке.

Соединение визуальных свойств диаграмм с ячейками в таблицах // 2514102

Изобретение относится к приложениям для обработки электронных таблиц и, более конкретно, к связыванию визуальных свойств диаграмм с ячейками в таблицах. Техническим результатом является уменьшение времени, требующегося для выполнения пользователем необходимых задач при работе с приложением электронных таблиц.

Информационно-измерительная система контроля параметров условий труда // 2514100

Изобретение относится к области контроля параметров условия труда. Техническим результатом является расширение функциональных возможностей контроля фактического уровня параметров условий труда путем дополнительного контроля уровня плотности магнитного потока.

Способ мониторинга переходных режимов в электроэнергетической системе и устройство для его реализации // 2513874

Использование: в области электроэнергетики. Технический результат - расширение функциональных возможностей.

Технологическая платформа интеграции ресурсов сети интернет для проведения федеральных выборов и референдумов // 2513721

Изобретение относится к вычислительной технике, в частности к технологической платформе интеграции ресурсов сети интернет для проведения федеральных выборов и референдумов, построенной на базе облачных технологий Техническим результатом является расширение функциональных возможностей технологической платформы путем подсчета как общего числа интернет-пользователей, принявших участие в голосовании на данный момент времени, так и подсчета количества голосов интернет-пользователей, отданных за соответствующих кандидатов на данный момент времени.

Способ и устройство для предоставления контента через сеть, способ и устройство для приема контента через сеть, способ и устройство для резервного копирования данных через сеть, устройство предоставления данных резервного копирования и система резервного копирования // 2518675

Изобретение относится к способам и устройствам для предоставления контента через сеть. Техническим результатом является обеспечение удобства доступа к модифицированному контенту, а также возможность модифицирования атрибутов контента, который предоставляется, чтобы он соответствовал характеристикам устройства, принимающего контент. Способ содержит: сохранение исходного контента в предопределенном устройстве хранения; модифицирование атрибутов исходного контента, чтобы генерировать модифицированный контент; генерацию метаданных, включающих в себя информацию местоположения устройства хранения, в котором сохранен исходный контент; и предоставление модифицированного контента и метаданных к устройству, взаимосвязанному через сеть, при этом метаданные дополнительно включают в себя метаданные устройства, которые относятся к информации о деталях истории передачи, когда модифицированный контент передается между разными устройствами, и истории редактирования, которая относится к информации об отредактированных деталях модифицированного контента. 4 н. и 11 з.п. ф-лы, 26 ил.