Способ поиска информации в политематических массивах неструктурированных текстов

Авторы патента:

G06F17/30 - информационный поиск; структуры баз данных для этой цели

Владельцы патента RU 2266560:

Федеральное государственное унитарное предприятие "Институт промышленного развития "Информэлектро" (RU)

Изобретение относится к области информационных технологий. Его использование при поиске информации в больших документальных базах данных обеспечивает технический результат в виде сокращения времени поиска нужной информации за счет сокращения количества рекурсий (повторений запросов). Способ заключается в том, что терминам вектора запроса присваивают порядковые номера, осуществляют поиск с занесением в память компьютера номеров документов хотя бы с одним термином вектора запроса, заносят в память компьютера количество терминов, совпавших с терминами запроса, и порядковые номера совпавших терминов, сортируют в памяти компьютера документы по классам с равным количеством совпавших терминов. Технический результат достигается тем, что вводится новый критерий выдачи документов, позволяющий пользователю получать релевантные документы, наполненные новыми терминами, необходимыми для проведения дальнейших рекурсий. Эффективность способа при этом не зависит от того, на каком естественном языке написаны тексты в базе данных. 3 з.п. ф-лы, 2 ил.

Изобретение относится к области информационных технологий, в частности к способам поиска информации в больших документальных базах данных (БД).

Известен способ поиска информации путем анализа взаимной встречаемости терминов запроса и терминов в найденных документах, а также анализа мер сходства векторов документов, представленных на различных языках, так называемое семантическое векторное совпадение (US 6006221, G 06 F 17/30, опубл. 21.12.1999).

Недостатком данного способа является сложность операций по построению и преобразованию (суммирование, нормализация) векторов.

Известен способ автоматизированного поиска информации с расширением запроса путем построения статистического тезауруса (US 5926811, G 06 F 17/30, опубл. 20.07.1999).

Недостатком указанного способа является то, что тезаурусы требуют частого обновления.

Наиболее близким аналогом к заявляемому способу поиска информации является способ поиска информации (US 4839853, G 06 F 15/40, опубл. 13.01.1989) с использованием латентно-семантической структуры. Согласно этому способу из найденных в ответ на первоначальный запрос пользователя документов выделяются значимые для данной темы термины, затем этим терминам присваиваются веса значимости, после этого строится вектор запроса и все документы исходной БД ранжируются по степени сходства с этим вектором на основании соответствующей меры близости - косинус угла между вектором запроса и вектором найденного документа.

По своей сути описанный способ является рекурсивным, то есть потенциально позволяющим на основе статистического анализа последующих выдач документов строить все более развитые векторы запросов.

Недостатком этого способа является его низкая производительность вследствие того, что значения мер близости векторов запросов и документов (ранги документов) уменьшаются для каждой БД и каждого запроса слишком быстро, и следовательно, вместо "плавного" рекурсивного наращивания полноты поиска системам приходится выдавать пользователям только весьма небольшое множество документов самых высоких рангов, предварительно установив жесткое пороговое значение меры близости. Другими словами, настоящей рекурсии не получается из-за того, что все последующие (развитые) векторы запросов слишком зависят от лексического состава выдачи, полученной в ответ на первый, зачастую весьма неэффективный запрос пользователя. Это приводит к тому, что значительно увеличивается время, затрачиваемое на проведение поиска.

Решаемой изобретением задачей является устранение указанного недостатка и усовершенствование информационно-поисковой системы (ИПС). Достигаемый технический результат заключается в сокращении времени поиска нужной информации за счет сокращения количества рекурсий (повторений запросов).

Указанный технический результат достигается тем, что вводится новый критерий выдачи документов, позволяющий пользователю получать релевантные документы, наполненные новыми терминами, необходимыми для проведения дальнейших рекурсий (повторений запросов).

А именно, в способе поиска информации с использованием информационно-поисковой системы, в котором терминам вектора запроса присваивают порядковые номера, затем осуществляют поиск с занесением в память компьютера номеров найденных документов, в которых присутствует хотя бы один термин вектора запроса, затем заносят в память компьютера количество совпавших терминов с терминами запроса и порядковые номера совпавших терминов, затем сортируют в памяти компьютера документы по классам с равным количеством совпавших терминов, согласно данному изобретению осуществляют формирование внутри всех классов - подклассов индекса i классов индекса j, характеризующихся полным совпадением номеров терминов, затем определение количества документов (n_ij) в подклассах индекса i классов индекса j, затем определение количества документов (n_j) класса j, затем определение вероятности принадлежности документа к подклассу i, при условии его принадлежности к классу j, как:

затем определение критерия выдачи для каждого класса как:

и далее расширение запроса, если в документах класса H_jmax, содержатся новые термины, которые относятся к тематике поиска. H_jmax - максимальное значение параметра характеризующего критерий выдачи классов документов.

Другой дополнительной особенностью данного способа может являться то, что в ИПС загружаются документы, представленные на естественном языке. При этом в ИПС для осуществления предлагаемого способа используется входной формат ASC11.

Еще одной дополнительной особенностью данного способа может являться то, что формирование классов и подклассов документов осуществляется автоматически.

Еще одной дополнительной особенностью данного способа может являться то, что количество терминов вектора запроса находится в диапазоне от 10 до 1000.

В данном случае под вектором запроса понимается набор ключевых слов, классификационных индексов, фраз или просто слов без присвоения им весов значимости.

Наиболее сложной задачей информационного поиска является обнаружение информации, обозначение которой пользователю неизвестно. Поэтому, прежде чем получить нужный документ, необходимо найти дескрипторы - слова, классификационные индексы, имена и.т.п., по которым информация может быть найдена.

Это отнюдь не простая задача. Даже слова естественного языка не всегда легко подобрать для проведения эффективного сеанса поиска. Индексы различных классификаций и рубрикаторов, марки, названия фирм могут быть и вовсе не известны пользователю системы. Поэтому необходим механизм обнаружения таких терминов, по которым может быть найдена лексически удаленная, но необходимая пользователю информация.

Простейшим способом расширения запроса является отбор новых потенциально полезных терминов из документов, найденных в ответ на данный запрос.

Если пользователь выбрал набор терминов t₁, t₂, t₃...t_k, то необходимо установить правило, по которому ему будут выдаваться другие документы из исходного поискового массива, содержащие эти термины. Обычная логика подсказывает, что чем больше терминов из выбранных содержит документ, тем выше вероятность, что его содержание соответствует тематике первоначального запроса, и, следовательно, этот документ должен быть выдан в первую очередь. С другой стороны, такой документ лексически похож на те документы, из которых были выбраны термины t₁, t₂, t₃...t_k, и следовательно, слишком мала вероятность того, что в этом документе могут быть найдены дополнительные, полезные термины для дальнейшего расширения запроса и продолжений рекурсивного поиска.

Если произвести разбиение исходного поискового массива на классы документов с равным количеством терминов, совпавших с набором t₁, t₂, t₃...t_k и использовать в качестве критерия выдачи класса с индексом j количество совпавших терминов, то число отобранных новых полезных терминов на каждом шаге итерации будет в среднем в 2 раза меньше, чем при использовании критерия H_j(1), при одинаковом количестве просмотренных релевантных документов.

Изобретение поясняется чертежами.

Заявленный способ может быть реализован с помощью системы поиска информации

На фигуре 1 представлена функциональная схема системы поиска информации.

На фигуре 2 представлена блок схема алгоритма заявленного способа.

Система содержит блок формирования запроса 1, первый выход которого связан с входом блока памяти номеров документов 2, выход которого связан с первым входом блока поиска и сортировки 4, выход которого через соответствующие шины данных 9 и шины управления 10 связан с процессором 5, блоком воспроизведения 7, базой данных 6 и контроллером 8, причем второй вход блока поиска и сортировки 4 связан с выходом блока памяти номеров терминов 3, вход которого связан со вторым выходом блока формирования запроса 1.

Система для поиска информации согласно изобретению работает следующим образом.

Блок формирования запроса 1 может представлять собой стандартный блок ввода-вывода данных с клавиатурой и мышью, с возможностью отображения вводимой информации на экране блока воспроизведения 7, т.е. это может быть дисплей, экран монитора и.т.п. В то же время блок формирования запроса 1 может быть выполнен в виде формирователя сообщения о выборе базы данных для проведения поиска, которое передается в контроллер 8 для запуска программы поиска в выбранной базе данных.

Поиск осуществляется следующим образом.

При включении системы пользователю с помощью блока воспроизведения 7 предлагается меню, которое отображается на экране, на котором, в частности, представлен перечень названий имеющихся баз данных системы. Далее с помощью блока формирования запроса 1 пользователь формирует первоначальный запрос, сообщение об этом сразу попадает в контроллер 8.

Далее пользователю системы предлагаются документы, выданные на первоначальный запрос, которые отображаются на экране, в которых ему предлагается выбрать новые термины, которые по его мнению могут относиться к интересующей его тематической области, причем терминам запроса присваивают порядковые номера с занесением их в блок памяти номеров документов 2 и далее в блок поиска и сортировки 4, который через шину данных 9 отправляет запрос в базу данных 6.

С помощью блока воспроизведения 7 пользователь может ознакомиться с документами, найденными на запрос.

Далее номера документов, содержащие термины, совпавшие с терминами запроса, заносятся в блок памяти номеров документов 2, после чего в блоке поиска и сортировки 4 осуществляют сортировку документов по классам с равным количеством совпавших терминов.

Далее внутри классов формируют подклассы, характеризующиеся полным совпадением номеров совпавших терминов. Затем процессор 5 проводит расчет характеристики Н_j для каждого класса документов.

Используя такую характеристику, пользователь системы может специальной командой с помощью блока формирования запроса 1 дополнить терминами (из документов класса с H_jmax) первоначальный запрос. Дальнейший поиск может быть также проведен с использованием сохраненных запросов в блоке памяти номеров терминов 3 и состоящих только из терминов, содержащихся в документах класса с H_jmax.

По дополненному запросу ИПС позволяет найти необходимую пользователю, но лексически удаленную от первоначального запроса информацию.

Указанная последовательность действий повторяется до тех пор, пока в найденных документах класса с H_jmax будут встречаться новые термины, относящиеся к исследуемой тематике.

Опыты показывают, что указанный технический результат может быть достигнут только взаимосвязанной совокупностью всех существенных признаков заявленного изобретения, отраженных в формуле изобретения. Указанные в ней отличия дают основание сделать вывод о новизне данного технического решения, а совокупность испрашиваемых притязаний в связи с их не очевидностью - об изобретательском уровне, что было показано выше. Соответствие критерию "промышленная применимость" предложенного способа доказывается как его реализацией, так и отсутствием в заявленных притязаниях каких-либо практически трудно реализуемых в промышленных масштабах признаков.

1. Способ поиска информации с использованием информационно-поисковой системы, заключающийся в том, что терминам вектора запроса присваивают порядковые номера, затем поиск осуществляют с занесением в память компьютера номеров документов, в которых присутствует хотя бы один термин вектора запроса, затем заносят в память компьютера количество совпавших терминов с терминами запроса и порядковые номера совпавших терминов, затем в памяти компьютера документы сортируют по классам с равным количеством совпавших терминов, отличающийся тем, что внутри каждого класса формируют подклассы индекса i класса индекса j, характеризующиеся полным совпадением номеров терминов, затем определяют количество документов (n_ij) в подклассе индекса i класса индекса j, затем определяют количество документов (n_j) класса j, затем определяют вероятность принадлежности документа к подклассу i при условии его принадлежности к классу j, как

затем определяют критерий выдачи для каждого класса как

и далее расширяют запрос, если в документах класса с H_jmax содержатся новые термины, которые относятся к тематике поиска.

2. Способ по п. 1, отличающийся тем, что в информационно-поисковую систему загружаются документы, представленные на естественном языке.

3. Способ по п. 2, отличающийся тем, что формирование классов и подклассов документов осуществляется автоматически.

4. Способ по п. 1, или 2, или 3, отличающийся тем, что количество терминов вектора запроса находится в диапазоне от 10 до 1000.

Похожие патенты:

Навигация // 2265245

Изобретение относится к устройству и способу для упрощения перемещения между подлежащими отображению на экране объектами, особенно такими как объекты, определяемые HTML-документами.

Распределённый кэш (сверхоперативная память) для системы беспроводной связи // 2264651

Изобретение относится к передаче данных в системах беспроводной связи. .

Система логистики информационно-маркетингового центра // 2263956

Изобретение относится к вычислительной технике, в частности к системе логистики информационно-маркетингового центра. .

Система выявления активности избирателей при проведении региональных и федеральных выборов // 2263955

Изобретение относится к вычислительной технике, в частности к системам выявления активности избирателей при проведении региональных и федеральных выборов. .

Оптический ассоциативный поисковый процессор "верб-2" александра вербовецкого // 2263946

Изобретение относится к компьютерной и информационной технике, а именно к вычислительным устройствам, выполненным на оптоэлектронной элементной базе. .

Система управления электронным документооборотом информационно-маркетингового центра // 2260843

Изобретение относится к вычислительной технике, в частности, к системе управления электронным документооборотом информационно-маркетингового центра. .

Справочная система информационно-маркетингового центра // 2259584

Изобретение относится к вычислительной технике, в частности к справочной системе информационно-маркетингового центра электронной торговли. .

Устройство поиска и отбора максимальных параметров информации // 2258955

Изобретение относится к области машиностроения, а именно к средствам автоматического управления, позволяющим осуществить поиск и отбор максимальных параметров информации (давления, температуры, и других).

Система обеспечения информационной безопасности информационно-маркетингового центра // 2258254

Изобретение относится к вычислительной технике, в частности, к системе информационной безопасности информационно-маркетингового центра электронной торговли. .

Система актуализации баз данных государственного регистра населения // 2255370

Изобретение относится к вычислительной технике, в частности к системе актуализации баз данных Государственного регистра населения. .

Способ и система для регистрации и поиска информации о местоположении пользователей // 2268486

Изобретение относится к способу и системе для регистрации и поиска информации о местоположении пользователей с использованием идентификатора местоположения пользователей

Способ управления видеоданными рентгеновских изображений // 2268487

Изобретение относится к способам обработки и хранения рентгеновских изображений

Способ и система для организации данных // 2268488

Изобретение относится к способу организации и/или нахождения данных в системах баз данных

Система запросов на естественном языке для доступа к информационной системе // 2269164

Изобретение относится к информационной системе с системой речевого взаимодействия

Способ получения модели сознания человека по созданному человеком тексту // 2271036

Изобретение относится к вычислительной технике и может использоваться для диалога с моделью сознания и в других диалоговых системах, имеющих признаки сознания человека

Считываемый компьютером носитель записи, на котором записан файл изображения, устройство для изготовления носителя записи, носитель, на котором записана программа для создания файла изображения, устройство для передачи файла изображения, устройство для обработки файла изображения и носитель, на котором записана программа обработки файла изображения // 2272318

Изобретение относится к передаче информации по сети

Способ защиты уникальной индивидуальной знаковой маркировки серийного изделия с использованием интерактивной электронной базы данных // 2272319

Изобретение относится к способам распознавания и может быть использовано в отраслях, страдающих от несанкционированного копирования серийных изделий

Устройство распознавания искажения информационного цифрового потока // 2273045

Изобретение относится к электросвязи и может быть использовано для распознавания искажения информационного цифрового потока, циркулирующего в цифровых сетях связи, в частности, в сети передачи данных (СПД) типа "Internet", основанных на семействе коммуникационных протоколов TCP/IP (Transmission Control Protocol/Internet Protocol)

Способ синтеза самообучающейся системы извлечения знаний из текстовых документов для поисковых систем // 2273879

Изобретение относится к вычислительной технике, информационно-поисковым и интеллектуальным системам

Способ регистрации пользователя в доверительном органе для дистанционного обслуживания // 2274894

Изобретение относится к способу регистрации пользователя