Способ компьютерной визуализации результатов ситуационного анализа новостных событий

Авторы патента:

Столяров Лев Николаевич (RU)

Бурлюк Игорь Геннадьевич (RU)

Бурлюк Кирилл Геннадьевич (RU)

G06F17/28 - обработка или перевод текстов на естественном языке (G06F 17/27 имеет преимущество)

Владельцы патента RU 2273878:

Бурлюк Игорь Геннадьевич (RU)
Бурлюк Кирилл Геннадьевич (RU)

Изобретение относится к области вычислительной техники и предназначено для обработки информации, составленной по правилам контекстно-зависимой грамматики. Технический результат заключается в повышении информативности и точности анализа новостных событий путем выделения в процессе анализа семантического профиля текста. Способ заключается в том, что входящую информацию преобразуют в текстовом процессоре в семантические профили текста, которые затем поступают в ситуационный процессор, который формирует набор сценариев развития ситуаций, формирует семантический профиль для схемы аналитического отсчета, производит сравнение и определяет похожесть семантического профиля текста и семантического профиля схемы аналитического отсчета, определяет события-инициаторы изменения значений сущностей и вводит их в совокупность причинно-следственных графов, вычисляет новые значения сущностей, на основе которых формирует различные сценарии развития ситуаций, которые поступают в процессор визуализации, который формирует конечный набор данных для отображения отобранных данных. 7 ил.

Изобретение относится к области вычислительной техники и предназначено для обработки информации, составленной по правилам контекстно-зависимой грамматики, в целях ее стандартизации и унификации с последующим сравнением и автоматизированным анализом на основе преобразования текстового входного потока в объектную форму (автоматизированный объектный анализ неструктурированных текстовых данных).

Существующие системы автоматизированного анализа неформализованных текстов основываются на:

а) способах поиска данных по заданным пользователем поисковым контекстам с использованием логических связок между контекстами,

б) методах частотного анализа повторяемости слов,

в) методах грамматического анализа текстов, основанных на синтаксическом и семантическом разборе предложений.

Однако грамматический анализ текстов эффективен тогда, когда исходный текст составлен по правилам контекстно-свободных грамматик (КС-грамматик) или грамматик определенных правил (ОК-грамматик). В текстах, основанных на правилах контекстно-зависимых грамматик, каковыми являются подавляющее большинство реально используемых человеком документов, эти методы оказываются неэффективными. Методы частотного анализа дают возможность сделать интегральную оценку текста (дать представление, о чем идет речь), но не позволяют дать детальной картины структуры и взаимосвязей объектов. В текстах, основанных на правилах контекстно-зависимых грамматик, каковыми являются подавляющее большинство реально используемых человеком документов, эти методы оказываются неэффективными. Методы частотного анализа дают возможность сделать интегральную оценку текста (дать представление, о чем идет речь), но не позволяют дать детальной картины структуры и взаимосвязей объектов. Большей универсальностью обладают методы контекстного поиска, однако они, как правило, узкоспециализированы и каждый раз требуют настройки на конкретный поисковый образ (либо необходимо обеспечить хранение группы настроек). См JP 2002278962, G 06 F 17/27, 2002, RU 2166207 С2, G 06 F 17/20, 2001, US 6182098, G 06 F 17/21, 2001, RU 2214622 С2, G 06 F 17/42, 2003.

Недостатком известных способов являются относительно низкие их функциональные и технические характеристики, в том числе высокие значения достигаемых погрешностей преобразования.

Наиболее близким по технической сути с предложенному изобретению является способ обработки новостных событий (информации, отражающей новостные события), согласно JP 2002108917, G 06 F 17/28, 2002.

Однако в указанном техническом решении отсутствует визуализация ситуации с данной схемой аналитического отчета, а также последовательности изменения ситуации под действием новостных событий, что снижает общую информативность способа.

Технический результат изобретения заключается в повышении информативности и точности анализа новостных событий путем выделения в процессе анализа семантического профиля текста. Предлагаемый способ представляет собой результат совместной работы трех машин (см. Фиг.1), формально определенных как процессоры, выполняющие регламентированные последовательности действий:

а) новостной машины;

б) ситуационной машины;

в) визуализационной машины.

Машины могут быть реализованы аппаратно, программно или в виде специального пакета бумажных документов.

Новостная машина

Новостная машина представляет собой текстовый процессор (см. Фиг.2), который выделяет сущности новостного текста и их взаимосвязи (под сущностью понимается, то о чем говорится в тексте)

Входом текстового процессора является текст новостной ленты, состоящий из предложений.

Выходом текстового процессора является формула, составленная из знаков сущностей и знаков отношений между сущностями (семантический профиль текста) по известным математическим правилам:

а) [С=(C₁·C₂] - читается "Сущность С", состоит из сущностей [C₁ и С₂], "," задает операцию группировки сущностей как уточнения сущностей;

б) [С₁:=С₂] - читается "сущность C₁," имеет значение, заданное сущностью С₂;

в) [C₁->С₂] - читается сущность С, является причинной сущности С;

(C₁ определяет C₂, C₂ следует из C₁).

Таким образом, семантический профиль текста представляет собой набор сущностей и отношений связи между ними ("состоит из", "имеет значение", "является причиной").

Текстовый процессор выполняет следующие действия:

1) размечает слова текста на две категории:

а) слова-терминальные сущности, которые далее не могут быть уточнены;

б) служебные (вспомогательные) слова, которые служат грамматическими связками.

2) на основе грамматического анализа текста строит формулу семантической группировки в виде набора формул следующего вида:

а) сущность текста [состоит из]=(сущность предложения 1, сущность предложения 2, и т.д.)

б) сущность предложения [состоит из]=(сущность группы 1 сущность группы 2, и т.д.);

в) сущность группы [состоит из]=(терминальная сущность 1, терминальная сущность 2, и т.д.), где терминальная сущность является сущностью, которая далее не уточняется и представляется в тексте отдельным словом;

3) проводит возможные замены символа "," на символы ":=(иметь значение)",

"-> (быть причиной)".

Все вышеперечисленные действия, связанные с идентификацией отношений "состоит из", "имеет значения", "быть причинной", выполняется на основе известных грамматических правил взаимосвязи слов в русском языке.

Кроме текстового процессора, новостная машина содержит два тезауруса:

а) тезаурус синонимов, характеризующий выбранную предметную область (такие тезаурусы имеются в сети Internet в свободном доступе);

б) тезаурус семантического профиля текста, который состоит из двух списков - списка терминальных сущностей и списка сложных сущностей, представляющих собой скобочные формулы ир терминальны [сущностей (каждой сложной сущности присваивается уникальный номер или имя).

Ситуационная машина

Ситуационная машина представляет собой аппаратно или программно реализованный процессорам. (Фиг.3).

Входом процессора является информация двух видов:

а) семантические профили схем аналитических отчетов пользователей;

б) набор семантических профилей текстов за некоторый период времени, близких к семантическому профилю конкретной схемы аналитического отчета.

Схема аналитического отчета есть сеть с направленными дугами; каждой вершине соответствует сложная сущность, состоящая из терминальных: каждой направленной дуге соответствует отношение "быть причиной".

Для построения схем аналитических отчетов используются т.н. семантические карты Ван-Хао или Сети Петри.

Выходом процессора является набор сценариев изменения ситуации, заданной схемой аналитического отчета.

Ситуацией называется схема аналитического отчета, в которой сущностям присвоены значения.

Сценарием называется схема аналитического отчета, в которой сущностям присвоены события, связанные с изменением их значений.

Ситуационный процессор выполняет следующие действия:

1) превращает схему аналитического отчета в совокупность причинно-следственных деревьев, где вершины помечены сущностями, а причинно-следственные связи задаются табличными или аналитическими функциями;

2) строит семантический профиль для схемы аналитического отчета;

3) определяет похожесть семантического профиля текста и семантического профиля схемы аналитического отчета по управляемому пользователем критерию подобия формул;

4) определяет события - инициаторы изменений значений сущностей и наносит их на древовидную схему аналитического отчета;

5) вычисляет новые значений сущностей и наносит их на древовидную схему аналитического отчета;

6) генерирует различные сценарии развития событий (ситуаций).

Визуализационная машина

Визуапизационная машина состоит из:

а) базы данных кластеров; каждый кластер определяется семантическим профилем заказанного пользователем аналитического отчета и множеством новостных текстов с семантическими профилями, похожими на профиль заказанной схемы отчета;

б) процессора визуализации(см. Фиг.4);

в) процессора редактирования.

Входом процессора визуализации является набор сценариев изменения ситуаций, заданной схемой аналитического отчета.

Выходом процессора визуализации является конечный набор отобранных данных для отображения на экране персонального компьютера, аппаратном табло, либо на специальных бумажных картах.

Процессор визуализации выполняет следующие процедуры отображения на экран компьютера:

1) формул семантических профилей;

2) причинно-следственных графов для схем аналитических отчетов;

3) сценарии развития событий на причинно-следственных графах схем аналитических отчетов;

4) сравнение сценариев и выделение изменений.

Процессор редактирования выполняет следующие процедуры визуального редактирования:

1) редактирование семантических формул;

2) редактирование причинно-следственных графов для схем аналитических отчетов;

3) редактирование сценариев развития событий на причинно-следственных графах схем аналитических отчетов.

Пример компьютерной визуализации результатов ситуационного анализа

1. Аналитический отчет на основе ситуационной модели Ван-Хао.

Аналитический отчет сформировании экспертами как входная модель для сравнения (см. Фиг.5.).

2. Исходная новость и семантический профиль текста.

"Объем торгов снизился из-за неопределенности с "ЮКОСом" и проблем банков, - считает Дивинская. - Индекс РТС начал снижение с уровня 580 пунктов". Большинство новостей отыграно рынком, поэтому снижение может продлиться до прихода новой информации о "ЮКОСе" или о банковской системе, говорит Орлов.

Доллар продолжает расти. Котировки повышались до 29,145 руб./$, закрылся рынок на уровне 29,10-29,11. Начальник управления операций на финансовых рынках БИН-банка Михаил Парасенко связывает возросший спрос на валюту со стремлением игроков рынка сыграть на валютных операциях, что не могло не сказаться на уменьшении индекса РТС. Спекулятивную игру на повышение доллара с удовольствием поддержали многие участники рынка, отмечает Парасенко. По мнению Кабанова, в ближайшее время доллар вырастет до 29,2 руб./$.

2.1. Пример формирования семантического профиля:

Выделение сущностей:

Формирование семантического профиля:

Обозначения:

С - семантический профиль текста

, - уточнение

-> причинно-следственная связь

Семантический профиль предложения:

C=C₁,C₂->C₃C₄C₅,C₆,C₇,C₈,C₉)

2.2 Тезаурус профиля:

Таблица
Тезаурус
Термины	Синонимы
Акции	Ценные бумаги
Торги	Рынок
РТС	Российский торговый индекс
Доллар	Американская валюта
Юкос	Самая крупная нефтяная компания России
Банк	Финансовое учреждение
Дивинская	Начальник аналитического отдела
Уровень	Значение
Объем	Уровень

3. Сравнение профилей аналитического отчета и текста в ситуационном процессоре (см. Фиг.6) - результат сравнения.

Визуалиция развития возможных событий (см. Фиг.7)

3.1. Отчет

Подтверждение схемы:

Схема практически полностью подтвердилась, за исключением добавления новой сущности.

Способ компьютерной визуализации результатов ситуационного анализа новостных событий, заключающийся в том, что входящую информацию, представленную в виде текста из последовательно следующих друг за другом предложений, подвергают преобразованию в текстовом процессоре, заключающемуся в формировании на основе информации семантических профилей текста, состоящих из сущностей и знаков отношения между сущностями, формируемыми на основании разделения слов текста на сущности, которые не могут быть далее уточнены, и слова, служащие грамматическими связками, построения на основе грамматического анализа формулы семантической группировки и замены неопределенных символов на определенные символы, при этом текстовый процессор использует тезаурус синонимов и тезаурус семантического профиля, далее семантические профили текста, а также набор семантических профилей текстов за заданный период времени поступают на ситуационный процессор, который формирует набор сценариев развития ситуаций на основании схемы аналитического отчета, при этом ситуационный процессор формирует совокупность причинно-следственных графов, в которых вершины являются сущностями, а причинно-следственные связи формируются табличными или аналитическими функциями на основе семантических карт Ван-Хао или Сети Петри, формирует семантический профиль для схемы аналитического отчета, производит сравнение и определяет похожесть семантического профиля текста и семантического профиля схемы аналитического отчета, определяет события-инициаторы изменения значений сущностей и вводит их в совокупность причинно-следственных графов, вычисляет новые значения сущностей, на основе которых формирует различные сценарии развития ситуаций, которые поступают в процессор визуализации, формирующий конечный набор данных для отображения отобранных данных, при этом процессор визуализации включает базы данных кластеров, в которых каждый кластер определяется профилем заказанного аналитического отчета и множеством новостных событий в виде текстов с семантическими профилями, формирователь видеоинформации и узел редактирования, позволяющий осуществлять редактирование семантических формул, причинно-следственных графов и сценариев развития.

Изобретение относится к средствам для стандартизации и унификации информации в целях последующего сравнения и автоматизированного анализа на основе преобразования текстового входного потока в объектную форму и может быть использовано в системах, основанных на знаниях, хранилищах информации, банках данных, системах обработки и анализа неструктурированных текстовых файлов.

Способ использования вспомогательных массивов данных в процессе преобразования и/или верификации компьютерных кодов, выполненных в виде символов, и соответствующих им фрагментов изображения // 2166207

Изобретение относится к области электроники и предназначено, например, для использования вспомогательных массивов данных в процессе преобразования и/или верификации компьютерных кодов, выполненных в виде символов, и соответствующих им фрагментов изображения.

Устройство для информационной коммуникации // 2131620

Изобретение относится к сфере информационной коммуникации, а именно к приспособлениям для перевода информации с одного языка на другой, и может быть применимо в различных отраслях народного хозяйства, в частности при производстве изделий полиграфической промышленности - словарей.

Устройство для перевода фраз из нескольких слов с первого языка на второй // 2070734

Изобретение относится к системе для перевода фраз с первого языка на второй язык, в частности, но не исключительно, к такой системе, которая вырабатывает речевой выход на втором языке из речевого входа на первом языке.

Устройство сортировки символов // 2067317

Управляющий процессор // 1290341

Изобретение относится к области цифровой вычислительной техники и может быть использовано при создании систем, реализующих алгоритмы управления , контроля и диагностики объектов , не имеюш;их точной математической модели.

Способ организации многоязычных сообщений в интеллектуальной сети // 2279126

Изобретение относится к способу организации многоязычных сообщений в интеллектуальной сети для определения режима широковещательной рассылки речевого сообщения

Система прозрачного перевода // 2292077

Изобретение относится к области перевода и, в частности, к способу и устройству обеспечения прозрачного (выполняемого автоматически, без вмешательства пользователя и незаметно для него) перевода информации в сетевой среде на один или несколько целевых языков

Система и способ перевода по видеотелефону // 2293369

Изобретение относится к системам перевода по видеотелефону

Сегмент данных о переводе // 2295150

Изобретение относится к способу и устройству для использования сегмента данных о переводе

Поддержка множества языков в web-серверах для встроенных систем // 2295762

Изобретение относится к поддержке множества языков на Web-сервере для встроенных систем, содержащем исходные файлы, приспособленные для просмотра удаленными броузерами, находящимися на одном или более терминалах, имеющих прямое или опосредованное соединение с Web-сервером

Система автоматизированного упорядочения неструктурированного информационного потока входных данных // 2312391

Изобретение относится к техническим средствам информатики и вычислительной техники и может быть использовано для решения задач автоматизированного сравнения и анализа на основе преобразования неструктурированного потока входных данных в объектную форму

Перевод сообщений, передаваемых в электронной форме // 2332709

Изобретение относится к переводу текстовой информации, такой как почтовые сообщения, но не ограничено этой формой обмена данными

Способы и системы для перевода с одного языка на другой // 2357285

Изобретение относится к области перевода с одного языка на другой

Адаптивный машинный перевод // 2382399

Изобретение относится к машинному переводу

Способ организации синхронного перевода устной речи с одного языка на другой посредством электронной приемопередающей системы // 2419142

Изобретение относится к области электроники, в частности к переводу фраз с первого языка на второй