Система утилизации спама




Владельцы патента RU 2787308:

Общество с ограниченной ответственностью "Компания СПЕКТР" (RU)

Изобретение относится к области защиты компьютеров и может быть использовано для извлечения полезной для конечного потребителя информации из массива цифровых данных, в том числе спама, предназначенного к удалению. Техническим результатом является обеспечение защиты вычислительного устройства пользователя от спам-сообщений с одновременным извлечением данных из массива цифровых данных, отнесенных к категории спама. Способ содержит этапы: получают сообщения из спам-папок; сохраняют необработанные сообщения по меньшей мере в одну базу данных необработанных сообщений; посредством по меньшей мере одного модуля обработки спама анализируют текст и служебную информацию каждого спам-сообщения в базе данных необработанных сообщений в соответствии с заданным критерием кластеризации спама по заданному критерию; извлекают полезную информацию из сформированного кластера; выполняют антивирусную проверку для предотвращения заражения посредством блока антивирусной защиты и базы данных с информацией о зараженных сообщениях; сохраняют полученную в результате вышеуказанной обработки обработанную информацию в базе данных обработанной информации, где база данных обработанной информации связана по меньшей мере с одним упомянутым модулем обработки спама; и предоставляют пользователю результаты обработки посредством модуля предоставления обработанной информации, связанного по меньшей мере с одной упомянутой базой данных обработанной информации. 3 ил.

 

Изобретение относится к решениям по извлечению полезной для конечного потребителя информации из массива цифровых данных, в том числе спама, предназначенного к удалению.

Рассмотрим определение понятия «спам».

Википедия дает следующее определение понятия «спам»: «Спам (англ. spam) - массовая рассылка корреспонденции рекламного характера лицам, не выражавшим желания ее получить, а также рассылка массовых сообщений».

Согласно определению «Лаборатории Касперского», «Спам — это анонимная массовая непрошенная рассылка».

Как можно увидеть, ни в одном из определений не сказано, что спам представляет из себя что-то, не заслуживающее внимания. Но текущая практика работы со спамом устроена так, что весь спам проходит мимо внимания как конечного пользователя, так и возможных лиц, ответственных за работу получателя спама (руководители корпоративного пользователя). А именно, текущая практика подразумевает сохранение спама в отдельном хранилище, которое находится за пределами основного внимания конечного пользователя, хранение спама в этом хранилище какое-то непродолжительное время (например, «Google Gmail» – 30 дней, «Яндекс почта» - 10 дней), и удаление спама без возможности последующего восстановления.

При этом статистика показывает, что спам составляет подавляющее большинство всего информационного потока в настоящее время. Например, согласно данным “Лаборатории Касперского”, в начале 2011-го года доля спама в совокупном объеме трафика электронной почты составляла почти 80% [https://web.archive.org/web/20120724031934/http:/www.computery.ru/news/news2010.php?nid=8302]. Последние данные, которыми мы обладаем, показывают, что на второй квартал 2019 года доля спама по-прежнему составляет более половины совокупного трафика [https://securelist.ru/spam-and-phishing-in-q2-2019/94529/].

Как результат, можно констатировать, что более половины информационного потока сообщений (со всеми затратами на пересылку, хранение, обработку и т.д.) удаляется, не принося никакой пользы никому.

Предложение (суть системы утилизации спама) состоит в том, чтобы собирать спам получателей с согласия их, либо, лиц, имеющих право дать такое согласие за получателя (руководство в случае корпоративных получателей) и извлекать из этих сообщений информацию, которая может быть полезна конечным потребителям сервиса.

Актуальность спама.

Актуальность проблемы спама сегодня ни у кого не вызывает сомнений. Достаточно лишь привести цифру, что более половины всех электронных писем, поступающих в корпоративные сети, являются спамом в том или ином виде. Потери от спама, которые несут корпоративные пользователи, значительны и по некоторым оценкам исчисляются десятками тысяч долларов за счет потери рабочего времени и использовании сетевых ресурсов.

Рассылаемое при спаме сообщение, в зависимости от целей и задач отправителя (спаммера), может содержать коммерческую информацию, а может не иметь отношения к коммерческой деятельности. По содержанию сообщения выделяют «коммерческий» спам — unsolicited commercial e-mail (общепринятая аббревиатура — UCE) и «некоммерческий» — unsolicited bulk e-mail (UBE).

С точки зрения организации текста электронного письма последнее может содержать в поле Subject информацию о том, что оно из себя представляет (например, что оно содержит рекламную информацию), а в теле письма — указание причины, по которой отправитель счел нужным обратиться к получателю. Как правило, в нем содержатся сведения и о том, какие действия должен предпринять получатель, чтобы в дальнейшем не получать сообщений от отправителя.

Указанные признаки свидетельствуют о том, что отправитель понимает – предлагаемая им информация навязывается получателям, и добросовестно пытается снизить возможное негативное воздействие. Однако очень часто спаммер не только не испытывает желания снизить дискомфорт своих адресатов, но и отказывается от ответственности за свои действия путем фальсификации адреса отправителя, использования адреса третьего лица и фальсификации заголовков сообщения. Делается все это для того, чтобы максимально затруднить установление личности отправителя и принятие соответствующих мер.

Проблема спама.

Следует отличать спам от легальных почтовых рассылок, которые, хотя и во многом повторяют многие черты спама, являются запрошенными пользователем и должны доставляться ему.

Пагубность таких рассылок (спама) заключается в том, что спамеру это практически ничего не стоит, зато они дорого обходятся всем остальным, к примеру, получателю спама или его провайдеру. Большое количество рекламной корреспонденции может привести к излишней нагрузке на каналы и почтовые серверы провайдера, из-за чего обычная почта, которую, возможно, очень ждут получатели, будет проходить значительно медленнее. За все расплачивается получатель спама, оплачивающий своему провайдеру время в Сети, затрачиваемое на получение незапрошенной корреспонденции с почтового сервера.

Кроме непосредственных затрат, отделение непрошеной информации от нужной и ее удаление требует временных затрат, что также очень неудобно, особенно для активных людей – у них на это нередко уходит много времени. К тому же, спам зачастую используется совместно с различными вирусными технологиями.

Причина появления спама заключается в том, что это - экономически эффективное средство маркетинга, несмотря на крайне низкий процент откликов на него. Ведь его эффективность рассчитывается не по абсолютному числу откликов, а по соотношению результата к затратам. А затраты на массовые рассылки минимальны. Следовательно, спам эффективен даже при очень низком результате.

Спамерский бизнес становится все более прибыльным и привлекает все больше клиентов. Последних подкупает возможность за небольшие деньги разнести свою рекламу по миллионам адресов. По информации из открытых источников в среднем рассылка обходится в сумму от $20-50 (100 тыс. адресам) до $500 (несколько миллионов адресов. Несколько сот тысяч сообщений можно разослать в течение одной ночи. Как утверждают спамеры, отклик на такую рекламу - минимум один из тысячи адресатов, что очень много для миллионных рассылок. А затраты минимальны.

К тому же спамеру, начинающему свой бизнес, нет нужды вкладывать большие деньги - он может обойтись несколькими сотнями долларов, необходимыми для оплаты широкополосного доступа в Интернет. Правда, серьезные спамерские конторы подходят к делу гораздо серьезнее. Они содержат штат квалифицированных программистов, специалистов в области лингвистики и т. д.

Невероятная живучесть спама обусловлена практически нулевой стоимостью его рассылки. Ведь для ведения спам-рассылок только и требуется, что компьютер и доступ в Интернет. Одному человеку вполне по силам ежедневно рассылать до нескольких миллионов писем. Все затраты на рассылку рекламы в итоге ложатся на ее получателей. Именно в этом главное отличие спама от обычной почтовой рекламы.

Однако от спамерских атак практически не защищены почтовые серверы провайдеров (если у них, конечно, не установлен специальный фильтр). Если в корпоративной сети можно строго настроить пропуск входящей информации, то провайдер должен по умолчанию принимать все сообщения.

Способы борьбы со спамом.

Для пользователя спам – это временные затраты по разборке почтового мусора. Для провайдера - еще и потерянные деньги. В частности, они вынуждены оплачивать дополнительный трафик, который создают спамеры, а также антиспам-фильтры и работу персонала по настройке фильтров и по разбору жалоб пользователей.

Интернет-сообщество пытается бороться со спамом.

Последнее время постоянно предлагаются различные способы борьбы со спамом. Эти способы можно условно разделить на следующие категории:

- Юридические способы (законодательная база).

- Технические способы (фильтрация спама на почтовом сервере или клиенте, либо другие технологические способы).

В настоящее время используется несколько технологических способов борьбы со спамом, но не все они достаточно эффективны.

В первую очередь, это "черные списки" и автоматические фильтры.

"Черные списки" помимо того, что в последнее время практически потеряли свою актуальность из-за всевозможных ухищрений спамеров по подстановке адресов и захвату пользовательских машин, зачастую достаточно агрессивны и могут содержать адреса провайдеров, сеть которых использовалась для рассылки писем или даже для хостинга сайтов, отрекламированных массовой рассылкой.

Автоматические фильтры, осуществляющие поиск по заданным терминам (словам и словосочетаниям), в сочетании с другими методами в состоянии подавить до 95% непрошенной корреспонденции. Впрочем, спамеры постоянно обходят эти барьеры, вставляя орфографические ошибки и другие малые изменения в темы и тексты писем. Так, очень часто письма, которые приходят к нам от отечественных спамеров, содержат латинские буквы, которые заменяют собой похожие на них русские, в частности - "И" и "U", "В", "T" и т. д. Все это делается для того, чтобы обмануть фильтры.

Для защиты адресов на HTML-страницах рекомендуется использовать кодирование адреса. В самом деле, в современных браузерах существует множество возможностей для такого способа. Это и использование HTML-кодирования, когда буква "A", например, заменяется ее кодом (т.е. A). Для осуществления кодирования существует много специальных программ.

Так же, как несколько лет назад, многие почтовые сервера установили антивирусные фильтры, в последнее время крупные порталы (yandex.ru, mail.ru) начинают использовать антиспамовые фильтры.

Сейчас разрабатываются новые схемы, более эффективные способы защиты, применяющие интеллектуальный анализ текста и графики. Но они достаточно дороги - по некоторым данным, стоимость такого ПО составляет обычно от $0,25 до $2 за один почтовый адрес у провайдера. Таким образом, интернет-компании средней руки защита обойдется в несколько тысяч долларов.

Западные провайдеры используют и жесткие меры по отношению к спамерам. К примеру, в ноябре прошлого года скандинавский оператор TeliaSonera начал отключать от сети пользователей, рассылающих спам. Недавно крупный американский провайдер кабельного Интернета, Comcast, пригрозил своим пользователям отключением, если те не очистят свои компьютеры от осевших на них троянских программ, занимающихся рассылкой спама. При этом американский провайдер уже пытался бороться с такой напастью, но попытки установить спам-фильтр привели к массовой блокировке писем, отправляемых в Россию, и практику пришлось отменить.

Законодательные меры

Надо отметить, на Западе борьба со спамом вышла на законодательный уровень лишь недавно. В Евросоюзе принят соответствующий закон, который должен быть адаптирован в законодательства входящих в него стран - понятно, что это процесс достаточно длительный.

На территории США 1 января 2004 года вступил в силу федеральный "антиспамовый" закон, а также соответствующие законодательные акты в штатах. Интересно, что в каждом штате существует различная степень ответственности за спам. В штате Мэриленд приняли закон, предусматривающий наказание в виде лишения свободы на срок до пяти лет за рассылку спама с использованием мошеннических методов.

В России тоже происходят подвижки. Уже существует несколько ассоциаций, которые ставят своей целью легальное противодействие спаму. Например, в 2003 году была организована "Национальная коалиция против спама", основанная российским представительством Microsoft, компаниями Rambler, Mail.ru. "Голден Телеком", Subscribe.ru, "Лаборатория Касперского и "Ашманов и Партнеры" (сейчас Коалиция включает 15 компаний).

Создатели коалиции намерены разработать общие технологические средства и стандарты для фильтрации непрошенных писем, выработать стандарты для легальных рекламных рассылок и подготовить законодательную базу для борьбы с этим явлением.

Однако борьба спамеров и антиспамовых фильтров все больше и больше напоминает противостояние вирусов и антивирусов, которое, вероятно, никогда не прекратится. Спамеры придумывают все новые и новые трюки. Даже в, казалось бы, надежной системе фильтрации по содержимому письма, спамеры нашли много лазеек. В Рунете все началось с использования похожих по начертанию букв. Если Вы не видите разницы между латинской буквой T и русской Т, то для спам-фильтров это два совершенно разных символа. Множество лазеек оставляют HTML-письма. Можно, например, между буквами текста вставить буквы одинакового с фоном цвета. Вы увидите на этом месте только небольшой пропуск, а программа-фильтр это слово не распознает.

По данным компаний, занимающихся вопросами сетевой безопасности, пользователи электронной почты сами поддерживают спамеров: около трети обладателей электронных почтовых ящиков переходили по ссылкам в спамерских сообщениях несмотря на то, что переход по такой ссылке - прямой и, следовательно, самый короткий путь к заражению компьютера возможными вирусами и троянами, ворующими личную информацию.

Кроме того, ответ на спамерское письмо - гарантия того, что в следующий раз ящик будут "бомбить" во сто раз активнее. Около 10% людей покупали товары, рекламируемые таким малопочетным образом. А это означает, что спамеры не зря трудятся. Антиспамовые фильтры - лишь частичное решение проблемы, считают специалисты. Главная проблема - в самих пользователях.

Выводы и решаемые задачи:

- Проблема спама на сегодняшний день является серьезной для интернет-сообщества и связана со значительными затратами по ее устранению. Учитывая, что все предпринимаемые меры по борьбе со спамом встречают все более изощренное противодействие спамеров, направленных на обход фильтров и других методов борьбы со спамом, проблема спама будет актуальна ещё долгое время.

- Предлагаемый способ обработки (утилизации или переработки) спама предполагает не борьбу со спамом, которая зачастую напоминает сражение с ветряными мельницами, а извлечение полезной для конечного потребителя информации из массива цифровых данных, в том числе спама, предназначенных для удаления.

- Весь объём спама можно систематизировать и извлечь оттуда полезную информацию, в соответствии с желанием потребителя, в самых разных разрезах: по тематике информации; по объёму информации; по возможной заинтересованной аудитории; по времени прихода спама; по адресатам и т.д.

- Выводы, которые следуют из подобного анализа, могут заинтересовать как потребителя спама (как руководство организации, получающей спам, так и отдельных физических лиц), так и отправителя спама (например, в сравнении тематик рассылаемых другими отправителями сообщений).

- Информация может быть полезна корпоративным пользователям, интернет-провайдерам и другим участникам цифрового рынка. Следствием этого будет экономия на затратах по уничтожению спама, а в перспективе – при дальнейшем развитии метода «Утилизация спама» - превышение этих затрат и получение прибыли пользователем.

- Также спам можно условно разделить на доброкачественный и злокачественный. Доброкачественный – т.е. не несущий впоследствии вредоносного воздействия на потребителя. Злокачественный – имеющий своей возможной целью нанесение какого-либо ущерба потребителю (воздействие на информационные ресурсы потребителя, на психологию пользователей, на секретность коммерческой и технической информации, на морально-политические воззрения абонента и т.д.).

- Выводы, полученные в результате анализа спама, в дальнейшем могут быть использованы в качестве средства воздействия на персонал (как корпоративный, так и сторонний) либо в других целях по желанию выгодоприобретателя полученных выводов.

Анализ существующих патентов и заявок на выдачу патентов по теме обработки спама.

1. Заявка США № US20100082749A1.

Наименование патента: RETROSPECTIVE SPAM FILTERING (РЕТРОСПЕКТИВНАЯ ФИЛЬТРАЦИЯ СПАМА).

В документе №US20100082749A1 говорится о том, чтобы вернуть неправильно помеченную информацию «negative» в актуальную для пользователя информацию «positive» (блок 0004). Смысл повторной обработки в американском патенте – избежать неправильного помещения в спам, либо «вернуть» информацию из спама при «повторной» обработке.

Т.е. существует правило помещения в спам. Существует вариант, когда в спам информация попадает ошибочно. Затем могут быть изменены правила помещения в спам или изменены критерии оценки «спам-не спам». Для этого и предусмотрена повторная обработка информации, чтобы вернуть информацию в «positive», т.е. в актуальную для пользователя.

Этот процесс связан просто с классификацией информацией «спам» - «не спам», и никак не связан с предлагаемой системой.

В предлагаемом техническом решении любая информация (и «positive» и «negative») – это «полезная» (useful) информация.

Сущность системы обработки спама заключается в том, чтобы информацию в спаме после любого количества обработки и отсева типа «спам – не спам» (это информация «negative» в американском патенте) НЕ УДАЛЯТЬ, а ИСПОЛЬЗОВАТЬ дальше, извлекая из всего спама полезную информацию.

В дальнейшем извлечённая из спама полезная информация может быть востребована на "рынке спама".

2. Заявка США № US2016028673A1

Наименование патента: MULTI-TIERED ANTI-SPAMMING SYSTEMS AND METHODS (МНОГОУРОВНЕВЫЕ СИСТЕМЫ И МЕТОДЫ БОРЬБЫ СО СПАМОМ).

В данном источнике говорится об уменьшении объема спама для пользователя.

Также в тексте патента ни разу не встречаются слова «переработка» или «утилизация» («recycling» or «utilization»).

3. Патент РФ № RU2710739C1.

Данное решение направлено на повышение точности обнаружения спама.

Также в тексте патента ни разу не встречаются слова «переработка» или «утилизация».

Таким образом, все перечисленные патентные документы содержат описание технических решений, направленных на повышение качества процесса определения спама, а не на работу с информацией, которая окончательно определена как спам.

Соответственно в уровне техники не выявлено аналогов предлагаемого технического решения, то есть технических решений того же назначения.

При этом, техническим результатом заявленного решения является обеспечение защиты вычислительного устройства пользователя от спам-сообщений с одновременным извлечением данных из массива цифровых данных, отнесенных к категории спама.

Сущность предлагаемого решения.

В системе утилизации спама предлагается рассматривать «спам-кластеры» (или просто – кластеры).

Необходимо отметить, что все рассмотренные патентные документы предусматривают работу с одним сообщением.

В системе утилизация спама используется вся совокупность сообщений конкретного пользователя, т.е. это работа с многочисленными сообщениями. Обрабатываться будет каждое сообщение, но как конечный результат интерес представляют многочисленные сообщения кластеры.

Результатом этой работы будет группировка (кластер, объединение) сообщений, на основании которой будет строиться статистика и не только статистика.

Возможно эти группировки (или объединения) просто продавать, или использовать в других способах «переработки».

Т.е. если брать все сообщения с одного домена (по конкретному адресу), получим новый объект, новую информацию – «спам-кластер» или просто «кластер».

«Кластеры» можно формировать по любым признакам, параметрам: по времени, по темам, адресам, территориям и т.д. (та самая «специфичность» модулей обработки спам-информации, упомянутая выше).

При этом само отдельное сообщение не интересно. Интересно получить «кластер», который является новой информацией, при этом добавится список сообщений (если понадобится).

Таким образом, «кластер» является новым материальным объектом, который будет представлен в виде нового набора записей базы данных, хранящихся на сервере системы.

«Кластеры» могут пересекаться между собой.

Материальная часть (система) для реализации способа состоит из долгосрочного хранилища информации, представленного в виде стандартного одного (или более) сервера, содержащего, как минимум, две базы данных: базу необработанной информации, и базу обработанных результатов, представленную в виде «спам-кластеров».

Также система включает в себя сервер обработки информации с набором модулей обработки спам-информации. Каждый модуль имеет доступ к базе данных необработанной информации, получает данные из соответствующих таблиц этой базы, и на основании алгоритма, специфичного для этого модуля, создает «спам-кластер», которые программными средствами сохраняет в базе данных результатов обработки как «продукт» в виде новых записей в соответствующих таблицах этой базы данных.

Еще одной частью системы является сервер предоставления клиентам результатов обработки. Этот сервер представлен в виде сервера приложений для получения клиентами «продукта» посредством запросов, отправляемых по сети интернет, или в виде сервера электронной почты для предоставления клиентам «продукта» посредством рассылки сообщений электронной почты.

Осуществление системы утилизации спама.

Общий принцип реализации способа отражён на фиг. 1.

Входящий спам 1 (после всех обработок, помеченный на удаление) воспринимается не как спам, не как информация, а как объект с потенциальной коммерческой стоимостью.

Этот объект можно приобретать у пользователей, пользователи могут передавать его по договоренности. И этот объект, переработанный предлагаемой системой (процесс переработки – 2), приобретает новые потребительские свойства (кластеры 3).

По применимости способа извлечения информации из спама основные гипотезы таковы:

- группировка по времени – статистика для корпоративных пользователей;

- группировка по территориям – маркетинговая информация для фирм, проводящих маркетинговые исследования, возможно, для производителей определённых групп товаров;

- группировка по всем возможным признакам – спамерам и компаниям, осуществляющим борьбу со спамом;

- сокращение издержек корпоративных пользователей, тратящих ресурсы на уничтожение спама (покупать у них спам или договариваться на передачу спама, выдавать в итоге нужную пользователю информацию, может быть даже по разрезам, исходя их запросов пользователей).

- при получении спама от многочисленных различных клиентов возможно формирование “кластеров” по нескольким клиентам. В результате может формироваться аналитика (статистика), которая может быть интересна не только для конкретного клиента. Такая статистика, например, может группироваться по типам клиентов (производство, сервисные компании, учебные заведения, и т.п.)

На фигурах 2 и 3 представлен способ извлечения информации из спама на примере спама электронной почты. Подобная схема может быть применена к спаму любых видов сообщений, где осуществляется предварительная фильтрация спама и хранение его отдельно от остальных сообщений.

На фиг.2 представлена первая часть системы (и первый этап реализации способа соответственно), заключающийся в получении спам-сообщений клиентов и сохранения этих сообщений в необработанном (неизменном) виде в базе данных. Сохранение необработанных сообщений преследует, как минимум, две цели:

- возможность восстановления одного или нескольких сообщений по запросу пользователя (что может рассматриваться, как один из конечных вариантов использования сервиса);

- возможность обработки сообщений новыми алгоритмами, которые могут появиться после получения сообщения в сервис.

Система включает модуль (систему) подключения к ящикам электронной почты и получения сообщений из спам-папки (1.1), связанных с одним и более провайдером услуг электронной почты (1.2), имеющих доступ к спам-хранилищам конечных клиентов (1.3), блок антивирусной защиты (1.4), базу данных с информацией о зараженных сообщениях (1.5 и 2.1), базу данных необработанных сообщений электронной почты (1.6 и 2.2), модули обработки сообщений (2.3), базу данных обработанной информации (2.4), модуль (систему) предоставления обработанной информации (2.5).

Система подключения к ящикам электронной почты клиентов и получения сообщений из спам-папки (1.1) с заданной периодичностью (например, 1 раз в 24 часа) выполняет подключение к одному, либо нескольким провайдерам услуг электронной почты (1.2). Посредством функционала провайдера система получает все сообщения электронной почты из спам-хранилища конечных клиентов (1.3). После этого все полученные сообщения проходят этап антивирусной проверки (1.4) для предотвращения заражения сервиса. Функционал антивирусной проверки является продуктом третьей стороны. По результату антивирусной проверки сообщения, определенные как инфицированные вирусом, нигде не сохраняются. Максимально возможный безопасно полученный объем информации об инфицированных сообщениях сохраняется в отдельной базе данных сервиса (1.5). Копии сообщений, определенных как безопасные после антивирусной проверки, сохраняются в базе данных сервиса (1.6) (при этом, не уничтожая сообщений из ящиков клиентов).

На втором этапе (фиг. 3) один, или более, модулей обработки сообщений (2.3) с заданной периодичностью получают из Базы данных с информацией о зараженных сообщениях (2.1) (представленной на фиг. 2 под номером (1.5)) и Базы данных необработанных сообщений (2.2) (представленной на фиг. 2 под номером (1.6)) необработанные ранее этим Модулем сообщения, и обрабатывают каждое из сообщений по заложенному в Модуле алгоритму с целью получения информации, специфичной для каждого Модуля. В процессе обработки обрабатываться может как текст сообщения, так и любая служебная информация сообщения. Новая информация, полученная в результате обработки, сохраняется в Базе данных обработанной информации (2.4). Новые Модули с новыми алгоритмами обработки информации могут со временем быть добавлены в сервис по мере его развития.

Система предоставления итоговой информации (2.5) служит для предоставления конечным пользователям сервиса результатов обработки и требуемом виде (графики, сводные таблицы, отчеты и т.д.).

Описанную выше блок-схему можно проиллюстрировать на следующем примере.

Данные спам-сообщения поступают в сервис (в систему утилизации спама) посредством внешнего программного интерфейса в виде типизированного объекта, представляющего сообщение с набором всех свойств сообщения. Функционал доставки информации в сервис представляет из себя программу (либо различные программы), не являющиеся частью системы (сервиса). Условием функционирования данной программы (программ) является совместимость с интерфейсом доступа к сервису. Такая программа (программы) могут быть созданы сторонними разработчиками.

Интерфейс передачи сообщений в сервис подразумевает, что данные передаются в стандартном формате, описанном, в частности, в документе «Свойства».

Дальнейшая работа системы может быть представлена следующими примерами.

Существует компания с доменом электронной почты “компания.ком”.

Работнику компании, которому выделен корпоративный адрес электронной почты «инженер1@компания.ком», приходит сообщение из домена «хороший_отдых.рест» с заголовком «Летнее предложение отдыха на курортах Европы».

Соответственно, объект, доставляющий данные такого сообщения в систему, будет иметь свойства:

From: mail_sender@ хороший_отдых.рест

Subject: Летнее предложение отдыха на курортах Европы

To: инженер1@компания.ком

… другие свойства, не относящиеся к данному примеру.

Этот объект средствами сервиса, отвечающими за сохранение данных в базе данных необработанной информации (1.6 (2.2)), будет сохранен в виде записи в таблице этой базы данных в таком виде, что значение каждого из свойств объекта (From, Subject, To и т.д.) будет сохранено в отдельном поле (столбце) таблицы.

Далее, установленный на сервере сервис (для системы Windows представленный в виде Службы Windows (англ. Windows Service) — приложение, автоматически (если настроено) исполняемое системой при запуске операционной системы Windows и выполняющиеся вне зависимости от статуса пользователя. Имеет общие черты с концепцией демонов в Unix) запускает по расписанию набор установленных на этом сервере программ (модулей обработки).

Предположим, что имеется всего один модуль обработки 2.3, ориентированный на обработку данных отправителя, получателя и проверку заголовка сообщения на нарушение закона.

Данный модуль после запуска получает из базы данных необработанной информации 1.6 (2.2) записи с информацией сообщений, еще не обработанных данным модулем.

Модуль 2.3 выделяет из объекта сообщения значения свойств From, To и Subject. Модуль проверяет заголовок сообщения (значение свойства Subject) на наличие в нем слов, нарушающих закон.

Результат данной проверки будет представлен логическим значением: либо «да» (нарушает), либо «нет» (не нарушает). В данном примере результат будет – «нет».

Далее модуль проверяет наличие в базе данных результатов обработки кластеров для отправителя “mail_sender@ хороший_отдых.рест”, получателя “инженер1@компания.ком” и кластера сообщений, не нарушающих закона.

Если, хотя бы один из таких кластеров не существует в базе данных результатов обработки, то модуль создает соответствующий кластер в базе 2.4 данных результатов обработки.

Далее модуль 2.3 добавляет к каждому кластеру информацию из обработанного сообщения, специфичную для данного модуля.

Затем модуль делает запись в базе данных необработанной информации, что данное сообщение было успешно обработано данным модулем.

Если точно такое же сообщение было отправлено от этого же отправителя работнику компании с адресом электронной почты контроллер2@компания.ком, то описываемый в примере модуль 2.3 обработки, должен проверить данные этого сообщения и добавить данные этого сообщения к кластеру отправителя (поскольку считаем, что такой кластер создан при обработке предыдущего примера), кластеру соответствия закону (поскольку считаем, что такой кластер создан при обработке предыдущего примера), и создать кластер для получателя “контроллер2@компания.ком” (если такой кластер не был создан ранее).

Способ извлечения информации из спама, содержащий этапы, на которых:

получают сообщения из спам-папок;

сохраняют необработанные сообщения по меньшей мере в одну базу данных необработанных сообщений;

посредством по меньшей мере одного модуля обработки спама анализируют текст и служебную информацию каждого спам-сообщения в базе данных необработанных сообщений в соответствии с заданным критерием кластеризации спама по заданному критерию;

извлекают полезную информацию из сформированного кластера;

выполняют антивирусную проверку для предотвращения заражения посредством блока антивирусной защиты и базы данных с информацией о зараженных сообщениях;

сохраняют полученную в результате вышеуказанной обработки обработанную информацию в базе данных обработанной информации, где база данных обработанной информации связана по меньшей мере с одним упомянутым модулем обработки спама; и

предоставляют пользователю результаты обработки посредством модуля предоставления обработанной информации, связанного по меньшей мере с одной упомянутой базой данных обработанной информации.



 

Похожие патенты:

Изобретение относится к маршрутизации передачи информации. Технический результат заключается в повышении точности расчетов кратчайшего пути маршрутизации, повышении быстродействия работы и снижении вычислительной нагрузки бортового маршрутизатора космического аппарата (КА).

Изобретение относится к области беспроводной связи. Техническим результатом является обеспечение сетевого элемента управления политикой информацией качества обслуживания.

Изобретение относится к области телекоммуникаций. Технический результат изобретения заключается в возможности избежать нежелательного увеличения сигнализации отклонения за счет предоставления информации об области обслуживания аналитики второму сетевому объекту (105) сети мобильной связи, в частности объекту (105) хранилища сетевых функций.

Изобретение относится к области обработки информации об отказах оборудования сенсорных и беспроводных сетей. Техническим результатом является уменьшение количества ошибок предсказания отказов оборудования сенсорных и беспроводных сетей.

Изобретение относится к области беспроводной связи. Техническим результатом является обеспечение подписания события оконечного устройства и отслеживания для конкретной услуги в 5G архитектуре.

Изобретение относится к методам балансировки TCP/UDP сессий в высоконагруженных сетях. Технический результат заявленного изобретения заключается в обеспечении идентичности балансировки для двух потоков трафика, составляющих сетевую сессию, и достигается тем, что принятый пакет передается в блок анализа для выделения Ethernet, IP и TCP/UDP-заголовков и формирования на их основе информационного блока – дескриптора.

Изобретение относится к технологиям обеспечения информационной безопасности. Технический результат заключается в повышении безопасности IoT-устройств посредством шлюза.

Изобретение относится к области систем мониторинга и анализа сетей передачи данных. Технический результат заключается в обеспечении возможности функционирования устройств предварительной обработки трафика с обеспечением целостности информационных потоков, передаваемых через TCP/UDP сессии.

Изобретение относится к системе и способам обеспечения авторизации пользователей на ресурсе доступа. Технический результат заключается в упрощении авторизации на ресурсе доступа.

Изобретение относится к технике электросвязи. Техническим результатом заявленного устройства является определение интервала входного трафика, в котором система связи функционирует с требуемой эффективностью информационного обмена, оцениваемой значениями КПД передачи информации, при обеспечении допустимого уровня информационных потерь, характеризуемого значениями тангенса угла полосовой эффективности системы связи.

Изобретение относится к оптимизации, автоматизации и формализации бизнес-процессов в области сертификации путем сбора, регистрации и учета информации о проходящей оценку соответствия продукции. Технический результат заключается в обеспечении автоматизированного контроля за всеми этапами процесса сертификации.
Наверх