Способ и система для определения параметра ошибки прогноза спама

Настоящее изобретение относится к области вычислительной техники. Технический результат заключается в повышении эффективности обнаружения спама за счёт определения параметра ошибки прогноза спама. Технический результат достигается за счёт того, что заявленное решение включает в себя получение множества сообщений электронной почты, предназначенных множеству пользователей, при этом сообщение электронной почты имеет параметр прогноза спама и параметр пользовательских взаимодействий, указывающий на наличие или отсутствие согласия получателя из множества пользователей с параметром прогноза спама, и распределение множества сообщений электронной почты между по меньшей мере двумя кластерами, содержащими соответствующие подмножества сообщений электронной почты; для кластера способ включает в себя определение контрольного параметра путем анализа подмножества сообщений электронной почты и параметров пользовательских взаимодействий и назначение контрольного параметра для этого кластера; для сообщения электронной почты способ включает в себя формирование параметра ошибки прогноза спама на основе различия между параметром прогноза спама и контрольным параметром и сохранение параметра ошибки прогноза спама в сочетании с сообщением электронной почты. 2 н. и 28 з.п. ф-лы, 6 ил.

 

Область техники, к которой относится изобретение

[0001] Настоящая технология в целом относится к службам электронной почты и, в частности, к способам и системам для определения параметра ошибки прогноза спама.

Уровень техники

[0002] Сообщения электронной почты стали весьма распространенным средством связи. Благодаря расширению доступа к сети Интернет пользователь имеет возможность заводить учетные записи в службе электронной почты и затем получать доступ к ним с помощью пользовательского электронного устройства, чтобы отправлять и получать сообщения электронной почты, таким образом заменяя более предпочтительным средством связи традиционные письма, телефонные разговоры и факсимильные сообщения.

[0003] Относительная простота получения учетной записи абонента электронной почты (часто бесплатно для пользователя) привела к увеличению количества спам-сообщений, отправляемых злоумышленниками и вредоносными организациями. Спам-сообщения представляют собой нежелательные сообщения, массово рассылаемые по электронной почте.

[0004] Многие спам-сообщения носят коммерческий характер, но могут также содержать ссылки на веб-ресурсы, которые по меньшей мере на первый взгляд могут выглядеть подобно известным пользователю веб-ресурсам (таким как страница интернет-банка и т.п.), но фактически являются фишинговыми веб-ресурсами или веб-ресурсами с вредоносным программным обеспечением.

[0005] Спам-сообщения не только раздражают и представляют опасность для электронного устройства получателя, но и создают значительную нагрузку для поставщиков услуг электронной почты (таких как Yandex™ Mail, Yahoo!™ Mail и т.п.) и сетей связи. Фактически спам-сообщения составляют основную часть ежедневного трафика электронной почты и поставщики услуг электронной почты разработали решения для фильтрации спам-сообщений, чтобы поддерживать удовлетворенность пользователей, а также целостность и работоспособность сети.

[0006] В целом, существует несколько основанных на применении компьютерной техники подходов к уменьшению количества спам-сообщений, принимаемых получателем в системе или службе распределения электронной почты. Например, простой подход, применяемый поставщиками услуг электронной почты, представляет собой фильтрацию спам-сообщений путем поиска определенных ключевых слов (таких как «бесплатные лекарства», «Cialis™» и т.п.). Тем не менее, такую фильтрацию отправитель спам-сообщений может легко обойти путем замены букв используемого для фильтрации ключевого слова на буквы, которые выглядят похоже, но в вычислительном отношении отличаются (например, путем замены латинской буквы «K» на букву кириллицы «К»).

Раскрытие изобретения

[0007] Целью настоящего изобретения является устранение по меньшей мере одного недостатка известных релевантных решений. В частности, разработчики настоящей технологии разработали способы и системы для определения параметра ошибки прогноза спама. Специалистам в данной области техники должно быть понятно, что цель настоящей технологии заключается в обнаружении ошибочной классификации сообщений электронной почты как спама или не спама и в некоторых случаях в использовании этих сведений для корректировки одного или нескольких алгоритмов, ошибочно классифицировавших одно или несколько сообщений электронной почты, с целью повышения их эффективности классификации. Иными словами, параметр ошибки прогноза спама может быть использован для обучения или повторного обучения алгоритмов машинного обучения (MLA, Machine Learning Algorithm) более точному прогнозированию электронных спам-сообщений, чтобы обеспечить службе электронной почты возможность соответствующей обработки таких спам-сообщений (например, перемещения их в папку спама).

[0008] Согласно первому аспекту настоящей технологии реализован способ определения параметра ошибки прогноза спама для параметра прогноза спама, сформированного выполняемым сервером алгоритмом обнаружения спама. Сервер связан с приложением электронной почты и выполняет алгоритм обнаружения спама. Способ выполняется сервером. Способ включает в себя получение сервером указания на множество сообщений электронной почты, предназначенных множеству пользователей приложения электронной почты. Сообщение из множества сообщений электронной почты имеет (а) параметр прогноза спама, указывающий на определение алгоритмом обнаружения спама того, что это сообщение из множества сообщений электронной почты представляет собой спам-сообщение электронной почты или не-спам-сообщение электронной почты, и (б) параметр пользовательских взаимодействий, указывающий на то, согласен ли получатель из множества пользователей с этим параметром прогноза спама. Способ включает в себя распределение сервером множества сообщений электронной почты между по меньшей мере двумя кластерами. Каждый кластер из числа по меньшей мере двух кластеров содержит подмножество сообщений электронной почты. В отношении кластера из числа по меньшей мере двух кластеров способ включает в себя определение сервером контрольного параметра для этого кластера путем анализа подмножества сообщений электронной почты и параметров пользовательских взаимодействий. Контрольный параметр соответствует спам-сообщению электронной почты или не-спам-сообщению электронной почты. Способ включает в себя назначение контрольного параметра для кластера из числа по меньшей мере двух кластеров и для каждого сообщения из подмножества сообщений электронной почты, содержащихся в нем. В отношении сообщения электронной почты из кластера способ включает в себя формирование сервером параметра ошибки прогноза спама на основе различия между параметром прогноза спама и соответствующим контрольным параметром. В отношении сообщения электронной почты из кластера способ включает в себя сохранение сервером параметра ошибки прогноза спама в сочетании с сообщением электронной почты из этого кластера.

[0009] В некоторых вариантах осуществления способа он дополнительно включает в себя определение сервером параметра пользовательских взаимодействий на основе по меньшей мере одного пользовательского взаимодействия между получателем и сообщением электронной почты из множества сообщений электронной почты. Пользовательские взаимодействия собраны из интерфейса электронной почты, отображаемого соответствующему получателю.

[00010] В некоторых вариантах осуществления способа пользовательское взаимодействие представляет собой (а) перемещение сообщения электронной почты в папку интерфейса электронной почты и/или (б) нажатие заранее заданной кнопки интерфейса электронной почты.

[00011] В некоторых вариантах осуществления способа кластеризация множества сообщений электронной почты выполняется на основе сходства признаков сообщений электронной почты.

[00012] В некоторых вариантах осуществления способа кластеризация выполняется с использованием алгоритма K ближайших соседей (KNN, K-Nearest Neighbor).

[00013] В некоторых вариантах осуществления способа сервер дополнительно выполняет приложение электронной почты.

[00014] В некоторых вариантах осуществления способа сервер способен связываться с сервером электронной почты, выполняющим приложение электронной почты.

[00015] В некоторых вариантах осуществления способа указание на множество сообщений электронной почты содержит это множество сообщений электронной почты.

[00016] В некоторых вариантах осуществления способа указание на множество сообщений электронной почты содержит векторное представление каждого сообщения из этого множества сообщений электронной почты, при этом векторное представление указывает на контент множества сообщений электронной почты и не содержит идентификаторов их получателей.

[00017] В некоторых вариантах осуществления способа он дополнительно включает в себя анализ сервером общего количества сообщений электронной почты в подмножестве сообщений электронной почты другого кластера из числа по меньшей мере двух кластеров и исключение сервером другого кластера из дальнейшего анализа, если это количество меньше заранее заданного порога.

[00018] В некоторых вариантах осуществления способа он дополнительно включает в себя повторное обучение сервером алгоритма обнаружения спама с использованием параметра ошибки прогноза спама.

[00019] В некоторых вариантах осуществления способа кластер из числа по меньшей мере двух кластеров содержит по меньшей мере два подкластера.

[00020] В некоторых вариантах осуществления способа множество сообщений электронной почты распределяется в кластер из числа по меньшей мере двух кластеров и в подкластер из числа по меньшей мере двух подкластеров.

[00021] В некоторых вариантах осуществления способа, если сообщение из множества сообщений электронной почты связано с контрольным параметром, указывающим на неправильную категоризацию в кластере из числа по меньшей мере двух кластеров или в подкластере из числа по меньшей мере двух подкластеров, то это значение контрольного параметра используется для этого множества сообщений электронной почты.

[00022] В некоторых вариантах осуществления способа контрольный параметр независимо назначается для сообщения из множества сообщений электронной почты в кластере из числа по меньшей мере двух кластеров и в подкластере из числа по меньшей мере двух подкластеров.

[00023] Согласно второму аспекту настоящей технологии реализован сервер для определения параметра ошибки прогноза спама для параметра прогноза спама, сформированного выполняемым сервером алгоритмом обнаружения спама. Сервер связан с приложением электронной почты и выполняет алгоритм обнаружения спама. Сервер способен получать указание на множество сообщений электронной почты, предназначенных множеству пользователей приложения электронной почты. Сообщение из множества сообщений электронной почты имеет (а) параметр прогноза спама, указывающий на определение алгоритмом обнаружения спама того, что это сообщение из множества сообщений электронной почты представляет собой спам-сообщение электронной почты или не-спам-сообщение электронной почты, и (б) параметр пользовательских взаимодействий, указывающий на то, согласен ли получатель из множества пользователей с этим параметром прогноза спама. Сервер способен распределять множество сообщений электронной почты между по меньшей мере двумя кластерами. Каждый кластер из числа по меньшей мере двух кластеров содержит подмножество сообщений электронной почты. Сервер способен определять контрольный параметр для кластера из числа по меньшей мере двух кластеров путем анализа подмножества сообщений электронной почты и параметров пользовательских взаимодействий. Контрольный параметр соответствует спам-сообщению электронной почты или не-спам-сообщению электронной почты. Сервер способен назначать контрольный параметр для кластера из числа по меньшей мере двух кластеров и для каждого сообщения из подмножества сообщений электронной почты, содержащихся в нем. Для сообщения электронной почты из кластера сервер способен формировать параметр ошибки прогноза спама на основе различия между параметром прогноза спама и соответствующим контрольным параметром. Для сообщения электронной почты из кластера сервер способен сохранять параметр ошибки прогноза спама в сочетании с сообщением электронной почты из этого кластера.

[00024] В некоторых вариантах осуществления сервера он дополнительно способен определять параметр пользовательских взаимодействий на основе по меньшей мере одного пользовательского взаимодействия между получателем и сообщением электронной почты из множества сообщений электронной почты. Пользовательские взаимодействия собраны из интерфейса электронной почты, отображаемого соответствующему получателю.

[00025] В некоторых вариантах осуществления сервера пользовательское взаимодействие представляет собой (а) перемещение сообщения электронной почты в папку интерфейса электронной почты и/или (б) нажатие заранее заданной кнопки интерфейса электронной почты.

[00026] В некоторых вариантах осуществления сервера кластеризация множества сообщений электронной почты выполняется сервером на основе сходства признаков сообщений электронной почты.

[00027] В некоторых вариантах осуществления сервера кластеризация выполняется сервером с использованием алгоритма KNN.

[00028] В некоторых вариантах осуществления сервера он дополнительно выполняет приложение электронной почты.

[00029] В некоторых вариантах осуществления сервера он способен связываться с сервером электронной почты, выполняющим приложение электронной почты.

[00030] В некоторых вариантах осуществления сервера указание на множество сообщений электронной почты содержит это множество сообщений электронной почты.

[00031] В некоторых вариантах осуществления сервера указание на множество сообщений электронной почты содержит векторное представление каждого сообщения из этого множества сообщений электронной почты, при этом векторное представление указывает на контент множества сообщений электронной почты и не содержит идентификаторов их получателей.

[00032] В некоторых вариантах осуществления сервер дополнительно способен анализировать общее количество сообщений электронной почты в подмножестве сообщений электронной почты другого кластера из числа по меньшей мере двух кластеров и исключать другой кластер из дальнейшего анализа, если это количество меньше заранее заданного порога.

[00033] В некоторых вариантах осуществления сервер дополнительно способен повторно обучать алгоритм обнаружения спама с использованием параметра ошибки прогноза спама.

[00034] В некоторых вариантах осуществления сервера кластер из числа по меньшей мере двух кластеров содержит по меньшей мере два подкластера.

[00035] В некоторых вариантах осуществления сервера множество сообщений электронной почты распределяется в кластер из числа по меньшей мере двух кластеров и в подкластер из числа по меньшей мере двух подкластеров.

[00036] В некоторых вариантах осуществления сервера, если сообщение из множества сообщений электронной почты связано с контрольным параметром, указывающим на неправильную категоризацию в кластере из числа по меньшей мере двух кластеров или в подкластере из числа по меньшей мере двух подкластеров, то это значение контрольного параметра используется для этого множества сообщений электронной почты.

[00037] В некоторых вариантах осуществления сервера контрольный параметр независимо назначается для сообщения из множества сообщений электронной почты в кластере из числа по меньшей мере двух кластеров и в подкластере из числа по меньшей мере двух подкластеров.

[00038] В контексте настоящего описания термин «сервер» означает компьютерную программу, выполняемую соответствующими аппаратными средствами и способную принимать запросы (например, из электронных устройств) через сеть и выполнять эти запросы или инициировать их выполнение. Аппаратные средства могут представлять собой один физический компьютер или одну компьютерную систему, что не существенно для настоящей технологии. В настоящем контексте выражение «по меньшей мере один сервер» не означает, что каждая задача (например, принятая команда или запрос) или некоторая определенная задача принимается, выполняется или запускается тем же сервером (т.е. одними и теми же программными и/или аппаратными средствами). Это выражение означает, что любое количество программных средств или аппаратных средств может принимать, отправлять, выполнять или инициировать выполнение любой задачи или запроса либо результатов любых задач или запросов. Все эти программные и аппаратные средства могут представлять собой один сервер или несколько серверов, причем оба эти случая подразумеваются в выражении «по меньшей мере один сервер».

[00039] В контексте настоящего описания, если явно не указано другое, числительные «первый», «второй», «третий» и т.д. используются лишь для указания различия между существительными, к которым они относятся, но не для описания каких-либо определенных взаимосвязей между этими существительными. Например, должно быть понятно, что использование терминов «первый сервер» и «третий сервер» не подразумевает какого-либо определенного порядка, типа, хронологии, иерархии или классификации, в данном случае, серверов, а также что их использование (само по себе) не подразумевает обязательного наличия «второго сервера» в любой ситуации. Кроме того, как встречается в настоящем описании в другом контексте, ссылка на «первый» элемент и «второй» элемент не исключает того, что эти два элемента в действительности могут быть одним и тем же элементом. Таким образом, например, в некоторых случаях «первый» сервер и «второй» сервер могут представлять собой одно и то же программное и/или аппаратное средство, а в других случаях - различные программные и/или аппаратные средства.

[00040] В контексте настоящего описания, если явно не указано другое, термин «база данных» означает любой структурированный набор данных, независимо от его конкретной структуры, программного обеспечения для управления базой данных или компьютерных аппаратных средства для хранения этих данных, их применения или обеспечения их использования иным способом. База данных может располагаться в тех же аппаратных средствах, где реализован процесс, обеспечивающий хранение или использование информации, хранящейся в базе данных, либо база данных может располагаться в отдельных аппаратных средствах, таких как специализированный сервер или множество серверов.

Краткое описание чертежей

[00041] Дальнейшее описание приведено для лучшего понимания настоящей технологии, а также других аспектов и их признаков, и должно использоваться совместно с приложенными чертежами.

[00042] На фиг. 1 представлена схема системы, реализованной согласно не имеющим ограничительного характера вариантам осуществления настоящей технологии.

[00043] На фиг. 2 приведена схема работы приложения электронной почты, представленного на фиг. 1, включая алгоритм обнаружения спама, согласно не имеющим ограничительного характера вариантам осуществления настоящей технологии.

[00044] На фиг. 3 приведено схематическое представление процедуры кластеризации сообщений электронной почты, выполняемой сервером системы, представленной на фиг. 1, согласно не имеющим ограничительного характера вариантам осуществления настоящей технологии.

[00045] На фиг. 4 приведена схема определения сервером системы, представленной на фиг. 1, контрольных параметров для соответствующих кластеров, согласно не имеющим ограничительного характера вариантам осуществления настоящей технологии.

[00046] На фиг. 5 приведена структура кластеров, выдаваемая процедурой кластеризации сообщений электронной почты, представленной на фиг. 3, согласно не имеющим ограничительного характера вариантам осуществления настоящей технологии.

[00047] На фиг. 6 представлена блок-схема способа определения параметра ошибки прогноза спама, выполняемого согласно не имеющим ограничительного характера вариантам осуществления настоящей технологии.

Осуществление изобретения

[00048] На фиг. 1 представлена схема системы 100, пригодной для реализации не имеющих ограничительного характера вариантов осуществления настоящей технологии. Очевидно, что система 100 приведена лишь для иллюстрации варианта реализации настоящей технологии. Таким образом, дальнейшее описание системы представляет собой описание примеров, иллюстрирующих настоящую технологию. Это описание не предназначено для определения объема или границ настоящей технологии. В некоторых случаях приводятся полезные примеры модификаций системы 100. Они способствуют пониманию, но также не определяют объема или границ настоящей технологии. Эти модификации не составляют исчерпывающего перечня. Как должно быть понятно специалисту в данной области, вероятно, возможны и другие модификации. Кроме того, если в некоторых случаях модификации не описаны (т.е. примеры модификаций отсутствуют), это не означает, что они невозможны и/или что это описание содержит единственно возможный вариант реализации того или иного элемента настоящей технологии. Специалисту в данной области должно быть понятно, что это может быть не так. Кроме того, следует понимать, что система 100 в некоторых случаях может представлять собой упрощенную реализацию настоящей технологии, и что такие варианты представлены для того, чтобы способствовать лучшему ее пониманию. Специалистам в данной области должно быть понятно, что другие варианты осуществления настоящей технологии могут быть значительно сложнее.

[00049] Представленные здесь примеры и условный язык предназначены для обеспечения лучшего понимания принципов настоящей технологии, а не для ограничения ее объема до таких специально приведенных примеров и условий. Очевидно, что специалисты в данной области техники способны разработать различные способы и устройства, которые явно не описаны и не показаны, но реализуют принципы настоящей технологии в пределах ее существа и объема. Кроме того, чтобы способствовать лучшему пониманию, последующее описание может содержать упрощенные варианты реализации настоящей технологии. Специалисту в данной области должно быть понятно, что другие варианты осуществления данной технологии могут быть значительно сложнее.

[00050] Описание принципов, аспектов и вариантов реализации настоящей технологии, а также их конкретные примеры предназначены для охвата их структурных и функциональных эквивалентов, независимо от того, известны они в настоящее время или будут разработаны в будущем. Например, специалистам в данной области техники должно быть понятно, что любые описанные здесь структурные схемы соответствуют концептуальным представлениям иллюстративных принципиальных схем, реализующих основы настоящей технологии. Также должно быть понятно, что любые блок-схемы, схемы процессов, диаграммы изменения состояния, псевдокоды и т.п. соответствуют различным процессам, которые могут быть представлены на машиночитаемом физическом носителе информации и могут выполняться компьютером или процессором, независимо от того, показан такой компьютер или процессор явно или нет.

[00051] Функции различных элементов, показанных на рисунках, включая любой функциональный блок, обозначенный как «процессор», могут быть реализованы с использованием специализированных аппаратных средств, а также аппаратных средств, способных выполнять соответствующее программное обеспечение. Если используется процессор, эти функции могут выполняться одним выделенным процессором, одним совместно используемым процессором или множеством отдельных процессоров, некоторые из которых могут использоваться совместно. В некоторых вариантах осуществления настоящей технологии процессор может представлять собой процессор общего назначения, такой как центральный процессор (CPU), или специализированный процессор, такой как графический процессор (GPU). Кроме того, явное использование термина «процессор» или «контроллер» не должно трактоваться как указание исключительно на аппаратные средства, способные выполнять программное обеспечение, и может подразумевать, помимо прочего, аппаратные средства цифрового сигнального процессора (DSP), сетевой процессор, специализированную интегральную схему (ASIC), программируемую вентильную матрицу (FPGA), постоянное запоминающее устройство (ПЗУ) для хранения программного обеспечения, оперативное запоминающее устройство (ОЗУ) и энергонезависимое запоминающее устройство. Также могут подразумеваться другие аппаратные средства, общего назначения и/или заказные.

[00052] Далее с учетом вышеизложенных принципов рассмотрены некоторые не имеющие ограничительного характера примеры, иллюстрирующие различные варианты реализации аспектов настоящей технологии.

Электронное устройство

[00053] Система 100 содержит электронное устройство 102. Электронное устройство 102 взаимодействует с пользователем 101 и может называться «клиентским устройством». Следует отметить, что связь электронного устройства 102 с пользователем не означает необходимости предлагать или предполагать какой-либо режим работы, например, вход в систему, регистрацию и т.п.

[00054] В контексте настоящего описания, если явно не указано другое, термин «электронное устройство» означает любое компьютерное аппаратное средство, способное выполнять программы, подходящие для решения поставленной задачи. Таким образом, некоторые (не имеющие ограничительного характера) примеры электронных устройств включают в себя персональные компьютеры (настольные, ноутбуки, нетбуки и т.п.), смартфоны и планшеты, а также сетевое оборудование, такое как маршрутизаторы, коммутаторы и шлюзы. Следует отметить, что в данном контексте устройство, функционирующее как электронное устройство, также может функционировать как сервер в отношении других электронных устройств. Использование выражения «электронное устройство» не исключает использования нескольких электронных устройств для приема, отправки, выполнения или инициирования выполнения любой задачи или запроса либо результатов любых задач или запросов либо шагов любого описанного здесь способа.

[00055] Электронное устройство 102 может содержать энергонезависимое запоминающее устройство (ЗУ) (не показано) в виде одного или нескольких носителей информации и в общем случае обеспечивает пространство для хранения компьютерных команд, исполняемых процессором (не показан). Например, энергонезависимое ЗУ может быть реализовано в виде машиночитаемого физического носителя информации, включая ПЗУ, жесткие диски (HDD), твердотельные накопители (SSD) и карты флэш-памяти.

[00056] Электронное устройство 102 содержит известные в данной области техники аппаратные средства и/или прикладное программное обеспечение и/или встроенное программное обеспечение (либо их сочетание) для выполнения браузерного приложения 104. Браузерное приложение 104 обеспечивает пользователю 101 доступ к одному или нескольким веб-ресурсам. Способ реализации браузерного приложения 104известен в данной области техники и поэтому здесь не описывается. Достаточно сказать, что в качестве браузерного приложения 104 может использоваться приложение Google™ Chrome™, Yandex.Browser™ или другой коммерчески доступный или проприетарный браузер.

[00057] Независимо от способа реализации браузерного приложения 104, обычно оно имеет командный интерфейс (не показан) и интерфейс просмотра (не показан). В общем случае пользователь 101 может получать доступ к веб-ресурсу путем ввода адреса веб-ресурса (обычно универсального указателя ресурсов (URL, Universal Resource Locator), такого как www.example.com) в командном интерфейсе либо перехода по ссылке в сообщении электронной почты или в другом веб-ресурсе для перенаправления на данный веб-ресурс, контент которого, в свою очередь, может быть отображен для пользователя 101 в интерфейсе просмотра.

[00058] Пользователь 101 может согласно своей цели выполнять поиск интересующего ресурса с использованием поисковой системы (не показана). Это особенно удобно, когда пользователю известна интересующая его тема, но не известен URL-адрес веб-ресурса. Поисковая система обычно формирует страницу результатов поисковой системы (SERP, Search Engine Result Page), которая содержит ссылки на один или несколько веб-ресурсов, соответствующих запросу пользователя. Путем перехода по одной или нескольким ссылкам на странице SERP пользователь может открыть требуемый веб-ресурс.

[0001] В некоторых вариантах осуществления настоящей технологии пользователь 101 может использовать браузерное приложение 104 для доступа к приложению 150 электронной почты. В общем случае приложение 150 электронной почты соответствует одному или нескольким компьютерным алгоритмам, позволяющим серверу 106 предоставлять услуги электронной почты пользователю 101 электронного устройства 102. Например, пользователь 101 может иметь учетную запись абонента электронной почты, связанную с приложением 150 электронной почты. Пользователь 101 может ввести URL-адрес, связанный с приложением 150 электронной почты, в командном интерфейсе браузерного приложения 104 и может осуществлять доступ к своей учетной записи абонента электронной почты с помощью приложения 150 электронной почты.

[00060] В некоторых вариантах осуществления настоящей технологии в дополнение или вместо вышесказанного электронное устройство 102 может выполнять клиентское приложение электронной почты (не показано), связанное с (серверным) приложением 150 электронной почты. В общем случае клиентское приложение электронной почты предназначено для того, чтобы обеспечивать пользователю 101 возможность просмотра списка сообщений электронной почты (прочтенных и непрочтенных), читать сообщения электронной почты, открывать вложения, составлять новые сообщения электронной почты, отвечать на сообщения электронной почты, пересылать сообщения электронной почты, удалять сообщения электронной почты, управлять нежелательными сообщениями электронной почты, назначать категории сообщениям электронной почты, размещать сообщения электронной почты в папках, создавать адресную книгу и обращаться к ней т.п.

[00061] Независимо от того, использует пользователь 101 браузерное приложение 104 и/или клиентское приложение электронной почты для доступа к своей учетной записи электронной почты, предполагается, что пользователю 101 может быть предоставлен интерфейс электронной почты (не показан) для выполнения одного или нескольких действий в отношении сообщений электронной почты в своей учетной записи электронной почты. Ниже более подробно описаны функции приложения 150 электронной почты.

Интерфейс электронной почты

[00062] В общем случае интерфейс электронной почты предназначен для обеспечения взаимодействия пользователя приложения 150 электронной почты (например, пользователя 101) с сообщениями электронной почты в его учетной записи электронной почты. В не имеющем ограничительного характера примере интерфейс электронной почты может содержать одну или несколько панелей, одно или несколько меню, одну или несколько кнопок, а также может обеспечивать другие функции для взаимодействий пользователя с сообщениями электронной почты. Следует отметить, что в контексте настоящей технологии возможна реализация множества интерфейсов электронной почты.

[00063] Например, интерфейс электронной почты может содержать боковую панель, указывающую на одну или несколько папок электронной почты (заранее заданных и/или персонализированных), связанных с учетной записью электронной почты, таких как папка «входящие», папка «исходящие», папка «черновики», папка «спам», папка «удаленные» и т.п. В другом примере интерфейс электронной почты может содержать одну или несколько кнопок для выполнения различных действий в отношении сообщений электронной почты, таких как кнопка «составить» для составления нового сообщения электронной почты, кнопка «отправить» для отправки сообщения электронной почты, кнопка «сохранить» для сохранения текущей версии сообщения электронной почты, кнопка «прочтено» для указания того, что сообщение электронной почты прочтено или просмотрено пользователем, кнопка «не прочтено» для указания того, что сообщение электронной почты не прочтено или не просмотрено пользователем, кнопка «спам» для указания того, что сообщению электронной почты должна быть присвоена категория «спам», и/или для указания того, что сообщение электронной почты должно быть перемещено в папку «спам», кнопка «удалено» для указания того, что сообщение электронной почты должно быть удалено и/или что сообщение электронной почты должно быть перемещено в папку «удаленные» и т.п. В еще одном примере интерфейс электронной почты интерфейс электронной почты может поддерживать другие виды взаимодействия пользователя с сообщениями электронной почты, включая функцию перетаскивания, обеспечивающую пользователю возможность эффективного выбора сообщения электронной почты в первой папке и перемещения этого сообщения электронной почты во вторую папку, но не ограничиваясь ею.

[00064] Как описано ниже, данные пользовательских взаимодействий могут формироваться и собираться при выполнении пользователем приложения 150 электронной почты одного или нескольких действий в отношении сообщения (или сообщений) электронной почты с помощью интерфейса электронной почты.

Сеть связи

[00065] Электронное устройство 102 содержит интерфейс связи (не показан) для двухсторонней связи с сетью 114 связи по линии связи (не обозначена). В некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии в качестве сети 114 связи может использоваться сеть Интернет. В других вариантах осуществления настоящей технологии сеть 114 связи может быть реализована иначе, например, в виде любой глобальной сети связи, локальной сети связи, частной сети связи и т.п.

[00066] На реализацию линии связи не накладывается каких-либо особых ограничений, она зависит от реализации электронного устройства 102. Лишь в качестве примера, не имеющего ограничительного характера, в тех вариантах осуществления настоящей технологии, в которых электронное устройство 102 реализовано в виде беспроводного устройства связи (такого как смартфон), линия связи может быть реализована в виде беспроводной линии связи (такой как канал сети связи 3G, канал сети связи 4G, Wireless Fidelity или сокращенно WiFi®, Bluetooth® и т.п.) или проводной линии связи (такой как соединение на основе Ethernet).

[00067] Должно быть понятно, что варианты реализации электронного устройства 102, линии связи и сети 114 связи приведены лишь для иллюстрации. Специалисту в данной области должны быть понятны и другие конкретные детали реализации электронного устройства 102, линии связи и сети 114 связи. Представленные выше примеры никак не ограничивают объем настоящей технологии.

Веб-серверы

[00068] Система 100 также содержит множество веб-серверов 120, соединенных с сетью 114 связи. Сервер из множества веб-серверов 120 может быть реализован в виде традиционного компьютерного сервера. В примере осуществления настоящей технологии веб-сервер может быть реализован в виде сервера Dell™ PowerEdge™, работающего под управлением операционной системы Microsoft™ Windows Server™. Очевидно, что веб-сервер может быть реализован с использованием любых других подходящих аппаратных средств и/или прикладного программного обеспечения и/или встроенного программного обеспечения либо их сочетания.

[00069] В общем случае в некоторых вариантах осуществления настоящей технологии множество веб-серверов 120 выполняет функции репозиториев для веб-ресурсов. В контексте настоящего описания термин «веб-ресурс» означает любой связанный с конкретным веб-адресом (таким как URL-адрес) сетевой ресурс (такой как веб-страница, веб-сайт), контент которого может быть представлен пользователю в визуальной форме с помощью электронного устройства 102 с использованием браузерного приложения 104.

[00070] Веб-ресурс, размещенный на одном или нескольких серверах из множества веб-серверов 120, может быть доступен с использованием электронного устройства 102 через сеть 114 связи, например, путем ввода пользователем URL-адреса в браузерном приложении 104 или путем веб-поиска с использованием поисковой системы (не показана). Очевидно, что в некоторых случаях на веб-сервере из множества веб-серверов 120 могут быть размещены один или несколько веб-ресурсов, а в других случаях веб-ресурс может быть размещен на одном или нескольких веб-серверах из множества веб-серверов 120.

[00071] Как описано ниже, один или несколько серверов из множества веб-серверов 120 могут содержать другие серверные приложения электронной почты. В не имеющем ограничительного характера примере один или несколько серверов из множества веб-серверов 120 могут управляться одним или несколькими поставщиками услуг электронной почты.

Сервер

[00072] Система 100 также содержит сервер 106, соединенный с сетью 114 связи. Сервер 106 может быть реализован в виде традиционного компьютерного сервера. В примере осуществления настоящей технологии сервер 106 может быть реализован в виде сервера Dell™ PowerEdge™, работающего под управлением операционной системы Microsoft™ Windows Server™. Очевидно, что сервер 106 может быть реализован с использованием любых других подходящих аппаратных средств и/или прикладного программного обеспечения и/или встроенного программного обеспечения либо их сочетания. В представленном не имеющем ограничительного характера варианте осуществления настоящей технологии сервер 106 реализован в виде одного сервера. В других не имеющих ограничительного характера вариантах осуществления настоящей технологии функции сервера 106 могут быть распределены между несколькими серверами.

[00073] Реализация сервера 106 хорошо известна. Вкратце, сервер 106 содержит интерфейс связи (не показан), структура и настройки которого позволяют осуществлять связь с различными элементами (такими как электронное устройство 102 и другие устройства, которые могут быть связаны с сетью 114 связи) через сеть 114 связи.

[00074] Подобно электронному устройству 102, сервер 106 содержит один или несколько носителей информации и в общем случае обеспечивает пространство для хранения компьютерных программных команд, исполняемых одним или несколькими процессорами (не показаны) сервера 106. Например, один или несколько носителей информации могут быть реализованы в виде машиночитаемого физического носителя информации, включая ПЗУ и/или ОЗУ, и одного или нескольких устройств постоянного хранения, таких как жесткие диски (HDD), твердотельные накопители (SSD) и карты флэш-памяти.

[00075] В некоторых вариантах осуществления изобретения сервер 106 может управляться организацией, предоставляющей описанное выше браузерное приложение 104 и/или описанное выше клиентское приложение электронной почты. Например, если браузерное приложение 104 представляет собой приложение Yandex.Browser™, сервер 106 может управляться компанией ООО Яндекс (ул. Льва Толстого, 16, Москва, 119021, Россия). В другом примере, если клиентское приложение электронной почты представляет собой приложение Yandex.Mail™, сервером 106 также может управлять ООО Яндекс. В других вариантах осуществления изобретения сервер 106 может управляться организацией, отличной от той, что предоставляет описанное выше браузерное приложение 104.

[00076] Согласно не имеющим ограничительного характера вариантам осуществления настоящей технологии, сервер 106 может содержать (серверное) приложение 150 электронной почты. Как описано выше, приложение 150 электронной почты предназначено для предоставления услуг электронной почты одному или нескольким пользователям (включая пользователя 101), связанным с учетными записями приложения 150 электронной почты. Следует отметить, что сервер 106 может управляться поставщиком услуг электронной почты.

[00077] Приложение 150 электронной почты может быть доступно с помощью электронного устройства 102 путем ввода соответствующего URL-адреса (например, mail.yandex.ru и т.п.) в командном интерфейсе браузерного приложения 104 (или путем выбора связанной с ним гиперссылки) и/или путем выполнения вышеупомянутого клиентского приложения электронной почты. После обращения к приложению 150 электронной почты электронное устройство 102 может отображать интерфейс электронной почты пользователю 101 для обеспечения взаимодействия между пользователем 101 и сообщениями электронной почты в его учетной записи электронной почты. В некоторых вариантах осуществления настоящей технологии пользователю 101 может потребоваться вход в его учетную запись электронной почты, чтобы для него отображался интерфейс электронной почты.

[00078] В по меньшей мере некоторых вариантах осуществления настоящей технологии сервер 106, на котором размещено приложение 150 электронной почты, может выполнять функции агента передачи сообщений электронной почты и, таким образом, может передавать сообщения электронной почты получателям сообщений электронной почты от отправителей сообщений электронной почты (в качестве примера можно привести пользователя 101 электронного устройства 102). Ниже со ссылками на фиг. 2 более подробно описано возможное использование приложения 150 электронной почты для предоставления услуг электронной почты.

База данных

[00079] Серверу 106 доступна база 108 данных. В общем случае приложение 150 электронной почты может использовать базу 108 данных для предоставления услуг электронной почты соответствующим пользователям. Например, сервер 106 может хранить в базе 108 данных сообщения электронной почты, предназначенные для пользователя 101, связанного с электронным устройством 102. Следует отметить, что когда пользователь 101 электронного устройства 102 имеет предназначенное для него ожидающее сообщение электронной почты (в том смысле, что пользователь обращается к своему интерфейсу электронной почты для проверки предназначенных для него сообщений электронной почты), пользователь 101 может рассматриваться как получатель сообщения электронной почты в том смысле, что он представляет собой назначенного получателя ожидающего сообщения электронной почты.

[00080] Предполагается, что сервер 106 может обращаться к базе 108 данных с целью получения сообщений электронной почты, предназначенных для пользователя 101 электронного устройства 102, например, на основе по меньшей мере адреса электронной почты получателя, связанного с пользователем 101 электронного устройства 102, путем сопоставления его с адресами получателей в поле «Кому» множества сообщений электронной почты, хранящихся в базе 108 данных.

[00081] В некоторых вариантах осуществления изобретения база 108 данных может хранить в сочетании с сообщениями электронной почты указание на некоторые или на все вышеупомянутые поля сообщений. В некоторых вариантах осуществления изобретения база 108 данных также может содержать следующую информацию о сообщениях электронной почты: дата получения; дата прочтения; идентификатор пользователя; часовой пояс получателя сообщения электронной почты; связанное с сообщением электронной почты действие, выполненное пользователем (если имеется); вид электронного устройства, на котором было выполнено такое действие; платформа и/или операционная система такого электронного устройства; порядковый номер сообщения электронной почты во входном почтовом ящике; социально-демографическая информация о пользователе и т.п.

[00082] В базе 108 данных также может храниться поведенческая информация, связанная с взаимодействиями пользователей приложения 150 электронной почты с сообщениями электронной почты, предназначенными для пользователей приложения сообщений электронной почты 150 или сформированными ими. В некоторых вариантах осуществления изобретения поведенческая информация может храниться в базе 108 данных в сочетании с соответствующими учетными записями электронной почты. Например, в базе 108 данных может храниться список категорий сообщений электронной почты и/или папок (заранее заданных и/или персонализированных), связанных с учетной записью электронной почты приложения 150 электронной почты, таких как «персональная корреспонденция», «финансы», «реклама», «спам», «прочее» и т.п. Очевидно, что представленные здесь примеры не носят ограничительного характера и не составляют исчерпывающего перечня и что могут использоваться другие категории (а также некоторое количество заранее заданных категорий). В другом примере поведенческая информация может включать в себя данные, указывающие на пользовательские взаимодействия между пользователем и его сообщениями электронной почты, и может храниться в базе 108 данных вместе с соответствующей учетной записью электронной почты.

Серверное приложение электронной почты

[00083] Ниже со ссылкой на фиг. 2 описаны функции приложения 150 электронной почты. Представление 200 относится к возможному порядку обработки множества 210 сообщений электронной почты сервером 106, на котором размещено приложение 150 электронной почты.

[00084] Как показано на фиг. 2, приложение 150 электронной почты содержит множество 220 учетных записей электронной почты, каждая из которых, соответственно, связана с уникальным адресом электронной почты. Например, множество 230 пользователей (включая пользователя 101) могут иметь одну или несколько учетных записей электронной почты в приложении 150 электронной почты, чтобы в общем случае получать, отправлять и хранить сообщения электронной почты. Множество 210 сообщений электронной почты может быть получено сервером 106 от одного или нескольких отправителей электронной почты и сервер 106, среди прочего, способен обеспечивать множество сообщений электронной почты для множества 220 учетных записей электронной почты. Следует отметить, что в по меньшей мере некоторых вариантах осуществления настоящей технологии отправителями электронной почты могут быть пользователи из множества 230 пользователей приложения 150 электронной почты. Очевидно, что сервер 106 также может отправлять сообщения электронной почты от множества 220 учетных записей электронной почты приложения 150 электронной почты по адресам получателей этих сообщений электронной почты.

[00085] Следует отметить, что сообщение электронной почты из множества 210 сообщений электронной почты, полученное сервером 106, может содержать данные заголовка и данные контента. В общем случае, данные заголовка используются для целей передачи сообщения электронной почты и обычно содержат информацию, идентифицирующую тему, отправителя и получателя сообщения электронной почты. Например, данные заголовка могут содержать информацию (а) об адресе электронной почты отправителя, связанном с полем «От» сообщения электронной почты, (б) об адресе (или адресах) электронной почты получателя, связанном с полем «Кому», с полем «Копия» и/или с полем «Скрытая копия» сообщения электронной почты, (в) о заголовке, связанном с полем «Тема» сообщения электронной почты, и (г) другую подобную информацию.

[00086] Данные контента сообщения электронной почты обычно содержат контент, который отправитель желает предоставить получателю (или получателям) с использованием сообщения электронной почты. Например, данные контента сообщения электронной почты могут содержать информацию о теле сообщения электронной почты и об одном или нескольких файлах (если они имеются), прикрепленных к сообщению электронной почты, таких как веб-страницы, аудиофайлы, видеофайлы, файлы изображений, текстовые файлы и HTML-разметка. Очевидно, что сообщение электронной почты, помимо данных заголовка и данных контента, может содержать дополнительные данные (например, метаданные сообщения электронной почты) без выхода за границы настоящей технологии.

[00087] Получив сообщение электронной почты из множества 210 сообщений электронной почты, сервер 106 может обработать данные заголовка сообщения электронной почты и определить учетную запись электронной почты приложения 150 электронной почты, связанную с адресом получателя из данных заголовка сообщения электронной почты. Таким образом, сервер 106 может определить, какое сообщение электронной почты из множества 210 сообщений электронной почты должно быть предоставлено какой учетной записи электронной почты из множества 220 учетных записей электронной почты.

[00088] Например, если предположить, что адрес получателя из данных заголовка сообщения электронной почты соответствует адресу электронной почты учетной записи электронной почты, связанной с пользователем 101, то сервер 106 может сохранить сообщение электронной почты в базе 108 данных, связав ее с папкой «входящие» этой учетной записи электронной почты. В результате, когда пользователь 101 обращается к своей учетной записи электронной почты, интерфейс электронной почты указывает, что папка «входящие» содержит это сообщение электронной почты.

[00089] Очевидно, что пользователь 101 может использовать интерфейс электронной почты для взаимодействий с этим сообщением электронной почты. Например, пользователь 101 может решить «прочесть» сообщение электронной почты. В некоторых случаях пользователь 101 может косвенным образом «прочесть» сообщение электронной почты путем открытия этого сообщения электронной почты для просмотра его контента. В других случаях пользователь 101 может явным образом «прочесть» сообщение электронной почты путем нажатия кнопки «прочтено» в интерфейсе электронной почты. В другом примере пользователь 101 может решить «удалить» сообщение электронной почты. В некоторых случаях пользователь 101 может косвенным образом «удалить» сообщение электронной почты путем перетаскивания этого сообщения электронной почты из папки «входящие» в папку «удаленные» или в папку «мусор». В других случаях пользователь 101 может явным образом «удалить» сообщение электронной почты путем нажатия кнопки «удалить» или кнопки «мусор» в интерфейсе электронной почты. В другом примере пользователь 101 может решить, что сообщение электронной почты представляет собой спам. В некоторых случаях пользователь 101 может косвенным образом присвоить сообщению электронной почты категорию «спам» путем перетаскивания этого сообщения электронной почты из папки «входящие» в папку «спам» или в папку «мусор». В других случаях пользователь может явным образом присвоить сообщению электронной почты категорию «спам» путем нажатия кнопки «спам» в интерфейсе электронной почты.

[00090] В по меньшей мере некоторых вариантах осуществления настоящей технологии предполагается, что косвенные и/или явные пользовательские взаимодействия между сообщением электронной почты и пользователем 101 могут собираться и сохраняться в базе 108 данных в сочетании с сообщением электронной почты. Следует отметить, что представленные выше примеры косвенных и явных пользовательских взаимодействий между сообщением электронной почты и пользователем 101 не составляют исчерпывающего перечня и что данные, указывающие на другие пользовательские взаимодействия, могут подобным образом собираться сервером 106 и сохраняться в базе 108 данных в связи с сообщением электронной почты.

[00091] Как описано ниже, разработчики настоящей технологии разработали способы и системы, позволяющие использовать данные пользовательских взаимодействий между пользователями и сообщениями электронной почты для повышения эффективности категоризации сообщений электронной почты приложением 150 электронной почты. В по меньшей мере некоторых вариантах осуществления настоящей технологии описанные здесь способы и системы позволяют использовать данные пользовательских взаимодействий между пользователями и сообщениями электронной почты для повышения эффективности обнаружения спама приложением 150 электронной почты.

Обнаружение спама

[00092] В контексте настоящей технологии спам-сообщения электронной почты соответствуют непрошенным сообщениям электронной почты, полученным пользователями службы электронной почты. Спам-сообщения электронной почты часто рассылаются массово большому количеству получателей. Беспорядочная отправка непрошенных сообщений электронной почты большому количеству получателей в данной области техники иногда называется спамингом.

[00093] Следует отметить, что многие спам-сообщения электронной почты носят коммерческий характер, но другие спам-сообщения могут содержать ссылки на веб-ресурсы, содержащие вредоносное программное обеспечение. Спам также мешает пользователям в полной мере и с пользой использовать свое время, что негативно влияет на их удовлетворенность службой электронной почты. Спам также является причиной неисчислимых финансовых убытков для многих пользователей, которые стали жертвами интернет-мошенничества и других мошеннических действий спамеров, рассылающих спам-сообщения электронной почты, выдавая себя за представителей уважаемых компаний, с целью убедить людей раскрыть конфиденциальную личную информацию, такую как пароли и номера кредитных карт.

[00094] Кроме того, спам-сообщения электронной почты создают дополнительную нагрузку для поставщиков услуг электронной почты, занимая значительный объем памяти и используя значительную часть пропускной способности сети. Огромный объем спам-сообщений электронной почты, передаваемых через компьютерные сети, среди прочего, негативно влияет на объем памяти серверов электронной почты, пропускную способность канала связи и ресурсы центрального процессора. Спам-сообщения электронной почты составляют значительную часть ежедневного интернет-трафика электронной почты. В некоторых случаях спаминг может использоваться для «бомбардировки» электронной почтой входного почтового ящика получателя путем отправки большого количества сообщений электронной почты по целевому адресу получателя. В других случаях спаминг может использоваться для осуществления атак вида «отказ в обслуживании» (DoS, Denial-Of-Service) на серверы, на которых размещены службы электронной почты.

[00095] Для уменьшения рисков, связанных со спам-сообщениями электронной почты, приложение 150 электронной почты сервера 106 способно выполнять алгоритм 250 обнаружения спама. В общем случае алгоритмы обнаружения спама (иногда называемые алгоритмами фильтрации спама) предназначены для обнаружения потенциальных спам-сообщений электронной почты и выполнения в их отношении одного или нескольких действий, таких как отфильтровывание сообщения электронной почты и/или присвоение сообщению электронной почты обозначения «спам» для его получателя.

[00096] В по меньшей мере некоторых не имеющих ограничительного характера вариантах осуществления настоящей технологии алгоритм 250 прогнозирования спама может быть реализован в виде одного или нескольких алгоритмов MLA. В общем случае алгоритмы MLA способны обучаться и осуществлять прогнозирование на основе данных. Алгоритмы MLA обычно используются для первоначального построения модели на основе обучающих входных данных, чтобы затем на основе данных формировать прогнозы или принимать решения, выраженные в виде выходных данных, вместо выполнения статических машиночитаемых команд. В некоторых случаях алгоритмы MLA различных видов с различными структурами или топологиями могут использоваться в сочетании и могут образовывать по меньшей мере часть алгоритма 250 обнаружения спама.

[00097] В не имеющем ограничительного характера примере алгоритм 250 обнаружения спама может содержать нейронную сеть (NN, Neural Network). В общем случае сеть NN состоит из взаимосвязанных групп искусственных «нейронов», которые обрабатывают информацию с использованием коннекционного подхода. Сети NN используются для моделирования сложных взаимосвязей между входными и выходными данными (без фактической информации об этих взаимосвязях) или для поиска закономерностей в данных. Сети NN сначала адаптируются на этапе обучения, когда они обеспечиваются известным набором входных данных и информацией для адаптации сети NN с целью формирования надлежащих выходных данных (для ситуации, для которой выполняется попытка моделирования). На этом этапе обучения сеть NN адаптируется к изучаемой ситуации и изменяет свою структуру так, чтобы сеть NN была способна обеспечивать адекватно предсказанные выходные данные для входных данных в новой ситуации (на основе того, что было выучено). Таким образом, вместо попытки определения сложных статистических распределений или математических алгоритмов для данной ситуации, сеть NN пытается предоставить «интуитивный» ответ на основе «восприятия» ситуации. Таким образом, сеть NN представляет собой некоторого рода обученный черный ящик, который может быть использован в ситуациях, когда содержимое ящика не имеет значения, а важно лишь то, что этот ящик предоставляет адекватные ответы для входных данных. Сети NN широко используются во многих ситуациях, где важно лишь получение выходных данных на основе входных данных, и менее важна или вовсе не важна информация о том, как эти выходные данные получены.

[00098] Таким образом, можно сказать, что в по меньшей мере некоторых вариантах осуществления настоящей технологии алгоритм 250 обнаружения спама может представлять собой алгоритм обнаружения спама на основе сети NN. Например, алгоритм 250 обнаружения спама может содержать нейронные сети вида «многослойный перцептрон» (MLPNN, Multilayer Perceptron Neural Network). В другом примере алгоритм 250 обнаружения спама может содержать нейронные сети радиально-базисных функций (RBFNN, Radial Base Function Neural Network).

[00099] В некоторых случаях в дополнение к одной или нескольким сетям NN или вместо них алгоритм 250 обнаружения спама может содержать алгоритм на основе метода опорных векторов (SVM, Support Vector Machine). В общем случае, алгоритмы на основе SVM представляют собой модели обучения с учителем, способные анализировать данные и определять закономерности, используемые для категоризации и исследования взаимосвязей между интересующими переменными, и поэтому хорошо подходят для задач классификации спама. В других случаях алгоритм 250 обнаружения спама также может содержать алгоритмы MLA других видов, такие как алгоритмы на основе деревьев решений (DT, Decision Trees), наивные байесовские классификаторы (NB, Naïve Bayes) и/или эволюционные алгоритмы (AE, Evolutionary Algorithm) с методами стохастической оптимизации, для решения задач классификации спама.

[000100] Вкратце, можно сказать, что реализация алгоритма MLA может быть разделена на два основных этапа: этап обучения и этап использования. Сначала алгоритм MLA обучается на этапе обучения. Затем, когда алгоритму MLA известно, какие предполагаются входные данные и какие должны выдаваться выходные данные, этот алгоритм MLA выполняется с реальными данными на этапе использования.

[000101] Первоначальное обучение алгоритмов MLA различных видов и последующее их использование для решения задач фильтрации спама в по меньшей мере некоторых вариантах осуществления настоящей технологии описано в статье «Machine learning for email spam filtering: review, approaches and open research problems» (опубликована 11 июня 2019 г.), содержание которой полностью включено в настоящий документ посредством ссылки.

[000102] В некоторых вариантах осуществления настоящей технологии алгоритм 250 обнаружения спама может применять один или несколько способов фильтрации на основе контента в отношении сообщений электронной почты, полученных сервером 106. Обычно фильтрация на основе контента применяется для создания правил автоматической фильтрации и классификации или категоризации сообщений электронной почты с использованием способов машинного обучения на основе концепций NB, SVM, NN и т.п. Например, такие способы могут использоваться для анализа слов, появления и распределения символов, слов и фраз в контенте сообщений электронной почты (данных контента) с целью обучения алгоритма 250 обнаружения спама, в известном смысле, «изучению» взаимосвязей и/или закономерностей в контенте сообщения электронной почты, указывающих на спам. Обученный таким образом алгоритм 250 обнаружения спама может анализировать контент сообщения электронной почты, чтобы определять, является сообщение электронной почты спамом или нет.

[000103] В других вариантах осуществления изобретения алгоритм 250 обнаружения спама может применять один или несколько способов фильтрации спама на основе выборок. Сначала сообщения электронной почты (спам- и не-спам-сообщения электронной почты) получаются из учетных записей электронной почты с использованием модели сбора информации. Затем выполняются шаги обработки, чтобы (в известном смысле) преобразовать сообщение электронной почты в вектор, представляющий это сообщение электронной почты, путем извлечения признаков, выбора и группировки данных сообщения электронной почты и т.п. Затем векторы разделяются на два набора векторов (векторы, представляющие спам-сообщения электронной почты, и векторы, представляющие не-спам-сообщения электронной почты). Наконец, алгоритм 250 обнаружения спама обучается на сформированных таким образом векторах и соответствующих метках (указывающих на то, связаны эти векторы со спамом или нет), чтобы затем использоваться для определения того, является сообщение электронной почты спамом или нет.

[000104] В других вариантах осуществления изобретения алгоритм 250 обнаружения спама может применять один или несколько способов эвристической фильтрации спама или способов на основе правил. Обычно в таких способах заранее заданные правила или эвристики используются для определения наличия в сообщении электронной почты закономерностей, указывающих на спам. Например, сообщению электронной почты может быть присвоена спам-оценка и чем больше указывающих на спам закономерностей обнаружено в сообщении электронной почты, тем эта спам-оценка выше. Сообщения электронной почты, связанные со спам-оценками, превышающими заранее заданный порог, могут быть определены как спам. Некоторые правила и эвристики не изменяются с течением времени, другие же требуют непрерывного обновления для эффективного противодействия угрозам от спамеров, постоянно использующих новые виды спам-сообщений электронной почты, потенциально способные обходить существующие способы фильтрации на основе эвристик или правил.

[000105] В других вариантах осуществления изобретения алгоритм 250 обнаружения спама может применять один или несколько способов фильтрации спама на основе истории. В таких способах может потребоваться использование способов машинного обучения на основе памяти или на основе экземпляра для классификации сообщений электронной почты с учетом их сходства с сохраненными примерами (например, обучающими сообщениями электронной почты). В частности, признаки сообщения электронной почты могут быть использованы для создания вектора в многомерном пространстве, который затем используется для обозначения новых экземпляров (новых сообщений электронной почты) в качестве точек. Впоследствии новые экземпляры распределяются в самый популярный класс их K ближайших обучающих экземпляров. В этих вариантах осуществления изобретения алгоритм 250 обнаружения спама может использовать методы вида K ближайших соседей (KNN, K-Nearest Neighbor) для фильтрации спам-сообщений электронной почты.

[000106] В других вариантах осуществления настоящей технологии алгоритм 250 обнаружения спама может применять один или несколько способов адаптивной фильтрации спама. Такие способы фильтрации спама могут обнаруживать и отфильтровывать спам-сообщения электронной почты путем группировки их в различные классы или категории. При этом корпус сообщений электронной почты разделяется на различные группы и выполняется сравнение между сообщениями электронной почты и каждой группой. Для определения группы, к которой принадлежит сообщение электронной почты, может быть использована оценка сходства.

[000107] В по меньшей мере некоторых вариантах осуществления настоящей технологии предполагается, что алгоритм 250 обнаружения спама может быть реализован в виде одного или нескольких алгоритмов MLA и способен обнаруживать и отфильтровывать спам-сообщения электронной почты с применением одного или нескольких способов фильтрации на основе контента, способов фильтрации спама на основе выборок, способов фильтрации спама на основе эвристик или правил, способов фильтрации спама на основе истории и способов адаптивной фильтрации спама. Следует отметить, что различные поставщики услуг электронной почты могут использовать различные алгоритмы обнаружения спама и что виды алгоритмов MLA и способы фильтрации спама, используемые алгоритмом 250 обнаружения спама, могут зависеть от конкретного варианта реализации настоящей технологии.

[000108] Тем не менее, следует отметить, что алгоритмы обнаружения спама иногда могут ошибочно классифицировать не-спам-сообщение электронной почты как спам-сообщение или ошибочно классифицировать спам-сообщение электронной почты как не-спам-сообщение. В некоторых случаях алгоритмы обнаружения спама также могут включать в себя компьютерные средства, используемые для определения уровня риска сообщений электронной почты. В качестве не имеющих ограничительного характера примеров таких средств можно привести приемлемые пределы количества спама, инфраструктуру политики отправителей, белые списки и черные списки, а также инструментальные средства проверки получателя. В случае слишком низкого порога допустимого спама больше спама избегает фильтрации. При относительно высоком пороге некоторые важные сообщения электронной почты отсеиваются или классифицируются как спам (если оператор службы электронной почты не перенаправляет их).

[000109] Следует отметить, что один подход к обучению или повторному обучению алгоритмов MLA заключается в «оценивании» оценщиками-людьми прогнозов, сформированных алгоритмом MLA для некоторых входных данных, и в использовании этой информации для формирования нового обучающего примера. В случае алгоритмов обнаружения спама это может быть менее желательно в некоторых ситуациях, поскольку сообщения электронной почты (их контент) являются конфиденциальными. В результате может быть нежелательно использовать методы краудсорсинга для оценки прогнозов спама в отношении сообщений электронной почты. Как описано ниже, разработчики настоящей технологии разработали способы и системы, позволяющие собирать информацию для повторного обучения алгоритма обнаружения спама независимо от оценщика-человека и/или без его участия.

[000110] В по меньшей мере некоторых вариантах осуществления изобретения разработчики настоящей технологии разработали способы и системы, позволяющие использовать ошибочно классифицированные сообщения электронной почты (спам или не спам) для улучшения будущего обнаружения спама в приложении 150 электронной почты. В по меньшей мере некоторых вариантах осуществления настоящей технологии обучающие данные для обучения (или повторного обучения) алгоритма 250 обнаружения спама могут формироваться на основе ошибочно классифицированных сообщений электронной почты. Таким образом, можно сказать, что данные, связанные с ошибочно классифицированными сообщениями электронной почты, могут использоваться для корректировки алгоритма 250 обнаружения спама и повышения таким образом будущей эффективности алгоритма 250 обнаружения спама.

[000111] Ниже со ссылками на фиг. 3-5 более подробно описаны определение ошибочно классифицированных сообщений электронной почты и связанные с ними данные, которые могут собираться сервером 106.

Ошибочная классификация сообщений электронной почты (спам или не спам)

[000112] В общем случае сервер 106 может определять ошибочную классификацию сообщений электронной почты путем (а) выполнения классификации спама в отношении сообщений электронной почты, полученных сервером 106, для определения параметров прогноза спама, (б) выполнения процедуры кластеризации в отношении сообщений электронной почты, полученных сервером 106, (в) использования данных о пользовательских взаимодействиях и данных кластера сообщений электронной почты для назначения контрольного параметра сообщениям электронной почты и (г) сравнения контрольного параметра с параметром прогноза спама для определения ошибочной классификации сообщения электронной почты как спам или не спам.

[000113] На фиг. 3 приведено представление 300 порядка кластеризации сервером 106 сообщений электронной почты, полученных сервером 106. Показан набор 302 сообщений электронной почты, содержащий сообщения электронной почты, полученные сервером 106. Например, набор 302 сообщений электронной почты может быть сформирован на основе множества 210 сообщений электронной почты, полученных сервером 106.

[000114] Сервер 106 может выполнять процедуру 350 кластеризации сообщений электронной почты для распределения набора 302 сообщений электронной почты между двумя кластерами. Например, сервер 106 может определить два кластера, а именно, первый кластер 304 и второй кластер 306. В общем случае процедура 350 кластеризации предназначена для анализа набора 302 сообщений электронной почты и группировки их в подмножества сообщений электронной почты на основе их сходства.

[000115] В по меньшей мере одном варианте осуществления изобретения сервер 106 может формировать для сообщений электронной почты векторы признаков, содержащие признаки, представляющие эти сообщения электронной почты. Затем сервер 106 может определять, насколько «близки» или «удалены» друг от друга вектор признаков первого сообщения электронной почты и вектор признаков второго сообщения электронной почты, например, путем расчета евклидова расстояния между двумя векторами. В этом случае чем ближе друг к другу два вектора признаков, тем больше сходство первого и второго сообщений электронной почты. Чем дальше друг от друга два вектора признаков, тем меньше сходство первого и второго сообщений электронной почты.

[000116] В некоторых вариантах осуществления изобретения при выполнении процедуры 350 кластеризации сервер 106 может выполнять алгоритм KNN для кластеризации набора 302 сообщений электронной почты. Например, векторы признаков, связанные с сообщениями электронной почты из набора 302 сообщений электронной почты, могут отображаться в многомерное пространство, а сервер 106 может с использованием алгоритма KNN определять одну или несколько групп этих векторов признаков и соответствующим образом группировать сообщения электронной почты в кластеры.

[000117] Предполагается, что в некоторых вариантах осуществления изобретения может быть заранее задано (например, оператором приложения 150 электронной почты) общее количество кластеров, в которые должен быть сгруппирован набор 302 сообщений электронной почты. В других вариантах осуществления изобретения общее количество кластеров может быть заранее не известно.

[000118] Как показано в не имеющем ограничительного характера примере, представленном на фиг. 3, первый кластер 304 содержит первое подмножество 320 сообщений электронной почты из набора 302 сообщений электронной почты, а второй кластер 306 содержит второе подмножество 330 сообщений электронной почты из набора 302 сообщений электронной почты. В частности, первое подмножество 320 сообщений электронной почты, среди прочего, содержит сообщения 321, 322, 323 и 324 электронной почты, а второе подмножество 330 сообщений электронной почты, среди прочего, содержит сообщения 331, 332, 333 и 334 электронной почты.

[000119] Предполагается, что сервер 106 может хранить данные, указывающие на первый кластер 304 и на второй кластер 306, в базе 108 данных. Иными словами, сервер 106 может хранить в базе 108 данных информацию, указывающую на связь между сообщениями электронной почты и первым и вторым кластерами 304 и 306.

[000120] Независимо от вышеупомянутой процедуры 350 кластеризации, сервер 106 может использовать алгоритм 250 прогнозирования спама, чтобы формировать для каждого сообщения электронной почты из набора 302 сообщений электронной почты параметр прогноза спама, указывающий на то, что это сообщение электронной почты из набора 302 сообщений электронной почты представляет собой спам-сообщение электронной почты или не-спам-сообщение электронной почты.

[000121] Например, если параметр прогноза спама для сообщения электронной почты указывает но то, что сообщение электронной почты не является спамом, то это сообщение электронной почты может отображаться в папке «входящие» соответствующего получателя. Если же параметр прогноза спама для сообщения электронной почты указывает на то, что сообщение электронной почты является спамом, то это сообщение электронной почты может отображаться в папке «спам» соответствующего получателя и/или может быть помечено как спам-сообщение электронной почты. Независимо от конкретного способа указания получателю на то, что сообщение электронной почты является спамом или не спамом, предполагается, что интерфейс электронный почты, предоставляемый получателю, может отображать получателю указание на параметр прогноза спама, связанный с этим сообщением электронной почты.

[000122] Вкратце, можно сказать, что каждое сообщение электронной почты из набора 302 сообщений электронной почты, среди прочего, может быть связано (а) с параметром прогноза спама, определенным алгоритмом 250 обнаружения спама, и (б) с кластером, определенным процедурой 350 кластеризации.

[000123] Сервер 106 может получать из базы 108 данных данные пользовательских взаимодействий, сохраненные в сочетании с соответствующими сообщениями электронной почты из первого кластера 304 и из второго кластера 306. В общем случае, сервер 106 может получать данные пользовательских взаимодействий для формирования для сообщения электронной почты параметра пользовательских взаимодействий, указывающего на то, согласен ли получатель из множества пользователей с соответствующим параметром прогноза спама.

[000124] Например, если сообщение электронной почты отображается в папке «входящие» получателя, то это сообщение электронной почты связано с параметром прогноза спама, указывающим на то, что сообщение электронной почты не является спамом. Сервер 106 может анализировать данные пользовательских взаимодействий между получателем и сообщением электронной почты, чтобы определить, согласен ли получатель с этим параметром прогноза спама. В этом примере, если данные пользовательских взаимодействий для сообщения электронной почты содержат указание на то, что получатель переместил сообщение электронной почты из папки «входящие» в папку «спам» и/или что получатель нажал кнопку «спам» при выборе сообщения электронной почты, то сервер 106, например, может определить, что получатель не согласен с этим параметром прогноза спама для этого сообщения электронной почты. В противном случае сервер 106 может определить, что получатель согласен с этим параметром прогноза спама.

[000125] В другом примере, если сообщение электронной почты отображается в папке «спам» получателя и/или если сообщение электронной почты помечено как спам, то это сообщение электронной почты связано с параметром прогноза спама, указывающим на то, что сообщение электронной почты является спамом. Сервер 106 может анализировать данные пользовательских взаимодействий между получателем и сообщением электронной почты, чтобы определить, согласен ли получатель с параметром прогноза спама. В этом примере, если данные пользовательских взаимодействий для сообщения электронной почты содержат указание на то, что получатель переместил сообщение электронной почты из папки «спам» в папку «входящие» и/или что получатель нажал кнопку «не спам» при выборе сообщения электронной почты, то сервер 106 может определить, что получатель не согласен с этим параметром прогноза спама для сообщения электронной почты. В противном случае сервер 106 может определить, что получатель согласен с этим параметром прогноза спама.

[000126] Для ясности следует отметить, что сервер 106 может проанализировать много различных пользовательских взаимодействий, чтобы определить, согласен ли получатель с параметром прогноза спама сообщения электронной почты. Таким образом, независимо от конкретного пользовательского взаимодействия, используемого сервером 106, предполагается, что сервер 106 может анализировать данные пользовательских взаимодействий между сообщением электронной почты и пользователем, чтобы определить параметр пользовательских взаимодействий для этого сообщения электронной почты. В некоторых вариантах осуществления изобретения этот анализ сервером 106 данных о пользовательских взаимодействиях может основываться на одном или нескольких заранее заданных правилах, которые могут использоваться для (а) поиска пользовательских взаимодействий и (б) определения того, указывает ли это одно или несколько пользовательских взаимодействий на согласие и/или несогласие пользователя с классификацией сообщения электронной почты (спам или не спам).

[000127] Таким образом, можно сказать, что данные пользовательских взаимодействий между сообщением электронной почты и получателем могут указывать, (а) что получатель согласен с классификацией сообщения электронной почты (спам или не спам) или (б) что получатель не согласен с классификацией сообщения электронной почты. В некоторых вариантах осуществления изобретения в случае отсутствия данных о пользовательских взаимодействиях, указывающих на то, что получатель согласен с классификацией сообщения электронной почты, сервер 106 может определять, что получатель не согласен с классификацией сообщения электронной почты. В других вариантах осуществления изобретения в случае отсутствия данных о пользовательских взаимодействиях, указывающих на то, что получатель не согласен с классификацией сообщения электронной почты, сервер 106 может определять, что получатель согласен с классификацией сообщения электронной почты.

[000128] Также предполагается, что параметр пользовательских взаимодействий, указывающий на то, согласен ли получатель с параметром прогноза спама, может указывать на одно из следующего (в зависимости от сообщения электронной почты и соответствующего параметра прогноза спама):

- параметр пользовательских взаимодействий указывает на то, что получатель согласен с тем, что сообщение электронной почты является спамом;

- параметр пользовательских взаимодействий указывает, что получатель согласен с тем, что сообщение электронной почты не является спамом;

- параметр пользовательских взаимодействий указывает, что получатель не согласен с тем, что сообщение электронной почты является спамом; и

- параметр пользовательских взаимодействий указывает, что получатель не согласен с тем, что сообщение электронной почты не является спамом.

[000129] Вкратце, можно сказать, что каждое сообщение электронной почты из набора 302 сообщений электронной почты, среди прочего, может быть связано (а) с соответствующим кластером, (б) с соответствующим параметром прогноза спама и (в) с параметром пользовательских взаимодействий.

[000130] Сервер 106 также способен анализировать кластер и параметры пользовательских взаимодействий сообщений электронной почты с целью определения контрольного параметра для этого кластера. Для лучшей иллюстрации этого дальнейшее описание ссылается на фиг. 4. На фиг. 4 представлено первое подмножество 320 сообщений электронной почты (первого кластера 304), связанных с параметрами пользовательских взаимодействий. Например, сообщения 321, 322, 323 и 324 электронной почты, соответственно, связаны с параметрами 411, 412, 413 и 414 пользовательских взаимодействий. На фиг. 4 также представлено второе подмножество 330 сообщений электронной почты (второго кластера 306), связанных с параметрами пользовательских взаимодействий. Например, сообщения 331, 332, 333 и 334 электронной почты, соответственно, связаны с параметрами 441, 442, 443 и 444 пользовательских взаимодействий.

[000131] Например, если большинство сообщений электронной почты из первого подмножества 320 сообщений электронной почты связано с параметрами пользовательских взаимодействий, указывающими на согласие получателей с тем, что эти сообщения электронной почты являются спамом, и/или на несогласие с тем, что эти сообщения электронной почты не являются спамом, сервер 106 может назначить для первого кластера 304 контрольный параметр, указывающий на то, что первое подмножество 320 сообщений электронной почты содержит спам-сообщения электронной почты.

[000132] В другом примере, если большинство сообщений электронной почты из первого подмножества 320 сообщений электронной почты связано с параметрами пользовательских взаимодействий, указывающими на согласие получателей с тем, что эти сообщения электронной почты не являются спамом, и/или на несогласие с тем, что эти сообщения электронной почты являются спамом, сервер 106 может назначить для первого кластера 304 контрольный параметр, указывающий на то, что первое подмножество 320 сообщений электронной почты не содержит спам-сообщения электронной почты.

[000133] В некоторых вариантах осуществления изобретения вместо использования порога «большинство» для назначения контрольного параметра могут быть предусмотрены другие пороги. Например, сервер 106 может назначить для кластера контрольный параметр, указывающий на то, что кластер содержит спам-сообщения электронной почты, если более 75% сообщений электронной почты из этого кластера связаны с параметрами пользовательских взаимодействий, указывающими на согласие получателей с тем, что эти сообщения электронной почты являются спамом, и/или на несогласие с тем, что эти сообщения электронной почты не являются спамом. В другом примере сервер 106 может назначить для кластера контрольный параметр, указывающий на то, что кластер не содержит спам-сообщения электронной почты, если более 75% сообщений электронной почты из этого кластера связаны с параметрами пользовательских взаимодействий, указывающими на согласие получателей с тем, что эти сообщения электронной почты не являются спамом, и/или на несогласие с тем, что эти сообщения электронной почты являются спамом.

[000134] На определение заранее заданного порога не накладывается каких-либо особых ограничений. В одном случае оператор приложения 150 электронной почты может определять значение, подлежащее использованию в качестве заранее заданного порога. При этом в качестве заранее заданного порога для конкретных вариантов реализации настоящей технологии могут использоваться различные значения.

[000135] Пусть сервер 106 выполняет первый анализ 450 множества 410 параметров пользовательских взаимодействий и определяет, что 85% сообщений электронной почты из первого подмножества 320 сообщений электронной почты связаны с параметрами пользовательских взаимодействий, указывающими на согласие получателей с тем, что эти сообщения электронной почты являются спамом, и/или на несогласие с тем, что эти сообщения электронной почты не являются спамом (см. фиг. 4). Сервер 106 может сравнить это значение с заранее заданным порогом. В этом случае сервер 106 может определить, что значение 85% больше заранее заданного порога и определить для первого кластера 304 контрольный параметр 420, указывающий на то, что сообщения электронной почты из первого подмножества 320 сообщений электронной почты представляют собой спам-сообщения электронной почты.

[000136] Также пусть сервер 106 выполняет второй анализ 460 множества 440 параметров пользовательских взаимодействий и определяет, что 95% сообщений электронной почты из второго подмножества 330 сообщений электронной почты связаны с параметрами пользовательских взаимодействий, указывающими на согласие получателей с тем, что эти сообщения электронной почты не являются спамом, и/или на несогласие с тем, что эти сообщения электронной почты являются спамом (см. фиг. 4). Сервер 106 может сравнить это значение с заранее заданным порогом. В этом случае сервер 106 может определить, что значение 95% больше заранее заданного порога и определить для второго кластера 306 контрольный параметр 430, указывающий на то, что сообщения электронной почты из второго подмножества 330 сообщений электронной почты представляют собой не-спам-сообщения электронной почты.

[000137] Вкратце, можно сказать, что сообщение электронной почты из первого подмножества 320 первого кластера 304 связано (а) с параметром прогноза спама, определенным алгоритмом 250 прогнозирования спама, (б) с параметром пользовательских взаимодействий, определенным на основе данных о пользовательских взаимодействиях между сообщением электронной почты и соответствующим получателем, и (в) с контрольным параметром 420 первого кластера 304. Аналогично можно сказать, что сообщение электронной почты из второго подмножества 330 второго кластера 306 связано (а) с параметром прогноза спама, определенным алгоритмом 250 прогнозирования спама, (б) с параметром пользовательских взаимодействий, определенным на основе данных о пользовательских взаимодействиях между сообщением электронной почты и соответствующим получателем, и (в) с контрольным параметром 430 второго кластера 306.

[000138] Сервер 106 также способен определять параметр ошибки прогноза спама для сообщений электронной почты из первого кластера 304 и/или из второго кластера 306 на основе параметров прогноза спама, определенных алгоритмом 250 прогнозирования спама, и контрольных параметров 420 и 430, соответственно. В общем случае сервер 106 может определять параметр ошибки прогноза спама для сообщения электронной почты путем определения того, подтверждается или нет параметр прогноза спама соответствующим контрольным параметром. Например, сервер 106 может определять параметр ошибки прогноза спама для сообщения электронной почты на основе различия между параметром прогноза спама и соответствующим контрольным параметром.

[000139] В предыдущем примере, в котором контрольный параметр 420 для первого кластера 304 указывает на то, что сообщения электронной почты из первого подмножества 320 сообщений электронной почты представляют собой спам-сообщения электронной почты, сервер 106 может определить параметр ошибки прогноза спама для сообщения 321 электронной почты из первого кластера 304. Пусть при классификации (спам или не спам) алгоритмом 250 обнаружения спама сервер 106 определяет параметр прогноза спама для сообщения 321 электронной почты, указывающий на то, что сообщение 321 электронной почты представляет собой спам-сообщение электронной почты. В этом примере сервер 106 может сравнить (а) параметр прогноза спама для сообщения 321 электронной почты, указывающий на то, что сообщение 321 электронной почты представляет собой спам-сообщение электронной почты, и (б) контрольный параметр 420, указывающий на то, что сообщение 321 электронной почты (входящее в состав первого кластера 304) представляет собой спам-сообщение электронной почты. Таким образом, в этом примере сервер 106 может определить, что алгоритм прогнозирования спама правильно классифицировал сообщение 321 электронной почты как спам-сообщение электронной почты.

[000140] В предыдущем примере, в котором контрольный параметр 420 для первого кластера 304 указывает на то, что сообщения электронной почты из первого подмножества 320 сообщений электронной почты представляют собой спам-сообщения электронной почты, сервер 106 может определить параметр ошибки прогноза спама для сообщения 322 электронной почты из первого кластера 304. Пусть при классификации (спам или не спам) алгоритмом 250 обнаружения спама сервер 106 определяет параметр прогноза спама для сообщения 322 электронной почты, указывающий на то, что сообщение 322 электронной почты представляет собой не-спам-сообщение электронной почты. В этом примере сервер 106 может сравнить (а) параметр прогноза спама для сообщения 322 электронной почты, указывающий на то, что сообщение 322 электронной почты представляет собой не-спам-сообщение электронной почты, и (б) контрольный параметр 420, указывающий на то, что сообщение 322 электронной почты (входящее в состав первого кластера 304) представляет собой спам-сообщение электронной почты. Таким образом, в этом примере сервер 106 может определить, что алгоритм прогнозирования спама неправильно классифицировал сообщение 322 электронной почты как не-спам-сообщение электронной почты.

[000141] В предыдущем примере, в котором контрольный параметр 430 для второго кластера 306 указывает на то, что сообщения электронной почты из второго подмножества 330 сообщений электронной почты представляют собой не-спам-сообщения электронной почты, сервер 106 может определить параметр ошибки прогноза спама для сообщения 331 электронной почты из второго кластера 306. Пусть при классификации (спам или не спам) алгоритмом 250 обнаружения спама сервер 106 определяет параметр прогноза спама для сообщения 331 электронной почты, указывающий на то, что сообщение 331 электронной почты представляет собой не-спам-сообщение электронной почты. В этом примере сервер 106 может сравнить (а) параметр прогноза спама для сообщения 331 электронной почты, указывающий на то, что сообщение 331 электронной почты представляет собой не-спам-сообщение электронной почты, и (б) контрольный параметр 430, указывающий на то, что сообщение 331 электронной почты (входящее в состав второго кластера 306) представляет собой не-спам-сообщение электронной почты. Таким образом, в этом примере сервер 106 может определить, что алгоритм прогнозирования спама правильно классифицировал сообщение 331 электронной почты как не-спам-сообщение электронной почты.

[000142] В предыдущем примере, в котором контрольный параметр 430 для второго кластера 306 указывает на то, что сообщения электронной почты из второго подмножества 330 сообщений электронной почты представляют собой не-спам-сообщения электронной почты, сервер 106 может определить параметр ошибки прогноза спама для сообщения 332 электронной почты из второго кластера 306. Пусть при классификации (спам или не спам) алгоритмом 250 обнаружения спама сервер 106 определяет параметр прогноза спама для сообщения 332 электронной почты, указывающий на то, что сообщение 332 электронной почты представляет собой спам-сообщение электронной почты. В этом примере сервер 106 может сравнить (а) параметр прогноза спама для сообщения 332 электронной почты, указывающий на то, что сообщение 332 электронной почты представляет собой спам-сообщение электронной почты, и (б) контрольный параметр 430, указывающий на то, что сообщение 332 электронной почты (входящее в состав второго кластера 306) представляет собой не-спам-сообщение электронной почты. Таким образом, в этом примере сервер 106 может определить, что алгоритм прогнозирования спама неправильно классифицировал сообщение 332 электронной почты как спам-сообщение электронной почты.

[000143] Таким образом, можно сказать, что сервер 106 может формировать параметр ошибки прогноза спама для сообщения электронной почты на основе различия между (а) параметром прогноза спама и (б) соответствующим контрольным параметром. Сервер 106 может формировать такой параметр ошибки прогноза спама для каждого сообщения электронной почты из первого кластера 304 и/или из второго кластера 306. Следует отметить, что параметр ошибки прогноза спама указывает на то, правильно ли алгоритм 250 обнаружения спама классифицировал соответствующее сообщение электронной почты по сравнению с «контрольной» информацией, извлеченной из пользовательских взаимодействий между сообщениями электронной почты (подобными этому сообщению электронной почты) и их получателями.

[000144] Сервер 106 также может хранить сообщения электронной почты в сочетании с параметрами ошибки прогноза спама в базе 108 данных. В некоторых вариантах осуществления изобретения предполагается, что сервер 106 может корректировать (обучать и/или повторно обучать) алгоритм 250 прогнозирования спама на основе параметров ошибки прогноза спама, связанных с этими сообщениями электронной почты.

[000145] В не имеющем ограничительного характера примере сервер 106 может определять сообщения электронной почты, связанные с параметрами ошибки прогноза спама, указывающими на то, что алгоритм 250 обнаружения спама неправильно классифицировал эти сообщения электронной почты. Определенные таким образом сообщения электронной почты могут использоваться для формирования дополнительных обучающих примеров для алгоритма 250 обнаружения спама. Например, дополнительный обучающий пример может содержать вектор признаков, представляющий определенное таким образом сообщение электронной почты, и метку, представляющую контрольный параметр, связанный с определенным таким образом сообщением электронной почты.

[000146] В некоторых вариантах осуществления настоящей технологии сервер 106, выполняющий процедуру 350 кластеризации, может формировать больше двух кластеров сообщений электронной почты. Также предполагается, что в других вариантах осуществления изобретения сервер 106, выполняющий процедуру 350 кластеризации, может выдавать данные кластера с «более высоким уровнем гранулярности», чем показано на фиг. 3. Например, один или несколько кластеров, сформированных сервером 106, могут содержать один или несколько подкластеров сообщений электронной почты. Кроме того, один или несколько подкластеров могут содержать один или несколько подподкластеров сообщений электронной почты и т.д.

[000147] Для лучшей иллюстрации этого на фиг. 5 приведено представление 500 кластера 502. Например, сервер 106 может формировать кластер 502 (из числа других потенциальных кластеров сообщений электронной почты) подобно тому, как описано выше. Иными словами, сервер 106 может определить, что сообщения 511, 512, 513, 514, 515 и 516 электронной почты более схожи друг с другом, чем другие группируемые в кластеры сообщения электронной почты. Можно сказать, что кластер 503 может представлять собой часть структуры кластеров, выдаваемой процедурой 350 кластеризации сообщений электронной почты (см. фиг. 3).

[000148] При этом кластер 502 содержит первый подкластер 504 и второй подкластер 506. Первый подкластер 504 содержит сообщения 511, 512 и 513 электронной почты, а второй подкластер 506 содержит сообщения 514, 515 и 516 электронной почты. Иными словами, в дополнение к определению того, что сообщения 511, 512, 513, 514, 515 и 516 электронной почты более схожи друг с другом, чем другие группируемые в кластеры сообщения электронной почты, может быть определено, что сообщения 511, 512 и 513 электронной почты более схожи друг с другом, чем сообщения 514, 515 и 516 электронной почты, и наоборот.

[000149] Пусть в этом примере параметр прогноза спама для сообщения 511 электронной почты указывает на то, что сообщение 511 электронной почты не является спамом, и что контрольный параметр для кластера 502 указывает на отсутствие спама. В этом случае сервер 106 при сравнении контрольного параметра кластера 502 (содержащего сообщение 511 электронной почты) с параметром прогноза спама сообщения 511 электронной почты может определить, что сообщение 511 электронной почты правильно классифицировано алгоритмом 250 прогнозирования спама.

[000150] Пусть сервер 106 также определяет контрольный параметр для первого подкластера 504 (подобно тому, как описано выше, на основе содержащихся в нем сообщений 511, 512 и 513 электронной почты), указывающий на спам. В этом случае сервер 106 может дополнительно сравнить контрольный параметр подкластера 504 (содержащего сообщение 511 электронной почты) и параметр прогноза спама сообщения 511 электронной почты. В этом случае сервер 106 может определить, что сообщение 511 электронной почты классифицировано неправильно.

[000151] Таким образом, можно сказать, что с сообщением электронной почты, входящим в состав нескольких групп сообщений электронной почты (кластер, подкластер, подподкластер и т.д.), может быть связано несколько контрольных параметров. Все контрольные параметры сообщения электронной почты могут назначаться независимо друг от друга на основе сообщений электронной почты, содержащихся в соответствующих группах сообщений электронной почты. В таких случаях сервер 106 может определять параметр ошибки прогноза спама для сообщения электронной почты на основе параметра прогноза спама и по меньшей мере одного параметра из числа нескольких контрольных параметров, связанных с этим сообщением. Например, если по меньшей мере один параметр из числа нескольких контрольных параметров, связанных с сообщением электронной почты, не соответствует параметру прогноза спама, сервер 106 может определить, что сообщение электронной почты неправильно классифицировано алгоритмом 250 прогнозирования спама, и может сохранить сообщение электронной почты в сочетании с параметром ошибки прогноза спама, указывающим на то, что сообщение электронной почты классифицировано неправильно.

[000152] Описанные выше архитектура и примеры позволяют выполнять компьютерный способ определения параметра ошибки прогноза спама. На фиг. 6 представлена блок-схема способа 600, выполняемого согласно не имеющим ограничительного характера вариантам осуществления настоящей технологии. Способ 600 может выполняться сервером 106 и/или другим сервером (не показан), связанным с сервером 106, на котором размещено приложение 150 электронной почты.

Шаг 602: получение указания на множество сообщений электронной почты, предназначенных множеству пользователей приложения электронной почты.

[000153] Способ 600 начинается с шага 602, на котором сервер 106 может получать указание на множество сообщений электронной почты, предназначенных множеству пользователей приложения 150 электронной почты. Например, сервер 106 может получить указание на множество 210 сообщений электронной почты и/или на набор 302 сообщений электронной почты.

[000154] Следует отметить, что в некоторых вариантах осуществления изобретения указание на множество 210 сообщений электронной почты может содержать множество 210 сообщений электронной почты. В других вариантах осуществления изобретения указание на множество 210 сообщений электронной почты может содержать векторное представление каждого сообщения из множества 210 сообщений электронной почты (например, сообщения электронной почты в векторизованном виде, где вектор представляет соответствующее сообщение электронной почты). В таких случаях это векторное представление может указывать на контент множества 210 сообщений электронной почты и не содержит идентификаторов их получателей.

[000155] Следует отметить, что сообщение из множества 210 сообщений электронной почты имеет параметр прогноза спама, указывающий на определение алгоритмом 250 обнаружения спама того, что это сообщение из множества 210 сообщений электронной почты представляет собой спам-сообщение электронной почты или не-спам-сообщение электронной почты, и параметр пользовательских взаимодействий, указывающий на то, согласен ли получатель из множества пользователей с этим параметром прогноза спама.

[000156] В некоторых вариантах осуществления изобретения способ 600 дополнительно включает в себя определение сервером 106 параметра пользовательских взаимодействий на основе по меньшей мере одного пользовательского взаимодействия между получателем и сообщением электронной почты из множества 210 сообщений электронной почты. Например, пользовательские взаимодействия могут быть собраны из интерфейса электронной почты, отображаемого соответствующему получателю. Пользовательское взаимодействие может представлять собой (а) перемещение сообщения электронной почты в папку интерфейса электронной почты и/или (б) нажатие заранее заданной кнопки интерфейса электронной почты.

Шаг 604: распределение множества сообщений электронной почты между по меньшей мере двумя кластерами.

[000157] Способ 600 продолжается на шаге 604, на котором сервер 106 может распределять множество 210 сообщений электронной почты и/или набор 302 сообщений электронной почты между по меньшей мере двумя кластерами. Например, в случае набора 302 сообщений электронной почты, представленного на фиг. 3, набор 302 сообщений электронной почты распределяется между двумя кластерами 304 и 306, каждый из которых содержит подмножество сообщений электронной почты. Первый кластер 304 содержит первое подмножество 320 сообщений электронной почты, а второй кластер 306 содержит второе подмножество 330 сообщений электронной почты.

[000158] Предполагается, что сервер 106 может выполнять кластеризацию множества сообщений электронной почты (например, набора 302 сообщений электронной почты) на основе сходства признаков сообщений электронной почты. В некоторых вариантах осуществления изобретения кластеризация может выполняться сервером 106 с использованием алгоритма KNN.

[000159] В одном примере кластеризация может выполняться сервером 106, определяющим сходные элементы в поле «Тема» сообщения электронной почты. В другом примере кластеризация может выполняться сервером 106, определяющим, имеют ли сообщения электронной почты общий адрес отправителя. В еще одном примере кластеризация может выполняться сервером 106, выполняющим различные статистические исследования контента сообщений электронной почты (например, статистики «частотность термина - обратная частотность документа» для заранее заданных слов).

[000160] В по меньшей мере некоторых вариантах осуществления изобретения предполагается, что кластер из числа по меньшей мере двух кластеров, определенных сервером 106, может содержать по меньшей мере два подкластера. Например, кластер 502 (см. фиг. 5) содержит два подкластера 504 и 506. В этом случае следует отметить, что сообщение электронной почты может быть распределено в соответствующий кластер и в соответствующий подкластер. Например, сообщение 511 электронной почты распределено в кластер 502 и в подкластер 504.

Шаг 606: определение контрольного параметра для кластера из числа по меньшей мере двух кластеров.

[000161] Способ 600 продолжается на шаге 606, на котором сервер 106 способен определить контрольный параметр для кластера из числа по меньшей мере двух кластеров путем анализа подмножества сообщений электронной почты и соответствующих параметров пользовательских взаимодействий, при этом контрольный параметр соответствует спам-сообщению электронной почты или не-спам-сообщению электронной почты.

[000162] На фиг. 4 представлено первое подмножество 320 сообщений электронной почты (первого кластера 304), связанных с соответствующими параметрами пользовательских взаимодействий. Например, сообщения 321, 322, 323 и 324 электронной почты, соответственно, связаны с параметрами 411, 412, 413 и 414 пользовательских взаимодействий.

[000163] Сервер 106 может сравнивать параметры пользовательских взаимодействий с одним или несколькими заранее заданными порогами, чтобы определять, указывает контрольный параметр для первого кластера 304 на спам или на не-спам.

[000164] В одном примере, если большинство сообщений электронной почты из первого подмножества 320 сообщений электронной почты связано с параметрами пользовательских взаимодействий, указывающими на согласие получателей с тем, что эти сообщения электронной почты являются спамом, и/или на несогласие с тем, что эти сообщения электронной почты не являются спамом, сервер 106 может определить, что контрольный параметр для первого кластера соответствует спаму.

[000165] В качестве альтернативы, вместо использования порога «большинство» (например, больше 50%) сервер 106 может использовать другие заранее заданные пороги (больше 70%, больше 80% и т.д.). На определение заранее заданного порога не накладывается каких-либо особых ограничений. В одном случае оператор приложения 150 электронной почты может определять значение, подлежащее использованию в качестве заранее заданного порога. При этом в качестве заранее заданного порога для конкретных вариантов реализации настоящей технологии могут использоваться различные значения.

[000166] В некоторых вариантах осуществления изобретения сервер 106 может определять контрольные параметры лишь для некоторых кластеров, определенных сервером 106. В некоторых случаях сервер 106 может анализировать общее количество сообщений электронной почты в подмножестве сообщений электронной почты кластера. Если это количество меньше другого заранее заданного порога, сервер 106 может исключать кластер из дальнейшего анализа (и назначения контрольного параметра для этого кластера).

[000167] Тем не менее, следует отметить, что для потенциального исключения кластера из процедуры назначения контрольного параметра сервер 106 может анализировать другие связанные с кластером метрики в дополнение к общему количеству сообщений электронной почты в соответствующем подмножестве сообщений электронной почты или вместо него. Такие метрики могут содержать различные отношения, заранее заданные оператором службы электронной почты для оценки того, достаточно ли информации о пользовательских взаимодействиях получено для сообщений электронной почты из кластера для назначения контрольного параметра для этого кластера. Такие метрики позволяют избегать назначения контрольного параметра для кластера, когда для сообщений электронной почты из этого кластера собрано недостаточно данных о пользовательских взаимодействиях, и/или до тех пор, пока не будет собрано достаточно данных о пользовательских взаимодействиях для сообщений электронной почты из этого кластера.

Шаг 608: назначение контрольного параметра для кластера из числа по меньшей мере двух кластеров и для каждого сообщения из подмножества сообщений электронной почты, содержащихся в нем.

[000168] Способ 600 продолжается на шаге 608, на котором сервер 106 назначает соответствующий контрольный параметр для кластера и для каждого сообщения из подмножества сообщений электронной почты, содержащихся в этом кластере. В некоторых случаях сервер 106 может сохранять каждое сообщение электронной почты из этого подмножества сообщений электронной почты в сочетании с контрольным параметром, определенным для этого кластера.

[000169] В некоторых вариантах осуществления настоящей технологии с учетом того, что сообщение электронной почты может быть включено в состав нескольких «кластерных уровней» (например, в кластер и в подкластер), сервер 106 может назначать для сообщения электронной почты контрольный параметр, соответствующий контрольному параметру наибольшего кластера или подкластера, в котором размещено сообщение электронной почты и для которого получено достаточно информации о пользовательских взаимодействиях.

Шаг 610: формирование для сообщения электронной почты из кластера параметра ошибки прогноза спама на основе различия между параметром прогноза спама и соответствующим контрольным параметром.

[000170] Способ 600 продолжается на шаге 610, на котором сервер 106 может для сообщения электронной почты из кластера сформировать параметр ошибки прогноза спама на основе различия между параметром прогноза спама и соответствующим контрольным параметром.

[000171] В общем случае сервер 106 может определять параметр ошибки прогноза спама для сообщения электронной почты путем определения того, подтверждается или нет соответствующий параметр прогноза спама контрольным параметром. Например, если параметр прогноза спама не соответствует контрольному параметру, то сервер 106 может определить, что сообщение электронной почты неправильно классифицировано алгоритмом 250 прогнозирования спама.

Шаг 612: сохранение для сообщения электронной почты из кластера параметра ошибки прогноза спама в сочетании с сообщением электронной почты из этого кластера.

[000172] Способ 600 продолжается на шаге 612, на котором сервер 106 сохраняет параметр ошибки прогноза спама в сочетании с сообщением электронной почты из кластера. Например, сервер 106 сохраняет параметр ошибки прогноза спама в сочетании с сообщением электронной почты из этого кластера в базе 108 данных.

[000173] Как описано выше, если сообщение электронной почты входит в состав кластера и подкластера из этого кластера, то это сообщение электронной почты может быть связано с двумя контрольными параметрами - одним для соответствующего кластера и одним для соответствующего подкластера. В этом случае сервер 106 может сравнивать параметр прогноза спама сообщения электронной почты с каждым контрольным параметром. Если по меньшей мере один из контрольных параметров не соответствует параметру прогноза спама, сервер 106 может определить, что алгоритм прогнозирования спама неправильно классифицировал сообщение электронной почты.

[000174] В некоторых вариантах осуществления изобретения предполагается, что сервер 106 может корректировать (обучать и/или повторно обучать) алгоритм 250 прогнозирования спама на основе параметров ошибки прогноза спама, связанных с соответствующими сообщениями электронной почты. В некоторых вариантах осуществления изобретения сервер 106 может использовать для корректировки (обучения и/или повторного обучения) алгоритма 250 прогнозирования спама только неправильно классифицированные сообщения электронной почты.

[000175] В не имеющем ограничительного характера примере сервер 106 может определять сообщения электронной почты, связанные с параметрами ошибки прогноза спама, указывающими на то, что алгоритм 250 обнаружения спама неправильно классифицировал эти сообщения электронной почты. Определенные таким образом сообщения электронной почты могут использоваться для формирования дополнительных обучающих примеров для алгоритма 250 обнаружения спама. Например, дополнительный обучающий пример может содержать вектор признаков, представляющий определенное таким образом сообщение электронной почты, и метку, представляющую контрольный параметр, связанный с определенным таким образом сообщением электронной почты.

[000176] Тем не менее, следует отметить, что конкретный способ использования сообщений электронной почты и соответствующих параметров ошибки прогноза спама для повторного обучения алгоритма 250 прогнозирования спама, среди прочего, зависит от варианта реализации алгоритма 250 прогнозирования спама. Алгоритм 250 прогнозирования спама может быть реализован множеством способов, поэтому конкретный способ обработки сообщений электронной почты и соответствующих параметров ошибки прогноза спама для формирования дополнительных обучающих данных может зависеть от конкретного варианта реализации настоящей технологии.

[000177] Для специалиста в данной области могут быть понятными возможные изменения и усовершенствования описанных выше вариантов осуществления настоящей технологии. Предшествующее описание приведено в качестве примера, а не для ограничения объема изобретения. Объем охраны настоящей технологии определяется исключительно объемом приложенной формулы изобретения.

[000178] Несмотря на то, что описанные выше варианты реализации приведены со ссылкой на конкретные шаги, выполняемые в определенном порядке, должно быть понятно, что эти шаги могут быть объединены, разделены или что их порядок может быть изменен без выхода за границы настоящей технологии. Соответственно, порядок и группировка шагов не носят ограничительного характера для настоящей технологии.

1. Способ определения параметра ошибки прогноза спама для параметра прогноза спама, сформированного алгоритмом обнаружения спама, выполняемым сервером, связанным с приложением электронной почты, при этом способ выполняется сервером и включает в себя:

- получение сервером указания на множество сообщений электронной почты, предназначенных множеству пользователей приложения электронной почты, при этом сообщение из множества сообщений электронной почты имеет:

- параметр прогноза спама, указывающий на определение алгоритмом обнаружения спама того, что это сообщение из множества сообщений электронной почты представляет собой спам-сообщение электронной почты или не-спам-сообщение электронной почты; и

- параметр пользовательских взаимодействий, указывающий на согласие или несогласие получателя из множества пользователей с параметром прогноза спама;

- распределение сервером множества сообщений электронной почты между по меньшей мере двумя кластерами, каждый из которых содержит подмножество сообщений электронной почты;

- для кластера из числа по меньшей мере двух кластеров - определение сервером контрольного параметра для этого кластера путем анализа подмножества сообщений электронной почты и параметров пользовательских взаимодействий, при этом контрольный параметр соответствует спам-сообщению электронной почты или не-спам-сообщению электронной почты, и назначение контрольного параметра для кластера и для каждого сообщения из подмножества сообщений электронной почты, содержащихся в нем; и

- для сообщения электронной почты из кластера - формирование сервером параметра ошибки прогноза спама на основе различия между параметром прогноза спама и соответствующим контрольным параметром и сохранение сервером параметра ошибки прогноза спама в сочетании с сообщением электронной почты из этого кластера.

2. Способ по п. 1, отличающийся тем, что он дополнительно включает в себя определение сервером параметра пользовательских взаимодействий на основе по меньшей мере одного пользовательского взаимодействия между получателем и соответствующим сообщением электронной почты из множества сообщений электронной почты, при этом пользовательские взаимодействия собраны из интерфейса электронной почты, отображаемого этому получателю.

3. Способ по п. 2, отличающийся тем, что пользовательское взаимодействие представляет собой (а) перемещение сообщения электронной почты в папку интерфейса электронной почты и/или (б) нажатие заранее заданной кнопки интерфейса электронной почты.

4. Способ по п. 1, отличающийся тем, что кластеризация множества сообщений электронной почты выполняется на основе сходства признаков сообщений электронной почты.

5. Способ по п. 4, отличающийся тем, что кластеризация выполняется с использованием алгоритма K ближайших соседей.

6. Способ по п. 1, отличающийся тем, что сервер дополнительно выполняет приложение электронной почты.

7. Способ по п. 1, отличающийся тем, что сервер способен связываться с сервером электронной почты, выполняющим приложение электронной почты.

8. Способ по п. 1, отличающийся тем, что указание на множество сообщений электронной почты содержит это множество сообщений электронной почты.

9. Способ по п. 1, отличающийся тем, что указание на множество сообщений электронной почты содержит векторное представление каждого сообщения из этого множества сообщений электронной почты, при этом векторное представление указывает на контент множества сообщений электронной почты и не содержит идентификаторов их получателей.

10. Способ по п. 1, отличающийся тем, что он дополнительно включает в себя анализ сервером общего количества сообщений электронной почты в подмножестве сообщений электронной почты другого кластера из числа по меньшей мере двух кластеров и исключение сервером другого кластера из дальнейшего анализа, если это количество меньше заранее заданного порога.

11. Способ по п. 1, отличающийся тем, что он дополнительно включает в себя повторное обучение сервером алгоритма обнаружения спама с использованием параметра ошибки прогноза спама.

12. Способ по п. 1, отличающийся тем, что кластер из числа по меньшей мере двух кластеров содержит по меньшей мере два подкластера.

13. Способ по п. 12, отличающийся тем, что множество сообщений электронной почты распределяется в кластер из числа по меньшей мере двух кластеров и в подкластер из числа по меньшей мере двух подкластеров.

14. Способ по п. 13, отличающийся тем, что если сообщение из множества сообщений электронной почты связано с контрольным параметром, указывающим на неправильную категоризацию в кластере из числа по меньшей мере двух кластеров или в подкластере из числа по меньшей мере двух подкластеров, то это значение контрольного параметра используется для этого множества сообщений электронной почты.

15. Способ по п. 13, отличающийся тем, что контрольный параметр независимо назначается для сообщения из множества сообщений электронной почты в кластере из числа по меньшей мере двух кластеров или в подкластере из числа по меньшей мере двух подкластеров.

16. Сервер для определения параметра ошибки прогноза спама для параметра прогноза спама, сформированного алгоритмом обнаружения спама, выполняемым сервером, при этом сервер связан с приложением электронной почты и выполнен с возможностью:

- получения указания на множество сообщений электронной почты, предназначенных множеству пользователей приложения электронной почты, при этом сообщение из множества сообщений электронной почты имеет:

- параметр прогноза спама, указывающий на определение алгоритмом обнаружения спама того, что это сообщение из множества сообщений электронной почты представляет собой спам-сообщение электронной почты или не-спам-сообщение электронной почты; и

- параметр пользовательских взаимодействий, указывающий на согласие или несогласие получателя из множества пользователей с параметром прогноза спама;

- распределения множества сообщений электронной почты между по меньшей мере двумя кластерами, каждый из которых содержит подмножество сообщений электронной почты;

- для кластера из числа по меньшей мере двух кластеров - определения контрольного параметра для этого кластера путем анализа подмножества сообщений электронной почты и параметров пользовательских взаимодействий, при этом контрольный параметр соответствует спам-сообщению электронной почты или не-спам-сообщению электронной почты, и назначения контрольного параметра для кластера и для каждого сообщения из подмножества сообщений электронной почты, содержащихся в нем; и

- для сообщения электронной почты из кластера - формирования параметра ошибки прогноза спама на основе различия между параметром прогноза спама и соответствующим контрольным параметром и сохранения сервером параметра ошибки прогноза спама в сочетании с сообщением электронной почты из этого кластера.

17. Сервер по п. 16, отличающийся тем, что он дополнительно выполнен с возможностью определения параметра пользовательских взаимодействий на основе по меньшей мере одного пользовательского взаимодействия между получателем и соответствующим сообщением электронной почты из множества сообщений электронной почты, при этом пользовательские взаимодействия собраны из интерфейса электронной почты, отображаемого этому получателю.

18. Сервер по п. 17, отличающийся тем, что пользовательское взаимодействие представляет собой (а) перемещение сообщения электронной почты в папку интерфейса электронной почты и/или (б) нажатие заранее заданной кнопки интерфейса электронной почты.

19. Сервер по п. 16, отличающийся тем, что кластеризация множества сообщений электронной почты выполняется сервером на основе сходства признаков сообщений электронной почты.

20. Сервер по п. 19, отличающийся тем, что кластеризация выполняется сервером с использованием алгоритма K ближайших соседей.

21. Сервер по п. 16, отличающийся тем, что он дополнительно выполняет приложение электронной почты.

22. Сервер по п. 16, отличающийся тем, что он способен связываться с сервером электронной почты, выполняющим приложение электронной почты.

23. Сервер по п. 16, отличающийся тем, что указание на множество сообщений электронной почты содержит это множество сообщений электронной почты.

24. Сервер по п. 16, отличающийся тем, что указание на множество сообщений электронной почты содержит векторное представление каждого сообщения из этого множества сообщений электронной почты, при этом векторное представление указывает на контент множества сообщений электронной почты и не содержит идентификаторов их получателей.

25. Сервер по п. 16, отличающийся тем, что он дополнительно выполнен с возможностью анализа общего количества сообщений электронной почты в подмножестве сообщений электронной почты другого кластера из числа по меньшей мере двух кластеров и исключения другого кластера из дальнейшего анализа, если это количество меньше заранее заданного порога.

26. Сервер по п. 16, отличающийся тем, что он дополнительно выполнен с возможностью повторного обучения алгоритма обнаружения спама с использованием параметра ошибки прогноза спама.

27. Сервер по п. 16, отличающийся тем, что кластер из числа по меньшей мере двух кластеров содержит по меньшей мере два подкластера.

28. Сервер по п. 27, отличающийся тем, что множество сообщений электронной почты распределяется в кластер из числа по меньшей мере двух кластеров и в подкластер из числа по меньшей мере двух подкластеров.

29. Сервер по п. 28, отличающийся тем, что если сообщение из множества сообщений электронной почты связано с контрольным параметром, указывающим на неправильную категоризацию в кластере из числа по меньшей мере двух кластеров или в подкластере из числа по меньшей мере двух подкластеров, то это значение контрольного параметра используется для этого множества сообщений электронной почты.

30. Сервер по п. 28, отличающийся тем, что контрольный параметр независимо назначается для сообщения из множества сообщений электронной почты в кластере из числа по меньшей мере двух кластеров или в подкластере из числа по меньшей мере двух подкластеров.



 

Похожие патенты:

Изобретение относится к средствам обновления программного обеспечения. Технический результат - обеспечение возможности непрерывного обновления программного обеспечения.

Изобретение относится к системе мобильной связи. Технический результат изобретения заключается в эффективном обнаружении сбоя луча и восстановлении после сбоя луча.

Изобретение относится к области сетей связи. Техническим результатом является повышение эффективности использования пропускной способности программно-конфигурируемой сети (ПКС) путем осуществления качественного перехода от адаптивной модели реагирования на возникающие изменения в сети к проактивной модели управления сетью в целом.

Изобретение относится к системам для хранения и передачи индивидуального местоположения и обмена сообщениями. Технический результат заключается в повышении надежности распространения экстренного сообщения.

Изобретение относится к способу фильтрации атакующих потоков, нацеленных на модуль связи. Технический результат – повышение вероятности определения атакующего потока.

Изобретение относится к вычислительной технике. Технический результат заключается в оптимизации количества добавляемых префиксов.

Изобретение относится к области технологий связи. Технический результат – повышение точности мониторинга сети за счет уменьшения предоставляемого количества журналов аварийных сигналов, полученного посредством сжатия и фильтрования недопустимых или избыточных журналов.

Изобретение относится к средствам для диспетчеризации пакетов. Технический результат - обеспечение тактовой синхронизации между терминалами за счет взаимодействия чувствительной ко времени сети и поддерживаемой проводной сети посредством сети беспроводной связи.

Изобретение относится к области связи. Технический результат состоит в устранении определенных потенциальных угроз безопасности при передаче данных интерфейсом управления.

Изобретение относится к области информационной безопасности. Техническим результатом является повышение точности выявления скомпрометированных устройств на основе обнаружения DNS-туннелирования.

Изобретение относится к вычислительной технике. Технический результат заключается в повышении качества мониторинга поведения пользователя.
Наверх