Способ автоматической классификации сетевого трафика на основе эвристического анализа

Авторы патента:

G06N5/00 - Компьютерные системы, использующие модели, основанные на знаниях

Владельцы патента RU 2690758:

федеральное государственное автономное образовательное учреждение высшего образования "Санкт-Петербургский политехнический университет Петра Великого" (ФГАОУ ВО "СПбПУ") (RU)

Изобретение относится к вычислительной технике. Технический результат заключается в повышении эффективности и скорости обнаружения сетевых атак в магистральных сетях. Способ содержит: классификацию сетевого трафика, при этом для классификации используются эвристические правила, описывающие ключевые характеристики веб-трафика и P2P-трафика, применяющиеся к поступающим с маршрутизаторов сетевым пакетам, из которых выделяются такие параметры, как IP-адреса отправителя и получателя, номера портов отправителя и получателя, размер сетевого пакета, временная метка, тип сетевого протокола транспортного уровня, время жизни сетевого пакета, тип обслуживания, флаги, параметры сохраняются в базу данных, расположенную на сервере баз данных, затем с использованием сохраненных в базе данных перечисленных параметров вычисляются статистические характеристики сетевого трафика, такие как число флагов SYN и ACK, размер сетевого потока, число сетевых пакетов в сетевом потоке, число сетевых пакетов протоколов каждого типа, число исходящих подключений для хоста, число входящих подключений к хосту; причем отнесение трафика к классу P2P-трафика или к классу веб-трафика выполняется при соответствии параметров трафика. 1 ил.

Изобретение относится к области компьютерных систем, а именно, к магистральным сетям и автоматической классификации трафика магистральных сетей.

Известен способ, осуществляющий адаптивную классификацию сетевого трафика (патент США № 7366174, опубл. 29.04.2008 по классам МПК H04L12128, H04J1/16) и решающий задачу управления потоками сетевого трафика в коммуникационной сети путем классификации потоков трафика и назначения каждому классу определенного предельного значения пропускной способности. Способ обеспечивает обработку сетевого трафика, сбор параметров трафика и их передачу в модуль управления классификацией, определение особенностей трафика, формирование правил классификации, разделение трафика на классы и распространение правил классификации для трафика, который будет поступать в сеть в дальнейшем, а также будет обладать параметрами, характерными для данного класса. Система, осуществляющая адаптивную классификацию сетевого трафика, содержит модуль сбора данных, модуль классификации входного трафика, модуль управления классификацией, модуль преобразования данных, модуль агрегации данных, модуль определения особенностей трафика и модуль регулирования правил классификации.

Недостатками этого изобретения являются:

1. отсутствие ориентированности на разделение веб-трафика и трафика одноранговых P2P-сетей, что крайне важно с точки зрения анализа безопасности сетевого трафика, поскольку трафик P2P-сетей, маскируясь под веб-трафик, существенно снижает точность обнаружения сетевых аномалий и, как следствие, увеличивает риск пропуска сетевых атак, что является критичным в условиях магистральных сетей (строка [0039] описания к изобретению);

2. направленность на прогнозирование увеличения/уменьшения объемов сетевого трафика с течением времени с целью модификации пределов пропускной способности, что важно для поддержания работоспособности сети, но что не обеспечивает точности при анализе безопасности сетевого трафика (строка [0039] описания к изобретению). Анализ безопасности сетевого трафика требует контроля значений большого числа параметров трафика, а не только его объема.

Известны система и способ классификации сетевого трафика в режиме реального времени на основе статистического анализа сетевого трафика (патент США № 7782793, опубл. 24.08.2010, по классам МПК H04L12/26, H04L12/56, H04L12/28). Изобретение решает задачу классификации сетевого трафика в режиме реального времени с целью обеспечения гарантированной доставки данных сетевого трафика до всех сетевых узлов и оптимизации использования инфраструктуры сети связи. Классификация сетевого трафика обеспечивается устройством, системой и способом за счет случайного выбора сетевых пакетов из сетевого потока трафика, определения размера каждого сетевого пакета, получения идентификатора сетевого потока, с которым ассоциирован извлеченный сетевой пакет, получения данных о потоке из таблицы потоков и применение к ним правил классификации.

Недостатками способа являются:

1. невозможность использования таблиц потоков для трафика магистральных сетей в связи с огромным количеством не только сетевых устройств, но и самих сетей, формирующих магистральную сеть;

2. рассмотрение потоков сетевого трафика, передаваемых через сетевой узел, невозможно в условиях магистральных сетей, представляющих собой объединение большого числа разнородных сетей различного масштаба. Масштабы магистральной сети не позволяют отслеживать сетевой трафик каждого сетевого узла, трафик может быть получен только с пограничных маршрутизаторов. При этом, на пограничные маршрутизаторы поступает трафик от различных сетей, следовательно, собранный с маршрутизатора трафик будет неструктурированным и разнородным;

3. недостаточно точная классификация сетевого трафика в режиме реального времени, что подтверждается последующим возможным применением технологии Deep Packet Inspection для более точной классификации. Данная технология предполагает глубокий анализ трафика и не может быть выполнена в режиме реального времени. Несмотря на то, что в изобретении предлагается применять технологию только при наличии подозрительного сетевого трафика, точность классификации сетевого трафика уменьшается. Кроме того, с точки зрения анализа безопасности трафика магистральных сетей, анализ трафика, производимый не в режиме реального времени, многократно увеличивает риск пропуска сетевых атак. Высокая интенсивность трафика магистральных сетей требует обеспечения классификации и анализа в режиме реального времени.

Известно изобретение (патент США № 20050060295, опубл. 17.03.2005, по классу МПК G06F17/30), относящееся к системам сетевой связи и к статистической классификации сетевых данных для обеспечения качества обслуживания и безопасности на основе сигнатур. Изобретение классифицирует данные сетевого трафика, частично анализируя данные поля payload (полезная нагрузка) сетевых пакетов.

Недостатками изобретения являются:

1. сетевой классификатор, входящий в состав изобретения, обрабатывает пакеты со скоростью, большей или равной 100 Мбит/с [п.2 формулы изобретения], однако в изобретение не конкретизируется, какова максимально возможная скорость обработки данных. Учитывая высокую интенсивность поступления трафика магистральных сетей на пограничные маршрутизаторы, минимальная скорость обработки данных должна составлять 100 Гбит/с, однако описание и формула изобретения не уточняют, возможна ли обработка трафика на такой скорости;

2. изобретение реализует анализ поля payload (полезная нагрузка) сетевых пакетов, что видится неэффективным решением в условиях магистральных сетей и необходимости обеспечения их безопасности. Трафик магистральных сетей должен анализироваться на предмет безопасности с максимально высокой скоростью для своевременного обнаружения атак. Анализ поля payload является достаточно трудоемкой задачей, поскольку он требует разбора неструктурированных данных, в отличие от таких полей сетевого пакета, как IP-адрес, порт, временная метка, TOS и так далее. В связи с этим, подход, основанный на анализе полезной нагрузки сетевого пакета, будет неэффективен при анализе безопасности трафика магистральных сетей.

Наиболее близким является изобретение «Метод классификации пакетов на основе типа протокола и приоритетов», предназначенное для усовершенствования передачи пакетов по сети связи (патент РФ № 2435321, опубл. 27.11.2011 по классу МПК H04L12/56). В способе используется набор правил классификации. Правила могут быть разделены на два типа: 1) правила, содержащие параметры, характерные для того или иного сетевого протокола; 2) правила, содержащие только индекс приоритета для прохождения по каналу связи, и индекс правила. Способ по прототипу обладает следующими недостатками:

1) не реализуется отделение трафика P2P-сетей от веб-трафика, вследствие чего применение данного способа для классификации трафика с целью дальнейшего анализа безопасности будет неэффективно в силу того, что P2P-трафик негативно влияет на качество обнаружения атак;

2) классификация сетевых пакетов недостаточно точная, поскольку определяется только тип используемого протокола, в то время как для анализа безопасности требуется также знать тип сети, породившей данный трафик.

Технической проблемой заявляемого изобретения является задача классификации интенсивно поступающего трафика магистральных сетей в режиме реального времени с целью разделения его на два класса: веб-трафик и трафик одноранговых (P2P) сетей для систем анализа безопасности.

Технический результат заключается в увеличении точности верной классификации сетевого трафика за счет последовательного применения эвристических правил классификации, позволяющих по характеристикам сетевого трафика отделить трафик P2P-сетей от веб-трафика; в повышении эффективности и скорости обнаружения сетевых атак в магистральных сетях при последующем анализе безопасности за счет отделения P2P-трафика от веб-трафика, поскольку, в соответствии с источником [Haq, I.U., Ali, S., Khan, H., Khayam, S.A.: What is the impact of P2P traffic on anomaly detection? In: Jha, S., Sommer, R., Kreibich, C. (eds.) RAID 2010. LNCS, vol. 6307, pp. 1–17. Springer, Heidelberg (2010)], трафик P2P-сетей негативно влияет на качество обнаружения сетевых атак, увеличивая число ошибок первого рода до 45 и снижая скорость их обнаружения до 30%.

Решение поставленной задачи обеспечивается тем, что в способе автоматической классификации сетевого трафика на основе эвристического анализа к поступающему с маршрутизаторов трафику поэтапно применяются эвристические правила, описывающие характерные особенности веб-трафика и трафика P2P-сетей. При этом, правила сгруппированы определенным образом и применяются в определенной последовательности: правила, содержащие наиболее «мощные» эвристики, применяются первыми. Таким образом, уже на первом этапе классификации становится возможным максимально быстро «отбросить» часть сетевого трафика, сразу классифицировав его. Эвристические правила классификации, применяемые к трафику в последнюю очередь, позволяют сократить процент неклассифицированного трафика, а также в совокупности позволяют добиться точной классификации, если этого не произошло при применении первых эвристических правил.

Изобретение поясняется общей блок-схемой очередности работы с параметрами сетевого трафика.

Для классификации из сетевых пакетов трафика, поступающих на узел-обработчик сети, в режиме реального времени извлекаются следующие параметры:

- IP-адрес отправителя;

- IP-адрес получателя;

- порт отправителя;

- порт получателя;

- размер сетевого пакета;

- временная метка;

- тип сетевого протокола транспортного уровня;

- время жизни сетевого пакета (TTL);

- тип обслуживания (TOS);

- число флагов SYN;

- число флагов ACK;

- размер сетевого потока;

- число сетевых пакетов в сетевом потоке;

- число сетевых пакетов протоколов каждого типа;

- число исходящих подключений для хоста;

- число входящих подключений к хосту.

Все вышеописанные параметры извлекаются из сетевого трафика «на лету» – с высокой скоростью, в режиме реального времени, поскольку в структуре сетевого пакета под каждый параметр отведено специальное поле. При этом большинство параметров принадлежат сетевым пакетам сетевого и транспортного уровней (в соответствии с моделью OSI), а также сетевым потокам, представляющим собой агрегированные за некоторый промежуток времени сетевые пакеты. Преимущественно рассматриваются только заголовки сетевых пакетов. Это позволяет обеспечить большой выигрыш в скорости обработки и классификации сетевого трафика по сравнению со способами классификации, анализирующими все содержимое сетевых пакетов, а не только заголовки.

Эвристические правила основаны на характерных особенностях P2P и веб-трафика:

1. Приложения P2P-сетей часто используют определенные сетевые порты для передачи данных (список портов приведен в таблице 1), следовательно, использование данных сетевых портов позволяет с большой вероятностью сделать вывод о том, что трафик сетевых узлов, использующих порты с такими номерами, относится к классу P2P-трафика. Авторы источника [Haq, I.U., Ali, S., Khan, H., Khayam, S.A.: What is the impact of P2P traffic on anomaly detection? In: Jha, S., Sommer, R., Kreibich, C. (eds.) RAID 2010. LNCS, vol. 6307, pp. 1–17. Springer, Heidelberg (2010)] утверждают, что использование при классификации списка часто используемых P2P-приложениями портов позволяет верно классифицировать приблизительно одну треть от всего P2P-трафика.

2. Приложения P2P-сетей часто используют одновременно два сетевых протокола транспортного уровня: TCP и UDP: TCP – для передачи данных, UDP – для сигнального трафика, представляющего собой трафик сигнальных сообщений, передаваемых для установления, изменения и разрушения сеанса связи между узлами в пакетной сети [W. John and S. Tafvelin. Heuristics to classify Internet Backbone Traffic based on Connection Patterns. In ICOIN, 2008].

3. Для P2P-сетей характерна поддержка каждым узлом большого числа сетевых соединений с другими узлами, поскольку P2P-сети децентрализованы, и каждый узел сети одновременно является приемником и передатчиком сетевого трафика. Таким образом, если от хоста за определенный период времени исходит много запросов, и при этом для соединений используются порты UDP, такой трафик маркируется как P2P. Авторами установлен порог в 100 и более исходящих запросов.

4. Для хостов P2P-сетей не характерно долгое бездействие, неактивность, такое поведение характерно для сетей с классической клиент-серверной архитектурой. Отслеживать такое бездействие возможно по исходящим TCP-соединениям с другими хостами: если их меньше 10% от общего числа исходящих соединений, поток следует маркировать как веб-трафик.

5. Для веб-серверов характерно использование портов протокола HTTP и SHTTP с номерами 80, 8080, 443, и несколько подключений к хостам для передачи контента. В то время как P2P-хосты используют последовательное подключение.

6. Для P2P-приложений характерно неоднократное использование за небольшой промежуток времени одного и того же номера из множества номеров динамических портов. Динамический порт представляет собой временный порт, открываемый соединением межсетевого протокола транспортного уровня из определенного диапазона программного стека TCP/IP, их номера принадлежат диапазону 49152 — 65535. Необычной является ситуация, при которой одни и те же номера портов используются за короткие промежутки времени. Однако, это характерно для P2P-приложений с фиксированными портами, назначенными для сигнального трафика или для передачи данных.

7. Традиционные сервисы, такие как DNS, иногда используют один и тот же номер для порта источника и порта назначения. В случае, если хосты принимают или отправляют потоки с одинаковыми портами источника и получателя, при этом номера портов меньше 501, предлагается считать весь входящий и исходящий трафик от таких хостов как веб-трафик.

8. При классификации сразу можно исключить из рассмотрения сетевой почтовый трафик, поскольку хосты, получающие трафик с использованием почтовых портов (портов протоколов SMTP, POP3, IMAP) и инициирующие в том же интервале подключения к 25 порту других хостов, являются почтовыми серверами. Соответственно, все потоки к почтовым серверам и от них помечаются как почтовый трафик, то есть, относятся к веб-трафику.

9. Хосты, получающие сетевой трафик с использованием порта источника 20, относящегося к протоколу FTP, считаются FTP-серверами, и все потоки к FTP-серверам и от них помечаются как веб-трафик.

10. Для узлов P2P-сетей более характерно динамическое соединение, чем постоянное и устойчивое соединение с хостом с определенным IP-адресом. Это связано с тем, что P2P-трафик часто порождается самоорганизующимися сетями (Ad Hoc сетями), обладающими динамичной структурой. Число узлов в таких сетях постоянно меняется, как и соединения между узлами. Поэтому, если отношение числа различных IP-адресов хостов, с которыми рассматриваемый хост поддерживает соединение, к общему числу IP-адресов «общающихся» хостов близко к 1, исходящие потоки трафика от данного хоста следует маркировать как P2P.

11. Одноранговые узлы P2P-сетей обычно поддерживают только одно соединение с другими одноранговыми узлами, следовательно, каждая конечная точка, характеризующаяся IP-адресом и номером порта, имеет, по меньшей мере, одинаковое количество различных IP-адресов источника и количество различных портов, подключенных к нему. Если разница между количеством разных портов и IP-адресов источник составляет более 5, хост следует считать P2P-хостом, и все его исходящие и поступающие потоки помечать как потенциальный P2P-трафик [Perenyi, M., Trang Dinh, D., Gefferth, A., Molnar, S.: Identification and analysis of peer-to-peer traffic. Journal of Communications 1, 2006].

12. В соответствии с источником [Karagiannis T., Broido A., Faloutsos M. Transport layer identification of P2P traffic, Proceedings of the 4th ACM SIGCOMM conference on Internet measurement, October 25-27, Taormina, Sicily, Italy, 2004] веб-трафик обычно использует несколько подключений к одному серверу за счет сетей клиент-серверной архитектуры. По этой причине следует помечать хосты как веб-хосты, если одновременно выполняются три требования:

1) разница между количеством портов и IP-адресов источника, подключенных к точке, более 10;

2) отношение количества портов и IP-адресов источника больше 2;

3) к этой конечной точке подключено как минимум 10 хостов с уникальными IP-адресами.

1. Наличие, по меньшей мере, двух потоков сетевого трафика с идентичными идентификаторами (IP-адреса и порты источника и назначения, TOS) с большой долей вероятности характеризует именно P2P-трафик, поскольку при передаче файла между двумя одноранговыми хостами источник и получатель назначают фиксированный порт для передачи данных. А передача файла часто происходит небольшими частями, поэтому и возникает множество потоков с одинаковыми параметрами. Таким образом, при нахождении за определенный интервал времени как минимум двух потоков с одинаковыми идентификаторами, можно помечать сетевой трафик, поступающий от этих хостов и к ним, как трафик P2P.

2. Если рассматриваемый хост не является сервером, он будет многократно выбирать определенный порт для TCP/UDP соединений. Поэтому, если хост, не отмеченный ранее как веб-сервер, использует порт TCP/UDP более 5 раз за определенный период времени (эмпирически установлен порог в 60 секунд), он помечается как P2P-хост, а потоки трафика от него и к нему – как трафик P2P-сетей.

Таблица 1. Порты, используемые популярными P2P-приложениями.

P2P-приложения	TCP порты	UDP порты
Edonkey (eMule, xMule)	2323, 3306, 4242, 4500, 4501, 4661-4674, 4677, 4678,7778
FastTrack	1214, 1215, 1331, 1337, 1683, 4329
BitTorrent	6881-6889
Gnutella	6346, 6347
MP2P	41170, 10240-20480, 22321
DirectConnect	411, 412, 1364-1383, 4702, 4703, 4662
ShareShare	6399	6388, 6733, 6777
Freenet	19114, 8081
Napster	5555, 6666, 6677, 6688, 6699-6701, 6257
SoulSeek	2234, 5534
Blubster	41170
Skype		3478-3481

Для описания эвристических правил было использовано объединение псевдокода и математических и логических операторов, позволяющее описать алгоритмическую схему, в соответствии с которой функционирует разработанное правило. При описании используются:

a) сущности и множества:

1) хост ;

2) сетевой поток - исходящий и входящий сетевой поток, для множества потоков используется обозначение , для описания принадлежности к конкретному хосту используется запись ;

3) класс веб-трафика , принадлежность для хоста входящих и исходящих сетевых потоков к данному классу обозначается как ;

4) класс P2P-трафика, принадлежность для хоста входящих и исходящих сетевых потоков к данному классу обозначается как ;

5) множество IP-адресов , где – IP-адрес источника, – IP-адрес получателя;

6) множество различных по значению IP-адресов ,
;

7) множество сетевых портов , , где – порт источника, – порт получателя;

8) класс сетевых портов, характерных для P2P-приложений ;

9) класс сетевых портов, характеризующих использование почтовых служб ;

10) класс сетевых портов, характеризующих использование протоколов HTTP и SHTTP ;

11) класс сетевых портов транспортного протокола TCP ;

12) класс сетевых портов транспортного протокола UDP ;

13) сетевой параметр , характеризующий тип обслуживания;

14) временные метки , использование сетевого порта в течение некоторого промежутка времени обозначается как ;

15) единицы измерения времени ;

16) постоянное значение ;

б) функции:

1) – функция, отражающая активное использование IP-адреса или сетевого порта, означает ситуацию, когда хост использует свой порт источника;

2) функция определения числа элементов множества: , например, для определения числа исходящих сетевых потоков хоста потребуется записать , а для определения числа использований сетевого порта применение функции выглядит следующим образом: ;

3) функция определения размера сетевого пакета или потока (в Мегабайтах) , пример применения для определения размера сетевого потока: ;

в) операторы:

1) математические: ;

2) логические: ;

3) условные и циклические: .

Сформированные эвристические правила классификации представлены в соответствии с таблицей 2.

Таблица 2. Эвристические правила классификации.

№	Эвристическое правило	Описание правила
1		Если номера портов принадлежат множеству известных P2P-приложений, то входящий и исходящий трафик от данных хостов маркируется как P2P-трафик.
2		Если у хоста номер используемого для исходящего соединения порта принадлежит множеству известных портов для протоколов HTTP и SHTTP, и при этом присутствует несколько исходящих соединений, то входящий и исходящий трафик помечается как веб-трафик.
3		Если номер порта принадлежат множеству известных портов для почтовых серверов, то входящий и исходящий трафик от данного хоста маркируется как веб-трафик.
4		Если номер порта имеет значение 20 (протокол FTP), то входящий и исходящий трафик от данного хоста маркируется как веб-трафик.
5		Если пара хостов, характеризуемых IP-адресами, одновременно использует TCP и UDP протоколы, входящие и исходящие потоки для данных хостов помечаются как P2P-трафик.
6		Если от хоста за определенный период времени (эмпирически 10 минут) исходит более 100 запросов и при этом для соединений используются порты UDP, такой трафик маркируется как P2P.
7		Если в сетевом потоке отсутствуют исходящие TCP-соединения с другими хостами или их меньше 10% от общего числа исходящих соединений, поток маркируется как веб-трафик.
8		Если хост использует порт с динамическими номерами (из диапазона 49152-65535), при этом данный номер порта используется в течение не менее 60 секунд, хост помечается как P2P-хост, и все исходящие и поступающие потоки трафика помечаются как P2P-трафик.
9	1) ; 2)	Если хост включает потоки с одинаковыми портами источника и получателя, при этом номера портов меньше 501, тогда все потоки от хоста и к нему помечаются как веб-трафик.
10		Если отношение числа различных IP-адресов хостов, с которыми рассматриваемый хост поддерживает соединение, к общему числу IP-адресов «общающихся» хостов 0,9, исходящие потоки трафика от данного хоста маркируются как P2P.
11	1) 2)	Если хост имеет почти одинаковое количество различных IP-адресов источника и количество различных портов, подключенных к нему, а также более 5 подключенных к нему различных портов, то он считается хостом P2P-сети, и все его исходящие и поступающие потоки помечаются как P2P-трафик.
12	1. 2. 3.	Если для хоста: 1) разница между и , подключенными к точке (), более 10; 2) отошение к больше 2; 3) есть как минимум 10 подключенных к нему хоста с уникальными IP-адресами; все потоки трафика с номерами портов, принадлежащих протоколу HTTP, и потоки от этих хостов помечаются как веб-трафик.
13	1) 2) 3)	Если хост, не отмеченный как веб-сервер, использует порт TCP/UDP более 5 раз за определенный период времени (эмпирически предполагается 60 секунд), он помечается как P2P-хост, а потоки трафика от него и к нему – как трафик P2P-сетей.
14	(	Если существует хотя бы 2 потока с идентичными идентификаторами (IP-адреса, порты источника и назначения, TOS), сетевой трафик, поступающий от этих хостов и к ним, маркируется как трафик P2P.

Для обеспечения эффективной классификации сетевого трафика необходимо учесть взаимосвязанность друг с другом разработанных эвристически правил и очередность их применения. Очередность применения должна быть таковой, что наиболее «сильные» правила, позволяющие с большей точностью отделить трафик P2P-сетей от веб-трафика, должны быть применены к трафику в первую очередь, чтобы сократить объем неклассифицированного трафика.

На блок-схеме отражена очередность применения эвристических правил классификации к сетевому трафику.

Первыми применяются правила №1–№4, использующие номера портов для отделения известных сетевых приложений. Их использование позволит сразу сократить размерность сетевого трафика и максимально быстро классифицировать хотя бы часть сетевого трафика. После этого предлагается проверять уже пары портов на принадлежность одновременно как к портам TCP, так и к портам UDP, то есть, применяется правило №5.

Далее к классификации сетевого трафика на основе номеров портов следует добавить временную метку, а именно, использовать правило №6, проверяющее не только номера используемых портов на соответствие динамическим, но и обеспечивающее контроль времени использования порта с данным номером.

Затем требуются дополнительные статистические параметры, отражающие не только используемые IP-адреса и номера портов, но и количество используемых IP-адресов и портов. Для этого применяются эвристические правила №7 – №13. Правило №14 также требует некоторой статистики по сетевым потокам, однако ключевым его отличием является то, что он требует еще и такого параметра, как TOS.

Способ предполагает:

1. Запись сформированных эвристических правил классификации в базу данных, расположенную на сервере баз данных.

2. Сбор сетевого трафика в виде сетевых пакетов и/или потоков с маршрутизаторов.

3. Извлечение в режиме реального времени из сетевых пакетов следующих параметров:

3.1 IP-адреса отправителя и получателя;

3.2 номера портов отправителя и получателя;

3.3 размер сетевого пакета;

3.4 временная метка;

3.5 тип сетевого протокола транспортного уровня;

3.6 время жизни сетевого пакета (TTL);

3.7 тип обслуживания (TOS);

4. Вычисление следующих статистических характеристик сетевого трафика:

4.1 число флагов SYN и ACK;

4.2 размер сетевого потока;

4.3 число сетевых пакетов в сетевом потоке;

4.4 число сетевых пакетов протоколов каждого типа;

4.5 число исходящих подключений для хоста;

4.6 число входящих подключений к хосту.

5. Применение к извлеченным параметрам эвристических правил классификации №1-№5.

6. Маркировка трафика, удовлетворяющего использованным правилам, как P2P или веб, в соответствии с тем, какому правилу удовлетворяют параметры, извлеченные из трафика.

7. Проверка, есть ли неклассифицированный трафик. Если есть, к трафику, который не удалось классифицировать посредством применения правил №1-№5, применить правило №6.

8. Маркировать неклассифицированный трафик или его часть как P2P или веб, если это возможно посредством применения правила №6.

9. Проверка, есть ли неклассифицированный трафик. Если есть, к трафику, который не удалось классифицировать посредством применения правил №1-№6, применить набор правил №7-№13.

10. Маркировка трафика, удовлетворяющего использованным правилам, как трафика P2P-сетей или как веб-трафика, соответствующего сетям клиент-серверной архитектуры, в соответствии с тем, какому правилу удовлетворяют параметры, извлеченные из трафика.

11. Проверка, есть ли неклассифицированный трафик. Если есть, к трафику, который не удалось классифицировать посредством применения правил №7-№13, применить правило №14.

12. Маркировать неклассифицированный трафик или его часть как P2P или веб, если это возможно посредством применения правила №14.

13. Проверка, есть ли неклассифицированный трафик. Если есть, следует уведомить оператора о наличии неклассифицированного трафика путем вывода уведомления на экране монитора рабочей станции оператора.

14. Сохранение неклассифицированного трафика в отдельное хранилище, расположенное на сервере баз данных.

В итоге на каждом этапе применения множества правил будет обеспечена классификация сетевого трафика на веб-трафик и P2P-трафик. При этом будет увеличена точность верной классификации трафика, поскольку к трафику первоначально применяются наиболее «сильные» правила, отражающие наиболее характерные признаки для веб-трафика или для P2P-трафика. Помимо этого, некоторые правила применяются множеством, что позволяет получить подтверждение о типе трафика одновременно от нескольких правил, что обеспечивает более высокую достоверность классификации.

Также будет повышена эффективность и скорость обнаружения сетевых атак. Это обеспечивается, во-первых, тем, что для высокой скорости анализа безопасности из сетевых пакетов извлекаются характеристики, не требующие глубокого анализа пакетов, что не является долговременной и трудоемкой операцией. Таким образом, при реализации быстрой классификации трафика для последующего анализа безопасности обеспечивается и повышение скорости анализа безопасности.

Помимо этого, классификация трафика позволяет увеличить точность верного распознавания сетевых атак и аномалий в сетевом трафике, поскольку трафик P2P-сетей и веб-трафик проявляет различные статистические свойства, следовательно, при анализе безопасности возможно будет применить к каждому классу трафика методы анализа, адаптированные под особенности P2P/веб-трафика.

Способ автоматической классификации сетевого трафика на основе эвристического анализа, включающий классификацию сетевого трафика, собираемого с маршрутизаторов сети, на веб-трафик и P2P-трафик, отличающийся тем, что для классификации используются эвристические правила, описывающие ключевые характеристики веб-трафика и P2P-трафика, применяющиеся к поступающим с маршрутизаторов сетевым пакетам, из которых выделяются такие параметры, как IP-адреса отправителя и получателя, номера портов отправителя и получателя, размер сетевого пакета, временная метка, тип сетевого протокола транспортного уровня, время жизни сетевого пакета, тип обслуживания, флаги, параметры сохраняются в базу данных, расположенную на сервере баз данных, затем с использованием сохраненных в базе данных перечисленных параметров вычисляются статистические характеристики сетевого трафика, такие как число флагов SYN и ACK, размер сетевого потока, число сетевых пакетов в сетевом потоке, число сетевых пакетов протоколов каждого типа, число исходящих подключений для хоста, число входящих подключений к хосту, затем из базы данных извлекаются эвристические правила классификации сетевого трафика и поэтапно применяются к сетевому трафику; причем отнесение трафика к классу P2P-трафика или к классу веб-трафика выполняется при соответствии параметров трафика, извлеченных из сетевых пакетов или полученных в результате вычисления статистических характеристик, параметрам, описанным в эвристических правилах классификации.

Изобретение относится к области вычислительной техники и может быть использовано для интерпретации работы моделей искусственных нейронных сетей. Техническим результатом является повышение качества и точности интерпретации работы искусственной нейронной сети.

Способы и системы для оценки обучающих объектов посредством алгоритма машинного обучения // 2672394

Группа изобретений относится к области машинного обучения и может быть использована для оценки обучающих объектов. Техническим результатом является повышение эффективности алгоритма машинного обучения при экономии вычислительных ресурсов.

Способы и системы для оценки обучающих объектов посредством алгоритма машинного обучения // 2672394

Сентиментный анализ на уровне аспектов с использованием методов машинного обучения // 2657173

Изобретение относится к извлечению информации из текстов на естественных языках. Техническим результатом является повышение точности сентиментного анализа текстов на естественном языке, осуществляемого на уровне аспектов текстов.

Способ и система обучения алгоритма машинного обучения // 2649792

Изобретение относится к способам и системам для отбора обучающей выборки для обучения алгоритма машинного обучения. Технический результат заключается в расширении арсенала средств.

Аналоговый процессор с функциями управления вычислениями // 2647672

Изобретение относится к автоматике и аналоговой вычислительной технике и может быть использовано для построения функциональных узлов аналоговых вычислительных машин, средств автоматического регулирования и управления, аналоговых процессоров.

Создание вариаций при преобразовании данных в потребляемый контент // 2645276

Изобретение относится к способу генерирования вывода данных. Технический результат заключается в улучшении способа генерирования вывода данных.

Способ и устройство построения базы знаний // 2638013

Изобретение относится к способу и устройству построения базы знаний. Технический результат заключается в повышении скорости построения базы знаний.

Система и способ оценки медицинского исследования на соответствие мировому уровню // 2633929

Группа изобретений относится к здравоохранению, а также наукометрическим способам и системам анализа данных о научно-исследовательских проектах с целью выявления перспективного проекта или направления исследования в предметной области «биомедицина» по максимальному количеству набранных баллов по оцениваемым критериям и построения рейтинга для нескольких оцениваемых проектов или направлений исследований по возрастанию или убыванию упомянутых баллов.

Система и способ оценки технологизации результатов медицинских научно-исследовательских проектов // 2633633

Группа изобретений относится к здравоохранению, а также наукометрическим способам и системам анализа данных о научно-исследовательских проектах с целью выявления перспективного проекта в предметной области «биомедицина» с точки зрения технологизации его результата по максимальному количеству набранных баллов по оцениваемым критериям и построения рейтинга для нескольких оцениваемых проектов по возрастанию или убыванию упомянутых баллов.

Способ моделирования оптимального варианта топологического размещения множества информационно взаимосвязанных абонентов на заданном фрагменте сети связи общего пользования // 2690213

Изобретение относится к способу моделирования оптимального варианта топологического размещения множества информационно взаимосвязанных абонентов на заданном фрагменте сети связи общего пользования.

Способ интерпретации искусственных нейронных сетей // 2689818

Способ моделирования многоэтапного процесса развития и применения системы вооружения // 2689813

Изобретение относится к способам обработки цифровых данных в области прогнозирования и управления многоэтапными процессами, характеризующихся априорной неопределенностью ситуаций, возникающих при реализации их этапов.

Мезомасштабное моделирование // 2689200

Изобретение относится к средствам вывода прогнозируемых метеорологических условий в видеотрансляцию. Технический результат заключается в обеспечении возможности корректировать прогнозы для учета известных смещений моделей прогнозирования погоды и выдавать изображения высокого разрешения, согласующиеся с откорректированными прогнозами.

Система прогнозирования преступлений // 2686022

Изобретение относится к области прогнозирования преступлений. Технический результат заключается в повышении точности прогноза.

Способ максимизации степени адекватности модели системы связи // 2675762

Изобретение относится к области вычислительной техники. Технический результат заключается в сокращении времени создания адекватной модели.

Способы и системы для оценки обучающих объектов посредством алгоритма машинного обучения // 2672394

Способ внешнего контроля качества предоставляемых сетью связи услуг // 2669535

Изобретение относится к области техники связи. Технический результат – повышение достоверности информации о качестве предоставляемых услуг связи.

Сеть интеллектуальных машин // 2669527

Изобретение относится к области вычислительной техники. Технический результат заключается в предоставлении самообновляющегося устройства для характеризации предмета, которое выполнено с возможностью автоматического обновления параметров своей памяти на основе параметров памяти других машин из соответствующей сети машин.

Способ и система выбора потенциально ошибочно ранжированных документов с помощью алгоритма машинного обучения // 2664481

Изобретение относится к средствам для выбора потенциально ошибочно ранжированного документа в наборе поисковых результатов в ответ на запрос. Технический результат заключается в повышении точности машинного обучения.