Вычислительная система для научно-технических расчетов

Авторы патента:

G06F15/163 - межпроцессорная коммуникация

G06F15/00 - Цифровые компьютеры вообще (конструктивные элементы G06F 1/00-G06F 13/00); оборудование для обработки данных вообще (нейронные сети для обработки данных изображений G06T)

Владельцы патента RU 2710890:

Общество с ограниченной ответственностью "ИНФОРМАЦИОННЫЙ ВЫЧИСЛИТЕЛЬНЫЙ ЦЕНТР" (RU)

Изобретение относится к системам обработки данных, предназначенным для научно-технических расчетов. Технический результат заключается в расширении арсенала средств того же назначения. Вычислительная система для научно-технических расчётов, представляющая собой кластер из преимущественно однотипных по архитектуре, конфигурации и составу оборудования вычислительных узлов, объединённых высокоскоростной сетью передачи данных, выполненный с возможностью одновременного решения по меньшей мере одной прикладной вычислительной задачи, при этом каждый вычислительный узел содержит по меньшей мере два вычислительных модуля и высокоскоростной локальный коммутатор сети передачи данных, причём локальный коммутатор сети передачи данных подключен своими портами к каждому вычислительному модулю, причём каждый вычислительный модуль включает процессор и оперативную память, процессор выполнен в виде «системы на кристалле» и включает центральный процессорный элемент и непосредственно подключённый к нему блок управления оперативной памятью и контроллер сети передачи данных. 3 з.п. ф-лы.

Общепринятой архитектурой современных высокопроизводительных вычислительных систем для научно-технических расчётов – суперкомпьютеров - является кластер, то есть множество преимущественно однотипных по архитектуре, конфигурации и составу оборудования вычислительных узлов, объединённых высокоскоростной локальной сетью передачи данных [Лацис А. Как построить и использовать суперкомпьютер. - М., Бестселлер, 2003 г.]. По этой архитектуре построены 437 из 500 самых мощных на сегодняшний день суперкомпьютеров (актуальный список Top500 за ноябрь 2017 года [www.top500.org]). При этом доминирующей элементной базой являются универсальные высокопроизводительные и очень сложные процессоры семейства Xeon или Xeon Phi производства фирмы Intel – их используют 471 суперкомпьютера из актуального списка Top500 [www.top500.org].

Данное единообразие при всех известных достоинствах (самые известные среди них – наличие большого количества совместимого системного и прикладного программного обеспечения и единообразие обслуживания), приводит и к ряду столь же существенных проблем. Во-первых, в силу фактически монопольного положения одного производителя цены держатся на очень высоком уровне. Во-вторых, прямым следствием высокой производительности и высокой сложности продуктов является их очень высокое энергопотребление, ставшее в последние годы фактически основным ограничителем повышения производительности суперкомпьютеров. В-третьих, процессоры, ориентированные на компьютеры общего назначения, имеют избыточный для чисто вычислительных установок набор встроенного периферийного оборудования, что также приводит к избыточному энергопотреблению. В-четвёртых, универсальная архитектура этих процессоров влечёт за собой избыточную сложность сетевой подсистемы вычислительного узла, что приводит, как известно, к существенным задержкам (латентности) при обмене данными между вычислительными узлами.

В последние годы, особенно в странах Европы и в Японии, активно проводятся работы по использованию в качестве основы для перспективных суперкомпьютеров более простых процессоров, имеющих более простую архитектуру и, как следствие, относительно невысокое быстродействие, но при этом радикально более низкое энергопотребление и радикальное более низкую цену (в первую очередь – процессоры семейства ARM, широко применяемые в бытовой, мобильной и коммуникационной технике) [https://www.hpcwire.com/2017/01/19/cea-riken-partner-arm-exascale/; https://atos.net/en/2017/press-release/general-press-releases_2017_06_19/atos-expands-range-supercomputers-include-arm-processors-new-bull-sequana-x1310]. К тому же в последнее время сформировалась новая группа полупроводниковых приборов – «системы на кристалле» (SoC, ‘System-on-Chip’) на базе этих процессоров, представляющих собой собранные на одном кристалле процессор, схемы управления памятью, схемы управления вводом-выводом и другие устройства и позволяющие получить законченный вычислитель простым добавлением к нему минимального количества внешних компонентов – электропитание, память и физические порты ввода-вывода. Часто такие SoC имеют в своём составе дополнительные специализированные вычислительные компоненты – графический процессор (GPU) с возможностью выполнения вычислительных задач, векторный сопроцессор либо иные. Например, широко распространённые продукты корпорации Texas Instruments включают в себя от двух до шести вычислителей различных архитектур, более десяти каналов цифрового и аналогового ввода-вывода и другое оборудование [http://www.ti.com/processors/dsp/media-processors/products.html].

Одним из существенных факторов, огранивающих на сегодняшний день широкое применение данной процессорной архитектуры в суперкомпьютерах, является относительно невысокая единичная производительность этих процессоров, что приводит к необходимости использовать большее количество процессоров (по сравнению, например, с процессорами Intel) для получения той же суммарной производительности.

Другая известная проблема является следствием первой – это высокая удельная стоимость и высокое энергопотребление оборудования локальной вычислительной сети – вследствие невысокой единичной производительности данных процессоров и невозможности создания многопроцессорных плат из-за отсутствия в них штатных аппаратных средств межпроцессорного взаимодействия требуемое количество портов системного коммутатора сети передачи данных оказывается существенно больше, чем в случае процессоров Intel.

Важнейшим достоинством мультипроцессорных вычислительных систем, построенных на базе процессоров ARM, является существенно меньшее энергопотребление как отдельных вычислительных узлов, так и всего кластера в целом по сравнению с традиционными системами на процессорах Intel. Например, на экспериментальной установке MontBlanc продемонстрировано снижение потребления электроэнергии при решении задач гидродинамики до 2-х раз по сравнению с суперкомпьютером MareNostrum, имеющим традиционную архитектуру [Oyarzun G. Efficient CFD code implementation for the ARM-based Mont-Blanc architecture [Электронный ресурс] / G. Oyarzun, R. Borrell, A. Gorobets, F. Mantovani, A. Oliva // Future Generation Computer Systems, 2018, № 79. – Режим доступа: https://doi.org/10.1016/j.future.2017.09.029, свободный]. Установка MontBlanc построена на процессоре Samsung Exynos 5 Dual, который не имеет в себе сетевого (Ethernet) интерфейса. Поэтому фактически к каждому процессору добавляется микросхема интерфейса USB-Ethernet, которая потребляет дополнительную электроэнергию и замедляет передачу данных между узлами.

Задачей предлагаемого изобретения является расширение арсенала технических средств, применимых для построения суперкомпьютеров.

По настоящему изобретению, для достижения поставленной цели используются процессоры, выполненные в виде «системы на кристалле» и включающие в себя многоядерный центральный процессорный элемент (ЦПЭ) и непосредственно подключённые к нему блок управления оперативной памятью и контроллер сети передачи данных. Процессор может также включать в себя интегрированный графический процессор (GPU) с возможностью выполнения вычислительных задач, либо векторный сопроцессор, либо иные специализированные вычислительные компоненты.

Каждый процессор совместно с подключёнными к нему элементами оперативной памяти представляет собой вычислительный модуль. В отдельных случаях вычислительные модули могут содержать в себе дополнительно подключенные к процессору внешние специализированные вычислители, выполненные, например, на основе графических процессоров (GPU), элементов программируемой логики (FPGA) или другие. Также некоторые модули могут дополнительно содержать в себе устройства внешней памяти или устройства ввода-вывода или устройства отображения информации или несколько дополнительных устройств.

При этом одно или более ядер многоядерного ЦПЭ могут быть выполнены с возможностью осуществления функций управления работой данного ЦПЭ, в том числе приём из сети передачи данных и загрузку системного программного обеспечения, приём из сети передачи данных и загрузку прикладного программного обеспечения и данных для каждого из ядер этого ЦПЭ, управление вычислительными процессами, выполняемыми на других ядрах этого ЦПЭ и на интегрированных и/или внешних специализированных вычислителях, управление оперативной памятью вычислительного модуля, выполнение обмена данными с другими вычислительными модулями и выполнения вычислительных процессов, а остальные ядра выполнены с возможностью выполнения только вычислительных процессов. Таким образом, вспомогательные задачи, требующие многочисленных переключений и взаимодействия с внешними устройствами, выносятся на отдельный аппаратный ресурс, а большая часть вычислительных ресурсов (вычислительных ядер) эффективно загружается непрерывным, последовательным счётом, чем достигается повышение общей вычислительной эффективности.

Несколько вычислительных модулей конструктивно объединяются в вычислительный узел, который дополнительно содержит объединяющий их высокоскоростной локальный коммутатор сети передачи данных. Локальный коммутатор содержит также один или более внешних портов, посредством которых он соединяется с высокоскоростным системным коммутатором сети передачи данных, объединяющим множество вычислительных узлов в кластер.

К данному локальному коммутатору предъявляется по сути только одно существенное требование – минимальное время задержки при передаче пакетов. При этом от него не требуется никаких возможностей по каскадированию (объединению в группы), удалённому доступу, управлению потоками данных и прочих интеллектуальных функций (при этом исключаются сложные схемы управления и память большого объёма), а количество портов и подключаемых сетевых узлов минимальны (также минимальные требования к объёму памяти). Кроме того, вычислительные модули подключаются к нему в пределах одного конструктива, что делает ненужными схемы внешних физических интерфейсов (front-end) как на самом коммутаторе (за исключением внешних портов), так и на всех вычислительных модулях. Таким образом, и локальный коммутатор, и сетевая подсистема в целом могут иметь минимальную сложность и, как следствие, минимальные энергопотребление и стоимость.

1. Вычислительная система для научно-технических расчётов, представляющая собой кластер из преимущественно однотипных по архитектуре, конфигурации и составу оборудования вычислительных узлов, объединённых высокоскоростной сетью передачи данных с помощью высокоскоростного системного коммутатора сети передачи данных, выполненный с возможностью одновременного решения по меньшей мере одной прикладной вычислительной задачи, отличающаяся тем, что каждый вычислительный узел содержит по меньшей мере два вычислительных модуля и высокоскоростной локальный коммутатор сети передачи данных,

причём локальный коммутатор сети передачи данных подключен своими портами к каждому вычислительному модулю, входящему в состав вычислительного узла, и по меньшей мере одним портом подключен к системному коммутатору сети передачи данных,

причём каждый вычислительный модуль включает процессор и оперативную память,

причём процессор выполнен в виде «системы на кристалле» и включает центральный процессорный элемент и непосредственно подключённый к нему блок управления оперативной памятью и контроллер сети передачи данных,

причём центральный процессорный элемент содержит, по меньшей мере, два независимых вычислительных ядра, имеющих одинаковую либо различную архитектуру, имеющих доступ к общей оперативной памяти.

2. Система по п. 1, отличающаяся тем, что по меньшей мере один вычислительный модуль дополнительно содержит в себе по меньшей мере один специализированный вычислитель.

3. Система по п. 1, отличающаяся тем, что по меньшей мере одно вычислительное ядро каждого центрального процессорного элемента выполнено с возможностью осуществления функций управления работой соответствующего центрального процессорного элемента и выполнения вычислительных процессов, а остальные ядра выполнены с возможностью выполнения только вычислительных процессов, причём набор функций управления включает в себя по меньшей мере

приём из сети передачи данных и загрузку системного программного обеспечения,

приём из сети передачи данных и загрузку прикладного программного обеспечения и данных для каждого из ядер этого центрального процессорного элемента,

управление вычислительными процессами, выполняемыми на других ядрах этого центрального процессорного элемента и на специализированных вычислителях,

управление оперативной памятью вычислительного модуля,

выполнение обмена данными с другими вычислительными модулями, входящими в состав любого вычислительного узла и образующими временную подгруппу вычислительных блоков, решающих совокупно одну задачу одновременно.

4. Система по п. 1, отличающаяся тем, что по меньшей мере один вычислительный модуль дополнительно содержит в себе устройства внешней памяти или устройства ввода-вывода или устройства отображения информации или несколько дополнительных устройств.

Изобретение относится к построению неблокируемых самомаршрутизируемых системных сетей для многопроцессорных систем. Технический результат заключается в расширении арсенала средств.

Пакетная сеть для мультипроцессорных систем и способ коммутации с использованием такой сети // 2703231

Изобретение относится к области вычислительной техники. Техническим результатом является уменьшение задержки при передаче данных между ядрами и сокращение аппаратных ресурсов, а также расширение функциональных возможностей в части реализации прямого доступа в память любого абонента.

Способ распределения нагрузки в многоядерной системе // 2703188

Изобретение относится к средствам распределения вычислительных ресурсов многоядерной системы обработки пакетов данных. Технический результат заключается в оптимизации нагрузки на обрабатывающие ядра посредством динамического масштабирования количества ядер, что приводит к оптимизации использования вычислительных ресурсов обрабатывающей пакеты данных системы и уменьшению энергопотребления обрабатывающей пакеты данных системы.

Устройство коммуникационного интерфейса gigaspacewire // 2700560

Изобретение относится к устройству коммуникационного интерфейса GigaSpaceWire. Техническим результатом является устранение потери пропускной способности при увеличении частоты работы устройства и скорости передачи в интерфейсе.

Система управления вычислительного узла в составе модульной вычислительной платформы "эльбрус8" для построения серверов различного назначения // 2695491

Изобретение относится к вычислительной технике и может быть использовано для построения серверов различного назначения. Технический результат заключается в повышении быстродействия при обеспечении возможности построения серверов различного назначения.

Устройство и способ администрирования сервера // 2656692

Изобретение относится к администрированию серверов высокого уровня секретности. Технический результат – обеспечение высокого уровня безопасности при администрировании серверов.

Устройство первичной обработки радиолокационной информации // 2653293

Изобретение относится к вычислительной технике и предназначено для цифровой обработки радиолокационных сигналов и управления аппаратурой в составе радиолокационного комплекса.

Вычислительный модуль // 2643622

Изобретение относится к области вычислительной техники, в частности к высокопроизводительным вычислительным устройствам для решения трудоемких задач с использованием распараллеливания по данным на множество независимых подзадач.

Способ и устройство для автоматического обмена сигналами между встроенными мультиплатами центрального процессора // 2641251

Изобретение относится к средствам автоматического обмена сигналами. Технический результат заключается в расширении арсенала технических средств за счет реализации средств автоматического обмена сигналами.

Высокопроизводительная вычислительная платформа на базе процессоров с разнородной архитектурой // 2635896

Изобретение относится к вычислительным комплексам и может быть использовано для параллельной обработки больших объемов информации от специальных систем в режиме реального времени.

Способ шифрования данных // 2710669

Изобретение относится к вычислительной технике. Технический результат заключается в повышении производительности процесса шифрования.

Информационно-аналитическая система общественного здоровья // 2710278

Изобретение относится к области медицины. Технический результат заключается в увеличении быстродействия обработки данных.

Устройство для моделирования процессов функционирования мобильных информационных систем массового обслуживания при эксплуатации // 2708968

Изобретение относится к вычислительной технике и может быть использовано при моделировании и исследовании процессов функционирования мобильных информационных систем массового обслуживания (МИ СМО) с учетом состава, режимов и динамики их применения при эксплуатации.

Вычислительный модуль для многопотоковой обработки цифровых данных и способ обработки с использованием данного модуля // 2708794

Изобретение относится к области вычислительной техники, в частности к вычислительным устройствам с многопотоковой архитектурой. Техническим результатом является повышение производительности вычислительного модуля за счет обеспечения синхронизации работы вычислительных потоков, исполняемых на процессорных ядрах.

Блок вычислительный // 2707701

Изобретение относится к технике обработки цифровых данных с использованием программируемых специализированных вычислительных устройств и может быть использовано при разработке специализированных вычислительных устройств обработки цифровых данных на борту боевых летательных аппаратов.

Адаптивное цифровое прогнозирующее устройство // 2707417

Изобретение относится к средствам обработки информации для сглаживания и прогнозирования стационарных и нестационарных случайных процессов. Технический результат заключается в повышении достоверности прогнозирования за счет увеличения времени прогноза.

Способ моделирования независимых и группирующихся ошибок канала связи // 2705771

Изобретение относится к способу моделирования независимых и группирующихся ошибок канала связи. Технический результат заключается в повышении быстродействия модифицированной модели канала связи.

Устройство для прогнозирования случайных событий // 2705010

Изобретение относится к области вычислительной техники. Технический результат - создание управляемого устройства, способного повысить достоверность моделирования и прогноза случайных событий в условиях возникновения катастрофических состояний числа отказов производственной и телекоммуникационной системы при плавных изменениях параметров управляющих воздействий или внешних факторов, а также своевременно оповещать администратора, на основе полученных данных идентификации и верификации.

Способ организации сети передачи данных // 2703332

Изобретение относится к информационным технологиям и предназначено для создания сети передачи информации между двумя и более точками на расстоянии. Техническим результатом изобретения является упрощение структуры и снижение времени построения сети.

Пакетная сеть для мультипроцессорных систем и способ коммутации с использованием такой сети // 2703231