Способ обеспечения отказоустойчивости вычислительных систем

Авторы патента:

G06F11/18 - с использованием пассивного маскирования сбоев, например с помощью расчетверения или мажоритарных решающих схем

Изобретение относится к вычислительным системам и может быть использовано для построения отказоустойчивых систем. Способ основан на использовании сигналов от детекторов сбоев, входящих в состав каждого из резервированных каналов, для блокировки неисправных каналов. Для маскирования сбоев используют независимую одновременную работу N каналов, число которых на единицу больше кратности маскируемых сбоев, сигналы которых подают на общий выход, и по сигналам, полученным от детекторов сбоев, входящих в состав каждого канала, производят блокировку прохождения сигналов от каналов, в которых произошли сбои, и пропускают на выход тот из сигналов от исправных каналов, который приходит первым по времени. 1 з. п. ф-лы, 1 ил.

Изобретение относится к вычислительным системам и может быть использовано для построения отказоустойчивых систем.

Обеспечение отказоустойчивости предполагает парирование действия константных отказов и маскирование сбоев (перемежающихся отказов), т.е. предотвращение распространения последствий сбоя на продолжение выполнения системой своих функций. Парирование действия отказов всегда связано с введением в систему того или иного вида избыточности.

Известен способ обеспечения отказоустойчивости, основанный на фиксировании константного отказа или сбоя системы в целом или в ее отдельных частях с последующей реконфигурацией системы [1, 2] Такой способ не позволяет маскировать сбои, связан с прерыванием функционирования системы, т.е. не обеспечивает сбоеустойчивость в системах реального времени.

Известен способ обеспечения отказоустойчивости, позволяющий маскировать сбои и основанный на мажорировании, т.е. использовании 2n+1 каналов и схемы голосования, отбирающей те выходные данные, которые представляют большинство [1, 2] Такой способ и используется для систем реального времени. Мажорирование может быть осуществлено или аппаратно, или программно, или в комбинации этих способов.

Недостатком таких способов является значительное количество оборудования, даже в минимальном варианте при n=1 (троирование). Другим недостатком способов мажорирования являются значительные потери производительности. При аппаратной реализации потеря производительности связана с необходимостью синхронизации процессов в резервированных каналах. При программной реализации быстродействие системы снижается из-за затрат времени на обмен информацией между каналами.

Причина такой неэффективности состоит в том, что и при аппаратной, и при программной организации механизм маскирования сбоев, т.е. голосование, определение неисправного канала, его блокирование и последующее включение в нормальную работу, используется в каждом такте работы системы вне зависимости от наличия или отсутствия сбоев. Эти временные потери при практической реализации достигают 30-50% К недостаткам мажорирования при его реализации следует отнести также большое количество связей между каналами и значительные трудности при проектировании. По некоторым данным троированные мажоритарные схемы из-за этого дороже в среднем в 5 раз, чем обычные [2] Следует отметить, что при аппаратном мажорировании в случае константных отказов возможности реконфигурации ограничены, и нормальное функционирование при деградации системы до одного канала обеспечивается лишь при дополнительных аппаратных и временных затратах. При программном мажорировании в случае константных отказов реконфигурация до одного исправного канала возможна без дополнительных аппаратных затрат. Но увеличение кратности маскируемых сбоев в отличие от аппаратного мажорирования, где это можно осуществить путем организации многократного голосования при прохождении сигналов по системе или соответственно путем введения аппаратной избыточности невозможно.

Целью изобретения является сокращение аппаратной и временной избыточности и расширение функциональных возможностей.

Это достигается тем, что в способе, заключающемся в маскировании сбоев путем резервирования и включающем определение наличия сбоев, идентификацию и блокировку неисправных каналов для маскирования сбоев используют независимую одновременную работу N каналов, число которых на единицу больше кратности маскируемых сбоев, сигналы которых подают на общий выход, и по сигналам, полученным от детекторов сбоев, входящих в состав каждого канала, производят блокировку прохождения сигналов от каналов, в которых произошли сбои и пропускают на выход тот из сигналов от исправных каналов, который приходит первым по времени. Определение наличия сбоя, идентификация и блокировка неисправных каналов производится после прохождения на выход сигнала, пришедшего первым по времени.

Основным отличием от мажорирования является то, что механизм маскирования в предлагаемом способе работает только при наличии сбоев в системе, а при нормальной pаботе возможная временная избыточность минимальна и связана лишь с работой детекторов сбоев.

На чертеже показана работа двухканальной системы, обеспечивающая предлагаемый способ, где 1 вход системы, 2 i, j отдельные части резервированных каналов, 3 i, j детекторы сбоев, 4 i, j сигналы о сбоях, 5 дискриминатор, 6 выход системы.

Предлагаемый способ может быть применен как в системе в целом, так и в каждой отдельной ее части, т. е. система может быть разбита на отдельные части и в каждой или в некоторых из них применен предлагаемый способ. На идентичность каналов или на идентичность частей каналов при разбиении предлагаемый способ ограничений не накладывает и в общем случае n

Сигналы 4 i, j о наличии сбоя поступают на дискриминатор 5, в котором прохождение сигнала от неисправного канала на выход 6 блокируется. На выход 6 должен поступать лишь один, первый по времени из пришедших от исправных каналов, сигнал. Поэтому в дискриминаторе 5 должны обеспечиваться исключение конфликтных ситуаций при возможном одновременном приходе нескольких сигналов и блокировка прохождения на выход сигналов от остальных исправных каналов после выдачи первого.

Кратность маскируемых сбоев равна кратности резервирования, но может быть и увеличена за счет применения соответствующих типов селекторов сбоев. Например. Применение кодов Хэмминга позволяет фиксировать двойные сбои ОЗУ.

Существует обширный класс систем, в которых в силу их инерционности не накладывается жестких требований на правильное исполнение сигнала в каждом единичном такте работы системы. Для таких систем возможна другая реализация предлагаемого способа без использования сигналов от детекторов сбоев.

Сигналы, пришедшие на дискриминатор 5, запоминаются. Это позволяет производить анализ работы каналов "задним числом", без затрат времени на анализ при отсутствии сбоев. При наличии сбоя проводится определение неисправного канала, блокировка его и последующее включение в нормальную работу. А в случае константного отказа неисправный канал отключается. При определении неисправного канала могут применяться методы повторного счета, голосования (при нечетном N>2) и т.п. Дискриминатор 5 при такой схеме работы должен содержать дополнительно буферную память и устройства идентификации неисправного канала. Такая реализация может применяться в комбинации с детекторами сбоев. Надежность дискриминатора должна быть выше, чем у каналов, что вполне достижимо, учитывая относительную (по сравнению с каналом) простоту схемы дискриминатора.

Использование предлагаемого способа имеет следующие преимущества по сравнению с мажорированием: экономия аппаратуры примерно на 30% при минимальной конфигурации и еще большая при увеличении кратности парируемых сбоев; минимизация временных потерь при нормальной работе системы и даже сохранение быстродействия на уровне одноканальной системы при нежестких требованиях к работе системы в каждом единичном такте; отсутствие перекрестных связей между каналами и связанные с этим относительная простота и стоимость проектирования; возможность повышения надежности за счет использования разных алгоритмов решения задач и разных структур каналов; возможность обеспечить без дополнительных аппаратных затрат реконфигурацию системы при константных отказах и ее нормальное функционирование при деградации до одного канала, а также увеличение кратности маскируемых сбоев путем использования соответствующих детекторов сбоев или рационального разбиения каналов на части.

Формула изобретения

1. СПОСОБ ОБЕСПЕЧЕНИЯ ОТКАЗОУСТОЙЧИВОСТИ ВЫЧИСЛИТЕЛЬНЫХ СИСТЕМ, заключающийся в маскировании сбоев путем резервирования и включающий определение наличия сбоев, идентификацию и блокировку неисправных каналов, отличающийся тем, что для маскирования сбоев используют независимую одновременную работу N каналов, число которых на единицу больше кратности маскируемых сбоев, сигналы которых подают на общий выход, и по сигналам, полученным от детекторов сбоев, входящих в состав каждого канала, производят блокировку прохождения сигналов от каналов, в которых произошли сбои, и пропускают на выход тот из сигналов от исправных каналов, который приходит первым по времени.

2. Способ по п.1, отличающийся тем, что определение наличия сбоя, идентификация и блокировка неисправных каналов производятся после прохождения на выход сигнала, пришедшего первым по времени.

РИСУНКИ

Рисунок 1

Изобретение относится к автоматике и вычислительной технике и может быть использовано для работы в резервированных устройствах

Устройство для мажоритарного выбора сигналов // 2037873

Устройство для мажоритарного выбора сигналов // 2015543

Изобретение относится к автоматике и вычислительной технике и предназначено для работы в высоконадежных резервированных устройствах

Устройство для контроля и реконфигурации дублированной вычислительной системы // 2015542

Изобретение относится к автоматике и вычислительной технике и может быть использовано при проектировании отказоустойчивых вычислительных систем реального времени

Резервированная система // 2010315

Изобретение относится к вычислительной технике и может быть использовано при создании вычислительных систем повышенной надежности и производительности

Устройство для контроля работоспособности вычислительных систем // 2006922

Изобретение относится к вычислительной технике и может найти применение при контроле работоспособности микропроцессорных вычислительных систем

Резервированное устройство // 1833877

Устройство для мажоритарного выбора сигналов // 1833876

Резервированное устройство для контроля и управления // 1830535

Устройство для контроля и реконфигурации дублированной вычислительной системы // 1830534

Мажоритарное устройство // 2105347

Устройство для мажоритарного выбора сигналов // 2110835

Изобретение относится к области автоматики и вычислительной техники и может быть использовано при построении высоконадежных устройств и систем, например резервированных систем для обработки числоимпульсных кодов, устройств для анализа и сравнения импульсных последовательностей и т.д

Мажоритарное устройство // 2110836

Изобретение относится к автоматике и вычислительной технике, и может быть использовано при построении высоконадежных устройств и систем, например резервированных систем для обработки число-импульсных кодов, устройств для анализа и сравнения импульсных последовательностей и т.д

Резервированный счетчик импульсов // 2122282

Изобретение относится к вычислительной и импульсной технике и может быть использовано при построении высоконадежных резервированных систем для счета и обработки цифровой информации

Мажоритарное устройство // 2141130

Изобретение относится к электронной технике и может быть использовано при построении высоконадежных устройств и систем, проектируемых по методу горячего резервирования

Устройство для ввода информации // 2159952

Изобретение относится к автоматике и вычислительной технике, предназначено для ввода информации от датчиков импульсных и статических сигналов в системах управления и может быть использовано, например, при построении контроллеров ввода битовой информации в функционально ориентированных микропроцессорных системах обработки информации и управления

Мажоритарное устройство // 2173876

Мажоритарное устройство (варианты) // 2174703

Способ резервирования фазовращателя // 2208835

Изобретение относится к автоматике, вычислительной технике и может быть использовано в информационно-измерительных системах

Адаптивное резервированное устройство // 2210806

Изобретение относится к автоматике и вычислительной технике и может быть использовано в резервированных системах управления