Особенности обеспечения надежности ВС


П

Расчет модели надежности.

Пусть h - частота сбоев (количество сбоев в единицу времени), найденная как одна из характеристик выбранно ЭВМ; Хг - частота отказов; Xi+X2=k. Тогда X*t -количество сбоев и отказов за время t, которое называется циклом управления.

Разбив временно отрезок t на множество п элементарных отрезков можно считать,

At что вероятность сбоя или отказа на таком элементарном отрезке равна. Вероятность

At
бессбойно и безотказной работы на элементарном отрезке равна 1----- . Вероятность

п того, что на всех элементарных отрезках не произойдет сбоя или отказа, приведет к

нахождению степени п этого выражения
Увеличивая количество разбиениг

At

/,2 V п )
-Ал = е

Pj (?) = lim

п—>°°

П J временного интервала t можно определить вероятность безотказной работы:

Тогда Рг(0+Рз(0=1 -Pi (t)=1 -е" \ Зная частоту отказов и сбоев можно определить вероятности сбоев и отказов:

P2(t) = —(1-е~ ')

РМ) = —(1-е~ ')

3 А

Полная вероятность успешного решения задачи (надежность), определяется суммой произведения вероятносте по всем путям в дереве логических возможностей, ведущим к событиям с благоприятным исходом:

 


Р = Кг Р1 (?) + Кг Р2 (?) • Рвосст + Кг Р2 (?) • Р , тогда

Р = Кг • (Р2 (?) + Р2 (?) • (Реоссш + Ррез))

Указанные величины полностью характеризуют организацию помехозащищенного вычислительного процесса.

Зашита от сбоев.

Самым надежным и испытанным приемом защиты от последствий сбоев является двойной просчет. Он характерен для ЭВМ, не обладающих аппаратным контролем. В случае несовпадения результатов двойного просчета задача считается третий раз. Практически, в системах автоматического управления времени для этого нет

Программно-алгоритмический контрольоснован на способности предсказания ограниченно области, которой должны принадлежать результаты счета. Например, пусть производится интегрирование уравнения движения летательного аппарата с необходимо точностью. После получения очередных значени координат производится приближенная линейная экстраполяция для получения тех же координат на основе предыдущих положений объекта. Тогда точно полученные координаты должны попасть в определенную 5-окрестность координат, полученных приближенно. Так производится оценка достоверности результатов.

В современных ВС, как правило, используется аппаратный контроль, который устраняет синхронные аварии и сигнализирует об асинхронных авариях, порождая сигнал прерывания. Как правило, алгоритм использования аппаратного контроля следующий. Программа делится на сегменты некоторого рекомендуемого объема (по времени выполнения и по количеству команд программы) разделенные контрольными точками. Выход на контрольную точку сопровождается запоминанием или дублированием всей необходимо информации для того, чтобы следующи сегмент мог при необходимости перезапуститься (произвести малый рестарт), если во время его выполнения произойдет сбо. Для этого используется механизм расслоения памяти, когда необходимые данные для рестарта запоминаются в других модулях памяти, т.е. предусматривая возможность отказов модуле памяти. Рестарт с предыдуще (т.е. ближайше) контрольно точки производится только в случае сбоя. В целом «рестарт с контрольно точки» требует значительно меньших затрат, чем двойно просчет и программно-алгоритмический контроль.

Резервирование.

Применяется во всех ответственных случаях специального использования ВС. В дополнение к одно, основной ЭВМ используются одна и более резервных. Резервные ЭВМ не связаны с внешними объектами или объектами управления. С ними связана основная ЭВМ, а они дублируют ее работу, реализуя двойно просчет с анализом на совпадение с использованием в мажоритарно схеме контроля. В данном случае общее число ЭВМ больше двух. С помощью мажоритарного устройства на выходе всех ЭВМ производится "голосование", а результаты счета считаются правильными, если получены большинством ЭВМ.

Иногда резервируют не отдельно ЭВМ, а весь комплекс ЭВМ плюс внешние устройства памяти, связи и обмена. Тако комплекс называют линейкой.

Различают горячийи холодный резерв.

 


В горячем резерве ЭВМ работает в режиме дублирования или решения вспомогательных задач и в любо момент готова взять функции основно. В холодном резерве машина отключена.

Если в системе несколько ЭВМ, то каждая из них может иметь одну или более резервных, тако механизм называется распределенным резервом.

Существует механизм скользящего резерва, когда несколько ЭВМ являются резервными, и каждая из них способна заменить любую из основных ЭВМ. Количество резервных ЭВМ в этом случае согласуется с ^-характеристико ЭВМ и количеством основных ЭВМ . Это позволяет создавать более надежные и более дешевые вычислительные комплексы.

Построение многопроцессорных ВС привело к пересмотру всех традиционных представлений о надежности.

С одно стороны, большо объем оборудования при недостатках элементно базы приводит к резкому возрастанию сбоев и отказов в устройствах и модулях, с другой стороны - структурная и функциональная избыточность, виртуализация ресурсов, управление распределением работ, аппаратный контроль предназначены для выполнения устойчивого вычислительного процесса.

В этих условиях подвергаются сомнению сами определения сбоя и отказа. Эти определения принимаются по согласованию между разработчиком ВС и системщиком, т.е. с учетом требований тех задач, которые должна решать ВС в составе, например, системы управления.

Таким образом, в проблемно-ориентированных ВС проблема сбоев и отказов решается комплексно в соответствии с применением ВС.

Использование в ВС большого числа однотипных устройств с учетом идеи виртуальных ресурсов вносит особенности и в понятие резервирования. Реализуется структурное резервирование (развивает идеи скользящего резервирования), на основе которого при отказах производится реконфигурация системы: продолжение ее функционирования при изменившемся количестве устройств одно специализации. В этом смысле говорят о "живучести" системы.

Аппаратновыполняются следующие действия:

1. Обнаружение аварии в модуле, определение ее типа, сохранение диагностическо информации и приостановка работы аварийного модуля.

2. Передача информации об аварии по специальным шинам в другие модули.

3. Обработка сигналов аварии, приходящих от других модулей и исключение аварийного модуля из конфигурации.

4. Системная реакция на аварию: либо запуск специальных процедур ОС (малый рестарт), либо перезапуск комплекса (большо рестарт).

Программновыполняются следующие действия:

1. Сбор и обработка диагностическо информации аварийного модуля.

2. Попытка вернуть его в рабочую конфигурацию в предположении, что авария произошла в результате сбоя.

3. Сохранение в системном журнале информации об аварии.

Таким образом, в САР предусмотрены различные реакции на разные типы аварий.

 


Возникновение асинхронно аварии на процессе пользователя ведет к автоматическому исключению неисправного модуля из конфигурации и к запуску процедуры ОС, обрабатывающе аварийную ситуацию и определяюще дальнейшее течение аварийного процесса — аварийное завершение или перезапуск (малый рестарт). Остальные процессы "не чувствуют" аварийной работы. Исключение составляет случай, когда в конфигурации представлен лишь один модуль некоторого типа. Возникновение в нем аварии приводит к перезапуску всего комплекса (к большому рестарту).

Возникновение асинхронно аварии на процессе ОС всегда завершается большим рестартом.