Устойчивость к отказам

Лекция 11.

Обеспечение отказоустойчивости вычислительной системы имеет в конечном счете целью повышение вероятности успешного завершения решения задач и реализации процессов. Возможны два пути достижения отказоустойчивости.

1. повышение надежности электронной схемы аппаратуры за счет введения избыточных компонентов для резервирования отказавших.

2. модификация задачи или процесса при обнаружении отказа, направленная на снижение вероятности неправильного функционирования системы.

В настоящее время отказоустойчивость вычислительных средств перестает быть привилегией дорогостоящих военных систем и систем УВД. Многие современные недорогие мультимикропроцессорные системы вполне удовлетворяют требованию отказоустойчивости.

Существует три основных подхода к обеспечению отказоустойчивости:

1. Программный подход. В соответствии с этим подходом запас надежности обеспечивается программой, при работе которой избыточная загрузка процессора достигает 30%, а дополнительных аппаратных компонентов требуется очень немного.

2. Аппаратный подход. При его использовании имеют место избыточные затраты аппаратуры, но не предъявляется каких бы то ни было специальных требований к прикладному программному обеспечению.

3. Дублирование процессоров традиционной архитектуры. При этом подходе два процессора образуют слабо связанную структуру. Этот прием не является самым эффективным и рациональным, и его использование зачастую влечет за собой наложение специфических ограничений на прикладные программы.

В связи с тем, что стоимость электронных компонентов достаточно низкая и постоянно снижается, а относительная стоимость программного обеспечения постоянно растет, наиболее популярным методом обеспечения отказоустойчивости становится аппаратный подход, опирающийся на применение множества микроЭВМ.

Для построения отказоустойчивой мультимикропроцессорной системы необходимы средства анализа выходной информации всех процессоров. Еще одна функция, которой должна располагать отказоустойчивая система, заключается в возможности передачи периферийных устройств и интерфейсов от неисправного процессора тому процессору, который его замещает. Эта функция может быть реализована с помощью либо большого количества коммутационных средств, либо единственной шины, которая представляет собой в этой ситуации весьма уязвимое место системы.

Достоверность данных может быть обеспечена в вычислительной системе путем снабжения их битами контроля четности, контрольными суммами или представления данных кодами, позволяющими обнаруживать и исправлять ошибки; эти виды контрольной информации вырабатываются перед запоминанием и пересылкой данных, а после выполнения каких-либо действий избыточность кода данных позволяет выявить их корректность.