Методы расчета надежности вычислительных систем

Расчет надежности вычислительных систем

Целью расчета надежности ВС и их подсистем на этапе проектирования является сравнение вариантов при выборе технического решения, получение приближенных оценок показателей надежности разрабатываемой ВС или подсистемы.

При расчетах необходимо учитывать, что применяемый метод должен соответствовать поставленной цели и не содержать лишних вычислений, не оправданных с точки зрения погрешностей исходных данных.

Расчеты для оценки уровней надежности объектов выполняются по приближенным методам, так как исходные данные о надежности, как правило, весьма приближенные. В то же время сравнительные расчеты надежности целесообразно выполнить по точным методам, так как грубые оценки могут не улавливать разницу в надежности тех или других технических решений. Однако методы точного расчета для восстанавливаемых резервированных систем весьма громоздкие. В то же время очевидно, что если надежность, допустим, первого варианта технического решения больше надежности второго варианта в условиях, когда восстановление не производится, то, как правило, первый вариант предпочтителен и в условиях восстановления. Следовательно, в некоторых случаях для предварительного выбора варианта сложной резервированной системы целесообразно проводить предварительные сравнительные расчеты по более простой методике расчета невосстанавливаемых систем, в то время как проектируемая система будет работать в условиях восстановления.

Приведем типовые постановки задач расчета надежности ВС и их подсистем.

Расчет надежности конструктивных единиц не резервированной аппаратуры производится суммированием интенсивностей отказов.

Интенсивность отказов ЭВМ определяется суммированием интенсивностей отказов входящих в ее состав составляющих конструкций. Если оценивается надежность не только аппаратуры, но всей ВС с учетом надежности программного обеспечения (ПО), необходимо к интенсивности отказов аппаратуры прибавлять также и интенсивность отказов ПО.

В случае резервированных систем разделение аппаратуры на основную и резервную не всегда совпадает с конструктивным разделением системы. Поэтому необходимо сначала определить интенсивности отказов и вероятности безотказной работы всех резервируемых и резервирующих подсистем, а далее пользоваться формулами (1.1), (1.2) в случае последовательно-параллельных структур резервирования, формулой (1.4) в случае скользящего резервирования или методом минимальных путей и сечений в случае систем со сложной структурой.

В случае когда восстанавливаемая система не резервирована и интенсивности отказов постоянные, а временем восстановления можно пренебрегать, достаточно рассчитать интенсивность ее отказов, поскольку в этих условиях параметр потока отказов равен интенсивности отказов системы.

В случае, когда временем восстановления системы нельзя пренебрегать, необходимо прежде всего оценить время восстановления аппаратуры. Последнее определяется временем обнаружения отказов системами контроля, временем локализации отказа системами диагностирования и временем ремонта, который заключается в замене отказавшего типового элемента замены. Время восстановления может колебаться в широких пределах в зависимости от типа аппаратуры и организации обслуживания.

Если в результате отказа ЗУ были разрушены какие-либо важные массивы данных или тексты программ, то к времени восстановления аппаратуры прибавляется еще время восстановления информации.

Время восстановления информации зависит от характера информации и организации работы ВС. Например, если разрушенные данные не били дублированы, то их восстановление может занимать значительное время.

Если встречаются отказы ПО, то в зависимости от организации работы ВС после отказа программа либо будет, либо не будет скорректирована. В первом случае работа системы восстанавливается сразу при продолжении расчетов с другими исходными данными и ошибка проявляется в дальнейшем лишь при поступлении определенной комбинации исходных данных. Интенсивность (и параметр потока) отказов программы при этом остается неизменной. Если же после отказа программы решено исправлять проявившуюся скрытую ошибку в программе, то корректирование текста программы вместе с необходимой отладкой и проверкой может занимать значительное время.