Итоги сравнения
Сравнивая различные статистические программы следует учитывать, что практически все они обладают набором стандартных процедур. Алгоритмы, используемые программами, по большей части, стандартные и различий при использовании той или иной программы нет (было бы удивительно, если бы они существовали). Поэтому на первое место выходят различия в пользовательском интерфейсе, полнота охвата современных статистических методов, программируемость, наличие дополнительных модулей расширения и легкость использования полученных графиков и таблиц в других программах. Не все перечисленные выше требования могут выполняться одновременно. Так, например, программируемость и расширяемость обычно плохо сочетаются с полнотой пользовательского интерфейса. Вообще достаточно четко проявляется правило - чем более разработан пользовательский интерфейс и графическая подсистема, тем "тяжелее" приложение. На одном полюсе находятся в этом отношении STATA и SAS - управляемые преимущественно из командной строки, но зато с большим количеством легко подключаемых и используемых дополнительных модулей. На другом - Statgraphics+, NCSS и Statistica, которые имеют чрезвычайно привлекательный интерфейс, полный и удобный для начинающих, однако при почти полном отсутствии дополнительных (бесплатных) модулей и подпрограмм.
Те, кто по ходу своей работы сталкивается с необходимостью применять необычные статистические подходы или хочет воспользоваться идеями, созданными и реализованными другими людьми, должен обратить свое внимание на системы, управляемые из командной строки. SAS является наиболее разработанной программой этого класса с большим количеством готовых подпрограмм, широким охватом процедур и языком манипулирования матрицами, что чрезвычайно удобно для написания статистических программ.
Наличие оболочек для SAS (собственный ASSISST и бесплатный OverStat) позволяет легко создавать сложные задания для обработки данных и анализировать их достаточно быстро (все системы, работающие в пакетном режиме позволяют обсчитывать данные быстрее, чем системы, основанные на меню). Stata несколько отстает от SAS в отношении удобства программирования (субъективный взгляд автора), обладает не столь широкими возможностями, однако это с лихвой компенсируется наличием большого количества дополнительных модулей и подписным листом, в котором пользователи приводят свои программы, рассчитанные на анализ различных статистических моделей.
Естественно, эти две программы вряд ли могут быть рекомендованы для новичков в области обработки данных, которые не собираются часто прибегать к нестандартным статистическим процедурам. Это инструменты лиц, часто занимающихся анализом больших массивов данных, использующих различные статистические подходы и желающих иметь контроль над процессом обработки результатов.
Промежуточную позицию занимает SPSS, являясь одновременно и системой с мощным языком программирования и достаточно дружелюбным к пользователю интерфейсом. Вообще ряд возможностей, предлагаемых SPSS, особенно в области факторного анализа, являются самыми широкими среди всех описанных систем.
Язык SPSS достаточно прост и позволяет автоматизировать часто повторяющиеся задания. В целом SPSS может быть рекомендована пользователям, которые хотят иметь систему с простым, интуитивным интерфейсом, относительно развитой графикой и периодически использующих язык программирования для автоматизации более сложных заданий.
Если же речь заходит о начинающих пользователях, то им следует обратить свое внимание на Statistica или Statgraphics+. Для людей, относительно ориентирующихся в статистических методиках или начинающих изучение статистики наиболее адекватной будет использование системы Statistica. Дружелюбный интерфейс, развитая система подсказки и полнота представленных статистических процедур позволяют рекомендовать эту систему начинающим пользователям и непрофессионалам, часто использующим в своей работе статистические методы анализа.
С целью демонстрации возможностей некоторых из перечисленных выше программ решим задачу построения модели на основе данных приведенных ниже. В качестве зависимой переменной будет выступать рентабельность (столбец 1), в качестве независимых переменных – столбцы 2-6.
Исходные данные
Statistica 6.0
NCSS Statistical and Data Analysis