Факторный анализ

 

Основные положения. В последнее время всё более широкое распространение находит один из новых разделов многомерного статистического анализа — факторный анализ. Первоначально этот метод разрабатывался для объяснения многообразия корреляций между исходными параметрами. Действительно, результатом корреляционного анализа является матрица коэффициентов корреляций. При малом числе параметров можно произвести визуальный анализ этой матрицы. С ростом числа параметра (10 и более) визуальный анализ не даёт положительных результатов. Оказалось, что всё многообразие корреляционных связей можно объяснить действием нескольких обобщённых факторов, являющихся функциями исследуемых параметров, причём сами обобщённые факторы при этом могут быть и неизвестны, однако их можно выразить через исследуемые параметры.

Один из основоположников факторного анализа Л. Терстоун приводит такой пример: несколько сотен мальчиков выполняют 20 разнообразных гимнастических упражнений. Каждое упражнение оценивают баллами. Можно рассчитать матрицу корреляций между 20 упражнениями. Это большая матрица размером 20×20. Изучая такую матрицу, трудно уловить закономерность связей между упражнениями. Нельзя ли объяснить скрытую в таблице закономерность действием каких-либо обобщённых факторов, которые в результате эксперимента непосредственно, не оценивались? Оказалось, что обо всех коэффициентах корреляции можно судить по трём обобщённым факторам, которые и определяют успех выполнения всех 20 гимнастических упражнений: чувство равновесия, усилие правого плеча, быстрота движения тела.

Дальнейшие разработки факторного анализа доказали, что этот метод может быть с успехом применён в задачах группировки и классификации объектов. Факторный анализ позволяет группировать объекты со сходными сочетаниями признаков и группировать признаки с общим характером изменения от объекта к объекту. Действительно, выделенные обобщённые факторы можно использовать как критерии при классификации мальчиков по способностям к отдельным группам гимнастических упражнений.

Методы факторного анализа находят применение в психологии и экономике, социологии и экономической географии. Факторы, выраженные через исходные параметры, как правило, легко интерпретировать как некоторые существенные внутренние характеристики объектов.

Факторный анализ может быть использован и как самостоятельный метод исследования, и вместе с другими методами многомерного анализа, например в сочетании с регрессионным анализом. В этом случае для набора зависимых переменных наводят обобщённые факторы, которые потом входят в регрессионный анализ в качестве переменных. Такой подход позволяет сократить число переменных в регрессионном анализе, устранить коррелированность переменных, уменьшить влияние ошибок и в случае ортогональности выделенных факторов значительно упростить оценку значимости переменных.

Представление, информации в факторном анализе.

Для проведения факторного анализа информация должна быть представлена в виде двумерной таблицы чисел размерностью т×п, аналогичной приведенной в п. 2.7 (матрица исходных данных). Строки этой матрицы должны соответствовать объектам наблюдений (i = l, 2, ...,п) столбцы — признакам (j=1,. 2, ..., т); таким образом, каждый признак является как бы статистическим рядом, в котором наблюдения варьируют от объекта к объекту. Признаки, характеризующие объект наблюдения, как правило, имеют различную размерность. Чтобы устранить влияние размерности и обеспечить сопоставимость признаков, матрицу исходных данных обычно нормируют, вводя единый масштаб. Самым распространенным видом нормировки является стандартизация. От переменных переходят к переменным . В дальнейшем, говоря о матрице исходных переменных, всегда будем иметь в виду стандартизованную матрицу.

Основная модель факторного анализа. Основная модель факторного анализа имеет вид

, (2.19)

где -й признак (величина случайная); — общие факторы (величины случайные, имеющие нормальный закон распределения); — характерный фактор; — факторные нагрузки, характеризующие существенность влияния каждого фактора (параметры модели, подлежащие определению); — нагрузка характерного фактора.

Модель предполагает, что каждый из j признаков, входящих в исследуемый набор и заданных в стандартной форме, может быть представлен в виде линейной комбинации небольшого числа общих факторов и характерного фактора .

Термин «общий фактор» подчёркивает, что каждый такой фактор имеет существенное значение для анализа всех признаков (j=1,. 2, ..., т), т.е. (k=1,. 2, ..., p).

Термин «характерный фактор» показывает, что он относится только к данному j-му признаку. Это специфика признака, которая не может быть, выражена через факторы .

Факторные нагрузки характеризуют величину влияния того или иного общего фактора в вариации данного признака. Основная задача факторного анализа — определение факторных нагрузок. Факторная модель относится к классу аппроксимационных. Параметры модели должны быть выбраны так, чтобы наилучшим образом аппроксимировать корреляции между наблюдаемыми признаками.

Для j-го признака и i-го объекта модель (2.19) можно записать в. виде

(2.20)

где значение k-го фактора для i-го объекта.

Дисперсию признака можно разложить на составляющие: часть, обусловленную действием общих факторов, — общность и часть, обусловленную действием j-го характера фактора, характерность . Все переменные представлены в стандартизированном виде, поэтому дисперсий j-го признака =1. Дисперсия признака может быть выражена через факторы и в конечном счёте через факторные нагрузки.

Если общие и характерные факторы не коррелируют между собой, то дисперсию j-го признака можно представить в виде

где —доля дисперсии признака , приходящаяся на k-й фактор.

Полный вклад k-го фактора в суммарную дисперсию признаков

Вклад общих факторов в суммарную дисперсию

Факторное отображение. Используя модель (2.19), запишем выражения для каждого из параметров:

(2.21)

Коэффициенты системы (2,21) — факторные нагрузки — можно представить в виде матрицы, каждая строка которой соответствует параметру, а столбец — фактору.

Факторный анализ позволяет получить не только матрицу отображений, но и коэффициенты корреляции между параметрами и факторами, что является важной характеристикой качества факторной модели. Таблица таких коэффициентов корреляции называется факторной структурой или просто структурой.

Коэффициенты отображения можно выразить через выборочные парные коэффициенты корреляции. На этом основаны методы вычисления факторного отображения.

Рассмотрим связь между элементами структуры и коэффициентами отображения. Для этого, учитывая выражение (2.19) и определение выборочного коэффициента корреляции, умножим уравнения системы (2.21) на соответствующие факторы, произведём суммирование по всем п наблюдениям и, разделив на п, получим следующую систему уравнений:

(2.22)

где — выборочный коэффициент корреляции между j-м параметром и k-м фактором; — коэффициент корреляции между k-м и р-м факторами.

Если предположить, что общие факторы между собой, не коррелированы, то уравнения (2.22) можно записать в виде , т.е. коэффициенты отображения равны элементам структуры.

Введём понятие, остаточного коэффициента корреляции и остаточной корреляционной матрицы. Исходной информацией для построения факторной модели (2.19) служит матрица выборочных парных коэффициентов корреляции. Используя построенную факторную модель, можно снова вычислить коэффициенты корреляции между признаками и сравнись их с исходными Коэффициентами корреляции. Разница между ними и есть остаточный коэффициент корреляции.

В случае независимости факторов имеют место совсем простые выражения для вычисляемых коэффициентов корреляции между параметрами: для их вычисления достаточно взять сумму произведений коэффициентов отображения, соответствующих наблюдавшимся признакам:

где —вычисленный по отображению коэффициент корреляции между j-м и k-м признаком. Остаточный коэффициент корреляции

Матрица остаточных коэффициентов корреляции называется остаточной матрицей или матрицей остатков

где— матрица остатков; — матрица выборочных парных коэффициентов корреляции, или полная матрица; R'— матрица вычисленных по отображению коэффициентов корреляции.

Результаты факторного анализа удобно представить в виде табл. 2.10.

Таблица 2.10

  Факторные нагрузки Общности
А
……………….. …..
Вклады факторов

 

Здесь суммы квадратов нагрузок по строкам — общности параметров, а суммы квадратов нагрузок по столбцам — вклады факторов в суммарную дисперсию параметров. Имеет место соотношение

Определение факторных нагрузок. Матрицу факторных нагрузок можно получить различными способами. В настоящее время наибольшее распространение получил метод главных факторов. Этот метод основан на принципе последовательных приближений и позволяет достичь любой точности. Метод главных факторов предполагает использование ЭВМ. Существуют хорошие алгоритмы и программы, реализующие все вычислительные процедуры.

Введём понятие редуцированной корреляционной матрицы или просто редуцированной матрицы. Редуцированной называется матрица выборочных коэффициентов корреляции , у которой на главной диагонали стоят значения общностей

Редуцированная и полная матрицы связаны соотношением

(2.23)

где D — матрица характерностей.

Общности, как правило, неизвестны, и нахождение их в факторном анализе представляет серьезную проблему. Вначале определяют (хотя бы приближённо) число общих факторов, совокупность, которых может с достаточной точностью аппроксимировать все взаимосвязи выборочной корреляционной матрицы. Доказано, что число общих факторов (общностей) равно рангу редуцированной матрицы, а при известном ранге можно по выборочной корреляционной матрице найти оценки общностей. Числа общих факторов можно определить априори, исходя из физической природы эксперимента. Затем рассчитывают матрицу факторных нагрузок. Такая матрица, рассчитанная методом главных факторов, обладает одним интересным свойством: сумма произведений каждой пары её столбцов равна нулю, т.е. факторы попарно ортогональны.

Сама процедура нахождения факторных нагрузок, т.е. матрицы А, состоит из нескольких шагов и заключается в следующем: на первом шаге ищут коэффициенты факторных нагрузок при первом факторе так, чтобы сумма вкладов данного фактора в суммарную общность была максимальной:

(2.24)

Максимум должен быть найден при условии

(2.25)

где — общность параметра .

Затем рассчитывают матрицу коэффициентов корреляции с учётом только первого фактора . Имея эту матрицу, получают первую матрицу остатков:

На втором шаге определяют коэффициенты нагрузок при втором факторе так, чтобы сумма вкладов второго фактора в остаточную общность (т.е. полную общность без учёта той части, которая приходится на долю первого фактора) была максимальной. Сумма квадратов нагрузок при втором факторе

(2.26)

Максимум находят из условия

(2.27)

где — коэффициент корреляции из первой матрицы остатков; — факторные нагрузки с учётом второго фактора. Затем рассчитывают матрицу коэффициентов корреляций с учётом второго фактора и вычисляют вторую матрицу остатков:

Факторный анализ учитывает суммарную общность. Исходная суммарная общность Итерационный процесс выделения факторов заканчивают, когда учтённая выделенными факторами суммарная общность отличается от исходной суммарной общности меньше чем на ε (ε — наперёд заданное малое число).

Адекватность факторной модели оценивается по матрице остатков (если величины её коэффициентов малы, то модель считают адекватной).

Такова последовательность шагов для нахождения факторных нагрузок. Для нахождения максимума функции (2.24) при условии (2.25) используют метод множителей Лагранжа, который приводит к системе т уравнений относительно т неизвестных .

Метод главных компонент. Разновидностью метода главных факторов является метод главных компонент или компонентный анализ, который реализует модель вида

, (2.28)

где m — количество параметров (признаков).

Каждый из наблюдаемых, параметров линейно зависит от m не коррелированных между собой новых компонент (факторов) . По сравнению с моделью факторного анализа (2.19) в модели (2.28) отсутствует характерный фактор, т.е. считается, что вся вариация параметра может быть объяснена только действием общих или главных факторов. В случае компонентного анализа исходной является матрица коэффициентов корреляции, где на главной диагонали стоят единицы. Результатом компонентного анализа, так же как и факторного, является матрица факторных нагрузок. Поиск факторного решения — это ортогональное преобразование матрицы исходных переменных, в результате которого каждый параметр может быть представлен линейной комбинацией найденных т факторов, которые называют главными компонентами. Главные компоненты легко выражаются через наблюдённые параметры.

Если для дальнейшего анализа оставить все найденные m компонент, то тем самым будет использована вся информация, заложенная в корреляционной матрице. Однако это неудобно и нецелесообразно. На практике обычно оставляют небольшое число компонент, причём количество их определяется долей суммарной дисперсии, учитываемой этими компонентами. Существуют различные критерии для оценки числа оставляемых компонент; чаще всего используют следующий простой критерий: оставляют столько компонент, чтобы суммарная дисперсия, учитываемая ими, составляла заранее установленное число процентов. Первая из компонент должна учитывать максимум суммарной дисперсии параметров; вторая — не коррелировать с первой и учитывать максимум оставшейся дисперсии и так до тех пор, пока вся дисперсия не будет учтена. Сумма учтённых всеми компонентами дисперсий равна сумме дисперсий исходных параметров. Математический аппарат компонентного анализа полностью совпадает с аппаратом метода главных факторов. Отличие только в исходной матрице корреляций.

Компонента (или фактор) через исходные переменные выражается следующим образом:

(2.29)

где — элементы факторного решения: — исходные переменные; k-e собственное значение; р — количество оставленных главных компонент.

Для иллюстрации возможностей факторного анализа покажем, как, используя метод главных компонент, можно сократить размерность пространства независимых переменных, перейдя от взаимно коррелированных параметров к независимым факторам, число которых р<т.

Следует особо остановиться на интерпретации результатов, т.е. на смысловой стороне факторного анализа. Собственно факторный анализ состоит из двух важных этапов; аппроксимации корреляционной матрицы и интерпретации результатов. Аппроксимировать корреляционную матрицу, т.е. объяснить корреляцию между параметрами действием каких-либо общих для них факторов, и выделить сильно коррелирующие группы параметров достаточно просто: из корреляционной матрицы одним из методов факторного анализа непосредственно получают матрицу нагрузок — факторное решение, которое называют прямым факторным решением. Однако часто это решение не удовлетворяет исследователей. Они хотят интерпретировать фактор как скрытый, но существенный параметр, поведение которого определяет поведение некоторой своей группы наблюдаемых параметров, в то время как, поведение других параметров определяется поведением других факторов. Для этого у каждого параметра должна быть наибольшая по модулю факторная нагрузка с одним общим фактором. Прямое решение следует преобразовать, что равносильно повороту осей общих факторов. Такие преобразования называют вращениями, в итоге получают косвенное факторное решение, которое и является результатом факторного анализа.

 

 

Приложения

Таблица 1

Значение - распределения Стьюдента

Р 0,95 0,99 0,999
k
2,78 4,6 8,61
2,57 4,03 6,86
2,45 3,71 5,96
2,37 3,5 5,41
2,31 3,36 5,04
2,26 3,25 4,78
2,23 3,17 4,59
2,2 3,11 4,44
2,18 3,06 4,32
2,16 3,01 4,22
2,15 2,98 4,14
2,13 2,95 4,07
2,12 2,92 4,02
2,11 2,9 3,97
2,1 2,88 3,92
2,093 2,861 3,883
2,086 2,845 3,849
2,064 2,797 3,745
2,045 2,756 3,659
2,032 2,729 3,6
2,023 2,708 3,558
2,016 2,692 3,527
2,009 2,679 3,502
2,001 2,662 3,464
1,996 2,649 3,439
1,991 2,64 3,418
1,987 2,633 3,403
1,984 2,627 3,392
1,98 2,617 3,374
1,96 2,576 3,291

 

Таблица 2

Значение функции

0,0 0,008 0,016 0,0239 0,0319 0,0399 0,0478 0,0558 0,0638 0,0717
0,1 0,0797 0,0876 0,0955 0,1034 0,1113 0,1192 0,1271 0,135 0,1428 0,1507
0,2 0,1585 0,1663 0,1741 0,1819 0,1897 0,1974 0,2051 0,2128 0,2205 0,2282
0,3 0,2358 0,2434 0,251 0,2586 0,2661 0,2737 0,2812 0,2886 0,296 0,3035
0,4 0,3108 0,3182 0,3255 0,3328 0,3401 0,3473 0,3545 0,3616 0,3688 0,3759
0,5 0,3829 0,3899 0,3969 0,4039 0,4108 0,4177 0,4245 0,4313 0,4381 0,4448
0,6 0,4515 0,4581 0,4647 0,4713 0,4778 0,4843 0,4907 0,4971 0,5035 0,5098
0,7 0,5161 0,5223 0,5285 0,5346 0,5407 0,5467 0,5527 0,5587 0,5646 0,5705
0,8 0,5763 0,5821 0,5878 0,5935 0,5991 0,6047 0,6102 0,6157 0,6211 0,6265
0,9 0,6319 0,6372 0,6424 0,6476 0,6528 0,6579 0,6629 0,6679 0,6729 0,6778
0,6827 0,6875 0,6923 0,697 0,7017 0,7063 0,7109 0,7154 0,7199 0,7243
1,1 0,7287 0,733 0,7373 0,7415 0,7457 0,7499 0,754 0,758 0,762 0,766
1,2 0,7699 0,7737 0,7775 0,7813 0,785 0,7887 0,7923 0,7959 0,7994 0,8029
1,3 0,8064 0,8098 0,8132 0,8165 0,8198 0,823 0,8262 0,8293 0,8324 0,8355
1,4 0,8385 0,8415 0,8444 0,8473 0,8501 0,8529 0,8557 0,8584 0,8611 0,8638
1,5 0,8664 0,869 0,8715 0,874 0,8764 0,8789 0,8812 0,8836 0,8859 0,8882
1,6 0,8904 0,8926 0,8948 0,8969 0,899 0,9011 0,9031 0,9051 0,907 0,909
1,7 0,9109 0,9127 0,9146 0,9164 0,9181 0,9199 0,9216 0,9233 0,9249 0,9265
1,8 0,9281 0,9297 0,9312 0,9327 0,9342 0,9357 0,9371 0,9385 0,9399 0,9412
1,9 0,9426 0,9439 0,9451 0,9464 0,9476 0,9488 0,95 0,9512 0,9523 0,9534
0,9545 0,9556 0,9566 0,9576 0,9586 0,9596 0,9606 0,9616 0,9625 0,9634
2,1 0,9643 0,9651 0,966 0,9668 0,9676 0,9684 0,9692 0,97 0,9707 0,9715
2,2 0,9722 0,9729 0,9736 0,9743 0,9749 0,9756 0,9762 0,9768 0,9774 0,978
2,3 0,9786 0,9791 0,9797 0,9802 0,9807 0,9812 0,9817 0,9822 0,9827 0,9832
2,4 0,9836 0,9841 0,9845 0,9849 0,9853 0,9857 0,9861 0,9865 0,9869 0,9872
2,5 0,9876 0,9879 0,9883 0,9886 0,9889 0,9892 0,9895 0,9898 0,9901 0,9904
2,6 0,9907 0,991 0,9912 0,9915 0,9917 0,992 0,9922 0,9924 0,9926 0,9928
2,7 0,9931 0,9933 0,9935 0,9937 0,9939 0,994 0,9942 0,9944 0,9946 0,9947
2,8 0,9949 0,9951 0,9952 0,9953 0,9955 0,9956 0,9958 0,9959 0,996 0,9961
2,9 0,9963 0,9964 0,9965 0,9966 0,9967 0,9968 0,9969 0,997 0,9971 0,9972
0,9973 0,9974 0,9975 0,9976 0,9976 0,9977 0,9978 0,9979 0,9979 0,998
3,1 0,9981 0,9981 0,9982 0,9983 0,9983 0,9984 0,9984 0,9985 0,9985 0,9986
3,2 0,9986 0,9987 0,9987 0,9988 0,9988 0,9989 0,9989 0,9989 0,999 0,999
3,3 0,999 0,9991 0,9991 0,9991 0,9992 0,9992 0,9992 0,9992 0,9993 0,9993
3,4 0,9993 0,9994 0,9994 0,9994 0,9994 0,9994 0,9995 0,9995 0,9995 0,9995
3,5 0,9995 0,9996 0,9996 0,9996 0,9996 0,9996 0,9996 0,9996 0,9997 0,9997
3,6 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9998 0,9998 0,9998
3,7 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998
3,8 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999
3,9 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999
0,999936 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999
4,5 0,999994 - - - - - - - - -
0,99999994 - - - - - - - - -