Оценка тесноты корреляционной зависимости


Выбор показателей для оценки тесноты корреляции зависит от числа факторов и формы корреляции.

Степень влияния факторного признака на результат при линейной парной корреляции оценивают на основе парного коэффициента корреляции

,

где:

– среднее значение результативного признака;

– среднее значение факторного признака;

– среднее значение их произведений;

– среднеквадратичное отклонение результативного признака;

– среднеквадратичное отклонение факторного признака.

Величина парного коэффициента корреляции изменяется в пределах от –1 до 1. Если она положительна, то связь прямая, если отрицательна – обратная. Абсолютное значение коэффициента определяет градации тесноты связи:

· 0 – связи нет;

· от 0 до 0,3 – практически отсутствует;

· от 0,3 до 0,5 – слабая;

· от 0,5 до 0,7 – умеренная;

· от 0,7 до 1 – сильная;

· 1 – связь не корреляционная, а функциональная.

Квадрат парного коэффициента корреляции называют парным коэффициентом детерминации. Его значение соответствует доли вариации результативного признака, обусловленной влиянием факторного признака. Например, величина означает, что вариация результативного признака на 81 % обусловлена влиянием факторного признака.

При небольшом числе наблюдений () проверяют значимость высокого значения по критерию Стьюдента

,

где:

– число наблюдений;

– уровень значимости;

– число степеней свободы.

Выполнение этого критерия позволяет гарантировать высокое значение коэффициента корреляции с вероятностью .

При проведении статистических исследований достаточно иметь доверительную вероятность, равной 0,95. В этом случае уровень значимости . В таблице 9.1 приведены пороговые значения критерия Стьюдента для уровня значимости и различных значений числа степеней свободы .

Таблица 9.1

12,706 2.306 2,131 2,074 2,045
4,303 2,262 2,120 2,069 2,042
3,182 2,228 2,110 2,064 2,021
2,776 2,201 2,101 2,060 2,000
2,571 2,179 2,093 2,056 1,980
2,447 2,160 2,066 2,052 1,960
2,365 2,145 2,080 2,048 - -

Линейность или нелинейность парной корреляции можно определить графически, построив корреляционное поле или эмпирическую кривую.

Пример 9.1. В таблице 9.2 представлены данные об объёме реализованной продукции (млн. руб., х) и балансовой прибыли (млн. руб., у) десяти промышленных предприятий за отчетный год.

Таблица 9.2

х 49,1 53,2 54,8 60,3 65,4 66,0 69,7 72,4 73,0 75,0
у 13,2 15,7 15,3 19,0 19,5 21,0 21,4 23,7 23,0 25,1

 

Убедимся в линейном характере связи между этими признаками и оценим ее тесноту.

Решение.

Эмпирическая кривая (рис. 9.1) свидетельствует о наличии прямой линейной корреляционной связи. Для оценки ее тесноты рассчитаем парный коэффициент корреляции, представив итерационную часть этого расчета в таблице 9.3.

 


Рис. 9.1

Таблица 9.3

x y yx x2 y2
49,1 13,2 648,12 2410,81 174,24
53,2 15,7 835,24 2830,24 246,49
54,8 15,3 838,44 3003,04 234,09
60,3 19,0 1145,70 3636,09 361,00
65,4 19,5 1275,30 4277,16 380,25
66,0 21,0 1386,00 4356,00 441,00
69,7 21,4 1491,58 4858,09 457,96
72,4 23,7 1715,88 5241,76 561,69
73,0 23,0 1679,00 5329,00 529,00
75,0 25,1 1882,50 5625,00 630,01
638,9 196,9 12897,76 41567,19 4015,73

 

В результате:

млн. руб.;

млн. руб.;

;

млн. руб.;

млн. руб.


Тогда

.

Положительное значение парного коэффициента корреляции подтверждает предварительный вывод о прямом направлении связи, а близость этого значения к единице свидетельствует о ее сильном характере.

Оценим достоверность вывода о сильной корреляционной связи:

;

;

.

Критерий выполнен при уровне значимости . Следовательно, вывод о сильной линейной корреляционной зависимости балансовой прибыли от объема реализованной продукции гарантируется с вероятностью 0,95.

 

Для оценки тесноты нелинейной парной корреляции используют показатель корреляционного отношения – теоретического и эмпирического.

Теоретическое корреляционное отношение рассчитывают по формуле

,

где:

– дисперсия теоретических значений результативного признака относительно его среднего значения;

– общая дисперсия результативного признака.

В отличии от общей дисперсии, характеризующей вариацию результативного признака в целом, дисперсия теоретических значений является мерой вариации, объясняемой уравнением регрессии (то есть обусловленной влиянием факторного признака).

Для расчета эмпирического корреляционного отношения не нужно определять уравнение регрессии, достаточно сгруппировать данные наблюдения по величине факторного признака и воспользоваться формулой

,

где – межгрупповая дисперсия результативного признака.

Межгрупповая дисперсия, также как и дисперсия теоретических значений, характеризует вариацию результата только под влиянием фактора.

Согласно правилу сложения дисперсий и расчетным формулам корреляционное отношение может принимать значения от 0 до 1, которые интерпретируются аналогично интерпретации абсолютных значений парного коэффициента корреляции.

Значимость высокого значения корреляционного отношения оценивают на основе критерия Фишера

,

где:

, – числа степеней свободы;

– число групп единиц наблюдения по величине факторного признака (для эмпирического корреляционного отношения) или число факторных параметров в уравнении регрессии (для теоретического корреляционного отношения).

В таблице 9.4 представлены пороговые значения критерия Фишера для уровня значимости и отдельных значений чисел степеней свободы и .

Таблица 9.4

161,40 199,50 215,70 224,60 230,20 234,00
18,51 19,00 19,16 19,25 19,30 19,33
10,13 9,55 9,28 9,12 9,01 8,94
7,71 6,94 6,59 6,39 6,26 6,16
6,61 5,79 5,41 5,19 5,05 4,95
5,99 5,14 4,76 4,53 4,39 4,28
5,59 4,74 4,35 4,12 3,97 3,87
5,32 4,46 4,07 3,84 3,69 3,58
5,12 4,26 3,86 3,63 3,48 3,37
4,96 4,10 3,71 3,48 3,33 3,22
4,84 3,98 3,59 3,36 3,20 3,09
4,75 3,88 3,49 3,26 3,11 3,00
4,67 3,80 3,41 3,18 3,02 2,92
4,60 3,74 3,34 3,11 2,96 2,85
4,54 3,68 3,29 3,06 2,90 2,79
4,49 3,63 3,24 3,01 2,85 2,74
4,45 3,59 3,20 2,96 2,81 2,70
4,41 3,55 3,16 2,93 2,77 2,66
4,38 3,52 3,13 2,90 2,74 2,63
4,35 3,49 3,10 2,87 2,71 2,60
4,32 3,47 3,07 2,84 2,68 2,57
4,30 3,44 3,05 2,82 2,66 2,55
4,28 3,42 3,03 2,80 2,64 2,53
4,26 3,40 3,01 2,78 2,62 2,51
4,24 3,38 2,99 2,76 2,60 2,49
4,22 3,37 2,98 2,74 2,59 2,47
4,21 3,35 2,96 2,73 2,57 2,46
4,19 3,34 2,95 2,71 2,56 2,44
4,18 3,33 2,93 2,70 2,54 2,43
4,17 3,32 2,92 2,69 2,53 2,42
4,00 3,15 2,76 2,52 2,37 2,25
3,84 2,99 2,60 2,37 2,21 2,09

 


Пример 9.2. В результате анализа двадцати закупок партий некоторого товара, разбитых на четыре группы по размеру партии, была выявлена сильная корреляционная связь между размером партии товара и его ценой. Основой для вывода о сильной связи стало рассчитанное значение эмпирического корреляционного отношения, равное 0,75. Проверим достоверность этого вывода, используя критерий Фишера при уровне значимости 0,05.

Решение.

.

.

.

.

.

Выполнение критерия Фишера означает, что предварительный вывод о сильной корреляционной зависимости цены от количества товара в партии гарантируется с вероятностью 0,95.

 

Квадрат корреляционного отношения называют коэффициентом детерминации (теоретическим или эмпирическим). Также как парный коэффициент детерминации, он характеризует долю влияния факторного признака на вариацию результата.

Учитывая порядок расчета параметров уравнения парной линейной регрессии (он будет рассмотрен в параграфе 9.3), можно доказать, что в случае парной линейной корреляции теоретический коэффициент детерминации всегда равен парному коэффициенту детерминации (их формулы математически преобразуются друг в друга).

При нелинейной зависимости и неизменных данных наблюдения эмпирический коэффициент детерминации и парный коэффициент детерминации всегда будут отличаться так, что

.

По мере приближения зависимости к линейной форме их значения сближаются друг с другом. На этом свойстве основан аналитический критерий линейности парной корреляции

.

Пример 9.3. В таблице 9.5 представлено распределение промышленных предприятий по величине стоимости основных фондов и объему среднесуточной переработки сырья. Определим тесноту и форму связи между представленными статистическими признаками.

Таблица 9.5

Стоимость основных фондов, тыс. руб. Среднесуточная переработка, тыс. ц Итого
3 – 5 5 – 7 7 – 9 9 – 11
300 – 400
400 – 500
500 – 600
600 – 700
700 – 800
Итого

 

Решение.

Обозначим:

варианты стоимости основных фондов;

варианты объема среднесуточной переработки сырья;

частота сочетаний этих вариантов.

Вначале построим эмпирическую кривую, рассчитав групповые средние значения результативного признака по формуле

.

Из таблицы 9.6: , , , , .

Таблица 9.6

4,000
4,571
6,667
8,600
9,000

 

Из графика эмпирической кривой (рис. 9.2) видно, что имеет место прямая корреляционная зависимость, достаточно близкая к линейной форме.

 

 

Рис. 9.2

Рассчитаем значения парного и эмпирического коэффициентов детерминации, сравним их значения и сделаем окончательные выводы о тесноте и форме исследуемой корреляции.

Из таблицы 9.6:

;

;

;

;

;

.

Значение парного коэффициента детерминации указывает на сильную корреляционную связь, в которой вариация результата на 58,9 % определяется факторным признаком.

Теперь рассчитаем межгрупповую дисперсию результативного признака и эмпирический коэффициент детерминации, используя формулы:

;

.

По данным таблицы 9.7:

;

.

Таблица 9.7

 
 
4,000 -2,914 8,491396 16,982792  
4,571 -2,343 5,489649 38,427543  
6,667 -0,247 0,061009 0,732108  
8,600 1,686 2,842596 28,42596  
9,000 2,086 4,351396 17,405584  
Итого -1,732 21,236046 101,973987  

 

Значение эмпирического коэффициента детерминации также указывает на сильную корреляционную связь.

Оценим линейность исследуемой корреляции:

.

Таким образом, разница между эмпирическим и парным коэффициентами детерминации составляет менее 10 %, что подтверждает первоначальный вывод о линейном характере корреляции.

 

Из-за многофакторности множественной корреляции оценить ее тесноту непосредственно по данным наблюдения нельзя. В этом случае вначале необходимо построить соответствующее уравнение регрессии, а затем рассчитать теоретическое корреляционное отношение

.

Интерпретация и оценка значимости значений теоретического корреляционного отношения при множественной корреляции осуществляется так же, как и при парной корреляции.

При линейной множественной корреляции формула теоретического корреляционного отношения преобразуется в формулу множественного коэффициента корреляции

,

где:

число факторов;

– определитель матрицы парных коэффициентов корреляции;

;

– определитель матрицы парных коэффициентов межфакторной корреляции;

.

Из формулы множественного коэффициента корреляции следует, что при наличии только одного фактора его значение совпадает со значением парного коэффициента корреляции:

.

По мере увеличения числа факторов рабочая формула множественного коэффициента корреляции усложняется. Так, для двухфакторной модели его формула имеет вид

.

Диапазон значений множественного коэффициента корреляции колеблется от 0 до 1. Его интерпретация аналогична интерпретации абсолютного значения парного коэффициента корреляции.

Квадрат множественного коэффициента корреляции называют множественным коэффициентом детерминации. Его значение характеризует долю вариации результативного признака, обусловленную совместным влиянием учтенных факторов.

При небольшом числе наблюдений, когда

,

величина множественного коэффициента корреляции, как правило, завышается. В таких случаях первоначальное значение коэффициента корректируют по формуле

.

Значимость множественного коэффициента корреляции оценивают на основе критерия Стьюдента

.

При множественной корреляции переход от одной единицы наблюдения к другой сопровождается одновременным изменением всех факторов. По этой причине использование парных коэффициентов корреляции в качестве меры индивидуального влияния фактора на результат является некорректным. В этом случае рассчитывают частный коэффициент корреляции, ориентируясь на относительное изменение доли вариации, обусловленной неучтенными факторами, при включении исследуемого фактора в корреляционную модель:

,


где:

частный коэффициент корреляции результата и го фактора;

множественный коэффициент детерминации, рассчитанный до исключения го фактора;

множественный коэффициент детерминации, рассчитанный после исключения го фактора.

Частный коэффициент го порядка (порядок равен числу фиксируемых факторов) может быть получен из частных коэффициентов го порядка по рекуррентной формуле

.

Таким образом, чтобы рассчитать частные коэффициенты произвольного порядка необходимо вначале рассчитать частные коэффициент нулевого порядка (парные коэффициенты), затем первого порядка, второго порядка и т. д.

Например, частный коэффициент корреляции результата и первого фактора в двухфакторной модели рассчитывают через частные коэффициенты нулевого порядка:

.

Аналогично рассчитывают частный коэффициент корреляции результата и второго фактора.

Частный коэффициент корреляции результата и первого фактора в трехфакторной модели рассчитывают через частные коэффициенты первого порядка:

.

Аналогично рассчитывают частные коэффициенты корреляции для второго и третьего факторов.

Диапазон абсолютных значений частных коэффициентов корреляции изменяется от 0 до 1. Причем, если для их расчета использовались рекуррентные формулы, то значения могут быть как отрицательными, так и положительными. Во втором случае величина частного коэффициента корреляции указывает не только на тесноту связи, но и на ее направление. При этом используют такие же критерии, как и в отношении парного коэффициента корреляции.

Значимость частного коэффициента корреляции оценивают по критерию Стьюдента

.

Пример 9.4. В таблице 9.8 представлены данные о наблюдении 15 сельскохозяйственных предприятий с указанием валового сбора зерновых культур, их посевной площади и количества внесенных на эту площадь минеральных удобрений. Считая зависимость валового сбора зерна от посевной площади и от количества минеральных удобрений линейной, оценим ее в целом и по каждому фактору отдельно.

Решение.

Обозначим:

– валовой сбор зерновых культур;

– посевная площадь;

– количество минеральных удобрений.


Таблица 9.8

№ п/п Посевная площадь, тыс. га Внесено минеральных удобрений, кг/га Валовой сбор, тыс. т.

Рассчитаем значения парного коэффициента корреляции для всех вариантов сочетаний двух признаков. Итерационную часть расчета представим в таблице 9.9.

Таблица 9.9

№ п/п у х1 х2 ух1 ух2 х1х2 у2 х12 х22
Итого
В сред. 38,2 24,33 2516,07 1573,93 931,73 4192,4 611,13

 


В результате:

тыс. т, тыс. га, кг/га;

, , ;

, , .

Тогда:

;

;

;

;

;

;

;

;

.

Поскольку

,

то полученное значение множественного коэффициента корреляции необходимо скорректировать:

.

Проверим значимость множественного коэффициента корреляции:

;

;

> .

Критерий выполнен. Следовательно, имеет место сильная линейная корреляционная зависимость валового сбора зерна одновременно от посевной площади и количества минеральных удобрений, гарантируемая с вероятностью .

Оценим индивидуальную связь между валовым сбором зерна и размером посевной площади:

;

;

.

Таким образом, между валовым сбором зерна и размером посевной площади существует прямая сильная корреляционная связь, гарантируемая с вероятностью 0,95.

Аналогично оценим зависимость валового сбора от количества внесенных удобрений:

;

.

.

Между валовым сбором зерна и количеством внесенных удобрений также существует прямая сильная корреляционная связь, гарантируемая с вероятностью 0,95.

 

Частные коэффициенты корреляции могут быть использованы на для отбора существенных факторов на стадии формирования корреляционной модели. Процедура отбора имеет следующую последовательность. Вначале определяют уравнение регрессии с полным набором факторов и рассчитывают для каждого из них частный коэффициент корреляции. Затем отбирают фактор с наименьшим и несущественным по критерию Стьюдента абсолютным значением частного коэффициента. Это фактор исключают из модели. Далее определяют новое уравнение регрессии, рассчитывают новые значения частных коэффициентов корреляции и исключают очередной несущественный фактор. Так продолжается до тех пор, пока не окажется, что все частные коэффициенты имеют высокие и значимые величины. Другим признаком существенности или несущественности фактора является изменение множественного коэффициента корреляции при его исключении. Если множественные коэффициенты, рассчитанные для двух смежных уравнений регрессии, практически не отличаются друг от друга, то исключенный фактор является несущественным. Если же при исключении фактора множественный коэффициент корреляции вырос, то этот фактор исключается как искажающий исследуемую корреляционную зависимость.

После отбора факторов по критерию существенности может обнаружиться, что один из факторов сильно связан с другим и тем самым дублирует его влияние на результат. Такие взаимозависимые факторы называют коллинераными.

Для выявления коллинеарности можно использовать частные коэффициенты корреляции. При этом каждый их факторов должен быть рассмотрен в качестве результата, зависящего от остальных факторов. Если частный коэффициент корреляции одного фактора с другим превысит пороговое значение 0,7, то эти факторы следует признать коллинеарными.

Самым простым способом устранения коллинеарности является исключение одного из факторов. При этом в первую очередь надо ориентироваться на зависимость рассматриваемого фактора одновременно от всех остальных факторов, поскольку в основе анализа множественной корреляции лежит оценка совместного воздействия факторов на результат в условиях независимости друг от друга.

Исключению подлежит тот коллинеарный фактор, у которого сильнее зависимость от остальных факторов. Чтобы ее оценить, надо рассмотреть фактор в качестве результата и рассчитать множественный коэффициент корреляции этого фактора с остальными.

Если коллинеарные факторы равнозначны в своей зависимости от других факторов, то исключить следует тот, который в меньшей степени влияет на результат, ориентируясь на значение частного коэффициента корреляции результата с фактором.

Если не исключать из рассмотрения коллинеарные факторы, то это может привести к негативным последствиям. Уравнение регрессии будет неадекватно фактическим данным, а его параметры будут статистически незначимы и экономически бессмысленны. Все это сделает невозможным использование уравнения на практике.