В 9. История развития многофакторного корреляционно-регрессионного анализа.
Начало корреляционного и регрессионного анализа относится ко второй половине ХIХ века и связано с именем двоюродного брата Ч. Дарвина – Френсисом Гальтоном (1822–1911). Он ввел понятие «закона регрессии», связав его со средним снижением роста сыновей по сравнению с ростом отцов (1899 г). Ему же принадлежит введение числовой меры, оценивающей силу связи показателей (корреляцию). Поэтому началом разработки корреляционно-регрессионного анализа ученые–статистики считают статью Ф. Гальтона «Регрессия, наследственность и панмиксия» (1896 г), в которой автор «дал определение корреляции, построил теоретическую модель совместного измерения двух переменных, ввел понятие линии регрессии и корреляционного индекса «r».
Экономистами и математиками разработаны различные модели, оценивающие влияние нескольких факторов на результат. Например, в США в 1929 г. при анализе развития обрабатывающей промышленности за 1899–1922 гг. была построена мультипликативная производственная функция, отражающая зависимость выхода продукции от затрат живого труда и наличия капитала, которая получила название функции Кобба-Дугласа (там же, с.176):
У= а Lα Kβ , (6.39)
где У – объем выпускаемой продукции, а – коэффициент размерности, L – объем затрат живого труда или численность работников, К – объем капитала (основного или совокупного), α и β – коэффициенты эластичности производства продукции по труду и капиталу.
Для сельского хозяйства данную модель можно расширить, включив в нее еще один важный ресурс – это площадь сельскохозяйственных угодий (S) с соответствующим коэффициентом эластичности. Тогда данная функция будет иметь вид:
У=аLαKβSγ, (6.40)
Существуют и другие нелинейные модели, отражающие различные связи факторов, некоторые из которых рассматриваются в курсе «Планирование и прогнозирование». Однако большинство из них не могут быть интерпретированы системой экономических параметров и сложны в экономическом обосновании.
Например, что может отражать экономический логарифм производительности труда или производительность труда в степени nи так далее? То есть модели могут быть использованы для прогнозов без экономической интерпретации параметров. Наилучшим образом экономически интерпретируется многофакторные линейные модели вида:
(6.41)
где: n – отражает число факторов.
При составлении модели встает вопрос отбора факторов, которые могут быть включены в многофакторную модель. Как правило, имеется таблица с базой данных, где указаны числовые значения факторов интересующих исследователя. Общий вид такой таблицы с информацией о значениях технико-экономических показателей следующий:
Таблица 6.3. База данных для исследования связей факторов
№ п/п | Y | X1 | X2 | ..... | Xn |
..... | |||||
..... | |||||
... | ..... | ||||
N |
При исследовании необходимо решить целый ряд проблем, одна из которых заключается в отборе факторов для их включения в модель (уравнение регрессии). Здесь существенную роль играют знания исследователя об экономических закономерностях развития процессов и явлений, знания экономики конкретной отрасли (сельского хозяйства легкой и тяжелой промышленности, транспорта и т.д.). После сбора информации и проведения ее априорного анализа можно провести расчеты, позволяющие достаточно качественно отобрать факторы для проведения корреляционно-регрессионного анализа.
Для отбора факторов для модели часто используют матрицу парных коэффициентов корреляции, расчет и интерпретация которых рассматривалась в вопросах 5 и 6 темы.
Таблица 6.4. Матрица парных коэффициентов корреляции
Y | X1 | X2 | ..... | Xn | |
Y | rYX1 | rYX2 | ..... | rYXn | |
X1 | rX1X2 | ..... | rX1Xn | ||
X2 | ..... | rX2Xn | |||
.... | ..... | ..... | |||
Xn |
Матрицу используют следующим образом:
По строкеY анализируют значения парных коэффициентов корреляции rij и отбирают в модель те факторы, для которых riy>0,2.
Используя остальные строки матрицы, устанавливают наличие или отсутствие мультиколлинеарности факторов. Если выявляется наличие таких пар факторов, то в модель включают только один из них.
Факторы являются мультиколлинеарными, если связь между ними близка к функциональной или функциональна.
Например, производительность труда и трудоемкость –показатели обратные друг другу, и для них парный коэффициент корреляции равен единице. В модель можно включить только один из этих факторов.
Можно считать, что фактор является незначимым, если его включение в уравнение регрессии только изменяет значение коэффициентов регрессии, не изменяя суммы квадратов остатков, то есть:
= const (6.42)
Если при включении в модель факторного признака увеличивается величина множественного коэффициента корреляции и детерминации, а коэффициенты регрессии меняются незначительно, то данный признак существенен, и его включение в уравнение регрессии обязательно.