Определение параметров. Коефіцієнт регресії.
Если мы приняли гипотезу про линейную форму связи межу признаками Х и Y, то однозначно выбрать параметры , которые есть точечными статистическими оценками соответственно для параметров β0, β1, практически невозможно. Действительно, через корреляционное поле (рис.1) можно провести множество прямых. поэтому необходимо выбрать такой критерий, по которому можно совершить выбор параметров .
На практике чаще всего параметры определяют по методу наименьших квадратов (разработка метода принадлежит К.Гауссу и П.Лапласу).
Согласно этому методу уравнение парной линейной регрессии уі = β0 + β1хі необходимо выбрать так, чтобы сумма квадратов отклонений наблюдаемых значений от линии регрессии была бы минимальной (рис.2).
у
уі 𝜀і
уі β0 + β1хі
0 хі х Рис.2 | Через корреляционное поле проведена линия регрессии уі = β0 + β1хі. Отклонение любой точки с координатами (хі; уі) составляет 𝜀і : 𝜀і = уі – (β0 + β1хі) (4) уі – наблюдаемое значение признака Y, которое получили в результате реализации выборки; β0 + β1хі - значение признака Y, вычисленное при условии, что Х = хі. Как видим, величина 𝜀і является функцией от параметров . |
Функция от этих параметров и будет обобщающим показателем рассеиванья точек вокруг прямой, а именно:
. (5)
Отсюда есть смысл взять критерий, согласно которому параметры необходимо выбирать так, чтобы сумма квадратов отклонений была минимальной:
= min. (6)
Обозначим, (7)
И рассмотрим необходимое условие существования минимума функции :
(8)
Получим линейное уравнение относительно параметров :
:(-2)
:n
Т.к. – среднее арифметическое Х;
– среднее арифметическое Y;
– средне квадратическое отклонение Х;
= - ; – эмпирический корреляционный момент;
(9)
Решим систему (9) относительно параметров , найдём:
(10)
(11)
Умножив левую и правую части равенства (11) на , получим:
(12)
Где – парный коэффициент корреляции между признаками Х и Y. Тогда
(13)
С учётом (12) и (13) уравнение линейной парной регрессии примет вид:
(14)
или
, (15)
Где - коэффициент регрессии.
Контрольні запитання:
1. Як виглядає рівняння лінійної форми зв’язку та на які дві частини воно поділяється?
2. Що таке β0, β1 і, що таке ?
3. Що таке 𝜀і?
4. Як виглядає статистична оцінка рівняння лінійної форми зв’язку?
5. Який метод застосовують, щоб знайти ?
6. Як обчислюється ?
7. Як обчислюється ?
8. Що таке ?
9. Як знайти коефіцієнт регресії?