Оценка статистической значимости показателей.
Поскольку не все точки поля корреляции лежат на линии регрессии, то всегда имеет место их разброс как обусловленный влиянием фактора х, т. е. регрессией у по х, так и вызванный действием прочих причин (необъясненная вариация). Пригодность линии регрессии для прогноза зависит от того, какая часть общей вариации признака у приходится на объясненную вариацию. Очевидно, что если сумма квадратов отклонений, обусловленная регрессией, будет больше остаточной суммы квадратов, то уравнение регрессии статистически значимо и фактор х оказывает существенное воздействие на результат у. Это равносильно тому, что коэффициент детерминации R2 будет приближаться к единице.
Любая сумма квадратов отклонений связана с числом степеней свободы (df— degrees of freedom), т. е. с числом свободы независимого варьирования признака. Число степеней свободы связано с числом единиц совокупности N и с числом определяемых по ней констант. Применительно к исследуемой проблеме число степеней свободы должно показать, сколько независимых отклонений из N возможных требуется для образования данной суммы квадратов.
Так, для общей суммы квадратов требуется (n-1) независимых отклонений, ибо по совокупности из n единиц после расчета среднего уровня варьируют лишь (n - 1) число отклонений. При расчете факторной суммы квадратов - 1 степень свободы, и при расчете остаточной суммы квадратов - (n-2) степени свободы.
Сопоставляя факторную и остаточную дисперсии в расчете на одну степень свободы, получим величину F – отношения (F - критерий):
(8.1)
В качестве нулевой гипотезы Н0выдвигается предположение о том, что линейной зависимости между x и y не существует.
Если нулевая гипотеза справедлива, то факторная и остаточная дисперсии не отличаются друг от друга. Для Н0 необходимо опровержение, чтобы факторная дисперсия превышала остаточную в несколько раз.
Английским статистиком Снедекором разработаны таблицы критических значений F-отношений при разных уровнях существенности нулевой гипотезы и различном числе степеней свободы.
Табличное значение F-критерия – это максимальная величина отношения дисперсий, которая может иметь место при случайном их расхождении для данного уровня вероятности наличия нулевой гипотезы. Вычисленное значение F -отношения признается достоверным (отличным от единицы), если оно больше табличного. В этом случае нулевая гипотеза об отсутствии связи признаков отклоняется и делается вывод о существенности этой связи.
Если же величина окажется меньше табличной, то вероятность нулевой гипотезы выше заданного уровня (например, 0,05) и она не может быть отклонена, без серьезного риска сделать неправильный вывод о наличии связи. В этом случае уравнение регрессии считается статистически незначимым, Н0 не отклоняется.
Практическое занятие №2,3
Задание 1
Условие: В течение месяца были получены 10 уровней маржинального дохода (в процентах к выручке): (N = 6)
N +5; N+3; N+6; N+7; N+8; N+4; N+3; N+2; N+6; N+5
Используя метод экспоненциального сглаживания для интервала (к = 0,2) получите прогнозируемое значение для 11-го результата.
Решение:
F0 = F1 +S (D1 - F1), где
F0 - текущий прогноз,
F1 - прогноз сделанный 1 период времени назад,
S - сглаживающая константа,
D1 - последнее наблюдение.
1 - 11%
2 - 9% F0 = 11 + 0,2 * 0 =11
3 - 12% F0 = 11 + 0,2 * (9 - 11)=11+ 0,2*(-2) = 10,6
4 - 13% F0 = 10,6 + 0,2 *(12-10,6) =10,6+0,28=10,88
5 - 14% F0 = 10,88 + 0,2 *(13-10,88) =10,88+0,424=11,304
6 - 10% F0 = 11,304 + 0,2*(14-11,304) =11,304+0,539=11,843
7 - 9% F0 = 11,843 + 0,2 *(10-11,843) =11,843-0,369=11,474
8 - 8% F0 = 11,474 + 0,2 *(9-11,474) =11,474-0,495=10,979
9 - 12% F0 = 10,979 + 0,2 *(8-10,979) =10,979-0,596=10,383
10 - 11% F0 = 10,383 + 0,2 *(12-10,383) =10,383+0,323=10,706
11 - ? F0 = 10,706 + 0,2 *(11-10,706) =10,706+0,059=10,765
Вывод: Для 11-го результата прогнозируемое значение равно 10,765%.
Задание 2
Условие: Определите вид эмпирической формулы, отвечающей следующей таблице(N = 6):
Х | ||||||
У | 2N+2 | 4N+3 | 6N+5 | 120+N | N+300 | |
Решение:
Х | ||||||
У | ||||||
Парабола второй степени
y = ax2 +bx + c
y1 = ax12 +bx1 + c + V1
y2 = ax22 +bx2 + c + V2
yn = axn2 +bxn + c + Vn
yi = axi2 +bxi + c + Vi
Vi = yi - axi2 - bxi - c
Vi2 = (yi - axi2 - bxi - c)2 - min
(yi - axi2 - bxi - c)2
Fa,b,c =
Для a, b, c функция будет минимальной
= 0; = 0; = 0
(f2) = 2f*f
Cоставляем систему уравнений
Xi | ? 20 | ||||||
Yi | ? 514 | ||||||
Xi2 | ? 90 | ||||||
Xi3 | ? 440 | ||||||
Xi4 | ? 2274 | ||||||
Xi Yi | ? 2739 | ||||||
Xi2 Yi | ? 15121 | ||||||
y = ax2 + bx + c
5c = 514 - 90a - 20b
10b = 683 - 80a
654a + 8(683 - 80a) = 5869
574a = 5869 - 5464
14a = 405
a = 28,93
b = = = - 163,14
c = = = = 234.62
Вывод: эмпирическая формула у =28,93х2 - 163,14х + 234,62
Тема № 4. Нелинейные модели регрессии и их линеаризация