Перевірка статистичних гіпотез
Коефіцієнт варіації
Коефіцієнт варіації – (coefficient of variation) Показник мінливості щодо середньої величини.
Коефіцієнт варіації дозволяє оцінити однорідність виміряного явища. Якщо коефіцієнт варіації ˃0,1 (V0,1),то виміряне явище визначають неоднорідним. В іншому випадку – однорідним (V ). Критеріальним значенням квадратичного коефіцієнта варіації V служить 0,333 або 33,3%, тобто якщо V менший або дорівнює 0,333 – варіація вважається слабкою, а якщо більше 0,333 – сильною. У разі сильної варіації досліджувана статистична сукупність вважається неоднорідною, а середня величина – нетиповою і її не можна використовувати як узагальнюючий показник цієї сукупності.
Статистичні гіпотези поділяються на нульові й альтернативні.
Нульова гіпотеза є припущенням, про відсутність відмінностей у значеннях ознак, які зіставляють. Її позначають як Н0.
Альтернативна гіпотеза – це припущення про існування відмінностей. Її позначають як Н1.
Співвідношення емпіричного і критичного значень критерію є підставою для підтвердження чи спростування гіпотези. Статистичні критерії поділяються на параметричні й непараметричні. До формули розрахунку параметричних критеріїв належать показники розподілу, наприклад середні, дисперсії. Це класичні критерії, як z – критерій, t – критерій Стьюдента, F – критерій Фішера.
t-критерій Стьюдента. Це один з найбільш відомих параметричних критеріїв, який застосовується для визначення того, чи відносяться дві вибірки до однієї генеральної сукупності чи ні, або, по-іншому, для встановлення того, наскільки сильно відрізняються середні і дисперсії двох розподілів:
Особливості його наступні:
· Може бути використаний для встановлення відмінностей між двома вибірками в рівні досліджуваної ознаки, оскільки в його формулу обов'язково входить різниця середніх арифметичних двох вибірок;
· Чим більше різниця між середніми арифметичними двох вибірок, тим більше буде емпіричне значення t-критерия і тим більше вірогідне виявлення відмінностей;
· Критерій дозволяє сформулювати направлені гіпотези;
· Змінні повинні бути зміряні в шкалах інтервалів або відносин і, принаймні, теоретично, схильні до нормального розподілу;
· Вибірки можуть бути скільки завгодно великими.
X | Y | |||
Середні | ||||
Суми |
Порівнюємо отримані в експерименті значення t з табличним значенням з урахуванням ступенів свободи, рівних за формулою .
Ступені свободи – це кількість можливих напрямків мінливості деякої змінної. Загальноприйнятим позначенням числа ступенів свободи є df (від англ.. – degrees of freedom). У таблицях критичних значень наводяться або показники об’єму вибірки, або показники ступенів свободи. Cтупінь свободи (позначається як df або ν) – це величина, залежна від об’єму вибірки. Якщо ми не визначили ступінь свободи, то ми не зможемо користуватися статистичними таблицями. число ступенів свободи – це число даних з вибірки, значення яких можуть бути випадковими.
Якщо у нас є дві незалежні вибірки, то число ступенів свободи для першої з них складає n1 – 1, а для другої – n2–1. Таким чином, число ступенів свободи для цих незалежних вибірок становитиме (n1 + n2) – 2.
У разі залежних вибірок число ступенів свободи дорівнює n–1.
t0.05 = 2.09, t0.01 = 2.86
Якщо tемп ≥ tкр, то робиться висновок про те, що отримані результати є статистично значимими (не випадковими) лише такі результати підтверджують експериментальну або альтернативну гіпотези.
Якщо tемп ≤ tкр, то робиться висновок про статистичну незначимість експериментальних результатів. Такі результати не можуть підтвердити експериментальну або альтернативну гіпотези, вони вважаються отриманими випадково.
Висновок: розподіли X і Y статистично не відрізняються (або, по-іншому, вибірки відносяться до однієї генеральної сукупності), оскільки tемп < t0.05.
Коли ми маємо справу з двома нормальними розподілами, що відрізняються один від одного за середнім значенням і дисперсією, застосовується спрощена формула наближених розрахунків:
Де і – середні арифметичні для результатів отриманих при першому і другому значеннях незалежної змінної.
і – це дисперсії.
і – кількість результатів, отриманих при x та y відповідно значеннях незалежної змінної.
F-критерій Фішера. Параметричний критерій, що дозволяє оцінити відмінності в розподілі ознаки в двох вибірках, що мають однакові середні значення (тобто в тих випадках, коли t - критерій Стьюдента непридатний):
,
при цьому в чисельнику завжди повинна бути більша дисперсія, а в знаменнику менша.
Як достоїнства, так і недоліки у нього ті ж, що і у t-критерия Стьюдента, але він виявляється непридатний для випадків, коли середні двох вибірок різні, оскільки отриманий висновок буде артефактом.
X | Y | |||||
-1 | ||||||
-2 | -4 | |||||
-3 | -3 | |||||
-2 | ||||||
-4 | ||||||
-1 | -1 | |||||
Середні | ||||||
Суми |
F0.05 = 3.23, F0.01 = 5.47
df1 – n-1=9-1=8
df2 – n-1=10-1=9
Ступені свободи для більшої дисперсії розміщені по горизонталі, а для меншої ступені свободи розміщені по вертикалі.
Висновок: відмінності між двома розподілами статистично достовірні на 5% рівні значущості, оскільки Fемп > F0.05, але недостовірні на 1% рівні, оскільки Fемп < F0.01
Лекція 5-6