Характеристики форми розподілу
Аналіз закономірностей розподілу передбачає оцінювання ступеня однорідності сукупності, асиметрії та ексцесу розподілу.
Однорідність сукупності – передумова використання інших статистичних методів (середніх величин, регресійного аналізу тощо). Однорідними вважаються такі сукупності, елементи яких мають спільні властивості і належать до одного типу, класу. При цьому однорідність означає не повну тотожність властивостей елементів, а лише наявність у них спільного в істотному, головному.
В однорідних сукупностях розподіли одновершинні (одномодальні). Багатовершинність свідчить про неоднорідний склад сукупності, про різнотиповість окремих складових. У такому разі необхідно перегрупувати дані, виокремити однорідні групи. Критерієм однорідності сукупності вважається квадратичний коефіцієнт варіації.
АсиметріяАх характеризує ступінь несиметричності розподілу відносно його середнього. Позитивна асиметрія вказує на відхилення вершини розподілу в бік від'ємних значень, негативна – у бік додатних.
Коефіцієнт асиметрії вираховується за формулою:
Де zx – міра Пірсона
Негативна асиметрія, симетричний розподіл Позитивна асиметрія
Аs˂0 Аs=0 Аs˃0
Мал. 5.3. Типи асиметрій
Відповідність емпіричного розподілу нормальному знаходиться за відповідними таблицями. При цьому емпіричний розподіл вважається відповідним теоретичного (нормальному), якщо асиметрія при даній вибірці не перевищує граничного значення (Asэксп. < Asкр).
Напрям асиметрії протилежний напряму зміщення вершини. Якщо вершина зміщена ліворуч, маємо правосторонню асиметрію, і навпаки. Зазначимо, що асиметрія виникає внаслідок обмеженої варіації в одному напрямі або під впливом домінуючої причини розвитку, яка призводить до зміщення центра розподілу. Ступінь асиметрії різний – від помірного до значного. Рівновіддалені від центра значення ознаки мають однакові частоти.
Як уже зазначалося, у симетричному розподілі характеристики центра – середня, мода, медіана – мають однакові значення, в асиметричному між ними існують певні розбіжності.
Причини асиметрії можуть бути різними. По-перше, це можлива дія побічних односпрямованих факторів. Так, наприклад, в тестах на вимірювання інтелекту можуть переважати складні завдання, з якими більшість досліджуваних не справляється. Це може з'явитися причиною позитивної асиметрії (центральна тенденція лежить зліва від середнього значення). По-друге, це обмеження (зверху чи знизу) розмаху варіацій. Наприклад, при вимірюванні часу сенсомоторної реакції нижня межа реагування лімітований фізіологічними можливостями суб'єкта, в той час як верхній жорстко не обмежений. Нарешті, третьою причиною асиметрії може бути неоднорідність вибірки (наприклад, якщо дослідження проводиться в змішаній групі різного віку). При цьому має місце накладення один на одного двох або декількох різних за чисельністю і зсунутих відносно один одного по моді розподілів.
Іншою властивістю одновершинних розподілів є ступінь зосередженості елементів сукупності навколо центра розподілу. Цю властивість називають ексцесом розподілу. ЕксцесEx характеризує відносну опуклість або згладженість розподілу вибірки порівняно з нормальним розподілом. Позитивний ексцес позначає відносно загострений розподіл, негативний – відносно згладжений. Причинами ексцесу можуть бути більша або менша ступінь тяжіння змінних до центральної тенденції, неоднорідність вибірки, накладення один на одного декількох розподілів з однаковою модою та різною дисперсією і т. д. Вирахування показнику ексцесу за формулою:
Плосковершинний Нормальний Гостровершинний
розподіл розподіл розподіл
Ex < 0 Ex = 0 Ex > 0
5.4. Типи ексцесу
Теоретично величина ексцесу може варіювати від – 3 до + ∞. Критерій згоди з нормальним розподілом аналогічно коефіцієнту асиметрії визначається за таблицями граничних значень.
Аналогічно визначенню асиметрії розподіл відповідає нормальному (узгоджується з нормальним), якщо Ex < Exкр. При зворотному співвідношенні прийнято говорити, що за показником ексцесу емпіричне розподіл статистично достовірно відрізняється від нормального.
Асиметрія та ексцес – дві пов’язані з варіацією властивості форми розподілу. Комплексне їх оцінювання виконується на базі центральних моментів розподілу.
При аналізі емпіричного розподілу може виникнути така ситуація, коли за одним з показників (асиметрії або ексцесу) розподіл відповідає нормальному, за іншим же – відрізняється від нього. У цьому випадку слід використовувати наступне правило: якщо хоча б по одному з вищевказаних показників розподіл достовірно відрізняється від нормального, то слід робити висновок про те, що експериментальний розподіл відрізняється від теоретичного (нормального).
Крім коефіцієнта асиметрії та показника ексцесу, для порівняння експериментального розподілу з теоретичним використовують і інші критерії, зокрема критерій хі-квадрат і критерій λ Колмогорова-Смірнова.
3. Критерій хі-квадрат (χ2) Пірсона
Критерій хі-квадрат заснований на порівнянні між собою емпіричних (експериментальних) частот досліджуваної ознаки і теоретичних частот нормального розподілу. Його називають ще критерієм згоди (емпіричного та теоретичного розподілу).
Використовується у випадках:
· для співставлення емпіричного розподілу ознаки з теоретичним – рівномірним, нормальним або іншим;
· для співставлення двох, трьох або більше емпіричних розподілів однієї і тієї ж ознаки.
Критерій χ2дає відповідь на питання чи з однаковою частотою зустрічаються різні значення ознаки в емпіричному та теоретичному розподілі або в двох та більше емпіричних розподілах.
де fei – емпірична частота за і розрядом ознаки;
fT – теоретична частота;
i – порядковий номер розряду;
k – кількість розрядів ознаки.
Обмеження критерію:
1. Об’єм вибірки повинен бути достатньо великим: n≥30. При n˂30 критерій χ2 дає досить наближені значення. Точність критерію збільшується при великих n.
2. Теоретична частота для кожної клітинки таблички не повинна бути менше 5: f≥5. Це значить, що якщо число розрядів задане раніше і не може бути змінене, то ми не можемо використовувати метод χ2, не накопичивши відповідного мінімального числа спостережень. Таким чином, якщо кількість розрядів (k) задана раніше, то мінімальне число спостережень (nmin) визначається за формулою: nmin=k·5.
3. Вибрані розряди повинні «вичерпувати» весь розподіл, тобто охоплювати весь діапазон варіативності ознак. При цьому групування на розряди повинна бути однакова у всіх розподілах співставлення.
4. Необхідно вносити «поправку на неперервність» при співставленні розподілів ознак, які набувають всього 2 значення. При внесенні поправки значення χ2 зменшується (на 0,5).
(Коли емпіричний розподіл співвідноситься з рівномірним розподілом і кількість розрядів ознаки k=2, а число ступенів свободи ν=k–1=1, тобто ознака набуває всього 2 значення;
коли співставляються два емпіричних розподіли і кількість розрядів рівна 2, тобто кількість рядків k=2, і кількість стовпчиків c=2 і ν=(k–1)·(с–1)=1 необхідно вносити поправку на неперервність)
5. Розряди повинні бути не перехресними: якщо спостереження віднесене до одного розряду, то воно вже не може бути віднесене до іншого розряду. Сума спостережень за розрядами завжди повинна бути рівна загальній кількості спостережень.
Приклад: досліджується питання про уподобання в групі студентів одного з чотирьох напоїв (було запропоновано назвати тільки один улюблений з чотирьох) дані опитування були представлені в таблиці.
Pepsi cola | Coca cola | Sprite | Seven Up |
Чи можна сказати, що всі напої мають однакове уподобання або що один з них є більш популярним серед студентів. В принципі, з таблиці видно, що кока-кола має самий високий рейтинг, а спрайт самий низький. Але на скільки достовірна ця різниця? Для відповіді на питання потрібно порівняти отриманий емпіричний розподіл з теоретичним рівномірним.
Вирішення задачі будується за наступним алгоритмом.
1. Формулюються статичні гіпотези:
Н0: розподіл уподобань різних напоїв значимо не відрізняється від рівномірного розподілу.
Н1: розподіл уподобань різних напоїв значно відрізняється від рівномірного.