Непараметрические методы анализа
В биологии часто приходится подвергать анализу явления, распределение которых отличается от нормального, известного под названием Гаусса-Лапласса. В этих случаях применение двух основных параметров: средней величины и дисперсии не имеет смысла, так как оно связано именно с тем предположением, что распределение изучаемых совокупностей нормальное или близкое к нему. В таких случаях в статистике применяют методы, называемые непараметрическими. Методы эти обладают тем преимуществом, что применение их не связано с определенной формой распределения изучаемой совокупности, а также и потому, что они не требуют большой вычислительной работы. Непараметрические методы анализа можно применять и в отношении нормальных распределений. Недостаток их заключается в том, что они обладают меньшей мощностью по сравнению с остальными методами. Этот недостаток, однако, компенсируется возможностью использовать для анализа большое количество наблюдений.
В начале рассмотрим те случаи, когда признаки изучаемых явлений не имеют количественного выражения, а приведены только описательно. Например, в случае, если требуется оценить вкусовые качества пищевых продуктов или лекарственных средств и т. п.
Пример 1.15 студентов-зоологов пришли в краеведческий музей и увидели две коллекции бабочек. После осмотра их мнения разделились следующим образом.
Коллекция | хорошая | Оценка плохая | Всего |
(а) | (б) | (а+б) | |
(с) | (д) | (с+д) | |
Всего | (а+с) | (б+д) | (а+б+с+д) |
Создается впечатление, что первая коллекция лучше. Для проверки, насколько это впечатление верно, а не является случайным вычисляется статистический показатель c2 по формуле: c2=(а-б-1)2/(а+б), где а - большее число, а б - меньшее число четырехпольной таблицы. В данном случае:
c2=(13-2-1)2/(13+2)=100/15=6.667. К=1.
Полученный результат при степенях свободы сопоставляется с табличными значениями и сравнение показывает, что подобные значения могут случайно появиться с вероятностью P=0.01. Следовательно, заключение о преимуществе первого варианта не случайно.
Пример 2.Два студента-ботаника от нечего делать решили измерять линейками листочки, и в результате получили:
№ | х1 | х2 | х1-х2 |
3.8 | 3.6 | +0.2 | |
4.2 | 4.4 | -0,2 | |
5.0 | 5.2 | -0,2 | |
4.8 | 5.2 | -0,4 | |
3.6 | 4.0 | -0,4 | |
4.2 | 4.3 | -0.1 | |
4.6 | 5.0 | -0.4 | |
4.0 | 4.2 | -0.2 | |
4.8 | 4.9 | -0.1 | |
5.2 | 5.3 | -0.1 |
Из таблицы видно, что результаты х1 почти всегда ниже чем х2. Если обозначим n - число параллельных наблюдений, а q - число различий между параллельными наблюдениями с реже встречающимся знаком, можно по специальной таблице определить вероятность появления данного числа q. Если эта вероятность небольшая (например, меньше 0.05 и 0.01) нулевую гипотезу (между параллельными определениями первого и второго студента различий не существует) можно отбросить и считать более правдоподобным предположение о том, что первый студент систематически получает более низкие результаты (это так называемая альтернативная гипотеза). В нашем примере n=10, а q=1. По таблице, Рq=0.01.
Непараметрический критерий Вилкоксонаявляется более чувствительным для подтверждения систематических различий параллельных определений. При его применении необходимо найти разность каждого из параллельных наблюдений. Затем эти разности надо ранжировать по восходящей градации и пронумеровать в естественном порядке чисел, начиная с единицы. Если у нескольких разностей одна и та же величина, они все нумеруются числом, равным средней величине номеров, которыми их следует пометить. Перед номерами ставят тот же знак, что и у разностей. Складывают отдельно номера с положительным знаком и номера с отрицательным знаком. Меньшую из этих двух сумм сравнивают с табличным числом. Если сумма равна или меньше табличного числа q, принимают с определенной вероятностью, что различие параллельных определений существенно.
Возьмем предыдущий пример. Не обращая внимания на знак, располагаем разности в восходящем порядке и нумеруем их. В нашем примере первые три из них одинаковы по абсолютной величине 0.1. Они должны получить номера от 1 до 3. Согласно указанному выше правилу, эти разности получают один средний номер (2). Таким же образом следующие 4 разностей получают средний номер (4+5+6+7)/4=5.5, а последние 3 разности имеют общий номер (8+9+10)/3=9. Затем перед полученными таким образом номерами ставим алгебраический знак. Откладываем номера с положительным знаком (сумма=5.5) и с отрицательным знаком (сумма=49.5). Оцениваем по таблице, и видим, что при n=10, итогу, равному или меньшему 8 соответствует вероятность 0.05.
Метод непараметрического анализа, называемый методом последовательных серий, применяют тогда, когда необходимо при серии последовательных наблюдений (например, проводимых в течение времени) ответить на вопрос, преобладают ли в определенные периоды времени более низкие результаты, а в другие более высокие.
Пример 3. При исследовании точности лабораторных аппаратов и факторов, от которых зависит эта точность, решили проверить, оказывает ли влияние напряжение электрического тока электросети на число оборотов центрифуги. Для этого каждый час (с 5 утра до 5 вечера) фиксировали число оборотов испытуемого аппарата.
Наблюдение | |||||||||||||
Результаты Х | |||||||||||||
Результаты в восходящей градации | |||||||||||||
Знак разностей | - | - | - | - | - | + | + | + | + | + | - |
Необходимо проверить, насколько в течение определенного интервала времени не преобладали ни более низкие, ни более высокие величины. Для этого первоначально распределяют полученные числовые значения в восходящей градации и находят медиану. Медиана - статистический показатель, который делит ряд расположенных по восходящей градации чисел на две равные части. В нашем примере медиана равна 5050. Затем находят разности конкретных значений и медианы. Принимают во внимание только знаки этих разностей. Принимают во внимание число серий с одинаковыми знаками. В нашем примере число таких серий - 3. (В первой - 5 минусов, во второй 5 плюсов, в третьей - 1 минус). Затем по соответствующей таблице с определенной вероятностью находят интервал, относящийся к общему числу серий, которые при наблюдении данного числа случаев могут появиться в результате случайности. Во взятом примере при n=13 число этих серий 3<=R<=12. Иными словами, если число наблюдаемых серий было от 3 до 12, то нет оснований предполагать, что в некоторых интервалах преобладают более низкие значения.
Метод персентилей, часто применяется при выработке нормативов (антропометрических, соматометрических, физиометрических, нервно-психического и пубертантного развития и т.п.). Прежде чем рассмотреть техническую сторону метода, остановимся на некоторых вопросах, связанных с познавательным значением, применением и выработкой нормативов.
Антропометрические и другие близкие к ним исследования не являются самоцелью. Они служат основой для проведения индивидуальной оценки физического состояния отдельных лиц. Оценку эту можно произвести на основе сопоставления результатов антропометрического осмотра с известными нормативами - стандартами.
Одним из наиболее ранних методов индивидуальной оценки физического развития является метод индексов. При нем сопоставляются две или более антропометрические величины, для чего исходят из существующей между ними связи. Таковы индексы соотношений веса и роста, окружности груди, емкости легких и т.п. Известны десятки индексов, цель которых охарактеризовать ту или иную сторону физического развития. Несмотря на давнее применение (с 30-х гг. ХIХв), этот метод обладает существенным недостатком. При составлении разных индексов исходят из предположения, что форма тела у всех людей одинакова, т.е. разные размеры человеческого тела у отдельных людей изменяются пропорционально.
Персентили - это показатели типа средних по расположению в ряду. Если данные не сгруппированы, они определяются по месту нахождения после того, как все данные будут расположены по восходящей градации по величине изучаемого признака (пятидесятый персентиль известен под именем медианы, в предыдущем примере было показано как он вычисляется). Если данные сгруппированы в равномерно отстоящие друг от друга интервалы, то для получения соответствующих персентилей используется формула:
Pi=LPi+(c/f)*e (1),
где Lpi - нижняя граница интервала, в котором находится соответствующий персентиль;
с - число случаев, которое требуется прибавить к кумулятивному ряду случаев доперсентильных интервалов, чтобы получить порядковое число персентильного случая;
f - число случаев персентильного интервала;
е - величина персентильного интервала.
В практике обычно пользуются только некоторыми из персентилей: P3, P10, P25, P50, P75, P90, P97. Считается, что если индивидуально наблюдаемый признак находится в границах от Р25 до Р75, то величина его соответствует норме (следовательно, в норму входят 50% всех случаев), если он находится в границах от Р10 до Р25 и от Р75 до Р90, то оценка его соответственно выше или ниже средней (по 15%). Если величина рассматриваемого признака находится в границах от Р3 до Р10 и Р90 до Р97, оценка будет соответственно низкой или высокой (по 7%). В остальных случаях - очень низкая или очень высокая.
Если распределение изучаемого признака отличается от нормального, то при выработке нормативов следует предпочесть метод персентилей.
Пример 4. Имеются следующие данные о истолическом давлении крови у мужчин в возрасте 25-29лет. Необходимо найти персентили P3, P10, P25, P50, P75, P90, P97 и определить интервалы, в границах которых находятся отдельные нормативные группы .
Чтобы выполнить заданную задачу, первоначально находят так называемый начетный ряд (кумулятивные итоги - третий столбец таблицы). Он получается следующим образом, к числу случаев первого интервала прибавляют число случаев второго, к полученному итогу прибавляют число случаев третьего интервала и т.д.
RR в мм. рт. сб. | Число случаев | fkS |
70-90 | ||
90-110 | ||
110-130 | ||
130-150 | ||
150-170 | ||
170-190 | ||
190-210 | ||
210-230 | ||
230-250 | ||
250-270 |
Затем находим номера соответствующих персентилей по формуле:
Sf/100*Pi, где Sf - сумма всех случаев (в нашем примере 1000), Pi - соответствующий персентиль. По этой формуле номер третьего персентиля будет равен 30=(1000/100)*3, десятого персентиля -100, остальных персентилей соответственно 250, 500, 750, 900, 970.
По куммулятивным суммам определяют, в каком интервале находится каждый из требующихся персентилей. Например, персентиль №30 находится во втором интервале 90-100, №100 - в том же интервале, №250 - в интервале 110-130 и т.д. Затем при помощи формулы 1 находят величины искомых персентилей. В нашем случае: Р3=90+(20/100)*20=94 мм;
Р10=90+(90/100)*20=108 мм; Р25=110+(140/400)*20=117 мм;
Р50=110+(390/400)*20=129.5 мм; Р75=150+(40/100)*20=158 мм;
Р90=190+(20/60)*20=186.67 мм;
Р97=210+(30/30)*20=230 мм;
Следовательно, интервалы нормативов будут следующие:
Персентиль | Р3 | Р10 | Р25 | Р50 | Р75 | Р90 | Р97 |
Величина артериального давления | |||||||
Очень низкое. Сильно выраженная гипотония | Низкое. Гипотония. | Ниже среднего. Слабо выраженная гипотония. | Средние. Нормальные случаи. | Выше среднего. Слабо выраженная гипертония. | Высокие. Гипертония. | Очень высокие. Сильно выраженная гипертония. |
Следует учитывать, что вырабатывать нормативы следует на большом количестве случаев (100-200 и более). Только тогда имеет смысл вычислять персентили.
Недостатком метода персентилей является то, что при нем рассматриваются изолированно, без связи с остальными, отдельные признаки, характеризующие физическое, нервно-психическое, пубертантное и прочее развитие. В некоторых случаях это может привести к неправильной оценке.
Следующий непараметрический критерий, применяется для проверки различий нескольких взаимосвязанных групп, участвующих в общем эксперименте. Для этого необходимо учитывать результаты количественно. Тогда по формуле можно вычислить критерий c2:
c2=12/NS(S+1)*S(Ri)2-3N(S+1), где
N - число случаев каждой из взаимосвязанных групп (это число должно быть одинаковым);
S - число групп;
Ri - сумма ранговых номеров каждой группы;
При помощи величины c2 и числа степеней свободы (K=S-1) можно определить вероятность существенного различия результатов отдельных взаимосвязанных групп. Для этого пользуются соответствующими таблицами.
Пример 5.В течение четырех последовательных дней проверялось наличие радиоактивности в крови 10 подопытных животных, подвергнутых в начале эксперимента воздействию радиоактивного вещества.
Животное № | 1 день | 2 день | 3 день | 4 день |
Можно ли говорить об изменении в радиоактивности крови подопытных животных с течением времени. Чтобы ответить на этот вопрос, первоначально для каждого животного определяют ранговые номера полученных в разные дни результатов измерений. Самую малую величину обозначают №1, следующую по величине №2 и т.д. Получают следующую таблицу.
Животное № | 1 день | 2 день | 3 день | 4 день |
Pi |
В рассматриваемом примере N=10, S=4, P1=36, P2=32, P3=22, P4=10, K=4-1=3.
c2=12/(10*4(4+1))*(362+322+222+102)-3*10*(4+1)=24.24.
По таблице находим, что при К=3 и c2=24.24 вероятность нулевой гипотезы очень мала.