Нормы и интерпретация результатов теста
Статистические методы применяются при обработке материалов психологических исследований для того, чтобы извлечь из тех количественных данных, которые получены в экспериментах, при опросе и наблюдениях, возможно больше полезной информации. В частности, в обработке данных, получаемых при испытаниях по психологической диагностике, это будет информация об индивидуально-психологических особенностях испытуемых. Вообще психологические исследования обычно строятся с опорой на количественные данные. Вот пример.
К школьному психологу обратился шестиклассник Саня Ю. с просьбой испытать его двигательный темп. Саню очень интересовал баскетбол, и он собирался вступить в баскетбольную команду, а баскетболист, несомненно, должен иметь высокий двигательный темп. Психолог разработал план небольшого исследования. Он начал с того, что попросил Саню так быстро, как он только может, ставить точки в центре кружков, нарисованных на листке бумаги. За одну минуту Саня поставил 137 точек. Насколько этот темп характерен для Сани? Чтобы установить это, психолог попросил Саню повторить эту пробу 25 раз. Действительно, некоторые результаты превышали первоначально полученное число, но некоторые оказались и поменьше. Психолог просуммировал все полученные за 25 проб результаты, а сумму разделил на 25 — таким путем он получил среднее арифметическое по всем пробам. Это среднее арифметическое составило 141. Таков по этой пробе максимальный темп Сани. Можно ли считать этот темп высоким? Потребовался еще один шаг в исследовании. Психолог сформировал группу из 50 шестиклассников, не отличающихся ни от Сани, ни друг от друга по возрасту более чем на полгода. С этими ребятами психолог также провел сначала по несколько тренировочных проб, чтобы получить надежные данные об их темпе, и, наконец, последнюю пробу, для обработки.
Все эти экспериментальные данные в виде средних арифметических были построены в один порядковый ряд, который был разбит по десяткам (по децилям). Санины данные вышли в десятку с наиболее быстрыми результатами. По этим количественным данным психолог сделал вывод о том, что Саня обладает сравнительно высоким двигательным темпом, о чем и было ему сообщено.
Современная математическая статистика представляет собой большую и сложную систему знаний. Нельзя рассчитывать на то, что каждый психолог, сделавший диагностику своей специальностью, овладеет этими знаниями. Между тем статистика нужна психологу постоянно в его повседневной работе. Специалисты-статистики разработали целый комплекс простых методов, которые совершенно доступны любому человеку, не забывшему то, что он выучил еще в средней школе.
В зависимости от требований, которые предъявляют к статистике различные области науки и практики, создаются пособия по геологической, медицинской, биологической, психологической статистике. (См., например: Суходольский Г.В. Основы математической статистики для психологов. Л., 1972). В этой главе даются простейшие методы статистики для психологов. Все необходимые для их применения вычисления можно выполнять на ручном компьютере, а то и на простых счетах. Уместное, грамотное применение этих методов позволит практику и исследователю, проведя начальную обработку, получить общую картину того, что дают количественные результаты его исследований, оперативно проконтролировать ход исследований. В дальнейшем, если возникнет такая необходимость, материалы исследований могут быть переданы для более глубокой разработки специалисту-статистику на большой компьютер.
Статистические шкалы. Применение тех или других статистических методов определяется тем, к какой статистической шкале относится полученный материал. С. Стивене предложил различать четыре статистические шкалы: шкалу наименований (или номинативную), шкалу порядка, шкалу интервалов и шкалу отношений.
Зная типические особенности каждой шкалы, нетрудно установить, к какой из шкал следует отнести подлежащий статистической обработке материал.
Шкала наименований. К этой шкале относятся материалы, в которых изучаемые объекты отличаются друг от друга по их качеству. При обработке таких материалов нет никакой нужды в том, чтобы располагать эти объекты в каком-то порядке, исходя из их характеристик. В принципе объекты можно располагать в любой последовательности. Вот пример: изучается состав международной научной конференции. Среди участников есть французы, англичане,датчане, немцы и русские (рис. 1). Имеет ли значение порядок, в котором будут расположеныучастники при изучении состава конференции? Можно расположить их по алфавиту, это удобно, но ясно, что никакого принципиального значения в этом расположении нет. При переводе этих материалов на другой язык (а значит, и на другой алфавит) этот порядок будет нарушен. Можно расположить национальные группы по числу участников. Но при сравнении этого материала с материалом другой конференции найдем, что вряд ли этот порядок окажется таким же. Отнесенные к шкале наименований объекты можно размещать в любой последовательности в зависимости от цели исследования.
При статистической обработке такого рода материалов нужно считаться с тем, каким числом единиц представлен каждый объект. Имеются весьма эффективные статистические методы, позволяющие по этим числовым данным прийти к научно значимым выводам (например, метод хи-квадрат).
Шкала порядка. Если в шкале наименований порядок следования изучаемых объектов практически не играет никакой роли, то в шкале порядка — это видно из ее названия — именно на эту последовательность переключается все внимание. К этой шкале в статистике относят такие исследовательские материалы, в которых рассмотрению подлежат объекты, принадлежащие к одному или нескольким классам, но отличающиеся при сравнении одного с другим: больше—меньше, выше—ниже и т.п.
Проще всего показать типические особенности шкалы порядка, если обратиться к публикуемым итогам любых спортивных соревнований. В этих итогах последовательно перечисляются участники, занявшие соответственно первое, второе, третье и прочие по порядку места. Но в информации об итогах соревнований нередко отсутствуют или отходят на второй план сведения о фактических достижениях спортсменов, а на первый план ставятся их порядковые места. Допустим, шахматист Д. занял в соревнованиях первое место. Каковы же его достижения? Оказывается, он набрал 12 очков. Шахматист Е. занял второе место. Его достижение — 10 очков.
Третье место занял Ж. с 8 очками, четвертое — З. с 6 очками и т.д. В сообщениях о соревновании разница в достижениях при размещении шахматистов отходит на второй план, а на первом остаются их порядковые места. В том, что именно порядковому месту отводится главное значение, есть свой смысл. В самом деле, в нашем примере 3. набрал 6, а Д. — 12 очков. Это абсолютные их достижения — выигранные ими партии. Если попытаться истолковать эту разницу в достижениях чисто арифметически, то пришлось бы признать, что 3. играет вдвое хуже, чем Д. Но с этим нельзя согласиться. Обстоятельства соревнований не всегда просты, как не всегда просто и то, как провел их тот или другой участник. Поэтому, воздерживаясь от арифметической абсолютизации, ограничиваются тем, что устанавливают: шахматист 3. отстает от занявшего первое место Д. на три порядковых места.
Заметим, что в других соревнованиях расклад абсолютных достижений может быть иным: занявший первое место может всего на пол-очка опережать ближайших участников. Важно, что он набрал наибольшее количество очков. Только от этого зависит его порядковое место.
Шкала интервалов. К ней относятся такие материалы, в которых дана количественная оценка изучаемого объекта в фиксированных единицах. Вернемся к опытам, которые провел психолог с Саней. В опытах учитывалось, сколько точек может поставить, работая с максимально доступной ему скоростью, сам Саня и каждый из его сверстников. Оценочными единицами в опытах служило число точек. Подсчитав их, исследователь получил то абсолютное число точек, которое оказалось возможным поставить за отведенное время каждому участнику опытов. Главная трудность при отнесении материалов к шкале интервалов состоит в том, что нужно располагать такой единицей, которая была бы при всех повторных измерениях тождественной самой себе, т.е. одинаковой и неизменной. В примере с шахматистами (шкала порядка) такой единицы вообще не существует.
В самом деле, учитывается число партий, выигранных каждым участником соревнований. Но ясно, что партии далеко не одинаковы. Возможно, что участник соревнований, занявший четвертое место — он выиграл шесть партий, — выиграл труднейшую партию у самого лидера! Но в окончательных итогах как бы принимается, что все выигранные партии одинаковы. В действительности же этого нет. Поэтому при работе с подобными материалами уместно их оценивать в соответствии с требованиями шкалы порядка, а не шкалы интервалов. Материалы, соответствующие шкале интервалов, должны иметь единицу измерения.
Шкала отношений. К этой шкале относятся материалы, в которых учитываются не только число фиксированных единиц, как в шкале интервалов, но и отношения полученных суммарных итогов между собой. Чтобы работать с такими отношениями, нужно иметь некую абсолютную точку, от которой и ведется отсчет. При изучении психологических объектов эта шкала практически неприменима.
О параметрических и непараметрических методах статистики. Приступая к статистической обработке своих исследований, психолог должен решить, какие методы ему более подходят по особенностям его материала — параметрические или непараметрические. Различие между ними легко понять. Вспомним, что говорилось об измерении двигательной скорости шестиклассников. Как обработать эти данные? Нужно записать все произведенные измерения — в данном случае это будет число точек, поставленных каждым испытуемым, — затем требуется вычислить для каждого испытуемого среднее арифметическое по результатам опытов. Далее следует расположить все эти данные в их последовательности, например, начиная с наименьших к наибольшим. Для облегчения обозримости этих данных их обычно объединяют в группы; в этом случае можно объединить по 5—9 измерений в группе. Вообще же при таком объединении желательно, если общее число случаев не более ста, чтобы общее число групп было порядка двенадцати. Получилась такая таблица (с. 249).
Далее нужно установить, сколько раз в опытах встретились числовые значения, соответствующие каждой группе. Сделав это, нужно для каждой группы записать ее численность. Полученные в такой таблице данные носят название распределения численностей. Рекомендуется представить это распределение в виде диаграммы — полигона распределения. Контуры этого полигона помогут решить вопрос о статистических методах обработки. Нередко они напоминают контуры колокола, с наивысшей точкой в центре полигона и с симметричными ветвями, отходящими в ту и другую сторону. Такой контур соответствует кривой нормального распределения. Это понятие было введено в математическую статистику К.Ф. Гауссом (1777—1855), поэтому кривую именуют также кривой Гаусса. Он же дал математическое описание этой кривой. Для построения кривой Гаусса (или кривой нормального распределения) теоретически требуется очень большое количество случаев. Практически же приходится довольствоваться тем фактическим материалом, который накоплен в исследовании. Если данные, которыми располагает исследователь, при их внимательном рассмотрении или после переноса их на диаграмму, лишь в незначительной степени расходятся с кривой нормального распределения, то это дает право исследователю применять в статистической обработке параметрические методы, исходные положения которых основываются на нормальной (О математически обоснованных способах определения того, можно ли считать данное распределение нормальным, см., например, в кн.: Урбах В.Ю. Математическая статистика для биологов и медиков. М., 1963. С. 66) кривой распределения Гаусса. Нормальное распределение называют параметрическим потому, что для построения и анализа кривой Гаусса достаточно иметь всего два параметра: среднее арифметическое, значение которого должно соответствовать высоте перпендикуляра, восстановленного в центре кривой, и так называемое среднее квад-ратическое, или стандартное, отклонение — величины, характеризующей размах колебаний данной кривой; о способах вычисления той и другой величины будет далее рассказано.
Параметрические методы обладают для исследователя многими преимуществами, но нельзя забывать о том, что применение их правомерно только тогда, когда обрабатываемые данные показывают распределение, лишь несущественно отличающееся от гауссова.
При невозможности применить параметрические методы, надлежит обратиться к непараметрическим. Эти методы успешно разрабатывались в последние 3—4 десятилетия, и их разработка была вызвана прежде всего потребностями ряда наук; в частности, психологии. Они показали свою высокую эффективность. Вместе с тем они не требуют сложной вычислительной работы.
Современному психологу-исследователю нужно исходить из того, что «существует большое количество данных либо вообще не поддающихся анализу с помощью кривой нормального распределения, либо не удовлетворяющих основным предпосылкам, необходимым для ее использования» (Рунион Р. Справочник по непараметрической статистике. М., 1982. С. 11.).
Генеральная совокупность и выборка. Психологу постоянно придется иметь дело с этими двумя понятиями. Генеральная совокупность, или просто совокупность, — это множество, все элементы которого обладают какими-то общими признаками. Так, все подростки-шестиклассники 12 лет (от 11,5 до 12,5) образуют совокупность. Дети того же возраста, но не обучающиеся в школе, или же обучающиеся, но не в шестых классах, не подлежат включению в эту совокупность.
В ходе конкретизации проблем своего исследования психологу неизбежно придется обозначить границы изучаемой им совокупности. Следует ли включать в изучаемую совокупность детей того же возраста, но обучающихся в колледжах, гимназиях, лицеях и других подобных учебных заведениях? В ответе на этот и на другие такие же вопросы может помочь статистика.
В подавляющем большинстве случаев исследователь не в состоянии охватить в изучении всю совокупность. Приходится, хотя это и связано с некоторой утратой информации, взять для изучения лишь часть совокупности, ее и называют выборкой. Задача исследователя заключается в том, чтобы подобрать такую выборку, которая репрезентировала бы, представляла совокупность; другими словами, признаки элементов совокупности должны быть представлены в выборке. Составить такую выборку, в точности повторяющую все разнообразные сочетания признаков, которые имеются в элементах совокупности, вряд ли возможно. Поэтому некоторые потери в информации оказываются неизбежными. Важно, чтобы в выборке были сохранены существенные, с точки зрения данного исследования, признаки совокупности. Возможны случаи, и для их обнаружения есть статистические методы, когда задачи исследования требуют создания двух выборок одной совокупности; при этом нужно установить, не взяты ли выборки из разных совокупностей. Эти и другие подобные казусы нужно иметь в виду психологу при обработке результатов выборочных исследований.
Следует рассмотреть типы задач, с которыми чаще всего имеет дело психолог. Соответственно приводятся и статистические методы, которые приложимы для обработки психологических материалов, направленных на решение этих задач.
Первый тип задач. Психологу нужно дать сжатую и достаточно информативную характеристику психологических особенностей какой-то выборки, например, школьников определенного класса. Чтобы подойти к решению этой задачи, необходимо располагать результатами диагностических испытаний; эти испытания, разумеется, следует заранее спланировать так, чтобы они давали информацию о тех особенностях группы, которые в этом конкретном случае интересуют психолога. Это могут быть особенности умственного развития, психофизиологические особенности, данные об изменении работоспособности и т.д.
Получив все экспериментальные результаты и материалы наблюдений, следует подумать о том, как их подать пользователю в компактном виде, чтобы при этом свести к минимуму потерю информации. В перечне статистических методов, используемых при решении подобных задач, обычно находят свое место и параметрические и непараметрические методы, о возможностях применения тех и других, как было сказано выше, судят по полученному материалу. Об этих статистических методах и их использовании пойдет речь ниже.
Второй тип задач. Это, пожалуй, наиболее часто встречающиеся задачи в исследовательской и практической деятельности психолога: сравниваются между собой несколько выборок, чтобы установить, являются ли выборки независимыми или принадлежат одной и той же совокупности. Так, проведя эксперименты в восьмых классах двух различных школ, психолог сравнивает эти выборки между собой.
К этому же типу относятся задачи с определением тесноты связи двух рядов показателей, полученных на одной и той же выборке; в такой обработке чаще всего применяют метод корреляций.
Третий тип задач — это задачи, в которых обработке подлежат временные ряды, в них расположены показатели, меняющиеся во времени; их называют также динамическими рядами. В предшествующих типах задач фактор времени не принимался во внимание и материал анализировался так, как будто он весь поступил в руки исследователя в одно и то же время. Такое допущение можно оправдать тем, что за тот короткий период времени, который был затрачен на собирание материала, он не потерпел существенных изменений. Но психологу приходится работать и с таким материалом, в котором наибольший интерес представляют как раз его изменения во времени. Допустим, психолог намерен изучить изменение работоспособности школьников в течение учебной четверти. В этом случае информативными будут показатели, по которым можно судить о динамике работоспособности. Берясь за такой материал, психолог должен понимать, что при анализе динамических рядов нет смысла пользоваться средним арифметическим ряда, так как оно замаскирует нужную информацию о динамике.
В предыдущих главах упоминалось о лонгитюдинальном исследовании, т.е. таком, в котором однообразный по содержанию психологический материал по одной выборке собирается в течение длительного времени. Показатели лонгитюда — это также динамические ряды, и при их обработке следует пользоваться методами, предназначенными для таких рядов.
Четвертый тип задач — задачи, возникающие перед психологом, занимающимся конструированием диагностических методик, проверкой и обработкой результатов их применения. Отчасти об этих задачах уже говорилось в других главах, но не уделялось внимания специально статистике. Психологическая диагностика, в особенности тестология, имеет целый ряд канонических правил, применение которых должно обеспечивать высокое качество информации, получаемой посредством диагностических методик. Так, методика должна быть надежной, гомогенной, валидной. По упрочившимся в тестологии правилам, все эти свойства проверяются статистическими методами.
Здесь уместно высказать некоторые соображения о возможностях статистики в проведении психологического исследования.
Статистика как таковая не создает новой научной информации. Эта информация либо содержится, либо не содержится (к сожалению, и так бывает) в полученных исследователем материалах. Назначение статистики состоит в том, чтобы извлечь из этих материалов больше полезной информации. Вместе с тем статистика показывает, что эта информация не случайна и что добытые данные имеют определенную и значимую вероятность.
Статистические методы раскрывают связи между изучаемыми явлениями. Однако необходимо твердо знать, что как бы ни была высока вероятность таких связей, они не дают права исследователю признать их причинно-следственными отношениями. Статистика, как о ней пишут известные английские ученые Д.Э. Юл и М.Дж. Кендэл (Теория статистики. М., 1960. С. 18—19.), «вынуждена принимать к анализу данные, подверженные влиянию множества причин». Статистика, например, утверждает, что существует значимая связь между двигательной скоростью и игрой в теннис. Но отсюда еще не вытекает, будто двигательная скорость и есть причина успешной игры. Нельзя, по крайней мере в некоторых случаях, исключить и того, что сама двигательная скорость явилась следствием успешной игры.
Чтобы подтвердить или отвергнуть существование причинно-следственных отношений, исследователю зачастую приходится продумывать целые серии экспериментов. Если они будут правильно построены и проведены, то статистика поможет извлечь из результатов этих экспериментов информацию, которая необходима исследователю, чтобы либо обосновать и подтвердить свою гипотезу, либо признать ее недоказанной.
Вот что нужно знать при использовании статистики.
Итак, были перечислены типы задач, с которыми чаще всего встречаются психологи. Теперь перейдем к изложению конкретных статистических методов, которые способствуют успешному решению перечисленных задач.
Первый тип задач. Статистические методы, примеры их применения для принятия решения.
Допустим, школьному психологу нужно представить краткую информацию о развитии психомоторных функций учащихся 6-х классов, в которых обучается 50 учеников. В процессе выполнения своей программы психолог провел диагностическое изучение двигательной скорости, применив методику, которая была описана выше (С. 240).
Для реализации своей программы психологу надлежало получить количественные характеристики, свидетельствующие о состоянии изучаемой функции — ее центральной тенденции, величины, показывающей размах- колебаний, в пределах которого находятся все данные отдельных учеников, и то, как распределяются эти данные.
Какими методами вести обработку — параметрическими или непараметрическими? Визуальное ознакомление с полученными данными показывает, что возможно применение параметрического метода, т.е. будут вычислены среднее арифметическое, выражающее центральную тенденцию, и среднее квадратическое отклонение, показывающее размах и особенности варьирования экспериментальных результатов.
Нельзя ограничиться вычислением только среднего арифметического, так как оно не дает полных сведений об изучаемой выборке. Вот пример. В одном купе вагона поместилась бабушка 60 лет с четырьмя внуками: 4 лет, двое по 5 и 6 лет. Среднее арифметическое возраста всех пассажиров этого купе 80/5 = 16.
В другом, купе расположилась компания молодежи: двое 15-летних, 16-летний и двое 17-летних. Средний возраст пассажиров этого купе также равен 16. Таким образом, по средним арифметическим пассажиры этих купе как бы и не различаются. Но если обратиться к особенностям варьирования, то сразу можно установить, что в одном купе возраст пассажиров варьирует в пределах 56 единиц, а во втором — в пределах 2.
Для вычисления среднего арифметического применяется формула:
а для среднего квадратического отклонения формула:
В этих формулах х означает среднее арифметическое, х — каждую величину изучаемого ряда, Z — сумму; ? — среднее квадратическое отклонение; п — число членов изучаемого ряда.
Вернемся к опыту с проверкой двигательной скорости учащихся (С. 244).
В опытах участвовали 50 испытуемых. Каждый из них выполнил по 25 проб, по 1 минуте каждая. Вычислена средняя каждого испытуемого. Полученный ряд упорядочен и все индивидуальные результаты представлены в последовательности от меньшего к большему:
85 — 93 — 93 — 99 — 101 — 105 — 109 — 110 — 111 — 115 —
115 — 116 — 116 — 117 — 117 — 117 — 118 — 119 — 121 — 121 —
122 — 124 — 124 — 124 — 124 — 125 — 125 — 125 — 127 — 127 —
127 — 127 — 127 — 128 — 130 — 131 — 132 — 132 — 133 — 134 —
134 — 135 — 138 — 138 — 140 — 143 — 144 — 146 — 150 — 158
Для дальнейшей обработки удобнее эти первичные данные соединить в группы, тогда отчетливее выступает присущее данному ряду распределение величин и их численностей. Отчасти упрощается и вычисление среднего арифметического и среднего квадратического отклонения. Этим искупается несущественное искажение/ информации, неизбежное при вычислениях на сгруппированные данных.
При выборе группового интервала следует принять во внимание такие соображения. Если ряд не очень велик, например содержит до 100 элементов, то и число групп не должно быть очень велико, например порядка 10—12. Желательно, чтобы при группировании начальная величина — при соблюдении последовательности от меньшей величины к большей — была меньше самой меньшей величины ряда, а самая большая — больше самой большой величины изучаемого ряда. Если ряд, как в данном случае, начинается с 85, группирование нужно начать с меньшей величины, а поскольку ряд завершается числом 158, то и группирование должно завершаться большей величиной. В ряду, который нами изучается, с учетом высказанных соображений можно выбрать групповой интервал в 9 единиц и произвести разбиение ряда на группы, начав с 83. Тогда последняя группа будет завершаться величиной, превышающей значение последней величины ряда (т.е. 158). Число групп будет равно 9 (табл. 1).
Вычисление среднего арифметического и среднего квадратическо-го отклонения.
Таблица 1
Группы
Средние значения
Результат разноски
Итоги разноски
f•x
x – x
(х -x)2
f•(x -х)2
83—91
87
/
1
87
36
1296
1296
92—100
96
u
3
288
27
729
2187
101—109
105
LJ
3
315
18
324
972
110—118
114
10
1140
9
81
810
119—127
123
1300/
16
1968
0
0
0
128—136
132
Ш
9
1188
9
81
729
137—145
141
Я
5
705
18
324
1620
146—154
150
L
2
300
27
729
1458
155—163
159
/
1
159
36
1296
1296
n = 50
?f•x= 6150
?f•(x -х)2= =10368
1-й столбец — группы, полученные после разбиения изучаемого ряда.
2-й столбец — средние значения каждой группы; этот столбец показывает, в каком диапазоне варьируют величины изучаемого ряда, т.е. х.
3-й столбец показывает результаты «ручной» разноски величин ряда или иксов: каждая величина занесена в соответствующую ее значению группу в виде черточки.
4-й столбец — это итог подсчета результатов разноски.
5-й столбец показывает, сколько раз встречалась каждая величина ряда — это произведение величин второго столбца на величины 4-го столбца по строчкам. Итоги 4-го и 5-го столбцов дают суммы, необходимые для вычисления среднего арифметического.
6-й столбец показывает разность среднего арифметического и значения x по каждой группе.
7-й столбец — квадрат этих разностей.
8-й столбец показывает, сколько раз встречался каждый квадрат разности; суммирование величин этого столбца дает итог, необходимый для вычисления среднего квадратического отклонения.
В заголовках 5-го и 8-го столбцов указывается, насколько часто встречается та или другая величина. Частота обозначается буквой f (от английского слова frequency).
Включение буквы f, означающей, насколько часто встречалась та или другая величина, ничего не изменяет в формулах среднего арифметического и среднего квадратического отклонения.
Поэтому формулы
вполне тождественны.
Рис.2
Остается показать, как вычисляются по формулам среднее арифметическое и среднее квадратическоеотклонение. Обратимся к величинам, полученным в таблице:
x = 6150 : 50 = 123. При составлении таблицы это число было заранее вычислено, без него нельзя было бы получить числовые значения 6, 7, 8-го столбцов таблицы.
При обработке изучаемого ряда оказалось возможным применение параметрического метода, так как визуально в этом ряду распределение численностей приближается к нормальному. Это подтверждается и графиком (рис. 2, с. 251).
Нормальное распределение обладает некоторыми весьма полезными для исследователя свойствами. Так, в границах x ± ? находится примерно 68% всего ряда или всей выборки, в границах х ± 2? — примерно 95%, а в границах x ± 3? — 97,7% выборки. В практике исследований часто берут границы — x ±2/3?. В этих границах при нормальном распределении будут находиться 50% выборки; распределение это симметрично, поэтому 25% окажутся ниже, а 25% выше границ x ±2/3?. Все эти расчеты не требуют никакой дополнительной проверки при условии, что изучаемый ряд имеет нормальное распределение, а число элементов в нем велико, порядка нескольких сотен или тысяч. Для рядов, которые распределены нормально или имеют распределение, мало отличающееся от нормального, вычисляется коэффициент вариации по такой формуле:
В примере, который был рассмотрен выше,
V= (100-14,4)/123 = 11,7.
Выполнив все эти вычисления, психолог может представить информацию об изучении двигательной скорости с помощью примененной методики в 6-х классах. Согласно результатам изучения в 6-х классах получены: среднее арифметическое — 123; среднее квадратическое отклонение — 14,4; коэффициент вариативности — 11,7.
Непараметрические методы. Ранжирование, медиана, квартиль. Далеко не все материалы, получаемые в психологических исследованиях, подлежат обработке параметрическими методами. Если после ознакомления с изучаемым рядом исследователь убеждается в том, что этот ряд не имеет свойств нормального распределения, ему остается перейти на методы непараметрической статистики. С их помощью могут быть получены и центральная тенденция изучаемого ряда — медиана — и величина, позволяющая судить о диапазоне варьирования и о строении изучаемого ряда — квартильное отклонение.
Вот пример. После диагностических испытаний уровня умственного развития учеников 6-го класса полученные данные были упорядочены, т.е. расположены в последовательности от меньшей величины к большей. Испытания проходили 18 учащихся (табл. 2).
Таблица 2
Учащиеся
Баллы
Ранги (R)
Учащиеся
Баллы
Ранги (R)
А
25
1
К
68
10
Б
28
2
Л
69
11,5
В
39
4
М
69
11,5
Г
39
4
Н
70
14,5
Д
39
4
О
70
14,5
Е
45
6
П
70
14,5
Ж
50
7
Р
70
14,5
3
52
8,5
С
74
17,5
И
52
8,5
Т
74
17,5
Примечание. Буквами обозначены учащиеся, числами — полученные ими баллы по тесту.
Процедура ранжирования состоит в следующем. Все числа ряда в их последовательности получают по своим. порядковым местам присваиваемые им ранги. Если какие-нибудь числа повторяются, то всем повторяющимся числам присваивается один и тот же ранг — средний из общей суммы занятых ими ранговых мест. Так, числу 28 в изучаемом ряду присвоен ранг 2. Затем следуют трижды повторяющиеся числа 39. На них приходятся занятые ими ранговые места 3, 4, 5. Поэтому этим числам присваивается один и тот же средний ранг, в данном случае — 4. Поскольку места до 5-го включительно заняты, то следующее число получает ранг 6 и т.д.
При обработке ряда, не имеющего признаков нормального распределения — непараметрического ряда, — для величины, которая выражала бы его центральную тенденцию, более всего пригодна медиана, т.е. величина, расположенная в середине ряда. Ее определяют по срединному рангу по формуле Me = (п + 1)/2, где Me — означает медиану, п — как в ранее приводившихся формулах — число членов ряда. При нечетном числе членов ряда ранговая медиана — целое число, при нечетном число — с 0,5. Заметим, что числовое значение медианы может и не быть в составе самого обрабатываемого ряда.
Возьмем к примеру ряд в семь членов: 3—5—6—7—9—10—11.
Проранжировав его, имеем: 1—2—3—4—5—6—7.
Ранговая медиана в таком ряду равна: Me = (7 + 1)/2 = 4, этот ранг приходится на величину 7.
Возьмем ряд в восемь членов: 3—5—6—7—9—10—11—12.
Проранжировав его, имеем: 1—2—3—4—5—6—7—8.
Ранговая медиана в этом ряду равна: Me = (8 + 1)/2 = 4,5.
Этому рангу соответствует середина между двумя величинами, имеющими ранг 4 и ранг 5, т.е. между 7 и 9. Медиана этого ряда равна: Me = (7 + 9)/2 = 8.
Следует обратить внимание на то, что величины 8 в составе ряда нет, но таково значение медианы этого ряда.
Вернемся к изучаемому ряду. Он состоит из 18 членов. Его ранговая медиана равна: Me = (18 + 1)/2 = 9,5.
Она расположится между 9-й и 10-й величиной ряда. 9-я величина — 52, 10-я — 68. Медиана занимает срединное место между ними, следовательно, Me = (52 + 68)/2 = 60.
По обе стороны от этой величины находится по 50% величин ряда.
Характеристику распределения численностей в непараметрическом ряду можно получить из отношения его квартилей. Квартилью называется величина, отграничивающая 1/4 всех величин ряда. Квартиль первая — ее обозначение Q1 — вычисляется по формуле:
Это полусумма первого и последнего рангов первой — левой от медианы половины ряда;
квартиль третья, обозначаемая Q3 вычисляется по формуле:
т.е. как полусумма первого и последнего рангов второй, правой от медианы, половины ряда. Берутся порядковые значения рангов по их последовательности в ряду. В обрабатываемом ряду Q1 = (1+9)/2 = 5, Q3 = (10 + 18)/2 = 14.
Рангу 5 в этом ряду соответствует величина 39, а рангу 14 — 70. Следовательно, в данном ряду Q1 = 39, а Q3 = 70.
Для характеристики распределения в непараметрическом ряду вычисляется среднее квартильное отклонение, обозначаемое Q. Формула для Q такова: Q = (Q3 - Q1)/2. Для обрабатываемого ряда Q = (70 - 39)/2 = 15,5. Были рассмотрены статистическая обработка параметрического ряда (x и ?), статистическая обработка непараметрического ряда (Mе и Q). Параметрический ряд относится к шкале интервалов, непараметрический — к шкале порядка. Но встречаются также ряды, относящиеся к шкале наименований. Наиболее краткая характеристика такого ряда может быть получена с помощью моды, величины, которая выражает наивысшее числовое значение величин данного ряда, при п — числе членов ряда. Следует заметить, что моду можно лишь условно считать выражением центральной тенденции в ряду, относящемуся к шкале наименований. Она выражает наиболее типичную величину ряда.
Рассмотрим подробнее пример, приведенный выше (С. 242). Там речь шла об участниках некой конференции; в их числе были 3 англичанина, 2 датчанина, 5 немцев, 3 русских и 1 француз. Мода в данном ряду приходится на участников конференции — немцев. Число членов ряда равно — 13, а мода — Mo = 5.
Итак, мы рассмотрели статистические методы, применяющиеся для задач первого типа.
Второй тип задач. Психологу в его повседневной практической и исследовательской работе приходится искать ответы на различные вопросы. Предположим, что проведены диагностические испытания умственного развития у школьников шестых классов городской и сельской школ: можно ли в дальнейшем рассматривать обе школьные выборки как принадлежащие одной совокупности? По поводу неодинаковых условий обучения в городской и сельской школах высказано немало противоречивых суждений. Психолог в данном случае намерен опираться на экспериментальные факты. Чтобы прийти к какому-то решению, целесообразно проанализировать полученный экспериментальный материал. Это достаточно часто встречающаяся задача, встречаются и такие, где приходится решать тот же вопрос относительно нескольких, а не двух выборок. Это и есть задачи второго типа.
Перед психологом два ряда численностей. Прежде всего нужно установить, на какие статистические методы опираться — на параметрические или непараметрические? Применять параметрические методы следует в том случае, если оба ряда имеют распределение, не отличающееся от нормального. Если же один из рядов не соответствует этому требованию, то применение параметрических методов противопоказано.
Положим, оба ряда показывают распределение, допускающее применение параметрических методов. Сравнение величин центральных тенденций — в данном случае их представляют средние арифметические — не даст ответа на вопрос о том, относятся ли выборки к одной совокупности. Почти безошибочно можно утверждать, что средние арифметические не будут тождественными, но этого явно недостаточно для ответа на поставленный вопрос, ответ не был бы получен, даже если бы средние арифметические оказались равными. Для данного случая более всего подходит сравнение выборок по критерию t Стьюдента.
Перед тем как ознакомиться с техникой вычислений и интерпретаций результатов, получаемых при работе с критерием t Стьюдента, необходимо остановиться на некоторых статистических терминах; они постоянно встречаются в прикладной статистике.
В том разделе статистики, где заходит речь о проверке гипотез, постоянно приходится иметь дело с нуль-гипотезой, или нулевой гипотезой. При сравнении двух выборок нуль-гипотеза формулируется следующим образом: между изучаемыми выборками нет различия или, иначе, различие между ними несущественно. Все дальнейшие расчеты направлены на то, чтобы прийти к заключению верна ли нуль-гипотеза или от нее нужно отказаться, и в действительности существенная разница между выборками имеется. В других случаях в зависимости от содержания материала меняются формулировки, но вычисления показывают, какова вероятность нуль-гипотезы. Для обозначения нуль-гипотезы используется символ H0.
Допустим, что разница между выборками имеется. Исследователь встает перед вопросом, насколько существенна эта разница, как часто будет обнаруживаться она в последующем, когда придется работать с подобными же выборками. Самые общие соображения при этом таковы: если разница получена на небольшом материале (числе случаев, охваченных той или другой выборкой), то при повторном изучении таких же выборок разницу, возможно, найти и не удастся. Другое дело, если изучаемые выборки не малы. Далее важно, оказалась ли обнаруженная разница значительной. Это рассуждение и следует иметь в виду, когда в статистике речь идет об уровне значимости полученного коэффициента, параметра и пр. Уровни значимости представлены в специальных таблицах, которые обычно даются в учебниках статистики, есть такие таблицы и в конце этой главы. Какой уровень значимости можно признать удовлетворительным? В психологии и педагогике минимально допустимым для отказа от Н0 уровнем значимости признается 0,95. Это значит, что расчеты, основанные на математической теории вероятности, дают основание утверждать, что при проведении таких же исследований, по крайней мере в 95% случаев, будет получен такой же результат, возможно, лишь с несущественными отклонениями. В некоторых работах удается получить и более высокие уровни значимости — 0,990 и даже 0,999 (эти же уровни значимости можно записать: 0,05; 0,01; 0,001. Записывая уровень 0,95, имеют в виду, что полученные параметры повторяются в 95% случаев, а записывая 0,05, что в 5% случаев они не повторятся; смысл в том и другом случае один и тот же).
А если не получен уровень значимости 0,95? Тогда нужно признать, что нуль-гипотезу не следует отвергать. Впрочем, иногда, по задачам исследования признается достаточным и более низкий уровень. В некоторых исследованиях цель состоит в том, чтобы прийти к утверждению нуль-гипотезы.
Обращаясь к таблицам уровней значимости, исследователь обнаруживает во многих из них специальный столбец с указанием степеней свободы, относящихся к полученному параметру или коэффициенту. Уровень значимости прямо зависит от того, каким числом степеней свободы обладает данный коэффициент или параметр. Число независимых величин, участвующих в образовании того или другого параметра, называется числом степеней свободы этого параметра. Оно равно общему числу величин, по которым вычисляется параметр, минус число условий, связывающих эти величины (Урбах В.Ю. Указ. соч. С. 161). Число степеней свободы и способы его определения всегда даются в окончательных формулах, которыми пользуется исследователь при статистической обработке своих материалов.
Рассмотрим пример с двумя выборками, которые, по мнению исследователя, можно рассматривать как подлежащие обработке параметрическим методом.
Двум группам шестиклассников по 6 человек было дано задание бросать мяч в корзину. Группы обучались по разным программам. Можно ли считать, что разница в программах сказалась на конечной результативности школьников? Для сравнения было взято число попаданий в корзину. Всего было дано по 10 проб.
Формула вычисления t:
где
Материал, подлежащий обработке:
первая выборка, п = 6
Исп.
х
x - x
(x - x)2
А
2
-1
1
Б
4
1
1
В
6
3
9
Г
4
1
1
Д
1
-2
4
Е
1
-2
4
вторая выборка, п = 6
Исп.
х
x - x
(x - x)2
Ж
5
—
—
3
4
-1
1
И
2
-3
9
К
8
3
9
Л
6
1
1
М
5
—
—
Ход вычислений показывает:
fd (число степеней свободы) =n1-n2 -2=6+6-2= 10. По таблице уровней значимости t Стьюдента находим t0,95 = 2,223. Существенность различия не доказана, хотя полученное значение t = 1,9 очень близко к требуемому уровню. Принимается Но. Нельзя утверждать, что выборки существенно различаются.
Для вычисления t существует несколько формул, различающихся только техникой расчетов.
Сравниваемые выборки могут быть неодинаковыми по объему. Применять параметрические методы можно лишь к материалу, обладающему определенными свойствами, о которых говорилось ранее. В других случаях следует обращаться к непараметрическим методам.
Ниже будет рассмотрена техника применения критерия Манна— Уитни, непараметрического метода, часто используемого в психологических исследованиях.
Предположим, что психологу нужно решить такую задачу. Есть ли различия между выборками школьников одного и того же класса, если одна выборка включает школьников, которые после контрольной работы проходили дополнительное обучение по коррекционным программам, другая — школьников, такого обучения не проходивших? Обе выборки малы, поэтому для проверки гипотез о существовании различий между выборками следует взять мощный критерий. Мощность критерия — это вероятность принятия при его применении правильного решения для отклонения HO; чем выше эта вероятность, тем больше мощность критерия. Мощность любого критерия увеличивается вместе с увеличением объема сравниваемых выборок, а также со снижением того уровня значимости, на который ориентируется исследователь. Другими словами, если выборки велики, то принятие правильного решения относительно HO увеличивается. Ориентация на высокий уровень значимости, например 0,990 или 0,999, предполагает применение достаточно мощного критерия. В рассматриваемом примере выборки малы, а при установлении существенной разницы между ними, т.е. при отказе от HO желательно, чтобы уровень значимости был как можно выше, но не ниже 0,95.
Формула вычисления критерия Манна—Уитни такова:
или:
В примере сравнению подлежат результаты контрольной работы выборки A из 4 школьников, проходивших обучение по коррекционным программам, и выборки Б, состоящей из 7 школьников, никакого коррекционного обучения не проходивших. Последовательность действий, предусматриваемых вычислением всех нужных для решения задачи величин, такова.
1. Выписать в любом порядке число успешно решенных заданий школьниками сначала выборки А, затем выборки Б.
2. Проранжировать число успешно решенных заданий, объединив обе выборки.
3. Найти сумму рангов выборок А и Б раздельно.
Эти три действия дадут все необходимые для вычисления критерия данные.
Для проверки расчетов вычисляется:
RA + RB = N/2(1 + N); т.е. 37 + 29 = 11/2(1 + 11), т.е. 66 = 66.
Имея величины U1 и U2, следует обратиться к таблице уровня значимости. На совмещение строки четвертой со столбцом седьмым находим 3/25. По условиям таблицы, U1 должно быть меньше верхней, a U2 — больше нижней величины. Полученные величины показывают, что HO отвергается. Можно утверждать, что между выборками имеется существенное различие: результаты свидетельствуют о преимуществе выборки A.
Попарное сравнение. В предыдущем материале исследователь имел дело с двумя выборками. В обработку они поступают как два ряда чисел; каждый ряд есть результат экспериментов, проведенных с данной выборкой. Однако часто приходится встречаться с материалом, в котором даны два числовых ряда, но оба они получены на одной выборке; сюда относятся исследования, когда эксперименты проводятся до и после какого-то специального воздействия. Цель такого исследования состоит в том, чтобы установить, есть ли достаточно существенные изменения и можно ли утверждать, что специальное воздействие имело существенное значение.
Например, психологу было предложено ответить на такой вопрос:
влияют ли занятия физкультурой на общее самочувствие занимающихся школьников? Исследование он построил так: школьников просили отмечать на линейной шкале свое самочувствие до занятий физкультурой и после них.
Статистической обработке подлежат попарные сравнения показания одного и того же испытуемого до и после воздействия:
до воздействия
после него
разность рядов «до» и «после»
х
х2
3,2
3,8
+0,6
0,36
1,6
1,0
-0,6
0,36
5,7
8,4
+2,7
7,29
2,8
3,6
+0,8
0,64
5,5
5,0
-0,5
0,25
1,2
3,5
+2,3
5,29
6,1
7,3
+1,2
1,44
2,9
4,8
+1,9
3,61
?x = 8,4;
?x2 = 19,24
(?x)2 = 70,56
Нуль-гипотеза формулируется так: сравнение рядов до и после воздействия не дает оснований утверждать, что по измеряемому признаку произошли существенные изменения.
Выборка, подвергнутая изучению, состояла из 8 человек. Начнем с параметрического метода. Будет применен критерий t Стьюдента, его формула для попарного сравнения такова:
Нужно вычислить все величины, входящие в эту формулу. Для получения S используется формула:
Извлекая корень из полученной величины, узнаем значение S. Остается произвести по формуле все вычисления.
Ниже приводятся ряды, полученные в эксперименте (числа заимствованы из кн.: Бейли Н. Статистические методы в биологии. М., 1964).
При вычислении t при попарном сравнении число степеней свободы равно п -1. По таблице уровней значимости для t находим, что для 7 степеней свободы t0,95 должно быть не менее 2,36. Поскольку получена большая величина, следует признать, что налицо статистически значимое влияние занятий физкультурой на самочувствие школьников.
Из непараметрических методов для попарного сравнения удобен для пользования критерий Уилкоксона, правда, на небольших выборках этот критерий оказывается недостаточно мощным; его лучше применять на выборках объемом от 12 и более элементов.
Небольшие по объему выборки, однако, удобны для наглядного последовательного изложения техники расчетов.
Для использования этого критерия (его называют также знаково-ранговым) следует проранжировать, сначала не обращая внимания на знаки, весь перечень разностей между рядами «до» и «после». Если разность у отдельных испытуемых и в отдельных случаях нулевая, то она из ранжирования исключается и не входит в сумму рангов. В этом примере таких разностей (равных нулю) не встречается.
Далее нужно суммировать раздельно ранги разностей с положительным знаком и ранги разностей с отрицательным знаком. Значение критерия Т равно меньшей по абсолютной величине сумме рангов.
В этом примере Т = 3,5.
Ряд разностей
+0,6
-0,6
+2,7
+0,8
-0,5
+2,3
+1,2
+1,9
Ранги
2,5
(2.5)
8
4
(1)
7
5
6
Скобками указаны ранги разностей с отрицательными значениями. Но прежде чем отыскивать уровень значимости Т, нужно обратить внимание на то, что в данном случае критерий Уилкоксона — это двусторонний критерий. Как это понимать? Различают односторонние и двусторонние критерии. Отвергая нуль-гипотезу, выдвигают альтернативную ей гипотезу. При этом возникает вопрос: в какую сторону направлено отличие альтернативной гипотезы от HO — в положительную или отрицательную. Если исследование предполагает равно возможными и ту, и другую направленности, следует принять двусторонний критерий. Возможна вместе с тем такая постановка исследования, когда учитывается лишь одна направленность результатов. Так, сравнивая две выборки учащихся по освоении ими научных химических понятий, исследователь ставит ограниченную задачу — рассмотреть только возможность преобладания в этом освоении одной выборки над другой. В этом исследовании применим односторонний критерий.
При описании статистических методов всегда указывается, какого рода критерий подлежит применению — односторонний или двусторонний. В таблицах уровней значимости обычно значения для одностороннего и для двустороннего критериев даются либо в особых столбцах, либо в таблице указывается, какому значению одностороннего критерия соответствует значение двустороннего, и наоборот.
Возвращаясь к рассматриваемому примеру, следует признать, что для него при обработке с помощью критерия Уилкоксона применим двусторонний критерий: различия между показателями «до» и «после» в одних строках положительные, в других отрицательные, учитываются те и другие.
В таблице уровней значимости для критерия Т, имея в виду, что критерий двусторонний, находим, что для 0,95 уровня значение Т должно быть не более 3. Поскольку получено значение Т = 3,5, HO не следует отклонять.
Следовательно, критерий t Стьюдента свидетельствует о том, что HO подлежит отклонению, а T-критерий Уилкоксона свидетельствует о том, что нуль-гипотезу отвергать не следует. Такого рода расхождения, особенно при работе с небольшими выборками, вполне возможны. То, что критерий Уилкоксона Т всего на 0,5 превысил установленный уровень значимости, говорит о том, что при увеличении объема выборки в 1,5 или в 2 раза критерий Т также окажется значимым. В параграфе, где пойдет речь о планировании эксперимента, еще предстоит рассмотреть вопрос об объеме выборок.
Сравнение нескольких выборок по Уилкоксону. Иногда исследователю приходится сравнивать не две, а несколько выборок:
три, четыре и более. В таких случаях следует обратиться к простому и достаточно мощному непараметрическому критерию, представляющему собой модификацию критерия Уилкоксона. Метод позволяет сравнивать выборку с любой другой — вторую с третьей, первую с четвертой и т.д. Нужно, чтобы выборки были равными по численности.
Допустим, что учащимся 8-х классов четырех различных школ был предложен тест умственного развития. В школах использовались различные методы обучения и воспитания. Умственное развитие, как можно полагать, формировалось в каждой выборке в особых условиях. Эти условия и могли определить различия между выборками. Взято по 10 учеников из каждой школы. Их результаты и даны в таблице (табл. 3).
Таблица3
№
Школа I
Школа II
Школа III
Школа IV
Результат
Ранг (R1)
Результат
Ранг (R2)
Результат
Ранг (R3)
Результат
Ранг (R4)
1
96
36,5
96
36,5
32
9,5
40
15
2
82
30
100
39
27
3,5
38
14
3
80
28,5
93
34
68
23
42
18,5
4
78
25,5
87
33
78
25,5
32
9,5
5
34
11
100
39
54
21
31
8
6
42
18,5
28
5,5
56
22
28
5,5
7
42
18,5
80
28,5
83
31,5
42
18,5
8
69
24
94
35
22
1
30
7
9
79
27
25
2
41
16
36
13
10
100
39
83
31,5
27
3,5
35
12
?R
258
284,5
156,5
121
Объединим результаты четырех школ в один ряд и проранжируем его. Для этого расположим ряд в порядке его возрастания и перенесем полученные ранги в таблицу (табл. 4).
Таблица4
Результат
Ранг
Результат
Ранг
Результат
Ранг
Результат
Ранг
22
1
34
11
54
21
83
31,5
25
2
35
12
56
22
83
31,5
27
3,5
36
13
68
23
87
33
27
3,5
38
14
69
24
93
34
28
5,5
40
15
78
25,5
94
35
28
5,5
41
16
78
25,5
96
36,5
30
7
42
18,5
79
27
96
36,5
31
8
42
18,5
80
28,5
100
39
32
9,5
42
18,5
80
28,5
100
39
32
9,5
42
18,5
82
30
100
39
Подсчитаем сумму рангов по каждой школе.
?R = 258 + 284,5 + 156,5 + 121 = 820.
Проверочная формула: ?R = N/2(N+1) = 820, где N — общее число элементов, включающее все выборки. В этом примере оно равно 40.
Школа I
?R = 258
Школа II
?R = 284,5
Школа III
?R= 156,5
Школа IV
?R = 121
Шк. I
?R = 258
26,5
101,5
137
Шк. II
?R = 284,5
26,5
156,5
163,5
Шк. III
?R = 156,5
101,5
156,5
35,5
Шк. IV
?R = 121
137
163,5
35,5
Далее суммы рангов по выборкам размещаются в матрице.
На пересечении строк и столбцов указываются разности, показывающие, насколько отличается сумма рангов каждой выборки от других выборок.
По таблице значимости устанавливается, что при n = 10 (учитывается объем отдельной выборки) и при четырех условиях достигают уровня значимости 0,95 — величина 134 и более, а уровня значимости 0,99 — величина 163 и более. Следовательно, существенное статистически значимое различие имеется между 1-й и 4-й выборками и между 2-й и 4-й выборками; в последнем случае на уровне значимости 0,99.
Корреляции. В примере, рассмотренном выше (С. 260), сравнивались два ряда чисел, представляющие два ряда показателей одной и той же выборки; по смыслу задачи нужно было установить, существенная ли разница между этими рядами. Это были ряды, взятые из ситуации «до» и «после». Есть, однако, и многочисленные ситуации, когда исследователь заинтересован не в том, чтобы найти степень существенности разницы между вариационными рядами, а в том, чтобы найти, насколько тесно эти ряды связаны между собой, какова направленность этой связи. Так, группе школьников были предложены два теста, задания которых были построены на материале школьных дисциплин гуманитарного цикла — литературы и истории. Но в первом тесте для выполнения заданий требовалась актуализация умственного действия аналогии, а во втором — умственного действия классификации. Данные тестирования представлены в двух числовых рядах. Исследователю нужно ответить на вопрос, насколько тесно связаны эти два ряда. При строгой постановке эксперимента это исследование должно было пролить свет на то, какую роль играют умственные действия, указанные выше, на усвоение знаний в гуманитарном цикле.
Пример. Исследовалась выборка из 15 школьников. Для вычисления коэффициента корреляции, отражающего тесноту связи между двумя рядами, используются как параметрические, так и непараметрические методы.
До перехода к расчетам полезно рассмотреть любые коррелируемые ряды в их размещении в корреляционной решетке. По оси абсцисс размещаются показатели одного, а по оси ординат — другого ряда.
Теснота связи между рядами благодаря этой решетке становится легко обозримой. На рис. 3 схематически изображены различные виды соотношения коррелируемых рядов. Как видно, схемы отражают всего пять различных соотношений.
Рис. 3
На схемах можно усмотреть как тесноту связи, так и ее направленность. Схема 3 демонстрирует полное отсутствие связи между рядами; на схеме 5 показана нелинейная связь между рядами, та ее форма, которая показана на этой схеме лишь одна из возможных.
Коэффициент корреляции принимает значение от -1 (схема 4) до +1 (схема 1). В этих пределах возможны все числовые значения коэффициента корреляции. Если никакой связи между рядами не существует, то коэффициент равен 0 (схема 3). В подавляющем большинстве случаев коэффициент составляет величину, не достигающую 1. При положительной корреляции при увеличении числовых значений одного ряда соответственно увеличиваются числовые значения другого ряда. При отрицательной корреляции увеличению числовых значений одного ряда соответствует уменьшение числовых значений другого ряда.
Если исследователь убежден в том, что оба коррелируемых ряда можно рассматривать как ряды параметрические, то для вычисления коэффициента корреляции применяется параметрический метод по формуле Пирсона:
Существует много различных видов этой формулы, представляющих собой ее преобразования. Исследователь сам выбирает удобную для себя формулу. Об уровне значимости коэффициента корреляции судят по табл. 5, причем для г число степеней свободы fd = п - 2, где п — объем выборки.
Вычисление коэффициента корреляции по Пирсону. Коэффициент показывает тесноту связи между выполнением задач в тестах «Аналогии» и «Классификации». Данные по тесту «Аналогии» обозначены х, а по тесту «Классификации» — у.
Для упрощения расчетов введены некоторые тождества.
Испытуемые
х
y
х2
y2
ху
А
1
3
1
9
3
Б
2
4
4
16
8
В
3
5
9
25
15
Г
3
6
9
36
18
Д
4
6
16
36
24
Е
4
7
16
49
28
Ж
4
7
16
49
28
3
5
8
25
64
40
И
5
8
25
64
40
К
6
8
36
64
48
Л
6
8
36
64
48
М
7
9
49
81
63
Н
8
9
64
81
72
О
9
10
81
100
90
П
10
11
100
121
110
n = 15
77
109
487
859
635
Число степеней свободы fd = п - 2 = 15 - 2 = 13. По таблице уровней значимости находим, что при 13 степенях свободы r0,999 = = 0,760. Сравниваем это значение с полученным коэффициентом:
0,76 < 0,96.
Полученный коэффициент корреляции показывает, что между результатами в тестах «Аналогии» и «Классификации» имеется связь. Высокий уровень значимости свидетельствует о том, что эта связь с высокой вероятностью будет воспроизводиться в таких же экспериментах.
Вычисление коэффициента корреляции по Спирмену (коэффициент ранговой корреляции).
Исследовательское задание указано на с. 266. Формула ранговой корреляции такова:
где d — разность рангов ряда х и ряда у т.е. (Rx- Ry).
Таблица 6
Испытуемые
х
Rx
y
Ry
dRxRy
R2 dRxR y
А
1
1
3
1
0
0
Б
2
2
4
2
0
0
В
3
3,5
5
3
0,5
0,25
Г
3
3,5
6
4,5
1
1
Д
4
6
6
4,5
1,5
2,25
Е
4
6
7
6,5
0,5
0,25
Ж
4
6
7
6,5
0,5
0,25
3
5
8,5
8
9,5
1
1
И
5
8,5
8
9,5
1
1
К
6
10,5
8
9,5
1
1
Л
6
10,5
8
9,5
1
1
М
7
12
9
12,5
0,5
0,25
Н
8
13
9
12,5
0,5
0,25
О
9
14
10
14
0
0
П
10
15
11
15
0
0
n = 15
n2 = 225
?d2RxRy = 8,5
fd = п - 2 = 15 - 2 = 13.
Производится раздельное ранжирование ряда х и ряда у. Вычисляется разность рангов d попарно. Знак разности не существенен, так как по формуле нужно возвести d в квадрат. Далее действия определяются формулой:
По таблице уровней значимости ? > ????? (0,98 > 0,70).
Коэффициенты, вычисленные двумя разными способами, как и нужно было ожидать, чрезвычайно близки друг к другу; отличаются они на 0,02, что никакого значения практически не имеет.
Нельзя трактовать коэффициент корреляции как величину, означающую процент взаимозависимых связей вариант двух коррелируемых рядов, т.е. например, коэффициент 0,50 трактовать как 50% таких связей этих рядов. Это далеко не так. Об этом проценте вообще по коэффициенту корреляции судить нельзя. Возведенный в квадрат коэффициент корреляции называется коэффициентом детерминации (r2 или ?2). Он показывает, сколько процентов вариант обоих рядов оказались взаимозависимыми. При коэффициенте 0,50 процент таких взаимозависимых вариант составит 0,502, т.е. 0,25 (Heinz A., Ebner С. Grundlagen der Statistik fiir Psychologen, Padagogen und Soziologen. Berlin, 1967. S. 112). Для коэффициента 0,98 коэффициент детерминации составит 0,982 = 0,9604. Следовательно, взаимозависимы примерно 96% вариант обоих рядов.
Корреляция как метод статистического анализа в психологических исследованиях применяется очень часто. Всем, кто работает с применением корреляционного анализа, т.е. выясняет посредством этого метода тесноту связи двух рядов, следует напомнить, что коэффициент, как бы высок он ни был, нельзя интерпретировать как показатель наличия причинной связи между коррелируемыми рядами. Если коэффициент и может быть как-то использован в обсуждении вопроса о возможных причинных связях, то только в том случае, когда содержательная логика исследования и выдвигаемые при этом теоретические соображения позволяют опереться как на один из аргументов и на значение коэффициента корреляции.
В изложении метода корреляции речь шла исключительно о линейных корреляциях, которые изображены на схемах №1,2, 4. Но там же приведена схема криволинейной корреляции (№ 5). Вообще говоря, вероятно, и в психике человека протекают процессы, взаимосвязь которых не имеет линейного вида. Вычисление нелинейных корреляций и, главное их истолкование не относятся к простейшим статистическим методам, о которых говорится в этой главе. Но об их существовании следует знать.
Наконец, полезно напомнить, что корреляции по Пирсону (с определенными ограничениями и в определенных сочетаниях) создают ту базу, на которой открываются возможности перехода к так называемому факторному анализу. (Наиболее ясное изложение сути факторного анализа см.: Теплов Б.М. Типологические особенности в н.д. человека. М., 1967. Т. 5. С. 239).
Метод определения меры различия между наблюдаемыми и предполагаемыми (теоретическими) численностями — хи-квадрат.
Ранее были рассмотрены различные отношения между выборками: количественное преобладание какого-то признака, представленного в одной из выборок, теснота связи между выборками. Но есть еще одно важное отношение между ними: количественная разница распределений, благодаря которой при сопоставлении выборок открывается возможность прийти к содержательным выводам. Это отношение обнаруживается при сопоставлении распределений численностей. Допустим, что сравниваются две выборки, выпускников двух школ. Часть выпускников каждой школы сдавали экзамены в вузы. Из первой школы сдавали экзамены 100 человек, из них 82 успешно, не сдали 18. Таково распределение численности в первой выборке. Из второй школы сдавали экзамены в вузы 87 человек, выдержали 44 человека, не сдали — 43. Таково распределение численностей во второй выборке. Достаточно ли этих данных, чтобы утверждать, что подготовленность к вузовским экзаменам выпускников этих школ неодинакова? На первый взгляд, разница налицо:
лучше подготовлены выпускники первой школы. Однако при таком раскладе численностей возможно влияние случайности. Поэтому встает вопрос, можно ли, считаясь с представленными распределениями, прийти к статистически обоснованному выводу о мере подготовленности к экзаменам в вузы той и другой выборки.
Метод, с помощью которого подвергаются статистическому анализу описанные распределения численностей, получил название хи-квадрат, его обозначают греческой буквой x2 с показателем степени. Он был разработан математиком Пирсоном. Метод x2 весьма универсален, применим во многих исследованиях, пригоден для статистического анализа распределения численностей разнообразных количественных материалов, относящихся ко всем статистическим шкалам, в том числе и к шкале наименований.
Техника вычисления хи-квадрата довольно проста. Рассмотрим пример со сдачей экзаменов в вузы выпускниками первой и второй школ. В условии сказано, что всего намерены были сдавать экзамены 187 человек: 100 учащихся (53,5%) из первой школы и 87 (46,5%) из второй. Предположим, что выпускники обеих школ подготовлены одинаково, тогда и доли сдавших и не сдавших будут такие же, как доли их представленности в общем числе сдающих. Всего сдало экзамены 126 выпускников (82 + 44). Согласно высказанному предположению, 53,5% от этого числа должны бы были прийтись на 1-ю школу — это составит 66,9 от 126 — и 46,5% на 2-ю школу, что составит 58,9 от 126. Такое же рассуждение повторяем и относительно несдавших. Их всего 61 человек (18 + 43). На 1-ю школу, как нам известно, должно, по предположению, прийтись 53,5% от этого числа, т.е. 33,0 от 61, а на долю 2-й школы — 46,5%, т.е. 28,1 от 61. Нуль-гипотеза, имеющая в данном раскладе тот смысл, что между выпускниками нет различия, при таком соотношении сдавших и несдавших подтвердилась бы. Однако в условиях этого исследования показано другое распределение. Количество выпускников 1-й школы, сдавших экзамены, составляет 82, а не 66,9, как можно было бы предположить, исходя из нуль-гипотезы. Соответственно количество выпускников 2-й школы, сдавших экзамены, составляет в действительности всего 44, а не 58,9. Точно также, сравнивая количество несдавших (по условию с предполагаемым распределением) найдем по 1-й школе 18, а не 33, а по 2-й школе — 43, а не 28,1.
Расхождения между действительными распределениями и распределениями, которые могли бы иметь место, если исходить из нуль-гипотез, налицо. Они-то и учитываются при вычислении x2. Все сказанное удобно представить в виде таблицы-графика распределения численностей (табл. 7). Количества, которые были бы получены при принятии нуль-гипотезы, заключены в скобки. В правом углу буквенное обозначение клетки.
Таблица7
Школа
Число сдавших
Число несдавших
Всего
Долевые отношения, %
Первая
82 А
(66,9)
18 В
(33,0)
100
(100)
53,5
Вторая
44 С
(58,9)
43 Д
(28,1)
87
(87)
46,5
Всего
126
61
187
100
Получены разности по клеткам (знак разности несущественен). Клетки:
А fA = 82—66,9= 15,1;
ВfB = 18 — 33 = 15,0;
СfC = 44 — 58,9 = 14,9;
ДfD= 43—28,1= 14,9. Формула хи-квадрат:
где f0— наблюдаемые численности;fe — предполагаемые (теоретические) численности.
В рассмотренном материале x2 = 15,12/66,9 + 152/33 + 14,92/58,9 + 14,92/28,1= 288/66,9 + 225/33 + 222/58,9 + 222/28,1= 3,4 + 6,8 + 3,8 + 7,9 = 21,9
Для получения числа степеней свободы нужно воспользоваться формулой (только для хи-квадрат): fd = (k - 1)(с - 1) = (2 - 1) х (2 - 1) = 1 степень свободы, где k — число столбцов, с — число строк в таблице с анализируемым материалом.
Обратимся к таблице уровней значимости для одной степени свободы для хи-квадрат: x20,99 = 6,6. Следовательно, полученная величина вполне достаточна для отклонения H0. Есть все основания для содержательного вывода о различной степени подготовленности выпускников обеих школ к экзаменам в вузы.
Все вычисления, приводимые в этой главе, ведутся с точностью до первого знака, т.е. вычисляются целые и десятые. Этим объясняется та, в общем-то, несущественная разница при вычислениях одной и той же величины разными способами. Никакого практического значения встречающиеся расхождения в величинах не имеют.
Полезно знать, что коэффициент хи-квадрат и коэффициент четырехпольной корреляции взаимосвязаны и, поскольку известна численность и распределение сопоставляемых выборок, указанные коэффициенты могут быть определены один через другой.
Как показывает само название этого метода, числовой материал, подлежащий статистическому анализу, может быть распределен в таблице-графике, имеющей четыре поля. Такое расположение материала облегчает все последующие действия с ним. Чтобы рассмотреть технику вычисления коэффициента четырехпольной корреляции — он обозначается символом ? (фи), — можно воспользоваться тем примером, где речь шла о вычислении коэффициента x2. Выпускники двух школ сравнивались между собой по подготовленности к вузовским экзаменам.
Школы
Сдали
Не сдали
Всего
Первая
82 a
18 b
100 a + b
Вторая
44 c
43 d
87 c + d
Итого:
126 а + с
61 b + d
187
Заменив буквенные обозначения числами, получим:
Для получения коэффициента х2 нужно воспользоваться формулой х2 = ?2 · n. В данном примере х2 = 0,342 · 187 = 0,1156 · 187 = = 21,7. Этот же коэффициент х2 вычислялся другим приемом. Получено значение 21,9. Расхождение вызвано разницей в технике вычислений.
Коэффициент четырехпольной корреляции ? может принимать значения от 0 до 1, причем знак получаемого ? не принимается во внимание.
Психологу, намеренному воспользоваться для статистического анализа своих материалов методом хи-квадрат, нужно знать о некоторых обязательных требованиях этого метода; о них не упоминалось в приведенных примерах. При вычислении коэффициента х2 необходимо брать для анализа только абсолютные численности выборок, но не относительные, в частности, не проценты. Необходимость учитывать это свойство объясняется тем, что значение коэффициента х2 зависит от абсолютных величин рассматриваемых распределений. Так, сравнение выборок с численностями 60 и 40 даст совершенно не тот результат, что сравнение выборок с численностями 6 и 4, хотя процентное отношение распределений в обоих случаях одинаково (60 и 40%).
Далее, для вычисления коэффициента х2 нужно, чтобы в каждой клетке таблицы-графика было не менее пяти наблюдений. Наконец, нужно со вниманием относиться к определению числа степеней свободы; неверное определение этого числа повлечет за собой неверное определение уровня значимости коэффициента по таблице.
Этим заканчивается рассмотрение статистических методов, относящихся ко второму типу задач.
В этих задачах независимо от того, будут ли они практического или теоретического содержания, психолог сопоставляет, сравнивает между собой несколько выборок. При этом не следует забывать, что цель исследования не всегда состоит в том, чтобы при сопоставлении отвергнуть нуль-гипотезу. Иногда конечная или промежуточная цель исследования состоит в том, чтобы, допустим, сравнивая выборки, подтвердить нуль-гипотезу. Самый простой пример: исследователь желает составить большую выборку, для чего необходимо объединить в ней учащихся нескольких школ. Естественно, решающее значение имеет доказательство того, что группы учащихся из разных школ относятся к одной совокупности, нужно, чтобы примененные критерии подтвердили это, а значит, статистика должна подтвердить при сравнении групп нуль-гипотезу. Подтвердить или отвергнуть нуль-гипотезу при сопоставлении выборок — в этом и состоит назначение статистических критериев; наиболее простые из них были изложены в предшествующем тексте. Конечно, информация, которую выявят статистические методы, может быть противоречива утверждениям, которые намерен защищать исследователь. В таком случае ему придется внести поправки в свои утверждения или отказаться от них.
Переходим к задачам третьего типа — задачам, рассматривающим динамические, временные ряды.
Предположим, что психологу дано задание собрать информацию о состоянии умственной работоспособности школьников 8-х классов, начиная со второй недели учебного года и до девятой недели включительно. Одной из методик, с помощью которых можно фиксировать состояние умственной работоспособности, считается тест Крепелина. Он состоит из большого количества примеров, в каждом из них нужно складывать два двузначных числа; учитывается общее число правильно решенных примеров. Каждые 3 минуты испытуемые по сигналу экспериментатора отмечают черточкой сделанное. Общая длительность эксперимента в зависимости от возраста составит 9, 12 или 15 минут. Этой методикой и воспользовался психолог. Он начал с того, что сформировал из учащихся, средние успехи которых оценивались за предыдущее полугодие баллами 4 и 5, выборку из 10 человек. Все они изъявили желание участвовать в эксперименте. С этими учащимися психолог в течение первой недели учебного года провел по 12 тренировочных занятий; это было необходимо, иначе рост продуктивности вследствие упражняемости замаскировал бы изменения в динамике работоспособности. Затем начался эксперимент: по субботам после уроков учащиеся этой выборки в течение 12 минут работали с тестом Крепелина. Эксперимент, как было сказано, продолжался 8 недель. Были получены следующие данные, средние по всей выборке (рис. 4).
Визуальная оценка полученного динамического ряда свидетельствует о снижении умственной работоспособности, в чем, конечно, нет ничего удивительного. Однако снижение идет не вполне равномерно. Это ясно видно из графика.
Недели эксперимента
I
II
III
IV
V
VI
VII
VIII
Средняя продуктивность по тесту Крепелина
92
94
90
92
81
74
78
70
Основная тенденция изменения умственной работоспособности вполне ясна. Наблюдаемые, в общем, незначительные отклонения от этой тенденции могут быть на графике устранены методом сглаживания. В этом случае применим метод скользящей средней. Для сглаживания суммируются три показателя у — в данном примере это показатели продуктивности по тесту, — далее, опуская по одному показателю, суммируются одна за другой триады. Средняя каждой триады принимается за показатель сглаженной ломанной, если ориентироваться по графику. Смысл проводимого действия состоит в том, что основная тенденция выступает более отчетливо.
92
92
88
82
77
74
— средние по триадам
92
94
90
92
81
74
78
70
В только что рассмотренном примере сглаживание имеет такой вид:
Результаты сглаживания приобретают большую наглядность при нанесении их на график. Выступает основная тенденция динамики умственной работоспособности. Судя по показателям, полученным после сглаживания, в течение первых трех экспериментальных недель значительного снижения работоспособности не наблюдается, а далее идет непрерывное и резкое ее снижение. Сглаживание, как видно на графике, устранило колебания в работоспособности, отмеченные на первичном графике после V недели. При сглаживании по триадам общее число точек уменьшается на 2.
Какое значение имеет выделение посредством сглаживания основной тенденции? Если условия, благодаря которым возникла основная тенденция, сохранятся, то и эта тенденция с высокой вероятностью сохранится и, таким образом, по основной тенденции может быть построен прогноз, как будут развиваться изучаемые явления. Но такой прогноз возможен только при стабильности определенных условий. Для его построения нужен не только формальный, но и содержательный анализ; он же позволяет раскрыть значение факторов, вызвавших отклонения в ту или другую сторону от основной тенденции.
е Техника метода скользящей средней дает возможность выбирать различные способы объединения показателей для сглаживания. Таковыми могут быть не только триады, но при достаточно большом числе показателей (порядка 30—40 и более) для выведения скользящей средней могут быть выбраны пентады (объединения пяти показателей) и даже септиды (семь показателей).
Нужно иметь в виду, что наглядный и простой метод скользящей средней малопригоден для сглаживания динамики процессов, развитие которых во времени не имеет линейной формы (см.: рис. 3, схема 5, с. 265). Сглаживание методом скользящей средней в таких случаях может привести к искажению действительной тенденции развивающегося процесса. Исследователю следует внимательно всмотреться в материал, подлежащий сглаживанию, чтобы решить, имеет ли он право воспользоваться этим методом. Если криволинейная зависимость отражена в достаточно больших отрезках кривой, то каждый из этих отрезков в отдельности может быть подвергнут сглаживанию. Таково ограничение в использовании метода скользящей средней.
Анализируя выраженную на графике основную тенденцию в ее приближении к прямой, можно заметить, что метод не дает меры наклона, угла, который образуется между полученной после сглаживания приближающейся к прямой ломаной и осью абсцисс. Между тем, узнав величину этого угла, исследователь получит информацию о том, с какой скоростью изменяются изучаемые явления во времени: чем круче наклон и соответственно чем меньше внешний угол сглаженной кривой с осью абсцисс, тем больший путь проходит за единицу времени изменяющийся процесс. Это хорошо видно на рис. 5.
Рис.5
Точные сведения о мере наклона отрезка прямой, полученного после сглаживания, дает метод наименьших квадратов.
Для получения параметров отрезка прямой нужно обратиться к отношению единиц времени (х) и показателей развивающего процесса (у).
Для нахождения параметров отрезка прямой, который после сглаживания представит основную тенденцию изменяющегося ряда, проделываются вычисления по определенным формулам.
Формула прямой: у = а + bх, где у означает показатели ряда, х — единицы времени, по которым прослеживаются изменения изучаемого ряда. Надлежит узнать величины а и b. Величина а необходима для установления точки, с которой берет свое начало отрезок прямой, b — необходимо для установления степени наклона отрезка прямой по отношению к оси абсцисс (оси иксов).
Для вычисления вышеуказанных параметров а и b имеется система двух уравнений с двумя неизвестными:
па + ?xb = ?у;
?xa + ?x2b = ?ху;
х и у в этой формуле рассчитываются из фактических данных изучаемого ряда.
Порядок вычислений. Шестиклассники Саня и Толя в течение пяти дней упражнялись в бросках мяча в корзину. Показатели Сани приведены в таблице (х — единица времени, у число попаданий мячом в корзину. В таблице приведены вычисления и других, требуемых формулой, величин; п = 5).
х
у
х2
ху
1
3
1
3
2
4
4
8
3
6
9
18
4
5
16
20
5
8
25
40
?x = 15; ?у = 26; ?x2 = 55; ?ху = 89 5a + 15b = 26;
15a + 55b = 89.
Нахождение неизвестных а и b производится обычным способом исключения одного неизвестного. Члены первого уравнения для этого умножаются на 3
15a + 45b = 78.
Из второго уравнения вычитается первое, вычисляем b:
10b = 11; b = 1,1.
Подставив числовое значение b в первое уравнение, можно получить числовое значение а:
5a + 16,5 = 26;
5a = 9,5; a = 1,9.
Поскольку известны оба параметра отрезка прямой, можно определить все значения параметров по пяти точкам, по формуле у = 1,9 + 1,1х.
y1 = 1,9 + 1,1 =3,0;
y2 = 1,9 + 2,2=4,1;
y3 = 1,9 + 3,3=5,2;
y4 = 1.9 + 4,4 = 6,3;
y5 =1,9 + 5,5=7,4.
Как было сказано ранее, сверстник Сани Толя упражнялся в том же умении. Так же, как и у Сани, количество дней упражнения было равно 5. Ниже приводятся результаты Толи и показаны все другие величины, которые необходимы для вычисления величин, требуемых формулой.
х
у
х2
ху
1
3
1
3
2
6
4
12
3
5
9
15
4
8
16
32
5
10
25
50
?x = 15; ?y = 32; ?x2 = 55; ?xy =112.
Обозначения здесь такие же, что и в предыдущем примере. Буквы заменяются их числовыми значениями.
5a + 15b = 32;
15a + 55b = 112.
Члены первого уравнения умножаются на 3
15a + 45b = 96.
Из второго уравнения вычитается первое, получим значение b:
10b= 16; b= 1,6.
Из первого уравнения получаем значение а:
5a + 24 = 32;
5a = 8; a = 1,6.
Можно получить сглаженные показатели по дням упражнений у Толи. y1 = 1,6 + 1,6=3,2;
y2 = 1,6+3,2=4,8;
y3 = 1,6 + 4,8 = 6,4;
y4 = 1,6 + 6,4 = 8,0;
y5 = 1,6+ 8,0=9,6.
На рис. 6 показаны только результаты сглаживания. Следует обратить внимание на то, как различаются отрезки прямой по их наклону по отношению к оси абсцисс. Данные Толи изображены пунктирной прямой.
Таковы способы обработки задач третьего типа.
Задачи, встающие перед психологом, который работает в области психологической диагностики, составляют четвертый тип задач.
Они относятся к конструированию диагностических методик, к их применению и обработке. Американская психологическая ассоциация (АПА) периодически издает «Стандартные требования к педагогическим и психологическим тестам», специальный кодекс требований к диагностическим методикам; это пособие полезно как для авторов методик, так и для тех, кто методиками пользуется.
Некоторые из этих требований могут считаться дискуссионными, но полезность кодекса в целом несомненна. Его выполнение, с одной стороны, обеспечивает объективность методик и их обоснованность, а с другой — препятствует проникновению в арсенал методик психологической диагностики дилетантских поделок, произвольных наборов всевозможных заданий, заимствованных из популярных журналов или сочиненных самим автором. Самые общие и самые необходимые к исполнению требования можно было бы свести всего к двум: диагностические методики должны быть надежными и валидными. Значение этих терминов было дано в предыдущих главах. Реализация этих требований осуществляется посредством прочно вошедших в психологическую диагностику статистических методов (Как было показано в гл. XI, при работе с критериально-ориентированными методиками при их конструировании и проверке возможны другие подходы).
Чтобы получить коэффициент надежности, характеризующий гомогенность методики, ее внутреннюю согласованность, прибегают к приему, называемому расщеплением. Эксперимент проводится с выборкой желательно порядка 100, но не менее 50 испытуемых. Полученные от каждого участника выборки ответы на вопросы или решения заданий делятся на четные и нечетные — по их нумерации в методике. По каждой половинке методики выписывается число правильно выполненных каждым испытуемым заданий. Два эти ряда коррелируют между собой.
Допустим, что методика состоит из 24 заданий. Тогда максимальное число выполненных заданий в каждой половинке будет равно 12. Приводим результаты первых 16 испытуемых и технику вычисления коэффициента надежности (гомогенности) ? (табл. 8).
Таблица 8
ВЫЧИСЛЕНИЕ КОЭФФИЦИЕНТА НАДЕЖНОСТИ МЕТОДИКИ А (ГОМОГЕННОСТЬ)
Испытуемые
Правильно решены задания
Ранг заданий
d
d2
четные
нечетные
четных
нечетных
А
10
11
10,5
13,5
3
9
Б
8
8
8
8,5
0,5
0,25
В
3
7
3
6,5
3,5
12,25
Г
3
3
3
2
1
1
Д
11
12
12,5
15,5
3
9
Е
12
10
15
11
4
16
Ж
12
12
15
15,5
0,5
0,25
3
9
8
9
8,5
0,5
0,25
И
7
7
6,5
6,5
0
0
К
6
6
6
6
0
0
Л
7
5
6,5
4
2,5
6,25
M
11
10
12,5
11
1,5
2,25
Н
3
4
3
3
1
1
О
2
2
1
1
0
0
П
10
11
10,5
13,5
3
9
Р
12
10
15
11
4
16
?d2 = 82,5
Проделана обычная ранговая корреляция. По таблице уровней значимости ?0,99 = 0,64; полученный коэффициент превышает эту величину. Принято считать, что коэффициент надежности не должен быть ниже 0,8. Полученный коэффициент удовлетворяет этому требованию (Применение коэффициента корреляции для нахождения коэффициента надежности-гомогенности путем сопоставления числа правильных решений по четным заданиям и числа правильных решений по нечетным заданиям некоторые авторы находят недостаточно корректным, поскольку порядок, в котором представлены коррелируемые ряды, может быть случайным, он может быть произвольно изменен. Однако никакого другого приема для установления этого вида надежности в «Стандартных требованиях к педагогическим и психологическим тестам» не дается. Нахождение коэффициента надежности-стабильности указанной недостаточной корректностью не грешит).
Есть поправочная формула Спирмена—Брауна к коэффициенту надежности-гомогенности, получаемому путем расщепления. Поскольку при прочих равных условиях получаемый коэффициент будет тем выше, чем больше заданий содержится в методике, следует принять во внимание, что прием расщепления уменьшает число заданий вдвое — на этом основывается данный прием. Поправочная формула
в нашем примере
где rSB — коэффициент с учетом поправки, а — коэффициент, вычисленный при коррелировании двух половинок методики. Если этот последний равен 0,88, то после поправки Спирмена—Брауна коэффициент будет равен 0,94.
Поправочную формулу Спирмена—Брауна можно применять только в тех случаях, когда методика делится на половинки (расщепление). Если же в методике в процессе обработки не меняют число заданий, то поправочная формула не применяется.
Величина коэффициента надежности-гомогенности зависит от социально-психологических особенностей той выборки, по результатам испытания которой этот коэффициент устанавливался. Поэтому при опубликовании методики, приводя ее основные характеристики, автору следует указать, на каком контингенте проводилась проверка надежности.
При вычислении коэффициента надежности методики, характеризующего стабильность данных, получаемых с помощью этой методики, первый коррелируемый ряд представляет собой результаты первого, а второй — повторного испытания: его рекомендуют проводить примерно через шесть недель после первого. При необходимости этот срок может изменяться. Эти два ряда коррелируют между собой. Корреляция проводится по обычным правилам, о них сообщалось выше. Это прием «тест-ретест».
Для установления надежности методики существуют и некоторые другие приемы. Так, для получения коэффициента надежности практикуется прием параллельных форм. Авторы, конструирующие методику, создают две ее формы; условно назовем их формой А и формой Б. Обе формы должны быть однородны по психологической направленности, по доступности содержания заданий и по их трудности. В одном варианте формы Л и Б предъявляются испытуемым одна за другой, причем в одной половине выборки испытуемым сначала предлагается форма А, а за ней форма Б, а в другой половине выборки, наоборот, сначала форма Б, а затем А. Результаты, полученные по той и другой форме, коррелируют между собой, и полученный коэффициент трактуется как коэффициент надежности. Нетрудно заметить, что этот прием близок приему расщепления с той разницей, что методика как бы удвоена и сравниваются не четные и нечетные задания, а две половины этой удвоенной методики. Это дает право трактовать получаемый коэффициент скорее как коэффициент надежности-гомогенности, а не надежности-стабильности. Поскольку проверке подвергается набор заданий в целом, поправочную формулу Спирмена—Брауна применять не следует.
Другой вариант использования приема параллельных форм состоит- в том, что одна из форм предлагается испытуемым через какой-то интервал времени после другой, что сближает этот прием с приемом «тест-ретест». При проведении этого приема необходимо убедиться в том, что обе формы высоко коррелируют между собой, согласно только что изложенному приему по надежности-Гомогенности. Результаты обоих испытаний затем коррелируют. Полученный коэффициент может трактоваться как коэффициент надежности-стабильности. Выше указывалось, что в приеме «тест-ретест» рекомендуется интервал между испытаниями шесть недель. Для этого варианта приема параллельных форм этот интервал может быть уменьшен, так как испытуемый при выполнении заданий не сможет опираться на память.
Из предшествующего изложения явствует, что в приемах установления надежности главную роль играет статистический метод корреляций. Несколько по-иному обстоят дела при проверке валидности методики.
Если показатели того критерия, который взят для получения коэффициента внешней валидности, имеют примерно ту же меру рассеяния, меру вариативности, что и мера рассеяния показателей самой методики, то применение корреляции правомерно. Допустим, автор методики намерен установить ее валидность, сравнивая успешность выполнения методики с учебной деятельностью. Валидность устанавливается на выборке школьников. В этом случае, как показывает практика, суммарные оценки за одну учебную четверть или за полугодие покажут примерно тот же размах колебаний, что и размах колебаний по методике; методика состоит из 20 заданий, и при ее выполнении показан размах колебаний от 3 до 20. Суммарные оценки успеваемости, после того как они подсчитаны за полгода, имеют размах колебаний порядка от 14 до 36. Такие ряды вполне возможно коррелировать.
Но в некоторых случаях для получения коэффициента валидности приходится сравнивать успешность выполнения диагностической методики, допустим, в тех же пределах колебаний — от 3 до 20, и производственные достижения, которые имеют всего три ступени оценок: ниже средних, средние и выше средних. Корреляцией в этом случае воспользоваться нельзя, если иметь в виду линейную корреляцию, о которой идет речь в этой главе. Однако могут быть использованы некоторые другие статистические методы, показывающие существование или отсутствие связи между распределением двух рядов численностей. Простейший способ получения коэффициента валидности в описываемом случае и в других подобных случаях — метод «хи-квадрат». Всех испытуемых, прошедших диагностический эксперимент, делят на три равные группы — их и сопоставляют с тремя группами, на которые были поделены испытуемые при оценке их профессиональной успеваемости.
В изучаемой выборке — 90 человек. Они делятся по профессиональным достижениям на три группы: первая — в ней 30 испытуемых — лица с профессиональными достижениями ниже среднего уровня; вторая — 40 испытуемых — это лица со средними достижениями, и третья — 20 испытуемых, их достижения выше среднего уровня. Первая группа составляет 33,3% выборки, вторая — 44,4 и третья — 22,2%.
Приводим технику вычисления (табл. 9).
Таблица 9
Психологическая оценка
Оценка профессиональных достижений
Всего
Ниже среднего
Средняя
Выше среднего
Ниже среднего
А
20
(10)
В
5
(13,3)
С
5
(6,7)
30
Средняя
D
5
(10)
Е
15
(13,3)
F
10
(6,7)
30
Выше среднего
G
5
(10)
Н
20
(13,3)
J
5
(6,7)
30
Итого:
30
40
20
90
Эксперимент, данные которого представлены в табл. 8, предпринимался, чтобы установить валидность психологической оценки. Нуль-гипотеза формулируется так: психологическая оценка не имеет никакого значения для профессиональных достижений; поэтому она никак не скажется на распределении численностей в таблице-графике «хи-квадрат»;
Принятие нуль-гипотезы может произойти в том случае, если в каждой из групп по профессиональной успешности испытуемые будут распределены независимо от их психологической оценки. Тогда испытуемые, получившие психологическую оценку «ниже среднего», распределятся по всем трем группам в тех же процентных отношениях, в каких они распределились и по профессиональным достижениям. Напомним эти отношения: 33,3 — 44,4 — 22,2. Психологическую оценку «ниже среднего» получили всего 30 испытуемых. 33,3% этого числа (10 человек) должны были бы попасть в группу с профессиональными достижениями ниже среднего уровня, с достижениями среднего уровня — 44,4% (в среднем 13,3), с достижениями выше среднего уровня — 22,2% (6,7).
Те же рассуждения повторяются и относительно испытуемых, имеющих психологические оценки «среднюю» и «выше среднего». Однако наблюдается иное распределение. Возникает вопрос: можно ли, учитывая фактическое распределение, отвергнуть нуль-гипотезу и признать, что психологическая оценка влияет на профессиональные достижения? Это раскроет методика «хи-квадрат».
В клетках таблицы представлены как фактически наблюдаемые численности, так и предполагаемые согласно нуль-гипотезе; они заключены в скобки.
Как известно, формула хи-квадрат такова:
где f0 — фактически наблюденные численности, fe — предполагаемые численности.
Для получения значения хи-квадрат нужно суммировать по клеткам:
Клетки
x2 = 10 + 5,2 + 0,4 + 2,5 + 0,2 + 1,6 + 2,5 + 3,7 + 0,4 = 26,5,fd — число степеней свободы.
В этом примереc = (к - 1)(с - 1) = (3 - 1)(3 - 1) = 4.
x20,99 при 4 степенях свободы равно 11,34.
Сравнивая полученную в эксперименте величину x2 с величиной x20,99, указанной в таблице значимостей, можно заключить: полученная в эксперименте величина (x2 = 26,5) свидетельствует о валидности примененной психологической методики.
Величина хи-квадрат с указанием ее значимости служит в подобных случаях показателем или коэффициентом валидности. Этот же метод применяется, если оценка дается не по трем ступеням, как в рассмотренном примере, а по пяти (значительно ниже средней, ниже средней, средняя, выше средней, значительно выше средней и т.д.). Техника вычислений при такой дифференциации оценок аналогична показанной выше.
Были изложены четыре типа задач и показаны статистические методы, применяемые для каждого типа. В современной диагностике применяются не только перечисленные в этой главе статистические методы, но и многие другие. Однако можно полагать, что, ограничив свою цель изложением простейших статистических методов, нет необходимости обращаться к сложным и сложнейшим. Читатели, заинтересовавшиеся проблемами статистических методов в диагностике, могут обратиться к другим пособиям и источникам.
Элементы планирования в психологических исследованиях. Нельзя начинать исследование, не уяснив его цель. Это аксиома. Однако наблюдения показывают, что не все ее принимают. Нередко можно обнаружить смешение двух категорий целей: цель исследования и цель исследователя. Но полное доминирование цели исследователя и безразличное отношение к цели исследования не должны иметь места. Планирование должно исходить из цели исследования.
Есть два главных источника, стимулирующих возникновение исследований: либо они отвечают на запросы, выдвигаемые практикой, которую обслуживает данная наука, либо они возникают из нужд самой науки и имеют целью совершенствовать познание тех сфер жизни, которым посвящена данная наука. Стоит отметить, что детальное планирование необходимо и в том, и в другом случае. Мнение, будто практические исследования могут проводиться без заранее продуманного плана, безусловно, ошибочно; только правильно спланированное исследование может в своих выводах дать ответ на те вопросы, ради решения которых оно и задумывалось.
Различают планирование исследований, не нуждающихся в эксперименте, и исследований, включающих эксперимент как необходимую часть. Что касается первых, то их планы в принципе не отличаются от планов исследований в других науках. В вводной части (она будет примерно такой же и в экспериментальных исследованиях) очерчивается место данного исследования в потоке современной науки, кратко реферируются работы, затрагивающие ту же проблематику, указываются источники и формулируется замысел исследования и его цель. Далее планируется само исследование. Все без исключения исследования вообще могут рассматриваться как система доказательств, обосновывающих выводы, в которых содержится и цель, поставленная автором.
Этот план не должен рассматриваться как обязательный. Особенности работы могут заставить автора в той или иной степени отойти от него, дополнить его или сократить. В исследованиях, включающих эксперимент, во вводной части должно быть показано, зачем оказался нужным эксперимент и каковы принципы его построения.
Планирование эксперимента в психологическом исследовании предполагает предварительное обсуждение следующих пяти пунктов.
А. Каков планируемый объект эксперимента, другими словами, какова та выборка испытуемых, которых намерен привлечь автор? В зависимости от того, каких испытуемых возьмет автор, ему придется обдумать и следующий пункт.
Б. Если необходимо работать со школьниками, то эксперимент должен быть согласован со школьными режимами — годовым, еженедельным и ежедневным, с учетом умственной нагрузки школьников. Необходимо считаться и с периодом подготовки к экзаменам и их сдачей. С первыми двумя пунктами тесно связан третий.
В. Нужны методики, которые, с одной стороны, учитывали бы особенности исследуемого контингента, а с другой — непосредственно вели бы к цели исследования. Когда намечены методики и время их проведения, возникает следующий пункт плана.
Г. Материалы эксперимента нуждаются в адекватной обработке и почти всегда в привлечении статистики. Планируются такие статистические методы, результаты которых непосредственно направлены на достижение цели исследования. Все перечисленные пункты подготавливают планирование последнего пункта.
Д. Сколько и какой квалификации работников нужно для проведения эксперимента, какая понадобится аппаратура и каких средств потребует эксперимент?
Цель исследователя (а не исследования) должна подсказать, в каком виде нужно представить полученный материал: это может быть отчет, статья, часть книги или диссертация и т.д. Исследователь, обдумывая предстоящий эксперимент, должен иметь в виду, что полученные выводы будут относиться не только к выборке испытуемых, непосредственно участвующих в эксперименте, но и к той совокупности, к которой принадлежит эта выборка. Чтобы этот расчет оправдался, нужно с достаточной определенностью представить, что же это за совокупность. Поэтому важно вести эксперимент не со случайным набором испытуемых, а с испытуемыми, образующими репрезентативную выборку, воспроизводящую все характерные психологические признаки совокупности. С этих же позиций репрезентативности нужно рассмотреть вопрос об объеме выборки. Не всегда целесообразно планировать участие большой выборки в несколько сотен или тысяч испытуемых. В такой выборке почти неизбежно утратится репрезентативность, в ней, возможно, будет представлено несколько совокупностей, каждая из которых так или иначе повлияет на результаты эксперимента: их интерпретация потеряет ясность. Поэтому предпочтительнее работать с малыми и средними выборками, объемом до 30—100 испытуемых. Чтобы решить, сколько же конкретно следует взять участников эксперимента, придется провести пилотажный, или подготовительный, мини-эксперимент. Проведение такого эксперимента поможет выявить два необходимых момента: гомогенность выборки, ее сравнительно малую вариативность по тем признакам, которые, при прочих равных условиях, изучаются в эксперименте, и такой ее объем, который обеспечит получение всех показателей как внутри выборки, так и в ее сопоставлениях на должном уровне статистической значимости. О последнем моменте свидетельствует следующее наблюдение: допустим, что в пилотажном эксперименте на выборке 10 испытуемых получен коэффициент корреляции между двумя признаками, равный 0,55. Этот коэффициент свидетельствует о том, что коррелируемые ряды связаны между собой, однако он ниже уровня 0,95 значимости, который принят в психологических исследованиях. При увеличении выборки до 12 человек коэффициент окажется на приемлемом уровне значимости — несколько выше коэффициента общепринятого уровня, а он равен 0,576. Вывод, который придется сделать исследователю: выборка должна состоять не из 10 испытуемых, а минимум из 12-15. Этот объем позволит получить значимый коэффициент. Но определить объем выборки без пилотажного эксперимента не представляется возможным. Если автор претендует на более высокий уровень значимости, то по таблице уровней значимости он установит и объем выборки. Чем выше гомогенность выборки, тем яснее ее отнесенность к той или другой совокупности. Вместе с тем высокая гомогенность может рассматриваться как предпосылка того, что желательные уровни статистической значимости действительно могут быть достигнуты с увеличением выборки.
При планировании эксперимента исследователю надлежит обратить внимание на то, чтобы в подборе испытуемых для своей выборки он избежал ошибок, порождаемых стремлением работать с выборкой, обеспечивающей получение желательных результатов. Надежным заслоном против таких ошибок является обращение к Таблице случайных чисел. Так, исследователю предстоит отобрать из двух классов одну выборку: число учеников в обоих классах составляет 60 человек, а выборку исследователь намерен составить из 15 человек. Возможно, что ему посоветуют взять лучших, или дисциплинированных, или усердных и т.п. Но те признаки, которыми советуют руководствоваться исследователю, несущественны для его цели. Допустим, что он намерен изучить наиболее яркие проявления гуманитарных способностей. Чем руководствоваться исследователю при отборе испытуемых в свою выборку? Ему следует обратиться к Таблице случайных чисел.
Чтобы воспользоваться этой таблицей, сначала нужно выписать подряд, одну за другой, в любой последовательности фамилии учеников, из числа которых исследователь намерен образовать нужную ему выборку. Далее, открыв Таблицу случайных чисел на любой странице, следует взять, например, два первых двузначных числа из любого из десяти столбцов, напечатанных на этой станице. Идя сверху вниз, нужно последовательно приписывать эти двузначные числа к фамилиям учеников. В выборку попадут ученики, к чьим фамилиям будут приписаны первые пятнадцать чисел, начиная с наименьшего. Исследователь волен взять не первые два числа, а два последних или два средних и идти не сверху вниз, а снизу вверх. Необходимо только сохранять тот порядок, который был избран для работы с Таблицей случайных чисел в данном конкретном исследовании.
Вот фрагмент одной из страниц Таблицы случайных чисел:
5489
5583
3156
0835
1988
3912
0938
7460
0869
4420
3522
0935
7877
5665
7020
9555
7379
7124
7878
5544
7555
7579
2550
2487
9477
0864
2349
1012
8250
2633
5759
3564
5080
9074
7001
6249
3294
6368
9102
2672
и т.д.
Допустим, исследователь решил, идя сверху вниз, воспользоваться первыми двумя числами третьего столбца. Тогда идущий первым по порядку ученик получит приписанное к своей фамилии число 31, второй по порядку — число 78, третий —25, четвертый — 50 и далее, следуя вниз по столбцу. После того как числа будут приписаны всем 60 ученикам, будут отобраны те, кто получил первые по порядку 15 чисел. Эта несложная процедура исключает произвольность в отборе испытуемых.
Рекомендации, содержащиеся выше, помогут спланировать пилотажный эксперимент, а затем и исследование в его окончательном варианте (Вопрос о конструировании эксперимента как такового в этой главе не затрагивается).
Такое построение работы поможет сэкономить силы, средства и время и в конечном счете прийти к поставленной цели, либо доказав и подтвердив гипотезу автора, либо отказаться от нее. В том и другом случае прояснится дальнейший путь развития исследований, уточняющих и углубляющих разработку проблемы.
Дело, однако, не только в этом. Неточно спланированное исследование, сколько бы сил в него ни вложили, вряд ли продвинет вперед науку и поможет практике. Всегда останется сомнение в действенности его выводов. А это приведет к тому, что возникнет необходимость в новых, тождественных по целям исследованиях, станут вероятными противоречивые выводы.
Поэтому умение планировать экспериментальное исследование составляет важное и необходимое звено в профессиональной подготовке и надлежащей квалификации психолога.