Типы квазиэкспериментальных и экспериментальных планов

«Исследование случая», эксперимент ex post facto, временные серии, панельные исследования и тренды, план с эквивалентными выборками, экспериментирование на одном объекте с претестом и посттестом, сравнение нерандомизированных контрольной и экспериментальной групп, экспериментальный план с предварительным и итоговым замерами и контрольной группой, эксперимент Р. Соломона для четырех групп, план с контрольной группой без претеста, перекрестный квазиэкспериментальный план, экспериментальный план с претестом и посттестом, план с временной серией и контрольной группой.

Многие социологические эксперименты строятся по упрощенному плану «исследования случая»: выбирается удобная группа испытуемых, к ним применяется воздействие экспериментального фактора х и замеряется результат О.

В данном случае не производится ни контроля, ни сравнения, и невозможно утверждать ничего определенного о связи экспериментальной переменной с эффектом. Вывод в данном случае основан на имплицитном предположении, какими могли бы быть данные, если бы не было экспериментальной переменной х. Нередко в качестве экспериментов такого рода рассматриваются крупные политические события (разгон парламента, политические выборы, революции и т. п.). Когда Лайфорд Эдварде связывал причину революции с моральной атакой публицистов на привилегии власть предержащих, он имел в виду некие глобальные исторические эксперименты, результатом которых явился политический переворот4.

Связь между «причиной» и «следствием» в лучшем случае обсуждается в риторических терминах, но никоим образом не контролируется, поэтому речь в данном случае идет не об эксперименте, а о квазиэксперименте. Ситуация, сложившаяся после «экспериментального» события, может быть объяснена множеством факторов, не связанных с экспериментальной переменной. Поэтому в социологии конкурируют разные в равной степени убедительные версии, но о внутренней валидности вывода судить невозможно. Внешняя валидность рассматриваемого плана также сомнительна. «Часто результаты таких исследований представляют собой унылое нагромождение конкретных деталей, скрупулезных наблюдений, измерений и т. п., причем точности в таких случаях добиваются не там, где надо», — пишет Дж. Кэмпбелл5. Никакое сравнение отдельно взятых факторов не может получить обоснованную теоретическую интерпретацию.

Несмотря на очевидную слабость такого рода, квазиэксперименты играют важную роль в социальных и поведенческих науках, особенно в тех областях, где взаимообусловленные признаки не обязательно являются независимой и зависимой переменными в строгом смысле. В социологии чаще изучается связь не между стимулом и реакцией, а между «качествами», одно из которых считается причиной, а другое — следствием. Когда исследуется связь социального статуса и политических установок, первое «качество» с полным основанием считается независимым. Однако в данном случае сложно судить о временной последовательности воздействия. Первое условие эксперимента здесь соблюсти невозможно. Второе условие эксперимента также нарушено, поскольку в социологии переменные чаще всего не специфицированы и образуют синдромы. Например, классовая принадлежность означает и владение собственностью, и образование, и культурные приоритеты, и престиж. Такого рода синдромы, как правило, не поддаются разложению на единичные признаки и, следовательно, экспериментальной манипуляции. И, наконец, в естественных условиях невозможно выровнять экспериментальную и контрольную группы. Поэтому требования сравнения, манипулирования и контроля оказываются невыполнимыми для большей части социологических задач. Отсутствие экспериментального контроля может быть с успехом компенсировано философским теоретическим дискурсом. Например, пресловутый английский индивидуализм объяснялся Э. Канетти разрозненностью индивидов, окруженных морем и воображающих себя капитанами6.

При сравнении статистических групп основная трудность состоит в установлении тех, кто подвергся воздействию экспериментальной переменной. Собственно говоря, необходимо четко отделить контрольную группу от экспериментальной после того, как экспериментальная переменная уже «сработала» без участия со стороны экспериментатора. Этой схеме Ф. Чэпин дал наименование ex post facto. Он изучал влияние школьного обучения на жизненный успех и карьеру за период в десять лет7. Данные о карьере собирались методом интервью, а ситуация в школе устанавливалась из архивных источников. Чэпин обнаружил, что окончившие школу имели более высокие показатели жизненного успеха, чем те, кто не смог завершить обучение. Было также установлено, что естественная «контрольная» группа отличалась от «экспериментальной»: социальный статус родителей респондентов, окончивших школу, был выше, чем у «контрольных» респондентов. Спрашивается, не является ли успешное окончание школы, продвижение в статусе на протяжении последующих десяти лет следствиями «третьего» фактора, например родительской семьи и окружения? Чэпин выравнивал группы учеников по социальному статусу родителей и другим «стартовым» признакам, которые могли повлиять на жизненный успех и карьеру. Массив разделялся только по признаку окончания / не окончания школы. Выравнивание, осуществленное Чэпином, не считается вполне корректным: для тех, кто окончил школу, может быть много иных объяснений жизненного успеха, чем социальный статус родителей.

Квазиэкспериментальные исследования и статистическая обработка данных позволяют достаточно надежно проверять гипотезы о взаимосвязях. Например, для проверки гипотезы о влиянии стабильности родительской семьи на стабильность семьи второго поколения весь массив наблюдений делится на две группы: респондентов, у которых родительская семья распалась, и тех, у которых она не распалась (промежуточными формами в данном случае можно пренебречь). Если в первой группе число разводов оказывается существенно выше, чем во второй, гипотеза не отвергается. Разумеется, утверждать о причинной связи этих признаков оснований мало, хотя такая связь не исключается. Более строгий контроль взаимодействия переменных обеспечивается методами многомерного анализа, которые позволяют выявить связь переменных в «чистом» виде, без посторонних влияний.

Сочетание квазиэкспериментальных планов с достаточно большим числом наблюдений значительно увеличивает как внутреннюю, так и внешнюю валидность вывода. В социологических исследованиях может эффективно применяться квазиэкспериментальный план временных серий. Он основан на введении экспериментального фактора после длительных наблюдений за динамикой переменной и установления тренда.

Изменение временного ряда после экспериментального воздействия свидетельствует о том, что причиной изменения, скорее всего, является х. Например, если производительность труда, достаточно долго сохранявшаяся на стабильном уровне, изменилась после оборудования рабочих мест более сильным освещением, можно полагать, что освещение повлияло на производительность труда. Рискованность такого вывода была продемонстрирована экспериментами в Хоуторне.

Квазиэкспериментальный план наблюдения одной и той же группы респондентов на протяжении длительного времени получил в социологических исследованиях наименование панели. Впервые панель была использована П. Лазарсфельдом, Б. Берельсоном и X. Годе для изучения установок избирателей на президентских выборах. В 1940 г. в небольшом американском городке Эри Коунти (штат Огайо) исследователи сформировали панель из 600 человек и опрашивали их ежемесячно с мая по ноябрь, чтобы установить изменение электоральных предпочтений. Кроме панели, интервьюировались три рандомизированных контрольных группы по 600 человек каждая8. В отличие от панели, которая опрашивалась ежемесячно, контрольные группы опрашивались по одному или по два раза9. Реактивный эффект панели контролировался в соответствии со схемой контрольных опросов (табл. 6.2).

Таблица 6.2

Схема интервьюирования контрольных групп в исследовании П. Лазарсфельда, Б. Берельсона и X. Годе,Эри Коунти, 1940 г.

Последовательность интервью Контрольные группы А ВС Экспериментальная группа
Первое — май + + + +
Второе — июнь   +
Третье — июль + +
Четвертое — август + +
Пятое — сентябрь   +
Шестое — октябрь + +
Седьмое — ноябрь    

Изначально предполагалось, что панель создаст повышенную заинтересованность респондентов в интервью, в том числе будет способствовать повышению информированности и форсирует выбор позиции относительно предстоящего голосования в условиях возможной неопределенности. Эти гипотезы были тщательно проверены. Результаты опроса показали, что реактивный эффект панели практически не влияет на динамику предпочтений (табл. 6.3).

Таблица 6.3

Реактивный эффект панельного интервьюирования в исследовании П. Лазарсфельда, Б. Берельсона и X. Годе, Эри Коунти, 1940 г., %

Динамики интереса к выборам Четвертая серия интервью Шестая серия интервью
Панель 4 Контрольная группа В Панель 6 Контрольная группа С
Повысился
Остался на том же уровне
Понизился
Всего

Две первые колонки показывают, что значения контрольной группы В и панели полностью совпадают, хотя в панели проведено уже четвертое интервью. Когда панель интервьюировалась шестой раз, а контрольная группа С — второй, общий уровень интереса повысился, причем в панели повышение более заметно, чем в контрольной группе. Таким образом, существенного влияния повторного интервьюирования на динамику ответов не установлено.

Многократно повторяющиеся опросы одних и тех же респондентов проводились П. Лазарсфельдом, Б. Берельсоном и У. Макфи в 1948 г. В этот раз панель велась в городке Эльмира неподалеку от границы, отделяющей штаты Нью-Йорк и Пенсильвания. Панель включала уже тысячу человек, а опросы проводились с июня по ноябрь 1948 г.10.

При работе с панелью особую трудность представляет сохранение состава группы. Как правило, панель комплектуется из респондентов, проявивших заинтересованность в опросе. Это само по себе несет угрозу внутренней и внешней валидности, а с течением времени у многих респондентов первоначальный энтузиазм сменяется разочарованием. Отсев панели распределяется не равновероятно. Более высокие шансы на продолжение сотрудничества имеют те, кто хочет участвовать в массовом опросе. Что касается естественного отсева, обусловленного переменой места жительства, то и здесь содержится угроза валидности вывода. Данный фактор риска затрагивает преимущественно респондентов молодого возраста. Наконец, само панельное обследование обладает некоторым реактивным эффектом.

Результаты Лазарсфельда и соавторов не следует распространять на широкий круг переменных. Ясно, что респонденты, знающие, что находятся под наблюдением, могут значительно отличаться от «нормальных» людей. В «острых» вопросах, затрагивающих, например, криминогенные обстоятельства, панель обретает мощный «воспитательный» потенциал. Статистические органы России и других стран постоянно ведут наблюдения за бюджетом одних и тех же семей с целью учета динамики благосостояния. Даже если в этих семьях и не опасаются сообщать о своих доходах, сам факт тщательной регистрации доходов и расходов отличает бюджетную панель от генеральной совокупности. Внешняя валидность данных становится сомнительной. Да и в обычных случаях панель создает повышенный риск. Скажем, респонденты могут демонстрировать устойчивые оценки и мнения, хотя на самом деле они думают совсем иначе — кому хочется показаться неверным своему слову? Все эти аргументы не означают методической слабости панельных опросов. Данные панелей оцениваются исключительно высоко.

В отличие от панели в трендовом квазиэкспериментальном плане формируются эквивалентные выборки, имеющие различающийся состав респондентов. Единственное требование к ним — репрезентативность относительно одной и той же генеральной совокупности. Трендовые обследования часто проводятся статистическими органами и службами общественного мнения. Если влияние экспериментальной переменной не контролируется, задача сводится к совокупности последовательных опросов по плану «исследования случая». Но если требуется проверить гипотезу о взаимосвязи, необходимо учитывать почти все факторы риска, за исключением отсева группы.

Трендовые наблюдения относятся к типу «естественных экспериментов», и независимая переменная выбирается в качестве критерия выделения подмассивов. Например, можно выделить людей с высшим образованием и показать, что процент разводов в этой группе на протяжении длительного времени остается более высоким, чем в группе лиц со средним образованием. Однако связь этих переменных не контролируется и, следовательно, сомнительна с точки зрения внутренней валидности. С другой стороны, соотношение между образованием и вероятностью развода обладает высокой внешней валидностью.

Вообще социологические исследования оставляют желать лучшего с точки зрения внутренней валидности, зато их результаты могут быть распространены на обширный класс событий. Правда, остается неясным, стоит ли обобщать столь сомнительные зависимости, которые устанавливаются в квазиэкспериментальных планах. «Чистые» лабораторные эксперименты характеризуются высокой внутренней валидностью, а их внешняя валидность не поддается оцениванию. В равной степени сомнительны выводы, высокая валидность которых ограничена трудновоспроизводимыми лабораторными условиями. В таких случаях вступает в дело атеоретичный критерий оригинальности и правдоподобия вывода.

В середине 1950-х гг. Соломон Аш изучал условия, при которых индивид принимает либо отвергает групповое давление, когда оно противоречит фактам11. Группа из шести-девяти человек (мужчины, студенты колледжа, 17 — 25 лет) получала задание на проверку визуального распознавания длины нарисованных на карточках отрезков. Такова была «легенда» эксперимента. Предъявлялась карточка с изображением отрезка прямой линии — стандарт, который надо было сравнить с тремя другими отрезками разной длины. Один из них был равен стандарту, два другие — отличались. Производилось 18 проб, в которых испытуемые открыто высказывали оценки длины отрезков. Говорили по очереди. Один из них — объект реального экспериментирования — всегда отвечал последним или предпоследним и испытывал давление групповой оценки — изначально ложной. Таким образом, создавалась ситуация конфликта между группой и индивидом. В итоге было установлено, что групповая заведомо ложная позиция снижает число правильных ответов до 50 — 70% (рис. 6.1).

Трудно представить, чтобы в «реальном мире» происходил конфликт по поводу длины нарисованных на бумаге отрезков. Однако в данном случае действует умозаключение по аналогии: если в очевидных случаях каждый третий принимает заведомо ложную групповую позицию, то какова мера конформизма в идеологии, морали, правосудии и других неочевидных, но значимых вопросах?

План с эквивалентными выборками заключается в изучении прецедентов, когда применяется экспериментальная переменная, и сравне

Рис. 6.1. Количество правильных оценок в условиях группового давления значительно ниже, чем в контрольной группе, эксперимент Соломона Аша

нии их с ситуациями, когда она не применяется. Например, В. Керр изучал таким образом влияние музыки на производительность труда: он сравнил 56 «музыкальных» рабочих дней с 51 днем «немузыкальным». Факторы риска, снижающие внутреннюю валидность, особенно реактивный эффект, присущи этому квазиэкспериментальному плану в полной мере. Вполне возможно, что в «музыкальные» дни работники старались проявить себя с лучшей стороны.

Экспериментирование на одном объекте с предварительным и итоговым замерами. План данного эксперимента заключается в осуществлении замера до применения экспериментальной переменной х и после этого. Полученное различие, как предполагается, — следствие х.

Часто такой вывод воспринимается как вполне правдоподобный, если известно, что за время между предварительным и итоговым замерами ничего существенного не произошло. В данном случае речь идет о влиянии на внутреннюю валидность факторов исторического фона, естественного развития («матурации») и особенно эффекта тестирования. Исследования показывают, что при тестировании интеллекта и контрольных проверках знаний результаты итогового замера выше, чем результаты предварительного. При исследовании предрассудков предъявление суждений, выражающих враждебность, изменяет установки испытуемых в сторону большей враждебности.

Значительные искажения в эксперимент такого типа вносит реактивность респондентов. Результат наблюдения часто возникает под влиянием самого исследования. Журналисты хорошо знают, что интервью с записью на диктофон значительно отличается от нормального разговора. Появление интервьюера с бланком опроса на сельской улице приводит население в состояние тревоги. Рецепт здесь прост: наблюдение должно иметь по возможности характер пассивной регистрации.

Сравнение нерандомизированных, экспериментальной и контрольной групп. В соответствии со схемой Милля предполагается, что при прочих равных условиях группа, испытавшая воздействие переменной х, обнаружит определенный признак О1, а группа, не испытавшая такого воздействия, обнаружит признак О2. Отсюда следует, что х есть причина O1. Схему можно записать следующим образом:

х O1
  О2

Данный квазиэкспериментальный план представлен, например, в сравнении обществ, имеющих рыночную экономику, с обществами централизованного планирования. Первые обладают более высоким благосостоянием, которое рассматривается как следствие рыночной конкуренции. На самом деле различия в благосостоянии обществ могут быть объяснены и без экспериментальной переменной. Слабость рассматриваемой схемы заключается в отсутствии контроля за идентичностью групп.

Экспериментальный план с предварительным и итоговым замерами и контрольной группой. Сравнение результатов наблюдения за объектами до и после эксперимента становится контролируемым при условии выравнивания или рандомизации групп (R).

R O1 X О2
R О3   О4

Из всех факторов риска здесь наибольшее значение имеют исторический фон, естественная внутригрупповая история объекта и отсев испытуемых (если эксперимент достаточно длительный). Многие тщательно разработанные эксперименты подобного рода плохо воспроизводятся. Это наводит на мысль, что в их «истории» имели место какие-то специфические события, повлиявшие на различия между предварительным и итоговым замерами. Рекомендуется рандомизировать отдельные сеансы эксперимента с учетом личности экспериментатора, времени суток, дня недели, начала и конца семестра и т. п.12. Что касается отсева, то этому фактору риска больше подвержена контрольная группа, с которой не ведется экспериментальная работа, например, учащиеся не посещают уроки совместного чтения. В таких случаях для лабораторных экспериментов рекомендуется плацебо-эффект, хотя признается, что он дает результаты не хуже, чем настоящее экспериментальное воздействие.

Эксперимент Р. Соломона для четырех групп. Модификация эксперимента с предварительным и итоговым замерами и контрольной группой была осуществлена путем формирования четырех рандомизированных групп.

R O1 X О2
R О3   О4
R   X О5
R     Об

В первой группе производится предварительный замер, затем вводится экспериментальная переменная, после чего осуществляется итоговое наблюдение. Во второй группе делается то же самое, но без экспериментального фактора. В третьей группе предварительного наблюдения вообще не производится, а сразу за экспериментальным фактором следует итоговое наблюдение. Четвертая группа на протяжении всего эксперимента остается неприкосновенной, за исключением проведения итогового наблюдения. Таким образом возможности контроля внутренней валидности значительно расширяются.

Причинная связь высоковероятна при условиях, что итоговое наблюдение будет существенно отличаться от предварительного после применения экспериментальной переменной (первая группа); что итоговое наблюдение после применения экспериментальной переменной с предварительным наблюдением будет существенно отличаться от итогового наблюдения без применения экспериментальной переменной (вторая группа); что итоговое наблюдение после применения экспериментальной переменной без предварительного наблюдения (третья группа) будет существенно отличаться от итогового наблюдения в «неприкосновенной» четвертой группе; что итоговое наблюдение после применения экспериментальной переменной без предварительного наблюдения (пятая группа) будет существенно отличаться от предварительного наблюдения в третьей группе.

Имеются и иные возможности контроля. Сравнение предварительных замеров в первой и второй группах должно показать их идентичность, иначе не обеспечивается условие рандомизации. Различие между итоговым замером в первой группе, где производился предварительный замер, и итоговым замером в третьей группе, где итогового замера не было, свидетельствует о реактивном эффекте, угрожающем внутренней валидности.

Во второй и четвертой группах одинаково отсутствует экспериментальное воздействие, в то время как во второй группе производилось предварительное наблюдение, а в четвертой нет. Поэтому различие между итоговыми наблюдениями также может означать реактивный эффект, т. е. воздействие на итоговый замер замера предварительного.

Экспериментальный план с контрольной группой без предварительного замера. Если распределение экспериментальной и контрольной групп проведено без предварительного замера и группы хорошо рандомизированы, достаточно итогового замера, чтобы уверенно судить о влиянии независимой переменной на зависимую.

R X O1
R   О2

Схема данного плана напоминает сравнение нерандомизированных групп, однако обеспечивает значительно большие возможности контроля внутренней валидности. В отличие от плана Соломона она применяется в тех случаях, когда предварительное тестирование невозможно или нежелательно по причине реактивного эффекта. Предположим, в исследовании проверяется влияние расистских идей, пропагандируемых органами массовой информации, на националистические предрассудки. Отобраны две группы реципиентов. Одной продемонстрирована расистская радиопередача, а другой — нет. Затем проводится тестирование, и различия в величине индекса будут свидетельствовать о влиянии передачи на установки испытуемых. Предварительное тестирование изменило бы установки тех, кто не слушал расистскую радиопередачу.

Перекрестный квазиэкспериментальный план предусматривает применение экспериментальных воздействий одновременно ко всем группам испытуемых в случайном или квазислучайном порядке.

Группа Экспериментальная серия  
 
 
А х1О х2О х3О х4О  
В х2О х4О Х1О х3О  
С х3О х1О х4О х2О  
D х4О х3О х2О х1О  

Результаты экспериментальных серий по каждой группе суммируются и сравниваются друг с другом. Можно также сопоставлять суммарные измерения по каждой серии отдельно. Подобная схема избавлена от существенных нарушений внутренней валидности, связанных с влиянием группы и порядком применения экспериментальной переменной. Чем больше групп, тем выше надежность измерений. Обычно такого рода квазиэкспериментальные планы применяются в случаях, когда осуществляется работа с естественными нерандомизированными группами (например, воинскими подразделениями, студенческими группами, бригадами).

В социологических исследованиях используется экспериментальный план с предварительным и итоговым замерами13. Рандомизация здесь осуществляется ориентировочно, путем выделения эквивалентных групп.

R О (х)
R   хО

Одна группа проходит предварительный замер, другая — итоговый. Различия между результатами могут быть невалидными вследствие влияния фоновых признаков. Обычно этот недостаток компенсируется повторением эксперимента. Более серьезную опасность представляет влияние инструмента, в частности «эффект интервьюера». Использовать в массовых опросах эквивалентные случайные выборки вряд ли возможно, хотя это решило бы проблему влияния интервьюера. В длительных экспериментальных наблюдениях состав респондентов обычно меняется. Поскольку исследования такого рода проводятся на больших «естественных» массивах, их внешняя валидность выше, чем в «чистых» лабораторных экспериментах.

Квазиэкспериментальный план с временной серией и контрольной группой пригоден при интерпретации реформ как экспериментальной переменной.

Если в учреждении или сообществе проводятся реформы, то в качестве контрольной группы надо найти аналогичные учреждение или сообщество. Разумеется, такая возможность случается очень редко. Экспериментаторы предпочитают иметь дело со школьными и студенческими группами. Внутренняя валидность эксперимента обеспечивается временными рядами, а внешняя — репрезентативностью обследованных «гнезд».