Качественные параметры измерения

Релевантность переменных и понятие квазипогрешности согласования. Надежность как вероятность отклонения эмпирического значения от истинного. Три техники косвенного оценивания надежности: тест-ретест, параллельные измерения, деление шкалы. Понятие правильности измерения как вероятность систематической инструментальной погрешности. Точность измерения и градуировка переменных. Устойчивость — воспроизводимость результатов при неоднократных замерах. Валидность. Предикативная валидность. «Метод известной группы» и контроль валидности. Конструктная валидность — соотнесение измерений со структурой теории.

Переменные представляют собой различного вида «линейки», которые «прикладываются» к объектам. В этих линейках — различное число градаций, расстояния между градациями могут быть равными, неравными и вообще неизвестными. Кроме того, сами «линейки» могут претерпевать изменения под влиянием внешних обстоятельств. Коротко говоря, средства измерения могут быть хорошими и плохими. Все это создает в совокупности проблему качества социологического инструментария. Инструмент должен отвечать требованиям релевантности, валидности, надежности, точности и устойчивости.

Релевантность — это обоснование применимости измерителя к измеряемому признаку. Проблема релевантности связана с тем обстоятельством, что «наблюдаемая реальность», если таковая вообще существует, представляет или скрывает некую «подлинную» реальность, соответствующую своему понятию. Ошибки релевантности возникают до процедуры измерения, и, даже если инструмент обладает высокой степенью совершенства, он может быть нерелевантен для определенного признака. Иногда ошибки релевантности называют ошибками обоснованности (В.А. Ядов), или квазипогрешностями согласования (Б.З. Докторов). «Измерительная процедура приводит к истинному определению величины, если она правильна, точна и построена на определению величины, если она правильна, точна и построена на основе модели, адекватно отражающей феномен, — пишет Б.З. Докторов. — Только правильность и точность не гарантируют истинности. Точная и правильная в указанном смысле стрельба на практике может оказаться лишь отличной стрельбой по неверно найденной мишени»4. Например, продолжительность просмотра телепередач можно фиксировать со слов респондента, однако в данном случае измеритель может содержать значительную ошибку релевантности. Более релевантны в данном случае небольшие технические устройства, вмонтированные в телеприемники и регистрирующие время их работы на различных каналах. Такой метод используется, в частности, Институтом демоскопии в Алленсбахе (Германия).

Когда инструмент создан, возникает вопрос о возможном отклонении результата измерения от истинного значения. Надежность — это вероятность отклонения приписываемого объекту значения от истинной его характеристики. Надежность является интегральной характеристикой инструмента, включающей правильность, точность и устойчивость и валидность.

Как оценивается уровень надежности? Ведь вариация истинных и ошибочных замеров на самом деле неизвестна. Для решения этой задачи используются три техники косвенного оценивания: «тестретест», параллельные измерения и деление шкалы.

«Тест-ретест» показывает вероятность возникновения различных результатов при двух замерах одного и того же объекта одинаковым инструментом, но не дает никаких сведений об источнике ошибки. В частности, при повторном интервьюировании очень велика вероятность влияния первого замера на второй и последующие. Нормы морали предписывают держать свое слово, и те, у кого семь пятниц на неделе, не одобряются. Поэтому респондент склонен давать сходный ответ, если он запомнил его при первом опросе. В итоге оценка надежности инструмента будет явно завышена. На самом деле социологические признаки (особенно мнения и оценки) меняются. Если изменения будут зафиксированы, «тест-ретест» в данном случае покажет заниженную надежность.

Параллельные измерения избавлены от погрешностей, присущих «тест-ретесту». Измерительный инструмент применяется в двух формах одновременно. Например, для измерения установки можно использовать два разных тест-вопросника. Если полученные два ряда коррелируют, инструмент принимается. В данном случае остается неясным, какая форма основная, а какая параллельная. Выбор обычно осуществляется на основе произвольных критериев. Кроме того, разработка параллельных инструментов — дело довольно трудоемкое и, как правило, не оправдывает себя.

Деление шкалы заключается в интерпретации двух частей континуума и более как отдельных шкал. Предположим, измерительным инструментом является совокупность вопросов. Она делится на две группы, например, на вопросы с четной и нечетной нумерацией. По каждой группе подсчитываются средние значения переменной. Затем вычисляется коэффициент корреляции — мера надежности шкалы.

Отклонение результата измерения от истинного значения признака может быть обусловлено систематической ошибкой. В данном случае речь идет о правильности. Инструмент создает систематическую ошибку, например, в тех случаях, когда шкалы несбалансированы, респонденты неверно понимают вопросы, сказывается влияние интервьюера и т. п. Смещения шкалы, как правило, возникают при ранжировании объектов по списку. Позиции, стоящие в начале списка, обычно отмечаются чаще, чем последние. Такой инструмент является неправильным. Правильным будет предъявлять респондентам карточки с наименованием объектов оценивания, не забывая их перемешивать.

Точность измерения — это количество градаций переменной, которое может быть изменено в зависимости от задач исследования. Возраст принято исчислять годами, но для младших дошкольников разница в несколько месяцев не менее важна, чем разница в несколько лет для взрослых. Расстояние от дома до работы может быть подсчитано с точностью до ста метров, однако такая точность вряд ли понадобится. Чем больше градаций, тем более точные данные получает исследователь. При этом вероятность отклонения результатов от истинных значений признака возрастает — надежность снижается. Если укрупнить шкалу, надежность, конечно, повысится. Например, разделив возрастную шкалу на три класса—до 30 лет, 31 —60, старше 60 лет — мы будем ожидать отклонений лишь в пограничных зонах: 29 лет — 31 г., 59 лет — 61 г. Зато в один интервал попадут восемнадцатилетние и двадцатидевятилетние, которые значительно отличаются по возрасту.

Количество делений шкалы — результат разумного компромисса между стремлением к точности и требованиями надежности. Более точный инструмент, как правило, больше подвержен всякого рода неприятностям. Но надежность грубого инструмента не компенсирует грубости результатов. Как правило, при многократном повторении замеров и при отсутствии систематической ошибки их средняя приближается к истинному значению признака.

Устойчивость — это воспроизводимость результатов при многократных замерах. Дело в том, что меняться может не только характеристика объекта, но и сам измерительный инструмент. Он может быть точным и правильным, но неустойчивым. В отличие от правильности устойчивость нарушается по причине случайных ошибок. Устойчивость обратно пропорциональна точности. Чем чувствительнее инструмент, тем больше вариация получаемых данных. В технике устойчивость измерительного прибора в большинстве случаев можно уверенно контролировать. В социологии же, особенно при измерении установок, вторичный замер соотносится уже не со «старым» признаком, а с тем, к которому уже было применено воздействие инструмента. Возникает ситуация, аналогичная смещению замера при использовании техники «тест-ретест». Г.И. Саганенко, детально изучавшая устойчивость измерения, называет такую ошибку «эффектом первого замера»5.

Валидность инструмента связана с отношением между измерительным инструментом и результатами измерения. Предполагается, что если инструмент валидный, то существуют определенные эмпирические отношения между результатами его применения и другими свойствами или переменными. Эти отношения лежат в основе предикативной валидности — корреляции между результатами измерения и внешними критериями. Например, можно валидизировать тест интеллектуального развития студентов с помощью системы баллов за решение задач, а затем измерить корреляцию этого признака и оценками студентов за год. Такого рода корреляции часто интерпретируются как мера валидности. Надо только быть уверенным, что измерение валидно и релевантно по отношению к концепту. Но если так, то возникает вопрос: зачем нужно использовать тестовые баллы и тому подобные сомнительные операции, когда есть надежный объективный критерий? Иногда объективные замеры получить трудно, а иногда им должны предшествовать предварительные пробы. Например, экзамены — своеобразный тест — нужно выдержать до того, как выпускник университета получит возможность продемонстрировать свою профессиональную подготовку на деле.

Наиболее распространенный критерий валидности связан с методом «известной группы». Предположим, надо оценить валидность тествопросника для измерения политического консерватизма. В качестве внешнего критерия можно избрать социально-экономический статус. Мотивы такого выбора обусловлены теоретическим выводом, что консервативные установки более представлены в среднем классе, чем в среди бедных.

Если же обнаружится, что в среднем и низшем классах примерно одинаковое количество консервативно настроенных, предикативная валидность инструмента становится сомнительной. Высокая корреляция между социально-экономическим статусом и консервативной установкой, измеренной определенным образом, не валидизирует инструмент, а только не отвергает его. Это связано с тем, что независимый критерий может не иметь никакого отношения к консерватизму.

Конструктная валидность связывает измерительный инструмент со структурой теории. Она основывается на следующем рассуждении. Во-первых, предполагается, что инструмент измеряет определенное свойство; во-вторых, это предположение интерпретируется в терминах теории; в-третьих, устанавливается круг свойств, связанных или не связанных с инструментом; в-четвертых, предполагаемые отношения подтверждаются либо не подтверждаются эмпирическими данными, Если предсказание подтверждается, то инструмент считается валидным. В случае неподтверждения допустимы три версии: 1) инструмент не измеряет предполагаемое свойство; 2) ошибочна теоретическая модель, лежащая в основе предсказания; 3) неверно измерены критерии проверки предсказания.

В 1960 г. Милтон Рокичпредложил шкалу, измеряющую уровень догматизма. Этот инструмент представляет собой систему суждений, соотносящихся с «закрытостью» мышления безотносительно к содержанию какой-либо идеологии. Рокич полагал, что идеологические ориентации связаны с личностными характеристиками, стилями мышления и поведения. В частности, он использовал метод «известной группы», предложив профессорам и преподавателям назвать своих знакомых, которые, по их мнению, обладают «открытым» либо «закрытым» мышлением. Изучая религиозные группы, Рокич установил, что студенты-католики более догматичны, чем протестанты. Аналогичная зависимость наблюдалась между догматизмом и коммунистическими убеждениями. Либералы же, как ни странно, оказались менее догматичными6. Возможная критика шкалы Рокича связана с сомнением в ее релевантности: скорее всего, мышление общительных, коммуникабельных людей считается «открытым», а общительных, коммуникабельных людей считается «открытым», а сдержанных и молчаливых — «закрытым», но эти характеристики вряд ли соответствуют идеологическим ориентациям.