1. КОНСТРУИРОВАНИЕ ЭТАЛОНА ИЗМЕРЕНИЯ — ШКАЛЫ

К оглавлению1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 
17 18 19 20 21 22 23 24 25 26 27 28 29 30 31  33 
34 35 36 37 38 39 40 41 42 43 44 45 

 

Рассмотрим некоторые общие правила первичной измерительной процедуры и способов проверки этой процедуры на надежность.2

2 Подчеркнем, что в этойтлаве мы рассматриваем основные тре­бования к простейшей первичной квалтификации отдельных свойств, сторон социальных объектов. В более полном виде измеряемые объек­ты находят отображение в достаточно сложной формализированной системе. Это предполагает измерение многих свойств и создание своего Рода моделей объектов и процессов в виде специальных качественно-количественных показателей-индексов, многомерных классификаций, типологических конструкций и т. д. (см. гл. 5, § 1 и 2).

 

Поиск эталона измерения.

 

Нахождение эталона измерения осуществляется в четыре стадии, каждая из которых — необходимая пред­посылка надежности будущей шкалы.

Первая стадия — качественная классификация объектов. Собираясь, например, измерять структуру цен­ностных ориентации или социальных установок личности, мы прежде всего должны четко классифици­ровать типы ориентации, исходя из теоретической кон­цепции и задач исследования. Можно положить в осно­ву классификации иерархию потребностей или интере­сов, сфер деятельности, социальные функции, соци­альные ситуации, которые бы различались по степени свободы выбора целей и средств деятельности и т. д.

Вторая стадия — поиск протяженности выделен­ных в качественном анализе свойств. Следует устано­вить, обладают ли эти свойства прерывной или непре­рывной протяженностью, можно ли их представить в виде различных последовательных состояний изме­ряемого качества.

Рассмотрим с этой точки зрения какую-нибудь цен­ностную ориентацию (на материальный достаток, куль­турные ценности, творчество и др.)- Ее можно "вытя­нуть" в несколько протяженностей — континуумов. Один континуум составляет: сильная—средняя—слабая ориентации; другой: устойчивая—малоустойчивая— неустойчивая; третий: господствующая—рядоположен-ная—подавленная; четвертый: центральная или перифе­рийная. В зависимости от концепции исследования можно выделить и другие протяженности.

Третья стадия — установление эмпирических ин­дикаторов или внешних признаков тех свойств объекта, которые поддаются расположению в континуум.

Индикатор — внешне хорошо различимый показа­тель измеряемого признака. С его помощью устанавли­вается наличие или отсутствие признака, его состояние.

Например, высота ртутного столбика термометра — ин­дикатор температуры.

Простейший индикатор расположения какого-то объекта среди других объектов ориентации — порядко­вое место, отмечаемое опрашиваемым в заданном спис­ке. Например, из 18 объектов он помечает объект М по­рядковым номером 1. Этот номер — индикатор доми­нирования объекта М с точки зрения интересов субъек­та. Объект N, помеченный порядковым номером 18, бу­дет располагаться в конце протяженности ("подавлен­ная ориентация на N").

Сложнее найти индикатор для протяженности по критерию "сильные", "средние", "слабые" ориентации. Один из возможных вариантов таков.

Испытуемым предлагают три ситуации, в которых они принимают решение о выборе "ценностного ориен­тира". Ситуации различаются по степени свободы выбо­ра. Допустим, измерению подлежат интересы к различ­ным видам занятий в сфере досуга. Предлагаются три одинаковых списка возможных занятий, число которых в каждом списке 18 (чтение художественной литературы, посещение гостей, просмотр телепередач и т. д.).

В первой ситуации (широкий диапазон выбора) ис­пытуемый имеет право без ограничения указать любые занятия, которые ему нравятся. Во второй ситуации (средний диапазон выбора) он оставляет в списке лишь шесть наиболее важных для него занятий, в третьем случае (узкий диапазон) — не более трех, для него осо­бенно значимых.

Индикатор "сильной" ориентации — выбор данного занятия —имел место во всех трех ситуациях; "сред­ний" — выбор в первой и второй ситуациях; "слабый" — выбор имел место только при широком диапа­зоне принятия решения.

Одно и то же свойство можно фиксировать с помо­щью нескольких индикаторов, которые сводятся в общий показатель — индекс. Это случай сложного первич­ного измерения, по технике напоминающего приемы вто­ричных измерений. Так, для определения интенсивности интереса к какому-то виду досуга можно использовать и саморанжирование занятий (первый пример), и выборы в нескольких ситуациях, и оценки занятий по десятибалль­ной системе, и другие способы.3

3 Детально эти процедуры рассматриваются Г. И. Саганенко [232; 233. Разд. 4.2].

 

Наиболее надежный ин­дикатор будет получен по совмещению нескольких спосо­бов: некоторая группа занятий помечена первыми номе­рами по ранжированному списку, она же выбрана в трех названных выше ситуациях, эти занятия были оценены 10 баллами при максимуме 10 и минимуме 1. Такой сводный числовой показатель и называют индексом.

Четвертая стадия заключается в том, чтобы уяс­нить, все ли единицы, составляющие измеряемый объект, укладываются в ранжируемый ряд, все ли они обладают свойством занимать определенное место в континууме отношений по принятым индикаторам.

Например, в одном из наших исследований индикатором отношения к труду рабочих был показатель нормы выработки (значительно перевыполняет норму — перевыполняет — вы­полняет — не выполняет норму). Однако он был неудачным, так как применим не ко всем рабочим, а только к "сдельщикам". Труд тех, кто получает повременную оплату, оценивается по другим показателям: качеству работы прежде всего. На­пример, чем меньше времени тратит ремонтник на устранение текущих неполадок, тем выше качество профилактического ремонта.

В итоге описанных выше операций устанавливается эталон, или шкала измерения.

Отношения между пунктами шкалы должны отоб­ражать отношение свойств объекта в понятиях "равно", "больше", "меньше". В нашем примере с ценностными ориентациями отношениям "сильная">"средняя">"слабая" соответствуют отношения трех пунктов построенной шкалы: (выбор сделан в трех ситуациях) > (выбор сделан в первой и второй ситуациях) > (выбор сделан только в первой ситуации). Теперь предстоит испытать шкалу на надежность.

 

Способы проверки процедуры первичного измере­ния на надежность.

 

Следует иметь в виду, что операции повышения на­дежности первичного измерения, которые мы будем здесь рассматривать, используются лишь на стадии отра­ботки инструмента измерения в процессе пилотажа. После окончательной проверки надежности построен­ных шкал и сбора данных на объектах исследования ак­цент контроля их достоверности переносится с первич­ного измерения на вторичные, т. е. комбинаторные про­цедуры, и так последовательно вплоть до обоснования достоверности итоговых выводов.

В целом же достоверность результатов исследова­ния зависит от многих составляющих, начиная с того, насколько обоснована его общая концепция и все ком­поненты теоретико-методологического раздела програм­мы, а далее — от качества исходных данных, системы их отбора, т. е. соответствия типа выборки (и ее организа­ции) целям исследования, качества анализа данных и, наконец, от глубины интерпретации полученных зависи­мостей и связей.4

4 О требованиях и операциях, необходимых для гарантии общей Достоверности данных, см. [68, 200, 233]. Если учесть все возможные ошибки, связанные с неполным соответствием теоретической модели объекта самому объекту, возможными упущениями на разных этапах исследования (например, при расчетах выборки, тиражирования поле­вых документов и т. д.), спецификой типов возможных ошибок (напри-Мер, систематические или случайные), а также некоторые другие при­чины, то, как показал Б. 3. Докторов [68], в так называемой мет­рологической карте можно обнаружить 162 (I) составляющие возмож­ных ошибок.

 

К сожалению, нет единообразия в толковании терми­на "надежность" применительно к социологической информации. Главная причина состоит в том, что одни ав­торы трактуют надежность слишком расширительно как качество всего исследования и, следовательно, его итогов, а другие, напротив, отождествляют надежность с тем или иным особым ее проявлением (например, с.ус­тойчивостью данных, их адекватностью целям исследо­вания и т. д.).

Не останавливаясь здесь на дискуссии терминологи­ческого характера, заметим, что в строгом смысле слова понятие надежности измерения правомерно относить именно к инструменту, с помощью которого произво­дится измерение, но не к самим данным, подлежащим измерению, В отношении данных, как и заключитель­ных выводов из исследования, правильнее говорить, что они достоверны (или относительно достоверны) в том числе и потому, что фиксированы надежным инстру­ментом.

Возможны различные типологии приемов оценки надежности первичной информации, например, с точки зрения внешнего или внутреннего контроля данных, по­лучаемых определенным способом. Мы будем пользо­ваться обобщающим понятием надежности инструмен­та измерения (и соответственно надежности данных, фиксируемых этим инструментом), имея в виду три со­ставляющие: (1) обоснованность, (2) устойчивость и (3) правильность измерения. Естественно, что и методы контроля на надежность нужно рассматривать в этих трех аспектах5.

5 Наиболее детально методы и техника контроля данных на на­дежность изложены в работах Г. И. Саганенко [233] и В. И. Папиотто [200]. Последний применяет аналитический подход к предмету, выде­ляя множество разновидностей надежности и технических приемов оценки ее уровня [200. С. 74—75], тогда как Саганоцко, ряд идей и примеров из книги которой мы используем, акцентирует внимание на наиболее существенных, непременных требованиях и сравнительно простых способах контроля надежности.

Обоснованность6 шкалы заключается в том, что с ее помощью целенаправленно измеряют вполне опреде­ленное свойство или признак, не смешивая его с другими.

6 В зарубежной и отечественной (особенно в психологической) литературе вместо термина "обоснованность" часто используется как его аналог понятие "валидность". Однако в английском "reliability" (обоснованность) подчеркивает возможность полагаться на кого-либо, в данном случае доверять полученной информации благодаря тому, что она адекватна объекту измерения [337. С, 132—138], a "validity" семан­тически имеет оттенок устойчивости, "прочности" полученной инфор­мации. Поэтому термин "валидность" правильнее было бы соотносить ве с обоснованностью, во с устойчивостью данных измерения.

 

Предположим, при опросе телезрителей им предла­гают указать, каким из перечисленных в прилагаемом списке передачам телевидение уделяет "слишком мно­го", "достаточно" и "слишком мало" времени. Если с по­мощью этой трехчленной шкалы исследователь наме­рен фиксировать среднее время, отводимое телепереда­чам, его измерение будет необоснованным. В действи­тельности он измеряет отношение людей к данным пе­редачам, а не объем времени, отводимого для их транс­ляции. Обоснованное измерение объема времени на пе­редачи разного типа — документальный анализ "сетки" программ телевидения.

Чтобы повысить обоснованность измерения, исполь­зуют ряд технических приемов.

(1) Наиболее простой способ — логические рассуж­дения на основе опыта и здравого смысла.

Обратимся к примеру из обследования, проведенного Б. М. Фирсовым. Задача: определить среднюю интенсивность просмотра телепередач путем массового опроса телезрителей.

Первый вариант построения шкалы был таков. Вопрос: "Сколько приблизительно часов в день Вы проводите у телеви­зора?" Шкала для ответа содержала пять интервалов: (не больше 1 часа) — (от 1 до 2 часов) — (от 2 до 3 часов) — (от 3 до 4 часов) — (свыше 4 часов).

Путем логических рассуждений были высказаны следую­щие сомнения в обоснованности такого метода. Следует указать день просмотра телепередач: будний, субботний или вос­кресный. Иначе неясно, какой из дней зритель выберет за эталон оценки. Не спасет положения и вопрос, сколько в сред­нем часов в неделю зритель проводит у телевизора, так как люди не привыкли думать в "средних" величинах.

Значит, надо поставить вопрос так, чтобы: а) выделить дни недели и б) указать понятный для зрителя эталон оценки. По­этому более удачный вариант построения шкалы для решения той же задачи следующий [274. С. 142].

Первый вопрос: "Сколько дней в неделю Вы, как правило, смотрите телевизионные передачи?":

1)         почти все дни недели;

2)         3 или 4 дня в неделю;

3)         1 или 2 дня в неделю;

4)         меньше, чем один раз в педелю, т. е. не каждую неделю;

5)         в сущности, совсем не смотрю.

Второй вопрос: "Не могли бы Вы приблизительно оце­нить, сколько в среднем часов Вы проводите у телевизора в тот день, когда смотрите передачи?" Сделайте отметку в каж­дой строке.

Дни недели

Время просмотра

 

 

не больше 1 часа

от 1 до 2 часов

от 2 до 3 часов

от 3 до 4 часов

свыше 4 часов

В будние дни

В субботу

_

В воскресенье

_

-

Теперь, пользуясь простыми арифметическими действия­ми, можно рассчитать "среднепросмотровое" время за неделю и составить шкалу.

Обозначим а число дней в неделю, уделяемых просмотру телепередач. Числовые индикаторы ответов на первый вопрос взяты как средние эмпирически полученных интервалов (в числе дней просмотра), а именно: 6; 3,5; 1,5; 0,7; 0. Обозна­чим Ъ количество часов, затраченных на просмотр телепрог­рамм в определенные дни (ответы на второй вопрос) также по средним: 4,5; 3,5; 2,5; 1,5; 1.

Обозначив будние дни как d, субботние s, воскресные w, рассчитаем среднепросмотровое время за неделю Т:

Для телезрителя, который в ответе на первый вопрос по­метил "3 или 4 раза в неделю", в ответе на второй указал "до 1 часа в будни" и "от 2 до 3 часов в субботу и воскресенье" среднепросмотровое время исчисляется по формуле:

Неадекватное понимание того, что же мы измеряем, может привести к серьезным последствиям. Поучительный пример: дискуссия в прессе относительно добросовестности служб обще­ственного мнения в опросах о рейтинге политических деятелей.

В ноябре 1997 г. два ведущих российских центра изуче­ния общественного мнения представили данные общероссийс­ких опросов. Рейтинги Президента, премьера и некоторых дру­гих ключевых фигур в правительстве по опросам центра "А" на 10—12% отличались от рейтингов по опросам службы "Б". Это вызвало публичный скандал: одна служба подыгрывает правительству, а другая — оппозиции. Что же в действитель­ности случилось? Служба "А" задавала вопрос "Одобряете ли Вы деятельность..?", а служба "Б" предлагала формулировку "Доверяете ли Вы..?". На протяжении трех месяцев все пока­затели доверия/недоверия на 10—12% уступали показателям одобрения/неодобрения, причем этот разрыв устойчиво сохра­нялся в отношении Президента и премьера, но сильно колебал­ся в отношении ряда других правительственных чиновников (т. е. граждане сформировали позицию относительно Прези­дента и премьера, но не имели четкой позиции в отношении Других, неключевых фигур в правительстве). Через две недели после этого скандала служба "Б" в общероссийском опросе предложила респондентам обе формулировки в одном интер­вью. Обнаружилось, что доверяют правительству 14-16% опро­шенных, но одобряют его деятельность в той же выборке 29%. Логика здесь такая: "Я могу не очень доверять искренности намерений правительства, но то, что оно делает, я склонен сей­час одобрить".

Заметим, однако, что логические рассуждения, наподо­бие приведенных выше, повышают обоснованность, но не являются прямым доказательством того, что мы меряем ис­комое свойство.

(2) Тест по "эталонной грynne" – более сильный прием проверки инструмента на обоснованность. Смысл проверки — в сопоставлении данных, полученных пу­тем измерения по шкале, с достоверными сведениями об объекте измерения.

Так, шкала на отношение к соблюдению норм права может быть обоснована опросом осужденных правона­рушителей (они рассматриваются как "эталон" нега­тивного полюса шкалы), в сравнении с "эталонной" группой законопослушных граждан. Дихотомизация полярных групп по шкале должна созпадать с факти­ческой поляризацией эталонных групп в пределах до­пустимой ошибки, величина которой зависит от задач исследования.

(3) Поиск независимого критерия как разновид­ность внешнего контроля надежности для измерения того же самого объекта или свойства.

Если подключить к телевизионному приемнику при­бор, регистрирующий время его работы, и сопоставить показания прибора с результатами опроса о частоте и длительности просмотра телепрограмм, можно точно ус­тановить обоснованность данных опроса.

Не имея такой возможности, Б. М. Фирсов сопоставлял сведения, полученные по шкале среднепросмотрового времени, с данными по другой шкале, названной "изменение привычек" (табл. 1) [274, С, 107]. Последняя конструировалась по отве­там на вопрос: "Придется ли Вам в случае длительного отсут­ствия телевизора менять свои привычки, способ проведения досуга, жизненный уклад?" Берем два крайних варианта от­ветов по второй шкале, отбрасывая промежуточные (в процен­тах к численности представителей каждого типа, т. е. по стро­ке). Очевидно, что шкала "увлеченности", полученная как вто­ричная группировка данных среднепросмотрового времени Т, высоко согласуется со шкалой "привычек" и, следовательно, может считаться вполне обоснованной.7

7 Пользуясь той же шкалой, автор провел повторное сравнительное исследование аналогичной выборки ленинградцев спустя 10 и 12 лет. За период с 1967 г. по 1979 г. обнаружилось, что доля "весьма умерен­ных" телезрителей упала с 32% до 6% и "весьма увлеченных" повыси­лась с 16% до 40% [157. С. 701].

Таблица 1

Обоснование шкалы увлеченности телевидением по независимому критерию.

 

Шкала "увлеченности"

по средне-просмотровому времени в неделю

 

 

Шкала "изменения привычек"

"Думаю, что придется изменить привычки"

"В моей жизни ничего не изменится" + "Вряд ли что изменится в моей жизни"

T1 — "Весьма умеренные" (до 3 ч.)

15,8

11,7+34,4-46,1

T2 — "Умеренные" (от 3 до 10 ч.)

36,1

6,0+31,3-37,3

Т3 — "Увлеченные" (от 10 до 15 ч.)

48,7

5,5+22,9=28,4

Т4 — "Весьма увлеченные" (от 15 до 17 ч.)

60,0

1,6+17,0-18,6

 

(4) Использование метода судей для отбора пунктов шкалы. Сомнения в обоснованности возникают уже на стадии первоначального отбора пунктов шкалы. В каких единицах считать время просмотра телепередач? В днях, часах, в частоте просмотров? Какие понятия выбрать для построения шкалы?

Эти вопросы лучше всего доверить решению компе­тентных судей. В нашем случае ими являются типич­ные телезрители» которые будут представлять как бы микромодель основной массы опрашиваемых. В этом смысле "судейство" как способ контроля обоснованности шкалы надо отличать от опроса экспертов — профессио­нальных специалистов в данной области.

Численность судей зависит от меры однородности или разнородности выборочной совокупности основного обследования. Так, при построении шкал на отношение к досуговым занятиям мнения мужчин и женщин об одних и тех же занятиях будут существенно разными. Рекомендуется отобрать для судейства половину судей из женщин, половину — из мужчин. Не меньшее значе­ние в данном случае будут иметь уровень образования и род занятий. Для компоновки судейской группы ис­пользуют метод квоты, т. е. устанавливают пропорции судей по набору существенных признаков, включая, на­пример, пол, возраст, образование, выражающих позиции разных групп респондентов в предполагаемой выборке.8

О квотировании выборки см. на с. 349.

 

(5) Один из широко используемых приемов внутрен­него контроля обоснованности — совмещение несколь­ких показателей для регистрации определенного одного свойства, или построение индекса. Типы индексов край­не разнообразны. Они широко используются в психоло­гических тестах, в социально-экономических иссле­дованиях. Суть индексной обоснованности в том, что, со­гласно гипотезе, данному свойству находится множество его проявлений, для каждого из которых формируют от­дельную шкалу. Затем измерения по частным шкалам либо суммируются, либо из них образуют логические конструкции, как это было сделано в показателе "логи­ческий квадрат" для построения производной шкалы удовлетворенности работой (см. с. 261).

Вполне справедливо выделяют два существенно раз­ных аспекта обоснованности: теоретический и эмпири­ческий. Первый непосредственно связан с содержатель­ными посылками исследования и предполагает установ­ление значимых связей с широким классом ситуаций, предсказываемых теорией, второй требует доказа­тельства надежной регистрации данных в сравнительно узком секторе, в частном проявлении изучаемых объек­тов. "Если валидность (синоним обоснованности. — Е.Я.) эмпирическую через измерение обеспечивают, — (включает В. И. Паниотто, — то валидность теоретичес­кую только проверяют, т. е. уточняют область валидности методики, границы интерпретации получаемых мате­риалов" [200. С. 109].

Устойчивость измерения выражается в однознач­ности информации, которую мы извлекаем с помощью данной процедуры. Нередко устойчивость ошибочно отождествляют с надежностью процедуры в целом. И хотя последняя зависит не только от устойчивости, но также от обоснованности и правильности операций, по­добное смешение не случайно: проверка инструмента на устойчивость — важнейшее условие его надежности.

1) Наиболее распространенный прием контроля на устойчивость — повторное измерение. Один и тот же объект измеряется дважды с двух-трехнедельным временным интервалом и с помощью одинаковой процедуры. Шкала считается устойчивой, если совпадения между первой и второй сериями измерений будут достаточно высокими.

В отличие от проверки на устойчивость измерения физических объектов социолог или психолог сталкива­ется здесь с особой проблемой — влиянием психологи­ческой установки человека, возникающей после первого замера. Люди могут намеренно или непроизвольно под­гонять данные второго замера к предыдущим. Или же, напротив, интуитивно сопротивляясь повторному экспе­рименту, они покажут новые результаты.

 

Таблица 2

Сравнение данных двух последовательных замеров: оценка совпадения (+) и несовпадения (—) результа­тов в дихотомической шкале

 

Пункты шкалы

Обследуемые всего, N-50 чел.

Итог по строке

А

В

В

Г

...n

(+)

(-)

% совпадений

1

+

+

-

+

+

45

5

90

2

+

-

+

+

+

44

б

88

3

-

+

-

-

-

25

25

50

4

+

+

+

-

+

42

8

84

Б

+

+

+

-

+

46

4

92

в

+

+

-

+

+

41

9

82

15

+

+

-

+

+

45

5

90

Итог по (+) колонке ( – )

141

141

96

10 5

13 2

635

115

90

 

Чтобы устранить такой дефект, используют контрольную группу (см. гл. 5, С. 357—361). Простейший же способ снять влияние установки первого замера — производить повторный замер спустя достаточное время после первого (например, две недели) и на достаточно большой выборке испытуемых (около 50 человек). Составив таблицу замеров для всех обследуемых, мы далее анализируем, какова общая устойчивость данных и от чего зависят отклонения между двумя замерами (табл. 2, пример Г. И. Саганенко).

При повторных измерениях используют различные оцен­ки устойчивости данных, одна из которых — это процент пол­ных совпадений ответов на серию вопросов в двух последова­тельных пробах методики. Соответствующая формула:

где в числителе п — количество полностью совпавших пар от­ветов, а в знаменателе Л7 — общая численность испытуемых, р — процент устойчивости.

По этой формуле, для примера, в табл. 2 получим:

 . полной устойчивости исходных данных. Однако ее можно повысить, заменив некоторые пункты, в частности пункт 3. по которому обнаружен наибольший разброс (всего лишь 50% совпадений). Основной критерий устой­чивости информации — анализ данных по отроке. Если анали­зировать эти итоги по колонкам, найдем, что некоторые субъекты (В и Г особенно) дали большой разброс, а некоторые (А и Б) — почти не дали разброса. Те пункты шкалы, в кото­рых обнаружено несовпадение даже у весьма "устойчивых" субъектов, должны быть переформулированы.

 

Таблица 3

Сравнение данных двух последовательных замеров в трехчленной шкале (N=28 чел.)

 

Ответы в I пробе о занятиях на досуге

Ответы в 11 пробе

Всего

 

 

"Привл." (1)

"Не очень"(2)

"Не привл." (3)

 

 

"Данное занятие привлекательно" (1) "Не очень привлекательно" (2)

"Занятие непривлекательно" (3)

7

 

4

 

-

3

 

6

 

3

-

 

1

 

4

10

 

11

 

7

Всего

11

12

5

28

 

Другим весьма полезным показателем полной устойчи­вости является мера сдвига, оцененная как среднеарифмети­ческая ошибка различения градаций шкалы. Этот показатель обозначает, какую долю градации данной шкалы (в среднем) все испытуемые как бы не улавливают, т. е. каковы истинные границы различения градаций.

Например, уточним среднеарифметическую ошибку в раз­личении трехчленной школы согласия — несогласия с каким-то суждением (пусть это будет суждение о привлекательности некоторого занятия на досуге). Приведем схему (табл. 3) и расчеты, используя данные таблицы Г. И. Саганенко.

В испытании участвуют 28 человек, из которых 17 полно­стью повторяют свои оценки данного занятия в обеих пробах (сумма по диагонали схемы: 7+6+4 = 17), а остальные 11 ис­пытуемых дают разные ответы в двух пробах. Для оценки ис­комой ошибки вычисляем отличия ответов респондентов как сдвиги между II и I пробами, например, во II пробе из тех, кто в I пробе ответил "занятие привлекательно", 3 человека сообщи­ли, что оно "не очень привлекательно", т. в. это разность (2—1) 3. Теперь суммируем все разности в ответах и получим меру среднеарифметической ошибки различения пунктов градации данной шкалы:

Значит, среднеарифметический "сдвиг" в оценке по трех­членной шкале составляет около 40% одного ее деления, т. е. менее половины деления, что в общем можно признать удов­летворительным, хотя и не идеальным. (Ниже, говоря о пра­вильности измерения, мы покажем, как можно было бы умень­шить эту ошибку.)

Рассматривая устойчивость как воспроизводимость ре­зультатов измерений, можно использовать и иные показатели ее меры [200. С. 33—34], например, обычные расчеты корреля­ции итогов двух последовательных измерений. Показатели, ре­комендуемые Г. И. Саганенко, представляются нам вполне адекватными и наглядными.

Какая же мера устойчивости удовлетворительна? Это Зависит от существа измеряемого свойства, его значимо­сти для целей и задач исследования. В принципе для немногочленной шкалы среднеарифметическая ошибка различения градаций в 40% ее деления невысока, а соответствующая мера устойчивости (100%—40% =60%) вполне достаточна, ибо не перекрываются границы меж-ДУ двумя соседними интервалами шкалы. Если неустой­чивость составила не 40%, а 60%, т. е. более половины деления шкалы, то ошибка была бы явно недопустима, ибо в среднем испытуемые не различают две соседние Градации из трех.

Для многочленных шкал, например из 10 градаций, ошибка в 60% одного деления не слишком велика, так как перекрываются два деления из 10, т. е. не 2/3, а 0,2 общей "длины" шкалы. Бели при обработке данных градации укрупнить, объединяя две соседние, то ошибка минимизируется до вполне уверенного уровня ус­тойчивости.

Помимо показателей полной устойчивости шкалы, возможны также показатели ее относительной устойчи­вости. Они полезны при сравнении разных шкал, напри­мер для выбора из нескольких вариантов наиболее пра­вильной и точной шкалы (о чем говорится ниже в этом же разделе) или для того, чтобы сопоставить уров­ни устойчивости измерения разных свойств, каждое из которых фиксируется шкалами разного типа и разной степени дробности.

Но прежде всего показатели следует соотносить с уровнем реальной стабильности — изменчивости изу­чаемого объекта, измеряемых свойств.

2) Использование нескольких лиц для измерения данного свойства. Случается, что шкала неустойчива по­тому, что ее пункты произвольно интерпретируются са­мими исследователями. В особенности это характерно для шкал качественной классификации объектов. В та­ких (номинальных) шкалах группы объектов классифицируют с помощью описания всех качествен­ных признаков, по которым каждый объект относится к определенному пункту шкалы — классу.

Предположим, что выделено несколько признаков (с соответствующими индикаторами) для отнесения политической деятельности в высшую категорию по уровню активности. Чтобы выполнить эту операцию однозначно, нужно убедиться, что признаки ясно раз­личимы и при соотнесении видов деятельности с пунктами шкалы не возникает путаницы. Скажем, та­кими признаками были: членство или заявленная принадлежность к какой-либо партии, движению, из­бирательному блоку, регулярность участия в его ак­циях (собраниях и публичных выступлениях, участие в голосовании на выборах и т. д.).

В этом случае объект идентифицируют одновре­менно несколько (минимум трое) лаборантов, использующих единую процедуру. Если данные, полученные разными лаборантами (в нашем примере они работа­ли с текстами интервью), высоко согласуются, шкала устойчивая, если нет — неустойчивая, и мы начинаем искать другую, более приемлемую размерную величи­ну. Причина неустойчивости шкалы — плохой отбор индикаторов.

3) Наконец, третий прием контроля эталона измере­ния на устойчивость — "расщепление шкалы". Шкала раздваивается на две половины. Если окажется, что из­мерения по каждой из них совпадают, их можно рассматривать как равноценные шкалы, суммировать дан­ные и впредь пользоваться одновременно обеими поло­винами, образующими теперь единую и более надежную шкалу, чем каждая из ее составляющих.

Покажем технику "расщепления" не примере. Возьмем объектом измерения уровень удовлетворенности рабочего своей специальностью. Данные получаем путем анкетного опроса.

Проектируем две шкалы, пункты которых будут отвечать одному из пяти уровней удовлетворенности специальностью (схема 5). Каждому уровню соответствуют два суждения. Не­четные пункты образуют одну, а четные — другую половину испытываемой шкалы.

Далее производим следующие операции: (а) все 10 пунк­тов четной и нечетной половин перетасовываются в произ­вольном порядке; б) опрашиваемым предъявляют набор из 10 суждений с просьбой указать свое согласие или несогласие по каждому из них; (в) после опроса достаточной группы лиц (около 50 человек) из числа обследуемой совокупности дан­ные группируются по двум шкалам раздельно: по нечетной половине — (a1), (b1), (с1), (d1), (e1) и по четной шкале — (a2), (b2), (с2), (d2), (е2).

Основная операция — (г) сопоставление итогов измерения по двум половинам испытываемой шкалы. Если корреляция между ними будет достаточно высока, эти половины можно рассматривать как части единого инструмента, измеряющего общий континуум свойств, В случае необходимости "выпада­ющие" суждения следует переформулировать, чтобы получить приемлемую корреляцию.

В таком случае итоговую шкалу образуют все 10 сужде­ний, которые в случайном порядке предъявляются общим списком. В итоговый показатель для данного лица суммиру­ются все баллы суждений, с которыми он выразил согласие.

Обозначив ранжированные пункты баллами от 5 (для al и аа — высшая оценка) до 1 (в, и е3 — низшая оценка), предпо­ложим, что некий субъект выразил согласие с пунктами а1+&2, отвергнув все остальные. Его суммарный балл по шкале равен 5+4=9.

Точность и правильность измерения зависят от (а) степени устойчивости измеряемого объекта или свойства, (б) чувствительности эталона измерения (дробности пунктов шкалы), (в) отсутствия систематических ошибок измерения и, конечно, (г) от устой­чивости измерения.

Социальные объекты, подлежащие измерению, обла­дают различной степенью устойчивости. Скажем, уста­новление состояния удовлетворенности какой-то дея­тельностью будет заведомо менее точным, чем регистра­ция частоты поведенческих актов. В первом случае сам объект измерения нестабилен. В дурном настроении че­ловек может выражать недовольство рекламой на теле­видении, а в хорошем расположении духа он будет уве­рять, что рекламные ролики бывают очень забавными и даже поучительными. Но вряд ли его настроение отра­зится на информации о том, как часто он выключает те­левизор при трансляции рекламы или переключается на другую программу.

Дробность метрики — чувствительность шкалы — прямо связана с точностью измерения. Шкала в 10 де­лений измеряет точнее, чем в 5 или 3 деления. Но дроб­ность пунктов шкалы нельзя увеличивать беспредельно. Надо установить оптимум, удовлетворяющий двум тре­бованиям: максимум градаций шкалы при условии вы­сокой устойчивости результатов измерения. Постепенно повышая дробность эталона измерения и параллельно проверяя шкалу на устойчивость, мы найдем границу, за пределами которой дальнейшее повышение дробнос­ти влечет понижение устойчивости. Это и есть оптимум чувствительности шкалы с учетом меры устойчивости измеряемого свойства. Таким образом, достижение устойчивых данных при максимальной дробности мет­рики повышает точность измерения. Оно будет удов­летворительно точным, если абсолютная ошибка измере­ния не превышает 0,5 деления шкалы. Вместе с тем, если ошибка вообще отсутствует | X j =0, то не ис­ключено, что шкала обладает заниженной чувствитель­ностью (особенно в случаях, когда мы предполагаем достаточную вариабельность измеряемого свойства).

Но измерение может быть вполне точным и вместе с тем... неправильным, постоянно воспроизводя какую-то систематическую ошибку, как это случается с испорчен­ным термометром, в котором ртутный столбик изначаль­но был фиксирован на неверной исходной отметке и по­стоянно завышает температуру, скажем, на 0,8 градуса.

При квантификгГции социальных характеристик проблема правильности, т. е. отсутствия уклонений от истинного значения измеряемого свойства, намного сложнее, ибо часто мы в принципе не способны устано­вить, каковы же эти истинные значения измеряемых свойств (скажем, мнений людей по каким-то вопросам). Мы можем лишь, сопоставляя разные способы фиксиро­вания данного свойства, добиваться устранения замечен­ных систематических ошибок. Каковы же эти система­тические ошибки?

Одна из возможных — отсутствие "разброса" инфор­мации по шкале вследствие того, что какие-то ее пункты "не работают", т. е. не реагируют на определенное состо­яние измеряемого свойства. Например, при опросе все ответы концентрируются в позитивном или только в не­гативном полюсе шкалы. Конечно, это может быть и ре­зультатом единодушия оценок, но может быть и резуль­татом того, что сама шкала неудачна, например, содержит какой-то пункт, сформулированный с сильным нормативным давлением на опрашиваемых. Допустим, задан вопрос об употреблении алкоголя, и крайне нега­тивный вариант ответа гласит: "Я пью систематически и обычно до бесчувственного состояния". Сомнительно, чтобы даже заведомый алкоголик отметит такой пункт как показатель своего отношения к спиртному. Скорее всего, он выберет суждение не столь резкое, например: "Я выпиваю довольно часто". Крайне отрицательный пункт шкалы здесь "не работает*': он отпугивает. Вслед­ствие этого шкала неправильна.

Другой причиной неправильности может быть пло­хая различительная способность соседних пунктов шкалы высокой дробности. Попробуйте, например, упорядо­чить свое отношение к 24 политикам так, чтобы уве­ренно указать не только приемлемого и решительно от­вергаемого, но всех оставшихся из предложенного переч­ня расположить так же аккуратно и уверенно в порядке убывания их привлекательности. Психологически это просто невозможно, так что "срединная" часть этой так называемой ранговой шкалы будет крайне сомнитель­ной, а вся шкала веточной и неправильной. Системати­ческая ошибка, скорее всего, скажется на том, что прием­лемые политические деятели будут отмечаться как бо­лее привлекательные (хотя не исключено, что фак­тически данные лица ими не интересуются), а социально неприемлемые будут попадать в нижние уровни ранжи­рованного ряда.9

9 В данном случае для повышения надежности измерения исполь­зуются операции, описываемые иа с. 103—104.

 

Во всех подобных случаях опытная проверка шка­лы на устойчивость данных обнаружит ошибки. Но час­то это показывает уже первая проба.

Правильность и точность измерения можно повы­сить путем расчета относительной ошибки измерения.10

10 Подробнее ем. [231. С. 63—66].

 

Относительная ошибка позволяет сопоставлять пра­вильность замеров по двум и более шкалам разной чувствительности и таким путем отработать оптималь­ный инструмент. Напомним, что, в отличие от абсолют­ной, относительная ошибка исчисляется не в долях по­грешности деления шкалы, а в соизмеримом, определен­ным образом нормированном показателе.

 

Приведен пример расчета относительной ошибки измере­ния. Предположим, что в семичленной шкале оценок фикси­руется намерение женщин иметь детей. В обследовании уча­ствуют 100 молодых замужних женщин, которые дали сле­дующие ответы на вопрос: "В какой мере Вы согласны с тем, что было бы желательно иметь ребенка?"

 

Полюса шкалы интерпретируются, а промежуточные пункты не имеют словесной интерпретации.

При некотором навыке и достаточном исследовательс­ком опыте мы часто интуитивно угадываем, какова должна быть дробность метрики, обеспечивающая устойчивую ин­формацию. Но, приступая к измерению сложных объектов, с которыми ранее не приходилось сталкиваться, социолог должен проделать ряд экспериментов, отрабатывая шкалу на точность и правильность.

Оценки 3, 2 и 1 (крайне негативное отношение к сужде­нию) встречаются очень редко, и эту часть шкалы можно при­знать плохо работающей: в сумме здесь сосредоточено менее 5% всех ответов. Большинство женщин либо явно хотели иметь детей, либо не очень в этом уверены, и почти нет таких, кто отвергает идею иметь ребенка. Значит, в нашей шкале ра­ботают градации 7, 6, 5 и 4, где 4 фактически наиболее негатив­ная установка. Диапазон работающей части шкалы: 7-4=3. Относительная ошибка данной шкалы определяется предло­женной Г. И. Саганенко формулой:

где w — оценка полной устойчивосвости шкалы, л зон реально работающей ее части.

Проверив шкалу на устойчивость, как было описано выше, мы, предположим, получили значение ц)=0,75, т.е. 75% полного совпадения ответов в двух последовательных пробах, что опре­деленно недостаточно.

Теперь испробуем на устойчивость пятичленную и трех­членную шкалы, задавая тот же вопрос аналогичной (или той же самой) группе испытуемых в 100 человек. Допустим, что мы получим такие распределения (табл. 4),

Как видно, в пятичленной и трехчленной шкалах работа­ют все градации, так что в негативной зоне оказывается соот­ветственно 25% и 32% ответов (сравните с семибалльной шка­лой, где в этой зоне менее 50%). Показатели полной устойчи­вости двух последних шкал, проверенные повторными опроса­ми, допустим, дали соответственно 0,95 и 0,99 (в семибалль­ной — 0,75).

 

Таблица 4

Выбор более точной шкалы путем сравнения величин относительной устойчивости измерения

 

 

Но относительные ошибки при условии, что все градации обеих шкал работают, таковы:

для пятичленной ∆отн =0,95/(5-1)=0,238 и для трехчлен­ной ∆0,99/(3-1)=0,495; округленно 0,24 и 0,49. Получаем, что относительные ошибки семичленной шкалы (0,25) и пяти­членной (0,24) практически одинаковы, а трехчленной — существенно выше (0,49).

Какая из трех шкал более надежна? Вопрос решается при сравнении устойчивости шкалы и величины относительной ошибки. Устойчивость данных по пятичленной и трехчленной шкалам сопоставима: 95% и 99%. Иными словами, опра­шиваемые хорошо различают градации этих шкал, лучше, чем в семичленной шкале: там устойчивость равна 75%. По этой причине последнюю надо забраковать. Остается выбор из двух оставшихся. Пятичленная шкала имеет высокую устойчивость и небольшую ошибку, а трехчленная — более высокую устой­чивость и приемлемую ошибку (меньше половины градации шкалы). Но в отиошеняи к трем градациям это составит 0,49:3=0,16, а для пятичленной — 0,24:5=0,05 длины шкалы. Следовательно, пятичленная шкала втрое чувствительнее, а значит, правильнее и точнее.

Суммируем все сказанное о проверке надежности шкал в следующей схеме (схема 6).

 

 

 

Рассмотрим некоторые общие правила первичной измерительной процедуры и способов проверки этой процедуры на надежность.2

2 Подчеркнем, что в этойтлаве мы рассматриваем основные тре­бования к простейшей первичной квалтификации отдельных свойств, сторон социальных объектов. В более полном виде измеряемые объек­ты находят отображение в достаточно сложной формализированной системе. Это предполагает измерение многих свойств и создание своего Рода моделей объектов и процессов в виде специальных качественно-количественных показателей-индексов, многомерных классификаций, типологических конструкций и т. д. (см. гл. 5, § 1 и 2).

 

Поиск эталона измерения.

 

Нахождение эталона измерения осуществляется в четыре стадии, каждая из которых — необходимая пред­посылка надежности будущей шкалы.

Первая стадия — качественная классификация объектов. Собираясь, например, измерять структуру цен­ностных ориентации или социальных установок личности, мы прежде всего должны четко классифици­ровать типы ориентации, исходя из теоретической кон­цепции и задач исследования. Можно положить в осно­ву классификации иерархию потребностей или интере­сов, сфер деятельности, социальные функции, соци­альные ситуации, которые бы различались по степени свободы выбора целей и средств деятельности и т. д.

Вторая стадия — поиск протяженности выделен­ных в качественном анализе свойств. Следует устано­вить, обладают ли эти свойства прерывной или непре­рывной протяженностью, можно ли их представить в виде различных последовательных состояний изме­ряемого качества.

Рассмотрим с этой точки зрения какую-нибудь цен­ностную ориентацию (на материальный достаток, куль­турные ценности, творчество и др.)- Ее можно "вытя­нуть" в несколько протяженностей — континуумов. Один континуум составляет: сильная—средняя—слабая ориентации; другой: устойчивая—малоустойчивая— неустойчивая; третий: господствующая—рядоположен-ная—подавленная; четвертый: центральная или перифе­рийная. В зависимости от концепции исследования можно выделить и другие протяженности.

Третья стадия — установление эмпирических ин­дикаторов или внешних признаков тех свойств объекта, которые поддаются расположению в континуум.

Индикатор — внешне хорошо различимый показа­тель измеряемого признака. С его помощью устанавли­вается наличие или отсутствие признака, его состояние.

Например, высота ртутного столбика термометра — ин­дикатор температуры.

Простейший индикатор расположения какого-то объекта среди других объектов ориентации — порядко­вое место, отмечаемое опрашиваемым в заданном спис­ке. Например, из 18 объектов он помечает объект М по­рядковым номером 1. Этот номер — индикатор доми­нирования объекта М с точки зрения интересов субъек­та. Объект N, помеченный порядковым номером 18, бу­дет располагаться в конце протяженности ("подавлен­ная ориентация на N").

Сложнее найти индикатор для протяженности по критерию "сильные", "средние", "слабые" ориентации. Один из возможных вариантов таков.

Испытуемым предлагают три ситуации, в которых они принимают решение о выборе "ценностного ориен­тира". Ситуации различаются по степени свободы выбо­ра. Допустим, измерению подлежат интересы к различ­ным видам занятий в сфере досуга. Предлагаются три одинаковых списка возможных занятий, число которых в каждом списке 18 (чтение художественной литературы, посещение гостей, просмотр телепередач и т. д.).

В первой ситуации (широкий диапазон выбора) ис­пытуемый имеет право без ограничения указать любые занятия, которые ему нравятся. Во второй ситуации (средний диапазон выбора) он оставляет в списке лишь шесть наиболее важных для него занятий, в третьем случае (узкий диапазон) — не более трех, для него осо­бенно значимых.

Индикатор "сильной" ориентации — выбор данного занятия —имел место во всех трех ситуациях; "сред­ний" — выбор в первой и второй ситуациях; "слабый" — выбор имел место только при широком диапа­зоне принятия решения.

Одно и то же свойство можно фиксировать с помо­щью нескольких индикаторов, которые сводятся в общий показатель — индекс. Это случай сложного первич­ного измерения, по технике напоминающего приемы вто­ричных измерений. Так, для определения интенсивности интереса к какому-то виду досуга можно использовать и саморанжирование занятий (первый пример), и выборы в нескольких ситуациях, и оценки занятий по десятибалль­ной системе, и другие способы.3

3 Детально эти процедуры рассматриваются Г. И. Саганенко [232; 233. Разд. 4.2].

 

Наиболее надежный ин­дикатор будет получен по совмещению нескольких спосо­бов: некоторая группа занятий помечена первыми номе­рами по ранжированному списку, она же выбрана в трех названных выше ситуациях, эти занятия были оценены 10 баллами при максимуме 10 и минимуме 1. Такой сводный числовой показатель и называют индексом.

Четвертая стадия заключается в том, чтобы уяс­нить, все ли единицы, составляющие измеряемый объект, укладываются в ранжируемый ряд, все ли они обладают свойством занимать определенное место в континууме отношений по принятым индикаторам.

Например, в одном из наших исследований индикатором отношения к труду рабочих был показатель нормы выработки (значительно перевыполняет норму — перевыполняет — вы­полняет — не выполняет норму). Однако он был неудачным, так как применим не ко всем рабочим, а только к "сдельщикам". Труд тех, кто получает повременную оплату, оценивается по другим показателям: качеству работы прежде всего. На­пример, чем меньше времени тратит ремонтник на устранение текущих неполадок, тем выше качество профилактического ремонта.

В итоге описанных выше операций устанавливается эталон, или шкала измерения.

Отношения между пунктами шкалы должны отоб­ражать отношение свойств объекта в понятиях "равно", "больше", "меньше". В нашем примере с ценностными ориентациями отношениям "сильная">"средняя">"слабая" соответствуют отношения трех пунктов построенной шкалы: (выбор сделан в трех ситуациях) > (выбор сделан в первой и второй ситуациях) > (выбор сделан только в первой ситуации). Теперь предстоит испытать шкалу на надежность.

 

Способы проверки процедуры первичного измере­ния на надежность.

 

Следует иметь в виду, что операции повышения на­дежности первичного измерения, которые мы будем здесь рассматривать, используются лишь на стадии отра­ботки инструмента измерения в процессе пилотажа. После окончательной проверки надежности построен­ных шкал и сбора данных на объектах исследования ак­цент контроля их достоверности переносится с первич­ного измерения на вторичные, т. е. комбинаторные про­цедуры, и так последовательно вплоть до обоснования достоверности итоговых выводов.

В целом же достоверность результатов исследова­ния зависит от многих составляющих, начиная с того, насколько обоснована его общая концепция и все ком­поненты теоретико-методологического раздела програм­мы, а далее — от качества исходных данных, системы их отбора, т. е. соответствия типа выборки (и ее организа­ции) целям исследования, качества анализа данных и, наконец, от глубины интерпретации полученных зависи­мостей и связей.4

4 О требованиях и операциях, необходимых для гарантии общей Достоверности данных, см. [68, 200, 233]. Если учесть все возможные ошибки, связанные с неполным соответствием теоретической модели объекта самому объекту, возможными упущениями на разных этапах исследования (например, при расчетах выборки, тиражирования поле­вых документов и т. д.), спецификой типов возможных ошибок (напри-Мер, систематические или случайные), а также некоторые другие при­чины, то, как показал Б. 3. Докторов [68], в так называемой мет­рологической карте можно обнаружить 162 (I) составляющие возмож­ных ошибок.

 

К сожалению, нет единообразия в толковании терми­на "надежность" применительно к социологической информации. Главная причина состоит в том, что одни ав­торы трактуют надежность слишком расширительно как качество всего исследования и, следовательно, его итогов, а другие, напротив, отождествляют надежность с тем или иным особым ее проявлением (например, с.ус­тойчивостью данных, их адекватностью целям исследо­вания и т. д.).

Не останавливаясь здесь на дискуссии терминологи­ческого характера, заметим, что в строгом смысле слова понятие надежности измерения правомерно относить именно к инструменту, с помощью которого произво­дится измерение, но не к самим данным, подлежащим измерению, В отношении данных, как и заключитель­ных выводов из исследования, правильнее говорить, что они достоверны (или относительно достоверны) в том числе и потому, что фиксированы надежным инстру­ментом.

Возможны различные типологии приемов оценки надежности первичной информации, например, с точки зрения внешнего или внутреннего контроля данных, по­лучаемых определенным способом. Мы будем пользо­ваться обобщающим понятием надежности инструмен­та измерения (и соответственно надежности данных, фиксируемых этим инструментом), имея в виду три со­ставляющие: (1) обоснованность, (2) устойчивость и (3) правильность измерения. Естественно, что и методы контроля на надежность нужно рассматривать в этих трех аспектах5.

5 Наиболее детально методы и техника контроля данных на на­дежность изложены в работах Г. И. Саганенко [233] и В. И. Папиотто [200]. Последний применяет аналитический подход к предмету, выде­ляя множество разновидностей надежности и технических приемов оценки ее уровня [200. С. 74—75], тогда как Саганоцко, ряд идей и примеров из книги которой мы используем, акцентирует внимание на наиболее существенных, непременных требованиях и сравнительно простых способах контроля надежности.

Обоснованность6 шкалы заключается в том, что с ее помощью целенаправленно измеряют вполне опреде­ленное свойство или признак, не смешивая его с другими.

6 В зарубежной и отечественной (особенно в психологической) литературе вместо термина "обоснованность" часто используется как его аналог понятие "валидность". Однако в английском "reliability" (обоснованность) подчеркивает возможность полагаться на кого-либо, в данном случае доверять полученной информации благодаря тому, что она адекватна объекту измерения [337. С, 132—138], a "validity" семан­тически имеет оттенок устойчивости, "прочности" полученной инфор­мации. Поэтому термин "валидность" правильнее было бы соотносить ве с обоснованностью, во с устойчивостью данных измерения.

 

Предположим, при опросе телезрителей им предла­гают указать, каким из перечисленных в прилагаемом списке передачам телевидение уделяет "слишком мно­го", "достаточно" и "слишком мало" времени. Если с по­мощью этой трехчленной шкалы исследователь наме­рен фиксировать среднее время, отводимое телепереда­чам, его измерение будет необоснованным. В действи­тельности он измеряет отношение людей к данным пе­редачам, а не объем времени, отводимого для их транс­ляции. Обоснованное измерение объема времени на пе­редачи разного типа — документальный анализ "сетки" программ телевидения.

Чтобы повысить обоснованность измерения, исполь­зуют ряд технических приемов.

(1) Наиболее простой способ — логические рассуж­дения на основе опыта и здравого смысла.

Обратимся к примеру из обследования, проведенного Б. М. Фирсовым. Задача: определить среднюю интенсивность просмотра телепередач путем массового опроса телезрителей.

Первый вариант построения шкалы был таков. Вопрос: "Сколько приблизительно часов в день Вы проводите у телеви­зора?" Шкала для ответа содержала пять интервалов: (не больше 1 часа) — (от 1 до 2 часов) — (от 2 до 3 часов) — (от 3 до 4 часов) — (свыше 4 часов).

Путем логических рассуждений были высказаны следую­щие сомнения в обоснованности такого метода. Следует указать день просмотра телепередач: будний, субботний или вос­кресный. Иначе неясно, какой из дней зритель выберет за эталон оценки. Не спасет положения и вопрос, сколько в сред­нем часов в неделю зритель проводит у телевизора, так как люди не привыкли думать в "средних" величинах.

Значит, надо поставить вопрос так, чтобы: а) выделить дни недели и б) указать понятный для зрителя эталон оценки. По­этому более удачный вариант построения шкалы для решения той же задачи следующий [274. С. 142].

Первый вопрос: "Сколько дней в неделю Вы, как правило, смотрите телевизионные передачи?":

1)         почти все дни недели;

2)         3 или 4 дня в неделю;

3)         1 или 2 дня в неделю;

4)         меньше, чем один раз в педелю, т. е. не каждую неделю;

5)         в сущности, совсем не смотрю.

Второй вопрос: "Не могли бы Вы приблизительно оце­нить, сколько в среднем часов Вы проводите у телевизора в тот день, когда смотрите передачи?" Сделайте отметку в каж­дой строке.

Дни недели

Время просмотра

 

 

не больше 1 часа

от 1 до 2 часов

от 2 до 3 часов

от 3 до 4 часов

свыше 4 часов

В будние дни

В субботу

_

В воскресенье

_

-

Теперь, пользуясь простыми арифметическими действия­ми, можно рассчитать "среднепросмотровое" время за неделю и составить шкалу.

Обозначим а число дней в неделю, уделяемых просмотру телепередач. Числовые индикаторы ответов на первый вопрос взяты как средние эмпирически полученных интервалов (в числе дней просмотра), а именно: 6; 3,5; 1,5; 0,7; 0. Обозна­чим Ъ количество часов, затраченных на просмотр телепрог­рамм в определенные дни (ответы на второй вопрос) также по средним: 4,5; 3,5; 2,5; 1,5; 1.

Обозначив будние дни как d, субботние s, воскресные w, рассчитаем среднепросмотровое время за неделю Т:

Для телезрителя, который в ответе на первый вопрос по­метил "3 или 4 раза в неделю", в ответе на второй указал "до 1 часа в будни" и "от 2 до 3 часов в субботу и воскресенье" среднепросмотровое время исчисляется по формуле:

Неадекватное понимание того, что же мы измеряем, может привести к серьезным последствиям. Поучительный пример: дискуссия в прессе относительно добросовестности служб обще­ственного мнения в опросах о рейтинге политических деятелей.

В ноябре 1997 г. два ведущих российских центра изуче­ния общественного мнения представили данные общероссийс­ких опросов. Рейтинги Президента, премьера и некоторых дру­гих ключевых фигур в правительстве по опросам центра "А" на 10—12% отличались от рейтингов по опросам службы "Б". Это вызвало публичный скандал: одна служба подыгрывает правительству, а другая — оппозиции. Что же в действитель­ности случилось? Служба "А" задавала вопрос "Одобряете ли Вы деятельность..?", а служба "Б" предлагала формулировку "Доверяете ли Вы..?". На протяжении трех месяцев все пока­затели доверия/недоверия на 10—12% уступали показателям одобрения/неодобрения, причем этот разрыв устойчиво сохра­нялся в отношении Президента и премьера, но сильно колебал­ся в отношении ряда других правительственных чиновников (т. е. граждане сформировали позицию относительно Прези­дента и премьера, но не имели четкой позиции в отношении Других, неключевых фигур в правительстве). Через две недели после этого скандала служба "Б" в общероссийском опросе предложила респондентам обе формулировки в одном интер­вью. Обнаружилось, что доверяют правительству 14-16% опро­шенных, но одобряют его деятельность в той же выборке 29%. Логика здесь такая: "Я могу не очень доверять искренности намерений правительства, но то, что оно делает, я склонен сей­час одобрить".

Заметим, однако, что логические рассуждения, наподо­бие приведенных выше, повышают обоснованность, но не являются прямым доказательством того, что мы меряем ис­комое свойство.

(2) Тест по "эталонной грynne" – более сильный прием проверки инструмента на обоснованность. Смысл проверки — в сопоставлении данных, полученных пу­тем измерения по шкале, с достоверными сведениями об объекте измерения.

Так, шкала на отношение к соблюдению норм права может быть обоснована опросом осужденных правона­рушителей (они рассматриваются как "эталон" нега­тивного полюса шкалы), в сравнении с "эталонной" группой законопослушных граждан. Дихотомизация полярных групп по шкале должна созпадать с факти­ческой поляризацией эталонных групп в пределах до­пустимой ошибки, величина которой зависит от задач исследования.

(3) Поиск независимого критерия как разновид­ность внешнего контроля надежности для измерения того же самого объекта или свойства.

Если подключить к телевизионному приемнику при­бор, регистрирующий время его работы, и сопоставить показания прибора с результатами опроса о частоте и длительности просмотра телепрограмм, можно точно ус­тановить обоснованность данных опроса.

Не имея такой возможности, Б. М. Фирсов сопоставлял сведения, полученные по шкале среднепросмотрового времени, с данными по другой шкале, названной "изменение привычек" (табл. 1) [274, С, 107]. Последняя конструировалась по отве­там на вопрос: "Придется ли Вам в случае длительного отсут­ствия телевизора менять свои привычки, способ проведения досуга, жизненный уклад?" Берем два крайних варианта от­ветов по второй шкале, отбрасывая промежуточные (в процен­тах к численности представителей каждого типа, т. е. по стро­ке). Очевидно, что шкала "увлеченности", полученная как вто­ричная группировка данных среднепросмотрового времени Т, высоко согласуется со шкалой "привычек" и, следовательно, может считаться вполне обоснованной.7

7 Пользуясь той же шкалой, автор провел повторное сравнительное исследование аналогичной выборки ленинградцев спустя 10 и 12 лет. За период с 1967 г. по 1979 г. обнаружилось, что доля "весьма умерен­ных" телезрителей упала с 32% до 6% и "весьма увлеченных" повыси­лась с 16% до 40% [157. С. 701].

Таблица 1

Обоснование шкалы увлеченности телевидением по независимому критерию.

 

Шкала "увлеченности"

по средне-просмотровому времени в неделю

 

 

Шкала "изменения привычек"

"Думаю, что придется изменить привычки"

"В моей жизни ничего не изменится" + "Вряд ли что изменится в моей жизни"

T1 — "Весьма умеренные" (до 3 ч.)

15,8

11,7+34,4-46,1

T2 — "Умеренные" (от 3 до 10 ч.)

36,1

6,0+31,3-37,3

Т3 — "Увлеченные" (от 10 до 15 ч.)

48,7

5,5+22,9=28,4

Т4 — "Весьма увлеченные" (от 15 до 17 ч.)

60,0

1,6+17,0-18,6

 

(4) Использование метода судей для отбора пунктов шкалы. Сомнения в обоснованности возникают уже на стадии первоначального отбора пунктов шкалы. В каких единицах считать время просмотра телепередач? В днях, часах, в частоте просмотров? Какие понятия выбрать для построения шкалы?

Эти вопросы лучше всего доверить решению компе­тентных судей. В нашем случае ими являются типич­ные телезрители» которые будут представлять как бы микромодель основной массы опрашиваемых. В этом смысле "судейство" как способ контроля обоснованности шкалы надо отличать от опроса экспертов — профессио­нальных специалистов в данной области.

Численность судей зависит от меры однородности или разнородности выборочной совокупности основного обследования. Так, при построении шкал на отношение к досуговым занятиям мнения мужчин и женщин об одних и тех же занятиях будут существенно разными. Рекомендуется отобрать для судейства половину судей из женщин, половину — из мужчин. Не меньшее значе­ние в данном случае будут иметь уровень образования и род занятий. Для компоновки судейской группы ис­пользуют метод квоты, т. е. устанавливают пропорции судей по набору существенных признаков, включая, на­пример, пол, возраст, образование, выражающих позиции разных групп респондентов в предполагаемой выборке.8

О квотировании выборки см. на с. 349.

 

(5) Один из широко используемых приемов внутрен­него контроля обоснованности — совмещение несколь­ких показателей для регистрации определенного одного свойства, или построение индекса. Типы индексов край­не разнообразны. Они широко используются в психоло­гических тестах, в социально-экономических иссле­дованиях. Суть индексной обоснованности в том, что, со­гласно гипотезе, данному свойству находится множество его проявлений, для каждого из которых формируют от­дельную шкалу. Затем измерения по частным шкалам либо суммируются, либо из них образуют логические конструкции, как это было сделано в показателе "логи­ческий квадрат" для построения производной шкалы удовлетворенности работой (см. с. 261).

Вполне справедливо выделяют два существенно раз­ных аспекта обоснованности: теоретический и эмпири­ческий. Первый непосредственно связан с содержатель­ными посылками исследования и предполагает установ­ление значимых связей с широким классом ситуаций, предсказываемых теорией, второй требует доказа­тельства надежной регистрации данных в сравнительно узком секторе, в частном проявлении изучаемых объек­тов. "Если валидность (синоним обоснованности. — Е.Я.) эмпирическую через измерение обеспечивают, — (включает В. И. Паниотто, — то валидность теоретичес­кую только проверяют, т. е. уточняют область валидности методики, границы интерпретации получаемых мате­риалов" [200. С. 109].

Устойчивость измерения выражается в однознач­ности информации, которую мы извлекаем с помощью данной процедуры. Нередко устойчивость ошибочно отождествляют с надежностью процедуры в целом. И хотя последняя зависит не только от устойчивости, но также от обоснованности и правильности операций, по­добное смешение не случайно: проверка инструмента на устойчивость — важнейшее условие его надежности.

1) Наиболее распространенный прием контроля на устойчивость — повторное измерение. Один и тот же объект измеряется дважды с двух-трехнедельным временным интервалом и с помощью одинаковой процедуры. Шкала считается устойчивой, если совпадения между первой и второй сериями измерений будут достаточно высокими.

В отличие от проверки на устойчивость измерения физических объектов социолог или психолог сталкива­ется здесь с особой проблемой — влиянием психологи­ческой установки человека, возникающей после первого замера. Люди могут намеренно или непроизвольно под­гонять данные второго замера к предыдущим. Или же, напротив, интуитивно сопротивляясь повторному экспе­рименту, они покажут новые результаты.

 

Таблица 2

Сравнение данных двух последовательных замеров: оценка совпадения (+) и несовпадения (—) результа­тов в дихотомической шкале

 

Пункты шкалы

Обследуемые всего, N-50 чел.

Итог по строке

А

В

В

Г

...n

(+)

(-)

% совпадений

1

+

+

-

+

+

45

5

90

2

+

-

+

+

+

44

б

88

3

-

+

-

-

-

25

25

50

4

+

+

+

-

+

42

8

84

Б

+

+

+

-

+

46

4

92

в

+

+

-

+

+

41

9

82

15

+

+

-

+

+

45

5

90

Итог по (+) колонке ( – )

141

141

96

10 5

13 2

635

115

90

 

Чтобы устранить такой дефект, используют контрольную группу (см. гл. 5, С. 357—361). Простейший же способ снять влияние установки первого замера — производить повторный замер спустя достаточное время после первого (например, две недели) и на достаточно большой выборке испытуемых (около 50 человек). Составив таблицу замеров для всех обследуемых, мы далее анализируем, какова общая устойчивость данных и от чего зависят отклонения между двумя замерами (табл. 2, пример Г. И. Саганенко).

При повторных измерениях используют различные оцен­ки устойчивости данных, одна из которых — это процент пол­ных совпадений ответов на серию вопросов в двух последова­тельных пробах методики. Соответствующая формула:

где в числителе п — количество полностью совпавших пар от­ветов, а в знаменателе Л7 — общая численность испытуемых, р — процент устойчивости.

По этой формуле, для примера, в табл. 2 получим:

 . полной устойчивости исходных данных. Однако ее можно повысить, заменив некоторые пункты, в частности пункт 3. по которому обнаружен наибольший разброс (всего лишь 50% совпадений). Основной критерий устой­чивости информации — анализ данных по отроке. Если анали­зировать эти итоги по колонкам, найдем, что некоторые субъекты (В и Г особенно) дали большой разброс, а некоторые (А и Б) — почти не дали разброса. Те пункты шкалы, в кото­рых обнаружено несовпадение даже у весьма "устойчивых" субъектов, должны быть переформулированы.

 

Таблица 3

Сравнение данных двух последовательных замеров в трехчленной шкале (N=28 чел.)

 

Ответы в I пробе о занятиях на досуге

Ответы в 11 пробе

Всего

 

 

"Привл." (1)

"Не очень"(2)

"Не привл." (3)

 

 

"Данное занятие привлекательно" (1) "Не очень привлекательно" (2)

"Занятие непривлекательно" (3)

7

 

4

 

-

3

 

6

 

3

-

 

1

 

4

10

 

11

 

7

Всего

11

12

5

28

 

Другим весьма полезным показателем полной устойчи­вости является мера сдвига, оцененная как среднеарифмети­ческая ошибка различения градаций шкалы. Этот показатель обозначает, какую долю градации данной шкалы (в среднем) все испытуемые как бы не улавливают, т. е. каковы истинные границы различения градаций.

Например, уточним среднеарифметическую ошибку в раз­личении трехчленной школы согласия — несогласия с каким-то суждением (пусть это будет суждение о привлекательности некоторого занятия на досуге). Приведем схему (табл. 3) и расчеты, используя данные таблицы Г. И. Саганенко.

В испытании участвуют 28 человек, из которых 17 полно­стью повторяют свои оценки данного занятия в обеих пробах (сумма по диагонали схемы: 7+6+4 = 17), а остальные 11 ис­пытуемых дают разные ответы в двух пробах. Для оценки ис­комой ошибки вычисляем отличия ответов респондентов как сдвиги между II и I пробами, например, во II пробе из тех, кто в I пробе ответил "занятие привлекательно", 3 человека сообщи­ли, что оно "не очень привлекательно", т. в. это разность (2—1) 3. Теперь суммируем все разности в ответах и получим меру среднеарифметической ошибки различения пунктов градации данной шкалы:

Значит, среднеарифметический "сдвиг" в оценке по трех­членной шкале составляет около 40% одного ее деления, т. е. менее половины деления, что в общем можно признать удов­летворительным, хотя и не идеальным. (Ниже, говоря о пра­вильности измерения, мы покажем, как можно было бы умень­шить эту ошибку.)

Рассматривая устойчивость как воспроизводимость ре­зультатов измерений, можно использовать и иные показатели ее меры [200. С. 33—34], например, обычные расчеты корреля­ции итогов двух последовательных измерений. Показатели, ре­комендуемые Г. И. Саганенко, представляются нам вполне адекватными и наглядными.

Какая же мера устойчивости удовлетворительна? Это Зависит от существа измеряемого свойства, его значимо­сти для целей и задач исследования. В принципе для немногочленной шкалы среднеарифметическая ошибка различения градаций в 40% ее деления невысока, а соответствующая мера устойчивости (100%—40% =60%) вполне достаточна, ибо не перекрываются границы меж-ДУ двумя соседними интервалами шкалы. Если неустой­чивость составила не 40%, а 60%, т. е. более половины деления шкалы, то ошибка была бы явно недопустима, ибо в среднем испытуемые не различают две соседние Градации из трех.

Для многочленных шкал, например из 10 градаций, ошибка в 60% одного деления не слишком велика, так как перекрываются два деления из 10, т. е. не 2/3, а 0,2 общей "длины" шкалы. Бели при обработке данных градации укрупнить, объединяя две соседние, то ошибка минимизируется до вполне уверенного уровня ус­тойчивости.

Помимо показателей полной устойчивости шкалы, возможны также показатели ее относительной устойчи­вости. Они полезны при сравнении разных шкал, напри­мер для выбора из нескольких вариантов наиболее пра­вильной и точной шкалы (о чем говорится ниже в этом же разделе) или для того, чтобы сопоставить уров­ни устойчивости измерения разных свойств, каждое из которых фиксируется шкалами разного типа и разной степени дробности.

Но прежде всего показатели следует соотносить с уровнем реальной стабильности — изменчивости изу­чаемого объекта, измеряемых свойств.

2) Использование нескольких лиц для измерения данного свойства. Случается, что шкала неустойчива по­тому, что ее пункты произвольно интерпретируются са­мими исследователями. В особенности это характерно для шкал качественной классификации объектов. В та­ких (номинальных) шкалах группы объектов классифицируют с помощью описания всех качествен­ных признаков, по которым каждый объект относится к определенному пункту шкалы — классу.

Предположим, что выделено несколько признаков (с соответствующими индикаторами) для отнесения политической деятельности в высшую категорию по уровню активности. Чтобы выполнить эту операцию однозначно, нужно убедиться, что признаки ясно раз­личимы и при соотнесении видов деятельности с пунктами шкалы не возникает путаницы. Скажем, та­кими признаками были: членство или заявленная принадлежность к какой-либо партии, движению, из­бирательному блоку, регулярность участия в его ак­циях (собраниях и публичных выступлениях, участие в голосовании на выборах и т. д.).

В этом случае объект идентифицируют одновре­менно несколько (минимум трое) лаборантов, использующих единую процедуру. Если данные, полученные разными лаборантами (в нашем примере они работа­ли с текстами интервью), высоко согласуются, шкала устойчивая, если нет — неустойчивая, и мы начинаем искать другую, более приемлемую размерную величи­ну. Причина неустойчивости шкалы — плохой отбор индикаторов.

3) Наконец, третий прием контроля эталона измере­ния на устойчивость — "расщепление шкалы". Шкала раздваивается на две половины. Если окажется, что из­мерения по каждой из них совпадают, их можно рассматривать как равноценные шкалы, суммировать дан­ные и впредь пользоваться одновременно обеими поло­винами, образующими теперь единую и более надежную шкалу, чем каждая из ее составляющих.

Покажем технику "расщепления" не примере. Возьмем объектом измерения уровень удовлетворенности рабочего своей специальностью. Данные получаем путем анкетного опроса.

Проектируем две шкалы, пункты которых будут отвечать одному из пяти уровней удовлетворенности специальностью (схема 5). Каждому уровню соответствуют два суждения. Не­четные пункты образуют одну, а четные — другую половину испытываемой шкалы.

Далее производим следующие операции: (а) все 10 пунк­тов четной и нечетной половин перетасовываются в произ­вольном порядке; б) опрашиваемым предъявляют набор из 10 суждений с просьбой указать свое согласие или несогласие по каждому из них; (в) после опроса достаточной группы лиц (около 50 человек) из числа обследуемой совокупности дан­ные группируются по двум шкалам раздельно: по нечетной половине — (a1), (b1), (с1), (d1), (e1) и по четной шкале — (a2), (b2), (с2), (d2), (е2).

Основная операция — (г) сопоставление итогов измерения по двум половинам испытываемой шкалы. Если корреляция между ними будет достаточно высока, эти половины можно рассматривать как части единого инструмента, измеряющего общий континуум свойств, В случае необходимости "выпада­ющие" суждения следует переформулировать, чтобы получить приемлемую корреляцию.

В таком случае итоговую шкалу образуют все 10 сужде­ний, которые в случайном порядке предъявляются общим списком. В итоговый показатель для данного лица суммиру­ются все баллы суждений, с которыми он выразил согласие.

Обозначив ранжированные пункты баллами от 5 (для al и аа — высшая оценка) до 1 (в, и е3 — низшая оценка), предпо­ложим, что некий субъект выразил согласие с пунктами а1+&2, отвергнув все остальные. Его суммарный балл по шкале равен 5+4=9.

Точность и правильность измерения зависят от (а) степени устойчивости измеряемого объекта или свойства, (б) чувствительности эталона измерения (дробности пунктов шкалы), (в) отсутствия систематических ошибок измерения и, конечно, (г) от устой­чивости измерения.

Социальные объекты, подлежащие измерению, обла­дают различной степенью устойчивости. Скажем, уста­новление состояния удовлетворенности какой-то дея­тельностью будет заведомо менее точным, чем регистра­ция частоты поведенческих актов. В первом случае сам объект измерения нестабилен. В дурном настроении че­ловек может выражать недовольство рекламой на теле­видении, а в хорошем расположении духа он будет уве­рять, что рекламные ролики бывают очень забавными и даже поучительными. Но вряд ли его настроение отра­зится на информации о том, как часто он выключает те­левизор при трансляции рекламы или переключается на другую программу.

Дробность метрики — чувствительность шкалы — прямо связана с точностью измерения. Шкала в 10 де­лений измеряет точнее, чем в 5 или 3 деления. Но дроб­ность пунктов шкалы нельзя увеличивать беспредельно. Надо установить оптимум, удовлетворяющий двум тре­бованиям: максимум градаций шкалы при условии вы­сокой устойчивости результатов измерения. Постепенно повышая дробность эталона измерения и параллельно проверяя шкалу на устойчивость, мы найдем границу, за пределами которой дальнейшее повышение дробнос­ти влечет понижение устойчивости. Это и есть оптимум чувствительности шкалы с учетом меры устойчивости измеряемого свойства. Таким образом, достижение устойчивых данных при максимальной дробности мет­рики повышает точность измерения. Оно будет удов­летворительно точным, если абсолютная ошибка измере­ния не превышает 0,5 деления шкалы. Вместе с тем, если ошибка вообще отсутствует | X j =0, то не ис­ключено, что шкала обладает заниженной чувствитель­ностью (особенно в случаях, когда мы предполагаем достаточную вариабельность измеряемого свойства).

Но измерение может быть вполне точным и вместе с тем... неправильным, постоянно воспроизводя какую-то систематическую ошибку, как это случается с испорчен­ным термометром, в котором ртутный столбик изначаль­но был фиксирован на неверной исходной отметке и по­стоянно завышает температуру, скажем, на 0,8 градуса.

При квантификгГции социальных характеристик проблема правильности, т. е. отсутствия уклонений от истинного значения измеряемого свойства, намного сложнее, ибо часто мы в принципе не способны устано­вить, каковы же эти истинные значения измеряемых свойств (скажем, мнений людей по каким-то вопросам). Мы можем лишь, сопоставляя разные способы фиксиро­вания данного свойства, добиваться устранения замечен­ных систематических ошибок. Каковы же эти система­тические ошибки?

Одна из возможных — отсутствие "разброса" инфор­мации по шкале вследствие того, что какие-то ее пункты "не работают", т. е. не реагируют на определенное состо­яние измеряемого свойства. Например, при опросе все ответы концентрируются в позитивном или только в не­гативном полюсе шкалы. Конечно, это может быть и ре­зультатом единодушия оценок, но может быть и резуль­татом того, что сама шкала неудачна, например, содержит какой-то пункт, сформулированный с сильным нормативным давлением на опрашиваемых. Допустим, задан вопрос об употреблении алкоголя, и крайне нега­тивный вариант ответа гласит: "Я пью систематически и обычно до бесчувственного состояния". Сомнительно, чтобы даже заведомый алкоголик отметит такой пункт как показатель своего отношения к спиртному. Скорее всего, он выберет суждение не столь резкое, например: "Я выпиваю довольно часто". Крайне отрицательный пункт шкалы здесь "не работает*': он отпугивает. Вслед­ствие этого шкала неправильна.

Другой причиной неправильности может быть пло­хая различительная способность соседних пунктов шкалы высокой дробности. Попробуйте, например, упорядо­чить свое отношение к 24 политикам так, чтобы уве­ренно указать не только приемлемого и решительно от­вергаемого, но всех оставшихся из предложенного переч­ня расположить так же аккуратно и уверенно в порядке убывания их привлекательности. Психологически это просто невозможно, так что "срединная" часть этой так называемой ранговой шкалы будет крайне сомнитель­ной, а вся шкала веточной и неправильной. Системати­ческая ошибка, скорее всего, скажется на том, что прием­лемые политические деятели будут отмечаться как бо­лее привлекательные (хотя не исключено, что фак­тически данные лица ими не интересуются), а социально неприемлемые будут попадать в нижние уровни ранжи­рованного ряда.9

9 В данном случае для повышения надежности измерения исполь­зуются операции, описываемые иа с. 103—104.

 

Во всех подобных случаях опытная проверка шка­лы на устойчивость данных обнаружит ошибки. Но час­то это показывает уже первая проба.

Правильность и точность измерения можно повы­сить путем расчета относительной ошибки измерения.10

10 Подробнее ем. [231. С. 63—66].

 

Относительная ошибка позволяет сопоставлять пра­вильность замеров по двум и более шкалам разной чувствительности и таким путем отработать оптималь­ный инструмент. Напомним, что, в отличие от абсолют­ной, относительная ошибка исчисляется не в долях по­грешности деления шкалы, а в соизмеримом, определен­ным образом нормированном показателе.

 

Приведен пример расчета относительной ошибки измере­ния. Предположим, что в семичленной шкале оценок фикси­руется намерение женщин иметь детей. В обследовании уча­ствуют 100 молодых замужних женщин, которые дали сле­дующие ответы на вопрос: "В какой мере Вы согласны с тем, что было бы желательно иметь ребенка?"

 

Полюса шкалы интерпретируются, а промежуточные пункты не имеют словесной интерпретации.

При некотором навыке и достаточном исследовательс­ком опыте мы часто интуитивно угадываем, какова должна быть дробность метрики, обеспечивающая устойчивую ин­формацию. Но, приступая к измерению сложных объектов, с которыми ранее не приходилось сталкиваться, социолог должен проделать ряд экспериментов, отрабатывая шкалу на точность и правильность.

Оценки 3, 2 и 1 (крайне негативное отношение к сужде­нию) встречаются очень редко, и эту часть шкалы можно при­знать плохо работающей: в сумме здесь сосредоточено менее 5% всех ответов. Большинство женщин либо явно хотели иметь детей, либо не очень в этом уверены, и почти нет таких, кто отвергает идею иметь ребенка. Значит, в нашей шкале ра­ботают градации 7, 6, 5 и 4, где 4 фактически наиболее негатив­ная установка. Диапазон работающей части шкалы: 7-4=3. Относительная ошибка данной шкалы определяется предло­женной Г. И. Саганенко формулой:

где w — оценка полной устойчивосвости шкалы, л зон реально работающей ее части.

Проверив шкалу на устойчивость, как было описано выше, мы, предположим, получили значение ц)=0,75, т.е. 75% полного совпадения ответов в двух последовательных пробах, что опре­деленно недостаточно.

Теперь испробуем на устойчивость пятичленную и трех­членную шкалы, задавая тот же вопрос аналогичной (или той же самой) группе испытуемых в 100 человек. Допустим, что мы получим такие распределения (табл. 4),

Как видно, в пятичленной и трехчленной шкалах работа­ют все градации, так что в негативной зоне оказывается соот­ветственно 25% и 32% ответов (сравните с семибалльной шка­лой, где в этой зоне менее 50%). Показатели полной устойчи­вости двух последних шкал, проверенные повторными опроса­ми, допустим, дали соответственно 0,95 и 0,99 (в семибалль­ной — 0,75).

 

Таблица 4

Выбор более точной шкалы путем сравнения величин относительной устойчивости измерения

 

 

Но относительные ошибки при условии, что все градации обеих шкал работают, таковы:

для пятичленной ∆отн =0,95/(5-1)=0,238 и для трехчлен­ной ∆0,99/(3-1)=0,495; округленно 0,24 и 0,49. Получаем, что относительные ошибки семичленной шкалы (0,25) и пяти­членной (0,24) практически одинаковы, а трехчленной — существенно выше (0,49).

Какая из трех шкал более надежна? Вопрос решается при сравнении устойчивости шкалы и величины относительной ошибки. Устойчивость данных по пятичленной и трехчленной шкалам сопоставима: 95% и 99%. Иными словами, опра­шиваемые хорошо различают градации этих шкал, лучше, чем в семичленной шкале: там устойчивость равна 75%. По этой причине последнюю надо забраковать. Остается выбор из двух оставшихся. Пятичленная шкала имеет высокую устойчивость и небольшую ошибку, а трехчленная — более высокую устой­чивость и приемлемую ошибку (меньше половины градации шкалы). Но в отиошеняи к трем градациям это составит 0,49:3=0,16, а для пятичленной — 0,24:5=0,05 длины шкалы. Следовательно, пятичленная шкала втрое чувствительнее, а значит, правильнее и точнее.

Суммируем все сказанное о проверке надежности шкал в следующей схеме (схема 6).