3. ПОИСК ВЗАИМОСВЯЗЕЙ МЕЖДУ ПЕРЕМЕННЫМИ
.3. ПОИСК ВЗАИМОСВЯЗЕЙ МЕЖДУ ПЕРЕМЕННЫМИ
Перекрестная группировка по двум и более признакам — прямой путь к обнаружению возможных взаимосвязей между переменными. Для этого нужно составить таблицу определенным образом, например, подсчитать пропорции частот одного признака в зависимости от частот другого. Для неискушенного читателя при изложении результатов социологических обследований разумнее использовать процентные отношения группировок. В научной публикации следует указывать статистические критерии взаимосвязей и их значимости.
Правила процентирования6 вовсе не так просты, как может показаться неопытному исследователю. Основной вопрос: принимать ли за 100% данные по строке или по столбцу?
6 Подробно эти правила излагает X. Хейман [339]
Это зависит от двух обстоятельств: от характера выборки обследованных и от логики анализа. Выборка может быть либо репрезентативной (выборочная совокупность есть микромодель генеральной совокупности), либо нерепрезентативной. В последнем случае нам как минимум неизвестны пропорции существенных характеристик в генеральной совокупности, или мы знаем, что эти пропорции в выборке не соблюдаются. Возможна двоякая логика анализа "от причин к следствию" или "от следствий к причинам", что определяется гипотезой и содержанием данных.
Если выборка представительна и отражает пропорции изучаемых групп в генеральной совокупности (данного завода, например), тогда можно вести двоякий анализ данных: по логике "от причин к следствию" и "от следствия к причинам".
Рассмотрим пример. Предположим, что 1000 человек, работающих на акционерном предприятии, где акции принадлежат исключительно его сотрудникам, распределились в зависимости от того, участвуют или не участвуют они в технической и организационной модернизации производства, следующий образом (табл. 10).
Таблица 10 Исходная перекрестная группировка данных: статус и участие в инновациях (N= 1000 чел.) |
|||
Статус |
Участие в инновациях (чел.) |
Итого |
|
|
участвуют |
не участвуют |
|
Рабочие |
250 |
455 |
705 |
ИГР |
140 |
120 |
260 |
Служащие |
10 |
25 |
35 |
Итого |
400 |
600 |
1000 |
Проведем анализ по логике "от возможных причин — к следствию". Предпосылкой более или менее активного участия в разработке нововведений может быть статус работника, тогда как вовлеченность в дела производства сама по себе не может быть причиной того или иного статуса, это — возможное следствие первого фактора. При таком подходе за 100% следует брать данные по строке (табл. 10, а).
Вывод: наиболее активные инноваторы — ИГР, наименее активные — служащие. Статус инженерно-технических работников способствует их модернизационной активности в большей мере, чем положение служащих или рабочих данного предприятия.
Теперь проведем анализ по логике "от следствия к причинам": 100% суммируются в столбце (табл. 10, б).
С логической точки зрения здесь проверяется гипотеза о вкладе каждой категории работников в разработку нововведения, а не гипотеза об их соотносительной активности. Вывод из табл. 10, б: вклад рабочих — наибольший, так как они преобладают в составе персонала предприятия. Об относительной же активности рабочих по этим расчетам мы судить не можем.7
7 Имеется в виду, конечно, не значимость, качество предложенных Идей, но их численность. Предложения специалистов-инженеров или администраторов-служащих могут быть более радикальными, чем предложения рабочих.
Итак, ретроспективный и проектирующий анализы предполагают различные по содержанию выводы.
В репрезентативных выборках возможно проценти-рование "по диагонали" таблицы. Например, для табл. 6
Таблица 10, а
Участие в инновациях как следствие статуса работников
Статус |
Участие в инновациях (чел.) |
Итого |
|
|
участвуют |
не участвуют |
|
Рабочие |
35 |
65 |
100 |
ИГР |
64 |
46 |
100 |
Служащие |
29 |
71 |
100 |
Таблица 10, б
Активность персонала в зависимости от статуса работника
Статус |
Участие в инновациях (чел.) |
||
|
участвуют |
не участвуют |
|
Рабочие |
60 |
76 |
|
ИГР |
35 |
20 |
|
Служащие |
5 |
4 |
|
Итого |
100 |
100 |
|
(если данные представительны) можно подсчитать процентные доли всех 47 выделенных в ней сочетаний возрастных характеристик мужей и жен, из чего, скажем, следует, что более всего в изученной совокупности представлены молодые пары в возрасте 20—24 лет, каковые составляют около 55% от всех пар (504:1838/2= =0,55), среди 50-летних и старше супружеские пары одного возраста составляют лишь 5% и т. д.
Если выборка нерепрезентативна, процентирование можно вести только в рамках каждой подвыборки раздельно. Обычно такие подвыборки образуют по признакам, являющимся возможными причинами искомых связей: половозрастные, имущественные, этнической принадлежности, шкалы по уровню образования, другим объективным характеристикам социального статуса, места проживания и т. д. Здесь несоответствие долей выборок реальному распределению определенных групп в генеральной совокупности не исказит вывод (логика табл. 10, а). В противном же случае (по логике табл. 10, б) достоверность вывода будет прямо зависеть от представительности выборки.
Наконец, в случаях, когда представительность перекрестной классификации в принципе нельзя установить (например, о ценностных ориентациях и политических взглядах, отношений к партиям, где распределение в генеральной совокупности заранее вообще неизвестно),
Анализ взаимосвязи двух переменных с помощью контрольного (опосредующего) фактора — прием, используемый для того, чтобы установить прямые и опосредованные, причинные и сопутствующие связи, а также уточнить их напряженность. Рассмотрим три вымышленных примера, в которых проиллюстрируем основные логические проблемы этого метода.8
8 Задачи этого класса применительно к социологии были впервые сформулированы в 40-е гг. П. Лааарсфел ьдом и П. Кен дал л и получили в дальнейшем более полное логическое обоснование в работах X. Хеймана [339. С. 286—295].
Пример 1. Надо определить, имеется ли связь между интересом людей к познавательным программам телевидения (обозначим как фактор П) и к развлекательным программам (фактор Р). Для установления взаимосвязи между этими явлениями используем простейший показатель — коэффициент ассоциации двух качественных переменных по Юлу. Чтобы подсчитать коэффициент ассоциации Юла, достаточно фиксировать наличие (+) или отсутствие (-) каждого из двух сопоставляемых качеств А к В.
Построим двухмерную классификационную таблицу (схема 27).
Коэффициент ассоциации Юла (Q) высчитывается по формуле; Q=(ad - cb)/(ad - сb), где (схема 25) частоты а, b, с, d обозначают наличие или отсутствие признака П или Р. Свойства коэффициента: 1>Q>-1; Q=0, если какая-либо из частот (а, b, с или d) равны 0. При значении коэффициента существенно выше или ниже 0 при некотором доверительном интервале (допустимой ошибке) связь имеется.
Допустим, что в нашем примере наблюдается такое распределение (условные числа).
Схема 27
Модель перекрестной группировки двух дихотомических признаков ПиР для расчета коэффициента ассоциации Юла (Q)
|
Px + |
Рx- |
п + |
а |
И |
п- |
с |
d |
Между П и Р обнаружена весьма высокая связь.
Однако эта связь может быть лишь видимостью. Введем контрольную переменную — уровень образования телезрителей (обозначим О) — и получим две двухмерные таблицы: для лиц с высоким (0+) и низким (О~) уровнем образования (табл. 11, а). Подсчитаем коэффициент Юла для таблиц 11, аи 11, б:
Таблица 11
Взаимосвязь интересов телезрителей к познавательным (П) и развлекательным (Р) программам
|
рx+ |
Рx- |
|
П+ |
410 |
130 |
540 |
П - |
130 |
410 |
540 |
|
540 |
540 |
1080 |
Таблица 11, а
Взаимосвязь интересов телезрителей к познавательным (П) и развлекательным (Р) программам раздельно для имеющих высокое образование (О+) и низкое образование (О~)
О+ |
О- |
||||||
|
П+ |
П - |
|
|
П + |
П- |
|
Г |
400 |
80 |
480 |
Р* |
400 |
80 |
480 |
р- |
50 |
10 |
60 |
Р- |
50 |
10 |
60 |
|
|
Таблица 11, б
Взаимосвязь между уровнем образования (О) и интересом к познавательным программам (П), между уровнем образования и интересом к развлекательным программам (Р)
|
П + |
П - |
|
|
П+ |
П - |
|
О + |
450 |
90 |
540 |
О + |
480 |
60 |
640 |
О - |
90 |
450 |
540 |
О - |
во |
480 |
540 |
|
540 |
540 |
1080 |
|
540 |
540 |
1080 |
Связи между признаками П и Р в производных таблицах, выравненных по образованию, не обнаружено. Между тем в исходной табл. 11 связь высокая. Остается предположить, что П и Р зависят от уровня образования, но независимы относительно друг друга. Проверим это предположение, сгруппировав данные так, чтобы выявить связи между контрольным фактором (О — образование) и каждым из первоначальных (П и Р) (табл. 11, б). Видно, что связь между образованием и интересом к программам познавательных передач такая же, как между образованием и интересом к развлекательным программам, высока.
Здесь действует следующее правило: если введение контрольной переменной уменьшает связь между двумя исходными переменными, но связь между контрольной переменной и каждой из исходных достаточно высока, то контрольная переменная выступает либо в качестве интерпретирующей, либо в качестве объясняющей. Различие же между интерпретацией и объяснением состоит в следующем. Интерпретация — способ истолкования факторов, рассматриваемых как посредствующие переменные какого-то процесса, причины которого неясны. Объяснение суть истолкование ряда факторов, рассматриваемых в качестве причинных.
Чтобы иллюстрировать метод обнаружения интерпретирующей и объясняющей связи, рассмотрим другой пример, используя ту же логику рассуждения и те же цифровые данные.
Пример 2. Обозначим Пр профессию телезрителей (Пр и Пр2 — это две группы профессий). И+ наличие, И~ отсутствие интереса к определенным программам. Для таблицы 11» используя те же данные, что в табл. 10, связь равняется 0,82 по коэффициенту ассоциации Юла (Qnp.K= 0,82).
Введем контрольную переменную О — образование. Перестроив таблицы, как в предыдущем случае, найдем, что в производных связь потерялась: при фиксированном уровне образования не обнаруживается связи между профессией и интересом к передачам определенного типа. Иначе говоря, люди с высшим образованием — инженеры, врачи, учителя — примерно одинаково интересуются передачами данного класса. Рабочие, продавцы магазинов, служащие учреждений, не имеющие высшего образования, также обнаруживают большую схожесть в отношении к телепрограммам этого класса.
Как и в предыдущем случае, введение контрольной переменной снизило (или в нашем условном примере свело к нулю) связь между исходными факторами. Однако заключение во втором случае будет отличаться от вывода, который следует из первого примера.
В первом примере образование предшествует интересу телезрителей к развлекательным или образовательным программам и потому объясняет связи так: между интересом к развлекательным и образовательным программам существует связь сопутствия, ибо, не будучи прямо связанными между собой, обе эти разновидности интересов связаны с третьим фактором — образованием, которое и является причинной переменной. Логика объяснений связей между П и Р через О:
Во втором примере контрольная переменная (образование) не предшествует, но действует одновременно с одной из основных переменных (профессия). В этом случае она опосредует связь между основными факторами и уточняет, интерпретирует ее: дело не столько в профессии, сколько в образовании. Логика объяснений связей между П и И через О:
Пр--- О --- И
Пример 3. Возможна ситуация, когда связь между двумя исходными переменными после введения контрольной не исчезает и не уменьшается, но она исчезает между одной из исходных переменных и контрольной. Рассмотрим этот вариант на условном примере с телезрителями.
А — интерес телезрителей к программам "Что, где, когда?"; В — их интерес к программам "В мире животных". Контрольная переменная (О) — образование.
Имеем серию из трех типов таблиц: исходная, промежуточная и итоговая. Первичная связь такова.
Таблица 12
Взаимосвязь между интересом телезрителей к двум типам программ А и В
|
В + |
В - |
|
|||
А + |
400 |
600 |
1000 |
|||
А - |
100 |
100 |
200 |
|||
|
500 |
700 |
1200 |
|||
|
||||||
Стратегия социологического иследования
Между интересом к передачам "Что, где, когда?" и "В мире животных" есть незначительная связь в пользу второй (Q=-0,20). Введем контрольную — образование (Табл. 12, а)
Связь усиливается: люди с высоким образованием проявляют больший интерес к передачам "Что, где, когда?", люди с низким образованием больше интересуются циклом "В мире животных". Перестроив таблицы, рассмотрим теперь связи между образованием и интересом к двум типам передач последовательно (табл. 12, б).
Оказывается, что связи между образованием и интересом к программам "Что, где, когда?" (фактор А) нет: люди смотрят или не смотрят эти программы независимо от уровня образования.
Здесь действуют какие-то иные факторы помимо образования. Правда, есть незначительная связь между уровнем образования и интересом к передачам "В мире животных" (фактор В).
Этот тип анализа можно назвать спецификацией, или уточнением, в отличие от анализа по логике объяснения, или интерпретации.
Во всех рассмотренных примерах мы имели дело с тремя переменными. Однако их могло бы быть и больше. Логика анализа при этом остается прежней, меняется лишь численность промежуточных членов в порядке анализа вследствие добавления новых контрольных факторов. Аналогична стратегия поиска взаимосвязей между более чем тремя, притом не дихотомическими, а многочленными качественными или количественными переменными. Принципиальное отличие — в технике анализа.
Вместо измерения ассоциации двух переменных с помощью критерия Юла или Пирсона устанавливаются многофакторные функциональные связи (корреляции) и связи детерминации (регрессионный анализ). Приемы такого анализа рассматриваются в специальной литературе по статистике и математическим методам в социологии [см., напр., 79, 160, 199, 285, 266].
Анализ многомерных взаимосвязей и взаимозависимостей — типичная задача в социологии. Как правило, такие зависимости не удается "схватить" сразу каким-то единственным математическим методом. Прибегают к различным средствам анализа в поисках наиболее "наглядного", убедительного отображения. Один из способов такого рода — метод отображения взаимосвязей в корреляционном графе, предложенный эстонским математиком Л. Выханду [40].
Граф — это фигура, состоящая из точек (их называют вершинами графа) и отрезков, соединяющих некоторые из этих точек (ребра графа). О графе мы уже упоминали, рассматривая социометрические процедуры. Изображение связей в группе с помощью сопрограммы есть граф (рис. 12, с. 316). В социограмме указываются вершины графа (члены группы) и связи между ними (ребра графа).
Бели бы удалось измерить корреляции или тесноту связей между всеми членами группы (вершинами) и соответственно этому выделить наиболее близкие и наиболее отдаленные связи, такое изображение можно было бы назвать корреляционным графом.
Чтобы построить корреляционный граф, измеряют парные связи между всеми переменными, обозначенными на графе как его вершины. Например, имея пять переменных А, В, С, I) и Е, покажем, как связана каждая из них с каждой другой в матрице интеркорреляций (табл. 13).
Таблица 13
Матрица интеркорреляций пяти переменных (А, В, С, D, Е)
|
А |
В |
С |
D |
Е |
А |
1 |
0,96 |
0,90 |
0,01 |
0,06 |
В |
0,96 |
1 |
0,15 |
0,85 |
0,95 |
С |
0,90 |
0,15 |
1 |
0,02 |
0,14 |
D |
0,01 |