Подготовка данных к обработке

Информацию, полученную во время опрашивания, готовят к дальнейшей обработке. Собранная информация может отвечать требованиям полноты, надежности, технологичности.

Во время изучения исследователь часто сталкивается с отказом части респондентов принимать участие в опрашивании или отвечать на отдельный вопрос. Поэтому необходимо на стадии конструирования инструментария тщательно строить вопрос. Важную роль играют также психологические факторы взаимоотношений между анкетером (интервьюером) и респондентом, время и место проведения опрашивания. Получить все ответы почти никогда не удается. Поэтому после проведения опрашивания осуществляют контрольполноты данных и выбраковывают анкеты с чрезмерным количеством "пропусков".

Общих норм, стандартов наполнения инструментария нет. Исследователь должен их определить для себя сам, исходя из поставленных задач и выбранных статистических методов обработки. Как правило, требования к наполнению открытых вопросов субъективного характера (мысль, взгляды читателя) не могут быть высокими, так как много респондентов оставляют их без ответа, не имея четкой точки зрения.

Поднадежностью данных понимают, во-первых, соответствие структуры выборки структуре генеральной совокупности, во-вторых, содержательную идентичность интерпретации вопросов и ответов исследователем и респондентом, в-третьих, точность и логическую не-противоречивость ответов.

Если структура генеральной совокупности известна, во время формирования выборки и проведения опрашивания следят за соблюдением пропорционального соответствия социально-демографического состава респондентов этой структуре. Несмотря на это, желательно еще раз проверить уже собранный материал, получить количественные показатели реального состава респондентов и, если выявлены расхождения со структурой генеральной совокупности, выполнить так называемыйремонт выборки.

Есть два способа "отремонтировать" выборку: с помощью изъятия документов (заполненных бланков инструментария) из массива и с помощью дополнительного опрашивания.

Объем выборочной совокупности следует определять с некоторым запасом (10-20 % для анкетных опрашиваний) для компенсации потерь, которые будут вызваны выбраковкой определенной части анкет во время проверок. Если отклонения от выборки небольшие, пользуясь запасом объема выборки и изъятием соответствующих анкет из массива, выравнивают структуру выборки. Для этого берут за основу социально-демографическую группу с наиболее заниженной квотой в выборке и относительно нее пересчитывают в абсолютных числах, какими по объему должны были быть другие группы, пропорционально к структуре генеральной совокупности. По каждой группе подсчитывают разность между ее теоретическим и имеющимся (преувеличенным) размером и так определяют, сколько анкет из каждой группы надо изъять. Случайным способом или подсчетом интервала (шага) определяют порядковые номера анкет, которые изымаются, в отдельности в любой уменьшенной группе.

Иногда делают дополнительное опрашивание, отбирая респондентов, которые должны представлять недостаточно заполненные в выборке социально-демографические группы. Анкеты, полученные во время дополнительного опрашивания, проверяют на качество данных, как и анкеты основного массива.

Причиной для выбраковки анкеты может быть не только большое количество "пропусков". Некоторые люди отвечают наугад, случаются и "шутники". Иногда человек не совсем точно понял вопрос, в подчеркнутый вариант вкладывает немного другое содержание, чем составитель анкеты, или считает, что вопрос сформулирован недостаточно остро, не актуально, и потому отвечает на свой собственный вопрос, более "правильный".

Фальсификацию анкет можно распознать по смыслу ответов, в особенности открытых. Если в массиве, полученном с одного населенного пункта, появляются подобные анкеты, строят предположения, что их заполнял один человек. Предполагают также, что этот человек - респондент, поэтому одну анкету оставляют, как его собственную, а остаток ("за другого") изымают из дальнейшей обработки. Если же обнаруживается, что фальшивые анкеты выгадывал анкетер (такое иногда случается в масштабных исследованиях с одноразовым привлечением временных помощников в роли анкетеров и интервьюеров), эти анкеты выбраковывают все.

Изымаются и анкеты, заполненные несерьезно, второпях, "лишь бы отцепились". Их можно распознать по характерным ответам на открытые вопросы (или если таких ответов почти нет), по логической противоречивости ответов на связанные между собою вопросы Но надо принимать решение о выбраковке взвешенно, осторожно. Может случиться, что вся анкета заполнена вдумчиво, а два-три вопроса вызвали иронию респондента лишь через их несовершенное построение. Вероятно, что и для остальных респондентов эти вопросы имели кое-что странный или неуместный вид, то есть не "сработали" так, как предполагалось. В таком случае можно принять решение об отказе от статистической обработки именно этих вопросов. Чтобы не было таких неприятных сюрпризов, несовершенство инструментария стараются обнаружить в пробном (пилотажном) исследовании.

Технологичностью данных называют возможность оперативно и легко работать с ответами. Для этого необходимо, чтобы варианты ответов были обозначены однообразно, четко, открытые ответы вписаны понятным почерком, сформулированные ясно и не допускали двойного толкования. Обеспечение этих требований в особенности важно, если анкеты кодируются и вводятся в ЭВМ операторами, которые не имеют непосредственного отношения к исследованию. Поэтому возникает потребность выполнить техническую коррекцию ответов. Анкеты могут содержать механические огрехи респондентов - ответ по ошибке занесенный в поле соседнего вопроса, вписанный очень неразборчиво, содержит узкопрофессиональную аббревиатуру (такое как сокращенное название места работы), малоизвестные слова одного из разговорных диалектов и т.п.. Такие ответы редактируют, а если это невозможно - выбраковывают анкету.

После проверки качества информации подсчитывают количество документов в рабочем массиве (каждый вид документа - анкеты, бланки интервью, карточки анализа формуляров - в отдельности), одновременно нумеруя их. Если документы логически взаимосвязаны между собой - например, опрашивали читателей, чьи формуляры попали в выборку для анализа - на них проставляют одинаковые номера. Кстати, такие документы изымать из массива надо все вместе, если бракуется хотя бы один из них. Нумерация необходима, если обработка осуществляется с помощью ЭВМ. При выявлении ошибок в компьютерной копии массива данных лишь номер анкеты дает возможность обратиться в первоисточник на бумаге.

Подготовка массива к статистическому анализу завершается процедуройкодирования ответов. Для полноценного использования статистических методов необходимо, чтобы начальные данные были формализованные, т.е представлены в виде чисел, интервалов или унифицированных вариантов. Формализованные ответы составляют так называемую количественную (математическую) модель качественных свойств исследуемого объекта.

Процесс формализации начинается еще на этапе подготовки инструментария, если "кристаллизуются" списки вариантов будущих полузакрытых и закрытых вопросов. После получения всего массива собранных данных и проверки его качества закрывают все открытые вопросы. Эта работа состоит из трех частей: подготовка списков ответов, классификация (обобщение) ответов, "замена" ответов респондентов их формализованными аналогами (кодирование).

Классификацию проводят для каждого вопроса в отдельности. Исключение составляют вопросы, которые имеют общую предметную основу, например, если предлагалось респонденту назвать газеты, которые он подписывал в минувшем году, подписывает теперь и которые собирается подписывать в следующем году, то эти три вопроса целесообразно закрывать совместно.

Все ответы выписывают в отдельный список безвозвратным способом, то есть тождественные по смыслу формулирования подаются лишь одним разом, но с подсчитанным количеством повторов (частотой). Счет ведется на бумаге с помощью "палочек". Могут случаться формулирование, в которых помещается фактически несколько ответов. Такие формулирования разбивают на простые неделимые выражения, которые начинают фигурировать в общем списке в отдельности один от другого.

Полученный список детально анализируют с целью обобщения ответов, то есть объединение их в характерные смысловые группы, в более общие классы. Фактографическая информация классифицируется, как правило, более легко, чем личные мысли, взгляды, предложения респондентов.

Обработку открытых вопросов наиболее часто заканчивают обобщением ответов. Полученные частоты переводят в проценты, а в отчете анализируют их лишь в сравнимые между собой, не имея возможности проследить связи с другими вопросами анкеты. Такое вынужденное ограничение связано с высокой трудоемкостью ручной обработки данных.

Если планируется построение комбинационных таблиц, после обобщения открытых ответов полученный список вариантов снова "растворяют" в массиве анкет, то есть каждому ответу в анкете приписывают соответствующий вариант. Выполняют эту процедуру с помощью кодов, поэтому называется она кодированием открытых ответов, а формализованный список вариантов с кодами -кодификатором. Комплексным формулированием будут отвечать одновременно несколько кодов. В анкете заранее предусматривают свободные места для будущих кодов возле каждого открытого вопроса. Пользуются и таким приемом: оценивают возможное количество будущих формальных вариантов (например, их не может быть большее 5-7) и в такой же количестве рядом с вопросом печатают цепочку кодов, которые будут наполняться конкретными значениями после обобщения ответов.

Дальнейшая работа зависит от запланированного способа обработки данных.

Системы кодирования можно поделить на символьные и позиционные. Впозиционной системе каждому варианту анкеты отведено место (позиция) на специальной карточке, и для фиксации данных эти позиции или заштриховывают карандашом, или пробивают. Для обработки таких карточек необходимо специальное оснащение.

Более распространена символьная система кодирования, в который каждый вариант обозначается определенным символом, кодом. Под символом понимают условную пометку, которая может быть номером, буквой, коротким словом. Наиболее распространенные цифровые коды, которые обусловлены их высокой технологичностью (упрощается введение в ЭВМ). Коды не должны повторяться в границах одного вопроса, могут не повторяться вообще в границах всей анкеты (так называемое сквозное, или беспрерывное, кодирование), и, наоборот, нумерация вариантов может начинаться с единицы в каждом следующем вопросе (периодическое кодирование). Поскольку в сквозной системе все коды уникальные, для больших анкет (несколько десятков вопросов) приходится пользоваться двух- и трехзначными числами. Это перегружает инструментарий и замедляет перенесение данных на машинные носители в сравнении с более компактной периодической системой кодирования, но дает возможность проявлять такие ошибки операторов, как введение кода в позицию другого вопроса.

При применении персонального компьютера порядок, предшествующий подготовке массива к обработке, может быть другим. На компьютер можно перевести рутинную работу по проверке репрезентативности выборки, логичности ответов. Появляется даже такая ценная возможность, как быстрое закрытие открытых ответов одним человеком: машина берет на себя составление списков ответов и автоматическое кодирование кодификатором (конечно, не на бумаге, а лишь в компьютерной памяти), социологу остается творческая работа - классификация, которая проводится также с помощью ЭВМ. Но, кроме наличия соответствующего программного обеспечения, для использования таких возможностей необходимо введение полного массива данных в компьютер к выполнению всех дальнейших процедур, то есть традиционно последняя операция подготовки данных (введение в ЭВМ) может быть первой. В частности открытые ответы необходимо вводить в их первоначальном виде. Некоторая часть введенных анкет позднее окажется отбракованной. Это все, конечно, заметно увеличивает объем работы по перенесению данных на магнитный диск, но затраты потом полностью перекрываются оперативностью, удобством и точностью обработки.