ЭВМ В ИСТОРИЧЕСКИХ ИССЛЕДОВАНИЯХ
В предыдущих главах изложены основные принципы научного анализа с использованием количественных методов, показаны сильные стороны этих методов и их ограничения. Напомним, что неоспоримыми достоинствами количественных методов в изучении исторических явлений и процессов являются возможность построения их моделей, оценка достоверности и точности используемой информации, а также надежности получаемых результатов и, наконец, сопоставимость результатов различных исследований. Однако все эти положительные результаты могут быть получены, как и при использовании других методов, лишь тогда, когда применение этих методов основывается на глубоком качественном, содержательном анализе изучаемых явлений и при корректном оперировании математическим аппаратом. Это должно предостеречь историков от бездумного обращения к математическим методам и вычислительной технике без предварительного серьезного анализа проблемы и материала в надежде немедленно получить существенные результаты. В последнее время былое недоверие к количественным методам и ЭВМ у некоторых исследователей переходит в свою противоположность и приводит их к забвению определяющей роли теоретико-методологического и научно-методического подхода. Без этого невозможна ни математическая постановка соответствующей задачи, ни выбор метода ее решения, ни правильный подход к отбору информации, ни, что наиболее важно, правильная интерпретация получаемых результатов. Иначе говоря, обращаясь к помощи ЭВМ, исследователь уже должен представлять себе, как и какие результаты он может получить и как их следует интерпретировать, т.е. он уже должен иметь четкую содержательную гипотезу (или гипотезы), доказать или опровергнуть которую и помогают математические методы и вычислительная техника. Таким образом, основой исторического исследования остается теория и методология, содержательный анализ, а методика и техника играют хотя и важную, но вспомогательную роль.
Исследование, в котором используются современные методы количественного анализа и вычислительная техника, складывается из ряда этапов.
1. Постановка исследовательской задачи и формулировка содержательной гипотезы (или гипотез) относительно разрешения этой проблемы.
2. Построение содержательной модели изучаемого явления или процесса и отбор системы показателей, характеризующих объект изучения в рамках выбранной модели.
3. Кодировка отобранных показателей, т.е. перевод их в такую форму представления, которая требуется для ввода данных в память ЭВМ.
4. Выбор количественного метода, позволяющего формализовать содержательную модель и дать четкую математическую постановку задачи.
5. Составление алгоритма решения задачи, т.е. описание совокупности этапов ее решения за конечное число шагов и создание программы, реализующей этот алгоритм для конкретной вычислительной системы. Программа должна задавать ЭВМ информацию о форме представления исходного материала, о той обработке, которой он подвергается, и о виде представления результатов обработки.
6. Интерпретация полученных результатов (матриц, таблиц распределений, факторов и т.д.), подтверждение или опровержение выдвинутых гипотез и постановка новых проблем, позволяющих продолжить анализ на качественно более высоком уровне.
Только путь такого постепенного усложнения проблем, углубления анализа на основе «диалога» с ЭВМ может быть плодотворным. Результаты, полученные ЭВМ, должны не подавлять обилием малозначимой или неинтерпретируемой информации, а создавать основу для углубления анализа изучаемых явлений.
Рассмотрим более подробно каждый из названных этапов.
1 Построение гипотезы (или гипотез), подтвердить или опровергнуть которые хочет исследователь, — это, по существу, этап, обязательный в любой научной работе. Однако построение гипотез при использовании количественных методов предъявляет к исследователю более высокие требования, поскольку гипотеза определяет направление исследования, обеспечивает наиболее полный охват проблемы, а также служит критерием отбора данных и основой для сопоставления результатов различных работ по данной проблеме. Поэтому при построении гипотезы, на основе которой проводится последующая формализация, должны быть тщательно продуманы все основные понятия, определения, формулировки с тем, чтобы исключить неоднозначность в их истолковании и выявить их взаимосвязь. Так, гипотеза о временных границах формирования всероссийского рынка требует раскрытия таких понятий, как момент появления товарного рынка, итог складывания единого товарного рынка, местные и региональные рынки, и т.д.
Построение гипотезы непосредственно связано с конструированием модели явления или процесса, соответствующей этой гипотезе, а при построении модели, естественно, встает вопрос о том наборе данных (характеристик объекта исследования), которым оперирует эта модель.
2. Моделирование позволяет выявить наиболее существенные черты изучаемого объекта, абстрагируясь от случайных влияний множества факторов, искажающих скрытые, но объективные закономерности. При этом для достаточно сложной гипотезы можно строить различные модели, позволяющие изучать отдельные аспекты проблемы.
В соответствии с моделью производится и отбор данных. Так, при изучении единого аграрною рынка моделью его формирования служит процесс нивелировки рыночных цен и увеличение их синхронности; при этом из всего многообразия показателей, характеризующих рынок, отбираются данные о ценах на основные сельскохозяйственные продукты (рожь, овес, рабочую силу, землю и тягловый скот). Как правило, каждый историк стремится выделить для изучения стоящей перед ним проблемы некий «идеальный» набор характеристик, выявляющий существо этой проблемы. Однако то, чем он обычно располагает, отличается от «идеала».
Сформулируем некоторые общие требования к данным. Во-первых, данные должны быть однородными, т.е. полученными из одной и той же генеральной совокупности, постоянной в процессе получения этих данных. В частности, единицы измерения каждого признака должны быть постоянны. Затем, используемые данные должны быть точными и достоверными, т.е. надежными в плане адекватного отражения сути изучаемых явлений. Данные не всегда бывают свободны от искажений, и в этом случае их точность желательно оценить, поскольку она влияет на надежность получаемых выводов. Иногда вследствие грубых ошибок приходится количественные признаки считать качественными или ранговыми, предпочитая потерю информации потере достоверности.
После того как исследователь убедится в достоверности, точности и однородности своих данных и выберет показатели в соответствии с принятой им моделью, перед ним встает вопрос об изучении либо выборочной, либо генеральной совокупности объектов. Если объем генеральной совокупности слишком велик, возникает проблема получения репрезентативной выборки.
После того как выборка получена, часто возникает актуальная для историка задача заполнения отсутствующих значений некоторых признаков у ряда объектов. Пропущенные значения не всегда соответствуют нулевым значениям признаков, чаще они означают, что эта информация по каким-либо причинам утрачена. Если информация о некотором признаке отсутствует у более чем половины всех объектов, такой признак обычно исключают из анализа. Если же пропусков не столь много, то их можно заполнять логически или статистически. Под логическим способом понимается восстановление или оценка отсутствующих значений по значениям других признаков, логически связанных с данным. Например, урожайность можно оценить, зная валовой сбор и площадь посева. Разумеется, в большинстве случаев такая оценка бывает гораздо более сложной.
Простейшим способом статистической оценки является заполнение пропусков средним арифметическим значением признака. Более точным способом является оценка с помощью уравнения регрессии для выражения зависимости между интересующим нас признаком и наиболее сильно связанным с ним признаком (или признаками), значение которого для данного объекта известно.
3. После того как полностью сформирована совокупность объектов и определен набор признаков, данные следует перевести в форму, необходимую для работы с ЭВМ. Вид представления данных зависит от конкретной вычислительной системы. При этом, как правило, количественные данные не требуют каких-либо существенных изменений, а качественные признаки обычно кодируют.
Кодировка качественных признаков связана с формализацией исторических явлений и соответственно требует большой тщательности при учете всех возможных категорий признака и их взаимосвязей. Например, такой признак, как профессия, имеет огромное количество категорий, и вводить их можно по-разному. Наиболее универсальной является иерархическая кодировка, т.е. кодировка по уровням, когда профессии классифицируются сначала по отраслям хозяйства, затем по виду продукции и т.д. Сейчас, при развитии стандартизации, можно использовать уже разработанные официальные системы кодов там, где они есть (это, в частности, позволяет непосредственно сопоставлять результаты, полученные разными исследователями и на однотипном материале). С учетом всех возможных вариантов значений признака и составляется так называемый макет кодировки, позволяющий переводить качественные признаки в их числовые коды. Безусловным требованием к макету является полнота и однозначность, т.е. каждый объект должен попадать в одну и только одну категорию по каждому признаку.
Заметим, что современные ЭВМ позволяют работать непосредственно с именами категорий, а не с условными их номерами. Следовательно, в тех задачах, где это возможно, в память машины можно вводить сразу текстовые данные.
Подготовленные и закодированные данные записываются затем на стандартные бланки, и сотрудники вычислительного центра, работающие на специальных устройствах—перфораторах, переносят эти данные с бланков на перфокарты. На рис. 28 изображена перфокарта — один из основных носителей информации для ЭВМ. Комбинации отверстий в 80 колонках перфокарты обозначают любые Цифры, буквы и другие символы из предусмотренного в вычислительной системе набора символов. Над пробитыми в колонках отверстиями на перфокарте печатаются соответствующие символы, что облегчает проверку правильности перфорации.
Заметим, что на этом этапе возможны ошибки как вследствие неверного перенесения исходных данных на бланки (описки, пропуски, неверная кодировка), так и вследствие неправильной перфорации содержания бланков, поэтому требуется много времени на неоднократную проверку и исправление ошибок. Историку можно научиться перфорировать и самому, это полезно при исправлении ошибок и работе с количественными данными. Однако при большом объеме информации высокая скорость и аккуратность персонала вычислительного центра делают его помощь незаменимой
Проверенный массив перфокарт (колоду) можно вводить в ЭВМ и обрабатывать с помощью соответствующих программ. Перфокарты являются, однако, не единственным способом записи и хранения информации для ЭВМ. Данные можно записывать на перфоленты, магнитные барабаны, ленты и магнитные диски, а также вводить непосредственно с дисплея (телевизора). Хранение данных на магнитных лентах и дисках имеет ряд существенных преимуществ: большая скорость ввода и компактность записи (информация, занимающая большую колоду перфокарт, может разместиться на маленьком участке магнитной ленты). Дисплейная техника позволяет облегчить задачи поиска нужной информации и внесение в нее изменений, роль дисплеев повышается и в связи с созданием банков информации, т.е. своеобразных архивов данных, обеспеченных системами организации информации, поиска и обработки (информационно-поисковые системы).
4 Выбор математического метода решения поставленной проблемы и, следовательно, вид обработки данных связан с формализацией содержательной задачи, моделированием Так, если изучаются и выявляются связи признаков, методом может быть корреляционный, регрессионный, факторный энтропийный анализ, если изучается структура совокупности объектов — факторный, кластерный анализ, если изучаются процессы, развивающиеся во времени, — анализ динамических рядов и т.д.
Правильный выбор метода требует от исследователя знакомства с основными принципами, лежащими в основе конкретных методов, и их ограничениями. Иногда метод, вполне пригодный для изучения данной модели, может дать неверные или бессмысленные результаты потому, что не выполнено какое-либо из условий его применения. Так, линейная корреляция не может дать ответа на вопрос о наличии связи в общем смысле, а «естественная» выборка не обязательно является репрезентативной.
5. На следующем этапе исходя из математической постановки задачи создается алгоритм ее решения. Этот алгоритм иногда изображают в виде блок-схемы, графически отражающей ход решения задачи. На рис. 29 дан пример блок-схемы алгоритма вычисления средних арифметических значений признаков некоторой совокупности объектов (разумеется, обычно блок-схемы составляются для гораздо более сложных программ).
Из вида приведенной выше блок-схемы ясно, что все действия ЭВМ могут быть подразделены на четыре типа. Это ввод и вывод информации, ее хранение или запоминание, обработка информации (в частности, арифметические вычисления) и, наконец, управление последовательностью выполнения различных операций. Конкретная вычислительная система физически состоит из трех типов устройств, призванных выполнять все эти операции.
Для работы с ЭВМ составленный (например, в виде блок-схемы) алгоритм реализуется на одном из языков программирования, т.е. на одном из специальных языков, на которых создаются программы. Однако непосредственно по программе, написанной на языке программирования, ЭВМ не работает; операционная система «переводит» (транслирует) эту исходную программу на «внутренний» язык машины — язык двоичных кодов, но это происходит без участия программиста, который всегда работает с исходной программой, внося в нее нужные исправления или изменения.
Написанная программа должна быть отлажена, т.е. в ней надо выявить и устранить возможные ошибки как логического, так и формального характера. Затем отлаженная программа тестируется — проверяется на небольшом массиве данных, и результаты сопоставляются с полученными вручную или с помощью калькулятора результатами обработки тех же данных.
Хотя процесс создания программы на языке высокого уровня мало связан с конкретной машиной, однако он невозможен без знания операционной системы, управляющей работой ЭВМ, «библиотечных» программ, доступных пользователю, и многих других компонентов конкретной вычислительной системы
На этапах формализации исследовательской гипотезы и математической постановки задачи к работе обычно привлекаются математики и программисты, которые либо создают программу специально для данной задачи, либо могут предложить для ее решения одну или несколько из уже существующих программ. В частности, все более широкое распространение получают пакеты прикладных программ для определенного круга математических методов, например пакеты программ статистической обработки. Это значительно облегчает контакт с ЭВМ для неспециалистов, однако следует учитывать, что пакетные программы нередко накладывают чрезмерно жесткие ограничения на вид обрабатываемой информации (например, не обрабатывают данные с неполной информацией), поэтому помощь программистов остается необходимой.
После того как исходные данные и программа готовы, операционная система вводит и транслирует программу и в соответствии с этой программой вводит, обрабатывает информацию и выводит результаты обработки либо на широкую бумажную ленту, либо на перфокарты, магнитные ленты (диски) или экран дисплея.
6. Наконец, на этапе интерпретации исследователь проверяет свою гипотезу (гипотезы) на основании полученных результатов и строит новые, более сложные гипотезы и модели, вновь требующие помощи ЭВМ. Таким образом, количественный анализ и ЭВМ — лишь один из инструментов исследования, а качество и надежность результатов есть следствие достоверности данных и корректности применения количественных методов. Лишь при этом высокая скорость и точность вычислений, возможность обработки огромного объема информации и реализации сложнейших математических методов окупают трудности и большие затраты времени и сил па применение количественного анализа в истории.