3.8. Системы статистического анализа данных
Статистике отводится существенная роль в деятельности правоохранительных органов. Она базируется на теории вероятностей и близка по духу к экспериментальной науке. Статистические данные, характеризующие оперативную обстановку в регионе, дают возможность проанализировать состояние преступности, заставляют задуматься о результатах работы, оценить их, сравнить, сопоставить с итогами предыдущих периодов, с аналогичными показателями в других регионах и объектах.
В общем виде статистика изучает и количественную сторону общественных явлений в целях раскрытия их качественных характеристик. Любая статистическая работа слагается из трех основных этапов:
1) статистического наблюдения;
2) сводки и группировки собранного материала;
3) статистического анализа.
Названные этапы связаны друг с другом, представляют неразрывное целое, и если допущена ошибка в одном из них, то вся работа может оказаться недостоверной. Здесь же используются специальные статистические методы. Рассмотрим последовательно каждый из указанных этапов.
1. Статистическое наблюдение представляет собой планомерный, научно организованный сбор массовых сведений о социально-экономических явлениях и процессах. Одно из основополагающих требований статистического наблюдения - достоверность, полнота и объективность собранных данных, которые определяют успех всей
последующей статистической работы.
Статистическое наблюдение опирается на закон больших чисел. Смысл этого закона состоит в том, что закономерности могут быть обнаружены только при массовом наблюдении. На изучаемый объект, например общественное мнение населения о деятельности милиции, действует множество различных факторов, но при массовом опросе людей совокупное действие большого числа этих факторов приводит к результату, почти не зависящему от случая. Происходит это потому, что случайные отклонения появляются по ту или другую сторону от среднего значения и взаимно уничтожаются, вследствие чего суммарное отклонение в большинстве случаев оказывается малым. Это - один из выводов закона больших чисел. Так, образовательный и культурный уровень у разных преступников может быть далеко не одинаков. Но лишь закон
412
больших чисел, т. е. результат массового статистического наблюдения, вскрывает здесь типические и характерные особенности, заключающиеся в том, что этот уровень значительно ниже, чем в среднем у граждан России. Закономерности, которые обнаруживаются лишь при суммировании большого числа единичных фактов, называются статистическими.
Предметом статистического наблюдения может быть одно или несколько свойств (характеристик) объекта. Для их изучения надо знать, из каких элементов состоит объект, какова роль каждого из них. В статистике имеется такое понятие, как совокупность.
Группа элементов или явлений, объединенных каким-либо общим свойством, которым обладает исследуемый объект, называется совокупностью. Отдельные элементы или явления, образующие сово-. купность, называются единицами совокупности. Взятая наудачу единица совокупности является случайной величиной, числовые параметры которой заранее неизвестны.
Признаком называется характерное свойство единиц совокупности. Дня качественных признаков отдельные значения имеют существенные различия. Для количественных признаков отдельные значения различаются по величине. Например, в качестве качественного и количественного признаков можно привести профессию и возраст обследуемых.
Во избежание ошибок наблюдения необходимо в процессе его подготовки и проведения предусмотреть и осуществить ряд мероприятий. К подобного рода мероприятиям относятся: четкая разработка цели, задач и программы наблюдения; детальная инструкция по программе наблюдения, правильный выбор даты наблюдения, его сроков и места; правильный подбор кадров, проводящих наблюдения, и их обучение. Целесообразно проводить проверку наблюдения в ходе его выполнения.
Однако в органах внутренних дел сбор статистических сведений осуществляется также в форме отчетности. Статистическая отчетность составляется на основании данных первичного учета. Первичный учет - это ведение систематических записей в специальных документах. Такими документами являются: карточки на зарегистрированное преступление (форма 1); на лицо, совершившее преступление (форма 2); о движении уголовного дела (форма 3). В карточках содержится обширная информация об объектах преступных посягательств, субъектах преступления по различным демографическим признакам (пол, возраст, образование и т.п.). Эти данные для их последующей обработки должны вводиться в компьютер.
413
Вернемся к специальному статистическому наблюдению, задача которого заключается в выполнении социального заказа. Все единицы совокупности объекта, относящиеся к изучаемому свойству (признаку), определяют генеральную совокупность. Общее число таких единиц, отражающее объем названной совокупности, обозначим буквой «N». Например, при изучении общественного мнения о деятельности конкретного городского отдела внутренних дел генеральную совокупность представляет население этого города, а ее единицей является отдельный человек. Если исследователя интересует процент осужденных, совершивших преступления в состоянии опьянения, генеральной совокупностью будут соответствующие уголовные дела за определенный период времени, а единицей совокупности -
одно уголовное дело.
По степени охвата единиц изучаемой совокупности наблюдения
делятся на сплошное, при котором регистрируются все без исключения единицы обследуемой совокупности, и несплошное, когда подлежит учету только часть ее единиц. Сплошное наблюдение дает полное представление о состоянии объекта по анализируемому признаку. Однако подобный метод связан с преодолением следующих практических препятствий:
генеральная совокупность нередко настолько велика, что нет возможности собрать данные в отношении каждой ее единицы. Так, выяснение общественного мнения населения Москвы о работе милиции методом сплошного обследования требует затрат и денежных средств;
иногда генеральная совокупность недоступна для полного (до последней ее единицы) изучения. Например, невозможно применить метод опроса к наркоманам города в силу определенной латентности
совершаемых ими незаконных сделок и покупок;
сплошное изучение генеральной совокупности может привести к ее порче или уничтожению. Это относится, в частности, к проверке годности патронов, поступающих в органы МВД, УВД, контрольной закупке блюд в общественных пунктах питания и т.п.
Несплошное обследование может осуществляться различными путями: методом основного массива, монографическим, выборочным
методами, направленным отбором.
Одним из самых распространенных является выборочный ме^ тод. Сущность его заключается в том, что исследованию подвергается лишь часть единиц генеральной совокупности для последующего суждения о последней в целом. Данная часть единиц называется вы-
414
борочной совокупностью. Она должна быть копией в миниатюре генеральной совокупности по тем характеристикам и признакам, которые подлежат изучению. Ее объем обозначим буквой «п», С полным основанием ее можно назвать моделью генеральной совокупности, а выборочный метод - разновидностью моделирования.
Известно, что выборочная совокупность выступает как модель генеральной совокупности, если: а) их структуры совпадают; б) осуществляется условие репрезентативности (представительности). Только в этом случае можно говорить о научной обоснованности данных, получаемых при исследовании модели.
Для выполнения первого условия генеральная совокупность делится по некоторому признаку на однородные части - типические группы, при этом N = Ni +N2+.,.+Nic (где k • число типических групп). Из каждой группы производится случайная выборка; при этом п = щ + П2+,..+0)с. Отношения между частями и целым в выборочной и генеральной совокупности должны совпадать, т.е. п/п = Nt/N, где i'=l,2...,k - номер типической группы. Такую выборочную совокупность в литературе называют типической (районированной или стратифицированной, т.е. расслоенной) выборкой,
Второе условие - репрезентативность выборочной совокупности, т.е. ее способность воспроизводить характеристики генеральной совокупности. Следовательно, достаточно точно отражающая ее выборка рассматривается как репрезентативная.
Считается, что репрезентативность достигается, когда расхождение между значениями какого-либо признака в генеральной и выборочной совокупностях не превышает ± 5%. Это расхождение называется предельной ошибкой выборки и обозначается в виде Л == ± У/о. Например, если исследователь определил, что средний возраст лиц в репрезентативной выборочной совокупности равняется 30 годам, то средний возраст лиц в генеральной совокупности будет находиться в пределах от 28,5 до 31,5 года.
Существуют определенные правила организации выборочного обследования. Они применимы для однородной генеральной совокупности. Если последняя состоит из нескольких типических групп, правила приложимы к каждой из них в отдельности. Такими правилами являются следующие:
количество взятых в выборку единиц должно быть достаточно велико;
415
• отбор должен обеспечивать равновероятность их включения в выборку из генеральной совокупности. Ни одна из единиц совокупности не должна иметь преимуществ перед другими;
отбор должен быть произведен из всей генеральной совокупности (из каждой типической группы).
Если генеральная совокупность не требует членения на типические группы, то использование типических правил обеспечивает собственно случайную выборку.
По способу организации различают выборки: собственно случайную, типическую, механическую, серийную, комбинированную, ступенчатую, многофазную53. Указанные виды выборки применяются в сочетании с повторным и бесповторным отбором.
Повторный отбор есть вид выборки, при котором отобранная однажды единица совокупности после ее изучения возвращается обратно в генеральную совокупность и снова участвует в процессе отбора. Бесповторный отбор характеризуется тем, что отобранная единица после ее изучения в генеральную совокупность не возвращается. При выборе ряда единиц вероятность попадания в выборку для оставшихся единиц генеральной совокупности возрастает.
В математической статистике существуют расчетные формулы объема (количества единиц) выборочной совокупности, в зависимости от способа выборки. Эти формулы дают ответ на вопрос, сколько изучить документов, сколько экземпляров анкеты тиражировать, сколько времени наблюдать за совокупностью, чтобы получить репрезентативную выборку.
Исследователи часто пользуются случайной бесповторной выборкой, когда заранее неизвестен объем генеральной совокупности (N), так как он не входит в расчетные формулы объема выборочной совокупности (п). Объем повторной выборки обычно выше, чем при бесповторном отборе.
Не представляет затруднений определить объем выборочной совокупности на компьютере, пользуясь, например, программой-приложением Excel 5.0 для Windows. Тем не менее приведем расчетную формулу объема репрезентативной случайной бесповторной выборки. Объем выборки, с одной стороны, должен быть минимальным
53 Михайлов Н.И., Кравченко Ю.А. Основы социологических знаний. Часть 4. Методика социологических исследований и ее использование в органах внутренних дел. - М., 1991.
416
(в целях сокращения объема работы по сбору и обработке информации), но вместе с тем достаточным для того, чтобы выводы о выборочной совокупности можно было бы перенести на генеральную совокупность.
Формула случайной бесповторной выборки имеет вид:
СТг2 * t2 *N
„=————————, (3.8.1)
A^N+CTr2*!2 где N - объем генеральной совокупности;
n - объем выборочной совокупности;
Отг2 - дисперсия генеральной совокупности;
t - коэффициент доверия;
Д - предельная ошибка выборки (репрезентативности).
Смысл предельной ошибки выборки был рассмотрен ранее. Если исследователь желает, чтобы расхождений в характеристиках выборочной и генеральной совокупностей не было (т.е. чтобы А=0), то, подставляя нулевое значение этой ошибки в формулу, он получит n=N. Это указывает на необходимость сплошного наблюдения.
На степень однородности генеральной совокупности указывает величина Отг2 . Так, если исследователя интересует средний возраст лиц, составляющих генеральную совокупность, то дисперсия Стг2 показывает степень разброса (рассеяния) возрастов отдельных лиц вокруг среднего значения. При Отг2 = 0 все единицы совокупности однородны и п=0. Следовательно, выборку делать не нужно, а достаточно изучить любую единицу генеральной совокупности. Следует отметить, что Стг2» Ств2 (дисперсия выборочной совокупности) при п>30.
Коэффициент доверия t характеризует, с какой вероятностью признак находится в генеральной совокупности в заданных пределах. Чем выше требуется вероятность, тем большее значение t и тем шире интервал, в который попадает изучаемый признак. При этом объем выборки n заметно увеличивается.
Когда же исследователя интересует доля какого-либо признака в генеральной совокупности, тогда дисперсия Стг2 в формуле 3.8.1 заменяется выражением рг*(1 - рг).
Основная трудность расчета объема выборки заключается в определении величин Стг2 и рг*(1 - рг), поскольку к началу обследования они неизвестны ни по генеральной, ни по выборочной совокупности ввиду того, что выборка еще не произведена. Поэтому рассматривает-
14 Заказ 1497
417
ся приближенное значение рг и оД а именно рг =0.5 и а^О.И^Хтш -Xmin). Эти значения обеспечивают завышенный объем п. После проведения выборки уже можно определить более точные значения рг и Стг2.
Рассмотрим сказанное на примере. Так, разработана анкета опроса населения города о работе милиции. Для расчета тиража анкеты воспользуемся формулой случайной бесповторной выборки. Взрослое население составляет N = 224160 чел. Будем считать, что рг - доля лиц, удовлетворенных работой милиции, составляет 0,5 (или 50%). Берем t=2 - коэффициент доверия, характеризующий вероятность близости результатов опроса выборочной и генеральной совокупно-стией (q = 0,954), а Д=0,05 или (5%). Подставляя исходные данные в формулу 3.8.1, получаем п = 399.
Если на первом этапе обращается внимание на полноту, качество и достоверность собранной информации из выборочной совокупности, то на втором этапе нужно стремиться к эффективности использования первичных данных для решения задач анализа.
2. Сводка и группировка собранного материала - основные понятия статистики. Под сводкой понимается обработка материалов наблюдения для получения итоговых или определенным образом упорядоченных числовых характеристик изучаемой совокупности. На этой стадии совершается переход от характеристик и единиц к характеристике их совокупности.
При сводке основное внимание уделяется группировке результатов наблюдения. Под группировкой понимается разделение единиц совокупности на качественно однородные группы по существенным варьирующимся признакам, называемым группировочными. Существует несколько видов группировок:
типологическая, расчленяющая разнородную массу явлений на качественно однородные категории или типы (например, виды преступлений);
вариационная, характеризующая структуру совокупности по какому-либо количественному (варьирующему) признаку (например, стаж работы в органах); \
аналитическая, дающая возможность изучать взаимосвязи между двумя и более признаками совокупности (например, влияние миграции населения на преступность).
Результаты сводки и группировки данных, как правило, оформляются в табличном и графическом видах, причем первый вид пред-
418
Таблица 3.8.1 Структура статистической таблицы Сказуемое
Подлежащее
Числа
ставления данных наиболее рационален и удобен для дальнейшей обработки, тогда как второй дает максимум наглядности.
Статистические таблицы имеют два основных элемента, которые по аналогии с грамматическим предложением называются подлежащим и сказуемым. Подлежащим называется то, о чем говорится в таблице, например о видах преступления. Подлежащее размещается в строках левой части таблицы. Сказуемое таблицы определяет перечень признаков, характеризующих подлежащее, записывается вверху таблицы и обусловливает содержание ее столбцов. Такими признаками могут быть районы региона или периоды времени, дающие возможность проследить динамику видов преступлений. Клетки, образуемые на пересечении строк и столбцов, содержат числовые данные (см. табл. 3.8.1). В зависимости от содержания таблицы подлежащее и сказуемое могут меняться местами.
Пусть в результате выборочного обследования осужденных за тяжкие телесные повреждения (п =55) в качестве наблюдаемого признака взят возраст. Анализ возрастных особенностей названной группы применительно к 55 осужденным дал результаты, которые введены в табличный процессор Excel 5.0 для Windows.
При изучении результатов выборочных наблюдений их прежде всего упорядочивают. Нужно расположить значения случайной величины в порядке возрастания Xi < Xz <...< Хп. В этом ранжированном ряду различные значения, как видно из табл. 3.8.2, встречаются несколько раз. Такие различные X, называются вариантами, а ряд вариантов, расположенных в порядке их возрастания - вариационным рядом.
Таблица 3.8.2 Результаты выборки
14*
16
22
20
19
18
24
21
17
23
18
19
16
22
18
23
20
19
20
18
21
18
19
24
17
16
23
19
25
21
20
18
19
22
20
18
17
21
19
20
23
25
22
20
17
24
19
17
21
18
19
21
26
22
19
20
419
Пусть Xi наблюдался mi раз, X; - m; раз и т.д. Число наблюдений называют частотой и обозначают т. Сумма частот равна объему выборки п. Отношение частоты к объему выборки называется частостью и обозначается р;* = т;/п. Частость характеризует долю каждого значения в общем числе наблюдений и является статистической вероятностью. Варианты и соответствующие им частоты (или частости) образуют статистический ряд выборки.
Проранжируем в Excel 5.0 варианты (для этого они должны быть в одной строке или столбце) и определим с помощью «Мастера функций» частоты, соответствующие каждому варианту. В результате в рабочем листе Excel 5.0 имеем табл. 3.8.3.
Статистический ряд выборки
Таблица 3.8.3
Вариационные ряды делятся на дискретные и интервальные. В дискретном ряду вариант принимает дискретное значение (количество лет, стаж работы в органах внутренних дел и др.). В случае интервального ряда значения варианта даются в виде интервалов, которые получаются в результате группировки данных наблюдения. Частоты при этом относятся не к отдельному значению признака, а к некоторому интервалу (например, варианты норм выработки в исправительных учреждениях в виде интервалов: 65-70%, 70-75%, 80-85% и т.д.).
Статистический ряд является эмпирическим законом распределения выборочной совокупности. К универсальной характеристике случайной величины относится ее функция, или плотность, распределения. Функцию распределения генеральной совокупности будем называть теоретической функцией распределения F(x), а статистическую функцию распределения выборки - эмпирической функцией распределения Fn (x).
При больших объемах наблюдений n Fn (x) —> F(x), т. е. эмпирическая функция распределения выборки с ростом ее объема приближается к теоретической функции распределения генеральной сово-
420
купности и может быть использована для ее приближенного представления.
Для достижения наглядности строят различные графики статистического распределения, из которых чаще всего используют полигон или гистограмму. Они являются графическим изображением статистического ряда. Графики, подобно другим искусственным языкам, (например, математическому) имеют целый ряд положительных свойств, особенно в смысле лаконичности, однозначности и наглядности.
Выделив табл. 3.8.2 в рабочем листе Excel 5.0 для Windows, можно построить гистограмму, полигон и кумулятивную кривую (кумуляту). За это отвечает «Мастер диаграмм».
При построении гистограммы над каждым временным интервалом (в один год) варианта строится прямоугольник, высота которого пропорциональна соответствующей частости, выраженной в % (см. рис. 3.8.1).
Полигон строят из отрезков, соединяющих точки, координатами которых являются значения вариантов X, и соответствующие частости, или частоты. На рис. 3.8.2 в виде полигона отображен вариационный ряд из табл. 3.8.3.
На оси ординат отложены частоты ряда. Из гистограммы можно получить полигон распределения, для чего необходимо соединить ломаной линией середины верхних сторон прямоугольников. При увеличении объема выборки число сторон полигона распределения будет расти, и его ломаная линия будет стремиться к плавной кривой распределения, которая отражает теоретическое распределение генеральной совокупности.
В ряде случаев для изображения вариационного ряда используется кумулятивная кривая (см. рис. 3.8.3). Для ее построения подсчитываются по вариантам накопленные частоты, или частости. Первому варианту Xi (16 лет) соответствует частость mi/n, второму X; - сумма (mi + mz)/n, третьему X - сумма (mi+ т-^+ гпз)/п и т.д. Последнему варианту Хщах соответствует накопленная частость, равная единице или 100, если подсчет ведется в %.
Рис. 3.8.1. Гистограмма
421
• В 17 18 19 23 21 22 23 24 25 26 возраст
Рис. 3.8.2. Полигон
Рис. 3.8.3. Кумулята
Накопленные частоты показывают, сколько единиц совокупности имеют значения признака не больше, чем рассматриваемое значение. Так, на рис. 3.8.3 показано, что возраст 90% осужденных за совершение тяжких телесных повреждений не превышает 23 лет.
Иногда в статистике, помимо диаграмм, применяется еще особый вид графических изображений вариантов - картограммы. Картограмма - это изображение величины интересующего признака (его размещение, интенсивность) на географической карте с помощью графических символов: штриховки, расцветки,» точек. Картограмма иллюстрирует содержание статистических таблиц, подлежащим которых является административно-географическое деление совокупности. Разновидностью картограммы является картодиаграмма. Она представляет собой географическую карту, по отдельным районам или пунктам которой размещены графические знаки (столбики, круги и т.д.), соответствующие величине статистических показателей, изображенных на ней. Следует отметить, что Excel 7.0 способен создавать картодиаграммы.
Варианты статистического ряда могут быть абсолютными и относительными величинами. Абсолютные величины - форма выражения статистических показателей, непосредственно характеризующая абсолютные размеры правовых явлений, их признаков в единицах соответствующих систем измерения. Так, абсолютные величины характеризуют общее количество зарегистрированных преступлений, общую сумму ущерба, сроки лишения свободы, число уголовных дел и др.
422
Однако сравнительный анализ преступности по отдельным регионам нельзя проводить путем использования абсолютных величин, поскольку регионы могут отличаться по численности населения и другим параметрам. Поэтому для сравнения, обобщения, определения интенсивности развития исследуемого явления, его структуры, динамики используются относительные величины.
Относительные величины - это отношение двух величин. Числитель отношения - текущие данные об исследуемом явлении (преступления, суммы ущерба и т.д.). Знаменатель отношения называется основанием или базой (сравнения). В качестве текущей или базисной могут выступать как одноименные, так и разноименные величины. В первом случае получаем безразмерные величины. Если основание принять за единицу, то величины образуют долю, или коэффициент. Он показывает, во сколько раз сравниваемая величина больше или меньше основания, например доля квартирных краж в преступлениях по линии уголовного розыска. Если основание принять за 100%, то относительная величина будет выражаться в процентах (например, число преступлений в регионе в 1998 г. - 2930, в 1997 г. - 2014, темп роста преступности К = 2930/2014*100= 145,5%). К разноименным относительным величинам относятся, например, уровень преступности в расчете на 10 тыс. человек, нагрузка на одного следователя и др.
Средние и относительные величины относятся к обобщающим показателям, которые характеризуют одним числом типичные, наиболее распространенные стороны изучаемых явлений. Обобщающие показатели отражают по определенному признаку всю совокупность в целом, отвлекаясь от частного и случайного, что дает возможность установить и измерить закономерности различных массовых процессов.
Главное значение средних величин состоит в замене множества различных индивидуальных значений признака средней величиной, характеризующей всю однородную совокупность. В статистике к средним величинам относятся: средняя арифметическая, средневзвешенная, .средняя геометрическая, средняя гармоническая, средняя квадратическая, средняя кубическая, медиана, мода. Рассмотрим некоторые из них.
Средняя арифметическая величина получается путем деления суммы величин вариантов на их число. При ее вычислении общий объем признака мысленно распределяется поровну между всеми единицами совокупности. В результате получается средняя арифметическая величина - среднее слагаемое. Формула средней арифметической имеет следующий вид:
423
x = x i + x 2 +•••+ x
Z x
(3.8.2)
X - средняя величина; n - численность совокупности.
Если же отдельные значения признака повторяются неодинаковое число раз, то средняя определяется по формуле средней взвешенной арифметической. Формула имеет вид:
Sx,*f,
if,
(3.8.3)
где fi - значение частот; i - номер интервала с одинаковыми вариантами; k - число интервалов.
Частоты нередко называют весами средней, отсюда и происходит название средней взвешенной.
В теории вероятностей такую же формулу имеет показатель -математическое ожидание. Его формула имеет вид:
£x,*
М(х)= ^
(3.8.4)
где М(х) - математическое ожидание; р, - вероятность появления значения х; случайной величины X.
Математическое ожидание представляет собой центр распределения, около которого сосредоточены все возможные значения случайной величины. Поэтому математическое ожидание иногда называют просто средним значением случайной величины.
Для определения средних темпов прироста или снижения признака (например, количества преступлений), когда на протяжении всех исследуемых лет происходит либо его непрерывный рост, либо непрерывное снижение, применяется средняя геометрическая, которая определяется по формуле:
K.eoM-^k,*k2*...*kn ,
где k; - темп роста в i-й период; n - число периодов.
(3.8.5)
424
В качестве примера рассмотрим число уголовных дел на одного следователя по годам (см. табл. 3.8.4).
Таблица 3.8.4 Динамика нагрузки на следователя по годам
Показатель
Годы
1
2
3
4
Число дел на одного следователя
20
24
36
72
Обозначим нагрузку на следователя как X. Тогда ki=X2/Xi=24/20 = 1,2; k2=Xa/X2 =36/24= 1,5; k3=X4/X3=72/36= 2.
______ Следовательно, за четыре года число
{^ =^/1,2*1,5*2 =1,5 дел на одного следователя в среднем увеличивалось в 1,5 раза. Используя этот показатель, можно осуществить прогноз на пятый год при условии сохранения тенденции. Для этого нужно нагрузку на следователя в четвертом году умножить на среднее геометрическое, т.е. Х5 = Х4* 1.5=72* 1.5=108 уголовных дел.
Отметим, что все интересующие исследователя показатели, характеризующие вариационный ряд, без труда можно проводить в табличном процессоре Excel 5.0 для Windows. Его пользователю не нужно знать математических формул, достаточно обратиться к «Мастеру функций» и он проведет все расчеты.
Для вариационного ряда, представленного в табл. 3.8.3, расчетные показатели, полученные Excel 5.0, приведены в табл. 3.8.5. Так, средневзвешенная величина равна 20,05, а средняя геометрическая равна 19,9. Здесь средняя геометрическая рассчитывает не темп роста, а качественное удаление от максимального и минимального значений с учетом частот вариантов.
При изучении вариационного ряда применяются также характеристики, которые описывают его структуру, строение. К ним относятся медиана и мода.
Медиана (обозначается «Me») - значение величины вариационного ряда, расположенного в его середине, т.е. она делит ряд на две равные части. Медиана в отличие от средней не зависит от значений признака, стоящих на краях вариационного ряда
425
(перед вычислением медианы ряд должен быть обязательно ранжирован, если до этого он не подвергался сортировке).
Если в вариационном Таблица 3.8.5
Расчет показателей ряда приложением Excel
ПОКАЗАТЕЛИ
Средняя величина
20,05
Медиана
20
Мода
19
Средняя геометрическая
19,9
Средняя гармоническая
19,8
Максимум
26
Минимум
16
Размах вариации
10
Среднее линейное отклонение
1,99
Дисперсия
6,13
Среднее квадратическое отклонение
2,48
Коэффициент вариации
0,12
Скос
0,45
Эксцесс
-0,44
ряду четное число вариантов, то Me будет половиной суммы двух серединных вариантов. На практике медиана применяется в качестве средней в случае больших колебаний в значениях варьирующего признака.
Модой (обозначается Мо) называется вариант признака, имеющий наибольшую частоту, т. е. мода - наиболее типичное значение признака. Из табл. 3.8.5 видно, что Мо = 19, Me = 20. Как правило, в вариационных рядах Мо < Me ^ Хсредн. Если они равны друг другу, то вариационный ряд подчиняется нормальному закону распределения. В случае различия их значений эти показатели используются для характеристики асимметрии (скоса) кривой распределения. В нашем случае (см. табл. 3.8.5) они близки друг другу (19; 20; 20,05), поэтому можно предположить, что эмпирический ряд близок к нормальному закону распределения.
Однако для характеристики исследуемого признака совокупности недостаточно иметь данные о средней величине этого признака. Бывают такие случаи, когда средние величины двух и более совокуп-ностей одинаковые, но они существенно отличаются своей вариацией, т.е. в одной совокупности отдельные варианты могут далеко отстоять от средней, а в другой - они могут размещаться кучно возле средней.
Если отдельные варианты недалеко отстоят от средней, данная средняя хорошо представляет свою совокупность. Для того чтобы изучить, как велики эти отклонения, их измеряют при помощи ряда показателей вариации.
426
Для характеристики величины колебания в статистике исчисляют следующие показатели: размах вариации; среднее линейное отклонение; дисперсия; среднее квадратическое отклонение; коэффициент вариации.
Размах вариации является наиболее простым измерителем вариации и представляет собой разность между наибольшим и наименьшим значениями признака. Его формула имеет вид:
R = X щах- Х mm , (3.8.6)
где Х щах - наибольшее значение признака; Х щ,п - наименьшее значение признака.
В нашем случае R = 10 (см. табл. 3.8.5). Поскольку величина размаха характеризует лишь максимальное различие значений признака, она не может измерять закономерную силу его вариации во всей совокупности.
Более точную характеристику колеблемости можно получить, если сравнить все имеющиеся значения с их средней величиной. Также сравнение можно сделать на основе среднего линейного отклонения, которое от среднего значения отнимает значения вариантов по абсолютной величине (не учитывая минусов). Его формула имеет вид:
а=
п
£
Xi-X|
(3.8.7) или с учетом частот (3-8-8)
k
Zx,
а=
*
n
n
j - номер интервала с одинаковыми частотами.
Для выборочной совокупности, представленной в табл. 3.8.3, а =1,99 (см. табл. 3.8.5).
Простота расчета и интерпретации составляет положительные стороны данного показателя, однако его нельзя поставить в соответствие с каким-либо вероятностным законом, в том числе и с нормальным распределением, одним из параметров которого является среднее квадратическое отклонение.
В математической статистике для оценки рассеяния вариантов используется дисперсия (Д), часто называемая средним квадратом отклонения. Ее формула имеет следующий вид:
n __^ k ——2 .
£(Xi-X) (3.8.9) или с учетом E(Xj-X) * fj D=ст2=м————— частот (3.8.10) 0=^————————
П
n
427
Для нашего вариационного ряда D = 6,13 (см. табл. 3.8.5). На использовании дисперсии основаны практически все методы математической статистики. Однако в ряде случаев D неудобно пользоваться, так как она имеет размерность X2.
Значительно более употребимой характеристикой колеблемости признака в изучаемой совокупности является среднее квадратическое отклонение, размерность которого совпадает с размерностью вариантов вариационного ряда. Его величина определяется как квадратный корень из дисперсии, а именно:
(3.8.11) или с учетом частот (3.8.12)
Среднее квадратическое отклонение в реальных совокупно-стях всегда больше среднего линейного отклонения. Соотношение ст/а зависит от наличия в совокупности резких выделяющихся отклонений и может служить индикатором «засоренности» совокупности неоднородными с основной массой элементами. Чем это соотношение больше, тем сильнее подобная «засоренность». Для нормального закона распределения ст/а = 1,25. Для нашего вариационного ряда ет/а =2,48/1,99 = 1,25, что говорит об его хорошей близости к нормальному закону распределения.
Для оценки интенсивности вариации и для сравнения ее в разных совокупностях и тем более для разных признаков используются относительные коэффициенты вариации. Чаще других применяется коэффициент вариации, являющийся отношением среднего квадрати-ческого отклонения к среднему значению математического ожидания вариационного ряда. Его формула имеет вид: V = ст/М (3.8.13). Для нашего случая V= 0,12 (см. табл. 3.8.5). Коэффициент вариации часто используют самостоятельно для определения степени согласованности экспертов при их оценке различных объектов. Чем меньше V и ближе к нулю, тем мнения экспертов считаются более согласованными.
Иногда подсчитывают показатель репрезентативности (имеет формулу q^^OO0/^/!!^^) вариационного ряда. Он не должен превышать 5%. Для нашего случая q = 1,62%.
Для дальнейшего изучения характера вариации используются такие показатели, как скос (коэффициент асимметрии), эксцесс.
428
Рис. 3.8.4. Виды асимметрии
Скос (коэффициент асимметрии, обозначается «As» показывает, какая из ветвей кривой распределения длиннее другой. Если As <0, левая ветвь длиннее правой, т.е. имеем левостороннюю асимметрию (см. рис.3.8.4). Если As>0, правая ветвь длиннее левой, что свидетельствует о правосторонней асимметрии (см. рис. 3.8.4). Из рисунка 3.8.2 видно, что полигон вариационного ряда скошен, при этом As = 0,45 (см. табл. 3.8.5). Налицо -незначительная правосторонняя асимметрия.
Эксцесс (обозначается «Ех») характеризует еще более сложное свойство вариационных рядов, а именно-степень крутизны распределения по сравнению с кривой нормального распределения. Кривые, у которых эксцесс отрицательный (Ех<0), имеют более плоские вершины по сравнению с нормальной кривой и называются плосковершинными.
Кривые, у которых эксцесс положительный (Ех>0), имеют более острую вершину по сравнению с нормальной кривой и называются островершинными (см. рис. 3.8.5).
Для нашего вариационного ряда Ех = -0.44 (см. табл. 3.8.5), что свидетельствует о незначительной островершинности эмпирической кривой распределения. Для нормального распределения As=Ex=0. Скос и эксцесс имеют довольно сложные математические выражения (см. формулы 3.8.13 и Рис. 3.8.5. Сравнение теоретической и экс- „ „ , ^
периментальной кривых
429
(3.8.14)
Однако, обратившись к «Мастеру функций» программного средства Excel 5.0 для Windows, пользователь оперативно подсчитает As и Ex. Отметим, что использование современных аппаратных и программных средств позволяет не только повысить оперативность подготовки представления статистической информации, но и существенно увеличить и усилить ее аналитические возможности.
Итак, анализируя средние и вариационные показатели вариационного ряда (см. табл. 3.8.2), можно сделать предположение, что его генеральная совокупность хорошо согласуется с нормальным законом распределения или, другими словами, теоретическая кривая нормального распределения хорошо описывает эмпирические данные нашего ряда.
К такому же выводу можно прийти, сравнивая близость эмпирических и теоретических кривых. Однако теоретические и эмпирические законы распределения могут значительно отличаться друг от друга. Расхождение между ними может быть случайным и объясняться малым объемом выборки, неудачным способом группировки статистических данных. Но, возможно, причина расхождения в том, что была не верна исходная посылка или, как принято говорить в статистике, гипотеза о виде теоретического закона распределения. Помимо нормального закона распределения существует и много других, например закон Пуассона, биномиальный закон распределения и др.
Если теоретическая кривая подобрана неверно, то естественно, что расхождение ее с экспериментальным распределением не случайно, а закономерно. Для того чтобы вынести суждение о том, насколько распределение теоретического и эмпирического законов распределения существенно, используется критерий согласия.
Критерием согласия называют критерий гипотезы о том, что генеральная совокупность имеет теоретическое распределение предполагаемого типа.
Статистическая гипотеза о том, что эмпирическое распределение случайной величины описывается известным теоретическим законом распределения, называется нулевой. Понятие гипотезы, с которым имеет дело математическая статистика, более узко, чем общее
430
понятие гипотезы (предвидение того, что ожидается от исследования). Статистические гипотезы касаются поведения наблюдаемых случайных величин (вариантов статистических рядов). Их проверка осуществляется путем сопоставления с результатами наблюдений. Но результаты наблюдений зависят от случая. Поэтому статистические гипотезы носят не категорический, однозначный характер, а характер правдоподобного утверждения, которое также имеет вполне определенную вероятность (р = 0,95 - 0,99).
Критерии согласия позволяют судить о том, согласуются ли наблюдавшиеся значения случайной величины с выдвинутой нулевой гипотезой о виде ее распределения. Существуют критерии согласия Колмогорова, Пирсона, Смирнова, Романовского, Ястремского и др. Наиболее часто используют для проверки критерий Пирсона, называемый также критерием у1 (хи-квадрат), который устанавливает критическую меру расхождения между теоретическим и практическим законами распределения.
Порядок проверки гипотезы о виде закона распределения с помощью критериев согласия состоит из следующих шагов.
1. Выдвигается гипотеза о виде закона распределения вариационного ряда и определяются его показатели.
2. Задают уровень значимости критерия а, например а = 0,01. Это значит, что с вероятностью р = 1 - а = 0,99 ( 99 %) гипотеза будет принята правильно.
3. Вычисляют величину эмпирического критерия на основе параметров вариационного ряда Кэмп-
4. По таблице критических значений распределения находят теоретический (часто называют «критический») критерий согласия Кт при заданном значении а.
5. Делают вывод относительно проверяемой гипотезы о согласованности теоретического и эмпирического распределений:
а) если Кэмп < Кт, гипотезу принимают;
б) если К эмп > К т, гипотезу отвергают.
Поскольку категоричные суждения в статистике не принимаются, в случае Кэмп < Кт можно только утверждать, что принятая гипотеза не противоречит результатам наблюдения. Другими словами, проверка статистических гипотез позволяет отвергнуть гипотезу как неправильную, но не позволяет доказать, что она верна, лишь указывает на отсутствие опровержения со стороны опытных данных.
431
Для нашего эмпирического вариационного ряда (см. табл. 3.8.2) нужно подсчитать Кэмп> в качестве которого возьмем 5С2. Для вычисления х эмп необходимо сравнить эмпирические частоты вариационного ряда с теоретическими, рассчитанными Excel 5.0 для кривой нормального распределения при заданных значениях Хср и ст. Получаем, что ^эмп =3,52. По таблице значений ^крит при а = 0,01 и числе степеней свободы к = t - г -1=6, где t -количество интервалов, г - число параметров распределения, находим = 16,8. Следовательно, нет оснований отвергать гипотезу о нормальном распределении возрастов осужденных в выборочной совокупности, так как ^эмп <')(гкpи^•
Итак, оценка эмпирического распределения сводится к решению трех задач:
1) нахождению общего характера эмпирического распределения (построение полигона и вычисление основных показателей);
2) сглаживанию эмпирического распределения посредством известного теоретического распределения, в зависимости от характера полученных показателей, вида полигона и навыков самого исследователя;
3) проверке степени близости эмпирического и теоретического распределений с помощью критерия согласия.
Поскольку генеральная совокупность вариационного ряда, представленного в табл. 3.8.2, соответствует нормальному закону распределения (согласно нулевой гипотезе), рассмотрим более подробно свойства этого закона.
Нормальный закон распределения проявляется в тех случаях, когда случайная величина Х образуется в результате действия большого числа взаимно независимых факторов, причем каждый фактор не доминирует над другими по степени своего влияния на X.
Кривая нормального распределения, или просто нормальная кривая, имеет холмообразный вид. В формулу кривой входят параметры М(х) - математического ожидания, и ст(х) - среднего квадрати-ческого отклонения. Математическое ожидание или Хср являются центром симметрии кривой, вокруг которого группируются случайные величины. При изменении кривая смещается вдоль оси X, сохраняя свой вид. Так, на рис. 3.8.6 видно, что изменение Хср значения 20 на 15 сдвигает нормальную кривую влево по оси X.
432
С изменением ст(х) вид кривой меняется: с ростом ст(х) кривая прижимается к оси Х и растягивается вдоль нее (большой разброс случайной величины X) (см. на рис. 3.8.6 кривую с от(х)= 5), с уменьшением о(х) кривая вытягивается вдоль оси ординат. Точки перегиба54 у
кривой отстоят от М(х) на расстоянии ±
Рис. 3.8.6. Кривые нормального закона распределения
ст(х). Известно также правило, что:
95%распределения лежит между значениями М - 2ст; М + 2ст;
более, чем 99% распределения заключено между М- Зет; М+ Зст.
Напомним, что у кривой нормального распределения М(х)=Мо(х)=Ме(х).
3. С помощью методов статистического анализа исследуют структуру и динамику преступности, определяют факторы, влияющие, на нее, оценивают на основе конкретных критериев эффективность работы органов внутренних дел.
Основная цель статистического анализа заключается в установлении и измерении взаимосвязей и закономерностей изучаемых массовых явлений и процессов. К главным задачам относятся: 1) описание явления; 2) сопоставление и выявление закономерностей; 3) составление прогноза; 4) подготовка выводов.
Выявляя количественные взаимосвязи, соотношения и закономерности, статистический анализ помогает изучать и в определенной степени объяснять характер и причины явлений, условий и механизм их развития. Статистический анализ характеризует, что было и что есть. Но чтобы познать явление, надо знать не только прошлое и настоящее, но и иметь представление о будущем, о перспективах и тен-
54 Точкой перегиба функции у = f(x) называется такая, в которой кривая из вогнутой становится выпуклой, и наоборот.
433
денциях развития явлений. Таким образом, статистический анализ имеет и прогностическую функцию.
Статистический анализ позволяет выявить «тревожные» моменты в характеристике преступности, положительные стороны и недостатки в работе ОВД, слабые звенья (например, низкий уровень раскрываемое™ преступлений, длительные сроки и низкое качество расследования и рассмотрения дел и т.д.), чтобы на основе этих данных своевременно принять решение, разработать меры по устранению недостатков. В конечном итоге статистическая информация нужна именно для того, чтобы сделать практические выводы для улучшения организации работы.
Статистический анализ характеризуется применением разнообразных методов математической статистики: корреляционного, дисперсионного, факторного, кластерного и др.
Большинство статистических задач достаточно трудоемки и требуют большого количества рутинных вычислений, ограничивающихся в целом ряде случаев простыми математическими операциями. Поэтому автоматизация решения такого класса задач просто необходима.
К универсальным пакетам статистических программ можно отнести: DataStat, MicroStat, MultiStat, P-Stat, SAS, Soritec, SPSS, STADIA, STATA, StatGraphics, Statistica, StatPro, StatView, Systat и др. Эти прикладные программы имеют различную структуру и интерфейс с пользователем, обеспечивая широкий набор статистических процедур для анализа данных наряду с другими функциями (ввод и редактирование данных, графический анализ и др.).
Например, пакет StatGraphics содержит практически все функции статистического анализа, великолепную графику и по обилию своих возможностей представляет большой интерес для специалиста-математика. В сравнении с StatGraphics небольшой пакет MicroStat более прост в использовании и включает лишь ряд функций для оценивания плотностей распределений, дисперсионного и регрессионного анализа и ряда др.
Для работы с «гигантскими» массивами данных и многоцелевого использования прекрасно зарекомендовал себя пакет SAS (Statistical Analysis System), который является лидером перечисленной группы статистических программ. Однако он требует для своей работы 10-16 Мбайт оперативной памяти, в зависимости от полноты используемых функций пакета, и не менее 120 Мбайт памяти на жестком диске.
434
Excel 5.0 для Windows представляет значительное количество разнообразных функций как для описательной, так и для производной статистики и анализа данных. В случае многомерного статистического анализа, т.е. анализа со многими зависимыми переменными, Excel (версии 5.0 и 7.0) по своим возможностям ничем не уступает стандартным статистическим пакетам, указанным выше. Поэтому дальнейший статистический анализ будем иллюстрировать расчетами в Excel 5.0 для Windows.
Характеристика динамических рядов. Общественные явления, в частности преступность и правонарушения, изучаемые статистикой, находятся в постоянном развитии и изменении. При изучении социально-экономических процессов в развитии применяют ряды динамики.
Динамический ряд - последовательный ряд значений статистических показателей, характеризующих изменение общественных явлений во времени. Числовые значения показателей динамического ряда называются уровнями ряда.
С помощью динамических рядов изучение закономерностей развития социально-экономических явлений осуществляется в следующих направлениях:
характеристика уровней развития изучаемых явлений во времени;
измерение динамики изучаемых явлений посредством системы статистических показателей;
выявление и количественная оценка основной тенденции (тренда) развития;
изучение периодических колебаний;
экстраполяция и прогнозирование.
Основным условием для получения правильных выводов при анализе динамики является сопоставимость его элементов. Несопоставимость в динамических рядах вызывается различными причинами. Это могут быть разновеликость показаний времени, неоднородность состава изучаемых совокупностей во времени, изменения в методике первичного учета и обобщения исходной информации, различия применяемых в отдельные периоды единиц
измерения и др.
В зависимости от характера уровней ряда различают два вида динамических рядов: моментные и интервальные.
435
Моментным называется ряд динамики, уровни которого характеризуют состояние явления на определенный момент времени (см. табл. 3.8.6).
Таблица 3.8.6 Пример моментного ряда
Момент времени
Годы
1.01.95
1.01.96
1.1.97
1.1.98
Штат ОВД
160
165
166
170
В каждом последующем уровне этого ряда содержится полностью или частично предыдущий уровень. Уровни ряда удобно сравнивать для изучения развития изучаемого явления во времени.
Интервальным называется такой ряд динамики, уровни которого характеризуют размер явления за отдельные периоды времени (см. табл. 3.8.7). Уровни интервального ряда не содержатся в предыдущих и последующих показателях. Поэтому важное значение имеет суммирование этих уровней. Свойство суммирования уровней за последовательные интервалы времени позволяет получать ряды динамики более укрупненных периодов.
Таблица 3.8.7 Пример интервального ряда
Показатель
Годы
1995
1996
1997
1998
Количество зарегистрированных убийств
48
60
78
90
Для количественной оценки динамики социально-экономических явлений применяются статистические показатели. К основным показателям относятся: абсолютный прирост, темп роста и темп прироста.
Базисный абсолютный прирост AYo вычисляется как разность между сравниваемым уровнем y( и уровнем, принятым за постоянную базу сравнения yq, а именно AYg = y( - Y„ (3.8.15). Например, базисный абсолютный прирост зарегистрированных убийств в 1997 г. по сравнению с 1995 г. составляет ЛУб = 78 - 48 = 30 (данные и далее берутся из табл. 3.8.7).
Цепной абсолютный прирост АУц представляет собой разность между сравниваемым уровнем y( и уровнем, который ему предшест-
436
вует , т. е. AY„ = y( - Уц (3.8.16). Так, цепной абсолютный прирост зарегистрированных убийств в 1997 г. по сравнению с 1996 г. составляет ЛУц=78-60=18.
Распространенным статистическим показателем динамических рядов является темп роста. Он характеризует отношение двух уровней ряда и может выражаться в виде коэффициента или в процентах. Базисный темп роста Трб( исчисляется делением сравниваемого уровня y( на уровень Yo, принятый за постоянную базу сравнения. Формула имеет вид: Трб» = y( / Yo (3.8.17). Например, темп роста зарегистрированных убийств в 1997 г. по сравнению с базовым 1995 г. равняется
Трб ==78/48=1,63.
Цепной темп роста исчисляется делением сравниваемого уровня
на предыдущий уровень, а именно Трц i = y( / Yt-i (3.8.18). Так, темп роста зарегистрированных убийств в 1997 г. по сравнению с 1996 г.
равняется Трц( = 78/60 =1,3.
Темпы прироста характеризуют абсолютный прирост в относительных величинах. Базисный темп прироста Тпб( вычисляется делением сравниваемого абсолютного прироста ДУб на уровень, принятый за постоянную базу сравнения Yo, то есть Тпб(=АУб/Уо (3.8.19). Так, базисный темп прироста зарегистрированных убийств в 1995 г. составляет Тпбз = 30/48 = 0,625. Часто темп прироста исчисляют не в долях, а в процентах. В этом случае абсолютный темп прироста показывает, на сколько процентов изменился сравниваемый уровень с уровнем, принятым за базу сравнения. Полученный результат в долях
умножается на 100%, тогда Тпбз= 62,5 %.
Аналогично вычисляется цепной темп прироста:
Тпщ=ДУц (/у».] (3.8.20). Подсчитаем темп прироста зарегистрированных убийств в 1997 г. по сравнению с 1996 г.: Тпцз =16/60=0,267, или 26,7% . Кроме того, для сравнения динамических рядов используются средние величины: средний уровень, средний абсолютный прирост, средние темпы роста и прироста.
В интервальных рядах динамики средний уровень Yep определяется делением суммы уровней на их число, т. е. подсчитывается средняя арифметическая по формуле (3.8.2). Так, для интервального ряда, представленного в таблице 3.8.7, Yep = (48+60+78+90)/4 = 69 зарегистрированных убийств в год.
437
Для моментных рядов средний уровень определяется как средняя хронологическая с равностоящими датами времени. Она равна сумме уровней ряда, деленной на число уровней без единицы; при этом начальный и конечный уровни должны быть взяты в половинном размере, так как число дат (моментов) обычно бывает на единицу больше, чем число периодов:
у ½+у2+уз+......+у„/2
Yxp=———————————————— . (3.8.21)
n-1
Подсчитаем средний уровень для моментного ряда, представленного в табл. 3.8.6. Yxp = (160/2+165+166+170/2)/(4-1)= 165,3» 165 чел.
В моментном ряду динамики с неравноотстоящими датами t;
средний уровень определяется по формуле средней взвешенной 3.8.3, в которой вместо частот f; нужно поставить t,.
Средний абсолютный прирост определяется как сумма абсолютных цепных приростов, деленная на их число. Так, для ряда из табл. 3.8.7 абсолютный прирост равняется:
АУцср = [(60-48) + (78-60)+(90-78)]/3 = 14 зарегистрированных убийств.
Средний темп роста Трср вычисляется по формуле 3.8.5 средней геометрической, а средний темп прироста определяется на основе взаимосвязи между темпом роста и прироста,
а именно: Тпср = Трср - 1 . (3.8.22)
Так, для ряда из табл. 3.8.7 Трср = 1.23 и Тпср = 0,23 (или 23 %).
Изучение динамических рядов с помощью диаграмм. Важной стороной анализа динамических рядов является определение тенденции их поведения во времени. Иногда лишь одно только построение динамического ряда без всякой дополнительной обработки информации выявляет общее направление или тенденцию (тренд) развития явления. Но чаще бывают случаи, когда тенденция развития явления явно не прослеживается, так как уровни ряда колеблются то в сторону увеличения, то в сторону уменьшения, или наоборот. Одним из способов выявления тенденций выступает аналитическая замена динамического ряда теоретической кривой сглаживания, параметры (коэффициенты) которой находятся методом наименьших квадратов.
Сущность метода заключается в том, что для выбранной функции сглаживания определяются параметры, при которых сумма квадратов отклонений расчетных значений уровней от их действительных
438
значений должна быть минимальной. Excel 5.0 позволяет проводить подобные расчеты.
На преступность влияют многие факторы. Показатели, отражающие некоторые из них, приведены в табл. 3.8.8. Они называются факторными признаками, а уровень преступности является результативным признаком. Рассмотрим в качестве иллюстрации динамический ряд «Уровень преступности».
Таблица 3.8.8
Статистические данные о состоянии криминологической обстановки в регионе N
A BCDEFGHIJ
1
ГОДЫ 123456789
2
Уровень преступности
78
75,2
72,7
63,7
46
50,9
60,8
102,4
128,1
3
Доля городского населения
0,8
0,805
0,807
0,81
0,81
0,815
0,82
0,83
0,836
4
Доля несовершеннолетних
6,8
6,4
5,8
5,4
5,5
5,3
6,1
6,7
6,8
5
Доля ранее судимых (на 10 тыс.)
154,7
151,3
149
144,9
137,9
132,2
146,3
164,2
170,9
6
Доля незанятых (на 100 тыс.)
110,9
100,9
103,2
95,7
77,7
96,3
82,3
117
126,6
7
Доля наркоманов (на 100 тыс.)
2
2,3
4,3
6
6,9
7,9
11,7
16,2
18,9
8
Доля иммигрантов (на одну тыс.)
16,2
16,4
15,1
16,6
19,1
21,1
22,3
23,3
22
9
Потребление алкоголя
6
6
5,9
5,2
4,6
4,7
5,1
6,2
6,6
10
Выпуск промышленной продукции
2,7
2,7
2,8
3,1
3,1
3,2
3,2
3,1
3
11
Выпуск сельхозпродукции
0,4
0,27
0,26
0,37
0,36
0,34
0,31
0,31
0,26
12
Плотность сотрудников ОВД (на 10 тыс.)
28,6
30,4
28,5
27,6
27,5
26,2
26,3
26,4
27,8
13
Плотность сотрудников УР (на 10 тыс.)
2,2
2,23
2,36
2,3
2,3
2,21
2,2
2,3
2,4
Сущность метода заключается в том, что для выбранной функции сглаживания определяются параметры, при которых сумма квадратов отклонений расчетных значений уровней от их действительных значений должна быть минимальной. Excel 5.0 позволяет проводить подобные расчеты. Для этого выделяем интервал ячеек A2J2, в которых находятся уровни динамического ряда, и обращаемся к «Мастеру диаграмм», который строит график эмпирического ряда в диалоговом режиме.
439
Чтобы вызвать команду «Линия тренда», выделяем точки графика. В диалоговом окне «Линия тренда» имеется набор аналитических функций, которые могут смоделировать поведение ряда динамики уровня преступности. Выбираем несколько типов тренда, вводя их последовательно на диаграмму. Возьмем в качестве аналитических кривых прямую линию, параболу и полином четвертой степени.
Кроме того, выбираем режим прогноза на два периода (года) вперед, указывая Excel 5.0 на необходимость «Показывать уравнение на диаграмме» и «Показывать значение R-квадрат на диаграмме».
Наша задача - оценить, какая из теоретических кривых лучше описывает экспериментальную кривую. Таким оценочным показателем является критерий R-квадрат (показатель, говорящий о точности прогноза, меняющийся в пределах 0 < R2 < 1). Кривая, обладающая наиболее высоким R-квадратом, лучше описывает явление. Как видно из рис. 3.8.7, такой кривой является полином четвертой степени, имеющий показатель R-квадрат, равный 0,9634.
Рис. 3.8.7. Оценка близости линии тренда к экспериментальной кривой
Кроме того, оценку близости теоретической и экспериментальной кривых дают планки погрешностей. Чтобы их построить на графике, нужно выделить точки экспериментальной кривой и выполнить команду «Планки погрешностей».
На диаграмме появляются планки погрешностей (их центром являются экспериментальные точки), характеризующие интервал, в
440
который должна попасть теоретическая кривая. Как видно из рис. 3.8.7, в этот интервал полностью вписываются кривая-полином четвертой степени и парабола, но у нее R2 = 0,8287.
Прогнозирование динамических рядов методом экстраполяции.
Метод экстраполяции - это нахождение по известным значениям динамического ряда других значений, лежащих за его пределами.
При экстраполяции исследователь переносит выводы, которые он сделал при изучении тенденций развития явления в прошлом и настоящем, на будущее, т.е. здесь лежит предположение об определенной стабильности факторных признаков, влияющих на развитие данного явления. Прогноз разрабатывается с учетом результатов экстраполяции, но с привлечением дополнительной информации, не содержащейся в самом динамическом ряду. Это так называемая качественная информация, подтверждающая объективное существование основной тенденции и обоснованность переноса ее в будущее.
При разработке экстраполяционных прогнозов статистическими методами выделяются два этапа. Первый этап - это обоснование существования тенденции развития явления во времени и выбор аналитической формы ее описания. Второй этап - это анализ и обоснование целесообразности распространения тенденции в будущее и собственно само аналитическое прогнозирование значений динамического ряда на заданный период времени. Как правило, этот период - довольно короткий: один - три года.
Как видно из рис. 3.8.8, мы выбрали аналитическую кривую (полином четвертого порядка), заменили ей динамический ряд и продолжили ее на два периода, а именно на 10-й и 11-й годы, тем самым выполнив два этапа экстраполяционного прогноза.
Наша задача - определить конкретные прогнозные значения уровня преступности на 10-й и 11-й годы. Существует несколько способов.
Первый способ - построение сетки на rpaf, we. Сотрем лишние линии тренда, выделяя их и нажимая клавишу Del. Чтобы построить сетку, нужно выполнить команду «Сетка». В позициях «Ось X» и «Ось Y» пометим крестиком пункты «основная сетка» (она - более крупная и жирная) и «вспомогательная сетка». Для удобства измерения изменим шкалу сетки. Введем числа: минимум - 165, максимум - 200, основная единица - 4, вспомогательная единица - 0,5, пересечение с
441
осью X в значении - 165. Для удобства обозрения можно изменить цвет вспомогательной сетки.
Рис. 3.8.8, Построение сетки на графике
В результате можно утверждать, что уровень преступности в 10-м периоде (году) будет составлять 169 преступлений в расчете на 10 тыс. чел., а в 11-м - 196 преступлений.
Второй способ определения прогнозных значений заключается в расчете значений теоретической кривой четвертой степени. Для удобства расчета переносим динамический ряд уровня преступности в соседний рабочий лист Excel 5.0, помещаем в ячейки B1:L4 все возможные значения переменной X, входящей в формулу полинома четвертой степени. Далее с помощью «Мастера функций» вычисляем теоретическое значение статистической функции «Тенденция» в первом периоде (году) и копируем расчетную формулу в ячейки C6:L6 для остальных периодов.
Результат представлен в таблице 3.8.9. Расчет тенденции показывает, что уровень преступности в 10-м периоде равняется 167,8, в 11-м периоде он достиг 195,9 преступлений в расчете на 10 тыс. чел.
Общие понятия корреляционного анализа. Важнейшим условием деятельности в сфере борьбы с преступностью является знание причинно-следственных отношений между показателями, характеризующими состояние, динамику и структуру социально-экономических
442
процессов, преступности и функционирования органов внутренних
дел.
Таблица 3.8.9 Расчет теоретической кривой
А
В
CDEFGHI JK L
1
1
2
3
4
5
7
.
10
11
2
X2
/\
1
4
9
л а 16
QC
25
Oft
00
49
CtA
64
Q-1
o1
100
121
3
X3
Л
1
27
CtA 64
125
0»1Д
21b
0 А О
343
c-19 <j i &
79Q / £-v
1000
1331
4
X4
/\
1
л а Ю
0*1 01
ОСД ^00
CQC
625
'lOQft
izyo
2401
4096
с ее л 000 1
•щллп luuuu
14641
5
Уровень преступности
7Q
/О
•7С 0
' ^(^
72,7
С*Э «7
о3,7
46
СЛ Q *J\J,y
ДЛ Q
ou,o
102,4
Л OQ Л
1Zo,1
6
Полином четвертого порядка
«7G /О
81,1
71
57,4
49
51,4
ftft Q
ЬЬ,о
94,6
A Qrt ft
1oU,b
л д-7 Q
167,0
195,9
Однако в настоящее время уже недостаточно лишь констатировать наличие существующих связей, их нужно измерять. Количественное их измерение и получаемые на этой основе выводы во многом определяют выбор конкретных форм и методов деятельности в сфере борьбы с преступностью.
Для точного выражения зависимости между переменными (признаками, показателями) в математике применяется понятие функции, функциональной зависимости Y=F(x), где каждому значению одной величины «х» соответствует определенное значение второй величины «у». Например, длина тормозного пути Y зависит от скорости автомобиля Х в момент торможения: Y = a*fS* у*Х2. При этом в формулу определения длины тормозного пути эта скорость входит в квадрате. В формулу также введены коэффициенты, учитывающие механические свойства рабочей поверхности колеса и поверхности дороги, состояние дорожного покрытия и продольного уклона дороги. Эти постоянные коэффициенты берутся из таблиц.
По отношению к событиям функциональная зависимость всегда выступает в виде причинной, т.е. наступление одного события (причины, в нашем случае - конкретное значение скорости в момент торможения) всегда влечет наступление другого (следствия, в нашем примере - определенная длина тормозного пути).
При анализе зависимостей в социальной сфере в большинстве случаев нельзя установить однозначного соответствия между какими-либо социальными признаками. Значению некоторого социального
443
признака может соответствовать множество значений другого признака. В этом случае какое-либо событие (причина) не обязательно приводит к определенному результату (следствию). Изменение признака соответствует множеству изменений других признаков, колеблющихся возле некоторой средней величины. Такие зависимости называются стохастическими. Так, улучшение некоторых социально-экономических условий жизни населения не обязательно в каждом конкретном случае приводит к снижению преступности, что обусловлено действием множества других факторов, т.е. стохастической природой преступности и ее связью с другими, не только социальными, явлениями.
Приведем еще один пример. Практика подтверждает, что в тех регионах, где количество преступлений, приходящихся на одного работника милиции (нагрузка), больше, там ниже процент раскрывае-мости преступлений. Однако эта закономерность проявляется лишь статистически, а не функционально.
Статистическая зависимость уровня преступности от нагрузки на одного сотрудника милиции
Y Х
30
35
40
45
100
5
4
3
110
4
3
3
4
120
1
3
3
4
130
-
-
-
2
Рассмотрим табл. 3.8.10. В ней приведены статистические данные по некоторому региону: Y - количество преступлений в расчете на 10 тыс. человек населения (уровень преступности), Х - количество преступлений, приходящихся на одного работника милиции (нагрузка). В регионе выбирались 10 городов с примерно одинаковой нагрузкой на одного работника милиции (всего 40 городов).
Как видно из таблицы Таблица 3.8.10 3.8.10, при нагрузке Х = 30
уровень преступности в пяти городах равен 100, в четырех городах - Y = 110, в одном городе - Y = 120, т.е. одному значению Х соответствует несколько значений Y. С другой стороны, уровень преступности Y = 100 отмечен в 12 городах с различной нагрузкой: в пяти городах - Х = 30, в четырех городах - Х = 35, в трех городах - Х = 45, т.е. одному значению Y соответствует несколько значений X.
Тенденция проявляется лишь в среднем. Так, для Х = 30 среднее значение Yep = (100*5 + 110*4 + 120*1)/10 = 106. Поступая аналогичным образом, получим:
444
Y
100
110
120
130
Х
34
37
40
43
X
30
35
40
45
Y
106
109
112
118
Корреляционной связью называется такая статистическая зависимость, которая проявляется в виде тенденций для средних величин значений показателей, при этом каждому значению показателя, выбранного в качестве независимой переменной или факторного признака (X), соответствует множество значений другого показателя, выбранного в качестве зависимой переменной или результативного признака (Y), и наоборот.
Особенность корреляционных связей заключается в том, что они (в отличие от функциональных связей) являются неполными. Анализируя, например, зависимость между нагрузкой (факторным признаком) и раскрываемостью преступлений (результативным признаком), приходим к выводу, что на раскрываемость действуют и другие факторы, причем они оказывают влияние в разных направлениях (так, высокий уровень профессиональной подготовленности сотрудников милиции будет положительно воздействовать на результаты их работы, а слабая оснащенность техническими средствами, напротив, будет отрицательно влиять на результаты их деятельности).
Для изучения корреляционной связи разработаны специальные методы, и в частности корреляционный анализ.
Корреляционный анализ - комплексное использование в определенной последовательности совокупности различных статистических методов обработки информации, позволяющее при выполнении некоторых условий найти форму, направление и величину или тесноту взаимосвязей между признаками.
По форме корреляционные связи могут быть линейными и криволинейными. Для корректного применения корреляционного анализа требуется обоснование близости распределения значений факторного и результативного признаков к нормальному и формы связи к линейной. В противном случае необходимо использовать специальные приемы анализа или другие коэффициенты связи.
Следующим условием применимости корреляционного анализа является условие достаточности объема значений признаков и их однородности. Чем хуже выполняется это условие, тем более сложный математический аппарат надо привлекать для получения надежных и достоверных выводов.
445
По направлению (типу) корреляционные связи можно разделить на прямые (положительные) и обратные (отрицательные). При прямой связи увеличение факторного признака ведет к увеличению результативного признака (например, связь между нагрузкой на одного сотрудника милиции и уровнем преступности), а при обратной - увеличение факторного признака ведет к уменьшению результативного признака (например, связь между нагрузкой на одного сотрудника милиции и процентом раскрываемое™ преступлений).
Сила или теснота корреляционной связи характеризуется различными коэффициентами, измеряющими эту связь. Так, для метрических шкал используется линейный коэффициент корреляции (Пирсона) - г. Коэффициент корреляции - величина относительная, он выражается в долях единицы от -1 до +1.
Обычно считается, что г < 0,3 указывает на слабую связь, при 0,3 < г < 0,5 связь признается умеренной, при 0,5 < г < 0,7 корреляция является значительной, а при 0,7 < г < 0,9 - сильной и при г > 0,9 -очень сильной, близкой к функциональной связи.
Следует отметить, что коэффициент корреляции позволяет определить не только тесноту, но и направление связи ( на это указывают знаки «+» или «-«).
Корреляционный анализ не заканчивается только подсчетом г. Необходимо проверить значимость коэффициента корреляции при заданном уровне. Если г > г кр. (критическое значение г кр. находят по специальным таблицам), то полученному результату можно доверять;
если г< г кр., то рассчитанному коэффициенту корреляции доверять
нельзя.
На уровень преступности влияет множество факторных признаков. К' ним относятся социально-экономические, географические и климатические, демографические и другие признаки, а также признаки, характеризующие силы и средства, степень организованности
ОВД.
Пусть п - число этих признаков. Тогда Y = Y(Xl,X2,X3,...Xn).
Задача корреляционного анализа - выявить те факторные признаки, которые наиболее существенно влияют на результативный признак Y,
а остальными можно пренебречь.
Пусть, например, после вычислений коэффициентов корреляции оказалось, что Y = Y(X9, X21, Х45). Тогда руководитель органа внутренних дел при разработке плана мероприятий должен в первую
446
очередь включать в него такие, которые влияют на перечисленные факторные признаки.
Для нас представляет интерес рассмотрение корреляционных зависимостей динамических рядов. Факторные и результативные признаки могут меняться во времени, т.е. представлять динамические ряды. Между ними также можно количественно измерить тесноту связи, используя коэффициенты корреляции. Однако, чтобы использовать методы корреляционного анализа, надо выполнить ряд условий.
Динамическим рядам свойственны колебания различных типов. Первый тип - сезонные, примерно одинаковые внутригодичные колебания. Второй тип - трендовые, или длительные, колебания, выраженные постоянным увеличением (уменьшением) средних уровней, как проявлением общей тенденции развития явления. Третий тип -эксцессы, нерегулярные колебания, вызванные такими факторами, как стихийные бедствия, неурожаи, военные действия и т.п. Четвертый тип - колебания циклические, повторяющиеся через длительные и не обязательно одинаковые промежутки времени. Эти колебания проявляются в результате изменения хозяйственной деятельности, скачка научно-технического прогресса и т.п.
Корреляцию динамических рядов можно применять только для однотипных динамических рядов, имеющих одинаковый тип колебаний. Это первое условие.
Вторым условием применимости корреляционного анализа является замена эмпирических данных (уровней) динамических рядов расчетными значениями. Для этого каждый эмпирический ряд надо выровнять теоретической кривой, наиболее близко описывающей динамический ряд. Только после замены эмпирических уровней на расчетные можно вычислять коэффициенты корреляции г.
При коррелировании рядов динамики надо обращать внимание на возможность изменений уровней одного ряда динамики на уровни другого со сдвигом во времени. Встречаются такие взаимосвязи между явлениями, когда изменения одного явления вызывают изменения другого не сразу, а через какой-то период времени (так, изменение структуры органа внутренних дел может сказаться на результативности работы с запаздыванием). В этом случае необходимо совместить динамические ряды, чтобы устранить сдвиг. Этот сдвиг называется лагом.
Для динамических рядов можно также установить, усиливается или ослабевает связь между рядами динамики во времени, т.е. увеличивается или уменьшается коэффициент корреляции между анализи-
447
руемыми явлениями. Для ответа на этот вопрос иногда достаточно разделить каждый из сопоставляемых рядов динамики на два во времени и для каждой пары новых рядов вычислить коэффициенты корреляции.
Построение таблицы парных корреляций. Вычисление коэффициентов корреляции будем проводить на отдельном рабочем листе. Для получения коэффициентов корреляции выполняем следующую последовательность действий:
вызываем «Мастера функций» и среди статистических функций активизируем функцию «Корреляция»;
в строку «массив 1» вводим диапазон динамического ряда «Уровень преступности», являющегося результативным или зависимым признаком;
в строку «массив 2» вводим данные факторного или независимого признака «Доля городского населения».
нажимаем на клавишу «Закончить», чтобы получить коэффициент корреляции, показывающий степень влияния доли городского населения на уровень преступности.
В результате в ячейке В2 появляется г = 0,66 (см. табл. 3.8.11). Скопируем формулу коэффициента корреляции, находящуюся в ячейке В2, в диапазон ячеек ВЗ:В12.
Таблица 3.8.11 Коэффициенты корреляции с лагом 0,1, 2
А
В
С
D
Е
F
G
Н
I
Корреляция уровня преступности
0
1
2
0
1
2
макс
лаг
Доля городского населения
0,66
0,72
0,71
0,66
0,72
0,71
0,72
1
Доля несовершеннолетних
0,80
0,71
0,07
0,80
0,71
0,07
0,80
0
Доля ранее судимых (на 10 тыс.)
0,96
0,71
-0,28
0,96
0,71
0,28
0,96
0
Доля незанятых (на 100 тыс.)
0,91
0,43
-0,36
0,91
0,43
0,36
0,91
0
Доля наркоманов (на 100 тыс.)
0,65
0,73
0,73
0,65
0,73
0,73
0,73
2
Доля иммигрантов (на 1 тыс.)
0,32
0,67
0,89
0,32
0,67
0,89
0,89
2
Потребление алкоголя (на душу)
0,91
0,51
-0,38
0,91
0,51
0,38
0,91
0
Выпуск промышленной продукции
-0,22
0,13
0,54
0,22
0,13
0,54
0,54
2
Выпуск сельхозпродукции
-0,49
-0,29
0,04
0,49
0,29
0,04
0,49
0
Плотность сотрудников ОВД (на 10 тыс.)
0,12
-0,33
-0,64
0,12
0,33
0,64
0,64
2
Плотность сотрудников УР (на 10 тыс.)
0,57
-0,17
-0,76
0,57
0,17
0,76
0,76
2
448
Результаты расчета представлены в табл. 3.8.11 в колонке В. Проведенные расчеты показывают, что наиболее сильное влияние на преступность оказывают три признака: доля ранее судимых (г4 = 0,96), доля незанятых (г5 = 0,91), потребление алкоголя (rg= 0,91). Поэтому руководитель органа внутренних дел должен в первую очередь обратить внимание на эти показатели в текущем году (девятом периоде).
Будем считать, что указанные три признака проявляют себя постоянно, без запаздывания. Поэтому эти три параметра наиболее активны в период с лагом 0.
Возникает вопрос, какие факторные признаки проявят себя в следующем году (десятом периоде), если для перечисленных признаков был разработан комплекс мероприятий с целью снижения их влияния на преступность. Чтобы определить, какие признаки проявят себя на следующий год с лагом 1, нужно сдвинуть слева направо динамический ряд «уровень преступности» на один год, но поскольку данных за десятый период нет, количество его членов станет равным восьми. Что касается факторных признаков, то они сдвигаются справа налево на один период, исключая текущий год. Таким образом, число их уровней также станет равным восьми.
Подсчитываем коэффициенты корреляции для лага 1. Результаты расчета представлены в столбце С табл. 3.8.11. Как видно из таблицы, в следующем (десятом) периоде влияние указанных ранее трех признаков снизилось (очевидно, из-за активной работы органа внутренних дел), но усилилось влияние таких признаков, как доля наркоманов и доля городского населения (см. столбец С табл. 3.8.11).
Повторяем те же операции для лага 2. т.е. сдвигаем динамические ряды на два периода. На основе рассчитанных коэффициентов корреляции вычислим влияние факторных признаков в 11-м периоде. Как видно из табл. 3.8.11 (колонки D), наиболее существенно влияющими на преступность в 11-м периоде являются доля иммигрантов (г = 0,89), плотность сотрудников УР (г = -0,76), доля наркоманов (г = 0,73) и по-прежнему доля городского населения (г = 0,71).
Далее в столбцы Е, F, G вводим абсолютные значения коэффициентов корреляции (т.е. без знака «минус»). Эту операцию выполняет «Мастер функций», применяя к формулам, стоящим в столбцах В, С и D, математическую функцию ABS.
Находим теперь максимальное значение коэффициентов корреляции для каждого признака, в зависимости от лагов. Эту операцию
449
выполняет «Мастер функций», применяя к формулам, стоящим в столбцах Е, F, G, статистическую функцию «Макс». Результаты расчета приведены в столбце Н табл. 3.8.11.
Теперь наша задача заключается в том, чтобы определить, какому лагу соответствует максимум, находящийся в ячейках столбца Н. В принципе это можно сделать визуально и ввести в колонку 1 значения лагов вручную. Однако это можно выполнить с помощью логической функции «ЕСЛИ». Снова заполнение столбца 1 выполнит «Мастер функций». В окончательном виде имеем табл. 3.8.11, которая позволяет провести анализ влияния факторных признаков на результативный признак в различные периоды времени.
Понятие регрессионного анализа. После определения наиболее существенных факторных признаков, влияющих на результативный признак, не менее важно установить их математическое описание (уравнение), дающее возможность численно оценивать результативный признак через факторные признаки.
Уравнение, выражающее изменение средней величины результативного признака в зависимости от значений факторных признаков, называется уравнением регрессии.
Регрессионный анализ - комплексное использование в определенной последовательности различных статистических методов обработки информации, позволяющее при некоторых условиях найти вид уравнения регрессии и вычислить значения результативного признака Y по значениям факторных признаков.
Обычно уравнение регрессии представляется в виде следующей зависимости (Х9, Хгь Х»5 взяты в качестве иллюстрации):
¥= а + Ь *Х, + c*X^i + d*X4s.
Здесь а, Ь, с, d - неизвестные коэффициенты, которые определяются методами регрессионного анализа. Уравнение же называется уравнением множественной линейной регрессии.
Иногда достаточно выбрать один наиболее существенный признак и найти математическую зависимость между результативным признаком и выбранным факторным признаком, например: Y = а + Ь*Ху (прямая линия) или ¥= а + b*Xy + c*X2y (парабола). Эти уравнения называются уравнениями парной или простой регрессии.
Естественно, оценка результативного признака без учета остальных факторных признаков (в нашем примере - Хгь Х4э) будет более грубой, но расчеты - менее трудоемкими, и иногда такой приближенной оценки бывает достаточно.
450
Качеством построения уравнения регрессии является средняя ошибка аппроксимации или стандартизированная ошибка оценки.
Итак, проведение регрессионного анализа позволяет разделить его на три этапа:
1) выбор формы зависимости (вида уравнения) на основе статистических данных;
2) вычисление коэффициентов выбранного уравнения;
3) оценка достоверности выбранного уравнения.
Используя уравнения регрессии, можно прогнозировать поведение различных показателей, например уровня преступности, если имеются статистические или прогнозные данные о факторных признаках, влияющих на него.
Прогнозирование уровня преступности с лагом 0. В текущем году на преступность наиболее сильное влияние оказали такие факторные признаки, как «уровни ранее судимых» (г4=0,96), «уровни незанятых» (г5=0,91), «потребление алкоголя» (г»=0,91). Будем их учитывать при построении уравнения регрессии.
Для этого дополним табл. 3.8.11 рядами динамики «уровни ранее судимых (на 10 тыс.)», «доля незанятых (на 100 тыс.)», «потребление алкоголя (на душу населения в литрах)» из табл. 3.8.8. В результате приходим к табл. 3.8.12.
Таблица 3.8.12 Построение уравнения множественной регрессии с лагом О
А
В
С
D
Е
F
G
Н
I
J
К
L
1
X
1
2
3
4
5
6
7
8
9
10
ii
2
х*х
1
4
9
16
25
36
49
64
81
100
121
3
х*х*х
l
8
27
64
125
216
343
512
729
1000
1331
4
х*х*х*х
1
16
8]
256
625
1296
2401
4096
6561
10000
14641
5
Уровень преступности
78
75,2
72,7
63,7
46
50,9
60,8
102,4
128,1
6
Полином четвертой степени
75,8
81,1
71,0
57,4
49,0
51,4
66,8
94,6
131
167,8
195,9
7
Доля ранее судимых
154
151
149
144,9
138
132
146
164,2
170,9
186,9
206,1
8
Доля незанятых
111
101
103
95,7.
77,7
96,3
82,3
117
126,6
144,2
167,6
9
Потребление алкоголя
6
6
5,9
5,2
4,6
4,7
5,1
6,2
6,6
7,45
8,53
10
Множественная регрессия
86,4
72,7
71,2
65,8
46,1
48,1
59,6
106,
122
155
196,1
15*
451
Поскольку у трех выделенных факторных признаков нет данных за 10-й и 11-й периоды, используем метод экстраполяции. Однако сначала необходимо изучить три динамических ряда с помощью диаграмм. Эта утомительная процедура показывает, что полином четвертой степени описывает кривые лучше, чем все другие кривые (R-квадрат у него выше), однако его тренд после девятого периода меняется и стремится к снижению. Поэтому выбор теоретической кривой зависит от экспертного исследования.
Будем считать, что такой кривой является парабола, т.е. полином второй степени. Хотя у параболы R-квадрат меньше, чем у полинома четвертой степени, однако он значительно выше по сравнению с другими кривыми.
Итак, выполняем экстраполяцию трех динамических рядов со сглаживанием их по параболе и прогнозированием на 10-й и 11-й периоды. С помощью «Мастера функций» и встроенной функции «Тенденция» осуществляем прогноз трех динамических рядов в строках 7:9 в клетки К7:К9 и L7:L9.
После того, как подготовлены прогнозные данные трех факторных признаков на 10-й и 11-й периоды, осуществим прогноз уровня преступности на основе уравнения множественной регрессии. Для этого активизируем клетку В 10. Снова используя «Мастера функций», вызываем функцию «Тенденция» и заполняем в ее диалоговом окне необходимые параметры. Далее копируем получившуюся формулу из клетки В 10 в диапазон клеток С10:ЫО. Результаты представлены в табл. 3.8.12.
Сравнивая прогнозы уровня преступности на основе полинома четвертого порядка и уравнения множественной регрессии, убеждаемся в хорошем совпадении значений в ячейках L6 и L10 (195,9 и 196,1) в 11-м периоде (см. табл. 3.8.12).
Прогнозирование уровня преступности с лагом 1 и 2. При построении уравнения множественной регрессии с лагом 0 нам приходилось прогнозировать факторные признаки, являющиеся переменными в этом уравнении. Их экстраполяция в 10-й, 11-й периоды может привести к дополнительным ошибкам в прогнозе уровня преступности.
Обойти этот шаг можно, если построить уравнение регрессии, включив в него признаки, которые проявят себя в 10-м и 11-м периодах. К ним относятся (см. табл. 3.8.11) доля городского населения (г=0,72, лаг 1), доля иммигрантов (г=0,89, лаг 2), доля наркоманов (г=0,73, лаг 2), плотность сотрудников УР (г=0,76, лаг 2). Дополним рабочий лист Excel 5.0 для Windows этими рядами, которые займут строки 12:15 (см. табл. 3.8.13).
Таблица 3.8.13 Построение уравнения множественной регрессии с лагами 1 и 2
A BCDEFGHI
J
К
L
12
Доля городского населения
0,8
0,805
0,807
0,81
0,81
0,815
0,82
0,83
0,84
0,864
13
Доля наркоманов
2
2,3
4,3
6
6,9
7,9
11,7
16,2
18,9
14
Доля иммигрантов
16,2
16,4
15,1
16,6
19,1
21,1
22,3
23,3
22
15
Плотность сотрудников УР
2,2
2,23
2,36
2,3
2,3
2,21
2,2
2,3
2,4
16
Множественная регрессия
69,82
68,41
43,76
51,63
62,57
99,12
129,3
112,2
194,7
Отметим, что на основе планирования и экспертных оценок доля городского населения в 11-м периоде составит 0,864. Поэтому в
ячейку L12 введем число 0,864.
После этой подготовительной работы активизируем ячейку D16 и с помощью «Мастера функций» вызываем функцию «Тенденция» и в ее диалоговом окне заполняем необходимые строки, вводя в качестве переменных четыре динамических ряда, указанных в табл. 3.8.13. Далее копируем полученную формулу множественной регрессии из клетки D16 в диапазон клеток E16:L16. Результаты представлены в табл. 3.8.13. Сравним расчетные показатели уровня преступности, находящиеся в ячейках L6 (табл. 3.8.12) и L16 (табл. 3.8.13), они примерно совпадают (195,9 и 194,7).
Отметим, что расчетные коэффициенты уравнения множественной регрессии Excel 5.0 не показывает, а только дает конечный результат Y.
Анализ руководителем ОВД прогнозных результатов. На основе полученного прогноза руководителю органа внутренних дел следует подумать, как воздействовать на факторы, которыми он может управ-
452
453
лять. В качестве иллюстрации рассмотрим показатель «плотность сотрудников УР (на 10 тыс. нас.)»в табл. 3.8.13. Каким должен быть этот показатель, чтобы уровень преступности в 11-м периоде равнялся 190?
Для этого в листе Excel 5.0 активизируем ячейку L16 и выполним команду «Подбор параметра». В диалоговом окне команды «Подбор параметра» в первой строке «Установить в ячейке» окажется адрес клетки , а именно $L$16. В ней находится расчетная формула. Во вторую строку «Значение» нужно поставить желаемый для руководителя (в 11-м периоде) уровень преступности, например 190. В третью строку «Изменяя ячейку» нужно поставить адрес клетки, где находится признак «плотность сотрудников УР (на 10 тыс. чел.)», а именно $L$15, и нажать кнопку ОК.
В результате в диалоговом окне «Состояние подбора параметра» появится результат. Он одновременно будет находиться в ячейках L 15 и L16. Если подбор параметра руководителя удовлетворяет, то он для последующего принятия решения должен учесть, что обеспечение общего уровня преступности в расчете на 10 тыс. чел. (190) достигается при наличии плотности сотрудников УР на 10 тыс. чел. равной 2,417 (вместо 2,4).
Таким образом, программы различных методов статистического анализа, установленные на современных компьютерах, являются мощным средством повышения эффективности аналитической деятельности органов внутренних дел.
«все книги «к разделу «содержание Глав: 32 Главы: < 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. >