Построение гистограмм

Построение вариационного ряда (ряда ранжирования) представляет собой упорядочение распределения числа единиц совокупности по возрастающим значениям признака.

Если признак принимает конечное число значений, то строится дискретный вариационный ряд. При его построении необходимо реализовать следующие шаги.

1. Определить число групп по формуле Стерджесса:

, (3.6)

где k – число групп;

n - число элементов в совокупности.

Согласно формуле (3.2), число групп при построении вариационного ряда зависит от числа наблюдений в совокупности рассматриваемых объектов.

2. Рассчитать величину интервала h (шага) по формуле:

(3.7)

где - максимальное и минимальное значение признака в совокупности.

3. Итерационным добавлением шага к минимальному значению признака определить интервалы распределения значений этого признака.

4. Определить число вхождений регионов в заданный интервал.

5. Построить гистограмму (графическое изображение вариационного ряда).

Пример расчета параметров вариационного ряда Y1 дан на рис. 39.

Рис. 39. Расчет параметров вариационного ряда Y1 (фрагмент таблицы).

Построение гистограммы можно осуществить с помощью Пакета анализа Excel (в этом случае параметры вариационного ряда рассчитываются автоматически). Окно построения гистограммы загружается последовательностью команд

СЕРВИС – АНАЛИЗ ДАННЫХ – Гистограмма (рис. 40).

Рис. 40. Выбор команды построения гистограммы

Далее необходимо ввести параметры окна построения гистограммы (рис. 41).

Рис. 41. Пример ввода параметров окна построения гистограммы.

В результате получим следующий график (рис. 42).

Рис. 42. Гистограмма распределения числа экономических преступлений в регионах РФ

Анализируя гистограмму можно сказать, что примерно в 75 регионах число экономических преступлений не превышает 8000 тыс. случаев в год. Для Московской же области значение этого показателя достигает более 20000 случаев в год. Этот регион рассматривается как «выброс», следовательно, его значение не должно учитываться при построении регрессионной модели.

Принимая во внимание что статистические методы наиболее точно «работают» с однородными совокупностями данных, в завершение этого этапа необходимо проверить гипотезу о соответствии полученного эмпирического распределения теоретическому нормальному закону, как правило по критерию c-квадрат (хи-квадрат).

Под теоретической кривой распределения понимается графическое изображение ряда в виде непрерывной линии изменения частот в вариационном ряду, функционально связанного с изменением значений признака. Теоретическое распределение выражается с помощью формулы, называемой законом распределения. Так, для нормального закона распределения эта формула имеет вид:

(3.8),

где m - среднее значение;

s - среднеквадратическое отклонение.