Тема 6. Статистические группировки и сводки данных наблюдения

Общий пример 2.

Для определения средней длины детали следует провести исследование методом случайного повторного отбора. Какое количество деталей необходимо отобрать, чтобы ошибка выборки не превышала 3 мм с вероятностью 0,997 при среднем квадратическом отклонении 6 мм? Ошибка и среднее квадратическое отклонение заданы, исходя из технических условий.

При Р = 0,997 → t = 3. Тогда n = (32×62) / 32 = 36 деталей.

 

6.1 Содержание и значение сводки. Программа статистической сводки и её основных элементов

Статистическая сводка – это научная обработка первичных материалов статистического наблюдения, которая включает группировку материала, разработку системы показателей для характеристики типичных групп и подгрупп, а также подсчёт и изображение сгруппированных материалов в виде таблиц.

Чем шире программа статистического наблюдения и чем больше единиц совокупности, тем более сложной и трудоемкой является статистическая сводка материалов. Если она будет проведена неправильно, то на основе собранного материала нельзя будет создать объективных обобщающих характеристик и выводов.

Виды сводки представлены в таблице 6.1.

 

Таблица 6.1 – Виды и характеристики сводки

Виды сводки Характеристики
1. Простая итоговая сводка Не предполагает распределения полученных сведений на группы; суммирует сведения, содержащиеся во всех формулярах, подводит общий итог единиц совокупности или измеряет общий объём изучаемого показателя
2. Сложная сводка Предполагается предварительное распределение единиц совокупности на группы; даёт возможность посчитать число единиц совокупности по группам и объём изучаемого признака в каждой из них
3. Аналитическая сводка С её помощью выявляются и изучаются связи и взаимообусловленности между явлениями на основе факторных и результативных признаков

Организационно статистическая сводка может быть выполнена децентрализовано и централизованно. При децентрализованной сводке материалов статистическое наблюдение обрабатывается в несколько этапов, на местах. При такой организации сводок облегчается контроль достоверности и полноты данных, а также устранение ошибок, допустимых в статистических материалах. Централизованная сводка осуществляется в одном месте, куда предоставляют данные наблюдения все отчетные единицы совокупности.

Статистическая сводка, если это не предусмотрено программой разработки материалов, не может быть выполнена по неполным данным (нет сведений от всех обследуемых единиц, имеются промежутки в заполнении реквизитов и таблиц). Выявленные в результате логического или счетного контроля дефекты исправляются, а если это невозможно, то делают запрос по месту заполнения бланков (носители информации).


Статистическая сводка производится по определенной программе, составленной в соответствии с задачами статистического исследования; формой организации сводки и техникой разработки статистического материала. Программа статистической сводки должна разрабатываться ещё до сбора статистических данных, одновременно с составлением плана и программы статистического наблюдения.

Программа статистической сводки включает определение:

1) групп и подгрупп;

2) системы показателей (на основе чётко сформулированной задачи исследования);

3) видов таблиц.

Кроме программы сводки, составляется также план проведения сводки,который содержит информацию о последовательности, сроках и технике проведения сводки, а также об исполнителях, порядке и правилах оформления ее результатов в виде статистических таблиц.

6.2 Сущность группировки и её задачи. Виды группировок и их назначение

Статистическая группировка – расчленение изучаемой совокупности на группы и подгруппы по определённым существенным признакам для глубокого и всестороннего изучения общественных явлений.

При проведении группировки решается ряд задач:

1) выделение группировочного признака;

2) определение числа групп и величины интервалов;

3) определение того, как группировочные признаки комбинируются между собой;

4) установление показателей, которыми должны характеризоваться группы.

Виды группировок и их назначение представлены в таблице 6.2.

Таблица 6.2 – Виды группировок и их назначение

Критерии классификации Виды группировок
1. Решаемые с помощью группировок задачи 1) типологические - обеспечивают разграничение массовых явлений на качественно однородные совокупности; при этом качественно однородными совокупностями считаются такие, все единицы которых подчинены определенному закону развития (качеству объекта); пример типологической группировки - расчленение народного хозяйства на отрасли и подотрасли; 2) структурные (вариационные) - группировки, применяемые для изучения структуры массовых явлений: определяется структура или структурные сдвиги в совокупности однородных единиц или/и осуществляется расчленение совокупности по величине варьирующего признака; с помощью таких группировок можно изучить состав (структуру) качественно однородной совокупности; 3) аналитические - группировки, предназначенные для изучения взаимосвязей и зависимостей между явлениями и процессами на основании факторных признаков, обуславливающих изменение явлений, и результативных признаков, которые изменяются под влиянием факторных; например, изучая взаимосвязь между производительностью труда и себестоимостью продукции предприятия, следует формировать группировки по уровню производительности труда
2. Число положенных в основание группировки признаков 1) простые– группировки, выполненные по одному признаку; 2) многомерные – производятся по двум и более признакам
3. Временной критерий 1) статические– дают характеристику совокупности на определённый момент времени или за определённый период; 2) динамические – показывают переходы единиц из одних групп в другие (составляется матрица перехода или миграционная, матрица мобильности)
4. По видам признаков 1) атрибутивные (качественные); 2) количественные; 3) признаки пространства; 4) признаки времени
5. По комбинации признаков 1) простые – осуществляются по одному признаку; 2) комбинационные (сложные) – для выделения групп берут два или более признаков, т. е. группы, образованные по одному признаку, подразделяются на подгруппы по другому (группы рекомендуется образовывать не более чем по трём признакам)
6. Требования анализа 1) первичные группировки; 2) вторичные группировки, осуществляемые с помощью перегруппировки первичных группировок (в современной математической статистике этот прием известен под названием многомерного кластерного анализа)*.

* Исходные данные для задач многомерной классификации обычно представляют в виде матрицы «объект-признак»; в её строках содержатся значения признаков, характеризующих соответствующий объект, а в столбцах – значения каждого признака для рассматриваемой совокупности объектов.

Выделяют следующие типы мер сходства: коэффициенты подобия, коэффициенты связи, коэффициенты расстояния. Меры первых двух типов называются мерами близости (сходства, подобия), которые могут определяться не только между объектами, но и между признаками.

Для измерения степени близости между двумя объектами i и j, каждый из которых принимает значения 0 и 1, используется коэффициент подобия S (0 <= Sij <= 1). Наиболее простой коэффициент подобия рассчитывается по формуле двух сравниваемых объектов (6.1):

Sij = Pij / m,(6.1)

где Pij – число совпадающих признаков у объектов i и j;

m – общее число признаков, по которым осуществляется сравнение.

Способы, используемые в качестве мер сходства:

1) использование коэффициентов корреляции – измеряют либо силу связи между объектами (между строками матрицы «объект-признак»), либо силу связи между признаками (между столбцами матрицы «объект-признак»); для измерения связи количественных признаков используют коэффициенты линейной корреляции; если признаки не поддаются точной количественной оценке, то мерами их сходства служат коэффициенты ранговой корреляции;

2) использование функции расстояния – для сопоставимости показатели расстояния определяются по статистически стандартизированным данным; распространённый способ стандартизации – замена первичных значений признаков их отклонениями от среднего уровня; наиболее известными мерами расстояния между объектами являются:

а) хеммингово расстояние (между признаками, обладающими значениями 0 и 1);

б) евклидово расстояние (между количественными признаками);

в) взвешенное евклидово расстояние (при ненормированных осях, для двух объектов, сильно различающихся только по одному признаку);

г) расстояние Махаланобиса (через ковариационную матрицу связи признаков).

Для выполнения многомерных классификаций чаще всего применяют:

1) метод дендритов:

- дендрит – ломаная, которая может разветвляться, но не может содержать замкнутых ломаных и такова, что ею соединены любые две точки множества; метод дендритов позволяет получать нелинейное упорядочивание изучаемых единиц;

- графически рассматриваемые случаи упорядочивания можно представить в виде точек либо кругов (вершин) с вписанными в них обозначениями или номерами, связанных отрезками (связями, дугами);

- наилучшее упорядочивание заключается в нахождении такого дендрита, в котором смежные единицы будут иметь наименее различающиеся значения признаков; выполнение этой задачи приведёт к упорядочиванию с наименьшим расстоянием или с наибольшими связями;

- в оптимальном дендрите смежные объекты в наименьшей степени отличаются друг от друга;

2) метод шаров:

– используется матрица расстояний между точками;

- для каждой точки строится шар заданного радиуса, затем для каждого элемента подсчитывается число точек, находящихся внутри данного шара;

- после этого вычисляют объём подмножества – величину, определяющую первое выделяемое подмножество; это подмножество образуют единицы, которые содержатся в шаре, ближе всего находящемся от начала системы координат;

- дальнейшие действия производятся аналогично (исключая первое подмножество) до полного исчерпания множества;

3) многомерная средняя:

– первичные данные нормируются либо по среднему значению, либо по максимальному уровню;

- по нормативным значениям для каждого объекта или наблюдения рассчитывается средняя арифметическая величина;

- совокупность этих величин представляет некоторый обобщённый признак, в соответствии со значениями которого и происходит распределение объектов по группам;

4) метод корреляционных плеяд.