Рандомизация

Рандомизация - формирование случайной выборки по исходной таблице данных.

Более подробное рассмотрение данного понятия дается здесь.

Из имеющихся данных будем выделять произвольные подмножества различными методами.

В меню Данные выберем команду Подмножество/Случайный выбор.

В этом диалоге находятся три вкладки: Простой выбор, Стратифицированный и Опции.

Вкладка Простой выбор

Рис 2. Создать подмножество/Случайный выбор, Вкладка Простой выбор

Выберем вкладку Простой выбор. Выбор может осуществляться по одному из следующих правил:

1) Использовать условия выбора наблюдений. Выберем переменные и определим условия выбора наблюдений в активном файле данных.

Предположим, что нас интересуют данные по больным, находящихся только в больнице ST_AND. Нажав кнопку Наблюдения, укажем заданное нами условие и нажмем OK.

Рис.3 Условия выбора наблюдений в Таблице данных

Рис. 4 Простой выбор, Использовать условия выбора наблюдений

В результате, получим данные, относящиеся только к интересующей нас больнице.

Рис. 5 Данные, относящиеся к больным, находившимся в больнице ST_AND

2) Простая случайная выборка. При выборе этого правила, данные будут выбираться случайным образом.

Существует два способа выбора подмножества в общей совокупности: указав процент наблюдений или указав приблизительное число наблюдений (данный параметр устанавливается в меню Опции). Предположим, мы хотим проанализировать 40% пациентов.

Рис. 6 Простая случайная выборка, 40% наблюдений

После нажатия кнопки OK, получим следующие результаты:

Рис. 7 Результаты простой случайной выборки, содержащей 40% наблюдений

Поставив флажок в поле Выбор с возвращением, получим следующий результат: при включении наблюдения в подмножество, это наблюдение снова попадает в исходное множество наблюдений (таким образом, одно наблюдение может встретиться несколько раз в итоговом подмножестве).

3) Систематический случайный выбор. Используя данный метод, подмножество будет составляться с помощью систематического случайного выбора.

Например, если ввести число 5 в поле K=, то среди первых пяти наблюдений будет случайным образом выбрано одно, а затем STATISTICA будет выбирать каждое пятое наблюдение в исходном множестве данных.

Рис. 8 Систематический случайный выбор, К=5

4) Разделенный случайный выбор. При выборе данного метода, все наблюдения будут случайным образом разделены на два файла данных. Необходимо указать процент наблюдений или приблизительное число наблюдений (данный параметр устанавливается в меню Опции).

Рис.9 Разделенный случайный выбор, N=10

Вкладка Стратифицированный

С помощью данной опции будет создана стратифицированная случайная выборка на основе текущего файла данных. Можно указать несколько стратифицирующих переменных, которые содержат целочисленные кодовые значения, определяющие отдельные группы (страты).

Стратифицированная выборка будет построена на основе комбинации всех кодов во все стратифицирующих переменных.

Например, выбрав в качестве переменных расслоения CENSORED и HOSPITAL, будут созданы различные доли выборок для комбинаций COMPLETE-HILLVIEW, COMPLETE- ST_AND, COMPLETE- BINER, CENSORED-HILLVIEW, CENSORED-ST_AND, CENSORED-BINER.

Опция Равные вероятности отмечается для выбора одной и той же доли наблюдений во всех группах. Предположим, общий (для всех групп) процент наблюдений в выборках составляет 50% (возможно также задание приблизительного числа наблюдений).

Рис. 10 Вкладка Стратифицированый

Вкладка Опции

Рис. 11 Вкладка Опции

1) Использовать условия выбора наблюдений. Если вы выбрать эту опцию, то условия выбора наблюдений, заданные при нажатии кнопки Наблюдения в диалоге будут применяться перед созданием подмножества.

Чтобы игнорировать условия выбора наблюдений, следует убрать отметку этой опции

2) Копировать формат наблюдений в новую таблицу. Отметив эту опцию, формат ячеек будет копироваться в новое подмножество.

3) Использовать веса наблюдений в случайном выборе. Если в текущей Таблице данных заданы веса наблюдений, можно интерпретировать эти веса как множители наблюдений. В этом случае, соответствующая дробная выборка будет эффективно подогнана к весам наблюдений.

4) Использовать сертифицированный генератор случайных чисел. STATISTICA использует очень точный и качественный генератор случайных чисел в тех случаях, когда необходимо провести некоторые процедуры.

Однако в большинстве процедур случайного выбора или стратифицированного случайного выбора можно использовать более простые и быстрые методы случайного выбора наблюдений. В частности, при работе с очень большими файлами данных можно убрать отметку этой опции для ускорения работы.

5) Выбор основан на процентах наблюдений. При выборе этой опции файл данных разделяется на основе процента наблюдений.

6) Выбор основан на приближенном N. При выборе этой опции файл данных разделяется на основе числа наблюдений.