Модель пропорциональных интенсивностей Кокса

Общее знакомство

Регрессионные модели

 

Самая большая проблема медицинских, биологических или инженерных статистических исследований состоит в выяснении того, являются ли некоторые непрерывные переменные связанными с наблюдаемыми временами жизни. Есть две главные причины, по которым в таких исследованиях не может быть непосредственно применена классическая техника множественной регрессии (см. Множественная регрессия). Во-первых, времена жизни обычно не являются нормально распределенными, а это является серьезным нарушением предположений для оценивания множественной регрессии по методу наименьших квадратов. Времена жизни обычно имеют экспоненциальное распределение или распределение Вейбулла. Во-вторых имеется проблема с цензурированными, т.е. незавершенными наблюдениями.

 

Модель пропорциональных интенсивностей - наиболее общая регрессионная модель, поскольку она не связана с какими-либо предположениями относительно распределения времени выживания. Эта модель предполагает, что функция интенсивности имеет некоторый уровень y, являющийся функцией независимых переменных. Никаких предположений о виде функции интенсивности не делается. Поэтому модель Кокса может рассматриваться как в некотором смысле непараметрическая. Модель может быть записана в следующем виде:

h{(t), (z1, z2, ..., zm)} = h0(t)*exp(b1*z1 + ... + bm*zm)

где h(t,...) обозначает результирующую интенсивность, при заданных для соответствующего наблюдения значениях m ковариат (z1, z2, ..., zm) и соответствующем времени жизни (t).

 

Множитель h0(t) называется базовой функцией интенсивности, она равна интенсивности в случае, когда все независимые переменные равны нулю. Можно линеаризовать эту модель, поделив обе части соотношения на h0(t) и взяв натуральный логарифм от обеих частей:

log[h{(t), (z...)}/h0(t)] = b1*z1 + ... + bm*zm

Теперь мы имеем достаточно "простую" линейную модель, которая легко поддается изучению.

Предположения. В то время как никаких прямых предположений о виде функции интенсивности ранее не делалось, модельное уравнение, приведенное выше, подразумевает два предположения.

 

Во-первых, зависимость между функцией интенсивности и логлинейной функцией ковариат является мультипликативной.

Это соотношение называется также предположением (гипотезой) пропорциональности. Реально оно означает, что для двух заданных наблюдений с различными значениями независимых переменных отношения их функций интенсивности не зависит от времени (чтобы ослабить это предположение, используются ковариаты, зависящие от времени; см. ниже).

 

Второе предположение состоит именно в логарифмической линейности соотношения между функцией интенсивности и независимыми переменными.