Регрессионный анализ

Регрессионный анализ является основным средством исследования зависимостей между социально-экономическими переменными.

Если расчёт корреляции характеризует силу связи между двумя переменными, регрессионный анализ служит для определения вида этой связи и дает возможность для прогнозирования значения одной (зависимой) переменной отталкиваясь от значения другой (независимой) переменной. Другими словами задача регрессионного анализа состоит в построении модели, позволяющей по значениям независимых показателей получать оценки значений зависимой переменной.

Например, необходимо построить упрощенную модель успеваемости студента. Графически ее можно построить следующим образом:

 

 

Уровень предварительной подготовки   Индивидуальные способности
     
  УСПЕВАЕМОСТЬ СТУДЕНТА  
       
Самостоятельной работы студента     Активности посещения занятий
    Другие факторы    
           

 

Математически, формально общее описание регрессионной модели можно записать в виде формулы:

y = f(x) + u,где

y – зависимая переменная (показатель «успеваемость студента»)

f – функция, описывающая силу и форму влияния независимой переменной x на y

u – все остальные факторы, влияющие на y

таким образом, задача построения модели сводится к подбору функции f, наилучшим образом, описывающая зависимость x от y.

Различают следующие виды регрессионного анализа:

· Простая линейная регрессия

· Множественная линейная регрессия

· Нелинейная регрессия

· Бинарная логистическая регрессия

· Мультиномиальная логистическая регрессия

· Порядковая регрессия

 

Выбор метода зависит от:

· Целевой переменной (количественная, качественная);

· Предикторов – факторов, которые влияют на наш показатель (количественные и интервальные, номинальные, порядковые)

· Предполагаемого характера взаимосвязи

Т.е. для проведения линейного регрессионного анализа зависимая переменная должна иметь интервальную (или порядковую) шкалу. В то же время, бинарная логистическая регрессия выявляет зависимость дихотомической переменной от некой другой переменной, относящейся к любой шкале. Те же условия применения справедливы и для пробит-анализа. Если зависимая переменная является категориальной, но имеет более двух категорий, то здесь подходящим методом будет мультиномиальная логистическая регрессия.

Линейная регрессия является наиболее часто используемым видом регрессионного анализа и нацелена на выполнение трех основных задач:

1. Определение того, какие частные параметры процесса оказывают влияние на результатирующую переменную. Установление направления и силы данного влияния. Расчет, каким будет значение результирующего параметра при тех или иных значениях частных параметров. Например, требуется установить, как влияет возраст респондента и его среднемесячный доход на частоту покупок глазированных сырков.

2. Выявление того, какие частные характеристики продукта влияют на общее впечатление потребителей от данного продукта (построение схемы выбора продукта потребителями). Установление соотношения между различными частными параметрами по силе и направлению влияния на общее впечатление. Например, имеются оценки респондентами двух характеристик мебели производителя X — цены и качества, — а также общая оценка мебели данного производителя. Требуется установить, какой из двух параметров является наиболее значимым для покупателей при выборе производителя мебели и в каком конкретном соотношении находится значимость для покупателей данных двух факторов (параметр Цена в х раз более значим для покупателей при выборе мебели, чем параметр Качество).

3. Графическое прогнозирование поведения одной переменной в зависимости от изменения другой (используется только для двух переменных). Как правило, целью проведения регрессионного анализа в данном случае является не столько расчет уравнения, сколько построение тренда (то есть аппроксимирующей кривой, графически показывающей зависимость между переменными). По полученному уравнению можно предсказать, каким будет значение одной переменной при изменении (увеличении или уменьшении) другой. Например, требуется установить характер зависимости между долей респондентов, осведомленных о различных марках глазированных сырков, и долей респондентов, покупающих данные марки. Также требуется рассчитать, насколько возрастет доля покупателей сырков марки х при увеличении потребительской осведомленности на 10 % (в результате проведения рекламной кампании).

В зависимости от типа решаемой задачи выбирается вид линейного регрессионного анализа. В большинстве случаев применяется множественная линейная регрессия, в которой исследуется влияние нескольких независимых переменных на одну зависимую. То есть результатом проведения регрессионного анализа является построение уравнения регрессии вида: у = а + Ь1х1 + Ь2х2 + ... + Ьnхn, позволяющего рассчитать значение зависимой переменной при различных значе­ниях независимых переменных.

Понятия «корреляция» и «регрессии» тесно связаны между собой. В экономических исследованиях корреляционный и регрессионный анализ нередко объединяют в один – корреляционно-регрессионный анализ. Подразумевается, что в результате такого анализа будет построена регрессионная зависимость (т.е. проведен регрессионный анализ) и рассчитаны коэффициенты ее тесноты и значимости (т.е. проведен корреляционный анализ).