Каталог статей | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Чебраков Ю.В. Методы получения общих аналитических решений для регрессионных задач в эконометрикеПусть заданы массив данных и аппроксимирующая функция , где yn — n-ое значение зависимой переменной,— n-ое значение вектора независимой переменной и — неизвестный вектор параметров. Требуется найти оценки A¢ и погрешности dA¢. Если F(A, X) = {F(A, X) — множественная линейная модель}, где hl(X) — некоторые функции от X, то обсуждаемую регрессионную задачу можно представить в матричной форме
и использовать алгебраические методы для решения уравнения (1). В частности, известный метод наименьших квадратов (МНК) получается как решение следующей минимизационной задачи [1, 2]
где “T” означает транспонирование матрицы. Действительно, если продифференцировать (2) по A и приравнять полученное выражение нулю, то получим
Если матрица (H TH)–1 невырожденная (rank H = L), то получим искомое решение
умножив выражение (3) слева на матрицу (H TH)–1. Очевидно, что вид решения регрессионной задачи может зависеть от вида минимизационной задачи. Например, M-робастная минимизационная задача [2, 3] имеет вид
где функция j(r) симметрична относительно оси Y, непрерывно дифференцируема с минимумом в нуле и j(0) = 0; y(r) — производная от j(r) по r. Если F(A, X) — нелинейная функция, то для оценки неизвестного вектора параметров A часто используется стандартный МНК-метод или, другими словами, минимизируется сумма квадратов остатков
Так как система уравнений ¶S/¶A = 0 в данном случае является нелинейной ищут минимум S(A). Как показано в [2] общие аналитические решения обсуждаемых регрессионных задач можно получить, решив следующие 4 задачи: a) Найти такое наименьшее значение a = amin, что, для всех экспериментальных реализаций содержащих все возможные U подмножества из отсчетов, выполняется неравенство
где N — размерность исходного массива данных — оценка n-го значения независимой переменной; — функция усечения:
и n0 — заданное целое число, которое определяет наибольший уровень усечения исходного массива данных На практике значение amin ищется как решение следующей экстремальной задачи
где максимум по U означает нахождение решения по всем подмножествам U множества {XU}, содержащих N, N – 1, …, N – n0 отсчетов; b) Построить набор эквивалентных аналитических функций (F ((Ci¢, x), Xn)), где a = amin и (Ci¢, x) — некоторый полином степени mi с переменной x (–1 £ x £ 1) и векторным параметром Таким образом, набор эквивалентных аналитических функций строится путем замены векторного параметра A функции (F(A, X)) на A = {(Ci, x)} и определения наименьшего значения степени и определения оценок коэффициентов полинома (Ci, x). c) Положить F ((Ci¢, x), Xn), где — искомое общее аналитическое решение обсуждаемой регрессионной задачи; d) Вычислить значения погрешностей dA¢, подставляя крайние значения x в общее аналитическое решение F ((Ci¢, x), Xn). Продемонстрируем, какие преимущества исследователь может получить от использования функций для анализа многомерных массивов данных в эконометрике. Maronna и Yohai в [4] рассмотрели множественную линейную модель , аппроксимирующую данные из Таблицы 1. Методы, изложенные ранее, дают следующие решения для обсуждаемой регрессионной задачи: i) Набор эквивалентных аналитических функций имеет вид
где a = 67, –1 £ x £ 1. Следовательно, a0 = –11 ± 20, a1 = 0,13 ± 0,03, a2 = 0,15 ± 0,03, a3 = 0,92 ± 0,09 и общее аналитическое решение регрессионной задачи имеет вид
ii) Если S =, то зависимость S от x имеет вид
Таблица 1. Данные для экономики Аргентины за период 1956–1984.
Следовательно, S(x) имеет наименьшее значение в (12) когда x = 880,58/(2×436,28) = 1,009. Если x = 1,009, то из (11) и (12) получается стандартное МНК-решение {A¢= (–31; 0,044; 0,12; 0,83); S= 27633}; iii) Если то зависимость Q от x имеет вид:
Следовательно, Q(x) имеет наименьшее значение в (13) когда x= –0,4079. Если x = –0,4079, то из (11) и (13) получается решение метода наименьших модулей {A¢ = (–2,8; 0,001; 0,16; 0,96); = 553,91}. iv) Если то зависимость D от x имеет вид:
Следовательно, D(x) имеет наименьшее значение в (14) когда x = 6,578, Если x = 6,578, то из (11) и(14) получается равномерно-аппроксимирующее решение {A¢ = (–142; 0,213; –0,00434; 0,315); = 71,49}. Но значение x = 6,578 >> 1 и таким образом это решение не входит в множество правильных решений. Добавим, если , то = 46, где th — гиперболический тангенс: th (x) = (exp(x) – exp(–x))/(exp(x) + exp(–x)). Таким образом, дает оценку для y лучшую, чем исходная множественная модель v) Как указано ранее, оцениватель = является M-робастным, если j(r) симметрична относительно оси Y, непрерывно дифференцируема с минимумом в нуле и j(0) = 0. В [2] предлагается в качестве j(r) использовать j(r) = (2/d) ln(1 + exp(dr)) – r. Если d = 2, , то зависимость от x имеет вид:
Следовательно, (x) имеет наименьшее значение в (15) когда x = –0,449. Если x = –0,449, то из (11) и (15) получается M-робастное решение {A¢ = (–1,96; 0,001; 0,0003; 0,96); = 554,86}. Maronna и Yohai в [4] исследовали также модель одновременных уравнений, содержащую 3 уравнения: a) Первое уравнение — уже использовалось ранее для аппроксимации данных из Таблицы 1; b) Второе уравнение — простая линейная модель , где значения переменной w определены в Таблице 2; c) Третье уравнение — где значения переменных и определены в Таблице 2.
Таблица 2. Дополнительные данные для экономики Аргентины за период 1956–1984.
Maronna и Yohai в [4] использовали два метода для решения регрессионной задачи с моделью одновременных уравнений: трех стадийный МНК-метод (3S-LS-E) и робастный t-оцениватель со Stahel – Donoho весами (Rt-E-SDW): 3S-LS-E метод дает решение
Rt-E-SDW метод дает решение
В данной работе продемонстрировано, что обсуждаемую трех модельную регрессионную задачу можно легко решить, если сначала построить общие аналитические решения регрессионных задач для моделей, указанных ранее в пунктах a) и b). При этом полученное итоговое решение задачи будет обладать лучшими качествами, чем решения (16) и (17). Литература: 1. Rao C.P. Linear statistical inference and its applications. Wiley & Sons, 1973. 2. Чебраков Ю.В. Теория оценивания параметров в измерительных экспериментах. Изд-во СПб гос. политехн. ун-та, 1997. 3. Huber P.J. Robust Statistics. Wiley & Sons, 1981. 4. Maronna N.A., Yohai V.J. Robust estimation in simultaneous equations models // J. of statistical planning and inference. 57. 233-244. 1997.
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||