Что такое предсказание значения зависимой переменной

Содержание

Доверительные интервалы для зависимой переменной
§ 7. Доверительные интервалы для зависимой переменной
ИНТЕРВАЛЫ ПРОГНОЗА ПО УРАВНЕНИЮ РЕГРЕССИИ

Доверительные интервалы для зависимой переменной

Одной из центральных задач эконометрического моделирования является предсказание (прогнозирование) значений зависимой переменной при определенных значениях объясняющих переменных. Здесь возможен двоякий подход: либо предсказать условное математическое ожидание зависимой переменной при определенных значениях объясняющих переменных (предсказание среднего значения), либо прогнозировать некоторое конкретное значение зависимой переменной (предсказание конкретного значения).

Предсказание среднего значения. Пусть построено уравнение парной регрессии , на основе которого необходимо предсказать условное математическое ожидание переменной Y при X = x₀. В данном случае значение является оценкой . Тогда естественным является вопрос, как сильно может уклониться модельное среднее значение , рассчитанное по эмпирическому уравнению регрессии, от соответствующего условного математического ожидания. Ответ на этот вопрос дается на основе интервальных оценок, построенных с заданной надежностью при любом конкретном значении объясняющей переменной.

Доверительный интервал для имеет вид:

(1.6)

Предсказание индивидуальных значений зависимой переменной.

На практике иногда более важно знать дисперсию Y, чем ее средние значения или доверительные интервалы для условных математических ожиданий.

Пусть нас интересует некоторое возможное значение переменной Y при определенном значении объясняющей переменной X. Предсказанное по уравнению регрессии значение Y при X = x₀ составляет . Тогда интервал

определяет границы, за пределами которых могут оказаться не более 100α% точек наблюдений при X = x₀. Заметим, что данный интервал шире доверительного интервала для условного математического ожидания (на рис. 6 границы этого интервала отмечены пунктирной линией).

Проводя анализ построенных интервалов, несложно заметить, что наиболее узкими они будут при X = x₀. По мере удаления от среднего значения доверительные интервалы расширяются (см. рис. 7). Поэтому необходимо достаточно осторожно экстраполировать полученные результаты на прогнозные области. С другой стороны, с ростом числа наблюдений n эти интервалы сужаются к линии регрессии при .

Источник

§ 7. Доверительные интервалы для зависимой переменной

Рассмотрим предсказание среднего значеі—

Пусть построено уравнение парной регрессии

нове которого необходимо предсказать условное математическое ожидание M(Y(X = xp) переменной Y при X = xp. Сначала определим точечную оценку математического ожидания зависимой переменной:

Тогда, с заданной надежностью 1-а, при любом конкретном значении xp объясняющей переменной доверительный интервал

для M (Y( X = x Л=В,+ В. x_ имеет вид:

Предсказание индивидуальных значений зависимой переменной.

Пусть нас интересует некоторое возможное значение ур переменной Y при определенном значении xp объясняющей переменной X. Тогда интервал:

определяет границы, за пределами которых могут оказаться не более 100а% точек наблюдений значений Y при X = x .

данный интервал шире доверительного интервала для условного математического ожидания.

Построенные интервалы наиболее узкими будут при xp = x . По

мере удаления xp от среднего значения доверительные интервалы расширяются. Поэтому необходимо достаточно осторожно экстраполировать полученные результаты на прогнозные области. С другой стороны, с ростом числа наблюдений n эти интервалы сужаются к линии регрессии при n .

Вернемся к примеру 2.1. Пусть x„ =160, тогда:

Рассмотрим предсказание индивидуальных значений зависимой переменной. Пусть xp =160, тогда:

Источник

ИНТЕРВАЛЫ ПРОГНОЗА ПО УРАВНЕНИЮ РЕГРЕССИИ

Одной из центральных задач эконометрического моделирования является предсказание (прогнозирование) значений зависимой переменной при определенных значениях объясняющих переменных при определенных значениях объясняющих переменных. Здесь возможен двоякий подход: либо предсказать условное математическое ожидание зависимой переменной (предсказание среднего значения), либо прогнозировать некоторое конкретное значение зависимой переменной (предсказание конкретного значения).

Замечание. Некоторые авторы различают такие понятия, как прогнозирование и предсказание. Если значение объясняющей переменной X известно точно, то оценивание зависимой переменной Y называется предсказанием. Если же значение объясняющей переменной X неизвестно точно, то говорят, что делается прогноз значения Y. Такая ситуация характерна для временных рядов. В данном случае мы не будем различать предсказание и прогноз.

Различают точечное и интервальное прогнозирование. В первом случае оценка – некоторое число, во втором – интервал, в котором находится истинное значение зависимой переменной с заданным уровнем значимости.

а) Предсказание среднего значения. Пусть построено уравнение парной регрессии , на основе которого необходимо предсказать условное математическое ожидание . В данном случае значение является точечной оценкой . Тогда естественно возникает вопрос, как сильно может отклониться модельное значение , рассчитанное по эмпирическому уравнению, от соответствующего условного математического ожидания. Ответ на этот вопрос даётся на основе интервальных оценок, построенных с заданным уровнем значимости a при любом конкретном значении x_p объясняющей переменной.

Запишем эмпирическое уравнение регрессии в виде

Здесь выделены две независимые составляющие: средняя и приращение . Отсюда вытекает, что дисперсия будет равна

. (5.53)

Из теории выборки известно, что

Используя в качестве оценки s 2 остаточную дисперсию S 2 , получим

. (5.54)

Дисперсия коэффициента регрессии, как уже было показано

. (5.55)

Подставляя найденные дисперсии в (5.41), получим

. (5.56)

Таким образом, формула расчета стандартной ошибки предсказываемого по линии регрессии среднего значения Y имеет вид

. (5.57)

Величина стандартной ошибки , как видно из формулы, достигает минимума при , и возрастает по мере удаления от в любом направлении. Иными словами, больше разность между и , тем больше ошибка с которой предсказывается среднее значение y для заданного значения x_p. Можно ожидать наилучшие результаты прогноза, если значения x_p находятся в центре области наблюдений X и нельзя ожидать хороших результатов прогноза по мере удаления от .

Случайная величина

(5.58)

имеет распределение Стьюдента с числом степеней свободы n=n–2 (в рамках нормальной классической модели). Следовательно, по таблице критических точек распределения Стьюдента по требуемому уровню значимости a и числу степеней свободы n=n–2 можно определить критическую точку , удовлетворяющую условию

С учетом (5.46) имеем:

Отсюда, после некоторых алгебраических преобразований, получим, что доверительный интервал для имеет вид:

, (5.59)

где предельная ошибка D_p имеет вид

. (5.60)

Из формул (5.57) и (5.60) видно, что величина (длина) доверительного интервала зависит от значения объясняющей переменной x_p: при она минимальна, а по мере удаления x_p от величина доверительного интервала увеличивается (рис. 5.4). Таким образом, прогноз значений зависимой переменной Y по уравнению регрессии оправдан, если значение x_p объясняющей переменной X не выходит за диапазон ее значений по выборке (причем более точный, чем ближе x_p к ). Другими словами, экстраполяция кривой регрессии, т.е. её использование вне пределов обследованного диапазона значений объясняющей переменной (даже если она оправдана для рассматриваемой переменной исходя из смысла решаемой задачи) может привести к значительным погрешностям.

б) Предсказание индивидуальных значений зависимой переменной. На практике иногда более важно знать дисперсию Y, чем ее средние значения или доверительные интервалы для условных математических ожиданий. Это связано с тем, что фактические значения Y варьируют около среднего значения . Индивидуальные значения Y могут отклоняться от на величину случайной ошибки e, дисперсия которой оценивается как остаточная дисперсия на одну степень свободы S 2 . Поэтому ошибка предсказываемого индивидуального значения Y должны включать не только стандартную ошибку , но и случайную ошибку S. Это позволяет определять допустимые границы для конкретного значения Y.

Пусть нас интересует некоторое возможное значение y₀ переменной Y при определенном значении x_p объясняющей переменной X. Предсказанное по уравнению регрессии значение Y при X=x_p составляет y_p. Если рассматривать значение y₀ как случайную величину Y₀, а y_p – как случайную величину Y_p, то можно отметить, что

Случайные величины Y₀ и Y_p являются независимыми, а следовательно, случайная величина U= Y₀–Y_p имеет нормальное распределение с

и . (5.61)

Используя в качестве s 2 остаточную дисперсию S 2 , получим формулу расчета стандартной ошибки предсказываемого по линии регрессии индивидуального значения Y:

. (5.63)

(5.64)

имеет распределение Стьюдента с числом степеней свободы k=n–2. На основании этого можно построить доверительный интервал для индивидуальных значений Y_p:

, (5.65)

где предельная ошибка D_u имеет вид

. (5.66)

Заметим, что данный интервал шире доверительного интервала для условного математического ожидания (см. рис. 5.4).

Пример 5.5. По данным примеров 5.1-5.3 рассчитать 95%-ый доверительный интервал для условного математического ожидания и индивидуального значения при x_p=160.

Решение. В примере 5.1 было найдено . Воспользовавшись формулой (5.48), найдем предельную ошибку для условного математического ожидания

Тогда доверительный интервал для среднего значения на уровне значимости a=0,05 будет иметь вид

Другими словами, среднее потребление при доходе 160 с вероятностью 0,95 будет находиться в интервале (149,8; 156,6).

Рассчитаем границы интервала, в котором будет сосредоточено не менее 95% возможных объёмов потребления при уровне дохода x_p=160, т.е. доверительный интервал для индивидуального значения . Найдем предельную ошибку для индивидуального значения

Тогда интервал, в котором будут находиться , по крайней мере, 95% индивидуальных объёмов потребления при доходе x_p=160, имеет вид

Нетрудно заметить, что он включает в себя доверительный интервал для условного среднего потребления. â

ПРИМЕРЫ

Пример 5.65.По территориям региона приводятся данные за 199X г. (таб. 1.1).

Номер региона

Среднедушевой прожиточный минимум в день одного трудоспособного, руб., x

Среднедневная заработная плата, руб., y

1. Рассчитать линейный коэффициент парной корреляции, оценить его статистическую значимость и построить для него доверительный интервал с уровнем значимости a=0,05.

2. Построить линейное уравнение парной регрессии y на x и оценить статистическую значимость параметров регрессии. Сделать рисунок.

3. Оценить качество уравнения регрессии при помощи коэффициента детерминации. Проверить качество уравнения регрессии при помощи F-критерия Фишера.

4. Выполнить прогноз заработной платы y при прогнозном значении среднедушевого прожиточного минимума x, составляющем 107% от среднего уровня. Оценить точность прогноза, рассчитав ошибку прогноза и его доверительный интервал для уровня значимости a=0,05. Сделать выводы.

Решение

1. Для определения степени тесноты связи обычно используют коэффициент корреляции:

где , – выборочные дисперсии переменных x и y. Для расчета коэффициента корреляции строим расчетную таблицу (табл. 5.4):

x	y	xy	x 2	y 2			e 2
148,77	-15,77	248,70
152,45	-4,45	19,82
157,05	-23,05	531,48
149,69	4,31	18,57
158,89	3,11	9,64
174,54	20,46	418,52
138,65	0,35	0,13
157,97	0,03	0,00
144,17	7,83	61,34
157,05	4,95	24,46
146,93	12,07	145,70
182,83	-9,83	96,55
Итого	–	1574,92
Среднее значение	85,58	155,75	13484,00	7492,25	24531,42	–	–	–

По данным таблицы находим:

, , , ,

, .

Таким образом, между заработной платой (y) и среднедушевым прожиточным минимумом (x) существует прямая достаточно сильная корреляционная зависимость.

Для оценки статистической значимости коэффициента корреляции рассчитаем двухсторонний t-критерий Стьюдента:

который имеет распределение Стьюдента с k=n–2 и уровнем значимости a. В нашем случае

и .

Поскольку , то коэффициент корреляции существенно отличается от нуля.

Для значимого коэффициента можно построить доверительный интервал, который с заданной вероятностью содержит неизвестный генеральный коэффициент корреляции. Для построения интервальной оценки (для малых выборок n

Источник