Справочник Автор24
Лекторий Автор24
Лекционные и методические материалы по эконометрике
Эконометрика.Математическое моделирование экономических процессов

Эконометрика.Математическое моделирование экономических процессов

⌛ 2012 год
👀 571 просмотр
📌 520 загрузок
🏢️ Финансовый университет при правительстве РФ

Выбери формат для чтения

Конспект лекции по дисциплине «Эконометрика.Математическое моделирование экономических процессов», pdf

Загружаем конспект в формате pdf

Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇

Конспект лекции по дисциплине «Эконометрика.Математическое моделирование экономических процессов», Word формат

Федеральное государственное образовательное бюджетное учреждение высшего профессионального образования «ФИНАНСОВЫЙ УНИВЕРСИТЕТ ПРИ ПРАВИТЕЛЬСТВЕ РОСИЙСКОЙ ФЕДЕРАЦИИ» (Финансовый университет) Кафедра «Математическое моделирование экономических процессов» В.И. Костюнин ЭКОНОМЕТРИКА Тексты лекций Для студентов, обучающихся по направлению 080100.62 «Экономика» (программа подготовки бакалавра) Москва 2012 Федеральное государственное образовательное бюджетное учреждение высшего профессионального образования «ФИНАНСОВЫЙ УНИВЕРСИТЕТ ПРИ ПРАВИТЕЛЬСТВЕ РОСИЙСКОЙ ФЕДЕРАЦИИ» (Финансовый университет) Кафедра «Математическое моделирование экономических процессов» УТВЕРЖДАЮ Ректор ________М.А. Эскиндаров «_____»______________2012 г. В.И. Костюнин ЭКОНОМЕТРИКА Тексты лекций Для студентов, обучающихся по направлению 080100.62 «Экономика» (программа подготовки бакалавра) Москва 2012 УДК 330.43(075.8) ББК 65в631 К 72 112358 Рецензент: Невежин В.П. - к.т.н., профессор кафедры «Математическое моделирование экономических процессов» К 72Костюнин В.И.«Эконометрика» Тексты лекций (часть 1).Учебное издание для студентов, обучающихся по направлению 080100.62 «Экономика» профили: «Финансы и кредит», «Бухгалтерский учет, анализ и аудит», «Налоги и налогообложение», «Мировая экономика» (программа подготовки бакалавра). – М.: Финансовый университет, кафедра «Математическое моделирование экономических процессов», 2012 - 125с. В настоящих текстах лекций изложен теоретический материал по разделам эконометрики, который богато иллюстрирован практическими примерами, направленными на приобретение студентами навыков решения практических задач. Тексты лекций содержат задания для самоконтроля, примерная тематика домашних творческих заданий (ДТЗ). УДК330.43(075.8) ББК65в631 Учебное издание Костюнин Владимир Ильич «Эконометрика» Тексты лекций (часть 1) Формат 60х90/16. Гарнитура TimesNewRoman. Усл. п.л. 7.8.Изд. № 17.1.1-2012.Тираж - 300 экз. Заказ ___________ Отпечатано в Финансовом университете © Костюнин Владимир Ильич, 2012 © Финансовый университет, 2012 Содержание Введение………………………………………………………………..4 1. Лекция 1. Эконометрика как наука. Этапы построения модели……………………………………………………………….....6 2. Лекция 2. Оценивание параметров линейной модели множественной регрессии………………………….………………..31 3. Лекция 3. Тестирование качества спецификации модели……….... 56 4. Лекция 4. Тестирование модели на гомоскедастичность случайных возмущений, взвешенный метод наименьших квадратов………………………………………………………………74 5. Лекция 5. Тестирование модели на наличие автокорреляции. Обобщенный метод наименьших квадратов………………………..98 Лекция 6. Тестирование оцененной модели на адекватность…… 123 Лекция 7. Применение фиктивных переменных в эконометрических моделях…………………………………….….. 146 1. Лекция 8. Построение нелинейных моделей……………………... 162 2. Лекция 9. Проблемы и методы построения линейных моделей в виде систем одновременных уравнений ………………………………… 177 3. Приложение 1. Примерный перечень экзаменационных вопросов……………………………………………………………. 4. 206 Приложение 2. Примерный перечень тем теоретико-практических работ…………………………………………………………………. 209 Приложение 3.Граничные значения (dL, dU) статистик Дарбина–Уотсона ..…………………………………………………. 210 Литература………………………………………………………..…. 211 3 Введение Переход к рыночной экономике повышает требования к качеству подготовки экономистов, которые, чтобы быть конкурентоспособными и востребованными на рынке труда, должны владеть количественными методами анализа. Сегодня нужны специалисты, не только владеющие опытом и знаниями предыдущих поколений, но и готовы к встрече с новыми постановками задач. Деятельность экономиста невозможна без применения современных методов работы, большинство из которых основано на эконометрических концепциях и приемах. В связи с этим дисциплина «Эконометрика» сегодня входит в учебные планы подготовки экономистов всех специальностей в качестве базовой, обязательной дисциплины и преподается во всех ведущих университетах мира. Появление предлагаемого учебного пособия продиктовано необходимостью перехода на новую двухступенчатую систему высшего профессионального обучения и, как следствие, необходимостью подготовки учебных материалов, соответствующих новым стандартам. В настоящем учебном пособии изложены основополагающие вопросы, связанные с построением и анализом эконометрических моделей. Материал излагается языком, приближенным к тому, которым преподаватели пользуются при чтении лекций. В пособие так же включены задания для самоконтроля, приблизительный перечень экзаменационных вопросов и предполагаемые темы теоретико-практических работ. Тексты лекций состоят из 2-х частей: в первой части содержатся тексты лекций 1- 5, во второй – лекции 6- 9. В лекции 1 рассматриваются следующие разделы дисциплины: эконометрика, ее задачи и методы; отражение в модели фактора времени; отражение в модели влияния неучтенных факторов; схема построения эконометрических моделей. 4 В лекции 2 освещены такие разделы, как: необходимые сведения из теории вероятностей и математической статистики; множественной регрессии; оценивания линейных оптимальные моделей линейная модель статистические множественной процедуры регрессии; ошибки спецификации эконометрических моделей и их влияние на качество оценок. В лекциях 3, 4, 5 изложены вопросы разделов: тестирование качества спецификации модели; тестирование предпосылок теоремы Гаусса-Маркова о гомоскедастичности и неавтокоррелируемости случайных возмущений; оценка линейных регрессионных моделей с гетероскедастичными и автокоррелированными остатками (взвешенный и обобщенный методы наименьших квадратов). В лекции 6 рассмотрен важный раздел анализа модели: методы прогнозирования и тестирования адекватности построенной линейной модели множественной регрессии. В лекциях 7 и 8 раскрывается содержание следующих разделов рабочей программы: нелинейные модели регрессии и их линеаризация, учет в линейных моделях влияния качественных факторов с помощью фиктивных переменных и моделирование сезонных колебаний в моделях временных рядов. В лекции 9 рассмотрен весь комплекс вопросов, связанных с разделом оценки линейных эконометрических моделей из одновременных уравнений и разделом модели с лаговыми переменными, проблема мультиколлинеарности. Материал излагается языком, приближенным к тому, которым преподаватели пользуются при чтении лекций. В тексты лекций так же включены задания для самоконтроля, примерный перечень экзаменационных вопросов и примерная тематика теоретико-практических работ. 5 Лекция 1.Эконометрика как наука. Этапы построения модели Содержание лекции 1. Место эконометрики в экономической науке. 2. Понятия экономического объекта, переменных, модели, параметров модели. 3. Этапы построения модели. 4. Принципы спецификации модели. 5. Классификация переменных и моделей. 6. Структурная и приведенная формы моделей. Любая наука в своем развитии проходит несколько стадий. Все начинается с осмысление изучения объекта полученных исследования, результатов, затем выявление происходит качественных закономерностей поведения объекта, а на финальной стадии происходит формализация достигнутых результатов. Под формализацией понимается описание выявленных закономерностей на некоем формализованном языке. К таким языкам, в частности, относится математический язык. Известный немецкий философ Э.Кант говорил: «Любая наука постольку наука поскольку она математика». Экономика в этом смысле не исключение. И как раз в наше время наблюдается ее формализация. Чем отличается эконометрика от других разделов экономической науки: микро и макроэкономики, математического моделирования экономических процессов. При изучении этих и других экономических дисциплин широко используются математические модели. Как правило, эти модели выражены в описательной форме, т.е. носят качественный характер. 6 Например, вспомним известную модель межотраслевого баланса: (1.1) Здесь: вектор вектор - валовой выпуск продукции каждой из отраслей; - конечный спрос на продукцию каждой из отраслей; матрица В- матрица коэффициентов полных материальных затрат. Формула (1.1) позволяет вычислить объем валового выпуска продукции каждой отраслью по заданным значениям объемов конечного спроса. Это возможно, если известна матрица коэффициентов полных материальных затрат, которую принято называть мультипликатором Леонтьева. Однако, изучая межотраслевой баланс в курсе макроэкономики, за скобками оставался вопрос, где взять или как получить эту матрицу. Основная задача эконометрики как раз и сводится к нахождению ответа на этот вопрос. Следует отметить, что эконометрика как наука стала оформляться в начале 20-го века. Ее появление связывают с именами Рагнера Фриша и Роберта Клейна. В настоящее время нет единого определения эконометрики как науки. Сам термин «эконометрика» впервые был введен Рагнером Фришем в 1926 году и в дословном переводе означает «экономические измерения» или «измерения в экономике». Наряду с таким широким пониманием эконометрики, существует и весьма узкая трактовка как совокупность методов анализа связей между различными экономическими показателями (факторами) на основании реальных статистических данных с использованием аппарата теории вероятностей и математической статистики. 7 Мы будем придерживаться определения, которое дал Р.Фриш. Рагнер Антон КиттельФриш (1895-1973 гг) – Норвежский экономист, лауреат нобелевской премии «за создание и применение динамических моделей к анализу экономических процессов. Лоуренс Роберт Клейн (19201980) Американский экономист, лауреат Нобелевской премии 1980г. «за создание экономических моделей и их применение к анализу колебаний экономики и экономической политики» Работа. «Эконометрика в современном мире» 1970г. Работа. «Экономическая теория и эконометрика» Определение (Р.Фриш).«Эконометрика – это раздел экономики, изучающий конкретные количественные закономерности и взаимосвязи между переменными экономических математических методов и моделей». 8 объектов с помощью Р.Фриш подчеркивает, составляющих: что эконометрика математической есть статистики, единство трех макроэкономики и микроэкономики. Задача эконометрики состоит в выявлении связей между количественными характеристиками экономических объектов в целях построения математических правил прогноза (вычисления приближённых значений) недоступных для наблюдения количественных характеристик объектов по наблюденным или заданным значениям других количественных характеристик объектов. Эмпирическим материалом для построения правил прогноза (эти правила именуются эконометрическими моделями) служат результаты наблюдений за изучаемыми экономическими объектами. Как отмечает Клейн – «Основная задача эконометрики – наполнить эмпирическим содержанием априорные экономические рассуждения» Или, другими словами, ставится задача придать количественные оценки выводам и закономерностям, сформулированным в общей экономической теории Обобщая сказанное, отметим: «Эконометрика» рассматривается как дисциплина, объединяющая совокупность результатов, методов и приемов экономической теории, экономической статистики и математико-статистического инструментария для количественного выражения качественных закономерностей. Рассмотрим основные этапы построения модели. Процесс (комплекс решаемых задач) построения экономических моделей можно условно разбить на несколько этапов. Отметим, что это деление условное и различные авторы такое деление производят по-разному. Это относится к 9 количеству этапов, но не к комплексу задач, которые необходимо решить в процессе построения модели. Мы будем рассматривать четыре основных этапа: - спецификация модели; - сбор исходной информации; - идентификация модели; - анализ адекватности модели. При изучении дисциплины, а также решении задач будем придерживаться принятой схемы. Спецификация модели. Не смотря на кажущуюся простоту этого этапа построения модели, он является определяющим в достижении цели. На этом этапе исследователю необходимо подробно изучить качественные выявить закономерности количественные поведения показатели, экономического объекта, характеризующие объект, сформулировать взаимосвязи между этими показателями. Результатом такой работы должна быть формализованная (выраженная на математическом языке) запись поведения объекта. Определение.Спецификация модели - подробное описание на математическом языке закономерностей поведения экономического объекта. Где взять необходимые для этого закономерности? На практике можно воспользоваться двумя источниками. Первый – это качественные выводы, полученные экономической 10 теорией при изучении интересующего вас объекта. Второй – результат самостоятельного изучения и анализа объекта. Очевидно, экономическая теория не может рассмотреть каждый конкретный экономический объект. Она рассматривает, как правило, общие закономерности поведения и развития отдельных экономических систем (производственные системы, системы потребления, общее развитие экономики и т.п.). Моделирование конкретного объекта представителя той или иной системы задача исследователя.Прежде, чем приступить к рассмотрению принципов спецификации модели, дадим ряд определений понятиям, которые лежат в основе моделирования. Из уже сказанного видно, что в изложении используются следующие понятия: «экономический объект», «переменные объекта», «модель». Определение. Под экономическим объектом понимается любой хозяйствующий субъект. Это может быть домашнее хозяйство, производство, отдельный регион, национальная или глобальная экономическая система. Т.е. любой объект, который участвует в процессах производства, потребления или обмена. Каждому экономическому объекту присущ набор количественных характеристик, которые характеризуют его поведение. Определение. Количественные показатели, которые характеризуют поведение объекта, называются переменными объекта. Пример. Пусть в качестве объекта исследования служит равновесный конкурентный рынок какого-либо товара. Из экономической теории известно, что равновесный рынок товара характеризуется, по крайней мере, тремя количественными показателями. 11 Это уровень спроса (обозначим его (обозначим его , ), уровень предложения товара ) и равновесная цена (обозначим как p). Величины и р являются переменными данного экономического объекта. Следующее важное понятие – модель. Следует отметить, что термин «модель» имеет очень широкий спектр толкований. Это и наглядные модели каких-либо объектов машиностроения, строительства, компьютерные программы тоже часто называют моделями и многое другое. Нас будут интересовать только математические модели. Определение. Модель – математически выраженная связь между переменными объекта. Математическая модель может быть представлена различным способом – это набор графиков, набор таблиц, изолированное уравнение или система уравнений. Важно, чтобы при использовании модели была возможность по известным значениям одних переменных получить значения других, неизвестных, переменных. В общем случае любое из названных представлений модели позволяет это сделать. Из всего многообразия математических функций и уравнений, для решения задач эконометрики выбираются только алгебраические уравнения линейного типа. Возвращаясь к вопросу спецификации модели, скажем, что задача этого этапа заключается в формализованной записи на математическом языке известных или выявленных взаимосвязей между переменными экономического объекта. На практике придерживаются следующего принципа спецификации модели. 12 Первый принцип спецификации Первый принцип закономерностей спецификации взаимосвязей между подсказывает, переменными источник объекта и формулируется следующим образом: Модель появляется в результате перевода на математический язык (математической формализации) известных закономерностей поведения объекта. Продолжим рассмотрение равновесного конкурентного рынка и запишем спецификацию объекта с учетом сделанных замечаний. Вспомним, какие закономерности присущи данному объекту. 1. Уровень спроса на товар падает с ростом цены на товар. 2. Уровень предложения на товар растет с ростом цены на него. 3. Равновесная цена на товар есть результат равновесия между уровнями спроса и предложения. Исходя из приведенных закономерностей, запишем спецификацию элементарной модели конкурентного рынка в виде системы линейных алгебраических уравнений. Первое линейного утверждение уравнения на математическом принимает языке с . вид: необходимо дополнить полученное уравнение ограничением на помощью При : этом 0, чтобы обеспечить падение спроса с ростом цены. Замечание. Вообще говоря, это обстоятельство можно было учесть, поставив знак минус перед вторым слагаемым. Но в этом случае необходимо указать, что коэффициент не может быть отрицательным. Принято записывать слагаемые в уравнениях с плюсом, а особенности коэффициентов указывать в ограничениях. 13 Аналогичным образом легко формализовать оставшиеся два утверждения. В результате спецификация модели примет вид: (1.2) 0; В модели (1.2) , коэффициенты , , , , , являются переменными модели (объекта), а называются параметрами модели. В чем заключается разница между переменными и параметрами модели? Переменная по определению может принимать любое значение из области определения. Например, цена может иметь любое значение из интервала (0, ∞). Параметры модели – константы Мы ограничили себя только применением линейных алгебраических уравнений. Однако на практике далеко не всегда удается получить спецификацию модели в виде линейного алгебраического уравнения. Пример. Спецификация неоклассической производственной функции. Пусть производственная функция характеризуется тремя переменными: Y– объем, выпускаемой продукции, в денежном выражении; K – объем капитальных затрат; L – объем затрат на трудовые ресурсы. Взаимосвязи между перечисленными переменными подчиняются следующим закономерностям; 14 1. Каждый из факторов производства (K и L) одинаково необходимы для выпуска продукции. Другими словами, если один из этих факторов равен нулю, то выпускается нулевой продукт. 2. Объем выпускаемой продукции растет с увеличением потребления каждого из факторов при условии фиксации другого. 3. Каждая последующая единица использования факторов менее полезна, чем предыдущая (закон убывания предельной полезности факторов). 4. Если затраты факторов одновременно увеличить в μ раз, то и объем выпуска продукции возрастет в μ раз. Итак, необходимо записать спецификацию производственной функции с учетом перечисленных закономерностей. Из первой закономерности следует, что затрачиваемые факторы в модели должны участвовать в виде произведения. Только в этом случае равенство любого из факторов приведет к равенству нулю результата. . Параметр Следовательно, можно записать: учитывает степень отклика объема выпускаемой продукции на изменение затрат факторов производства. Вторая закономерность говорит о том, что рост объема выпуска продукции не обязательно линейный по отношению к факторам производства, т.е. может иметь вид: . Параметры α и β учитывают степень влияния изменений затрат факторов на изменение объема производства. Из третьего условия следует, что параметры α и β должны быть положительными, но меньше единицы. Из последнего условия следует, что должно выполняться тождество: Раскрыв скобки, получим: 15 Откуда вытекает условие на параметры α и β: α + β=1 В результате неоклассическая производственная функция получает спецификацию: (1.3) В результате получена спецификация хорошо вам известной производственной функции Коба-Дугласа. Отметим различия между моделями (1.2) и (1.3). Первое отличие заключается в количестве уравнений: в модели (1.2) их три, а в модели (1.3) одно, второе – уравнения модели (1.2) - линейные алгебраические аддитивные функции, модель (1.3) – нелинейная мультипликативная. Заметим, по количеству уравнений экономические модели подразделяются на модели в виде изолированного уравнения и на модели в виде системы уравнений. Итак, мы обсудили первый принцип спецификации моделей. Второй принцип спецификации модели Прежде, чем сформулировать второй принцип спецификации, запишем спецификацию расширенной модели конкурентного равновесного рынка. Для этого вспомним, что из экономической теории известно, что уровень спроса не только падает с ростом цены, но возрастает с ростом располагаемого дохода потребителя. Если х располагаемый доход потребителя, то спецификация расширенной модели конкурентного рынка получит вид: (1.4) ; , , 16 В первом уравнении модели появилось еще одно слагаемое, связанное с влиянием располагаемого дохода на уровень спроса. Начнем с классификации переменных в моделях. Из характера формирования значений переменных, входящих в спецификацию (1.4), видно, что значение переменной х (располагаемый доход потребителя) формируется вне конкурентного рынка. Доход потребитель формирует в результате работы на другом экономическом объекте, а на рынок потребитель приходит с уже известным значением дохода. Переменные yd, ys, p наоборот формируются внутри конкурентного рынка в результате их взаимодействия, как между собой, так и с переменной х. Эти различия находят отражение в следующих определениях. Определение. Переменные модели, значения которых формируются внутри модели в результате взаимодействия с другими переменными, называются эндогенными (зависимыми, внутренними). Определение. Переменные модели, значения которых формируются вне модели, называются экзогенными (независимые, внешние). Теперь можно сформулировать второй принцип спецификации модели: количество уравнений в модели равно количеству эндогенных переменных, участвующих в модели. В модели (1.4) три эндогенные переменные, соответственно три уравнения. В модели (1.2) одна эндогенная переменная и одно изолированное уравнение. Замечание. В моделях в виде изолированного уравнения не может быть боле одной эндогенной переменной. 17 Второй принцип спецификации модели служит одной из проверок правильности спецификации модели. Третий принцип спецификации модели Для того, чтобы его сформулировать, необходимо предварительно вспомнить следующие особенности экономических объектов. Первое. Практически все переменные экономического объекта изменяются со временем. Причины разные и вам известные из общей экономической теории. Для нас важно, что этот факт должен быть отражен в спецификации модели. Отражение зависимости переменных в модели осуществляется с помощью индекса t при переменных. Следовательно, расширенная модель конкурентного рынка должна иметь вид: (1.5) 0; , , Заметим, что индекс t может быть только при переменных, они изменяются со временем. Параметры – константы и от времени не зависят. Смысл индекса t – это интервал времени, внутри которого значение переменных модели можно считать практически неизменными. Длина этого интервала для каждой задачи своя. Это может быть день (курс валют), месяц, квартал, год. Но во всех случаях индексt при переменной указывает на то, что рассматривается значение переменной в текущий момент времени. Вторая особенность экономических объектов заключается в их инертности. Для того чтобы изменить объемы производства в ответ на 18 изменение цен на продукцию на рынке, производителю нужно время. С другой стороны, планируя производство, производитель еще не знает, какая цена установится на рынке. Ему приходится ориентироваться на ту цену, которая была в предыдущий период времени. Поэтому в моделях могут присутствовать как переменные, отнесенные к текущему моменту времени, так и переменные, отнесенные к предыдущим моментам времени. Исходя из сказанного, спецификацию модели (1.5) правильно записать в виде: (1.5) 0; , , Модель (1.5) – это известная Вам, паутинная модель конкурентного рынка. Определение. Переменная модели, отнесенная к предшествующим моментам времени, называется лаговой. Лаговыми могут быть, как эндогенные, так и экзогенные переменные. Лаг (задержка) может быть, как в один, так и в несколько периодов. Появление лаговых переменных в моделях, делает необходимым внесение дополнений в классификацию переменных. Значение лаговой эндогенной переменной в текущий момент времени уже известно. Всегда можно выяснить, какие цены на ресурсы были в прошлом году или квартале. Другими словами значения лаговых переменных в текущий момент времени уже сформированы и изменению не подлежат. Но экзогенными их тоже назвать нельзя. Определение. Переменные модели, отнесенные называются датированными (от слова «дата»). 19 ко времени Определение. Модели, содержащие датированные переменные называются динамическими. Определение. Все экзогенные и лаговые эндогенные переменные образуют группу предопределенных переменных. Это переменные, значения которых предварительно (до текущего момента времени) определены. Модели, в состав которых входят только текущие эндогенные переменные, называют замкнутыми (закрытыми). Модели, в составе которых присутствует хотя бы одна предопределенная переменная, называется открытой. Определение. Третий принцип спецификации модели заключается в необходимости учета влияния времени на значения переменных. Четвертый принцип спецификации модели Рассмотрим конкретный пример. Предположим, изучается зависимость расходов на потребление от размера располагаемого дохода. В таб. 1.1 приведены данные, полученные в результате наблюдения за расходами в различных домашних хозяйствах. Номер Доход Расходы на Номер Доход Расходы на наблюв долл. потребление наблю- в долл. потребление дения X Y дения X Y 1 2 3 4 5 6 1 2508 2406 11 2432 2311 2 2572 2564 12 2354 2278 3 2408 2336 13 2404 2240 4 2522 2281 14 2381 2183 5 2700 2641 15 2581 2408 6 2531 2385 16 2529 2379 7 2390 2297 17 2562 2378 8 2592 2416 18 2624 2554 9 2524 2460 19 2407 2232 10 2685 2549 20 2448 2356 Таб. 1.1. Таблица результатов наблюдений за расходами. 20 На рис.1.1 представлено графическое представление наблюдений. Это набор отдельных точек. Такой график называется диаграммой рассеяния. Основной Название оси Основной Основной Основной Основной Основной Основной Основной Основной Основной Основной Основной Основной Основной Основной Основной Основной Доходы х Рис. 1.1. Диаграмма рассеяния. Из диаграммы видно, что при одинаковом доходе расходы на потребление у различных потребителей отличаются. Это означает, что функция описывающая зависимость расходов на потребление должна быть неоднозначной. С помощью линейной алгебраической функции такого результата добиться не возможно. Это утверждение справедливо и для любой другой функции. Естественно, хотелось бы иметь однозначное соотношение между значениями экзогенных (предопределенных) переменных и эндогенными переменными. Что является причинами появления неоднозначности? Их две: - индивидуальные особенности объекта; 21 - влияние других факторов, неучтенных в спецификации модели. Например, если моделируются расходы на потребление мяса в зависимости от располагаемого дохода, то в качестве индивидуальной особенности может выступать отношение потребителя к мясу. Одни любят мясо, другие отдают предпочтение птице или рыбе, третьи его вообще не едят (вегетарианцы). Понятно, что при одинаковом располагаемом доходе эти потребители несут различные расходы на потребление мяса. С другой стороны, если вы собираете гостей, то, по такому случаю, вы купите больше мяса, чем обычно. Сбор гостей - пример фактора, повлиявшего на результаты наблюдения за расходами на мясо. Для обеспечения однозначной зависимости между эндогенной и экзогенными переменными в уравнение модели вводится еще одна переменная, которую называют «случайное возмущение» или «остаток». В результате, спецификацию модели в общем виде записывается как: (1.6) Определение. Модели, которые в своем составе содержат случайные возмущения, называются эконометрическими. Рассмотренные ранее спецификации относят к экономическим моделям, т.е. моделям, которые обеспечивают однозначность за счет экзогенных (предопределенных) переменных. В спецификации эндогенной переменной (1.6) в функция ответ описывает на изменение поведение экзогенных (предопределенных) переменных. Поэтому ее называют поведенческой 22 частью модели или поведенческой функцией. Вид поведенческой функции в общем случае может быть любым. В математике уравнения типа (1.6) называют обобщенной функциональной зависимостью или обобщенной регрессионной зависимостью. Функцию в математике называют уравнением регрессии. Переменная ut является случайной величиной. Ее назначение впитать в себя влияние всех особенностей экономического объекта и обеспечить однозначное соответствие между экзогенными и эндогенной переменной. Остаток как случайная переменная определяется законом распределения (функцией плотности вероятностей). Будем предполагать, что случайное возмущение имеет математическое ожидание (среднее значение) равное нулю M(ut)=0, а его дисперсия постоянна . Если в правой части спецификации модели появилось случайное слагаемое, то и результат (эндогенная переменная) тоже становится случайной переменной со своей функцией плотности вероятностей. Найдем математическое ожидание правой части модели (1.6). (1.7) Из выражения (1.7) следует, что функция описывает поведение среднего значения эндогенной переменной, а случайное возмущение определяет отклонение реального значения эндогенной переменной от своего среднего значения. Поэтому остатком. 23 называют центрированным Четвертый принцип спецификации модели заключается в необходимости учета случайных возмущений при записи уравнений модели. С учетом сказанного спецификация эконометрической модели конкурентного рынка следует записать в виде: 0; ; ; , (1.8) , Отметим. В модели (1.8) первые два уравнения называются поведенческими, а последнее тождеством. Важно. Тождества не содержат случайных возмущений. Точнее говоря в тождествах случайные возмущения равны нулю. Общий вид эконометрической модели. В общем случае эконометрическая модель имеет вид: ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ……………………………………………………………………………….. ⋯ ⋯ В спецификации (1.9): - , … набор текущих эндогенных переменных; - , … – набор предопределенных переменных; 24 (1.9) - i=1,2,…m; j=1,2,…m – параметры при текущих эндогенных переменных; - i=1,2,…,m; j=1,2,…k – параметры при предопределенных переменных. Заметим, что среди предопределенных переменных могут быть переменные тождественно равные единице (переменные при свободных параметрах). Спецификация (1.9) называется точечного или координатного вида. Спецификацию (1.9) можно записать в компактном виде. Для этого введем следующие обозначения: - вектор текущих эндогенных переменных ⋮ – вектор предопределенных переменных ⋮ ⋮ ⋯ ⋯ - вектор случайных возмущений (остатков) ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ - матрица коэффициентов при текущих эндогенных переменных – 25 матрица коэффициентов припредопределенных переменных Тогда спецификацию модели (1.9) можно записать в виде: (1.10) Спецификация моделей может быть представлена в двух формах: структурной или приведенной. Определение. Форма модели называется структурной, если хотя бы одно из ее уравнений содержит более одной текущей эндогенной переменной. Определение. Форма модели называется приведенной, если в ее уравнениях каждая текущая эндогенная переменная выражена через предопределенные. Спецификация (1.10) – компактная запись структурной формы эконометрической модели. Решив систему уравнений (1.9) относительно текущих эндогенных переменных или, что все равно, систему (1.10) относительно вектора , получим приведенную форму той же модели. Общий вид приведенной формы модели имеет вид: (1.11) Замечание. (1.10) и (1.11) это одна и та же модель экономического объекта, записанная в различном виде. От структурную форму модели всегда преобразовать в приведенную. Обратное можно однозначно неверно: не всегда от приведенной формы модели можно перейти к структурной. Структурная форма модели, как правило, появляется на этапе спецификации, в уравнениях отражаются закономерности взаимодействия 26 переменных. В структурной форме чаще всего удобно анализировать поведение экономического объекта. В приведенной форме удобно решать задачу оценки значений параметров модели. Из выражения (1.10) легко получить правило преобразования структурной формы модели в приведенную: (1.12) Пример. Преобразовать структурную форму спецификации модели конкурентного рынка (1.8) в приведенную форму. (1.8) 0; ; ; , , Запишем необходимые вектора и матрицы: При формировании векторов и матриц необходимо придерживаться следующих правил: - Компоненты вектора могут быть представлены в любой последовательности, но после того, как вектор сформирован, изменение последовательности не допускается. 27 - В векторе на (псевдопеременная первое при место свободных принято ставить параметрах), если «1» она присутствует в уравнениях. - Чтобы сформировать первую строку матрицы A, достаточно взять первое уравнение модели и записать коэффициенты, стоящие перед каждой компонентой вектора, в той последовательности, в какой они зафиксированы. Аналогичным образом формируются остальные строки матрицы. - Матрица B формируется по тому же правило, только относительно вектора Х. - Вектор U формируется из остатков. При этом необходимо помнить, что в тождествах случайное возмущение формально присутствует и равно нулю. Замечание. Матрица А всегда квадратная (второй принцип спецификации), матрица В может быть любой. Теперь для преобразования структурной формы модели в приведенную необходимо вычислить компоненты матрицы М и вектора по правилам (1.12). Обратная матрица может быть вычислена либо методом Гаусса, либо через матрицу алгебраических дополнений. Опуская вычисление обратной матрицы, запишем результат: 28 В результате приведенная форма модели конкурентного рынка принимает вид: (1.13) Для того, чтобы получить точечную запись приведенной формы модели, достаточно произвести необходимые алгебраические действия. (1.14) Система уравнений (1.14) – точечная запись приведенной формы модели конкурентного рынка. Подведем итог 1. Вы познакомились с целями и задачей эконометрики как науки. 2. Дали классификацию переменных модели (объекта): «эндогенные переменные», «экзогенные переменные», «лаговые переменные», переменные», «датированные «предопределенные переменные». 3. Дали классификацию моделей: «открытая модель», «замкнутая модель». 29 4. Уяснили, что в отличие от экономической модели, эконометрическая модель содержит в своем составе случайную составляющую (случайное возмущение). 5. Поняли, что модель может быть представлена в двух формах: «структурной» и «приведенной». 6. Получили универсальные формулы вычисления параметров приведенной формы модели по известным параметрам ее структурной формы. Задачи для самоконтроля 1. Определение эконометрики как науки. 2. Определение модели экономического объекта. 3. Элементы математической модели. 4. Рассмотрением, какого вида моделей ограничивается эконометрика. 5. Этапы построения математических моделей. 6. Содержание этапа спецификации модели. 7. Принципы спецификации модели. 8. Понятия эндогенной, экзогенной и предопределенной переменных. 9. Общий вид экономической модели в координатном и векторном виде. 10. Чем отличается эконометрическая модель от экономической. 11. Чем вызвана необходимость введения в экономическую модель случайного возмущения. 12. Формы представления эконометрических моделей. 13. Правила преобразования структурной приведенной. 30 формы модели к Лекция 2. Оценивание параметров линейной модели множественной регрессии Содержание лекции 1. Понятие оценки и требования, которые к ним предъявляются. 2. Метод наименьших квадратов как инструмент оценивания параметров модели. 3. Теорема Гаусса-Маркова, ее содержание и назначение. 4. Оценка параметров модели парной линейной регрессии. 5. Вычисление оценок параметров линейных регрессионных моделей с помощью ПЭВМ. Мы обсудили первый этап построения модели, а именно, спецификацию модели. Второй этап построения модели – это сбор исходной информации. Имея запись спецификации модели, понятно, за какими переменными модели необходимо пронаблюдать и зафиксировать значения. Отметим, что это очень ответственный этап, который во многом определяет успех построения модели. В результате выполнения этого этапа в распоряжении исследователя появляются необходимые для построения модели данные, которые принято называть выборкой. Мы не останавливаемся подробно на особенностях второго этапа, предполагая, что с ним Вы познакомились в процессе освоения дисциплины теории вероятностей и математической статистики. Переходим к обсуждению третьего этапа построения модели: этапу оценивания (идентификации) модели. Его называют математическим, вычислительным или идентификационным. 31 В результате первой лекции мы установили, что эконометрическая модель оперирует со случайными переменными. Наличие случайного слагаемого в правой части модели приводит к тому, что и левая часть приобретает случайный характер. Вспомним, что любая случайная величина характеризуется присущим ей законом распределения (функцией плотности вероятности для непрерывных случайных величин). Законы распределения случайных величин содержат параметры. Наша задача научиться оценивать их значения. Начнем с понятия «оценка». По определению оценка – это приближенное значение параметра. Далее будем рассматривать только эконометрические модели в виде изолированного уравнения: ⋯ (2.1) Спецификация модели (2.1) содержит k экзогенных переменных (регрессоров). Из (2.1) следует, что значение случайного наблюдения можно оценить как: ⋯ (2.2) Пусть известна функция распределения вероятностей случайной переменной ut, тогда эту функцию можно записать с учетом выражения (2.2). Например, пусть случайное возмущение подчиняется нормальному закону распределения с параметрами (0, σu). Тогда функция распределения примет вид: 32 ⋯ ,…, (2.3) √ В результате параметры модели (2.1) оказались параметрами функции плотности вероятностей. Задача оценки параметров модели, превратилась в задачу оценки параметров закона распределения. Вспомним. Параметры любого закона распределения и его количественные характеристики – это константы, но оценка этих параметров и количественных характеристик суть величины случайные. Что бы отличать параметры от их оценок, будем их обозначать в виде имени параметра с волнистой чертой. Остановимся на требованиях, которые будем предъявлять к оценкам. Таких требований два: несмещенность и эффективность. Определение. Оценка параметра закона распределения называется несмещенной, если ее математическое ожидание совпадает со значением параметра: . На практике можно предложить множество процедур расчета несмещенных оценок параметров. Пример. Пусть рассматривается некоторая случайная величина xc известным законом распределения. Необходимо подобрать процедуру оценки среднего значения (математического ожидания) этой величины. Для вычисления оценки имеем выборку из двух наблюдений x1 и x2. Для элементов выборки должны выполняться условия: - все элементы выборки независимые случайные величины; 33 - все элементы выборки имеют одинаковый закон распределения, совпадающий с законом распределения самой случайной величины. Известно, что оценку среднего значения проводят по формуле: (2.4) Найдем альтернативные процедуры, которые позволяют так же получить несмещенные оценки среднего значения. Пусть такая процедура выглядит так: (2.5) Математическое ожидание такой оценки с учетом статистических свойств выборки есть: (2.6) Отсюда видно, что математические ожидания случайной величины x, полученные по формулам (2.4) и (2.6) будут совпадать при условии: 1 Мы получили (2.7) бесконечное количество процедур, которые обеспечивают несмещенные оценки среднего значения. Для того, чтобы выбрать наилучшую процедуру оценки используют критерий минимальности дисперсии оценки. Определение. Эффективной среди всех несмещенных оценок параметра называется та оценка, которая имеет минимальную дисперсию. Другими словами, выбирается та процедура вычисления оценки, которая дает минимальный разброс значений оценки. 34 Найдем, при каких значениях и дисперсия выражения (2.5) будет минимальной. Дисперсия с учетом независимости x1 и x2 имеет вид Для нахождения минимума функции W необходимо приравнять ее производную по μ1 нулю и из полученного уравнения найти значение μ1. С учетом, что по свойству выборки дисперсии наблюдений равны, получим: Откуда получаем, что процедура (2.5) дает наилучшую (нес. мещенную и эффективную) оценку среднего значения при Далеко не всегда удается подобрать процедуру, которая обеспечивала получение несмещенных и эффективных оценок при конечном (небольшом) объеме выборки. Вводятся понятия асимптотически несмещенных и асимптотически эффективных оценок, оценок для которых свойства несмещенности и эффективности достигаются при неограниченном увеличении объема выборки. Однако и такие оценки получаются не всегда. Нас будут удовлетворять оценки, обладающие только свойством несмещенности при больших выборках. Такие оценки называют состоятельными. Одним из методов, позволяющих получение, по крайней мере, состоятельных оценок, является метод наименьших квадратов (МНК). Метод наименьших квадратов. Этот метод был предложен Гауссом еще в 18 веке. Гаусс решал задачу о том, как на плоскости (в пространстве) через известный набор точек провести прямую наилучшим способом. В 35 качестве критерия он предложил использовать сумму квадратов остатков (невязок), т.е. разностей между абсциссами реальных точек и соответствующих им точек, лежащих на прямой. В математике решение такой задачи получило название регрессионного анализа. Рассмотрим механизм применения МНК на примере идентификации модели в виде линейного уравнения парной регрессии: (2.8) Для решения задачи имеем набор точек на плоскости или другими словами набор наблюдений за поведением переменных y и x размером n наблюдений. ⋮ Таблица исходных данных (выборка) ⋮ Согласно методу наименьших квадратов, необходимо найти такие значения оценок параметров модели (2.8), которые соответствуют минимуму суммы квадратов остатков. Из (2.8) следует, что необходимо найти минимум функции: ∑ ∑ (2.9) Для нахождения параметров функции (2.9), соответствующие ее минимуму, необходимо вычислить производные этой функции по параметрам, приравнять их нулю и решить полученные уравнения относительно и . 36 Разделив обе части уравнений на «-2» и выполнив перемножения, получим: ∑ ∑ ∑ ∑ ∑ (2.10) ∑ Или окончательно получаем: ∑ ∑ ∑ ∑ (2.11) ∑ Система уравнений (2.11) называется системой нормальных уравнений для определения оценок параметров модели (2.8). Убедимся, что решения системы уравнений (2.11) соответствуют минимуму функции (2.9). Для этого достаточно показать, что вторые производные функции (2.9) положительны. Систему уравнений (2.11) можно решить методом исключения переменных. Для этого достаточно выразить параметр через подставить его во второе уравнение системы, откуда легко получить затем полученное значение , , подставить в первое уравнение и получить 37 выражение для . В результате решение системы уравнений (2.11) примет вид: ∑ ∑ ∑ ∑ ∑ ∑ (2.12) ∑ ∑ ∑ ∑ ∑ Выражения (2.12) позволяют по известным значениям наблюдений за переменными x и y вычислить оценки параметров модели парной регрессии. Проверим, насколько полученные оценки отвечают требованию несмещенности. Для этого запишем второе выражение (2.12) в виде: , (2.13) Для получения выражения (2.13) необходимо вспомнить, что оценка ковариации и дисперсии случайных переменных вычисляются, как: , ∑ (2.14) Раскрыв скобки и произведя несложные преобразования, легко получить выражение (2.13). Преобразуем (2.13) к виду: , , , 38 , , (2.15) Первое слагаемое в выражении (2.15) равно нулю, т.к. параметр константа, а cov(x,x)=σ2(x). Тогда окончательно выражение (2.15) принимает вид: , (2.16) равно правой части Математическое ожидание оценки параметра выражения (2.16), т.к. параметр и количественные характеристики случайных переменных константы. Отсюда видно, не смотря на то, что случайные возмущения напрямую не учувствуют в вычислении значений оценок параметров, они существенно влияют на их качество, а именно, если случайное возмущение коррелирует с регрессором, то значение оценки становится смещенным. Вывод. Применение МНК к оценке параметров линейной алгебраической модели не всегда позволяет получить состоятельные оценки. Для получения состоятельных оценок необходимо, чтобы случайные возмущения удовлетворяли ряду условий. Эти условия сформулированы в теореме Гаусса-Маркова. Теорема Гаусса-Маркова Вопрос. Почему оказались важными свойства оценок? Это связано с тем, что при экономических, моделировании параметры реальных являются объектов, не в только том числе числовыми коэффициентами при переменных, а несут на себе смысловую нагрузку, имеют размерность и по их величинам делают вывод о свойствах объекта. Например. Если модель (2.8) описывает зависимость расходов на потребление от располагаемого дохода, то параметр 39 есть предельные расходы по доходу и показывает, на сколько единиц изменяются расходы на потребление при увеличении дохода на одну единицу. Теорема Гаусса-Маркова формулирует условия, при которых МНК позволяет получить наилучшие оценки параметров линейной модели множественной регрессии. Не смотря на огромную разницу в возрасте ученых, теорема получила название по их именам. Гаусс – английский ученый, Марков – российский. Заслуга Гаусса в разработке МНК, заслуга Маркова в формулировке условий, при которых МНК позволяет получить состоятельные оценки. Сформулируем постановку задачи. Имеем: - спецификацию модели в виде линейного уравнения множественной регрессии: ⋯ (2.17) - выборку из n наблюдений за поведением переменных модели: ⋮ ⋮ ⋮ ⋯ ⋯ ⋮ ⋯ (2.18) ⋮ Значения переменных в каждом наблюдении связаны между собой по правилу (2.17). Следовательно, в соответствие каждому наблюдению можно поставить уравнение: 40 Карл Фридрих Гаусс Андрей Андреевич Марков Время жизни: Время жизни 30.04.1777 – 23.02.1855 14.06.1856 - 20.07.1922 Научная сфера – математика, физика, астрономия Научная сфера математика (2.19) Система уравнений (2.19) называется системой наблюдения или схемой Гаусса-Маркова. В компактной записи эта система имеет вид: Далее будем использовать следующие обозначения. 41 уравнений ⋮ - вектор наблюдений за эндогенной переменной: ⋮ - вектор параметров линейной модели; ⋮ ⋮ В - вектор случайных возмущений в уравнениях наблюдений; ⋮ матрице ⋯ ⋯ ⋮ ⋯ ⋮ X в ⋮ первом матрица коэффициентов при -. параметрах в системе уравнений наблюдений столбце записана единица. Это . Эта единица появляется в матрице «псевдопеременная» при параметре X только в тех случаях, когда спецификация модели содержит свободный параметр . Если на этапе спецификации этот параметр не был записан, то и матрице X столбец из единиц отсутствует. Найти: 1. Значения состоятельных оценок параметров модели (2.17); 2. Значения несмещенных ошибок оценок параметров; 3. Оценку ошибки случайного возмущения; 4. Оценку наилучшего прогноза с помощью модели (2.17); 5. Оценку ошибки прогноза. Формулировку теоремы сделаем в виде описания ее содержания. Теорему условно можно разбить на две части: «если» и «тогда». 42 Теорема начинается с описания условий, которые накладываются на вектор случайных возмущений. Эти условия принято называть предпосылками теоремы Гаусса-Маркова. И так. Если 1. Математическое ожидание случайных возмущений во всех наблюдениях равно нулю: (2.20) 2. Дисперсия случайных возмущений во всех наблюдениях одинакова и равна константе σu (2.21) 3. Ковариация между парами случайных возмущений в наблюдениях равны нулю (случайные возмущения в наблюдениях независимы) , при (2.22) 4. Ковариация между вектором регрессоров и вектором случайных переменных равна нулю (регрессоры и случайные возмущения независимы) , (2.23) Тогда. Если матрица X неколлинеарная (нет ни одного столбца, который можно было бы представить в виде линейной комбинации других его столбцов) 1. Наилучшая оценка вектора параметров линейной множественной регрессии вычисляется, как (2.24) Она соответствует методу наименьших квадратов. 43 модели 2. Ковариационная матрица оценок параметров модели вычисляется, как: , (2.25) 3. Дисперсия случайного возмущения равна: ∑ (2.26) 4. Наилучший прогноз по модели (2.17) в точке , ,…, вычисляется по правилу: ⋯ (2.27) 5. Ошибка прогноза эндогенной переменной равна: (2.28) Учитывая важность теоремы Гаусса-Маркова для эконометрики, рассмотрим ее доказательство. Доказательство. Воспользуемся методом наименьших квадратов: ∑ (2.29) (2.30) где: Подставляя (2.31) в (2.30) и выполнив перемножения, получим: (2.31) Для получения необходимого условия экстремума дифференцируем (2.32) по вектору : (2.32) 44 Отсюда, система нормальных уравнений для вычисления оценок вектора имеет вид: (2.33) Тогда оценка вектора есть: Выражение (2.24) доказано. Покажем, что процедура (2.24) дает несмещенную оценку параметров модели множественной регрессии. Для этого необходимо вычислить математическое ожидание вектора оценки : Таким образом, несмещенность оценки (2.24) доказана. Отметим, что несмещенность достигнута в силу выполнения первой предпосылки теоремы Гаусса-Маркова. Аналогичным образом доказывается справедливость выражения (2.25). Замечание. Свойство случайных возмущений (2.21), сформулированное во второй предпосылке теоремы, называется свойством гомоскедастичности однородности случайных дисперсий возмущений, случайных возмущений или или свойством свойством одинаковости дисперсий случайных возмущений во всех наблюдениях. Свойство (2.22) называют отсутствием автоковариации случайных возмущений. 45 Вернемся к задаче оценки параметров уравнения парной регрессии и решим ее с помощью процедур, сформулированных в теореме ГауссаМаркова. Имеем. Уравнение парной линейной регрессии. (2.34) Выборку наблюдений объемом n за поведением экономического объекта. ⋮ (2.35) ⋮ Сформируем необходимые вектора и матрицу коэффициентов уравнений наблюдений: ⋮ - вектор наблюдений за эндогенной переменной; - вектор параметров линейной модели; ⋮ ⋮ матрица коэффициентов при параметрах в -. системе уравнений наблюдений Столбец из единиц появился в матрице, в связи с тем, что в спецификации (2.34) присутствует параметр 46 . ⋮ вектор случайных возмущений в уравнениях наблюдений; - Вот все необходимое для оценки модели (2.34). Выражение (2.24) позволяет вычислить оценки параметров. Для этого вначале вычисляется произведение матриц: ⋯ ⋯ ⋮ ⋮ ∑ ∑ ∑ (2.36) Матрица обратная к (2.37) есть: ∑ ∑ ∑ ∑ ∑ (2.37) Вычисляется произведение: ⋯ ⋯ ⋮ ∑ ∑ (2.38) Подставляя (2.37) и (2.38) в (2.24), получим вектор оценок параметров линейной модели парной регрессии (2.34): ∑ ∑ 47 ∑ Сравнив ∑ полученные выражения с (2.12), убеждаемся в идентичности. Найдем стандартные ошибки оценок параметров. Для этого воспользуемся выражением (2.25), имея в виду, что на диагонали ковариационной матрицы расположены искомые дисперсии. , ∑ ∑ ∑ ∑ ∑ (2.39) Следовательно, дисперсии параметров модели парной регрессии можно вычислить по формулам: ∑ Прогноз ∑ ∑ ∑ ∑ (2.40) (2.41) в точке вычисляется по формуле (2.27). Осталось найти ошибку прогнозного значения . Эта ошибка вычисляется по формуле (2.28). Для ее применения необходимо вычислить второе слагаемое подкоренного выражения. Обратная матрица известна (2.38). Осталось умножить на нее вначале транспонированный вектор x, а затем просто вектор x. 48 1 ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ В итоге получается выражение для в виде: ∑ ∑ Окончательно выражение (2.29) принимает вид: ∑ ∑ (2.42) Из выражения (2.42) следует: 1. Минимальное значение ошибка прогнозирования принимает в центре области наблюдаемых значений регрессора, при квадратичной зависимости с удалением от центра; 2. Значение ошибки падает с ростом объема выборки. 49 и растет в Прогнозирование по линейным моделям за пределы выборки может приводить к значительным погрешностям. В результате мы убедились, что процедура оценки модели, сформулированная в теореме Гаусса-Маркова, поставляет МНК-оценки параметров модели линейной регрессии. Обсудим вопрос практического использования МНК с помощью персонального компьютера. Использование табличного процессора EXCEL для оценки параметров регрессионных линейных моделей Отметим, что современный уровень развития и доступность вычислительной техники вызвали потребность к разработке различных пакетов прикладных программ для ПЭВМ, позволяющих упростить процесс вычислений. Статистические расчеты были одной из первых областей применения средств ЭВТ. В настоящее время существует достаточно большой набор программных продуктов, ориентированных на решение задач эконометрики. Это E-VIEWS, STATA и др. Как правило, это дорогостоящие программные продукты, которые, далеко не всегда, доступны для использования. Поэтому мы воспользуемся доступным, практически каждому, пакетом Микрософт-офис и в частности программой EXCEL. В этом приложении есть несколько функций, которыми можно воспользоваться для построения и последующего анализа эконометрических моделей. Мы рассмотрим наиболее простую, а именно, функцию «ЛИНЕЙН». Рассмотрим применение этой функции в виде последовательности действий специалиста. Первое. Работа начинается с того, что на рабочем листе создается набор данных, т.е. вводится содержимое выборки наблюдений за 50 поведением объекта. Это таблица, содержащая значения эндогенной и экзогенных переменных. На рис. 2.1 приведен фрагмент рабочего листа с данными для оценивания линейной модели «Затраты на еду в зависимости от располагаемого дохода и численности семьи». Отметим, что считается хорошим тоном сопровождать непосредственные числовые данные поясняющими комментариями. Так на рис.2.1 в качестве комментариев используется «шапка» таблицы и столбец «А», «Номер наблюдения по порядку». Рис. 2.1 Фрагмент рабочего листа EXCEL 51 Второе. На листе выделяется область высотой в пять строк и шириной равной количеству столбцов с данными. В данном примере их три. Столбец «Номер по порядку» содержит комментарий. При массивах данных небольшого размера рекомендуется выделять эту область непосредственно под данными. Третье. Вызывается функция «ЛИНЕЙН». Чтобы это сделать, достаточно с помощью «мышки» нажать на экране кнопку . На экране появится запрос на выбор функции Рис.2.2. Если функция «ЛИНЕЙН» ранее использовалась, она появится в списке, если нет, в «черном прямоугольнике» необходимо ввести слово «ЛИНЕЙН» и нажать кнопку «Найти», функция появится в списке. Выделив функцию, необходимо нажать кнопку «ОК» и функция «ЛИНЕЙН» откликнется запросом на ввод исходной информации Рис. 2.3. Рис. 2.1. Фрагмент рабочего листа. Рис. 2.2. Запрос на вызов функции. 52 Программа просит указать, в каких ячейках расположены значения эндогенной переменной (y), указать расположение экзогенных переменных. В нашем примере это (x1, x2). В соответствующих окнах появятся «адреса» расположения соответствующих массивов. Необходимо дополнительно ввести значения двух констант: «Конст» и «Статистика». С помощью первой константы программе сообщается присутствует (1) или нет (0) в спецификации модели свободный параметр . Второй константе «Статистика» присваивается значение «1». Это означает, что Вы хотите получить полную информацию, которую может предоставить функция «ЛИНЕЙН». Четвертое. Для завершения процесса ввода исходной информации необходимо набрать на клавиатуре комбинацию клавиш «Cntr+Shift+Enter». Внимание. Здесь чаще всего встречаются ошибки. Необходимость набора данной комбинации диктуется требованием EXCEL при работе с массивами данных. После этого функция «ЛИНЕЙН» заполнит выделенную ранее область на листе следующими данными Таб. 2.1. Рис. 2.3. Запрос исходной информации. 53 R2 н/д Fтест (n-k-1) н/д RSS ESS н/д Таб. 2.1. Результаты работы функции «ЛИНЕЙН» Обсудим содержимое результирующей таблицы. В первой строке, справа налево, расположены оценки параметров модели. Во второй, под оценками параметров, расположены оценки стандартных ошибок соответствующих параметров. Далее заполняются только два левых столбца. В таб. 2.1 приведены обозначения соответствующих величин. Их смысл и названия будем раскрывать по мере использования. Сейчас назовем - ошибка случайного возмущения. Для приведенного на рисунках примера результат выглядит следующим образом: Рис. 2.4. Результат работы функции «ЛИНЕЙН» Согласно полученным результатам модель следует записать в следующем виде: На этом завершаем обсуждение задачи построения модели. 54 Но с учетом изложенного необходимо заметить, что в задачу третьего этапа построения модели необходимо дополнительно включить необходимость проведения анализа полученных результатов на выполнение предпосылок теоремы Гаусса-Маркова. Подведем итог 1. Сформулированы требования, предъявляемые к оценкам параметров моделей. 2. Сформулирован принцип метода наименьших квадратов. 3. Сформулирована теорема Гаусса-Маркова, обеспечивающая получение, по крайней мере, состоятельных оценок параметров. 4. Построена в общем виде модель парной регрессии. 5. Обсуждено применение табличного процессора EXCEL для проведения расчетов при построении моделей. Вопросы для самоподготовки 1. Понятие оценки параметра закона распределения (модели). 2. Свойства, предъявляемые к оценкам. 3. Понятие выборки наблюдений за поведением объекта. 4. Идея метода наименьших квадратов. 5. Всегда ли МНК позволяет получить несмещенные и эффективные оценки. 6. Какими свойствами должны обладать случайные возмущения, чтобы с помощью МНК получить несмещенные оценки. 7. Свойство гомоскедастичности случайных наблюдений. 8. Свойство автокорреляции случайных возмущений. 9. Самостоятельно оцените модель «Затраты на еду от располагаемого дохода и численности семьи» по приведенным в лекции данным. 10. Самостоятельно с помощью процедуры, сформулированной в теореме Гаусса-Маркова, найдите выражения для параметров и их СКО для модели 55 Лекция 3.Тестирование качества спецификации модели Содержание лекции 1. Статистическая гипотеза и порядок ее проверки 2. Понятие качества спецификации модели 3. Коэффициент детерминации как мера оценки качества спецификации 4. Интегральная оценка качества спецификации модели 5. Точечная и интервальная оценка значимости параметров модели множественной линейной регрессии На предыдущих лекциях мы обсудили первые два этапа построения модели: 1. Спецификация модели, 2. Подготовка исходной информации. Начали обсуждение третьего этапа: этапа идентификации модели. Отметили, что основным инструментом оценивания параметров линейной модели множественной регрессии являются процедуры и условия сформулированные в теореме Гаусса –Маркова. Мы также отметили, что недостаточно только вычислить значения оценок входящих в модель параметров, но необходимо также подтвердить качество, как параметров, так и модели в целом. Другими словами, необходимо провести анализ полученных результатов. В основе анализа результатов лежит методика проверки статистических гипотез. Понятие статистической гипотезы. В математической статистике, по определению, любое предположение относительно вида закона распределения случайной величины или значения параметров закона распределения называется статистической гипотезой. Например, гипотезой является предположение, что случайные возмущения в наблюдениях имеют нормальный закон распределения или, что математическое ожидание случайных возмущений в наблюдениях 56 равно нулю (первая предпосылка теоремы Гаусса-Маркова). Наряду с основной гипотезой могут быть выдвинуты и альтернативные к ней гипотезы. Приняты следующие обозначения. Основную гипотезу обозначают символом , за которым следует математическая формулировка гипотезы. Альтернативные гипотезы в обозначении имеют символ отличный от нуля. ; : Например, : 0. Проверка статистических гипотез является одной из основных задач математической статистики. Объективной основой статистической гипотезы проверки истинности/ложности о случайной переменной может служить только ее значения, полученные в результате наблюдений. Порядок действий при проверке статистических гипотез, можно представить в виде следующего алгоритма. Шаг 1. Формулируется основная статистическая гипотеза. Формулировка делается, как в описательной (вербальной) форме, так и в математическом виде. Шаг 2. Искусственно создается случайная переменная z, тесно связанная с выдвинутой гипотезой и известным законом распределения . Закон распределения случайной переменной, которая содержится в сформулированной основной гипотезе, может быть неизвестен, а, следовательно, ничего нельзя сказать о ее поведении. Поэтому создается случайная переменная, о поведении которой можно судить по ее закону распределения. Шаг 3. Задается значение доверительной вероятности Область определения созданной случайной дов . переменнойz разбивается на две непересекающихся области: область, где выдвинутая 57 гипотеза , и область, где основная гипотеза принимается . отклоняется Разбиение области определения созданной случайной переменной осуществляется таким образом, чтобы оказалось справедливым равенство: ∋ дов Это означает, что вероятность попадания случайной переменной z при условии, что гипотеза в область истинна, равна принятой доверительной вероятности. Другими словами, в области определения переменной z выделяется участок, внутри которого случайное событие ∈ оказалось практически достоверным событием при условии, что истинна. гипотеза Граница, разделяющая область определения случайной переменной z, называется критическим значением распределения. Шаг 4. Проверяется появление случайного события Если событие появилось, то гипотеза ∋ принимается . как непротиворечащая опытным данным, если оно не появилось, то гипотеза отклоняется. Случайную переменную z гипотезы называют статистикой критерия . Замечание. Описанный алгоритм проверки статистических гипотез допускает возникновение ошибок, т.е. неверных выводов относительно тестируемой гипотезы. Действительно, гипотеза вероятностью дов принимается в качестве истинной с . Следовательно, остается вероятность α=1- дов отвергнуть истинную гипотезу. При проверке статистических гипотез, связанных с анализом эконометрических моделей, нас будут, в основном, интересовать две искусственно созданные переменные. Это дробь Стьюдента: 58 (3.1) и дробь Фишера в виде: ∑ (3.2) ∑ Дробь Стьюдента (3.1) в схеме Гаусса-Маркова имеет закон распределения Стьюдента c параметром . Критическое значение дроби Стьюдента находится из уравнения: дов где: α=1-Pдов– вероятность появления ошибки или уровень значимости критерия; pt - функция плотности вероятности распределения Стьюдента. - решение приведенного интегрального уравнения. В математике она называется двусторонней квантилью распределения Стьюдента или критическое значение дроби Стьюдента. Критическое значение дроби Стьюдента находится по таблице или с помощью функции СТЬЮДРАСПОБР( ),в приложении EXCEL. Параметрами этой функции являются уровень значимости (вероятность отклонения гипотезы) α и значение (n-k-1), которое называется степенью свободы. 59 Рис.3.1 Запрос для расчета Дробь Фишера при условии, что случайные переменные u и v распределены по нормальному закону, подчиняется закону распределения Фишера с параметрами n и m. Критическое значение дроби Фишера есть результат решения уравнения: Здесь Фишера. - функция плотности вероятностей закона распределения - в математике называют односторонней квантилью распределения Фишера или критерием Фишера. Его значение можно также найти в приложении EXCEL с помощью функции FРАСПОБР( ). В качестве параметров функции используются уровень значимости критерия (вероятность отклонения гипотезы) α и значения n и m. 60 Рис.3.2 Запрос для расчета n– степень свободы 1 m– степень свободы 2. Качество спецификации модели. Начнем анализ результата оценивания модели с ответа на вопрос, насколько качественно был выполнен первый этап построения модели, а именно, не допустили ли мы ошибку, записывая спецификацию модели. На этапе спецификации модели есть возможность допустить две ошибки: - неправильно выбрать вид поведенческой части модели (функции регрессии); - неправильно выбрать набор экзогенных переменных, введенных в спецификацию модели. Действительно, при спецификации модели принято ограничение об использовании только линейных алгебраических уравнений. Но вполне может оказаться, что модель существенно нелинейная (см. производственную функцию Коба-Дугласа). Во-вторых, в результате анализа поведения экономического объекта в спецификацию введен набор экзогенных переменных, который 61 по предположению влияет на формирование эндогенной переменной. Здесь тоже возможно появление ошибок: может оказаться, что все выбранные переменные не оказывают влияния на величину эндогенной переменной или часть из них. Тестирование качества спецификации модели направлено на выявление факторов, не оказывающих влияния на формирование эндогенной переменной. Начнем обсуждение проблемы с примера уравнения парной регрессии. Имеем спецификацию модели в виде: (3.3) и предполагаем, что предпосылки теоремы Гаусса-Маркова выполнены. Тогда модель (3.3) можно записать в виде: (3.4) В уравнении (3.4) первое слагаемое это вклад в значение регрессора , а второе влияния - влияние случайных факторов, которые не связаны с изменениями регрессора. Отсюда, вытекает идея тестирования. Необходимо установить, какое из слагаемых вносит наибольший вклад в общий разброс наблюдаемых значений эндогенной переменной. Характеристикой разброса случайной переменной служит дисперсия. Следовательно, необходимо определить, какое из слагаемых превалирует в функции дисперсии эндогенной переменной. Найдем дисперсию функции (3.5): , (3.5) Найдем значение последнего слагаемого (3.5): , , , 62 , (3.6) Первое слагаемое (3.6) равно нулю т.к. ковариация между константой и случайной величиной равна нулю, второе слагаемое равно нулю в силу четвертой предпосылки теоремы Гаусса-Маркова. В результате получаем: (3.7) Выражение (3.7) можно представить в виде: ∑ ∑ ∑ (3.8) Введем следующие обозначения: ∑ - ∑ ∑ Общая сумма квадратов (Total Sum Squares) Регрессионная сумма квадратов (Regression Sum Squars) Сумма квадратов ошибок (Error Sum Squares) - Тогда выражение (3.8) можно записать как: (3.9) Замечание. Равенства (3.8) и (3.9) имеют место, если в модели . присутствует параметр В качестве меры влияния регрессора на формирование значения эндогенной переменной y вводится коэффициент детерминации как отношение регрессионной суммы квадратов к общей сумме квадратов: (3.10) Область определения коэффициента детерминации – отрезок от нуля до единицы ∈ ; . Коэффициент детерминации показывает, какая доля изменения зависимой переменной обусловлена переменной. 63 изменениями объясняющей Если , т.е. , означает, что регрессор x полностью обеспечивает весь размах изменения переменной y. В этом случае говорят, что спецификация модели, абсолютно качественная. Случайное возмущение во всех наблюдениях равно нулю. ,т.е. Наоборот, если изменения переменной y есть , означает, что весь размах следствие воздействия неучтенных случайных факторов. В этом случае говорят, что спецификация модели абсолютно некачественная. Регрессор не оказывает влияния на формирование эндогенной переменной. Замечание. Коэффициент детерминации при наличии свободного коэффициента имеет смысл только в спецификации. В случае парной линейной регрессии коэффициент детерминации равен квадрату коэффициента корреляции между переменнымиy и x. Коэффициент детерминации величина случайная, т.к. его значение вычислено по случайной выборке. Следовательно, для тестирования гипотезы о том, что выбранный регрессор не оказывает влияние на формирование значения эндогенной переменной, согласно алгоритму проверки статистических гипотез, необходимо создать случайную переменную, связанную с гипотезой, закон распределения которой был бы известен. Если известна величина коэффициента детерминации, то в качестве такой переменной принимается переменная Fтест: (3.11) тест Здесь: n – объем выборки; k – количество регрессоров в модели (в нашем случае k=1); - коэффициент детерминации. 64 Переменная Fтест подчиняется закону распределения Фишера с параметрами k и (n-k-1). Приняв значение доверительной вероятности, например, , вычисляется критическое значение для переменной Fтест. Если имеет место неравенство: (3.12) То гипотеза о том, что регрессор x не влияет на формирование значения эндогенной переменнойy, принимается. Если условие (3.12) не выполняется, то принимается альтернативная гипотеза о том, что регрессор x существенно влияет на формирование величины y. Можно показать, что гипотеза об отсутствии влияния регрессора на эндогенную переменную, эквивалентна гипотезе о равенстве нулю коэффициента детерминации. Пример. Рассмотрим модель зависимости сбережений граждан от размера располагаемого дохода в Великобритании. Таб. 3.3. Исходные данные и результат работы функции «ЛИНЕЙН» 65 Исходные данные для построения модели (выборка наблюдений), а также результат работы функции «ЛИНЕЙН» приведены в таб. 3.3. Оцененная модель имеет вид: . . Значение коэффициента детерминации равно: Значение тест Значение крит Значение тест . . . много больше крит , следовательно, оцененная модель имеет качественную спецификацию или, другими словами, выбранный регрессор влияет на формирование значения эндогенной переменной. Уравнение множественной регрессии Подход к оценке качества спецификации уравнения множественной линейной регрессии остается таким же, как и в случае уравнения парной регрессии. В качестве меры влияния выбранных регрессоров используется коэффициент детерминации и Fтест как критерий принятия решения о качестве спецификации. Однако, в этом случае имеют место некоторые особенности. Замечено, что с ростом числа регрессоров в модели, значение коэффициента детерминации так же возрастает. Это обстоятельство приводит к недоразумениям при анализе качества спецификации модели. Вы добавили в модель еще один регрессор, увидели, что коэффициент детерминации увеличился, кажется, что добавление регрессора положительным образом сказалось на качестве спецификации, а, на самом деле, это эффект увеличения числа регрессоров. Чтобы нивелировать эффект влияния числа регрессоров при анализе линейных моделей множественной регрессии рассматривается модифицированный коэффициент детерминации, который связан с классическим коэффициентом детерминации следующим соотношением: 66 (3.13) - модифицированный коэффициент детерминации; где: – классический коэффициент детерминации; n - объем выборки; k - количество регрессоров в модели. Из соотношения модифицированного (3.13) и видно, классического что при коэффициентов k=1 значения детерминации совпадают. С ростом kмодифицированный коэффициент детерминации становится меньше классического. Замечание. Функция «ЛИНЕЙН» вычисляет значение модифицированного коэффициента детерминации. Вторая особенность связана с интерпретацией результата. Если значение тест крит ,то вывод однозначный: все выбранные для моделирования регрессоры не влияют на формирование значения эндогенной переменной. А, если это условие не выполняется, то ответ – не все выбранные регрессоры не влияют на формирование значения эндогенной переменной. Это, в свою очередь, означает, что среди регрессоров могут быть, как влияющие на эндогенную переменную, так и не влияющие. Например, в модели присутствуют 10 регрессоров, условие качества выполнено, но среди них 4 регрессора «вытягивают» коэффициент детерминации, остальные 6 на нем не сказываются. Отсюда задача, как среди регрессоров выделить те, которые оказывают влияние на значение эндогенной переменной, от тех, которые такого влияния не оказывают. 67 Идея решения этой задачи проста. Пусть имеем уравнение множественной регрессии в виде: (3.14) не влияет на Если, например, в этой модели регрессор формирование значения переменной равенство нулю параметра , то признаком этого может быть при регрессоре . Ели параметр произведение при любых значениях регрессора , то всегда будет равно нулю, а следовательно, этот регрессор не будет сказываться на значении эндогенной переменной. Таким образом, для ответа на вопрос влияет или нет регрессор на формирование значения эндогенной переменной, достаточно проверить гипотезу о равенстве нулю параметра при нем. Для тестирования гипотезы : создается случайная переменная в виде дроби Стьюдента: (3.15) – значение, на равенство которому, тестируется Здесь: параметр aj, (в данном тесте – МНК-оценка параметра ); ; – ошибка оценки параметра. Знаем, что дробь (3.15) подчиняется закону распределения Стьюдента, следовательно, для нее можно, при заданной доверительной вероятности, найти критическое значение для принятия выдвинутой 68 : гипотезы . Если крит , то значение параметра с номером j принимается равным нулю. Такую проверку называют «оценкой значимости коэффициентов регрессии». Приведенный способ применения критерия Стюдента для оценки статистических гипотез, в частности, гипотезы : , часто называют точечным методом проверки статистической гипотезы. На практике пользуется популярностью интервальный метод. Решив неравенство: (3.16) крит Относительно , получим: крит (3.17) крит - крит называют нижней границей доверительного интервала; называют крит верхней границей «накрывает» тестируемое доверительного интервала. Если значение доверительный параметра, то интервал выдвинутая статистическая принимается. В данном тесте проверяется гипотеза гипотеза : , следовательно, если интервал (3.17) «накрывает» ноль, то гипотеза принимается. Пример. Оценить модель зависимости объема продаж от числа рекламных сообщений x1, индекса цен на продукцию x2, индекса цен на рекламу x3 и протестировать качество спецификации. 69 Согласно заданию спецификация модели должна иметь вид: (3.18) Исходные данные для оценки модели (3.18) и результаты оценки приведены на рис. 3.4. Рис.3.4 представляет собой фрагмент листа приложения EXCEL. Там же приведены результаты обработки этих данных с помощью функции «ЛИНЕЙН» и результат анализа модели на качество спецификации. Рис. 3.4. Фрагмент листа приложения EXCEL. 70 Из рис.3.4 видно, что модифицированный коэффициент детерминации =0.775, при этом значение . тест , . крит . Отсюда следует, что спецификация модели (3.16) не является абсолютно плохой. Это означает, что в сумме все использованные экзогенные переменные оказывают влияние на формирование значения объема продаж ( ). Для оценки степени влияния каждого из факторов (регрессоров) в отдельности проведен анализ значимости параметров, стоящих при регрессорах. Вычислены значения дроби Стьюдента для параметров, стоящих при регрессорах (t1, t2, t3) и критическое значение дроби Стьюдента крит . . Сравнив попарно эти значения, делаем вывод, что только регрессор x2 – индекс цен на продукцию оказывает значимое влияние на формирование объема продаж. Влияние остальных факторов оказалось статистически незначимым и как следствие их можно удалить из спецификации модели. К аналогичному выводу можно придти и с помощью анализа качества спецификации через доверительные интервалы. Из рис. 3.4 видно, что доверительные интервалы для параметров a1 и a2 накрывают ноль и, следовательно, значения этих параметров с доверительной вероятностью Pдов=0.95 можно считать равными нулю. Другими словами, объем продаж продукцию зависит только от индекса цен на . Для моделирования зависимости объема продаж достаточно ограничится спецификацией: (3.19) 71 Для спецификации модели (3.19) формируется выборка результатов наблюдений. Она состоит из двух столбцов: y и x2, вновь производится идентификация модели и проверяется ее качество спецификации. Оценка модели (3.17) по данным рис.3.2 следующая: , , , , , , При крит , тест , модель имеет качественную спецификацию. Дополнительное тестирование модели (3.19) с помощью теста Стьюдента не имеет смысла, т.к. в спецификации (3.19) участвует всего один регрессор. На этом закончим обсуждение вопроса о проверке качества спецификации моделей. Подведем итог 1. Рассмотрен алгоритм проверки статистических гипотез. 2. Сформулировано содержание понятия «качество спецификации модели». 3. Дано определение понятию «коэффициент детерминации» как меры влияния регрессоров на формирование значений эндогенных переменных. 4. Сформулировано содержание теста для проверки статистической гипотезы о том, что все выбранные регрессоры не оказывают влияния на формирование значения эндогенной переменной. 5. Рассмотрен вопрос выявления персонального влияния каждого из регрессоров на формирование значения эндогенной переменной. Вопросы для самоконтроля 1. Дайте определение статистической гипотезы. 72 2. Как вычисляются дробь Стьюдента и дробь Фишера? 3. Какие ошибки, можно допустить на этапе спецификации модели? 4. Что понимается под понятием «качество спецификации модели»? 5. Дайте определение коэффициенту детерминации. 6. Какова область определения коэффициента детерминации? 7. Для каких моделей имеет смысл коэффициент детерминации. 8. Сформулируйте статистическую гипотезу некачественной спецификации модели. 9. Как изменяется значение коэффициента детерминации с увеличением числа регрессоров? 10. Сформулируйте понятие статистической значимости коэффициентов регрессии. 11. Напишите критерий проверки статистической гипотезы незначимости коэффициента регрессии. 12. По имеющимся в лекции исходным данным самостоятельно постройте модели и проверьте их на качество спецификации. 73 Лекция 4. Тестирование модели на гомомкедастичностьслучайных возмущений, взвешенный метод наименьших квадратов Продолжая анализ построенной модели, рассмотрим следующие вопросы: 1. Понятие гетероскедастичности. 2. Последствия гетероскедастичности 3. Тест Голдфельда-Квандта 4. Тест ранговой корреляции Спирмена 5. Исправление гетероскедастичности, взвешенный метод наименьших квадратов Мы уже познакомились с тремя стадиями подготовки эконометрических моделей в виде уравнений множественной линейной регрессии. Мы знаем, как записать спецификацию модели, знаем, что под эту спецификацию необходимо собрать опытные данные (выборка результатов наблюдений), разобрались в формулировке теоремы ГауссаМаркова и научились отыскивать оценки параметров модели и их стандартные ошибки, приступили к анализу полученных результатов. Начали анализ с качества спецификации модели, а теперь, имея качественную выполнении спецификацию, предпосылок приступаем теоремы к проверке Гаусса-Маркова, гипотез чтобы о понять насколько полученные оценки удовлетворяют свойству состоятельности. Первая предпосылка теоремы Гаусса-Маркова требует, чтобы математическое ожидание случайных возмущений во всех наблюдениях было нулевым: | . Мы уже отмечали, что невыполнение этого условия приводит к смещению оценок параметров модели. Важное для практики условие. Но оно, как правило, не проверяется, т.к. МНК автоматически обеспечивает выполнение первой предпосылки 74 теоремы Гаусса-Маркова, если в спецификации модели содержится свободный коэффициент . Поэтому сразу переходим к обсуждению второй предпосылки теоремы: условию гомоскедастичности, или однородности, или одинаковости дисперсий случайных возмущений во всех наблюдениях ( | . Начнем с понятии гомоскедастчности. Разберемся, почему мы говорим о количественных характеристиках переменной ut в наблюдениях. Ведь мы имеем лишь одно i– ое наблюдение. Предполагается следующая ситуация. Рассмотрим для определенности первое наблюдение i=1. Получив первую выборку результатов наблюдений за переменными модели, увидим, что в первом наблюдении случайное возмущение получило значениеu1. Если получить вторую выборку наблюдений за тем же объектом того же объема, то окажется, что во второй выборке в первом наблюдении случайное возмущение имеет значение u2. Сделав, m выборок, получим набор значений случайной переменной u, оказавшихся на месте первого наблюдения. Другими словами, переменная ut в каждом наблюдении выборки, представляет собой условное распределение случайной Условное, переменной. потому что это распределение соответствует заданному значению вектора экзогенных переменных . Это относится и к значению эндогенной переменной. Эндогенная переменная y при каждом фиксированном значении вектора представляет собой условное распределение случайной величины. Гомоскедастичность – это ситуация, в которой случайные возмущения подчиняются одному и тому же закону распределения. Пример гомоскедастичной модели приведен на рис. 4.1. Предполагается, что в этой модели случайное возмущение подчиняется нормальному закону распределения N(0; σu) с одинаковыми параметрами. 75 Рис. 4.1. Пример эконометрической модели с гомоскедастичными остатками. На рис. 4.2. приведен пример модели с гетероскедастичными остатками. Предполагается, что вид закона распределения в каждом условном распределении одинаковый, но значение параметра σ в них отличаются. Рис. 4.2. Пример модели с гетероскедастичными остатками. Последствиями является потеря гетероскедастичности несмещенности значений случайных возмущений стандартных ошибок параметров. Ошибки значений параметров оказываются завышенными. 76 Это, в свою очередь, может привести к некорректности результатов тестирования статистической значимости параметров линейной модели. Действительно, в основе теста лежит дробь Стьюдента: . Если ошибка завышена, то значение дроби Стьюдента оказывается заниженным и возможна ситуация, что причиной принятия гипотезы : является завышенное значение ошибки параметра, а не его статистическая незначимость. Тестирование модели на отсутствие гетероскедастичности. В основу идей тестов моделей на присутствие гетероскедастичности лежит предположение о том, что гетероскедастичность есть результат зависимости дисперсий случайных возмущений от абсолютных значений регрессоров. Это предположение сделано на основе опытных данных: замечено, что ошибка случайных возмущений чаще всего растет с ростом абсолютных значений регрессоров. Например, рассмотрим модель зависимости государственных расходов на образование от объема ВВП. Рассмотрим два государства: США и Куба. ВВП США исчисляется в триллионах долларов, ВВП Кубы в десятках миллиардов долларов. Практика показывает, что на образование государства расходуют 3% - 5% ВВП. Эти 3% - 5% ВВП в США на несколько порядков превосходят 3% 5% для Кубы. Естественно, что и разброс значений расходов на образование во времени в США значительно выше, чем на Кубе. Для тестирования гетероскедастичности используются несколько тестов. Мы познакомимся с двумя из них. Наиболее популярным является тест Голдфельда-Квандта. Он построен на двух предположениях: 77 - ошибки случайных возмущений зависят от абсолютных значений регрессоров; - случайные возмущения имеют нормальный закон распределения. Идея теста проста. Раз мы предположили, что ошибка случайного возмущения зависит от абсолютных значений регрессоров, давайте поступим следующим образом. Сформируем из имеющейся выборки наблюдений две группы, в которых объединим наблюдения с небольшими значениями регрессоров и с большими значениями регрессоров. Построим модели по этим группам наблюдений и проверим гипотезу о том, что ошибки случайных возмущений для этих моделей будут одинаковыми. Если это так, то можно считать, что модель в целом гомоскедастична. Приступим к реализации идеи. Рассмотрим процесс тестирования гетероскедастичности с помощью теста Голдфельда-Квандта в виде алгоритма. Шаг 1. В качестве показателя веса абсолютных значений регрессоров в наблюдении примем величину: ∑ (4.1) Замечание. Переменная не является регрессором модели, а служит только для решения поставленной задачи. Замечание. Константа «1» в (4.1) – регрессор, стоящий при параметре , если свободный параметр отсутствует в спецификации линейной модели множественной регрессии, то и константа «1» отсутствует в выражении (4.1). 78 В (4.1) суммируются абсолютные значения регрессоров в одном наблюдении. Будем предполагать, что ошибка случайного возмущения пропорциональна весу регрессоров (4.1): (4.2) Шаг 2. Имеющаяся экономического объекта значений переменной выборка сортируется наблюдений по за возрастанию переменными (убыванию) . В результате выполнения этого шага строки в выборке наблюдений расположатся так, что в ее начале соберутся наблюдения с небольшими весами регрессоров, а в ее конце – наблюдения с большими значениями веса регрессоров. Шаг3. Отсортированная таким образом выборка делится на три примерно равные по объему части. В результате этого действия получим два фрагмента выборки. В первой трети выборки будут собраны наблюдения с небольшим весом регрессоров, в последней – наблюдения с большим весом регрессоров. Замечание. Средний фрагмент выборки исключается из рассмотрения при дальнейшей реализации теста Голдфельда-Квандта. Шаг 4. Для первого и третьего фрагментов выборки независимо оцениваются модели линейной регрессии: ⋯ ⋯ 79 В результате оценки для каждой модели можно получить значение и дисперсии случайного возмущения . Статистическая гипотеза, которая подвергается тестированию, имеет вид: : Для проверки гипотезы вводится случайные переменные (статистики): (4.3) Обе переменные подчиняются закону распределения Фишера с и параметрами . Следовательно, для заданного значения доверительной вероятности Pдов (уровня значимости критерия α) можно найти критическое значение дроби Фишера Fкрит, сравнив с которым и вычисленные значения статистик , можно сделать вывод о принятии выдвинутой гипотезы. Гипотеза о равенстве дисперсий во фрагментах выборки принимается, если: крит крит (4.4) Замечание. Для удобства вычислений на практике разбиение исходной выборки на фрагменты осуществляется таким образом, чтобы 80 . Тогда объемы первого и третьего фрагментов были равны: значения статистик Голдфелда-Квандта (4.3) примут более простой вид: (4.5) Пример. Построить и протестировать на отсутствие гетероскедастичности модель «государственные расходы на образование в зависимости от объема ВВП. В таб. 4.1 приведены данные по государственным расходам на образование и ВВП в различных странах. Данные отсортированы по возрастанию величины шрифтом выделены первый и третий фрагменты выборки. 81 , жирным Таб. 4.1. Государственные расходы на образование. Результаты оценки моделей по фрагментам выборки приведены на рис. 4.3. Жирным шрифтом выделены значения ESS. 82 Рис. 4.3. Результаты тестирования модели на гомоскедастичность. Из приведенных данных, очевидно, что гипотеза о гомоскедастичности случайных возмущений отклоняется. Тест ранговой корреляции Спирмена. В основу теста также положено предположение о том, что дисперсия случайного возмущения связана с абсолютными значениями регрессоров. При этом никаких дополнительных предположений относительно вида функции или ограничений на закон распределения случайных возмущений не делается. Идея теста заключается в том, что величина остатков является оценкой ее стандартной ошибки. Поэтому в случае гетероскедастичности абсолютные значения остатков и абсолютные значения вектора регрессоров будут коррелированными. Тест Спирмена основан на вычислении коэффициента ранговой корреляции между случайными возмущениями значениями вектора . 83 и абсолютными ∑ , (4.6) где: n – объем выборки; Dt – разность между рангами по абсолютным значениям вектора и случайного возмущения . Замечание. Под рангом понимается порядковый номер наблюдения в выборке, отсортированной по значению модуля (ранг по вектору (ранг по ) или по ). В случае отсутствия гетероскедастичности, значение коэффициента ранговой корреляции : принимает вид переменной , , должен равняться нулю, т.е. основная гипотеза . Т.к. закон распределения случайной , не известен, то для тестирования гипотезы формируется случайная переменная: (4.7) , расч Случайная переменная расч подчиняется нормальному закону распределения N(0; 1/(n-1)), при условии, что расч . Для нормального распределения можно вычислить для заданной доверительной вероятности критическое значение крит и, если выполняется условие расч крит , то нулевая гипотеза об отсутствии гетероскедастичности принимается. Пример. Провести тестирование на гетероскедастичность случайных возмущений с помощью теста Спирмена для задачи моделирования объема государственных расходов в различных странах от ВВП. (Рассмотренный ранее пример). На рис. 4.4. Приведены исходные данные, рассчитанные значения модулей случайных возмущений абсолютному значению . 84 и ранги по весу вектора и Замечание. На практике ранжирование выборки наблюдений с помощью приложения EXCEL не сложно. Для этого достаточно вначале ) и отсортировать строки выборки по Х (в общем случае по пронумеровать их в полученном порядке. Вы получите значения рангов по Х. Затем отсортировать выборку по абсолютным значениям , вновь пронумеровать результат сортировки. Получится столбец, содержащий значения рангов по . По полученным данным вычисляется столбец . Рис. 4.4. Результаты расчетов для применения теста Спирмена. В результате получаем: 85 . , расч Полученное значение квантилью нормального расч . необходимо сравнить с двусторонней распределения при Рдов=0.95 (α=0.05) и параметрами (0;1/33). Это значение можно вычислить с помощью функции НОРМОБР(0.05; 0.3)=2.58. крит Т.к. условие расч крит не выполняется, гипотеза об отсутствии гетероскедастичности отклоняется. Как видно, оба теста привели к одинаковому результату. Вопрос, на который предстоит ответить – что же делать, если случайные возмущения оказались гетероскедастичными. Оценка параметров линейной модели в условиях гетероскедастичности. Подход к решению проблемы устранения гетероскедастичности сводится к искусственному преобразованию спецификации модели таким образом, чтобы условие гомоскедастичности выполнялось тождественно. Для понимания этого подхода начнем рассмотрение вопроса с частного случая, а именно случая, когда известны дисперсии случайных возмущений в каждом наблюдении. И так, имеем спецификацию модели множественной линейной регрессии, выборку наблюдений за переменными модели для ее идентификации и множество значений дисперсии соответствующих каждому наблюдению. Разделим левую и правую части модели на соответствующее значение стандартной ошибки (корень из дисперсии): ⋯ 86 ( 4.7) Найдем количественные характеристики величины : Получилось, что во всех наблюдениях величина имеет нулевое математическое ожидание и постоянную дисперсию. Если ввести новые переменные ∗ ; ∗ ; ∗ ; …; ∗ (4.8) и сделать замену переменных, то получим спецификацию модели в виде: ∗ ∗ ∗ ∗ ⋯ ∗ (4.9) Спецификация (4.9) вновь представляет собой линейную модель множественной регрессии. Для нее необходимо создать выборку наблюдений за переменными (4.8), по ним оценить модель (4.9), убедиться в ее качестве и вновь проверить на гомоскедастичность. Замечание. Обратите внимание на то, что в спецификации (4.9) отсутствует свободный от регрессора параметр. При параметре регрессор ∗ появился . Неудобство такого подхода заключается в том, что им на практике невозможно воспользоваться. Как правило, нет возможности априори оценить ошибку случайных возмущений в каждом уравнении. 87 Вместе с тем, этот пример подсказывает направление действий для устранения гетероскедастичности. Необходимо задать правило вычисления стандартных ошибок случайных возмущений, разделить на эти ошибки переменные модели и сделать замену переменных. В результате появляется возможность получить модель с гомоскедастичными остатками. Воспользуемся предположением тестов Глдфелда-Квандта и Спирмена о том, что ошибки случайных возмущений связаны с абсолютными значениями регрессоров. Предположим, что стандартную ошибку случайных возмущений, можно представить в виде: ∑ где: (4.10) - показатель степени, с помощью которого учитывается возможность нелинейной связи между ошибкой остатка и абсолютным весом регрессоров. Разделив модель (4.7) на (4.10), получим: ⋯ (4.11) Количественные характеристики случайной переменной : Введя новые переменные ∗ ; ∗ ; ∗ ∗ ; 88 ;…; ∗ (4.12) и сделав соответствующую замену, вновь получим модель в виде линейного алгебраического уравнения с гомоскедастичными остатками. . Начинают процесс Остается открытым вопрос о значении устранения гетероскедастичности со значения . Если при модель (4.11) остается гетероскедастичной, то вводится приращение ∆ (например ∆ . ) и модель (4.11) проверяется на ∆ . Меняя знак и абсолютное значение гетероскедастичность при приращения ∆ , добиваются выполнения соотношений (4.5). Функцию (4.10) называют весовой функцией. Заметим, что в во всех наблюдениях будут спецификации модели вида (4.11) значения равны. Говорят, что преобразование (4.12) выравнивает веса регрессоров во всех наблюдениях. Пример. При построении модели государственных расходов на образование от объема ВВП выяснилось (см. рис. 4.4), что модель имеет гетероскедастичные остатки, т.е. гипотеза о выполнении второй предпосылки теоремы Гаусса-Маркова не принимается. Применим описанный выше гетероскедастичности. Примем алгоритм для исправления , вычислим значения для каждого наблюдения и разделим на него значения Y, x1 и (таб. 4.4). введем регрессор В таб. 4.4. Приведены результаты исправления гетероскедастичности: значения преобразованных переменных и проверка полученной модели на гомоскедастичность. Затенены фрагменты выборки и значения ESS. Как видно из приведенных данных, гетероскедастичность удалось уже при 89 . исправить № Страна Y/P x0=1/P X1/P 1 1 2 3 4 2 Люксембург Уругвай Сингапур Ирландия 3 0,0510 0,0198 0,0259 0,0619 4 0,1499 0,0898 0,0810 0,0503 5 0,8501 0,9102 0,9190 0,9497 5 Израиль 0,0825 0,0456 0,9544 Продолжение таблицы 1 2 3 4 5 6 7 8 9 Новая Зел. Гонконг Венгрия Португалия 0,0511 0,0235 0,0440 0,0417 0,0403 0,0350 0,0432 0,0390 0,9597 0,9650 0,9568 0,9610 0,0442 0,0106 0,8484 0,0237 0,1558 0,0199 10 Чили 0,0438 0,0350 0,9650 27,9826 10,0000 #Н/Д 11 12 Греция Финляндия 0,0182 0,0532 0,0243 0,0190 0,9757 0,9810 0,0222 0,0040 #Н/Д 13 Норвегия 0,0835 0,0170 0,9830 14 Дания 0,0661 0,0149 0,9851 GQ1= 1,24746 15 Австрия 0,0547 0,0128 0,9872 GQ2= 0,80162 16 17 Югославия Швейцария 0,0547 0,0517 0,0156 0,0097 0,9844 0,9903 Fкрит= 2,68663 18 0,0235 0,0147 0,9853 19 Турция Сауд. Аравия 0,0547 0,0085 0,9915 20 Бельгия 0,0593 0,0083 0,9917 21 22 Швеция Австралия 0,0897 0,0610 0,0080 0,0070 0,9920 0,9930 23 24 Аргентина Нидерланды 0,0359 0,0787 0,0065 0,0059 0,9935 0,9941 0,0585 0,0098 -2,6350 2,5834 25 Испания 0,0225 0,0047 0,9953 0,9043 0,0178 #Н/Д 26 Мексика 0,0291 0,0053 0,9947 47,2491 10,0000 #Н/Д 27 Канада 0,0720 0,0038 0,9962 0,0301 0,0032 #Н/Д 28 Бразилия 0,0356 0,0040 0,9960 29 Италия 0,0402 0,0025 0,9975 30 Великобр. 0,0558 0,0019 0,9981 31 Франция 0,0512 0,0015 0,9985 32 33 34 ФРГ Япония США 0,0473 0,0592 0,0701 0,0012 0,0010 0,0004 0,9988 0,9990 0,9996 0,0000 #Н/Д #Н/Д 0,0000 #Н/Д Таб. 4.4. Результат преобразования модели к гомоскедастичному виду. 90 На рис. 4.5. Приведены диаграмма рассеяния исходных данных и графики двух моделей: серая линия – модель гетероскедастичная, черная линия - модель гомоскедастичная. Госрасходы на образование Основной Основной Основной Основной Основной Основной Основной Основной ‐Основной Основной Основной Основной Основной Национальный доход Рис. 4.5. Диаграмма рассеяния и графики гетероскедастичной и гомоскедастичной моделей. Как видно на рис. 4.5. гомоскедастичная модель, в данном случае, проходит ниже гетероскедастичной. Это является следствием того, что при исправлении гетероскедастичности остатков регрессии больший вес был придан наблюдениям с небольшими значениями ВВП. Т.к. данные в выборке оказались неравномерно рассредоточены по области определения, то и их влияние на формирование эндогенной переменной тоже оказалось неодинаковым. Больший вес придан тем данным, количество которых было больше. Еще один пример. Оценить и проанализировать на присутствие гетероскедастичности модель зависимости расходов на зависимости от располагаемого дохода и индекса цен на жилье. 91 жилье в На рис. 4.6. приведены выборка данных наблюдения, значения вспомогательной переменной при μ=1, результаты применения функции «ЛИНЕЙН» к первой и последней третям выборки (n1=n3=9), значения GQ1 и GQ2, а также значение Fкрит при α=0,05. Рис.4.6. Результат анализа модели на гомоскедастичность Спецификация модели имеет вид: 92 Ограничимся только тестированием модели на гомоскедастичность остатков, опустив анализ качества спецификации. Приведенные данные отсортированы по переменной pt. В таблице данные, по которым проводится анализ, затенены, а значения ESS1 и ESS3 выделены жирным шрифтом. Приведенные результаты свидетельствуют о наличии гетероскедастичности. Исправление гетероскедастичности начинаем при μ=1. На рис. 4.7. приведены данные для оценки спецификации вида: (4.13) Рис. 4.7. Данные и результаты анализа модели (4.13). 93 Видно, что при μ=1 модель осталась гетероскедастичной, исправить модель не удалось. В таб. 4.5. Приведены расчеты для ряда значений μ . Расчеты проведены с шагом ∆ . . Видно, что при μ=2.0 модель становится гомоскедастичной, а при μ=2.5 условие гомоскедастичности выполняется еще более строго. Таблица 4.5. GQ1 GQ2 Fкрит μ=1.0 0.13 7.91 μ=1.5 0.20 4.80 μ=2.0 0.32 3.02 μ=2.5 0.53 1.88 3.18 При дальнейшей вариации абсолютным значением и знаком ∆ методом половинного деления можно было добиться выполнения соотношения GQ1=GQ2=1. Но в этом необходимости нет, т.к. в условиях стохастичности достаточно выполнения такой гипотезы в статистическом смысле при заданной доверительной вероятности. Процесс подбора значения μ можно остановить на μ=2.0. Взвешенный метод наименьших квадратов (ВМНК) Давайте поймем, что собственно мы делали для устранения гетероскедастичности. 1. Подобрали функцию вида . 2. Каждое наблюдение в выборке умножили на . 3. К преобразованной таким образом выборке применили метод наименьших квадратов для получения оценок параметров модели. 94 Как это выглядит математически. Введем матрицу W размерностью (n x k): ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ (4.14) Тогда преобразование переменных можно представить в виде произведений: и , процедура метода наименьших квадратов примет вид: (4.15) Процедура (4.15) обеспечила получение состоятельных оценок параметров линейной модели при выполнении всех предпосылок теоремы Гаусса-Маркова, кроме второй, предпосылки о гомоскедастичности случайных возмущений. Этот факт нашел свое отражение в теореме. Прежде, чем ее сформулировать, введем матрицу ковариаций вектора случайных возмущений в виде: , ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ Теорема. Если в схеме Гаусса-Маркова (4.16) ковариационная матрица вектора случайных возмущений имеет вид (4.16), то оптимальной процедурой, доставляющей состоятельные оценки параметров линейной модели, является: 95 (4.17) Процедура (4.17) называется взвешенным методом наименьших квадратов. Подведем итог 1. Определены причины и последствия на значения параметров модели при наличии гетероскедастичности случайных возмущений. 2. Сформулирована идея проверки модели на гетероскедастичность случайных возмущений. 3. Рассмотрены алгоритмы тестирования случайных возмущений на гетероскедастичность с помощью теста Голдфельда-Квандта и теста ранговой корреляции Спирмена. 4. Рассмотрен прием устранения гетероскедастичности с помощью весовых функций. 5. Сформулирована теорема взвешенного метода наименьших квадратов. Вопросы для самоконтроля 1. Дайте определение понятию гомоскедастичности (гетероскедастичности) случайных возмущений. 2. Каковы возможные причины возникновения гетероскедастичности. 3. Каковы последствиягетероскедастичности. 4. В чем идея проверки модели на гомоскедастичность остатков. 5. Опишите алгоритмы тестирования модели на гомоскедастичность с помощью теста Голдфелда-Квандта и теста Спирмена. 6. В чем идея метода устранения гетероскедастичности. 96 7. Самостоятельно по имеющимся данным провести построение моделей, протестировать их на гомоскедастичность остатков и, в случае необходимости, устранить гетероскедастичность. 8. Сформулируйте теорему взвешенного метода наименьших квадратов. 97 Лекция 5. Тестирование модели на наличие автокорреляции. Обобщенный метод наименьших квадратов Содержание лекции 1. Понятие автокорреляции случайных возмущений и авторегрессионной модели. 2. Тест Дарбина-Уотсона. 3. Методы оценки параметров линейной модели в условиях автокорреляции. 4. Обобщенный метод наименьших квадратов. Продолжаем анализировать оцененную линейную модель на соответствие предпосылкам, изложенным в теореме Гаусса-Маркова. Мы уже рассмотрели методы тестирования второй предпосылки теоремы, а именно, предпосылки о гомоскедастичности случайных возмущений. На очереди третья предпосылка теоремы: предпосылка о независимости случайных наблюдений в уравнениях наблюдений: , , , ,…, ; (5.1) Причинами автокорреляции случайных возмущений могут быть следующими: - ошибки спецификации модели (пропуск важного регрессора, неправильный вид объясняющей части модели); - ошибки измерения переменных модели; - характер наблюдений и характер процесса. Если причиной автокорреляции является ошибка в спецификации модели, то такую автокорреляцию называют ложной. Автокорреляция чаще всего встречается при анализе данных временного ряда, т.е. в случаях, когда выборка данных имеет упорядоченный вид и при анализе процессов, имеющих циклический 98 характер. Случайное возмущение подвергается воздействию тех переменных, влияющих на эндогенную переменную, которые не включены в спецификацию модели. Если значение случайного наблюдения в любом наблюдении должно быть независимым от его значения в предыдущем наблюдении, то и значение любой переменной, «скрытой» в случайном возмущении, должно быть некоррелированным с ее значением в предыдущих наблюдениях. Для экономических процессов наиболее типичным является случай положительной автокорреляции. Она является следствием постоянной направленности воздействия тех переменных, которые не вошли в спецификацию модели. Характерным признаком наличия положительной автокорреляции случайных возмущений является периодическое чередование зон с одинаковыми знаками случайного возмущения. Пример модели с положительной автокорреляцией случайных возмущений приведен на рис. 5.1. Рис. 5.1. Пример диаграммы рассеяния с положительной автокорреляцией случайных возмущений. Возможен и другой вид автокорреляции – отрицательная автокорреляция рис. 5.2. Характерным признаком наличия отрицательной 99 автокорреляции является пилообразный вид ломаной кривой, соединяющей последовательные наблюдения. Рис.5.2. Пример диаграммы рассеяния с отрицательной автокорреляцией случайных возмущений. Возможен и другой вид автокорреляции – отрицательная автокорреляция рис. 5.2. Модели с автокоррелированными остатками называются авторегрессионными. В зависимости возмущений, от глубины рассматривают взаимного различные влияния случайных авторегрессионные модели. Например, модель считается авторегрессионной первого порядка AR(1), если взаимосвязь между двумя последовательными возмущениями имеет место соотношение: 100 случайными В авторегрессионной модели третьего порядка AR(3) случайные возмущения связаны соотношением: Последствия автокорреляции случайных возмущений в регрессионных моделях сводятся к тому, что стандартная ошибка оценок параметров модели теряет свойство несмещенности. При этом, ее значение, как правило, становится заниженным. Однако оценки параметров остаются несмещенными, т.к. предполагается, что первая предпосылка теоремы Гаусса-Маркова в уравнениях наблюдений выполняется. Тест Дарбина-Уотсона. Данный тест является наиболее часто применяемым для тестирования автокорреляции в регрессионных моделях. Его важность определяется тем, что он позволяет идентифицировать, как ложную, так и истинную автокорреляцию. Этот тест рассматривает наиболее важный, частный случай, третьей предпосылки теоремы ГауссаМаркова: , Т.е. рассматривается при случай взаимного влияния случайных возмущений в соседних наблюдениях. В основе теста лежат следующие предположения: - случайные возмущения подчиняются нормальному закону распределения; - тип авторегрессии AR(1), т.е. случайные возмущения связаны между собой правилом: 101 Статистика Дарбина-Уотсона, с помощью которой тестируется модель на автокорреляцию, имеет вид: ∑ (5.2) ∑ Здесь: i – номер наблюдения; n– количество наблюдений; - значение случайного возмущения. Найдем область определения статистики . Раскроем скобки в (5.2): ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ Принято во внимание, что при достаточно больших значениях n: ∑ ∑ , а т.к. ∑ ∑ ∑ ∑ , то можно ∑ записать: (5.3) 102 Т.к. коэффициент корреляции , то . Оказалось, что критическое значение статистики Дарбина-Уотсона зависит не только от значения доверительной вероятности, количества регрессоров в модели и числа наблюдений, но еще и от абсолютных значений регрессоров. Это обстоятельство не дает возможности найти единое для любой модели и любой выборки значение DWкрит. Получается, что в каждом конкретном случае необходимо искать свое значение DWкрит. Это неудобно. Выяснилось, что возможно найти отрезок [dL; du], внутри которого будут находиться все возможные значения для DWкрит, т.е. . Тогда для принятия решения относительно наличия или отсутствия автокорреляции можно построить следующую схему. Отложим отрезок [0; 4] и на нем отметим значения dL, du, 4-dL; 4-du Если реальное значение статистики DW попало на периферийные отрезки [0; dL] или [4-dL;4], то гипотеза об отсутствии автокорреляции (выполнении третьей предпосылки теоремы Гаусса-Маркова) отклоняется. Если реальное значение статистики DW оказалось внутри отрезка [du; 4-du], то гипотеза о выполнении третьей предпосылки теоремы Гаусса-Маркова принимается. 103 Если реальное значение статистики DW оказалось внутри интервалов [dL; du] или [4-du; 4-dL], то определенного вывода сделать нельзя. Эти интервалы называются зонами неопределенности. Единственный способ раскрыть неопределенность – это воспользоваться другой выборкой. Но мы уже отмечали, что получение дополнительной выборке в экономике дело проблематичное (по времени, стоимости, последствиям). В качестве альтернативной выборки может служить исходная выборка, увеличенная или уменьшенная на одно наблюдение. Альтернативной выборкой может служить исходная выборка с измененной последовательностью наблюдений. Это изменит значение числителя в (5.2), а, следовательно, значение DW. Проследив тенденцию перемещения значений DW вдоль отрезка [0; 4], можно определиться с принятием гипотезы об автокорреляции случайных возмущений. Алгоритм реализации теста Дарбина – Уотсона можно представить в виде последовательности следующих действий. Шаг 1. По результатам наблюдений за переменными объекта оценивается модель линейной регрессии. Шаг 2. Для каждого уравнения наблюдения оценивается значение случайного возмущения. Замечание. Уравнение линейной регрессии имеет вид: ⋯ Оценка (прогноз) значений эндогенных переменных в каждом уравнении наблюдения ест: ⋯ Тогда оценка значения случайного возмущения в наблюдении за номером t равно: 104 Шаг 3. В соответствующей статистической таблице (см. Приложение 1) по значениям k (число регрессоров в модели) и n (объем выборки) находятся числа dL и du . Шаг 4. Проверить на какой отрезок попало вычисленное значение статистики Дарбина-Уотсона. Пример. Оценить и протестировать на наличие автокорреляции модель величины государственных расходов в зависимости от ВВП. В таб. 5.1. приведены исходные данные по 34 странам, а также промежуточные результаты анализа модели на автокорреляцию. Оцененная модель получила вид: . . . . . 105 (5.4) Таб.5.1. Исходные данные для оценки модели (5.4) По оцененной модели (5.4) вычислены прогнозные значения расходов на образование (столбец Yпрог) и оценки случайных возмущений в каждом наблюдении. 106 . В последнем столбце таблицы вычислены значения Расчет производится с i=2. Долее вычисляется ∑ . ∑ , . результате получаем . . . . В . По таблице находим значения dL =1.39 иdu=1.51. Тогда имеем . , следовательно, оцененная модель (5.4) является авторегрессионной моделью первого порядка. В лекции 2 было установлено, что модель (5.4) гетероскедастична и, следовательно, необходимо для оценки использовать взвешенный метод наименьших квадратов. В таб. 5.2. приведены данные для оценки модели вида: (5.5) Оценка спецификации модели (5.5) имеет вид: . . При крит . . 2.04 (5.6) . оказывается статистически регрессор незначимый, т.к. дробь Стьюдента для него . . . крит Следовательно, для дальнейшей работы спецификацией: . можно ограничиться (5.7) Оценка спецификации (5.7) получает вид: . . . 107 В таб. 5.2. прогнозное значение Y* рассчитано по модели (5.7) Таб. 5.2. Исходные данные для оценки моделей (5.6) и (5.7) № Страна Y/P 1/P X/P Y* U* U*-u* 1 2 3 4 5 6 7 8 1 2 3 Люксембург Уругвай Сингапур 0,051 0,020 0,026 0,150 0,090 0,081 0,850 0,910 0,919 0,044 0,047 0,047 0,007 -0,027 -0,022 -0,034 0,006 4 5 0,062 0,082 0,050 0,046 0,950 0,954 0,049 0,049 0,013 0,033 0,034 0,020 6 7 8 9 10 11 12 13 14 15 16 Ирландия Израиль Новая Зеландия Гонконг Венгрия Португалия Чили Греция Финляндия Норвегия Дания Австрия Югославия 0,051 0,023 0,044 0,042 0,044 0,018 0,053 0,083 0,066 0,055 0,055 0,040 0,035 0,043 0,039 0,035 0,024 0,019 0,017 0,015 0,013 0,016 0,960 0,965 0,957 0,961 0,965 0,976 0,981 0,983 0,985 0,987 0,984 0,050 0,050 0,049 0,050 0,050 0,050 0,051 0,051 0,051 0,051 0,051 0,002 -0,026 -0,005 -0,008 -0,006 -0,032 0,003 0,033 0,015 0,004 0,004 -0,032 -0,028 0,021 -0,003 0,002 -0,026 0,035 0,030 -0,017 -0,012 0,000 17 18 Швейцария Турция 0,052 0,024 0,010 0,015 0,990 0,985 0,051 0,051 0,001 -0,027 -0,003 -0,028 19 20 21 Сауд. Аравия Бельгия Швеция 0,055 0,059 0,090 0,009 0,008 0,008 0,991 0,992 0,992 0,051 0,051 0,051 0,003 0,008 0,038 0,031 0,005 0,030 22 23 Австралия Аргентина 0,061 0,036 0,007 0,006 0,993 0,994 0,051 0,051 0,010 -0,015 -0,029 -0,025 24 25 26 27 28 29 Нидерланды Испания Мексика Канада Бразилия Италия Великобритания Франция ФРГ Япония США 0,079 0,023 0,029 0,072 0,036 0,040 0,006 0,005 0,005 0,004 0,004 0,003 0,994 0,995 0,995 0,996 0,996 0,997 0,051 0,051 0,051 0,051 0,051 0,052 0,027 -0,029 -0,022 0,021 -0,016 -0,011 0,043 -0,056 0,007 0,043 -0,036 0,005 0,056 0,051 0,047 0,059 0,070 0,002 0,002 0,001 0,001 0,000 0,998 0,998 0,999 0,999 1,000 0,052 0,052 0,052 0,052 0,052 0,004 0,000 -0,004 0,008 0,018 0,016 -0,005 -0,004 0,012 0,011 30 31 32 33 34 108 Для модели (5.7) получили: ∑ ∑ . . . , , . . , dL =1.39 иdu=1.51. Реальное значение статистики DW лежит внутри интервала (1.51; 2.0), следовательно, модель (5.7) неавторегрессионная. Третья предпосылка теоремы Гаусса-Маркова принимается истинной с . дов . Принимая во внимание, что в результате изменения спецификации модели (5.5) удалось устранить автокорреляцию случайных возмущений, следует считать, что автокорреляция в спецификации (5.5) была ложной, т.е. вызвана неудачной записью вида модели. Оценивание линейных моделей в условиях автокорреляции. Рассмотрим линейную авторегрессионную модель первого порядка AR(1): (5.8) | | Для определенности будем рассматривать пример уравнения парной регрессии. Будем полагать, что коэффициент корреляции последовательными значениями случайных возмущений остаток известен, а подчиняется нормальному закону распределения Начальные переменной условия модели ; определяются между нормальной ; . случайной . Мы не располагаем нулевым наблюдением, но будем предполагать, что дисперсия случайного наблюдения в нем равна . Тогда из второго уравнения (5.8) получим: , 109 (5.9) Т.к. и суть независимые случайные переменные, третье слагаемое в (5.9) равно нулю. Поскольку , то из (5.9) получаем: (5.10) Вычислим дисперсию случайной переменной ut. Воспользуемся методом математической индукции. Найдем дисперсию u2: Вычислив значения , и т.д., получим, что во всех случаях: (5.11) Таким образом, если задать дисперсию случайного возмущения в начальный момент времени в виде (5.10), то дисперсии во всех наблюдениях станут гомоскедастичными. Подход к устранению автокорреляции случайных возмущений сводится к искусственному преобразованию спецификации модели (5.8) к виду с тождественным выполнением третьей предпосылки теоремы Гаусса-Маркова. Для этого запишем первое уравнение (5.8) в моменты времени t и t-1. (5.12) Умножим второе уравнение (5.11) на ρ и вычтем его из первого: (5.13) Сделав замену переменных: 110 ∗ ; ; ∗ ; (5.14) Получим спецификацию линейной модели вида: ∗ ∗ (5.15) ; Спецификация (5.15) может быть оценена с помощью МНК. Не нарушая общности полученные выводы можно перенести для линейной модели множественной регрессии. Уравнения (5.13) имеют смысл только при , т.к. отсутствует нулевое наблюдение. Если объем выборки достаточно велик, то первым наблюдением можно пожертвовать. В принципе первое наблюдение также можно использовать при вычислении оценок модели, если его умножить на величину , которая называется поправкой Прайса-Уинстона. Можно показать, что умножение первого наблюдения на эту поправку не приводит к искажению значений параметров модели и при значениях близких к единице уменьшается значение дисперсии случайного возмущения (5.11). В результате система уравнений наблюдений принимает вид (5.16): ⋯ ………………………………………………………………………………………….. Замечание. Рассмотренный прием справедлив, если известен коэффициент корреляции между последовательными возмущениями. На практике, как правило, он неизвестен. 111 случайными При неизвестном значении коэффициента корреляции применяется итерационная процедура метода последовательных приближений. Этот метод получил название процедура Кохрейна-Оркатта. Алгоритм итерационной процедуры Кохрейна-Оркатта следующий. Задается число 0 1. 1. Значению коэффициента корреляции присваивается значение . 2. По имеющейся выборке оцениваются значения параметров модели и значения случайных возмущений , ,…, по системе уравнений наблюдений (5.15). 3. По массиву случайных возмущений , ,…, оценивается модель 4. Получается значение , которое сравнивается с предыдущим значением коэффициента детерминации. 5. Если выполняется условие , то процесс поиска параметров прекращается. В противном случае переменной присваивается значение В качестве оценок , и повторяются шаги 2, 3, 4. параметров модели (5.15) и значения коэффициента корреляции принимаются оценки, полученные на последней итерации. Пример. Исследуется модель, связывающая количество вакансий и уровень безработицы принято значение . В качестве показателя количества вакансий . , ,…, ; Задание. По данным табл.5.3 оценить спецификацию модели. 112 Таблица 5.3. № № 1 0,548 2,158 13 0,802 1,917 2 0,663 1,573 14 0,723 2,110 3 1,115 0,982 15 1,203 1,235 4 1,428 0,982 16 0,751 2,054 5 0,924 0,948 17 1,147 1,552 6 0,536 2,088 18 0,652 2,008 7 0,668 2,178 19 0,815 1,826 8 0,944 1,712 20 1,821 0,971 9 1,621 1,054 21 0,728 2,146 10 1,033 1,666 22 2,127 0,956 11 1,488 1,197 23 1,012 1,833 12 1,160 1,694 24 1,808 0,993 2.30 0.779 0.186 0.113 0.253 При этом 0.682, тест 47.26, 1.412 Проверяем качество спецификации. Имеем уравнение парной регрессии, следовательно, коэффициента детерминации, достаточно крит воспользоваться 0.05; 1; 22 модель имеет качественную спецификацию тест оценкой 4.3 , следовательно, крит . ; ; . Проверяем справедливость третьей предпосылки теоремы ГауссаМаркова. Вычисляем значение статистики DW. числителя статистики DW приведены в таб. 5.4. 113 Результаты расчета Таблица 5.4. № 1 1 2 3 4 5 6 7 8 9 10 11 12 yt 2 0,548 0,663 1,115 1,428 0,924 0,537 0,668 0,944 1,621 1,033 1,488 1,160 y t* ut 3 0,619 1,074 1,535 1,535 1,561 0,673 0,603 0,966 1,478 1,002 1,367 0,980 4 -0,071 -0,412 -0,420 -0,107 -0,637 -0,136 0,065 -0,022 0,143 0,031 0,121 0,180 (ut-ut-1)2 № 5 0,116 0,000 0,098 0,281 0,251 0,041 0,008 0,027 0,013 0,008 0,003 6 13 14 15 16 17 18 19 20 21 22 23 24 yt 7 0,802 0,723 1,203 0,751 1,147 0,652 0,815 1,821 0,728 2,127 1,012 1,808 y t* ut (ut-ut-1)2 8 0,806 0,656 1,337 0,699 1,091 0,735 0,877 1,543 0,628 1,555 0,872 1,526 9 10 -0,004 0,034 0,067 0,005 -0,134 0,041 0,052 0,035 0,057 0,000 -0,083 0,020 -0,062 0,000 0,278 0,115 0,100 0,032 0,572 0,223 0,140 0,187 0,282 0,020  1,557 Здесь символом y* обозначено прогнозное значение эндогенной переменной. Вычисленное значение статистики Дарбина-Уотсона , . Выбираем из таблиц . Дарбина-Уотсона значения границ критического значения статистики: dLи du (по параметрам: n=24 , K =1 , =0,05) dL =1,273, du =1,446 Поскольку dL — значение статистики попадает в первый интервал, что означает наличие положительной автокорреляции в остатках регрессии. Последствия, к которым приводит автокорреляция, описаны выше. В частности, смещены все оценки ошибок параметров. 114 Выполним корректировку автокорреляции случайного возмущения методом Кохрейна-Оркатта. Для модель построена, оценки случайных возмущений вычислены, по ним можно оценить модель . В таб. 5.5. Приведены результаты применения функции «ЛИНЕЙН» к данным таб. 5.4. Таблица 5.5. 0.44422 0.19756 Н/Д 0.2281 0.1864 тест 5.055 22 0.2629 С оценкой 1.144 0.44422 выполним преобразования (5.14), и по преобразованным данным оценим модель. Преобразованные данные представлены в таблице 5.6. Примем . . Результаты оценки параметров модели по данным таблицы 5.6 приводятся в таблице 5.7. 115 Таблица 5.6. № yt xt № yt xt 1 0,490964 1,933396 13 0,28671 1,164499 2 0,41957 0,614383 14 0,366739 1,258439 3 0,820485 0,283249 15 0,881832 0,297706 4 0,9327 0,545781 16 0,216609 1,505394 5 0,289661 0,511781 17 0,813394 0,639582 6 0,125545 1,666884 18 0,142485 1,318578 7 0,429901 1,250478 19 0,525372 0,934016 8 0,647264 0,744499 20 1,458965 0,159863 9 1,201661 0,293503 21 -0,08092 1,714667 10 0,312927 1,197797 22 1,803611 0,002714 11 1,029126 0,456937 23 0,067154 1,40833 12 0,499008 1,162274 24 1,358454 0,178753 Таблица 5.7. тест 0.71826 1.262398 0.10032 0.1044 0.6997 0.269751 51.259 22 3.72713 В силу (5.14) 1.59966 оценка параметра может быть непосредственно использована для исходной модели, оценку параметра нужно вычислить с учетом (5.14): . . 116 . Запишем стандартную форму оцененной модели: . . . . (5.17) . Используя результаты оценивания (5.17) снова вычислим остатки и по ним оценку коэффициента корреляции . Для итераций i=2, вновь преобразуем выборку в соответствии с (5.14), оцениваем с помощью МНК модель (5.13) и т.д. Результаты этой работы обобщены в таблице 5.8. Таблица 5.8. № итерации 2.99319 -0.77886 1 2.27138 -0.71826 2 2.27137 -0.71827 3 2.271.37 -0.71827 | | . Т.к. | DW 0.44422 0.444215 0.444116 0.444109 0.0001 1.26262 1.26262 1.26263 | . 1.10176 2.39938 2.39926 2.39925 , то на третьей итерации процесс можно остановить. При этом случайные возмущения в модели (5.15) попарно не коррелированные, т.к. , Процедура Дарбина. , Эта процедура использует спецификацию (5.13). В ней раскрываются скобки, и лаговая переменная yt-1 включается в число регрессоров: (5.18) ; Введя обозначения: вновь получим спецификацию линейной ; модели ; , множественной регрессии: (5.19) 117 Оценив с помощью МНК параметры модели (5.19), можно найти оценки и . Пример. Оценить спецификацию модели (5.9) по данным таб. 5.3. В таб. 5.9. приведены исходные данные и элементы расчета статистики Дарбина-Уотсона. Таблица 5.9. № yt 1 0,548 2 0,663 0,548 3 1,115 4 yt-1 xt xt-1 ut ut-ut-1 1,573 2,158 -0,43964 0,663 0,982 1,573 -0,25254 0,187094 1,428 1,115 0,982 0,982 0,118455 0,370997 5 0,924 1,428 0,948 0,982 -0,54939 -0,66784 6 0,536 0,924 2,088 0,948 0,200058 0,749445 7 0,668 0,536 2,178 2,088 0,079725 -0,12033 8 0,944 0,668 1,712 2,178 -0,10978 -0,1895 9 1,621 0,944 1,054 1,712 0,127359 0,237138 10 1,033 1,621 1,666 1,054 0,012274 -0,11509 11 1,488 1,033 1,197 1,666 0,088504 0,07623 12 1,16 1,488 1,694 1,197 0,15774 0,069236 13 0,802 1,16 1,917 1,694 -0,09534 -0,25308 14 0,723 0,802 2,11 1,917 0,038531 0,13387 15 1,203 0,723 1,235 2,11 -0,22293 -0,26146 16 0,751 1,203 2,054 1,235 0,141898 0,364828 17 1,147 0,751 1,552 2,054 -0,01606 -0,15796 18 0,652 1,147 2,008 1,552 -0,10618 -0,09012 19 0,815 0,652 1,826 2,008 -0,06799 0,038192 20 1,821 0,815 0,971 1,826 0,268775 0,336767 21 0,728 1,821 2,146 0,971 0,035582 -0,23319 22 2,127 0,728 0,956 2,146 0,462493 0,42691 23 1,012 2,127 1,833 0,956 -0,05552 -0,51801 24 1,808 1,012 0,993 1,833 0,183973 0,23949 2,158 118 Результат оценки модели с помощью функции «ЛИНЕЙН» имеет вид: 0,432726 0,191566 0,735104 17,5754 3,056254 -0,79144 0,437487 1,174001 0,113946 0,211814 0,517995 0,240758 #Н/Д #Н/Д 19 #Н/Д #Н/Д 1,101327 #Н/Д #Н/Д Следовательно, , , ; , ; , , Значение статистики DW=2.092, что свидетельствует об отсутствии автокорреляции между случайными возмущениями. Отметим, что при использовании процедуры Дарбина, пришлось «пожертвовать» первым наблюдением, чего мы не делали в предыдущем примере. Как видно, получены результаты достаточно хорошо коррелированные с результатами, полученными с помощью процедуры Кохрейна-Оркатта. Обобщенный рассмотренные метод способы наименьших устранения квадратов. Обобщим гетероскедастичности и автокорреляции в линейных моделях множественной регрессии. Вновь обратимся к ковариационной матрице случайных возмущений. В случае, когда вторая и третья предпосылки в уравнениях наблюдений нарушены, ее можно записать в виде: 119 , ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ (5.20) На главной диагонали матрицы (5.20) расположены дисперсии случайных возмущений, которые в неоднородными. На боковых местах cij=Cov(ui,uj). Доказана теорема, общем случае, могут быть лежат значения ковариаций которая формулирует наилучшую линейную процедуру оценки параметров линейной модели множественной регрессии в случае, если ковариационная матрица случайных возмущений имеет вид (5.20), т.е. в условиях, когда вторая и третья предпосылки теоремы Гаусса-Маркова не выполняются. Теорема Эйткена. В классе линейных несмещенных оценок вектора параметров , линейной ,…, модели множественной регрессии, , наилучшей является оценка: (5.21) Процедура (5.21) называется обобщенным методом наименьших квадратов. От классического метода наименьших квадратов он отличается тем, что оценки параметров находятся из условия минимальности функционала: Если в матрице Ω диагональная(cij=0), то процедура (5.21) соответствует взвешенному методу наименьших квадратов (ВМНК). Если в матрице Ω на главной диагонали лежат нули, то процедура (5.21) обеспечивает получение наилучших оценок в условиях автокорреляции случайных возмущений при выполнении условия гомоскедастичности. 120 Если матрица Ω диагональная и все равны, то процедура (5.21) превращается в процедуру классического метода наименьших квадратов (МНК). В заключении отметим, что применение ОМНК требует знания ковариационной матрицы вектора случайных возмущений Ω, что встречается крайне редко. На практике используется, так называемый, доступный обобщенный метод наименьших квадратов. К нему относят те процедуры, которые мы рассмотрели выше – это ВМНК и процедуры устранения автокорреляции. Подведем итог 1. Обсудили понятие автокорреляции случайных возмущений. 2. Выяснили последствия и причины возникновения автокорреляции. 3. Рассмотрели проверку модели на автокоррелируемость с помощью теста Дарбина-Уотсона. 4. Познакомились с различными процедурами устранения автокорреляции остатков. 5. Сформулирована процедура обобщенного метода наименьших квадратов. Вопросы для самоконтроля 1. Определение автокорреляции. 2. Каковы последствия наличия автокорреляции случайных возмущений в линейной модели множественной регрессии. 3. Какие предположения лежат в основе теста Дарбина-Уотсона. 4. Как вычисляется значение статистики Дарбина-Уотсона. 5. Как принимается решение о наличии или отсутствии автокорреляции. 6. Для чего необходима поправка Прайса-Уинстона. 121 7. Алгоритм итерационной процедуры Кохрейна-Оркатта оценки параметров модели, подверженной автокорреляции. 8. В чем заключается метод Дарбина оценки параметров авторегрессионной модели. 9. Доступные обобщенные методы наименьших квадратов. 10. Обобщенный метод наименьших квадратов. Теорема Эйткена. 11. Самостоятельно повторить задачи, приведенные в лекции. 122 Лекция 6. Тестирование оцененной модели на адекватность Содержание лекции: 1. Точечный и интервальный прогноз по регрессионной модели. 2. Понятие адекватности модели. 3. Алгоритм проверки модели на адекватность. 4. Точечный и интервальный методы проверки модели на адекватность. На сегодня Вы уже знаете, как записать спецификацию линейной модели, как собрать и представить для расчетов выборку результатов наблюдения за поведением экономического объекта, процедуру МНК для идентификации модели, порядок тестирования идентифицированной модели на качество спецификации, тестирование на выполнение предпосылок теоремы Гаусса-Маркова о гомоскедастичности и отсутствии автокоррелируемости случайных возмущений, знакомы с доступными обобщенными методами устранения гетероскедастичности и автокорреляции. Осталась четвертая предпосылка теоремы Гаусса-Маркова, об отсутствии корреляции между векторами регрессоров и случайных возмущений. Если эта предпосылка не выполняется, то это приводит к смещению МНК-оценок параметров модели. Это было установлено на лекции 2, когда рассматривали механизм работы метода наименьших квадратов. При построении линейных моделей, в которых значения регрессоров в каждом наблюдении являются константами, четвертая предпосылка выполняется автоматически, т.к. связь между константой и случайной величиной всегда отсутствует. Предполагается, что зафиксировав выборку наблюдений, зафиксировали и значения регрессоров в каждом наблюдении и, следовательно, исключили связь между векторами регрессоров и 123 случайных возмущений. Поэтому нет необходимости в дополнительном тестировании последней предпосылки теоремы Гаусса-Маркова. Заметим, что такое положение далеко не всегда имеет место. Например, если значения регрессоров в каждом наблюдении суть результат измерений, то связь между векторами регрессоров и случайных возмущений может иметь место, т.к. измерения всегда производятся с некоторой ошибкой, а это означает, что результаты измерений являются случайными величинами. Следовательно, возможна и связь регрессоров со случайными возмущениями. Второй пример. В качестве регрессора может выступать лаговая эндогенная переменная, значение которой сформировалось в предшествующий момент времени. Лаговая эндогенная переменная является случайной величиной, т.к. на ее формирование оказало влияние соответствующее случайное возмущение. Опять в составе регрессоров оказалась случайная переменная, которая может взаимодействовать со случайным возмущением. Рассмотрение перечисленных ситуаций выходит за рамки изучаемого курса. Забегая вперед, отметим, что возникновение таких ситуаций существенно осложняет возможность получения состоятельных оценок параметров линейной модели. В результате мы подошли к последнему этапу построения модели, а именно, этапу проверки адекватности модели. Проверка адекватности тесно связана с прогнозированием с помощью построенной модели. Поэтому начнем с рассмотрения вопроса получения наилучшего прогноза с помощью линейной регрессионной модели. Прогнозирование с помощью регрессионной модели. В теореме Гаусса-Маркова сформулировано правило получения наилучшего прогноза по линейной модели в точке , ,…, : ⋯ 124 (6.1) Для получения прогнозного значения эндогенной переменной в некоторой точке достаточно в спецификации символическое обозначение параметров модели заменить значениями оценок этих параметров с помощью МНК. Естественно, что точка , ,…, не принадлежит выборке наблюдений. Нет никакого практического смысла прогнозировать уже известное из практики значение эндогенной переменной. Исключения составляют случаи проверки статистических гипотез, статистики которых содержат оценки значений случайных возмущений (например, статистика DW). Замечание. В (6.1) отсутствует значение случайного возмущения, которое присутствовало в спецификации модели. Это объясняется тем, что мы не можем значение случайного возмущения ни наблюдать, ни прогнозировать. Случайное возмущение появилось в спецификации модели с целью обеспечения однозначной связи между эндогенной переменной и регрессорами. По (6.1) вычисляется оценка математического ожидания (среднего значения) эндогенной переменной, в котором отсутствует случайное возмущение в силу первой предпосылки теоремы Гаусса-Маркова. Однако, оценка среднего значения есть величина случайная, которое вычисляется с некоторой ошибкой. Следовательно, значение, вычисленное по (6.1) необходимо дополнить значением оценки стандартной ошибки прогнозирования. Теорема Гаусса-Маркова дает ответ на вопрос, как вычисляется ошибка прогнозирования: ; Здесь: (6.2) - стандартная ошибка случайных возмущений; - точка, в которой оценивается прогнозное значение; - матрица коэффициентов системы уравнений наблюдений. 125 Таким образом, с помощью (6.1) и (6.2) имеется возможность вычислить в интересующей нас точке среднее значение эндогенной переменной и значение ее стандартной ошибки. Такой способ прогнозирования иногда называют точечным. На практике чаще применяют интервальный метод прогнозирования. Его идея заключается в том, чтобы оценить числовой интервал, в котором с заданной доверительной вероятностью могут лежать реальные значения эндогенной переменной. Для вычисления границ этого интервала, который принято называть доверительным, воспользуемся статистикой Стьюдента для оценки модуля разности между прогнозным и реальным значением эндогенной переменной: крит Здесь: | | (6.3) – прогнозное значение эндогенной переменной в интересующей точке; - ожидаемое значение эндогенной переменной в той же точке; - значение стандартной ошибки прогноза в той же точке; крит - Критическое значение дроби Стьюдента при заданном значении доверительной вероятности (значимости) и известном значении ν=n-k-1. Решив неравенство (6.3) относительно y, получим: крит крит (6.4) Из (6.4) видно, что ожидаемое значение эндогенной переменной в 126 заданной точке с вероятностью дов может принять любое значение внутри интервала ; крит (6.5) крит Имея границы доверительного интервала, легко оценить множество возможных значений, которые может принять эндогенная переменная с известной доверительной вероятностью. Пример. Построить линейную модель зависимости объема внутреннего национального продукта (y) от объема национального потребления (с) и объема инвестиций (I) и оценить возможный объем ВНП, если объем потребления достигнет уровня c=14.5 млрд.долл, а объем инвестиций I=4.0 млрд.долл. Исходные данные для построения модели приведены в таб. 6.1 Таблица 6.1. № п/п y С I (млрд.долл) (млрд.долл) (млрд.долл) 1 14 8 2 16 9,5 3 18 11 4 20 12 5 23 13 6 23,5 14 7 25 15 8 26,5 16,5 9 28,5 17 10 30,5 18 Модель, оцененная по данным таб. 6.1, имеет вид: , , , , , , 127 , 1,65 1,8 2 2,1 2,2 2,4 2,65 2,85 3,2 3,55 (6.6) Опустим необходимый анализ модели и перейдем к оценке прогнозного значения ВНП при заданных значениях объема потребления (c=14.5) и объема инвестиций I=4.0. Воспользовавшись результатом (6.6), вычислим среднее значение ВНП в заданных условиях: , , ∙ , , ∙ , , (6.7) Дополнительно необходимо вычислить оценку стандартной ошибки в точке прогнозирования. Чтобы воспользоваться (6.2), необходимо сформировать матрицу X коэффициентов уравнений наблюдений. Замечание. Пользуясь функцией «ЛИНЕЙН», табличного процессора EXCEL, нам не приходилось формировать матрицу X. Достаточно было присвоить переменной «Константа» значение один или ноль и функция преобразования. «ЛИНЕЙН» сама выполняла необходимые На этапе прогнозирования и проверки адекватности модели создавать матрицу X придется самостоятельно. В данном примере матрица X имеет вид: , , Вектор x0 примет вид: , , , , , , , , , , , , , , , , , , , , (6.8) . Замечание. Единицы в первом столбце матрицы X и единица в векторе x0 появились в связи с тем, что в спецификации модели 128 присутствует параметр a0. В случаях, когда параметр a0 отсутствует в спецификации модели, в матрице X и векторе x0 отсутствуют соответственно столбец из единиц и единица. Значение константы q в (6.2) удобно вычислять в два этапа. На . Она не зависит от точки первом этапе вычислить матрицу прогнозирования. Затем вычислить значение q для точки прогнозирования . при известной матрице Последовательность операций при вычислении обратной матрицы с помощью процессора EXCEL следующая: 1. На листе EXCEL выделяется область , в которую предполагается поместить матрицу . 2. Набирается следующая командная строка: МОБР МУМНОЖ ТРАНСП ; После чего последовательно нажимается комбинация клавиш . Выделенная область будет заполнена . числовыми значениями матрицы [X] – означает протянуть область, занимаемую матрицей X. Замечание. Напоминаю, что квадратная, матрица размерность которой равна количеству столбцов в матрице X. Для вычисления значения константы q достаточно позиционировать курсор в выбранной ячейке и набрать командную строку: ; МУМНОЖ МУМНОЖ ТРАНСП ; В выделенной ячейке появится значение константы q. Для данного примера имеем: , , , , , , 129 , , , , q=8,74; , ; В результате точечный прогноз имеет вид , Найдем границы доверительного интервала возможных значений эндогенной переменной для Pдов=0,95 (α=0,05, tкрит=2,36): , крит , , крит , ∙ , , ∙ , , Следовательно, в данном примере ожидаемые значения объема ВНП может принять любое значение из интервала (23,74; 26,86). Оценка адекватности модели. Начнем с определения адекватности. Определение. Под адекватностью понимается возможность получения результата с удовлетворительной точностью. Эконометрические модели создаются для последующего их использования как инструмент прогнозирования поведения эндогенной переменной экономического объекта в различных условиях. Или, другими словами, ответить на вопрос, что будет, если предопределенные переменные объекта примут некоторое значение. Модель служит инструментом имитации поведения экономического объекта в различных ситуациях. Понятно, что лучшим ответом на вопрос, что будет, было бы наблюдение за объектом в интересующей ситуации. Однако, в экономике это или не возможно, или чревато необратимыми негативными последствиями. Следовательно, в нашем случае под адекватностью модели следует понимать возможность получения прогноза с удовлетворительной точностью. Очевидно, чтобы оценить точность прогноза, сопоставить вычисленное по модели прогнозное необходимо значение эндогенной переменной с ее реальным значением при одинаковых значениях набора регрессоров. 130 Если разница между этими значениями по абсолютной величине окажется приемлемой, то можно будет сделать вывод об адекватном описании поведения объекта полученной моделью. Поняв идею тестирования, рассмотрим алгоритм ее реализации. Шаг 1. Имеющаяся выборка делится на две неравные части. Первая объемом 5% - 10% от общего объема выборки, вторая – все остальное. Первую выборку называют контрольной, вторую – обучающей. Из названия понятно, что первая (маленькая) выборка предназначена для тестирования модели на адекватность, вторая (большая) предназначена для оценивания модели. Необходимость выделения из общего объема контрольной выборки связано с тем, что необходимо обеспечить независимость значений оценок параметров от влияния элементов контрольной выборки. В противном случае тест становится некорректным, т.к. тестирование на адекватность модели проводится по тем же данным, по которым осуществляется идентификация модели. Возникает вопрос, в какой момент необходимо провести деление выборки, в самом начале работы или непосредственно перед проведением тестирования. В общем случае не имеет значения. Однако, на практике при принятии решения определяющее значение играет объем выборки. Если объем выборки достаточно большой, (например, n>100), то поделить выборку можно сразу. Если объем выборки относительно небольшой, то это делать рекомендуется непосредственно перед тестированием на адекватность, т.к. заметное уменьшение выборки может существенно сказаться на значениях оценок параметров, их ошибках и, как следствие, привести к искаженным результатам по всем тестам, которые необходимо провести в процессе построения модели. Шаг 2. По обучающей выборке вновь проводится идентификация модели. 131 В связи с тем, что изменилась выборка, по которой производится оценка модели, изменятся и значения оценок параметров модели. Шаг.3. Используя полученные значения оценок параметров модели, вычисляются значения оценок эндогенной переменной для каждой точки контрольной выборки. Шаг 4. Формулируется статистическая гипотеза о равенстве реального и прогнозного значений эндогенной переменной в каждой точке контрольной выборки: : . Индекс k указывает на принадлежность контрольной выборке, индекс j порядковый номер точки в контрольной выборке. Для тестирования выдвинутой гипотезы используется критерий Стьюдента крит (6.9) Для использования критерия Стьюдента необходимо дополнительно вычислить оценку среднего квадратичного отклонения прогнозного значения эндогенной переменной в каждой точке контрольной выборки (6.2). Шаг 5. Вычисляются значения дроби Стьюдента и проверяется выполнение условия (6.9). Если условие (6.9) выполняется в каждой точке контрольной выборки, то делается вывод об адекватности модели с доверительной вероятностью дов . Выполнение условия (6.9) можно проверить интервальным способом. Для этого необходимо вычислить границы доверительного интервала (6.5). Если реальное значение эндогенной переменной лежит в границах доверительного интервала (говорят, доверительный интервал накрывает 132 реальное значение), то модель в данной точке адекватна. Если это справедливо для всех точек контрольной выборки, то гипотеза об адекватности модели принимается с вероятностью . Пример. Проверить адекватность модели (6.6). Шаг 1. Формируем контрольную и обучающую выборки. Вы берем для проверки адекватности две точки: точку с номером 2 и точку с номером 10. Шаг 2. Оцениваем модель по обучающей выборке. Шаг 3. Вычисляется оценка эндогенной переменной в каждой точке выборки. Шаг 4. Вычисляется оценка стандартной ошибки в каждой точке контрольной выборки. Шаг 5. Вычисляются значения статистик Стьюдента или границы доверительных интервалов для каждой контрольной точки, и проверяется условие принятия гипотезы об адекватности. Результаты перечисленных процедур приведены в таб. 6.2. Таблица 6.2. 133 Статистическая гипотеза об адекватности модели (6.6) принимается с вероятностью . Это подтверждают результаты тестирования, как с помощью дроби Стьюдента, так и с помощью доверительных интервалов. Мы рассмотрели последний этап построения эконометрических моделей, на основании которого делается вывод о возможности использования построенной модели для решения задач оптимального управления. В заключении рассмотрим пример построения эконометрической модели, подобную той, которая будет предложена в качестве экзаменационной. Задача. Построить эконометрическую модель зависимости объема продаж (y) от следующих факторов: 134 x1 – результат теста способностей; x2 – возраст продавца; x3 – результат теста на тревожность; x4 – стаж работы по специальности; x5 – средний балл школьного аттестата. Решение. 1. Спецификация модели имеет вид: (6.10) 2. Выборка результатов наблюдения за экономическим объектом приведена в таб. 6.3. 3. Вычисляются оценки параметров модели (6.10) с помощью функции «ЛИНЕЙН» Таблица данных, которая генерируется функцией «ЛИНЕЙН» представлена в таб. 6.4. Оценка модели (6.10) по данным таб. 6.3. имеет вид: . . . . . . . . . . . . . 4. Анализ модели на качество спецификации. Значение коэффициента детерминации R2=0.89, статистика Fтест =38.64, (см. таб. 6.4.) Fкрит(0.05; 5; 23)=2.64. Следовательно, выбранные регрессоры в целом оказывают значимое влияние на формирование эндогенной переменной. 135 Таблица 6.3. № П/П y x1 x2 47 19,0 60 27,0 2 71 31,0 3 61 64,0 4 60 81,0 5 58 42,0 6 56 67,0 7 66 48,0 8 61 64,0 9 51 57,0 10 47 10,0 11 53 48,0 12 74 96,0 13 65 75,0 14 33 12,0 15 54 47,0 16 39 20,0 17 52 73,0 18 30 4,0 19 58 9,0 20 59 98,0 21 52 27,0 22 56 59,0 23 49 23,0 24 63 90,0 25 61 34,0 26 39 16,0 27 62 32,0 28 78 94,0 29 Оценим статистическую 1 x3 x4 22,5 3,0 1,0 23,1 1,5 0,0 24,0 0,6 3,0 22,6 1,8 2,0 21,7 3,3 1,0 23,8 3,2 0,0 22,0 2,1 0,0 22,4 6,0 1,0 22,6 1,0 1,8 21,1 3,8 0,0 22,5 4,5 1,0 22,2 4,5 0,0 24,8 0,1 3,0 22,6 0,9 0,0 20,5 4,8 0,0 21,9 2,3 1,0 20,5 3,0 2,0 20,8 0,3 2,0 20,0 2,7 0,0 23,3 4,4 1,0 21,3 3,9 1,0 22,9 1,4 2,0 22,3 2,7 1,0 22,6 2,7 1,0 22,4 2,2 2,0 23,8 0,7 1,0 20,6 3,0 1,0 24,4 0,6 3,0 25,0 4,6 5,0 значимость влияния на переменную каждого из факторов. 136 x5 2,6 2,8 2,7 2,0 2,5 2,5 2,3 2,8 3,4 3,0 2,7 2,8 3,8 3,7 2,1 1,8 1,5 1,9 2,2 2,8 2,9 3,2 2,4 2,4 2,6 3,4 2,3 4,0 3,6 эндогенную Таблица 6.4. -0,56687 -0,07518 0,190797 6,203462 0,199641 -91,6779 1,766074 0,800749 0,521451 0,935023 0,028722 18,12653 0,893624 4,014295 #Н/Д #Н/Д #Н/Д #Н/Д 38,64295 23 #Н/Д #Н/Д #Н/Д #Н/Д 3113,572 370,635 #Н/Д #Н/Д #Н/Д #Н/Д Для этого необходимо проверить выполнение гипотезы о равенстве нулю параметров при каждом регрессоре. Вычислим значения дроби Стьюдента и найдем значение tкрит. , , , , , , , , , , , , , , , крит , ; . Сравнив значения t-статистик с критическим, делаем вывод о том, что гипотеза : принимается для j=3, 4, 5. Следовательно, три последних регрессора не оказывают с вероятностью 0,95 статистически значимого влияния на формирование эндогенной переменной. Это значит, что их можно исключить из спецификации (6.10). Это, в свою очередь, означает возврат к этапу спецификации модели. Новая спецификация принимает вид: (6.11) В результате тестирования качества спецификации модели, последняя была существенно упрощена. С экономической точки зрения это означает, что на объеме продаж сказываются только способности и возраст продавца. 137 Для оценки спецификации (6.11) вновь готовим выборку результатов наблюдений. Эта работа сводится к тому, что из дальнейшего рассмотрения исключаются три последних столбца таб. 6.3. Таблица 6.5. № П/П 1,0 2,0 3,0 4,0 5,0 6,0 7,0 8,0 9,0 10,0 11,0 12,0 13,0 14,0 15,0 16,0 17,0 18,0 19,0 20,0 21,0 22,0 23,0 24,0 25,0 26,0 27,0 28,0 29,0 y 30,0 58,0 47,0 33,0 39,0 39,0 47,0 49,0 52,0 60,0 71,0 62,0 61,0 58,0 54,0 53,0 66,0 51,0 56,0 61,0 61,0 56,0 52,0 65,0 60,0 63,0 78,0 59,0 74,0 x1 4,0 9,0 10,0 12,0 16,0 20,0 19,0 23,0 27,0 27,0 31,0 32,0 34,0 42,0 47,0 48,0 48,0 57,0 59,0 64,0 64,0 67,0 73,0 75,0 81,0 90,0 94,0 98,0 96,0 x2 20,0 23,3 22,5 20,5 20,6 20,5 22,5 22,6 22,9 23,1 24,0 24,4 23,8 23,8 21,9 22,2 22,4 21,1 22,3 22,6 22,6 22,0 20,8 22,6 21,7 22,4 25,0 21,3 24,8 5,934158 0,565995 0,892464 107,8894 3109,528 Fкрит= t2 10,48447 tкрит= 0,196058 -86,6 0,025508 12,49643 3,796146 #Н/Д 26 #Н/Д 374,6789 #Н/Д 3,369016 t1 7,686123 2,055529 Оцениваем спецификацию модели (6.11), и убеждаемся в ее качестве (см. таб. 6.5.). 138 Оцененная модель имеет вид: , , , , , , (6.12) , Переходим к тестированию модели (6.12) на гомоскедастичность случайных возмущений. Согласно порядку применения теста Голдфельда-Квандта, вводим возрастанию переменной | | служебную переменную | | , сортируем выборку по , делим выборку на три части и вычисляем значения статистик GQ1 и GQ2. Результаты вычислений приведены в таб. 6.6. данных видно, что статистическая Из приведенных гипотеза о постоянстве дисперсии случайных возмущений отвергается исходными данными с вероятностью 0,95. Вывод. Необходимо принимать меры по устранению гетероскедастичности случайных возмущений. Воспользуемся взвешенным Вводим весовую функцию значение показателя степени методом | μ=1, | | вновь наименьших квадратов. | , принимаем начальное возвращаемся к этапу спецификации модели. Приводим спецификацию модели к виду: (6.13) Для оценки спецификации (6.13) необходимо подготовить выборку наблюдений, затем идентифицировать модель, проверить ее качество спецификации и убедиться в гетероскедастичности. 139 ее гомоскедастичности или В таб.6.7. Приведены данные и результаты расчета статистики Голдфельда-Квандта для μ=1. Таблица 6.6. № П/П 29 28 27 26 25 24 23 22 20 21 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 3 4 2 1 y 74 59 78 63 60 65 52 56 61 61 56 51 66 53 54 58 61 62 71 60 52 49 47 39 39 47 33 58 30 x1 96,0 98,0 94,0 90,0 81,0 75,0 73,0 67,0 64,0 64,0 59,0 57,0 48,0 48,0 47,0 42,0 34,0 32,0 31,0 27,0 27,0 23,0 19,0 20,0 16,0 10,0 12,0 9,0 4,0 x2 24,8 21,3 25,0 22,4 21,7 22,6 20,8 22,0 22,6 22,6 22,3 21,1 22,4 22,2 21,9 23,8 23,8 24,4 24,0 23,1 22,9 22,6 22,5 20,5 20,6 22,5 20,5 23,3 20,0 P 0,021 0,022 0,022 0,023 0,024 0,025 0,026 0,027 0,028 0,028 0,029 0,030 0,033 0,033 0,033 0,035 0,038 0,039 0,040 0,043 0,043 0,046 0,050 0,051 0,055 0,060 0,060 0,061 0,076 Оценка моделей 140 5 0,46 0,96 87,6 532 0,134 0,047 1,742 7 21,24 -60,7 9,633 #Н/Д #Н/Д #Н/Д 6,99 0,96 0,92 38,2 830 0,162 0,156 3,295 7 75,99 -110 19,92 #Н/Д #Н/Д #Н/Д GQ1= GQ2= Fкрит= 0,279 3,578 2,978 Как видно из таб. 6.7. при μ=1 модель (6.13) остается гетероскедастичной. Необходимо подобрать показатель степени μ весовой функции, при котором условие гомоскедастичности случайных возмущений будет выполняться тождественно. Таблица 6.7.( № П/П 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 Y/P 1/P X1/P x2/P 1,200 1,742 1,403 0,985 1,037 0,940 1,106 1,052 1,022 1,174 1,268 1,080 1,037 0,868 0,773 0,744 0,924 0,645 0,680 0,696 0,696 0,622 0,549 0,659 0,579 0,556 0,650 0,490 0,608 0,040 0,030 0,030 0,030 0,027 0,024 0,024 0,021 0,020 0,020 0,018 0,017 0,017 0,015 0,014 0,014 0,014 0,013 0,012 0,011 0,011 0,011 0,011 0,010 0,010 0,009 0,008 0,008 0,008 0,160 0,270 0,299 0,358 0,426 0,482 0,447 0,494 0,530 0,528 0,554 0,557 0,578 0,629 0,672 0,674 0,672 0,721 0,717 0,731 0,731 0,744 0,770 0,761 0,781 0,794 0,783 0,815 0,788 0,800 0,700 0,672 0,612 0,548 0,494 0,529 0,485 0,450 0,452 0,429 0,425 0,405 0,356 0,313 0,312 0,314 0,267 0,271 0,258 0,258 0,244 0,219 0,229 0,209 0,198 0,208 0,177 0,204 1.5 Оценка "верхней" модели 7,225679 0,146093 -114,914 0,817031 0,142737 16,83772 0,99676 0,080849 #Н/Д 717,8474 7 #Н/Д 14,07664 0,045756 #Н/Д Оценка "нижней" модели 5,078488 0,13888 -62,9035 0,505501 0,047432 10,67389 0,999454 0,017142 #Н/Д 4271,816 7 #Н/Д 3,765927 0,002057 #Н/Д GQ1= GQ2= Fкрит= 141 22,24373 0,044956 3,443357 Результаты расчетов при различных значениях показателя степени весовой функции приведены таб. 6.8. Как видно из таб.6.8., увеличение показателя степени μ приводит к усилению степени гетероскедастичности. Модель становится гомоскедастичной с вероятностью 0,95 при μ=-0,8. Таблица 6.8. μ=1 μ=2 μ=0 μ=-0,8 GQ1 GQ2 Fкрит 22,244 0,045 146,6 0,0068 2,9782 3,5779 0,2795 0,947 1,152 Следующий шаг – проверка полученной модели на отсутствие автокорреляции случайных возмущений. В таб. 6.9. приведены результаты расчета статистики Дарбина – Уотсона. Как видно, полученная модель не автокоррелированная. Значение статистики DW находится в интервале между Du и 2. Остается последний этап: проверка адекватности модели. Разбиваем имеющуюся выборку таб. 6.9. В контрольную выборку включим три точки. Пусть это будут затененные в таб. 6.9.точки. Эти точки выбраны исходя из принципа наибольших по абсолютной величине случайных возмущений. Оценка модели (6.13) по данным обучающей выборки имеет вид: , , , , , , 142 , (6.14) Для реализации теста необходимо вычислить значения q , прогнозных значений переменной и в каждой точке контрольной выборки. Матрица коэффициентов X и результаты расчетов матрицы и значений константы q приведены в таб. 6.10., а результат тестирования модели на адекватность в таб 6.11. Таблица 6.9. Y/P 1 393,98 958,04 780,07 547,71 709,93 768,25 943,65 1059,02 1206,08 1396,01 1777,50 1583,15 1587,93 1672,05 1614,27 1607,90 2006,79 1683,11 1907,69 2184,40 2184,40 2049,19 1983,58 2558,67 2459,09 2773,52 3592,85 2723,11 3449,45 1/P 2 13,13 16,52 16,60 16,60 18,20 19,70 20,08 21,61 23,19 23,27 25,04 25,53 26,03 28,83 29,89 30,34 30,41 33,00 34,07 35,81 35,81 36,59 38,15 39,36 40,98 44,02 46,06 46,15 46,61 5,18 0,18 0,48 0,02 1,00 103,00 3301,50 26,00 1,1E+08 275829 X1/P x2/P Yпрог 3 4 52,53 262,65 471,94 148,66 384,87 890,57 165,97 373,44 828,99 199,17 340,24 662,89 291,25 374,99 749,33 393,97 403,82 814,59 381,47 451,75 1034,74 497,09 488,45 1140,32 626,24 531,14 1276,18 628,20 537,46 1304,30 776,09 600,84 1537,84 817,11 623,04 1625,95 885,08 619,55 1585,87 1210,79 686,12 1796,99 1405,01 654,68 1595,55 1456,21 673,50 1671,75 1459,49 681,09 1707,01 1881,12 696,34 1682,95 2009,89 759,67 1961,01 2291,83 809,30 2148,68 2291,83 809,30 2148,68 2451,71 805,04 2101,29 2784,64 793,43 1993,76 2952,32 889,63 2438,42 3319,77 889,37 2391,14 3962,17 986,14 2798,08 4329,85 1151,56 3580,60 4523,12 983,09 2735,67 4474,96 1156,03 3591,67 -68,38 10,73 #Н/Д #Н/Д #Н/Д 0,00 #Н/Д #Н/Д #Н/Д #Н/Д 143 u 5 -77,96 67,47 -48,92 -115,18 -39,40 -46,34 -91,10 -81,30 -70,10 91,71 239,65 -42,80 2,06 -124,94 18,72 -63,85 299,78 0,15 -53,32 35,72 35,72 -52,10 -10,18 120,26 67,95 -24,56 12,26 -12,56 -142,22 ui-ui-1 6 145,43 -116,39 -66,26 75,78 -6,95 -44,75 9,80 11,20 161,81 147,94 -282,45 44,86 -126,99 143,66 -82,57 363,63 -299,63 -53,48 89,04 0,00 -87,83 41,93 130,43 -52,31 -92,51 36,82 -24,82 -129,66 Σ(ui-ui-1)2= 509900,3 DW= DL DU 1,84861 1,21 1,65 Отметим, что в матрице X отсутствует столбец из единиц. Это явилось следствием отсутствия свободного коэффициента в модели (6.14). В контрольных векторах экзогенных переменных по той же причине отсутствуют единицы. Таблица 6.10 Таблица 6.11. Y/P 1777,50 2006,79 3449,45 1/P 25,04 30,41 46,61 X1/P x2/P y 776,09 600,84 1509,92 1459,49 681,09 1683,06 4474,96 1156,03 3642,49 144 q 0,119 0,0534 0,5693 sigma 65,638 63,684 77,73 t 4,08 5,08 2,48 Учитывая, что значение tкрит(0,05; 22)=2,074, модель следует считать не адекватной, т.к. во всей контрольной выборке условие крит не выполняется. Подводим итог. 1. Рассмотрены два метода получения наилучшего прогноза по линейной модели множественной регрессии. 2. Дано определение доверительного интервала. 3. Рассмотрено понятие адекватности модели. 4. Сформулирована статистическая гипотеза для проверки модели на адекватность. 5. Подробно на конкретном примере обсужден весь комплекс построения и анализа модели линейной множественной регрессии. Вопросы для самоподготовки. 1. Определение адекватности. 2. Как вычисляется наилучший прогноз эндогенной переменной по оцененной модели множественной линейной регрессии. 3. Как вычисляется значение стандартной ошибки прогноза. 4. Как рассчитываются границы доверительного интервала. 5. Какова последовательность действий при проверке адекватности линейной модели множественной регрессии. 6. С какой целью формируется контрольная выборка. 7. С какой целью формируется обучающая выборка. 8. Как формируется обучающая выборка. 9. Способы тестирования модели на адекватность. 10. В каком случае принимается гипотеза об адекватности модели. 145 Лекция 7. Применение фиктивных переменных в эконометрических моделях Содержание лекции: 1. Понятие фиктивной переменной 2. Фиктивные переменные сдвига и примеры их применения 3. Фиктивные переменные наклона Мы завершили рассмотрение содержания всех этапов построения эконометрических моделей. Вспомним, что в самом начале было выдвинуто ограничение о том, что рассмотрению подлежат только модели в виде линейных алгебраических уравнений. Предполагалось также, что в моделях содержатся только непрерывные переменные. Такие модели часто называют эконометрическими моделями с постоянной структурой. При построении таких моделей предполагается, что взаимосвязи между зависимой и независимыми переменными постоянны и не подвержены изменениям ни во времени, ни в пространстве. Однако кроме переменных, включенных в спецификацию модели, на значение анализируемого показателя обычно влияет большое число сопутствующих факторов. При анализе реальных социально-экономических процессов часто оказывается, что со временем под влиянием вновь появившихся условий, факторов и масштаба взаимосвязи между переменными объекта изменяются. В таких случаях модели с постоянной структурой недостаточно точными для объяснения закономерностей явлений. Для их анализа прибегают к меняющихся построению моделей, которые получили название моделей с переменной структурой. 146 становятся Если в ходе сбора статистических данных имеет место косвенное воздействие на них качественных факторов (переменных), то линейные модели с переменной структурой учитывают скачкообразные сдвиги в значениях параметров модели. Чаще всего предполагают, что сопутствующие факторы носят качественный характер. Примеры. Моделирование влияния пола специалистов на уровень зарплаты. Моделирование доходов граждан от типа учебного заведения, в котором он получил образование (государственное, частное, специализированное). Модель инфляции с учетом различных видов регулирования со стороны государства. За качественными переменными скрывается целый комплекс факторов: изменение длины светового дня, среднемесячной температуры воздуха, изменение климатических условий и т.п. При анализе расходов на продукты питания необходимо иметь в виду различия в образе жизни городского и сельского населения. Для учета влияния качественных факторов привлекают переменные, которые получили название фиктивных. Фиктивные переменные, как правило, принимают только два значения: ноль и единица. Фиктивная переменная имеет значение «1» для конкретной части выборочных значений и «0» для всей оставшейся совокупности данных. Возможны два подхода решения задачи моделирования поведения объекта, на значения переменных качественные факторы: 147 которого оказывают влияние - построить несколько моделей отдельно для каждого значения (градации) качественной переменной - учесть влияние качественного фактора в одной модели. Например, необходимо построить модель уровня заработной платы сотрудников в зависимости (мужчина/женщина). от стажа Естественно, работы можно и от разделить его пола собранные статистические данные на две части: отдельно для мужчин, отдельно для женщин, и построить две независимые линейные модели. Однако по ряду причин более перспективным считается построение одной общей модели, как для мужчин, так и для женщин. В этом случае, анализируя оцененную модель, легко сделать вывод о статистической значимости на уровень зарплаты для мужчин и женщин при одинаковом стаже работы. Обсудим, как решается эта задача с помощью фиктивных переменных. Рассмотрим пример построения модели величины расходов на обучение в зависимости (общеобразовательных) и от числа учащихся специализированных в школах. обычных Будем предполагать, что в обоих типах школ зависимость расходов на обучение имеет одинаковую зависимость от числа учащихся. Введем для идентификации типа школы фиктивную переменную в виде: если школа специализированная если школа общеобразовательная Спецификацию модели запишем в следующем виде: (7.1) В спецификации (7.1) участвуют обе переменные: непрерывная xt (количество учащихся) и фиктивная, имеющая дискретный характер, dt. 148 Отметим, что значение d=1 можно было присвоить и для общеобразовательной школы. На построение модели это влияния не окажет. Модель (7.1) позволяет легко получить независимые модели для различных типов школ. Для этого достаточно присвоить одно из ее возможных значений: для общеобразовательной школы имеем для специализированной Полученные модели отличаются только значением свободного коэффициента. Рассмотрим пример построения модели зависимости затрат на обучение в общеобразовательных и специализированных школах в Шанхае (по данным Доугерти [3]). Спецификация модели имеет вид (7.1). Оцененная модель (7.1) получила следующий вид: , (7.2) Из (7.2) видно, что модель имеет качественную спецификацию, и регрессор dt статистически значимо влияет на формирование значений эндогенной переменной. Однако смысл этого утверждения изменился. Теперь следует констатировать, что затраты на обучение в специализированной школе статистически значимо отличаются от затрат в общеобразовательной школе. Из уравнения (7.2) легко получить модели непосредственно для общеобразовательных и специализированных школ. Для этого достаточно присвоить переменной dt значения вначале «0», а затем «1». , , – для общеобразовательных школ для специализированных школ 149 Очевидно, что графики этих моделей представляют собой две параллельные прямые, отстоящие друг от друга на 133259 по оси абсцисс (рис. 7.1). Рис. 7.1. Диаграмма рассеяния и графики моделей для обычных и специализированных школ. Фиктивные переменные часто применяются при построении динамических моделей, когда с определенного момента времени начинает действовать какой-либо качественный фактор. Пример Модель расходов на автотранспорт в Европе в период с 1963 по 1982 годы. Замечание. В 1974 году в Европе начался крупный нефтяной кризис, который резко поднял цены на ГСМ. В результате в 1974 году резко снизились расходы на автотранспорт, но затем затраты вновь стали расти с прежней скоростью. Для учета этой ситуации вводится фиктивная переменная dt, которая равна: На рис. 7.2. приведены исходные данные и результаты оценки модели «Расходы на ГСМ от времени». 150 Рис. 7.2. Исходные данные и результаты оценивания модели. Модель имеет точку разрыва, соответствующую t=1974, тренд увеличения расходов со временем остался неизменным. Статистическая значимость параметра при фиктивной переменной указывает на то, что падение расходов на ГСМ в 1974 году было статистически значимым с 95% вероятностью. Мы рассмотрели случай, когда фиктивная переменная имеет всего две градации: общеобразовательная или специализированная школы, состояние до 1974 года и после 1974 года. На практике фиктивная переменная может иметь несколько уровней возможных значений. Школы: общеобразовательные, профессионально технические. специализированные, технические, Фиктивная переменная «регион» может иметь достаточно большое количество градаций: Москва, Белгород, СанктПетербург, Уфа, Екатеринбург и т.д. Очевидно, что в различных регионах 151 России существуют различия в оплате труда, уровне средней зарплаты и т.д. Как учесть при моделировании возможность фиктивной переменной иметь количество градаций большее двух? Оказывается, что просто присвоить каждому региону (градации) некоторый, порядковый номер, нельзя, поскольку различия в заработной плате, например, не пропорционально номеру региона в перечне. Если так поступить, то это будет означать, априори регионам будет присвоен вес, и, если у самого «бедного» регион окажется большой номер, то он обеспечит этому региону максимальное значение уровня оплаты труда. Первое, что приходит на ум, давайте вместо одной фиктивной переменной «регион» образуем несколько фиктивных переменных, соответствующих каждой градации переменной «регион». Например: 1 если регион Москва 0 – во всех остальных случаях 1 если регион Белгород 0 – во всех остальных случаях 1 если регион Санкт Петербург 0 – во всех остальных случаях 1 если регион Уфа 0 – в остальных случаях 1 если регион Екатеринбург 0 – во всех остальных случаях Однако если ввести все пять переменных, это приведет к ситуации, которая называется строгая мультиколлиниарность, и получить МНКоценки параметров модели не удастся. Вспомним, одно из условий теоремы Гаусса – Маркова требует, чтобы матрица коэффициентов X была 152 неколлинеарной, т.е. все ее столбцы были линейно независимыми от остальных. А, если воспользоваться обсуждаемым приемом, то получится следующее. Пусть спецификация модели имеет вид: Тогда матрица коэффициентов X будет иметь вид: ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ (7.3) ⋯ В матрице (7.3) первый столбец состоит из единиц. Это следствие присутствия свободного коэффициента в спецификации модели. Получается, что этот столбец можно представить в виде линейной комбинации 3, 4, 5, 6 столбцов: , ,…, В любой строке матрицы (7.3) всегда одно из будет равно единице, а все остальные нулю. В этом случае определитель матрицы равен нулю, а обратная матрица Чтобы избежать этой ситуации не существует. предлагается вводить в спецификацию модели k-1 фиктивную переменную, где k количество градаций качественной переменной. Предполагается, что тогда k-ой градации будет соответствовать равенство нулю всех фиктивных переменных одновременно. Градацию качественной переменной, для которой все фиктивные переменные равны одновременно нулю называют базовой. Параметры при фиктивных переменных будут характеризовать превышение/снижение значения эндогенной переменной относительно базового уровня. В качестве базовой градации фиктивной переменной можно принять любую из возможных градаций качественной переменной. 153 На практике стремятся выбрать такую градацию, относительно которой параметры модели при оставшихся фиктивных переменных имели одинаковый знак. Продолжим рассмотрение примера построения модели «затраты на обучение от количества студентов и типа школ». В качестве градаций качественной переменной «тип школы» примем следующие: общеобразовательные, технические, ПТУ и специализированные. В качестве базовой градации примем «общеобразовательные школы». Тогда спецификация модели примет вид: (7.4) Где: 1 если школа техническая 0 – во всех остальных случаях 1 если ПТУ 0 – во всех остальных случаях 1 если школа специализированная 0 – во всех остальных случаях Ситуация r1=r2=r3=0 будет соответствовать школам общеобразовательным (базовый уровень). Из спецификации (7.4) можно получить спецификации моделей для каждого типа школы в отдельности: – для общеобразовательных школ для технических школ для ПТУ для специализированных школ Здесь также предполагается, что зависимость затрат на обучение от количества учащихся остается неизменной. Оцененная модель получила вид: 154 (7.5) Из (7.5) видно, что все переменные статистически значимо влияют на эндогенную переменную. На рис. 7.3 представлены диаграмма рассеяния и графики моделей для каждого типа школ. Рис. 7.2. Диаграмма рассеяния данных по всем школам. Из рисунка видно, что возможно затраты на обучение в ПТУ и специализированных школах не отличаются. Расстояние между графиками моделей очень маленькое. Для того чтобы сделать обоснованный вывод о совпадении или не совпадении моделей для ПТУ и специализированных школ, необходимо проверить статистическую гипотезу . Статистические гипотезы относительно значений параметров в схеме Гаусса-Маркова проверяются с помощью критерия Стьюдента: 155 В качестве стандартной ошибки приняли наименьшее значение из и . Проверка гипотезы говорит, что выдвинутую гипотезу следует принять с 95% доверительной вероятностью. Фиктивные переменные являются эффективным инструментом при моделировании циклических процессов. Например, потребление прохладительных напитков от времени. Естественно, что их потребление зависит от времени года: зимой потребление минимально, летом – максимально. В экономике чаще всего рассматриваются периодичности в квартал или месяц. Это периоды различных видов финансовой и иной отчетности. Рассмотрим пример модели зависимости расходов на энергоносители в США за период с января 1977г. по декабрь 1982 г. В нашем распоряжении есть поквартальные данные наблюдений. Необходимо построить модель зависимости расходов от времени с учетом поквартальных колебаний. В качестве базовой градации фиктивной переменной «квартал» примем квартал №1. Первый квартал – это зима. Поэтому естественно предположить, что расходы на энергоносители в этот период будут максимальными. Тогда спецификацию модели можно записать в виде: (7.6) В (7.6) фиктивные переменные r2, r3, r4 равны «1» соответственно во втором, третьем и четвертом кварталах. Первое слагаемое учитывает временной тренд потребления энергоносителей. Исходные данные для оценки модели (7.6) приведены в таб. 7.1. Оцененная модель приняла вид: , , , , , , , , , , , Очевидно, что все параметры модели (7.7) статистически значимые. 156 (7.7) Построим график этой модели рис. 7.3. Как видно, с помощью фиктивных переменных удалось построить нелинейную модель. График – периодическая функция, подверженная небольшому положительному тренду. Таблица 7.1. Обращают на себя внимание параметры при переменных r2 и r3. Значения параметров при них достаточно близкие. Имеет смысл проверить статистическую гипотезу об их равенстве: Однако предположение о равенстве параметров и отвергается исходными данными. Во все рассмотренных примерах предполагается, что зависимость эндогенной переменной от градации фиктивных количественных переменных при любой переменных 157 остается неизменной. Переход фиктивной переменной скачкообразное с изменение одной градации эндогенной на другую переменной. вызывает Фиктивные переменные, которые приводят лишь к скачкообразному изменению эндогенной переменной, называются фиктивными переменными сдвига. Рис. 7.3. Диаграмма рассеяния и график модели (7.7) Однако на практике переход фиктивной переменной с одной градации на другую часто приводит к изменению зависимости эндогенной переменной от количественных переменных. Использование фиктивных переменных в регрессионных моделях позволяет учесть возможность такого поведения эндогенной переменной. Пусть эндогенная переменная y зависит от количественной переменной x и фиктивной переменной r. При этом есть основания предполагать, что зависимость эндогенной переменной от количественного регрессора зависит от уровня фиктивной переменной. Запишем спецификацию модели в следующем виде: (7.8) В спецификацию модели введено дополнительное слагаемое в виде произведения количественной и фиктивной переменных. Тогда для значений r=0 и r=1 соответственно получим уравнения: 158 (7.9) Из (7.9) видно, что при r=1 в модели (7.8) одновременно изменяются значения как свободного коэффициента, так и коэффициент при регрессоре x, что приведет, как к сдвигу графика, так и к изменению угла наклона прямой. Введение дополнительного слагаемого в спецификацию модели позволяет учесть возможность одновременного сдвига (изменение свободного коэффициента) и наклона (коэффициента при количественном регрессоре) прямой зависимости переменной y от x. Продолжим рассмотрение примера построения модели зависимости затрат на обучение от количества учащихся в общеобразовательных и специализированных школах. Учтем возможное изменение зависимости затрат от количества учащихся в разных школах. Спецификацию модели запишем в виде: (7.10) Оцененная модель имеет вид: График полученной модели и диаграмма рассеяния приведены на рис. 7.8. Как видно, затраты на обучение в специализированных школах растут с числом учащихся значительно интенсивнее, чем общеобразовательных школах. В заключение отметим, что третье слагаемое в спецификации (7.10) называется фиктивной переменной наклона. 159 в Рис. 7.8. Диаграмма рассеяния и график модели. Подведем итог. 1. Рассмотрено понятие качественного фактора и градаций его значений. 2. Дано определение фиктивной переменной как переменной, принимающей только два значения: 0,1. 3. Обсуждена связь между градациями качественного фактора и фиктивными переменными. 4. Рассмотрены примеры применения фиктивных переменных в различных экономических ситуациях. Вопросы для самоконтроля. 1. Дайте определение фиктивной переменной. 2. Как в спецификацию модели вводятся фиктивные переменные сдвига. 3. В каком виде в спецификации модели участвуют фиктивные переменные наклона. 4. Если качественный фактор имеет четыре уровня градаций, каким образом это отображается в спецификации модели. 160 5. Сколько фиктивных переменных необходимо иметь в модели для учета сезонных колебаний. 161 Лекция 8. Построение нелинейных моделей Содержание лекции: 1. Типы нелинейных моделей, поддающихся оценки с помощью МНК. 2. Методы линеаризации нелинейных моделей. 3. Метод Ньютона-Гаусса. Продолжаем рассмотрение распространения изученного метода оценки и анализа регрессионных моделей. Мы познакомились с методами использования качественных факторов в регрессионных моделях, теперь познакомимся с возможностями построения некоторых типов нелинейных моделей. Во многих практических случаях моделирование экономических зависимостей с помощью линейных уравнений дает вполне удовлетворительные результаты и может использоваться для анализа и прогнозирования поведения экономических объектов. Однако в силу многообразия и сложности экономических процессов ограничиться рассмотрением только линейных моделей невозможно. Многие экономические зависимости не являются линейными по своей сути, и поэтому их моделирование возможно лишь на основе нелинейных уравнений регрессии. Например, зависимость объема выпуска продукции и основными факторами производства – трудом и капиталом (производственная функция Коба-Дугласа), зависимость спроса на товары и услуги от цены и располагаемого дохода являются по своей сути нелинейными. Выбор вида зависимости осуществляется на основании содержательного анализа исследуемого явления, а также по результатам анализа характера взаимосвязи переменных, 162 входящих в модель. Основной прием, который используется для построения нелинейных регрессионных моделей – линеаризация, искусственном преобразовании исходной который заключается спецификации модели в к линейному виду. Различают два вида нелинейных моделей: нелинейные модели по переменным и нелинейные модели по параметрам. Рассмотренная модель множественной линейной модели является линейной одновременно по переменным и по параметрам. Рассмотрим следующие типы нелинейных моделей, которые удается линеаризовать и затем оценить с помощью МНК. 1. Обобщенная нелинейная по аргументам модель: ⋯ (8.1) 2. Степенные функции: (8.2) 3. Показательная функция (экспоненциальная): (8.3) 4. Показательно-степенная: (8.4) Рассмотрим методы построения перечисленных типов моделей. Начнем с обобщенной нелинейной по аргументам модели (8.1). Если функции fj зависят только от вектора экзогенных переменных и не зависят от неизвестных параметров, то для линеаризации модели (8.1) достаточно произвести замену переменных: ; ;…; (8.5) Подставляя (8.5) в уравнение (8.1), получим спецификацию линейной модели множественной регрессии: 163 (8.6) Получив спецификацию модели (8.1) в виде (8.6), следующим шагом необходимо по известным значениям наблюдений за вектором и виду функций fj подготовить выборку значений вектора переменных . Далее оценка и анализ модели (8.6) проводится по изученной выше последовательности. Функцией (8.1) часто пользуются для описания поведения объектов с помощью степенных рядов, полиномоидальные модели. В качестве аргумента в полиномоидальных моделях часто выступает время. В этом случае спецификация модели выглядит так: (8.7) В качестве примера рассмотрим модель динамики роста производства в Финляндии. Диаграмма рассеяния свидетельствует о нелинейности зависимости объема производства от времени рис. 8.1. На рисунке приведена диаграмма рассеяния результатов наблюдения за выпуском продукции по годам, в период с 1961 по 1996 гг. По виду расположения точек на диаграмме рассеяния сделано предположение о возможности описания процесса с помощью параболы второй степени. 164 Рис. 8.1. Диаграмма рассеяния и график зависимости объема выпуска продукции с помощью параболы второй степени. Спецификация такой модели имеет вид: Оценка модели получилась следующей: , , , Как видно из рис. 8.1. парабола второй степени достаточно хорошо описывает характер зависимости. Параболические модели широко применяются - при моделировании средних и предельных издержек в зависимости от объема выпуска продукции - при моделировании зависимости прибыли предприятия от расходов на рекламу Кубические модели – при моделировании общих издержек в зависимости от объема выпуска продукции Вид функций модели (8.1.) может быть любой. На практике часто используются модели гиперболические и полулогарифмические. Модели гиперболического типа нашли широкое применение при моделировании - зависимости спроса от цен; - зависимости спроса от дохода (кривые Эйнгеля); - спрос на предметы роскоши от дохода (функции Торнквиста); - уровня относительного изменения заработной платы в зависимости от относительного изменения уровня безработицы (кривая Филипса). Модель гиперболического типа имеет вид (для простоты рассмотрим модель парной регрессии): 165 (8.8) Сделав замену переменной , получим спецификацию линейной модели парной регрессии с экзогенной переменной z. В таб. 8.1. приведены исходные данные для построения модели Эйнгеля, а на рис. 8.2. диаграмма рассеяния и графики линейной и гиперболической моделей, построенных по данным таб. 8.1. Таблица 8.1 Оцененная линейная и гиперболическая модели имеют вид: Отметим, что кроме того, что гиперболическая модель значительно точнее описывает реальные данные, меняется и интерпретация параметров модели. В линейной модели параметр объем потребления (при это минимально необходимый ), а параметр - предельное потребление по доходу. В гиперболической модели параметр 166 максимальное возможное потребление при неограниченном доходе, а параметр теряет экономический смысл. Рис. 8.2. Диаграмма рассеяния, линейная и гиперболическая модели. Полулогарифмические модели имеют вид: Такие модели используются в случаях, когда необходимо определить темп роста или темп прироста каких-либо экономических показателей. Например, при анализе банковского вклада по его первоначальному значению и процентной ставки, при исследовании зависимости прироста объема выпуска от относительного увеличения затрат ресурсов, бюджетного дефицита от темпа роста ВНП, темпа роста инфляции от объема денежной массы в обращении и т.п. Полулогарифмическая модель: (8.9) 167 Легко линеаризуется с помощью замены переменных ∗ . в модели (8.9) имеет смысл темпа прироста переменной y Коэффициент по переменной x, т.е. характеризует отношение относительного изменения y к абсолютному изменению x. Действительно, продифференцировав уравнение (8.9) по x, получим: или Умножив на 100, получим процентное изменение переменной y (темп прироста). Замечание. Недостатком метода замены переменных заключается в том, что вектор оценок неизвестных параметров модели находится не из условия минимума суммы квадратов отклонений исходных переменных, а из условия минимизации суммы квадратов отклонений преобразованных переменных. В связи с этим может понадобиться уточнение полученных оценок. Степенная модель. … (8.10) Степенные модели достаточно широко используются в экономике. К классу степенных функций относятся, в частности, модели спроса и предложения (кривые Эйнгеля), производственные функции, кривые освоения для характеристики связи между трудоемкостью продукции и масштабами производства в период освоения и выпуска нового вида продукции, а также зависимость валового национального дохода от уровня занятости. Метод линеаризации степенных моделей заключается логарифмировании обеих частей уравнения (8.10): ⋯ Далее делается замена переменных: 168 (8.11) в ∗ ∗ ; ; ∗ ; (8.12) Подставив переменные (8.12) в (8.11) получится знакомое уравнение множественной линейной регрессии относительно новых переменных: ∗ ∗ ∗ ∗ ⋯ (8.13) Для спецификации (8.13) формируется выборка наблюдений в соответствии с (8.12) и производится оценка и анализ полученной модели. Чтобы получить модель в исходном виде достаточно произвести обратную замену. Замечание. Остается открытым вопрос, по какому основанию логарифмировать уравнение (8.10). Вообще говоря, по любому. На практике используют либо натуральное основание, либо десятичное. Интерес представляет экономическая интерпретация параметров степенной модели. Рассмотрим для примера производственную функцию Коба-Дугласа: (8.14) Вычислим производную функции (8.14) по фактору производства K. Откуда следует, что: (8.15) Выражение (8.15) представляет собой определение коэффициента эластичности переменной y по переменной x. Таким образом, получили, что показатели степени при переменных в мультипликативной степенной модели являются соответствующими коэффициентами эластичности. Это моделей. 169 важное свойство степенных Показательная (экспоненциальная) функция: (8.16) Основанием степени модели (8.16) может быть любым. В случае, когда в качестве основания степени используется константа e, модель (8.16) называют экспоненциальной. Показательные модели характеризуются постоянным темпом относительного прироста эндогенной переменной. Действительно, если пренебречь влиянием случайного возмущения, то в результате дифференцирования (8.16) по каждому из регрессоров получим: Тогда относительный прирост эндогенной переменной равен: (8.17) Таким образом, параметры при регрессорах в показательных моделях имеют смысл коэффициентов относительного прироста. Линеаризация модели (8.16) производится с помощью логарифмирования: С помощью несложной замены переменных полученное уравнение приводится к линейному виду: ∗ Для вычисления (8.18) оценок исходных использовать следующие зависимости: 170 параметров достаточно ; ; (8.19) Здесь s основание логарифма. На практике показательные модели с разными основаниями встречаются редко. В случае одинакового основания (e или «10») вычисления несколько упрощаются. Практический интерес представляет логистическая функция, которая является частным случаем показательной модели. (8.20) График функции (8.20) имеет две горизонтальные асимптоты ; и точку перегиба и . Линеаризация модели (8.20) производится с помощью перехода к переменным ∗ ; ∗ . Логистические функции используются для описания поведения экономических показателей, имеющих уровни «насыщения». Например, для описания зависимости спроса на товар от дохода, развитие производства нового товара от роста численности населения и т.п. Показательно-степенные модели представляют собой произведение показательной и степенной модели. Простейший пример такой модели можно представить в виде: (8.21) Линеаризация модели (8.21) также производится с помощью логарифмирования и последующей замены переменных: (8.22) С помощью новых переменных: ; ; 171 ; ; уравнение (8.22) преобразуется к линейному виду. Замечание. Линеаризация путем логарифмирования и последующей замены переменных имеет тот же недостаток, который заключается в том, что вектор оценок неизвестных параметров модели находится не из условия минимума суммы квадратов отклонений исходных переменных, а из условия минимизации суммы квадратов отклонений преобразованных переменных. В связи с этим может понадобиться уточнение полученных оценок. Алгоритм следующему. оценивания нелинейных моделей сводится к Линеаризованная модель оценивается и исследуется на качество спецификации, гомоскедастичность и автокорреляцию. После чего, осуществляется обратный переход к исходной модели. Для этого необходимо вычислить оценку параметров, оценку их ошибок и ошибку прогнозирования. Значения оценок параметров при регрессорах и их ошибок не изменяются (см. (8.22) и (8.11)). Значение оценки параметра и ошибка прогнозирования вычисляются , следующим образом: ; где: ∗ - ; оценка ∗ ошибки прогнозирования по линеаризованной модели. Рассмотрим в заключение вопрос, как оценить нелинейную по параметрам модель, поведенческая функция которой не поддается линеаризации. В общем виде спецификацию такой модели можно записать в следующем виде: , (8.23) 172 где: – вектор параметров модели. В этом случае не удается получить систему нормальных уравнений для вычисления оценок параметров модели в линейном виде и, следовательно, процедура нахождения оценок параметров, сформулированная в теореме Гаусса-Маркова, не применима. Задача оценки параметров модели (8.23) может быть решена, в частности, следующим образом (метод НьютонаГаусса). Шаг 1. Записывается выражение для квадрата ошибок: ∑ , (8.24) и формулируется задача нелинейного программирования: ∑ , (8.25) Возможные ограничения Задача (8.25) может содержать ряд ограничений относительно параметров модели. Задача (8.25) может быть решена относительно неизвестных параметров одним из численных методов поиска экстремума функции, в частности, методом сопряженных градиентов (направлений), который запрограммирован в функции «Поиск решения» табличного процессора EXCEL. В результате будут получены приближенные значения оценок параметров модели, при которых справедлив метод наименьших квадратов. Шаг 2. Остается оценить ошибки полученных на шаге 1 оценок параметров. Предполагается, что функция (8.23) является 173 гладкой в некоторой окрестности точки полученных значений , оценок параметров: ∆ ∆ функции (8.23) в точке , ∑ , Здесь ∆ , ,…, , . Тогда значение можно представить в виде: , , , ∆ (8.26) неизвестные поправки к известным значениям компонент вектора ∆ . С помощью замены переменных: , ∆ , ; Линейная модель (8.23) трансформируется в линейную модель: ∆ ∆ ∆ ⋯ ∆ (8.27) В модели (8.27) неизвестными параметрами являются ∆ . Оценив модель (8.27) каким-либо подходящим методом, можно рассчитать оценки и ошибки исходных параметров: ∆ ; ∆ ∆ В результате удается вычислить, как оценки параметров, так и их ошибки модели (8.23). Подведем итог. 1. Определены понятия модели линейной по аргументам (регрессорам) и линейной по параметрам. 2. Дана классификация видов моделей, подвергающихся линеаризации. 174 3. Рассмотрены два метода линеаризации: замена переменных и логарифмирование. 4. Обсужден способ идентификации моделей, являющихся нелинейными как по аргументам, так и по параметрам. Вопросы для самоконтроля. 1. Является ли линейная модель множественной регрессии линейной по параметрам. 2. Какой основной метод построения моделей нелинейных по параметрам. 3. Какие типы нелинейных моделей поддаются линеаризации. 4. Можно ли модель линеаризовать с помощью логарифмирования. 5. Поддается ли линеаризации модель типа . 6. Можно ли линеаризовать модель 1 . 7. Каким методом можно оценить модель: . 8. Оценить модель Коба-Дугласа с помощью линеаризации посредством логарифмирования и методом Ньютона-Гаусса по следующим данным: 175 Год 1 1965 1966 1967 1968 1969 1970 1971 1972 1973 1974 1975 1976 1977 1978 1979 1980 1981 1982 1983 1984 1985 1986 1987 ВВП (млн.долл.) 2 110043 116110 123187 127381 131960 140511 146897 152286 160491 174457 180323 196977 208194 216991 236498 250530 259712 280030 311057 324177 340111 350010 358976 176 Капитал Труд (млн.долл) (тыс.чел.) 3 182113 193749 205192 215130 225021 237026 248897 260661 275466 295378 315715 337642 363599 391847 422385 455049 484677 520553 560000 609825 629935 651231 670010 4 8310 8529 8738 8952 9171 9569 9527 9662 10334 10981 11746 11521 11540 12066 12297 12955 13338 13738 15924 14154 14754 15106 15411 Лекция 9. Проблемы и методы построения линейных моделей в виде систем одновременных уравнений Содержание лекции: 1. Проблема идентификации. 2. Необходимое и достаточное условие идентифицируемости уравнения модели (правило ранга). 3. Необходимое условие идентифицируемости уравнения модели (правило порядка). 4. Проблема авторегрессионности. 5. Косвенный метод наименьших квадратов. 6. Понятие инструментальной переменной. 7. Двухшаговый метод наименьших квадратов. Изучая этап спецификации модели (Лекция 1), мы отметили, что модели могут быть представлены как в виде одного изолированного уравнения, так и в виде системы одновременных уравнений. С помощью таких моделей удается обеспечить системный подход к описанию поведения сложных экономических объектов. Метод (предпосылок) наименьших теоремы квадратов при Гаусса-Маркова выполнении позволяет условий вычислить несмещенные и эффективные оценки параметров модели в виде изолированного уравнения множественной линейной регрессии. Мы убедились в эффективности МНК при построении как линейных, так и целого ряда нелинейных моделей. При идентификации (расчете оценок параметров) моделей в виде систем одновременных уравнений неизбежно сталкиваются с двумя проблемами: проблемой идентификации и проблемой авторегрессии в структурной форме моделей. 177 Начнем с проблемы идентификации уравнений модели. Суть проблемы рассмотрим на примере элементарной модели конкурентного рынка. Для упрощения понимания оставим в модели только ее поведенческую часть. Структурная форма этой модели имеет вид: (9.1) Модель , , , (9.1) содержит четыре неизвестных параметра: – это коэффициенты первых двух поведенческих уравнений модели. Заметим, что в третьем уравнении, тождестве, неизвестных параметров нет. Оценки перечисленных параметров результатам наблюдений за переменными требуется , и вычислить по . Модель (9.1) закрытая, все ее текущие переменные эндогенные. Реально для равновесная цена наблюдения доступны только две величины: и соответствующие этой цене уровни спроса и предложения, которые в соответствии с третьим уравнением модели (9.1) равны между собой. Запишем модель (9.1) в приведенной форме: (9.2) Здесь - значение равновесной цены, а - значение одновременно уровней спроса и предложения. Система уравнений (9.2) представляет собой систему двух уравнений с четырьмя неизвестными. Известно, что такая система не обладает единственностью решения. Более того, конкретно система (9.2) имеет бесконечное множество решений. 178 Графически эту ситуацию можно проиллюстрировать следующим образом. Графики спроса и предложения образуют на плоскости с известный крест Маршала, пересечение координатами которого соответствует равновесной цене рис. 9.1. На рис. 9.1. - значение равновесной цены, а - соответствующий ей уровень спроса и предложения. Рис. 9.1. График модели конкурентного рынка. Наблюдению поддается только точка Е0. Мы пытаемся через эту одну точку провести две прямые. Очевидно, что однозначно это сделать невозможно. Для построения прямой необходимо иметь две точки, ей принадлежащие. Казалось, что с учетом случайных возмущений, которые присутствуют в поведенческих уравнения модели, появится возможность решить эту проблему. Однако, это не так. Учет случайных возмущений только превращает точку Е0 в «пятно», но никак не позволяет идентифицировать ни одну из прямых. Вопрос. Как изменить спецификацию модели, чтобы она стала идентифицируемой, а наблюдаемые значения переменных объекта 179 содержали достаточную информацию для однозначной оценки параметров структурной формы модели? Для ответа на этот вопрос рассмотрим спецификацию модели конкурентного рынка, учитывающую влияние располагаемого дохода на уровень спроса. Спецификация такой модели имеет вид: (9.3) Здесь xt располагаемый доход потребителя. В спецификации (9.3) также опущены случайные возмущения для облегчения интерпретации модели. Очевидно, что при различном располагаемом доходе потребитель может приобрести продукт по разной цене. Это, в свою очередь, инициирует перемещение графика спроса вдоль оси pt. Графически эта ситуация будет выглядеть так (Рис. 9.2): Рис. 9.2. График модели конкурентного располагаемого дохода потребителя. 180 рынка с учетом Первый потребитель с небольшим доходом х1 приобрел товар по более низкой цене, соответствующей спросу ∗ и определил положение точки Е1 на графике спроса. Второй потребитель с более высоким доходом позволил себе приобрести товар по более высокой цене, что дало возможность зафиксировать точку Е2 на графике спроса. Учитывая, что график уровня предложения в обоих случаях оставался неизменным, получается возможность однозначно его определить, проведя прямую через точки Е1 и Е2. Заметим, что идентифицировать функцию предложения модели (9.2) удалось по наблюдениям за теми же двумя и переменными: , и дополнительно за переменной Хt. и Переменные являются текущими эндогенными переменными, а переменная Xt экзогенная переменная. Вывод. По результатам наблюдений за тройкой переменных , и Однако удалось идентифицировать функцию предложения. функция спроса осталась по-прежнему неидентифицируемой! Но теперь можно сформулировать правило преобразования спецификации уравнений модели из неидентифицируемого вида к идентифицируемому. Для того, чтобы сделать модель предложения идентифицируемой была добавлена дополнительная экзогенная (предопределенная) переменная в уравнение спроса. Отсюда правило: чтобы сделать идентифицированным уравнение модели, необходимо ввести дополнительную предопределенную переменную в уравнение смежное с неидентифицируемым. В качестве таких переменных часто используются лаговые эндогенные переменные. В рассматриваемом примере, чтобы сделать уравнение спроса идентифицируемым можно добавить во второе 181 уравнение модели лаговое значение равновесной цены. Тогда все уравнения модели (9.4) будут идентифицируемыми. Итак, методика устранения неидентифицируемости уравнений в системе линейных одновременных уравнений заключается в целенаправленном включении в уравнения модели предопределенных переменных. При этом, дополнительные переменные включаются в уравнение смежное с неидентифицируемым. Остается вопрос. Как определить в системе линейных одновременных уравнений, какие из них идентифицируемые, а какие нет? Для ответа на этот вопрос пользуются двумя теоремами. Одна из них (правило ранга) формулирует необходимое и достаточное условие идентифицируемости уравнения модели, друга (правило порядка) – необходимое условие идентифицируемости. Начнем с формулировки необходимого и достаточного условия идентифицируемости уравнений модели. Для того, чтобы сформулировать соответствующую теорему, вспомним общий вид структурной формы уравнения в системе линейных одновременных уравнений и дадим несколько дополнительных определений. Общий вид структурной формы уравнения модели имеет вид: ⋯ ⋯ ⋯ (9.5) 1, 2, …, G Здесь символами y1t , переменные, символами x1t , ,…, обозначены текущие эндогенные ,…, 182 предопределенные переменные. (При наличии в уравнениях модели свободных коэффициентов то считается, что предопределенная переменная эндогенных y1t , и ,…, , x1t , ≡ ) Набор текущих предопределенных ,…, переменных описывают в каждый момент времени состояние изучаемого объекта, а случайные возмущения отражают воздействие на текущие эндогенные , ,…, переменные не идентифицированных факторов и индивидуальные особенности объекта. Отметим, что среди уравнений модели могут быть тождества, которые не содержат неизвестных параметров, а случайное возмущение в них равно нулю. Вспомним (Лекция 1), что в компактной форме модель в виде системы одновременных уравнений можно записать в виде: (9.6) где: A – квадратная матрица размерностью коэффициентов, стоящих в уравнениях (9.5) при текущих эндогенных переменных; В – прямоугольная матрица размерностью коэффициентов, стоящих в уравнениях (9.5) при предопределенных переменных; - вектор текущих эндогенных переменных; - вектор предопределенных переменных; - вектор случайных возмущений. Введем еще одно предположение: будем считать, что i-ое поведенческое уравнение может быть разрешено относительно i-ой текущей эндогенной переменной, при этом (9.7) Равенство (9.7) называют условием нормализации. Отметим, что для поведенческих уравнений это условие, как правило, выполняется автоматически. 183 Обозначим символом расширенную матрицу системы одновременных уравнений, которая определяется следующим образом: ⋮ (9.8) Расширенная матрица представляет собой объединение матриц А и В. Она содержит G строк и K+G столбцов. Каждую строку расширенной матрицы можно представить в виде вектора , ,…, , , ,…, (9.9) на коэффициенты i-го уравнения Определение. Ограничениями модели (9.6) называется система из Li однородных алгебраических уравнений: , (9.10) . которым априори удовлетворяет вектор строится достаточно просто. На практике матрица ограничений Пример. Найти ограничения на уравнения паутинной модели конкурентного рынка. (9.11) В этой модели три текущих эндогенных переменных три предопределенных переменных модели (9.10) компонентами вектора , , , , , , и . Для первого уравнения являются: . Тогда вектор , , , имеет вид: (9.12) Тогда в соответствие вектору (9.12) можно поставить два линейных ограничения в виде: (9.13) Легко убедиться, что условие (9.10) априори выполняется: 184 Имея вектор , ограничения к нему строятся очень просто: нужно в строках на месте ненулевых компонент поставить нули, а на месте нулевых компонент поставить единицу. Количество ограничений равно количеству нулевых компонент в векторе . Теперь можно сформулировать теорему. Теорема. (Правило ранга) i-ое уравнение модели в виде системы линейных одновременных уравнений идентифицируемо тогда и только тогда, когда справедливо равенство: (9.14) где: - ранг произведения матриц и . Пример. Выяснить какое из поведенческих уравнений модели (9.3) является идентифицируемым, а какое нет. (9.3) Расширенная матрица этой модели имеет вид: (9.15) Ограничениями для векторов поведенческих уравнений модели являются: (9.16) (9.17) Оценим идентифицируемость помощью правила ранга. 185 первого уравнения модели (9.3) с Т.к. , делаем вывод о неидентифицируемости первого уравнения модели (9.3). Для второго уравнения получим: Для второго уравнения модели (9.3) правило ранга выполняется, следовательно, оно является идентифицируемым. Рассмотрим еще одну теорему, которая оказывается полезной не только при выявлении неидентифицируемых уравнений модели, но имеет также важное самостоятельное значение при выборе метода оценки параметров структурной формы уравнений модели. Эта теорема получила название правила порядка и формулирует необходимое условие идентифицируемости уравнения модели. Теорема. Если i-ое уравнение модели в виде системы линейных уравнений идентифицировано, тогда справедливо неравенство: (9.18) 186 где: K – общее количество предопределенных переменных в модели; - количество предопределенных переменных, входящих в i-ое уравнение модели; - количество текущих эндогенных переменных, входящих в i-ое уравнение модели. Неравенство (9.18) говорит о том, что в идентифицированном уравнении модели количество не входящих в i-ое уравнение предопределенных переменных, по крайней мере, на единицу больше количества текущих эндогенных переменных, входящих в это уравнение. Неравенство (9.18) идентифицируемости является модели. Это необходимым означает, что, если условием модель идентифицируема, то (9.18) выполняется обязательно. Обратное не верно: если (9.18) имеет место, то это не означает, что уравнение следует считать идентифицируемым. Условием (9.18) пользуются для нахождения неидентифицируемых уравнений модели, рассуждая от противного: если (9.18) не выполняется, то данное уравнение не идентифицированное. Выражения (9.18) служит еще для классификации уравнений модели в виде системы одновременных линейных уравнений, разделяя их на точно идентифицируемые и сверх идентифицируемые. Для точно идентифицируемых уравнений модели выполняются следующие условия: Для сверх идентифицируемых уравнений имеет место: 187 Выполнение правила ранга обеспечивает идентифицируемость уравнения модели, а с помощью правила порядка относят это уравнение к тому или другому классу. Закончили обсуждение первой проблемы оценки параметров структурной формы уравнений в модели в виде системы одновременных уравнений. Вторая характерная проблема - это проблема авторегрессионности поведенческих уравнений модели. Эта проблема тесно связана с четвертой предпосылкой теоремы Гаусса-Маркова: отсутствие связи между регрессорами уравнения и случайными возмущениями. Получение состоятельных оценок параметров уравнения с помощью МНК удается за счет значительного увеличения объема выборки только в случае: , при i j, но , при i j В случае, когда при i j , получение состоятельных оценок с помощью МНК не возможно. Именно эта ситуация оказывается типичной для структурных поведенческих уравнений модели. В качестве иллюстрации рассмотрим элементарную макроэкономическую модель Кейнса. Она имеет спецификацию вида: (9.19) здесь: - объем потребления; – внутренний национальный доход; - объем внешних инвестиций. 188 В поведенческом уравнении модели (9.19) в качестве регрессора выступает текущая эндогенная переменная случайным возмущением , которая связана с текущим . Для того, чтобы в этом убедиться перепишем первое уравнение модели (9.18) в приведенной форме: (9.20) Из (9.20) видно, что возмущением связано функционально со случайным , при этом , Отсюда видно, что , (9.21) , , а, следовательно, для первого уравнения модели (9.19) четвертая предпосылка теоремы Гаусса-Маркова нарушается в каждом уравнении наблюдения и не зависит от объема выборки. Следовательно, МНК даст смещенные оценки параметров и . Для того, чтобы понять, в каких случаях с помощью МНК можно получить состоятельные оценки параметров модели в условиях нарушения четвертой предпосылки теоремы Гаусса- Маркова, найдем зависимость оценок параметров от объема выборки. Для этого воспользуемся процедурой МНК, сформулированной в теореме Гаусса-Маркова, умножив и разделив ее выражение на n: (9.22) В результате получается выражение для вектора оценок параметров модели: 189 (9.23) Второе слагаемое в выражении (9.23) делает оценку вектора параметров модели смещенной, если оно не является нулевым вектором. Именно это слагаемое не позволяет получить состоятельную оценку вектора параметров модели с помощью МНК. Вместе с тем, выражение (9.23) позволяет сформулировать условия, при которых оценка вектора параметров стала состоятельной при неограниченном увеличении объема выборки. Очевидно, что для этого второе слагаемое в (9.23) должно быть нулевым вектором. Множитель матрица не нулевая, следовательно, нулевым должен быть вектор . Отсюда получаются достаточные условия состоятельности МНК-оценок параметров модели: 1. Существует и равен нулю предел по вероятности: (9.24) → 2. Существует матрица: (9.25) → 3. Справедливо равенство: (9.26) → Выполнение условий (9.24) - (9.26) обеспечивает получение состоятельных МНК-оценок параметров линейной множественной регрессии в условиях нарушения четвертой предпосылки теоремы ГауссаМаркова. Существуют несколько методов вычисления состоятельных оценок параметров линейной модели множественной регрессии в условиях нарушения четвертой предпосылки теоремы Гаусса-Маркова. 190 Мы остановимся на методе применения инструментальных переменных как наиболее практичного. В основе метода лежит понятие инструментальной переменной. Определение. Пусть имеется модель линейной множественной регрессии ⋯ (9.27) , в котором объясняющие переменные , пределе со случайными возмущениями (т.е. не выполняется условие , (9.24)). Переменные ,…, ,…, коррелируют в называются инструментальными для модели (9.27), если они удовлетворяют двум требованиям: 1. Существует предел (9.28) → 2. Существует невырожденная матрица: (9.29) → Из определения следует, что инструментальные переменные в , пределе коррелируют с исходными регрессорами ,…, , но не коррелируют в пределе со случайными возмущениями. Заметим, что Z и Х матрицы размерностью составленные по результатам наблюдений за соответствующими переменными. Оставим на время открытым вопрос как подобрать такие переменные, но отметим, что с их помощью удается получить состоятельные оценки параметров линейной модели множественной регрессии с помощью следующей процедуры. Теорема. Процедура (9.30) Доставляет состоятельные оценки параметров модели (9.27). 191 И так, мы познакомились с проблемами типичными для моделей в виде систем одновременных уравнений и с методами их преодоления. Перейдем к рассмотрению методов идентификации поведенческих уравнений модели в их структурной форме. Мы остановимся двух методах – это косвенный метод наименьших квадратов (КМНК) и двухшаговый метод наименьших квадратов (ДМНК). Косвенный метод наименьших квадратов применим только для точно идентифицируемых уравнений модели. В этом заключается его ограниченность. Алгоритм применения КМНК следующий. 1. Модель записывается в приведенной форме: Матрица M коэффициентов приведенной формы модели связана с матрицами A и B структурной формы соотношением: (9.31) После умножения (9.30) на матрицу A получим: С использованием расширенной матрицы коэффициентов модели последнее выражение можно записать в виде: ⋯ где (9.32) I единичная матрица, а многоточие означает объединение матриц M и I. 192 Из (9.32) с учетом априорных ограничений и условия нормализации получается система алгебраических уравнений для расчета значений оценок параметров i-го уравнения модели: ⋯ (9.33) Можно доказать, что, если i-ое уравнение модели точно идентифицируемо и выполнено условие нормализации, система (9.32) имеет единственное решение и доставляет состоятельные оценки структурной формы уравнения. Заметим, что оценки структурной формы уравнения модели вычисляются косвенно через МНК-оценки параметров приведенной формы этого уравнения. Отсюда и название метода. Пример. Оценить модель потребления свинины на душу населения (в фунтах) в зависимости от цены на нее располагаемого дохода потребителей (долл/фунт), (долл) и цены на ее переработку (% от цены). Известны следующие закономерности: 1. Объем потребления свинины зависит от ее цены и располагаемого дохода. 2. Цена на свинину растет с ростом ее потребления и цены на переработку. Решение. Шаг 1. С учетом сформулированных закономерностей спецификация модели имеет вид: 193 (9.34) В системе (9.34) две текущие эндогенные переменные и три текущие экзогенные переменные 1, , . Шаг 2. С помощью правила ранга и правила порядка проверяем идентифицируемость уравнений модели. Расширенная матрица коэффициентов модели (9.34) и априорные ограничения на ее уравнения имеют вид: (9.35) Для первого уравнения (9.34) получим: 1. Правило ранга 2. Правило порядка при K=3, K1=2, G1=2 K-K1=3-2=G1-1=2-1 Вывод: первое уравнение модели (9.34) точно идентифицированное. Аналогично проверяем второе уравнение модели (9.34). 1. Правило ранга: 2. Правило порядка при K=3, K1=2, G1=2 также выполняется точно. 194 Следовательно, оба уравнения модели (9.34) точно идентифицированные и для получения состоятельных оценок параметров их структурной формы можно воспользоваться КМНК. Шаг 2. Оценка параметров приведенной формы модели (9.34). Приведенную форму модели в общем виде можно записать так: (9.36) Значения оценок параметров приведенной формы модели (9.36) можно оценить классическим МНК, применив его к каждому из уравнений (9.36). Выборка результатов наблюдений за переменными приведена в таб. 9.1. Таблица 9.1. В результате в приведенной форме модель принимает вид: 195 объекта Шаг 3. Составляем систему алгебраических уравнений (9.33) для вычисления значений оценок параметров структурной формы модели (9.34). Для первого уравнения: (9.37) Выполнив перемножение в (9.36), получим систему линейных уравнений относительно неизвестных параметров структурной формы первого уравнения: (9.38) Решив систему уравнений (9.37) относительно неизвестных оценок параметров, и, подставив в (9.37) значения вычисленных оценок параметров приведенной формы модели, получим: . . . . . . . ∙ ≅ . . . Аналогичным образом вычисляются оценки параметров структурной формы второго уравнения: Система алгебраических уравнений есть: 196 Решение системы уравнений: . . . . . . ∙ . . ∙ . ≅ . . Оцененная модель (9.33) принимает вид: . . . . . . Отметим, что вычисленные оценки параметров модели (9.34) остаются несмещенными и эффективными при условии, что для уравнений привнений приведенной формы выполняются все предпосылки теоремы Гаусса-Маркова. В этом случае параметры структурной формы модели представляют собой линейную комбинацию несмещенных оценок приведенной формы. Рассмотрим двухшаговый метод наименьших квадратов ДМНК. Будем так же предполагать, что проблема идентификации в уравнениях модели преодолена и все они идентифицируемые. При этом часть из них являются сверх идентифицируемыми. На первый план при идентификации сверх идентифицируемых моделей выступает проблема авторегрессионности. Если подобрать инструментальные переменные, то эта проблема будет преодолена. Вопрос, как построить такие переменные. Вернемся к элементарной макромодели Кейнса (9.18): (9.18) 197 Приведенная форма модели для эндогенной переменной имеет вид: (9.19) Для удобства перепишем уравнение (9.19) в виде: ( 9.39) Здесь m0 и m1 значения параметров приведенной формы уравнения (9.19). Наличие в (9.39) случайного возмущения приводит к авторегрессионности первого уравнения системы (9.18). Если бы удалось избавиться от случайного возмущения в уравнении (9.39), то пропадет корреляционная связь между регрессором и случайным возмущением . Вычтем из правой и левой частей уравнения (9.39) величину : (9.40) Правая часть (9.40) представляет собой оценку (прогноз) значения эндогенной переменной , если известны значения оценок параметров приведенной формы уравнения (9.39): (9.41) В результате получили, что переменная имеет все необходимые свойства инструментальной по отношению к переменной коррелируют между собой, но при этом возмущением : они тесно не коррелирует со случайным . Отсюда вытекает алгоритм двухшагового метода наименьших квадратов. Шаг 1. Модель приводится к приведенной форме. Шаг 2. Для текущей эндогенной переменной, которая участвует в сверх идентифицируемом уравнении в качестве регрессора, по имеющейся 198 выборке наблюдений оцениваются параметры приведенной формы уравнения для этой переменной с помощью МНК. Шаг 3. С помощью оцененной формы уравнения рассчитываются прогнозные значения эндогенной переменной модели для всех точек выборки. Шаг 4. С помощью МНК оцениваются структурные параметры сверхидентифицированного уравнения модели, ипользуя в качестве регрессора оцененные значения вместо реальных значений переменной . В результате, на основании теоремы о применении инструментальных переменных, будут получены состоятельные оценки структурной формы поведенческих уравнений в моделях в виде систем одновременных уравнений. Замечание. Двухшаговый метод наименьших квадратов применим как для идентификации сверх идентифицируемых уравнений модели, так и для идентификации точно идентифицируемых уравнений модели. Пример. Оценить параметры структурной формы модели: (9.42) Здесь: , , - текущие эндогенные переменные; , - экзогенные переменные. Исходные данные для идентификации модели (9.42) приведены в таб. 9.2. 199 Таблица 9.2. Решение. Шаг 1. Проверяем модель на идентифицируемость уравнений. Расширенная матрица коэффициентов модели (9.42): Ограничения на уравнения модели: Для первого уравнения модели: Правило ранга: 200 Правило порядка: K=4, K1=2, G1=2; K- K1=4-2=2> G1-1=1 Вывод: первое уравнение модели сверх идентифицированное. Для второго уравнения имеем: Вывод: второе уравнение системы (9.42) точно идентифицированное. Шаг.2 Оценивание параметров приведенной формы модели (9.42): Приведенная форма модели имеет вид (9.44) Оценка модели (9.42) по данным таб. 9.2 дала результат: . . . . . . . . (9.45) Шаг 3. Для оценки параметров первого уравнения модели (9.42) для каждого наблюдения таб. 9.2 вычислим с помощью второго уравнения ∗ системы (9.45) значения оценки За тем, используя столбцы , ∗ , тав. 9.3. , , , модели (9.41), которое принимает вид (9.46). 201 , оцениваем первое уравнение Второе уравнение модели (9.41) можно оценить как КМНК, так ДМНК, т.к оно является точно идентифицированным. Таблица 9.3. (9.46) Оценим его также с помощью ДМНК. Для этого с помощью первого уравнения модели 9.44 вычислим оценку эндогенной переменной . 202 Таблица 9.4 Используем ее в качестве регрессора для оценки второго уравнения (9.41) (9.47) В результате мы оценили оба уравнения модели (9.42). Заметим, что ошибки параметров модели, формально говоря, приведены не точно. Они должны быть скорректированы в связи с тем, что в качестве регрессоров были использованы оценки эндогенных переменных. Подведем итог. 1. Рассмотрены две типичные для моделей в виде системы одновременных уравнений проблемы: проблема идентификации и проблема авторегрессионности. 2. Сформулировано правило устранения проблемы идентификации. 203 3. Сформулированы две теоремы: правило ранга и правило порядка, с помощью которых идентифицированных и осуществляется нахождение неидентифицированных уравнений модели. 4. Дано определение точной и сверх идентифицируемости модели. 5. Рассмотрен алгоритм применения КМНК к точно идентифицируемым уравнениям модели. 6. Дано определение инструментальных переменных и сформулирована теорема, позволяющая получение состоятельных оценок параметров структурной формы уравнений модели. 7. Рассмотрен алгоритм применения ДМНК к сверх идентифицированным уравнениям модели. 8. Отмечено, что ДМНК применим как к сверх идентифицируемым уравнениям модели, так и к точно идентифицируемым. Вопросы для самоконтроля. 1. В чем суть проблемы идентификации параметров структурной формы моделей в виде систем одновременных уравнений. 2. В связи с чем, возникает проблема авторегрессионности в уравнениях модели в виде систем одновременных уравнений? 3. В чем заключается метод устранения проблемы идентификации? 4. Какими способами можно выявить неидентифицируемые уравнения модели? 5. Что является необходимым и достаточным условием идентифицируемости уравнения модели? 6. Каким образом можно выявить точно сверх идентифицируемые уравнения модели? 7. Как выглядит система алгебраических уравнений для вычисления состоятельных оценок параметров структурной формы точно 204 идентифицированных уравнений модели косвенным методом наименьших квадратов? 8. Что используется в качестве инструментальных переменных для преодоления авторегрессионости уравнений в ДМНК? 9. Опишите алгоритм применения ДМНК. 10. По данным таб.9.2 самостоятельно найдите параметры второго уравнения модели (9.41) косвенным методом наименьших квадратов. 11. Самостоятельно по данным таб. 9.1построить модель (9.35) двухшаговым методом наименьших квадратов. 205 Приложение 1. Примерный перечень экзаменационных вопросов 1. Эконометрика как наука, определение, основные цели и задачи. 2. Этапы построения моделей, их практическое содержание и особенности. 3. Базовые понятия эконометрики: экономический объект, переменные объекта, параметры и их взаимосвязи. Примеры экономических моделей. 4. Принципы спецификации эконометрических моделей и их содержание. 5. Классификация переменных эконометрических моделей. 6. Классификация моделей и их формы. 7. Формы эконометрических моделей. Переход от структурной к приведенной форме модели. 8. Учет случайности характера взаимодействия переменных в экономических объектах. Общий вид эконометрической модели. 9. Модели временных рядов, их спецификация. 10. Понятие оценки и требования, предъявляемые к оценкам параметров моделей. 11. Метод наименьших квадратов, основные понятия и определения. Расчет оценок параметров уравнения парной регрессии методом наименьших квадратов. 12. Расчет стандартных ошибок параметров уравнения парной регрессии и точности прогнозирования. 13. Теорема Гаусса-Маркова, основные допущения и предпосылки, их практическое содержание и назначение. 14. Оценка уравнения парной регрессии с помощью процедур, сформулированных в теореме Гаусса-Маркова. 206 15. Понятие качества спецификации модели. Методы оценки качества спецификации. 16. Коэффициент детерминации, что он характеризует и, как вычисляется. 17. Оценка качества спецификации модели парной регрессии. 18. Проверка статистических гипотез. Оценка статистической значимости параметров уравнения множественной регрессии. 19. Автокорреляция в уравнениях множественной регрессии, признаки ее наличия и последствия. 20. Тестирование моделей на присутствие автокорреляции. 21. Методы устранения автокорреляции в уравнениях множественной регрессии. 22. Гетероскедастичность в уравнениях множественной регрессии, ее признаки, последствия и методы устранения. 23. Тестирование моделей на наличие гетероскедастичности, тест Голдфельда-Квандта 24. Тестирование моделей на наличие гетероскедастичности, тест ранговой корреляции. 25. Устранение гетероскедастичности в уравнениях множественной регрессии, тест Голдфельда-Квандта. 26. Понятие адекватности экономических моделей. Проверка статистической гипотезы об адекватности модели. 27. Взвешенный метод наименьших квадратов. 28. Обобщенный метод наименьших квадратов, теорема Эйткена. 29. Построение нелинейных экономических моделей. Методы линеаризации. 30. Ошибки спецификации моделей, их последствия и способы устранения. 31. Фиктивные переменные и особенности их использования в моделях. 207 32. Применение фиктивных переменных при моделировании сезонных колебаний. 33. Фиктивные переменные сдвига и наклона. Особенности их использования в моделях. 34. Типичные проблемы, возникающие при оценке параметров моделей в виде системы одновременных уравнений. 35. Проблема идентификации параметров структурной формы уравнений модели. Методы ее устранения. 36. Необходимое и достаточное условие идентифицируемости уравнения модели. 37. Достаточное условие идентифицируемости модели. 38. Точно и сверх идентифицируемые уравнения модели. Способ их классификации. 39. Косвенный метод наименьших квадратов, сфера его применения и алгоритм. 40. Понятие инструментальной переменной. Процедура получения состоятельных оценок параметров модели при нарушении четвертой предпосылки теоремы Гаусса-Маркова. 41. Использование инструментальных переменных при идентификации поведенческих уравнений модели в структурной форме. 42. Двухшаговый метод наименьших квадратов, алгоритм и сфера применения. 208 Приложение 2. Примерный перечень тем теоретико-практических работ 1. Системы одновременных уравнений. Проблемы и методы оценки параметров. 2. Регрессионные модели с бинарными результатами. Логит и Пробит модели. 3. Регрессионные модели с бинарными результатами. Модели множественного выбора. 4. Проблема мультиколлинеарности в регрессионных моделях. Признаки обнаружения и методы устранения. 5. Модели с лаговыми переменными. Модель адаптивных ожиданий. 6. Модели с лаговыми переменными. Модели частичной корректировки. Пояснения. 1. Результаты выполнения оформляются в виде отчета. 2. Необходимо отразить теоретические аспекты проблемы и привести конкретные численные примеры. 209 Приложение 3. Граничные значения (dL, dU) статистик Дарбина–Уотсона при уровне значимости α=0,05 k=1 k=2 k=3 k=4 k=5 n dL dU dL dU dL dU dL dU dL dU 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 45 50 0,61 0,7 0,76 0,82 0,88 0,93 0,97 1,01 1,05 1,08 1,1 1,13 1,16 1,18 1,2 1,22 1,24 1,26 1,27 1,29 1,3 1,32 1,33 1,34 1,35 1,36 1,37 1,38 1,39 1,4 1,41 1,42 1,43 1,43 1,44 1,48 1,5 1,4 1,36 1,38 1,32 1,32 1,32 1,33 1,34 1,35 1,36 1,37 1,38 1,39 1,4 1,41 1,42 1,43 1,44 1,45 1,45 1,46 1,47 1,48 1,48 1,49 1,5 1,5 1,51 1,51 1,52 1,52 1,53 1,54 1,54 1,54 1,57 1,59 0,47 0,56 0,63 0,7 0,66 0,81 0,86 0,91 0,95 0,98 1, 02 1,05 1,08 1,1 1,13 1,15 1,17 1,19 1,21 1,22 1,24 1,26 1,27 1,28 1,3 1,31 1,32 1,33 1,34 1,35 1,36 1,37 1,38 1,39 1,43 1,46 1,9 1,78 1,7 1,64 1,6 1,58 1,56 1,55 1,54 1,54 1,54 1,53 1,53 1,54 1, 54 1,54 1,54 1,55 1,55 1,55 1,56 1,56 1,56 1,57 1,57 1,57 1,58 1,58 1,58 1,59 1,59 1,59 1,6 1,6 1,62 1,63 0,37 0,46 0,53 0,6 0,66 0,72 0,77 0,82 0,86 0,93 0,97 1 1,03 1,05 1,08 1,1 1,12 1,14 1,16 1,18 1,2 1,21 1,23 1,24 1,26 1,27 1,28 1,29 1,31 1,32 1,33 1,34 1,38 1,42 1,45 2,29 2,13 2,02 1,93 1,86 1,82 1,78 1,75 1,73 1,71 1,69 1,68 1,68 1,67 1,66 1,66 1,66 1,65 1,65 1,65 1,65 1,65 1,65 1,65 1,65 1,65 1,65 1,65 1,66 1,66 1,66 1,66 1,67 1,67 1,68 0,69 0,74 0,78 0,82 0,86 0,9 0,93 0,96 0,99 1,01 1,04 1,06 1,08 1,1 1,12 1,14 1,16 1,18 1,19 1,21 1,22 1,24 1,25 1,26 1,27 1,29 1,34 1,38 1,97 1,93 1,9 1,87 1,85 1,83 1,81 1,8 1,79 1,78 1,77 1,76 1,76 1,75 1,74 1,74 1,74 1,73 1,73 1,73 1,73 1,73 1,72 1,72 1,72 1,72 1,72 1,72 0,56 0,62 0,67 0,71 0,75 0,79 0,83 0,86 0,9 0,93 0,95 0,98 1,01 1,03 1,05 1,07 1,09 1,11 1,13 1,15 1,16 1,18 1,19 1,21 1,22 1,23 1,29 1,34 2,21 2,15 2,1 2,06 2,02 1,99 1,96 1,94 1,92 1,9 1,89 1,88 1,86 1,85 1,84 1,83 1,83 1,83 1,81 1,81 1,8 1,8 1,8 1,79 1,79 1,79 1,78 1,77 210 Литература 1. Л.О. Бабешко. Основы эконометрического моделирования. М.: КомКнига, 2006. – 432с. 2. В.А. Бывшев. Эконометрика. Москва «Финансы и статистика», 2008 3. Доугерти.К. Введение в эконометрику. Учебник: пер. с англ. – М.:ИНФРА-М, 2010. 4. В.С. Мхитарян,М.Ю. Архипов, В.А. Балаш, О.С. Балаш, Т.А. Дуброва, В.П. Сиротин. Эконометрика – М.: Проспект, 2008. 211