Курсовая работа: Решение задач прогнозирования с помощью статистического пакета SPSS
Курсовая работа: Решение задач прогнозирования с помощью статистического пакета SPSS
Курсовая работа
на тему:
«Решение задач прогнозирования с помощью
статистического пакета SPSS»
Введение
Точная и
своевременная информация о том, что может произойти в экономике и обществе в
будущем, всегда имела значение для тех, кто принимал бизнес-решения.
Прогнозирование стало важной частью процесса планирования любой компании.
Развитие современных экономических теорий, а также сложных компьютерных
программ повлияло на подъем новых методов прогнозирования.
Сегодня рынок
статистического программного обеспечения впечатляет своим многообразием. Существует
более тысячи разнообразных программ решающих задачи статистического анализа
данных. Зарекомендовавшими себя представителями этого класса программ являются SAS, STATISTICA, Statgraphics,
а также отечественная разработка пакет STADIA. Однако бесспорным лидером
является статистический пакет SPSS.
Целью данной
курсовой работы является описание функциональных возможностей системы SPSS и решение средствами
этой системы задачи прогнозирования.
1. Функциональные
возможности системы SPSS
Пакет SPSS
для Windows является в настоящее время одним из лидеров среди универсальных
статистических пакетов. SPSS предлагает полный набор инструментов, обеспечивающих
эффективную работу на всех этапах аналитического процесса – от планирования до
управления данными, анализа данных и представления результатов.
Программное
обеспечение SPSS позволяет:
§
Эффективно
осуществлять сбор и ввод данных;
§
Организовывать
простой доступ к данным;
§
Эффективно
управлять данными;
§
Использовать
различные статистические процедуры для анализа данных и строить более точные
модели;
§
Наглядно
представлять результаты тем;
§
Публиковать
результаты в Интернете.
Для
прогнозирования числовых переменных в системе SPSS можно использовать такие
процедуры как:
§
Линейная
регрессия – исследование
взаимосвязей между предикторами и прогнозируемой переменной. Например,
прогнозирование продаж на основе данных о ценах и доходе покупателей.
§
Линейная
регрессия доступна в SPSS Base
§
Регрессия
на основе взвешенного метода наименьших квадратов
§
– используется,
когда дисперсия независимой переменной в генеральной совокупности непостоянна.
§
Регрессия
на основе взвешенного метода наименьших квадратов доступна в SPSS Regression
Models
§
Двухэтапный
метод наименьших квадратов – применяется, когда предиктор и прогнозируемая переменная
оказывают взаимное влияние друг на друга.
§
Двухэтапный
метод наименьших квадратов доступен в SPSS Regression Models
§
Анализ
выживаемости
– оценка распределения временных интервалов между двумя событиями, например,
временных интервалов от момента привлечения клиента до момента ухода клиента к
конкурентам, даже если второе событие не регистрируется (например, клиенты
остаются лояльными).
Анализ
выживаемости доступен в SPSS Advanced Models
– Регрессия
Кокса с ковариатами, зависящими от времени
– Процедура
Каплана-Мейера
– Таблицы
дожития
Процедуры
доступны в SPSS Advanced Models.
Мощным
инструментом анализа временных рядов и прогнозирования является модуль SPSS Trends. SPSS Trends позволяет
анализировать информацию о прошлом и предсказывать будущее.
SPSS Trends
позволяет воспользоваться следующими процедурами оценивания:
§
Анализ
Бокса-Дженкинса для несезонных и одномерных моделей
§
Процедуры
для обработки сезонных составляющих
§
Оценка
до четырех параметров в 12 различных моделях экспоненциального сглаживания
§
Различные
регрессионные методы: регрессия тренда, регрессионные модели с
авторегрессионными ошибками первого порядка
§
Разложение
временных рядов на гармонические составляющие
На каждом
этапе построения модели в SPSS Trends можно воспользоваться альтернативными
методами. Для оценки степени адекватности модели в SPSS Trends выводятся
статистики и нормальные вероятностные графики. Адекватность моделей можно
оценивать при помощи автоматически вычисляемых стандартных ошибок и других
статистик.
SPSS для
Windows обладает целым рядом графических возможностей позволяющих визуально
оценить полученные числовые результаты анализа и прогноза данных.
Многочисленные типы диаграмм позволяют представлять результаты в наглядной
форме.
§
Категориальные
диаграммы
(включая несколько типов столбиков, линий, областей, кругов и ящиков).
§
Диаграммы
для контроля качества (включая диаграммы Парето, Х-среднего и Сигма).
§
Гистограммы
и диаграммы рассеяния (включая перекрывающиеся, матричные и трехмерные).
§
Диагностические
и исследовательские графики (включая графики по наблюдениям и графики временных рядов).
§
Вероятностные
графики
(включая графики наблюденных и ожидаемых значений).
§
Графики
автокорреляционной и частной автокорреляционной функции (включая преобразование
натурального логарифма и сезонное и несезонное дифференцирование).
§
Графики
кросс-корреляционной функции (включая преобразование при помощи натурального
логарифмирования, сезонное и несезонное дифференцирование).
Система
презентационной графики SPSS для Windows позволяет без лишних усилий создавать
диаграммы, наилучшим образом описывающие результаты анализа, а также
редактировать созданные диаграммы для их более тонкой настройки. Системой
презентационной графики также легко пользоваться в случае работы в
производственном режиме. SPSS создавать диаграммы и применять параметры
созданной диаграммы к новым диаграммам.
Для
представления данных в табличном виде в системе SPSS имеется дополнительный
модуль SPSS Tables. Интерактивный интерфейс построения таблиц обновляется в режиме
реального времени, так что Вы можете видеть, как будет выглядеть таблица, и
изменять ее в процессе построения. Такие возможности, как объединение несколько
категорий в одну, вставка итогов и подитогов сверху, снизу, справа или слева в
таблице, добавление подкатегорий, изменение типов переменных и исключение
категорий позволяют быстро и эффективно управлять внешним видом таблиц. Кроме
того, вместе с таблицами можно рассчитывать статистические критерии, что
позволяет устанавливать и подчеркивать достоверность полученных результатов.
Например, можно показать значимость связи между временем, уделяемым домашним
животным, и временем восстановления после сердечного приступа, построив таблицу
по переменной времени восстановления после сердечного приступа и переменным
повседневной деятельности.
Скорость
работы и производственные возможности SPSS Tables позволяют создавать большие
отчеты, и обеспечивают быстрое и эффективное представление информации,
заложенной в огромных массивах данных, в удобной и понятной форме. SPSS Tables
обладает целым рядом возможностей, обеспечивающих удобную и быструю доставку
получаемых табличных отчетов. Интерактивные мобильные таблицы, создаваемые в
SPSS Tables, можно экспортировать в Word и Excel. Дополнительного
форматирования таблиц не требуется, однако, при необходимости в таблицы можно
вставлять содержательную и описательную информацию. Результаты также можно
распечатывать и публиковать в Интернете.
2.
Основные понятия и методы эконометрического прогнозирования
Прогнозирование
– это научное, основанное на системе установленных причинно-следственных связей
и закономерностей, выявление состояния и вероятностных путей развития явлений и
процессов.
Статистические
методы прогнозирования опираются на анализ временных рядов.
Временным
рядом называется (рядом динамики) называется последовательность значений
статистического показателя-признака, упорядоченная в хронологическом порядке, т.е.
в порядке возрастания временного параметра. Отдельные наблюдения временного
ряда называются уровнями этого ряда.
Каждый
временной ряд содержит два элемента:
1.
значения
времени;
2.
соответствующие
им значения уровней ряда.
В качестве
показателей времени во временных рядах могут указываться либо определенные
моменты времени, либо отдельные периоды (сутки, месяцы, кварталы, полугодия,
годы и т.д.). в зависимости от характера временного параметра ряды делятся на
моментные и интервальные.
В моментных
рядах уровни характеризуют значения показателей по состоянию на определенные
моменты времени. В интервальных рядах уровни характеризуют значения показателя
за определенные интервалы времени.
Уровни рядов динамики могут представлять собой
абсолютные, относительные и средние величины. Если уровни ряда представляют
собой непосредственно не наблюдаемые значения, а производные величины: средние
или относительные, то такие ряды называются производными. Уровни этих рядов
получаются с помощью некоторых вычислений на основе абсолютных показателей.
Важной особенностью интервальных рядов динамики
абсолютных величин является суммировании я их уровней. В результате получаются
накопленные итоги, имеющие осмысленное содержание благодаря отсутствию
повторного счета.
Моментные ряды в отличие от интервальных не
обладают свойством аддитивности. При исследовании моментных рядов смысл имеет
расчет разностей уровней, характеризующих изменение показателя за некоторый
период времени.
Успешность статистического анализа развития
процесса во времени во многом зависит от правильного построения рядов динамики.
Каждый уровень временного ряда формируется под
воздействием большого числа факторов, которые условно можно разделить на 3
группы:
факторы,
формирующие тенденции ряда;
факторы,
формирующие циклические колебания ряда;
случайные
факторы.
При различных сочетаниях в изучаемом явлении или
процессе этих факторов зависимость уровней ряда от времени может принимать
различные формы.
Если во временном ряду проявляется длительная
тенденция изменения экономического показателя, то говорят, что имеет место
тренд.
Если модель
является временным рядом, представленным как сумма трендовой, циклической и случайной
компонент, то такая модель называется аддитивной моделью временного ряда.
Если в модели
временный ряд представлен как произведение перечисленных компонент, то такая
модель называется мультипликативной моделью временного ряда.
Для
статического анализа одномерных временных рядов экономических показателей вида:
y1, у2,… уn
вычисляют
ряд величин:
-
абсолютный
прирост , который показывает
величину изменения показателя за определенный интервал времени;
-
средний
абсолютный прирост: , т.е. прирост в
единицу времени;
-
коэффициент
роста для t-го
периода ,
-
коэффициент
прироста .
На практике часто применяют показатель темпа
роста и темпа прироста:
, где Т-
темп роста для t-го периода;
, где Т-
темп прироста для t-го периода.
Предварительный
анализ временных рядов экономических показателей заключается в основном в
выявлении и устранении аномальных значений уровней ряда, а также в определении
наличия тренда в исходном временном ряде. Под аномальным уровнем понимается
отдельное значение уровня временного ряда, которое не отвечает потенциальным
возможностям исследуемой экономической системы и оказывает существенное влияние
на значения основных характеристик временного ряда.
Для выявления
аномальных уровней временных рядов используются методы, рассчитанные для
статистических совокупностей, например, метод Ирвина предполагает использование
следующей формулы:
; t = 2,3, …, n.
где ; .
Расчетные
значения , и т.д. сравниваются с
табличными значениями критерия Ирвина ,
и если какое-то значение оказывается больше табличного, то соответствующее
значение у уровня ряда считается
аномальным.
Для
определения наличия тренда в исходном временном ряду применяют ряд методов, в
частности метод проверки разностей средних уровней.
Чтобы более
четко выявить тенденцию развития исследуемого процесса производят сглаживание
(выравнивание) временных рядов.
Сглаживания временных рядов можно осуществлять
аналитическими или механическими методами.
Суть
аналитических методов заключается в построении кривой, проходящей между
конкретными уровнями ряда так, чтобы она отображала тенденцию, присущую ряду, и
одновременно освобождала его от незначительных колебаний.
Суть методов механического сглаживания
заключается в следующем: берется несколько первых уровней временного ряда,
образующих интервал сглаживания, и для них подбирается полином, степень
которого должна быть меньше числа уровней, входящих в интервал сглаживания; с
помощью полинома определяются новые, выровненные значения уровней в середине
интервала сглаживания. Далее интервал сглаживания сдвигается на один уровень
ряда вправо, вычисляется следующее сглаженное значение и т.д.
Простейшим методом
механического сглаживания является метод простой скользящей средней.
При наличии
во временном ряду тенденции и циклических изменений значения последующего
уровня ряда зависят от предыдущих. Зависимость между последовательными уровнями
временного ряда называют автокорреляцией уровней ряда.
Количественно
ее можно измерить с помощью индекса корреляции между уровнями исходного
временного ряда и уровнями этого ряда, сдвинутыми на несколько шагов во
времени.
Последовательность
коэффициентов автокорреляции уровней первого, второго и т.д. порядков называют
автокорреляционной функцией временного ряда (АКФ).
График зависимости ее значений от величины лага
называется коррелограмой.
АКФ и коррелограмма позволяют определить лаг, при
котором автокорреляция наиболее высокая, а, следовательно, и лаг, при котором
связь между текущим и предыдущим уровнями ряда наиболее тесная, т.е. с их
помощью можно выявить структуру ряда.
Коэффициент
автокорреляции и АКФ целесообразно использовать для выявления во временном ряде
наличия или отсутствия трендовой компоненты и циклической компоненты:
если наиболее высоким
оказался коэффициент автокорреляции 1-го порядка, то исследуемый ряд содержит
только тенденцию;
если наиболее высоким
оказался коэффициент автокорреляции к-го порядка, то ряд содержит циклические
колебания с периодичностью в к-моментов времени;
если, ни один из
коэффициентов не является значимым, то можно сделать одно из двух
предположений, относительно структуры этого ряда: либо ряд не содержит тенденции
и циклических изменений и имеет структуру, сходную со структурой ряда,
изображенного на рис. 5.1в, либо ряд содержит сильную нелинейную
тенденцию, для выявления которой нужно провести дополнительный анализ.
При
моделировании временных рядов нередко встречается ситуация, когда остатки содержат тенденцию или
циклические колебания, когда в соответствии с предпосылками МНК остатки должны быть случайными.
В том случае,
когда каждое следующее значение зависит
от , говорят о наличии
автокорреляции остатков. Причинами автокорреляции могут быть: исходные данные с
ошибками в измерениях результативного признака; формулировка модели (модель
может не включать фактор, оказывающий существенное воздействие на результат).
Очень часто этим фактором является фактор времени t).
Если причина
автокорреляции – в неправильной спецификации функциональной формы модели, то следует
изменить форму связи факторных и результативных признаков.
Существуют
два наиболее распространенных метода определения автокорреляции остатков: 1)
путем построения графика зависимости остатков от
времени и визуальное определение наличия или отсутствия автокорреляции; 2)
использование критерия Дарбина-Уотсона и расчет величины
Одним из
наиболее распространенных способов моделирования тенденции временного ряда
является построение аналитической функции, характеризующей зависимость уровней
ряда от времени или тренда. Этот способ называют аналитическим выравниванием
временного ряда.
Для
построения трендов чаще всего применяются следующие функции:
линейный
тренд: ;
гипербола:
;
экспоненциальный
тренд: или ;
полиномиальный
тренд:
– полином 2-й степени;
– полином 3-й степени.
Расчет оценок параметров трендовых моделей с
помощью метода наименьших квадратов в рамках регрессионных моделей, в которых в
качестве значений зависимой переменной выступают фактические уровни ряда , а в роли независимой
переменной – время t. Для нелинейных трендовых моделей применяется процедуры
линеаризации. В том случаи, если уравнение тренда преобразовать к линейному
виду невозможно, применяют нелинейные методы оценивания коэффициентов.
При наличии
неявной нелинейной тенденции следует дополнять описанные выше методы
качественным анализом динамики изучаемого показателя, с тем, чтобы избежать
ошибок спецификации при выборе вида тренда.
Качественный
анализ предполагает изучение проблем возможного наличия в исследуемом временном
ряде поворотных точек и изменения темпов прироста, начиная с определенного
момента. В случае если уравнение тренда выбрано неверно при больших значениях t, результаты прогноза на
основе выбранного вида тренда будут недостоверными.
Существует
несколько подходов к анализу структуры временных рядов, содержащих сезонные или
циклические колебания. Простейший подход – построение аддитивной или
мультипликативной модели временного ряда методом скользящей средней.
При краткосрочном
прогнозировании, а также при прогнозировании в ситуации изменения внешних
условий, когда более важными являются последние реализации исследуемого
процесса, более эффективными оказываются адаптивные методы, учитывающие
неравноценность уровней временного ряда.
Адаптивные модели прогнозирования – это модели
дисконтирования данных, способные быстро приспосабливать свою структуру и
параметры к изменению условий. Инструментом прогноза в адаптивной модели
является математическая модель, аргументом которой выступает – время.
При оценке
параметров адаптивных моделей, в отличии от «кривых роста», наблюдениям
(уровням ряда) присваиваются различные веса, в зависимости от того, насколько
сильным признается их влияние на текущий уровень. Это позволяет учитывать
изменения в тенденции, а также любые колебания, в которых прослеживается
закономерность. В качестве примера можно назвать модель экспоненциального
сглаживания Брауна.
3. Пример
проведения прогнозирования прибыли с использованием пакета SPSS
Постановка
задачи:
Необходимо построить
модель, дающую возможность предсказывать размер прибыли некоторой торговой
фирмы, если известны данные о ежемесячной прибыли за последние полтора года.
В качестве
исходных данных возьмем экспериментальные данные, представленные в таблице 1.
Таблица 1.
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
11 |
12 |
13 |
14 |
15 |
16 |
17 |
18 |
19 |
20 |
12 |
16 |
22 |
25 |
27 |
30 |
35 |
37 |
40 |
43 |
43 |
45 |
47 |
44 |
41 |
38 |
36 |
33 |
32 |
30 |
Данные
представляют собой временной ряд, где величина прибыли Y зависит от времени t.
Для
аналитического выравнивания и построения тренда будем использовать следующие
функции:
1.
Линейная y(t) =
a + b*t;
2. Логарифмическая y(t) = a * tb;
3.
Экспоненциальная y(t)=e a
+ b*t;
4.
Квадратичная y(t) =
a + b1*t+b2*t2;
5.
Кубическая y(t) =
a + b1*t+b2*t2+b3*t3;
где y (t) – расчетные значения моделируемого показателя;
t – время;
a, b1, b2, b3 – параметры модели.
Для
проведения анализа ряда необходимо ввести исходные данные. Для этого после
запуска программы SPSS нужно:
1.
Определить
переменные;
2.
Определить
данные.
Для ввода,
редактирования и хранения данных используется лист данных. для определения,
редактирования и хранения переменных используется лист переменных. Для перехода
в редактор переменных необходимо перейти на закладку «Обзор переменных».
Таблица вида переменных представляет собой электронную таблицу, в которой по
строкам находятся переменные, а по графам – характеристики этих переменных
(рис. 1). Для переменных можно задать такие характеристики как Имя, Тип,
Ширина столбца, Десятичные разряды, выравнивание и т.д.
Рисунок 1
В нашем
примере нам понадобятся две переменные Y и t.
После
определения переменных необходимо ввести данные. Для этого нужно перейти на
лист ввода данных и ввести статистические данные подлежащие анализу. В таблице
данных объекты располагаются по строкам а признаки по столбцам (рис. 2).
Рисунок 2.
Для
построения указанных моделей, необходимо выбрать в главном меню программы опцию
Анализ, затем подпункты Регрессия®Оценка кривой. В
результате появится диалоговое окно «Оценка кривой» (Рис. 3).
Рисунок 3.
В появившемся
окне необходимо выполнить следующие настройки:
1.
Указать
зависимую переменную Y. Для этого нужно перенести имя переменной в поле «Зависимая
(ые)».
2.
Указать
независимый параметр в поле «Независимый».
3.
На
панели «Модели» установить флажки рядом с названиями нужных моделей: линейная,
экспоненциальная, логарифмическая, кубическая и квадратичная.
4.
Для
визуального оценивания полученных моделей необходимо установить флажок
«Привести график моделей».
В результате в
программе просмотра результатов будет сформирована страница результатов «Подгонка
параметра» (см. Приложение). Страница результатов содержит названия построенных
моделей их характеристики, параметры моделей, а также показатели необходимые
для оценки моделей, такие как значение F-критерия Фишера,
среднеквадратическое отклонение и коэффициент детерминации.
Исходя из того,
что наибольшее значение принимает коэффициент детерминации кубической функции,
а также при визуальном оценивании можно сделать вывод, что оптимальной моделью
является кубическая модель:
Y(t) = 6,194 + 5,301*t – 0,141*t2 – 0,004*t3;
Для
осуществления прогноза на k периодов вперед необходимо подставить значение tk в полученное уравнение.
Например, прогноз на два месяца вперед:
Y(20) = 6,194 + 5,301*22 –
0,141*222 – 0,004*223 = 11, 98
Таким образом,
согласно построенной модели прибыль через два месяца составит 11, 98 тыс. руб.
Заключение
Исходя
из изложенного в курсовой работе материала, можно сделать выводы:
1. прогнозирование
– это научное, основанное на системе установленных причинно-следственных связей
и закономерностей, выявление состояния и вероятностных путей развития явлений и
процессов.
2. временным
рядом называется (рядом динамики) называется последовательность значений
статистического показателя-признака, упорядоченная в хронологическом порядке, т.е.
в порядке возрастания временного параметра. Отдельные наблюдения временного
ряда называются уровнями этого ряда.
3. каждый
временной ряд содержит два элемента:
1.
значения
времени;
2.
соответствующие
им значения уровней ряда.
4. адаптивные
модели прогнозирования – это модели дисконтирования данных, способные быстро
приспосабливать свою структуру и параметры к изменению условий.
Список
использованной литературы
1. Федосеев В.В. Экономикматематические
модели и прогнозирование рынка труда: Учеб. Пособие. – М.: Вузовский учебник,
2005 – 144 ст.
2. Дуброва Т.А. Прогнозирование
социально экономических процессов. Статистические методы и модели: уч. пособие.
– М.: Маркет ДС, 2007. – 192 с.
3. Садовникова Н.А., Шмойлова Р.А. Анализ
временных рядов и прогнозирование. Учебное пособие./ Московский международный
институт эконометрики информатики, финансов и права – М., 2002 г., 67 с.
|