-
Notifications
You must be signed in to change notification settings - Fork 2
/
Copy path06-sezonowosc.Rmd
183 lines (101 loc) · 13.2 KB
/
06-sezonowosc.Rmd
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
# Sezonowość
Jednym z rodzajów szeregu statystycznego jest szereg czasowy, który można zdefiniować jako ciąg obserwacji jakiegoś zjawiska w kolejnych jednostkach czasu (latach, kwartałach, miesiącach). Rozważane zjawisko może podlegać pewnym prawidłowościom, których wykrycie i opis jest celem analizy szeregów czasowych. Najczęściej rozważa się cztery czynniki wpływające na rozwój zjawiska w czasie:
- trend ($T_t$) --- długookresowe, systematyczne zmiany, jakim podlega dane zjawisko,
- wahania sezonowe ($S_t$) --- regularne odchylenia od tendencji rozwojowej (trendu) związane np. z porami roku (warunkami klimatycznymi),
- wahania cykliczne ($C_t$) --- związane z cyklem koniunkturalnym,
- wahania przypadkowe ($I_t$) --- nieregularne zmiany.
Analiza danych, które mogą charakteryzować się sezonowością rozpoczyna się od wizualizacji oraz estymacji parametrów modelu liniowego. W tym celu posłużymy się dwoma przykładami. Pierwszy będzie dotyczył zużycia energii elektrycznej, a drugi przewozów ładunków w Polsce - [plik](zbiory/sezonowosc.xlsx).
![Zużycie energii - dane oryginalne](img/przyklad1.png)
![Przewóz ładunków - dane oryginalne](img/przyklad2.png)
W obu przypadkach dysponujemy danymi kwartalnymi za lata 2003--2005. Na pierwszy rzut oka możemy wskazać pewne prawidłowości: zużycie energii jest widocznie wyższe w drugich i czwartych kwartałach analizowanych lat. Z kolei przewozy ładunków wzrastają od kwartału pierwszego do trzeciego (w którym osiągają maksimum w danym roku), by następnie spaść.
Celem analizy będzie ilościowe określenie wielkości zmian sezonowych, tak aby było możliwe prognozowanie z uwzględnieniem tych czynników.
## Trend liniowy
Pierwszym krokiem w analizie szeregu czasowego jest estymacja parametrów trendu liniowego.
Dla przykładu pierwszego dotyczącego zużycia energii funkcja regresji przyjmuje następującą postać:
$$\hat{y}_{t}=0,15 \cdot t+2,99$$
w której współczynnik kierunkowy informuje o tym, że z kwartału na kwartał zużycie energii rosło przeciętnie o 0,15 MWh. Z kolei wyraz wolny równy 2,99 oznacza, że w okresie $t=0$ czyli w IV kwartale 2002 roku, teoretyczne zużycie energii wynosiło 2,99 MWh.
W drugim z analizowanych przykładów --- przewozów ładunków --- model wyglądał następująco:
$$\hat{y}_{t}=0,38 \cdot t+25,13$$
co oznacza, że z kwartału na kwartał przewóz ładunków wzrastał średnio o 0,38 mln ton, natomiast w IV kwartale 2002 roku modelowa wartość przewozów ładunków wynosiła 25,13 mln ton.
Na podstawie wyznaczonych funkcji regresji można obliczyć wartości teoretyczne ($\hat{y}_t$) zużycia energii oraz przewozów ładunków i pod postacią prostej przestawić na wykresie.
![Zużycie energii - trend liniowy](img/przyklad1_trend.png)
![Przewóz ładunków - trend ilniowy](img/przyklad2_trend.png)
Otrzymane wartości wynikające z funkcji trendu ($\hat{y}_t$) mają charakter liniowy i prawdę rzecz ujmując słabo dopasowują się do danych empirycznych. Współczynnik $R^2$ w przykładzie pierwszym wynosi 41%, a w przykładzie drugim tylko 37%. Ponadto, jeśli chcielibyśmy prognozować na kolejne okresy to według funkcji trendu wartości zużycia energii dla kwartałów pierwszych byłyby przeszacowane, a dla kwartałów czwartych niedoszacowane. Stąd zachodzi potrzeba uwzględnienia w modelu występowania sezonowości, którą obserwujemy w danych.
Pierwszym krokiem jest identyfikacja rodzaju tej sezonowości. Może ona mieć charakter addytywny --- wtedy wahania sezonowe są stałe w poszczególnych okresach (por. przykład 1) lub multiplikatywny, kiedy czynniki sezonowe są proporcjonalne do funkcji trendu (por. przykład 2). W zależności od zidentyfikowanego charakteru należy obliczyć wskaźniki sezonowości. W pierwszej kolejności rozważymy model addytywny.
## Model addytywny
Analizę modelu addytywnego należy rozpocząć od wyznaczenia różnic pomiędzy wartościami empirycznymi ($y$) a modelowymi ($\hat{y}$) dla poszczególnych okresów zgodnie ze wzorem:
$$S^i_t=y_t-\hat{y}_t$$
Następnie dla każdego z analizowanych podokresów (półroczy, kwartałów, miesięcy) oblicza się surowe wskaźniki sezonowości uśredniając wyznaczone wcześniej różnice:
$$S_i=\frac{\sum\limits_{i=1}^{m}{S_t^i}}{p}$$
gdzie:
- $m$ --- liczba podokresów (półroczy, kwartałów, miesięcy),
- $p$ --- liczba analizowanych lat.
W analizowanym przez nas przykładzie musimy wyznaczyć surowe wskaźniki sezonowości dla każdego kwartału. Ponadto jeśli spełniona będzie zależność $\sum\limits_{i=1}^{m}{S_i}=0$ to oznacza, że wskaźniki sezonowości są wolne od wahań przypadkowych. W praktyce jednak rzadko zdarza się taka sytuacja. W takim przypadku należy jeszcze wyznaczyć współczynnik korygujący zgodnie z wzorem:
$$k=\frac{\sum\limits_{i=1}^{m}{S_i}}{m}$$
a następnie skorygować surowe wskaźniki sezonowości według formuły
$$So_{i}=S_i-k$$
otrzymując tzw. oczyszczone wskaźniki sezonowości, które informują o średnich odchyleniach od funkcji trendu w poszczególnych podokresach. Dla tych wskaźników zachodzi zależność: $\sum\limits_{i=1}^{m}{So_{i}}=0$. W przykładzie 1 oczyszczone wskaźniki sezonowości dla poszczególnych kwartałów są równe:
| Wskaźnik | Wartość | Interpretacja |
|----------|---------|------------------------------------------------------------------------------------------------------------------------|
| $So_{1}$ | -0,62 | w pierwszych kwartałach lat 2003--2005 zużycie energii było mniejsze średnio o 0,62 MWh niż wynika to z funkcji trendu |
| $So_{2}$ | 0,33 | w drugich kwartałach lat 2003--2005 zużycie energii było większe średnio o 0,33 MWh niż wynika to z funkcji trendu |
| $So_{3}$ | -0,51 | w trzecich kwartałach lat 2003--2005 zużycie energii było mniejsze średnio o 0,51 MWh niż wynika to z funkcji trendu |
| $So_{4}$ | 0,81 | w czwartych kwartałach lat 2003--2005 zużycie energii było większe średnio o 0,81 MWh niż wynika to z funkcji trendu |
| Suma | 0,00 | wskaźniki sezonowości są wolne od wahań przypadkowych |
Kolejnym etapem analizy jest wyznaczenie zmodyfikowanych wartości teoretycznych uwzględniających sezonowość. Te wartości oznaczane jako $\hat{y}^*$ uzyskujemy dodając do wartości teoretycznych ($\hat{y}$) odpowiednie dla poszczególnych podokresów oczyszczone wskaźniki sezonowości $So_i$. Formalny zapis jest następujący:
$$\hat{y}^*=\hat{y}+So_i$$
Wartości $\hat{y}^*$ przedstawione na wykresie już znacznie lepiej pasują do posiadanych danych empirycznych:
![Zużycie energii - trend z sezonowością](img/przyklad1_sezon.png)
Na podstawie tak zmodyfikowanego modelu można prognozować przyszłe wartości z dużo większą precyzją. Prognozowanie w modelu addytywnym polega na podstawieniu numeru okresu dla którego się prognozuje do funkcji trendu, a następnie dodanie odpowiedniego wskaźnika sezonowości:
$$\hat{y}_{T}^{P}=\hat{y} + So_i=a_1 \cdot T + a_0 + So_i$$
Interesuje nas prognozowane zużycie energii w IV kwartale 2008 roku. Ten okres przyjmuje wartość $t=24$, natomiast wskaźnik sezonowości dla czwartego kwartału jest równy 0,81 MWh. Powyższe wartości podstawiamy do wzoru:
$$\hat{y}_{24}^{P}=0,15 \cdot 24 + 2,99 + 0,81 = 7,4$$
co oznacza, że prognozowane zużycie energii w IV kwartale 2008 roku wyniesie 7,4 MWh.
## Model multiplikatywny
W modelu multiplikatywnym zamiast różnic pomiędzy wartościami teoretycznymi a modelowymi oblicza się ich iloraz zgodnie ze wzorem:
$$S^i_t=\frac{y_t}{\hat{y}_t}$$
Następnie dla każdego z analizowanych podokresów (półroczy, kwartałów, miesięcy) oblicza się surowe wskaźniki sezonowości uśredniając wyznaczone wcześniej ilorazy:
$$S_i=\frac{\sum\limits_{i=1}^{m}{S_t^i}}{p}$$
gdzie:
- $m$ --- liczba podokresów (półroczy, kwartałów, miesięcy),
- $p$ --- liczba analizowanych lat.
W analizowanym przez nas przykładzie musimy wyznaczyć surowe wskaźniki sezonowości dla każdego kwartału. W przypadku sezonowości multiplikatywnej zależność oznaczająca, że wskaźniki sezonowości są wolne od wahań przypadkowych jest wyrażona następująco: $\sum\limits_{i=1}^{m}{S_i}=m$. W praktyce jednak rzadko zdarza się taka sytuacja. W takim przypadku należy jeszcze wyznaczyć współczynnik korygujący zgodnie z wzorem:
$$k=\frac{\sum\limits_{i=1}^{m}{S_i}}{m}$$
a następnie skorygować surowe wskaźniki sezonowości według formuły
$$So_{i}=S_i/k$$
otrzymując tzw. oczyszczone wskaźniki sezonowości, które informują o średnich odchyleniach od funkcji trendu w poszczególnych podokresach. Dla tych wskaźników zachodzi zależność: $\sum\limits_{i=1}^{m}{So_{i}}=m$. W przykładzie 2 oczyszczone wskaźniki sezonowości możemy zapisać w postaci procentowej i dla poszczególnych kwartałów są równe:
| Wskaźnik | Wartość | Interpretacja |
|----------|---------|------------------------------------------------------------------------------------------------------------------------|
| $So_{1}$ | 96,5% | w pierwszych kwartałach lat 2003--2005 rzeczywiste przewozy były średnio o 3,5% niższe niż wynika to z funkcji trendu |
| $So_{2}$ | 100,1% | w drugich kwartałach lat 2003--2005 rzeczywiste przewozy były średnio o 0,1% wyższe niż wynika to z funkcji trendu |
| $So_{3}$ | 108,9% | w trzecich kwartałach lat 2003--2005 rzeczywiste przewozy były średnio o 8,9% wyższe niż wynika to z funkcji trendu |
| $So_{4}$ | 94,5% | w czwartych kwartałach lat 2003--2005 rzeczywiste przewozy były średnio o 5,5% niższe niż wynika to z funkcji trendu |
| Suma | 400,00% | wskaźniki sezonowości są wolne od wahań przypadkowych
Kolejnym etapem analizy jest wyznaczenie zmodyfikowanych wartości teoretycznych uwzględniających sezonowość. Te wartości oznaczane jako $\hat{y}^*$ uzyskujemy mnożąc wartości teoretyczne ($\hat{y}$) odpowiednie dla poszczególnych podokresów przez oczyszczone wskaźniki sezonowości $So_i$. Formalny zapis jest następujący:
$$\hat{y}^*=\hat{y} \cdot So_i$$
Wartości $\hat{y}^*$ przedstawione na wykresie już znacznie lepiej pasują do posiadanych danych empirycznych:
![Przewóz ładunków - trend z sezonowością](img/przyklad2_sezon.png)
Na podstawie tak zmodyfikowanego modelu można prognozować przyszłe wartości z dużo większą precyzją. Prognozowanie w modelu multiplikatywnym polega na podstawieniu numeru okresu dla którego się prognozuje do funkcji trendu, a następnie przemnożenie przez odpowiedni wskaźnik sezonowości:
$$\hat{y}_{T}^{P}=\hat{y} \cdot So_i=(a_1 \cdot T + a_0) \cdot So_i$$
Interesuje nas prognozowane zużycie energii w III kwartale 2006 roku. Ten okres przyjmuje wartość $t=15$, natomiast wskaźnik sezonowości dla kwartału trzeciego jest równy 108,9%. Powyższe wartości podstawiamy do wzoru:
$$\hat{y}_{15}^{P}=(0,38 \cdot 15 + 25,13) \cdot 108,9\% = 33,6$$
co oznacza, że prognozowane przewozy ładunków w III kwartale 2006 roku wyniosą 33,6 mln ton.
## Ocena jakości
Ostatnim elementem analizy sezonowości jest ocena jakości otrzymanego modelu. W takim przypadku nie wyznaczamy współczynnika $R^2$ ponieważ z definicji dotyczy on wyłącznie zależności liniowej. Główną miarą jakości będzie odchylenie standardowe składnika resztowego z uwzględnieniem sezonowości:
$$S_u^*=\sqrt{\frac{\sum\limits_{t=1}^{n}{(y_t-\hat{y}_t^*)^2}}{n-2}}$$
Licznik odchylenia standardowego zawiera sumę kwadratów odchyleń wartości empirycznych ($y_t$) od wartości modelowych z sezonowością ($\hat{y}_t^*$). Nie ma już tutaj znaczenia czy model był addytywny czy multiplikatywny.
W przykładzie pierwszym $S_u^*$ wynosiło 0,16 MWh, co oznacza, że rzeczywiste zużycie energii różni się od zużycia teoretycznego wyznaczonego na podstawie szeregu czasowego średnio o +/- 0,16 MWh. Z kolei w przykładzie drugim $S_u^*$ wynosiło 0,74 mln ton, a co za tym idzie rzeczywiste przewozy różnią się od przewozów teoretycznych uzyskanych w oparciu o model szeregu czasowego średnio o +/- 0,74 mln ton.
## Błąd prognozy
Wyliczona wartość $S_u^*$ niezbędna jest przy wyznaczaniu błędu prognozy zgodnie ze wzorem:
$$D(y_{T}^{P})=S_u^{*}\sqrt{1+\frac{1}{n}+\frac{(T-\bar{t})^2}{\sum\limits_{t=1}^{n}{(t-\bar{t})^2}}}$$
w którym uwzględniamy możliwość wzrostu tego błędu wraz z oddalaniem się od zakresu danych, które posiadamy.
Dla analizowanych przykładów otrzymano następujące błędy prognozy:
- przykład 1 --- zużycie energii
Przy prognozie dla IV kwartału 2008 roku
$$D(y_{24}^{P})=0,29$$
co oznacza, że prognozowane zużycie energii w IV kwartale 2008 roku wyniesie 7,4 +/- 0,29 MWh.
- przykład 2 --- przewóz ładunków
Przy prognozie dla III kwartału 2006 roku
$$D(y_{24}^{P})=0,93$$
co oznacza, że prognozowane przewozy w III kwartale 2006 roku wyniosą 33,6 +/- 0,93 mln ton.
Na podstawie otrzymanych prognoz oraz ich błędów można wyznaczyć przedziały, w których spodziewamy się wartości rzeczywistej.