Denna artikel kommer att beskriva studien av tidsserier. Syftet med denna studie är att analysera beteendet hos dessa serier för att förstå dess komponenter och göra förutsägelser.
Definition
En tidsserie är en uppsättning data som representerar utvecklingen av ett fenomen över tid. Det kännetecknas av:
Komponent 1, trenden: allmän utveckling av serien
Komponent 2, säsongsvariation: variation av värden över en definierad tidsperiod (vecka / månad / år)
Komponent 3, brus (eller rest): händelser som inte kan förutsägas
Från de tre komponenterna ovan och rätt val av en statistisk modell är det möjligt att sammanfatta data och förutsäga framtiden.
Hur väljer
din modell?
Det finns två huvudtyper av modeller som är:
Tillsatsmodellen där vi summerar de tre komponenterna
Den multiplikativa modellen där vi multiplicerar de tre komponenterna
För att välja vilken modell du ska använda måste du observera om säsongen ökar eller minskar med trenden.
Metoden för att göra denna observation är som följer:
Anslut maxima mellan dem
Anslut minima mellan dem
Studera parallelliteten mellan de två raderna
Om raderna är parallella är additivmodellen den mest lämpliga. Om raderna skiljer sig åt ska den multiplikativa modellen väljas
Exempel på tillämpningar av dessa modeller:
I exemplet ovan ser vi för exemplet till vänster att skillnaden mellan de två raderna förblir ungefär densamma. Så tillsatsmodellen är den mest lämpliga.
Statistisk metod för nedbrytningen
Tidsserierna kan alltså delas upp i tre komponenter.
I
börjar vi med att beräkna trenden. Det kan uppskattas på flera sätt via en parametrisk metod (skriv minsta kvadrat beräkning ). Trendlinjen kan, beroende på modell, vara:
linjär: y = a t + b
kvadratisk / ordning 2: y = a t² + bt + c
exponential: y = a exp (wt)
ARIMA : för icke-stationära serier
För säsongsmässighet är målet att hitta ett mönster som upprepas över en tidsmässig frekvens. Vi måste ta bort trendkomponenten och skilja mellan säsongsperiod och orsak.
Bullret där resten är det som finns kvar efter att trenden och säsongskomponenterna har tagits bort. Det uppskattas i allmänhet vara Gaussiskt vitt brus .
Obs: För en multiplikativ modell kan vi reducera till en additivmodell genom att ta den naturliga logaritmen i tidsserien och därmed till dess tidigare nedbrytning
Vi kan utvärdera andelen av var och en av dessa komponenter genom att beräkna variansen för den senare och den för tidsserien. Matematiskt förklarar varians avvikelsen från en kurva från medelvärdet. Från variansen för tidsserien och dess komponenter kan vi beräkna andelen av variansen för var och en av dessa komponenter. Ju större andel av en komponents varians, desto mer kommer det att förklara fenomenet. Således kommer en marknad med stark säsongsvariation att ha sin säsongskomponent med hög varians.
Obs: Summan av delarna av variansen för de tre komponenterna är inte 100% (summan av kvadrater är inte nödvändigtvis lika med summan av kvadraten). Det kan dock omfördelas till 100%.
Förutsägbar
När de tre komponenterna i en tidsserie identifieras är det nu möjligt att bygga en förutsägbar modell.
De tre delarna av tidsserien bestäms, det är möjligt att beräkna den genom att bläddra genom dagarna (vi beräknar modellen för en dag efter slutdatum).
Det är mycket viktigt att genomföra sönderdelningen av en tidsserie för att därefter lyckas med den mest exakta förutsägelsen.