Aegridade analüüs ja prognoosimine

Sisukord:

Aegridade analüüs ja prognoosimine
Aegridade analüüs ja prognoosimine
Anonim

Palju aastaid on inimesed ennustanud ilmastikutingimusi, majanduslikke ja poliitilisi sündmusi ning sporditulemusi, viimasel ajal on see ulatuslik nimekiri täienenud krüptovaluutadega. Mitmekülgsete sündmuste ennustamiseks on prognooside koostamiseks palju võimalusi. Näiteks intuitsioon, ekspertide arvamused, varasemate tulemuste kasutamine traditsioonilise statistikaga võrdlemiseks ja aegridade prognoosimine on vaid üks neist, samas kui kõige kaasaegsem ja täpsem prognoositüüp, millel on lai valik rakendusi.

Aegridade meetod

Aegridade meetod
Aegridade meetod

Aegridade (TS) meetod on andmestik, mis kogub teavet teatud aja jooksul. Seda tüüpi ekstraheerimiseks on olemas spetsiaalsed meetodid:

  • lineaarne ja mittelineaarne;
  • parameetriline ja mitteparameetriline;
  • ühe- ja mitmemõõtmeline.

Aeg prognoosisseeria toob endaga kaasa ainulaadsed võimalused tänapäeva väljakutsetele vastamiseks. Modelleerimine põhineb õppimisel, et tuvastada andmete muutumise liikumapanev jõud. Protsess tuleneb pikaajalistest trendidest, hooajalistest mõjudest või ebaregulaarsetest kõikumistest, mis on iseloomulikud TS-ile ja mida muud tüüpi analüüsides ei näe.

Masinõpe on arvutiteaduse haru, kus algoritmid koostatakse andmetest ja hõlmavad tehisnärvivõrke, süvaõpet, assotsiatsioonireegleid, otsustuspuid, armeerimisõpet ja Bayesi võrke. Erinevad algoritmid pakuvad võimalusi probleemide lahendamiseks ning igaühel neist on oma nõuded ja kompromissid andmete sisestamise, kiiruse ja tulemuste täpsuse osas. Neid koos lõplike ennustuste täpsusega kaalutakse, kui kasutaja otsustab, milline algoritm töötab uuritavas olukorras kõige paremini.

Aegridade prognoosimine laenab statistika valdkonnast, kuid annab uusi lähenemisi probleemide modelleerimisele. Masinõppe ja aegridade põhiprobleem on sama – uute tulemuste ennustamine varem teadaolevate andmete põhjal.

Ennustava mudeli sihtmärk

Ennustava mudeli eesmärk
Ennustava mudeli eesmärk

TS on korrapäraste ajavahemike järel kogutud andmepunktide kogum. Neid analüüsitakse, et määrata kindlaks pikaajaline suundumus, ennustada tulevikku või teha mõnda muud tüüpi analüüsi. TS erineb tavalisest regressiooniprobleemist kahel põhjusel:

  1. Need sõltuvad ajast. Niisiislineaarse regressioonimudeli põhieeldus, et vaatlused on sõltumatud, sel juhul ei kehti.
  2. Lisaks suureneva või kahaneva trendiga on enamikul TS-del teatud tüüpi hooajalisus, st teatud ajavahemikule iseloomulikud muutused.

Aegridade prognoosimudeli eesmärk on anda nõudmisel täpne prognoos. Aegreas on sõltumatu muutuja aeg (t) ja sihtmärgist sõltuv muutuja. Enamasti on prognoos mingi konkreetne tulemus, näiteks maja müügihind, võistluse sportlik tulemus, börsil kauplemise tulemused. Prognoos esindab mediaani ja keskmist ning sisaldab usaldusvahemikku, mis väljendab usaldustaset vahemikus 80–95%. Kui need salvestatakse korrapäraste ajavahemike järel, nimetatakse protsesse aegridadeks ja neid väljendatakse kahel viisil:

  • ühemõõtmeline ajaindeksiga, mis loob kaudse järjestuse;
  • kahe mõõtmega komplekt: aeg sõltumatu muutujaga ja teise sõltuva muutujaga.

Funktsioonide loomine on rakendusliku masinõppe üks olulisemaid ja aeganõudvamaid ülesandeid. Kuid aegridade prognoosimine ei loo tunnuseid, vähem alt mitte traditsioonilises tähenduses. See kehtib eriti siis, kui soovite ennustada tulemust mitu sammu ette, mitte ainult järgmist väärtust.

See ei tähenda, et funktsioonid on täielikult keelatud. Neid tuleks kasutada ettevaatusega järgmistel põhjustel:

  1. Ebaselge, milline tulevik on tõelineväärtused on nende funktsioonide jaoks.
  2. Kui objektid on etteaimatavad ja neil on teatud mustrid, saate luua igaühe jaoks ennustava mudeli.

Pidage siiski meeles, et ennustavate väärtuste kasutamine funktsioonidena levitab vea sihtmuutujasse ja toob kaasa vigu või kallutatud ennustusi.

Aegridade komponendid

Aegridade komponendid
Aegridade komponendid

Trend eksisteerib siis, kui jada aja jooksul suureneb, väheneb või püsib konstantsel tasemel, seega võetakse seda funktsioonina. Hooajalisus viitab aegrea omadusele, mis kuvab perioodilisi mustreid, mis korduvad konstantse sagedusega (m), näiteks m=12 tähendab, et muster kordub iga kaheteistkümne kuu tagant.

Hooajalisusega sarnaseid näivaid muutujaid saab lisada kahendfunktsioonina. Arvestada saab näiteks pühade, eriürituste, turunduskampaaniatega, olenemata sellest, kas väärtus on võõras või mitte. Siiski peate meeles pidama, et neil muutujatel peavad olema teatud mustrid. Kuid päevade arvu saab hõlpsasti arvutada isegi tulevaste perioodide jaoks ja see mõjutab aegridade prognoosimist, eriti finantsvaldkonnas.

Tsüklid on aastaajad, mis ei toimu kindla kiirusega. Näiteks Kanada ilvese iga-aastased paljunemisomadused peegeldavad hooajalisi ja tsüklilisi mustreid. Need ei kordu korrapäraste ajavahemike järel ja võivad ilmneda isegi siis, kui sagedus on 1 (m=1).

Väärtused mahajäänud -muutuja mahajäävaid väärtusi saab kaasata ennustajatena. Mõned mudelid, nagu ARIMA, Vector Autoregression (VAR) või Autoregressive Neural Networks (NNAR), töötavad sel viisil.

Huvitava muutuja komponendid on väga olulised aegridade analüüsiks ja prognoosimiseks, nende käitumise, mustrite mõistmiseks ja sobiva mudeli valimiseks.

Andmekomplekti atribuudid

Andmestiku atribuudid
Andmestiku atribuudid

Võite olla harjunud sisestama masinõppe mudelitesse tuhandeid, miljoneid ja miljardeid andmepunkte, kuid see pole aegridade jaoks vajalik. Tegelikult on sõltuv alt muutuja sagedusest ja tüübist võimalik töötada väikese ja keskmise TS-ga ning see ei ole meetodi puuduseks. Lisaks on sellel lähenemisviisil tegelikult mitmeid eeliseid:

  1. Sellised teabekogumid vastavad koduarvuti võimalustele.
  2. Mõnel juhul tehke aegridade analüüs ja prognoosimine, kasutades kogu andmekogumit, mitte ainult näidist.
  3. TS pikkus on kasulik analüüsitavate graafikute loomiseks. See on väga oluline punkt, sest programmeerijad tuginevad analüüsifaasis graafikale. See ei tähenda, et nad ei töötaks suurte aegridadega, kuid esialgu peaksid nad hakkama saama väiksemate TS-dega.
  4. Iga andmestik, mis sisaldab ajaga seotud välja, saab kasu aegridade analüüsist ja prognoosimisest. Kui aga programmeerijal on suurem andmekogum, on DB (TSDB)võib olla sobivam.

Mõned neist komplektidest pärinevad sündmustest, mis on salvestatud ajatempli, süsteemilogide ja finantsandmetega. Kuna TSDB töötab algselt aegridadega, on see suurepärane võimalus rakendada seda tehnikat suuremahuliste andmekogumite jaoks.

Masinõpe

Masinõpe (ML) suudab ületada traditsioonilisi aegridade prognoosimise meetodeid. Seal on palju uuringuid, mis võrdlevad masinõppe meetodeid klassikalisemate TS-andmete statistiliste meetoditega. Närvivõrgud on üks tehnoloogiatest, mida on laialdaselt uuritud ja mis rakendavad TS-i lähenemisviise. Masinõppemeetodid juhivad aegridade põhjal andmete kogumise edetabelit. Need komplektid on osutunud tõhusateks, edestades puhtaid TS-komplekte võrreldes M3 või Kaggle'iga.

MO-l on oma spetsiifilised probleemid. Funktsioonide arendamine või uute ennustajate loomine andmekogumist on selle jaoks oluline samm ja sellel võib olla jõudlusele tohutu mõju ning see võib olla vajalik viis TS-andmete trendi- ja hooajalisuse probleemide lahendamiseks. Samuti on mõnel mudelil probleeme andmete sobitamisega ja kui nad seda ei sobi, võivad nad peamisest trendist mööda minna.

Aegridade ja masinõppe lähenemisviisid ei tohiks eksisteerida üksteisest eraldatuna. Neid saab kombineerida, et anda iga lähenemisviisi eelised. Prognoosimismeetodid ja aegridade analüüs aitavad hästi jagada andmeid trendi- ja hooajaandmeteks.elemendid. Seda analüüsi saab seejärel kasutada sisendina ML-mudelile, mille algoritm sisaldab teavet trendide ja hooajalisuse kohta, mis annab mõlemast maailmast parima.

Probleemi lause mõistmine

Võtke näiteks TS-i, mis on seotud reisijate arvu prognoosimisega uuel kiirraudteeteenusel. Näiteks on teil 2 aasta andmed (august 2016 - september 2018) ja nende andmetega peate ennustama reisijate arvu järgmiseks 7 kuuks, omades 2 aasta andmeid (2016-2018) tunnitasemel reisijate arv ja nende arvu on vaja hinnata tulevikus.

Andmestiku alamhulk aegridade prognoosimiseks:

  1. Simulatsiooni jaoks rongi- ja katsefaili loomine.
  2. Esimesi 14 kuud (august 2016 – oktoober 2017) kasutatakse treeningandmetena ja järgmised 2 kuud (nov 2017 – detsember 2017) on testiandmed.
  3. Andmestiku koondamine iga päev.
Andmekogumite koondamine
Andmekogumite koondamine

Teostage andmete visualiseerimine, et näha, kuidas need teatud aja jooksul muutuvad.

Andmete visualiseerimine
Andmete visualiseerimine

Naiivse lähenemise ehitusmeetod

Sel juhul TS-i prognoosimiseks kasutatav teek on statistikamudelid. See tuleb paigaldada enne, kui saab rakendada mõnda neist lähenemisviisidest. Võib-olla on statsmodels Pythoni keskkonda juba installitud, kuid see ei toeta meetodeidennustus, nii et peate selle hoidlast kloonima ja allikast installima.

Järjestus
Järjestus

Selle näite puhul tähendab see, et müntide reisihinnad on stabiilsed algusest peale ja kogu perioodi vältel. See meetod eeldab, et järgmine eeldatav punkt on võrdne viimase vaadeldud punktiga ja seda nimetatakse naiivseks lähenemiseks.

Naiivne meetod
Naiivne meetod

Nüüd arvutage standardhälve, et testida mudeli täpsust katseandmestikul. RMSE väärtuse ja ül altoodud graafiku põhjal võime järeldada, et Naive ei sobi suure volatiilsusega optsioonide jaoks, kuid seda kasutatakse stabiilsete valikute jaoks.

Lihtne keskmine stiil

Meetodi demonstreerimiseks joonistatakse diagramm, eeldades, et Y-telg tähistab hinda ja X-telg aega (päevades).

Lihtne keskmine stiil
Lihtne keskmine stiil

Sellest saame järeldada, et hind tõuseb ja langeb juhuslikult väikese marginaaliga, nii et keskmine väärtus jääb muutumatuks. Sel juhul saate ennustada järgmise perioodi hinda, mis on sarnane kõigi viimaste päevade keskmisega.

Seda varem vaadeldud punktide eeldatava keskmise prognoosimismeetodit nimetatakse lihtkeskmise meetodiks.

Sel juhul võetakse varem teadaolevad väärtused, arvutatakse keskmine ja võetakse järgmiseks väärtuseks. Muidugi pole see täpne, kuid see on üsna lähedal ja on olukordi, kus see meetod töötab kõige paremini.

Lihtne keskminemeetod
Lihtne keskminemeetod

Graafikul kuvatud tulemuste põhjal töötab see meetod kõige paremini siis, kui iga ajaperioodi keskmine väärtus jääb muutumatuks. Kuigi naiivne meetod on keskmisest parem, kuid mitte kõigi andmekogumite puhul. Soovitatav on proovida iga mudelit samm-sammult ja vaadata, kas see parandab tulemust või mitte.

Liikuv keskmine mudel

Liikuv keskmine mudel
Liikuv keskmine mudel

Selle diagrammi põhjal võime järeldada, et hinnad on minevikus mitu korda tõusnud, kuid on nüüd stabiilsed. Eelmise keskmistamismeetodi kasutamiseks peate võtma kõigi varasemate andmete keskmise. Algperioodi hinnad mõjutavad tugev alt järgmise perioodi prognoosi. Seetõttu võtke lihtsa keskmise täiustuseks ainult viimase paari perioodi hindade keskmine.

Seda prognoosimistehnikat nimetatakse libiseva keskmise tehnikaks, mida mõnikord nimetatakse ka "n" suuruse "liikuvaks aknaks". Lihtsa mudeli abil ennustatakse TS-i järgmist väärtust, et kontrollida meetodi täpsust. Selgelt Naive ületab selle andmekogumi puhul nii keskmise kui ka libiseva keskmise.

Prognoosist on olemas variant lihtsa eksponentsiaalse silumise meetodil. Liikuva keskmise meetodi puhul on varasemad "n" vaatlused võrdselt kaalutud. Sel juhul võite ette tulla olukordi, kus iga minevik n mõjutab prognoosi omal moel. Seda variatsiooni, mis kaalub varasemaid vaatlusi erinev alt, nimetatakse meetodikskaalutud liikuv keskmine.

Mustrite ekstrapoleerimine

Üks olulisemaid omadusi, mida on vaja aegridade prognoosimisalgoritmide arvestamiseks, on võime ekstrapoleerida mustreid väljaspool treeningandmete domeeni. Paljudel ML-algoritmidel see võimalus puudub, kuna need kipuvad piirduma koolitusandmetega määratletud piirkonnaga. Seetõttu ei sobi need TS-i jaoks, mille eesmärk on projitseerida tulemust tulevikku.

Teine TS-algoritmi oluline omadus on usaldusvahemike saamise võimalus. Kuigi see on TS-mudelite vaikeomadus, puudub enamikul ML-mudelitel see võimalus, kuna need kõik ei põhine statistilistel jaotustel.

Ärge arvake, et TS ennustamiseks kasutatakse ainult lihtsaid statistilisi meetodeid. See pole üldse nii. On palju keerulisi lähenemisviise, mis võivad erijuhtudel väga kasulikud olla. Generalized Autoregressive Conditional Heteroscedasticity (GARCH), Bayesi ja VAR on vaid mõned neist.

On olemas ka närvivõrgu mudeleid, mida saab rakendada aegridadele, mis kasutavad mahajäävaid ennustajaid ja saavad hakkama selliste funktsioonidega nagu närvivõrgu autoregressioon (NNAR). On isegi keerukast õppimisest laenatud aegridade mudeleid, eriti korduvate närvivõrkude perekonnas, nagu LSTM ja GRU võrgud.

Hinnangulised mõõdikud ja jääkdiagnostika

Kõige tavalisemad ennustusmõõdikud onrms tähendab, mida paljud inimesed kasutavad regressiooniülesannete lahendamisel:

  • MAPE, kuna see on skaalast sõltumatu ja esindab vea ja tegelike väärtuste suhet protsentides;
  • MASE, mis näitab, kui hästi ennustus naiivse keskmise ennustusega võrreldes toimib.

Kui prognoosimismeetodit on kohandatud, on oluline hinnata, kui hästi see suudab mudeleid jäädvustada. Kuigi hindamismõõdikud aitavad kindlaks teha, kui lähedased on väärtused tegelikele väärtustele, ei hinda nad, kas mudel sobib TS-iga. Ülejäägid on hea viis selle hindamiseks. Kuna programmeerija üritab rakendada TS-mustreid, võib ta eeldada, et vead käituvad nagu "valge müra", kuna need kujutavad endast midagi, mida mudel ei suuda tabada.

„Valgel müral” peavad olema järgmised omadused:

  1. Korreleerimata jäägid (Acf=0)
  2. Jäägid järgivad normaaljaotust nullkeskmise (erapooletu) ja konstantse dispersiooniga.
  3. Kui üks kahest omadusest puudub, on mudelil veel arenguruumi.
  4. Nullkeskmist omadust saab hõlpsasti testida T-testi abil.
  5. Normaalsuse ja konstantse dispersiooni omadusi kontrollitakse visuaalselt, kasutades jääkide histogrammi või sobivat ühemõõtmelise normaalsuse testi.

ARIMA mudel

ARIMA – AutoRegressive Integrated Moving-Average mudel, on üks populaarsemaid meetodeid, mida kasutatakse TS prognoosimisel, peamiseltandmete autokorrelatsiooni abil kvaliteetsete mudelite loomiseks.

ARIMA koefitsientide hindamisel lähtutakse peamisest eeldusest, et andmed on statsionaarsed. See tähendab, et trend ja hooajalisus ei saa dispersiooni mõjutada. Mudeli kvaliteeti saab hinnata, võrreldes tegelike väärtuste ajagraafikut prognoositud väärtustega. Kui mõlemad kõverad on lähedased, siis võib eeldada, et mudel sobib analüüsitud juhtumiga. See peaks avalikustama kõik trendid ja hooajalisuse, kui neid on.

Jääkide analüüs peaks seejärel näitama, kas mudel sobib: juhuslikud jäägid tähendavad, et see on täpne. ARIMA sobitamine parameetritega (0, 1, 1) annab sama tulemuse kui eksponentsiaalne silumine ja parameetrite (0, 2, 2) kasutamine annab topelt eksponentsiaalse silumise.

Ajaseriaalgoritmid SQL Serveris
Ajaseriaalgoritmid SQL Serveris

ARIMA seadetele pääsete juurde Excelis:

  1. Käivita Excel.
  2. Leidke tööriistarib alt XL MINER.
  3. Valige lindil rippmenüüst ARIMA.

ARIMA mudeli võimaluste kokkuvõte:

  1. ARIMA – automaatregressiivne integreeritud liikuv keskmine.
  2. Aegridade analüüsis kasutatav prognoosimudel.
  3. ARIMA parameetri süntaks: ARIMA (p, d, q) kus p=autoregressiivsete terminite arv, d=hooajaliste erinevuste arv ja q=liikuva keskmise terminite arv.

Algoritmid SQL Serveris

Ristennustuse teostamine on üks tähtsamaidaegridade tunnused finantsülesannete prognoosimisel. Kui kasutatakse kahte seotud seeriat, saab saadud mudelit kasutada ühe seeria tulemuste ennustamiseks teiste käitumise põhjal.

SQL Server 2008 sisaldab uusi võimsaid aegrea funktsioone, mida õppida ja kasutada. Tööriistal on hõlpsasti juurdepääsetavad TS-andmed, hõlpsasti kasutatav liides algoritmi funktsioonide simuleerimiseks ja taasesitamiseks ning selgitusaken lingiga serveripoolsetele DMX-päringutele, et saaksite aru, mis sees toimub.

Turu aegread on lai valdkond, kus saab rakendada süvaõppe mudeleid ja algoritme. Pangad, maaklerid ja fondid katsetavad nüüd indeksite, vahetuskursside, futuuride, krüptovaluutade hindade, valitsuse aktsiate ja muu analüüsi ja prognoosimise kasutuselevõttu.

Aegridade prognoosimisel leiab närvivõrk turgude struktuure ja trende uurides prognoositavaid mustreid ning annab kauplejatele nõu. Need võrgud võivad samuti aidata tuvastada kõrvalekaldeid, nagu ootamatud tipud, langused, trendimuutused ja tasemenihked. Finantsprognooside tegemiseks kasutatakse paljusid tehisintellekti mudeleid.

Soovitan: