Statistilises modelleerimises sisalduvad eeldused kirjeldavad tõenäosusjaotuste kogumit, millest mõned eeldatakse jaotust adekvaatselt ligikaudsetena. Määratlusest valitakse konkreetne andmekogum. Statistilisele modelleerimisele omased tõenäosusjaotused eristavad statistilisi mudeleid muudest mittestatistilistest matemaatilistest mudelitest.
Seos matemaatikaga
See teaduslik meetod pärineb peamiselt matemaatikast. Süsteemide statistiline modelleerimine antakse tavaliselt matemaatiliste võrranditega, mis seovad ühte või mitut juhuslikku muutujat ja võib-olla ka muid mittejuhuslikke muutujaid. Seega on statistiline mudel "teooria formaalne esitus" (Hermann Ader, tsiteerib Kenneth Bollenit).
Kõik statistiliste hüpoteeside testid ja kõik statistilised hinnangud on tuletatud statistilistest mudelitest. Üldisem alt on statistilised mudelid osa statistiliste järelduste alustest.
Statistika meetodidmodellindus
Mitteformaalselt võib statistilist mudelit käsitleda kui statistilist eeldust (või statistiliste eelduste kogumit), millel on teatud omadus: see eeldus võimaldab arvutada mis tahes sündmuse tõenäosust. Vaatleme näiteks tavalist kuuepoolset täringut. Uurime kahte erinevat statistilist eeldust luu kohta.
Esimene statistiline eeldus moodustab statistilise mudeli, sest ainult ühe eeldusega saame arvutada mis tahes sündmuse tõenäosuse. Alternatiivne statistiline eeldus ei kujuta endast statistilist mudelit, sest ainult ühe eeldusega ei saa me arvutada iga sündmuse tõenäosust.
Ül altoodud näites esimese eeldusega on sündmuse tõenäosust lihtne arvutada. Kuid mõnes muus näites võib arvutus olla keeruline või isegi ebapraktiline (näiteks võib see nõuda miljoneid aastaid arvutamist). Statistilise mudeli moodustava eelduse puhul on see raskus vastuvõetav: arvutuse tegemine ei pea olema praktiliselt teostatav, vaid teoreetiliselt võimalik.
Näited mudelitest
Oletame, et meil on kooliõpilasi, kellel on ühtlaselt jaotunud lapsed. Lapse pikkus on stohhastiliselt seotud vanusega: näiteks kui me teame, et laps on 7-aastane, mõjutab see tõenäosust, et laps on 5 jalga pikk (umbes 152 cm). Võiksime selle seose vormistada lineaarse regressioonimudeliga, näiteks: kasv=b0 + b1agei+ εi, kus b0 on lõikekoht, b1 on parameeter, millega vanus korrutatakse kasvuprognoosi saamisel, εi on vea liige. See tähendab, et pikkust ennustatakse vanuse järgi teatud veaga.
Kehtiv mudel peab ühtima kõigi andmepunktidega. Seega ei saa sirgjoon (heighti=b0 + b1agei) olla andmemudeli võrrand – välja arvatud juhul, kui see sobib täpselt kõikide andmepunktidega, st kõik andmepunktid asuvad joonel ideaalselt. Veatermin εi peab sisalduma võrrandis, et mudel sobiks kõigi andmepunktidega.
Statistilise järelduse tegemiseks peame esm alt eeldama εi tõenäosusjaotust. Näiteks võime eeldada, et εi jaotused on Gaussi jaotused, mille keskmine on null. Sel juhul on mudelil 3 parameetrit: b0, b1 ja Gaussi jaotuse dispersioon.
Üldkirjeldus
Statistiline mudel on matemaatilise mudeli eriklass. Statistilist mudelit eristab teistest matemaatilistest mudelitest see, et see on mittedeterministlik. Seda kasutatakse statistiliste andmete modelleerimiseks. Seega matemaatiliste võrranditega defineeritud statistilises mudelis ei ole osadel muutujatel kindlaid väärtusi, vaid neil on tõenäosusjaotused; see tähendab, et mõned muutujad on stohhastilised. Ül altoodud näites on ε stohhastiline muutuja; ilma selle muutujata oli mudeloleks deterministlik.
Statistilisi mudeleid kasutatakse sageli statistilises analüüsis ja modelleerimises, isegi kui modelleeritav füüsiline protsess on deterministlik. Näiteks müntide loopimine on põhimõtteliselt deterministlik protsess; siiski modelleeritakse seda tavaliselt stohhastilisena (Bernoulli protsessi kaudu).
Parameetrilised mudelid
Parameetrilised mudelid on kõige sagedamini kasutatavad statistilised mudelid. Poolparameetriliste ja mitteparameetriliste mudelite kohta ütles Sir David Cox: "Need sisaldavad üldiselt vähem oletusi jaotuse struktuuri ja kuju kohta, kuid sisaldavad tavaliselt tugevaid sõltumatuse eeldusi." Nagu kõiki teisi mainitud mudeleid, kasutatakse neid sageli ka matemaatilise modelleerimise statistilises meetodis.
Mitmetasandilised mudelid
Mitmetasandilised mudelid (tuntud ka kui hierarhilised lineaarsed mudelid, pesastatud andmemudelid, segamudelid, juhuslikud koefitsiendid, juhuslike efektide mudelid, juhuslike parameetrite mudelid või jaotatud mudelid) on statistiliste parameetrite mudelid, mis varieeruvad rohkem kui ühel tasemel. Näiteks on õpilaste saavutuste mudel, mis sisaldab nii üksikute õpilaste kui ka klassiruumide mõõdikuid, kuhu õpilased on rühmitatud. Neid mudeleid võib pidada lineaarsete mudelite üldistusteks (eriti lineaarseks regressiooniks), kuigi neid saab laiendada ka mittelineaarsetele mudelitele. Nendest mudelitest on saanudpalju populaarsemaks pärast piisava arvutusvõimsuse ja tarkvara kättesaadavaks saamist.
Mitmetasandilised mudelid sobivad eriti hästi uurimisprojektide jaoks, kus osalejate andmed on korraldatud rohkem kui ühel tasemel (st pesastatud andmed). Analüüsiüksused on tavaliselt indiviidid (madalamal tasemel), mis on pesastatud konteksti/koondüksuste sisse (kõrgemal tasemel). Kuigi mitmetasandiliste mudelite madalaim andmete tase on tavaliselt individuaalne, võib kaaluda ka üksikisikute korduvaid mõõtmisi. Seega pakuvad mitmetasandilised mudelid ühe- või mitmemõõtmelise korduva mõõtmise analüüsi jaoks alternatiivset analüüsitüüpi. Võib arvestada individuaalsete erinevustega kasvukõverates. Lisaks saab ANCOVA alternatiivina kasutada mitmetasandilisi mudeleid, kus sõltuvate muutujate skoore kohandatakse enne ravierinevuste testimist ühismuutujate (nt individuaalsete erinevuste) järgi. Mitmetasandilised mudelid suudavad neid katseid analüüsida ilma ANCOVA poolt nõutavate ühtsete regressioonitõusude eelduseta.
Mitmetasandilisi mudeleid saab kasutada mitmetasandiliste andmete jaoks, kuigi kahetasandilised mudelid on kõige levinumad ja ülejäänud see artikkel keskendub neile. Sõltuvat muutujat tuleks uurida analüüsi madalaimal tasemel.
Mudeli valik
Mudeli valikon statistilise modelleerimise raames tehtud ülesanne teha andmete alusel kandidaatmudelite hulgast valik. Lihtsamatel juhtudel võetakse arvesse juba olemasolevat andmekogumit. Kuid ülesanne võib hõlmata ka katsete kavandamist, et kogutud andmed sobiksid hästi mudelivaliku ülesandega. Arvestades sarnase ennustamis- või seletusjõuga kandidaatmudeleid, on tõenäoliselt parim valik lihtsaim mudel (Occami habemenuga).
Konishi & Kitagawa ütleb: "Enamik statistiliste järelduste probleeme võib pidada statistilise modelleerimisega seotud probleemideks." Sarnaselt ütles Cox: "Analüüsi kõige olulisem osa on sageli see, kuidas teema tõlkida statistiliseks mudeliks."
Mudelite valik võib viidata ka probleemile valida suurest arvutusmudelite hulgast mõned tüüpilised mudelid otsustamise või optimeerimise eesmärgil ebakindluse tingimustes.
Graafilised mustrid
Graafiline mudel ehk tõenäosuslik graafiline mudel (PGM) ehk struktureeritud tõenäosusmudel on tõenäosusmudel, mille puhul graafik väljendab juhuslike muutujate vahelise tingimusliku seose struktuuri. Neid kasutatakse tavaliselt tõenäosusteoorias, statistikas (eriti Bayesi statistikas) ja masinõppes.
Ökonomeetrilised mudelid
Ökonomeetrilised mudelid on statistilised mudelid, mida kasutatakseökonomeetria. Ökonomeetriline mudel määratleb statistilised seosed, mis arvatakse eksisteerivat konkreetse majandusnähtusega seotud erinevate majanduslike suuruste vahel. Ökonomeetrilise mudeli saab tuletada deterministlikust majandusmudelist, mis võtab arvesse ebakindlust, või majandusmudelist, mis on ise stohhastiline. Siiski on võimalik kasutada ka ökonomeetrilisi mudeleid, mis ei ole seotud ühegi konkreetse majandusteooriaga.