Statistiline teave: kogumine, töötlemine, analüüs

2026 Autor: Angel Austin | [email protected]. Viimati modifitseeritud: 2025-06-01 07:34:24

Statistika ajaloo jooksul on tehtud mitmesuguseid katseid luua mõõtmistasemete taksonoomiat. Psühhofüüsik Stanley Smith Stevens määratles nominaal-, järg-, intervall- ja proportsionaalskaala.

Nominaalsetel mõõtmistel ei ole väärtuste vahel olulist järjestust ja need võimaldavad mis tahes üks-ühele teisendamist.

Tavamõõtudel on ebatäpsed erinevused järjestikuste väärtuste vahel, kuid neil on nende väärtuste konkreetne järjekord ja need võimaldavad mis tahes järjekorda säilitavat teisendust.

Intervallmõõtmistel on punktide vahelised olulised kaugused, kuid nullväärtus on suvaline (nagu pikkuskraadi ja temperatuuri mõõtmisel Celsiuse või Fahrenheiti kraadides) ja võimaldab mis tahes lineaarset teisendust.

Suhtemõõtmetel on nii tähenduslik nullväärtus kui ka kaugused erinevate mõõtmete vahel ning need võimaldavad mis tahes skaleerimise teisendust.

Muutujad ja teabe klassifikatsioon

Muutujate tõttuainult nominaal- või järgmõõtmistele vastavaid väärtusi ei saa mõistlikult arvuliselt mõõta ja mõnikord rühmitatakse need kategoorilisteks muutujateks. Suhte ja intervallide mõõtmised on rühmitatud kvantitatiivseteks muutujateks, mis võivad oma numbrilise olemuse tõttu olla kas diskreetsed või pidevad. Sellised eristused on arvutiteaduses sageli lõdv alt seotud andmetüübiga, kuna dihhotoomseid kategoorilisi muutujaid saab esitada tõeväärtuste, polütoomiliste kategooriliste muutujatena suvaliste täisarvudega integraalses andmetüübis ja pidevate muutujatena reaalsete komponentidega, mis hõlmavad ujukomaarvutust. Statistilise teabe andmetüüpide kuvamine sõltub aga sellest, millist klassifikatsiooni kasutatakse.

Muud klassifikatsioonid

Loodud on ka muud statistiliste andmete (teabe) klassifikaatorid. Näiteks Mosteller ja Tukey eristasid hindeid, auastmeid, loendatud aktsiaid, arve, summasid ja saldosid. Nelder kirjeldas omal ajal pidevaid loendusi, pidevaid suhteid, loenduste korrelatsiooni ja andmete edastamise kategoorilisi viise. Kõiki neid klassifitseerimismeetodeid kasutatakse statistilise teabe kogumisel.

Probleemid

Küsimus, kas erinevate mõõtmis- (kogumis-)protseduuride abil saadud andmetele on asjakohane rakendada erinevaid statistilisi meetodeid, muudab keeruliseks muutujate teisendamise ja küsimuste täpse tõlgendamisega seotud probleemid.uurimine. Andmete ja selles kirjeldatu vaheline seos peegeldab lihts alt tõsiasja, et teatud tüüpi statistilistel väidetel võivad olla tõeväärtused, mis ei ole teatud teisenduste korral muutumatud. See, kas teisendus on kaalumist väärt, sõltub küsimusest, millele proovite vastata.

Mis on andmetüüp

Andmetüüp on muutuja semantilise sisu põhikomponent ja määrab, milliseid tõenäosusjaotusi saab loogiliselt kasutada muutuja kirjeldamiseks, sellega lubatud toiminguid ja selle ennustamiseks kasutatava regressioonanalüüsi tüüpi jne. Andmetüübi mõiste on mõõtmistaseme mõistes sarnane, kuid spetsiifilisem - näiteks nõuavad andmete loendused teistsugust jaotust (Poisson või binoom) kui mittenegatiivsete reaalväärtuste puhul, kuid mõlemad kuuluvad sama alla mõõtmise tase (koefitsiendi skaala).

Kaalud

Statistilise teabe töötlemiseks on tehtud mitmesuguseid katseid luua mõõtmistasemete taksonoomia. Psühhofüüsik Stanley Smith Stevens määratles nominaal-, järg-, intervall- ja proportsionaalskaala. Nominaalsetel mõõtmistel ei ole väärtuste seas olulist järjestust ja need võimaldavad mis tahes üks-ühele teisendamist. Tavalistel mõõtmistel on järjestikuste väärtuste vahel ebatäpsed erinevused, kuid need erinevad nende väärtuste olulise järjestuse poolest ja võimaldavadmis tahes korda säilitav teisendus. Intervallmõõtmistel on mõõtmiste vahel olulised vahemaad, kuid nullväärtus on suvaline (nagu pikkuskraadi ja temperatuuri mõõtmisel Celsiuse või Fahrenheiti kraadides) ja võimaldab mis tahes lineaarset teisendust. Suhtemõõtmetel on nii tähenduslik nullväärtus kui ka kaugused erinevate määratletud mõõtmete vahel ning need võimaldavad mis tahes skaleerimise teisendust.

Andmed, mida ei saa kirjeldada ühe arvuga, sisalduvad sageli reaalsete juhuslike muutujate juhuslikes vektorites, kuigi on kasvav trend neid ise töödelda. Selliseid näiteid käsitletakse allpool.

Juhuslikud vektorid

Üksikud elemendid võivad, kuid ei pruugi olla korrelatsioonis. Korreleeruvate juhuslike vektorite kirjeldamiseks kasutatavate jaotuste näideteks on mitme muutujaga normaaljaotus ja mitme muutujaga t-jaotus. Üldiselt võib mis tahes elementide vahel olla meelevaldseid korrelatsioone, kuid see muutub teatud suurusest kõrgemal sageli juhitamatuks, mis nõuab korrelatsioonikomponentidele täiendavaid piiranguid.

Juhuslikud maatriksid

Juhuslikke maatrikseid saab paigutada lineaarselt ja käsitleda juhuslike vektoritena, kuid see ei pruugi olla tõhus viis erinevate elementide vaheliste korrelatsioonide esitamiseks. Mõned tõenäosusjaotused on spetsiaalselt loodud juhuslike maatriksite jaoks, näiteks normaalmaatrikslevitamine ja Wisharti levitamine.

Juhuslikud järjestused

Mõnikord peetakse neid samadeks kui juhuslikke vektoreid, kuid muudel juhtudel rakendatakse seda terminit konkreetselt juhtudel, kus iga juhuslik muutuja korreleerub ainult lähedalasuvate muutujatega (nagu Markovi mudelis). See on Bayesi võrgu erijuhtum ja seda kasutatakse väga pikkade järjestuste, näiteks geeniahelate või pikkade tekstidokumentide jaoks. Paljud mudelid on spetsiaalselt selliste jadade jaoks loodud, näiteks varjatud Markovi jadad.

Juhuslikud protsessid

Need on sarnased juhuslikele jadadele, kuid ainult siis, kui jada pikkus on määramatu või lõpmatu ja jada elemente töödeldakse ükshaaval. Seda kasutatakse sageli andmete jaoks, mida saab kirjeldada aegridadena. See kehtib näiteks järgmise päeva aktsiahinna kohta.

Järeldus

Statistilise teabe analüüs sõltub täielikult selle kogumise kvaliteedist. Viimane omakorda on tugev alt seotud selle klassifitseerimisvõimalustega. Muidugi on statistilise teabe klassifitseerimise tüüpe mitut tüüpi, mida lugeja võib seda artiklit lugedes ise veenduda. Sellegipoolest teevad tõhusate tööriistade olemasolu ja hea matemaatikaoskus ning teadmised sotsioloogia valdkonnas oma tööd, võimaldades teil läbi viia mis tahes uuringu või uuringu ilma oluliste veaparandusteta. Statistilise teabe allikad vormilinimesed, organisatsioonid ja muud sotsioloogia ained on õnneks esindatud väga rikkalikult. Ja tõelise avastaja jaoks ei saa ükski raskus takistada.