Logistiline regressioon: mudel ja meetodid

Sisukord:

Logistiline regressioon: mudel ja meetodid
Logistiline regressioon: mudel ja meetodid
Anonim

Logistilise regressiooni ja diskrimineerimisanalüüsi meetodeid kasutatakse siis, kui on vaja vastajaid sihtkategooriate järgi selgelt eristada. Sel juhul on rühmad ise esindatud ühe ühe variandi parameetri tasemetega. Vaatame logistilise regressiooni mudelit lähem alt ja selgitame välja, miks seda vaja on.

logistiline regressioon
logistiline regressioon

Üldine teave

Näide probleemist, mille puhul kasutatakse logistilist regressiooni, on vastajate liigitamine rühmadesse, kes ostavad ja ei osta sinepit. Diferentseerimine toimub vastav alt sotsiaal-demograafilistele tunnustele. Nende hulka kuuluvad eelkõige vanus, sugu, sugulaste arv, sissetulek jne. Toimingutes on eristamiskriteeriumid ja muutuja. Viimane kodeerib sihtkategooriad, millesse vastajad tegelikult tuleks jagada.

Nüansid

Tuleb öelda, et logistilise regressiooni rakendamise juhtude vahemik on palju kitsam kui diskriminantanalüüsi puhul. Sellega seoses kaalutakse viimase kasutamist universaalse eristamismeetodinaeelistatum. Lisaks soovitavad eksperdid alustada klassifitseerimisuuringuid diskrimineeriva analüüsiga. Ja ainult tulemuste ebakindluse korral saate kasutada logistilist regressiooni. See vajadus on tingitud mitmest tegurist. Logistilist regressiooni kasutatakse siis, kui on selge arusaam sõltumatute ja sõltuvate muutujate tüübist. Vastav alt sellele valitakse üks kolmest võimalikust protseduurist. Diskriminantanalüüsis tegeleb uurija alati ühe staatilise toiminguga. See hõlmab ühte sõltuvat ja mitut sõltumatut kategoorilist muutujat mis tahes tüüpi skaalaga.

Vaatused

Logistilist regressiooni kasutava statistilise uuringu ülesanne on määrata tõenäosus, et konkreetne vastaja määratakse teatud rühma. Diferentseerimine toimub teatud parameetrite järgi. Praktikas on ühe või mitme sõltumatu teguri väärtuste järgi võimalik vastajaid jagada kahte rühma. Sel juhul toimub binaarne logistiline regressioon. Samuti saab määratud parameetreid kasutada rohkem kui kaheliikmelisteks rühmadeks jagamisel. Sellises olukorras toimub multinomiaalne logistiline regressioon. Saadud rühmad on väljendatud ühe muutuja tasemetena.

logistiline regressioon
logistiline regressioon

Näide

Oletame, et on vastajate vastused küsimusele, kas nad on huvitatud Moskva eeslinna maatüki ostupakkumisest. Valikud on "ei"ja jah. Tuleb välja selgitada, millised tegurid mõjutavad potentsiaalsete ostjate otsust ülekaaluk alt. Selleks esitatakse vastajatele küsimusi territooriumi infrastruktuuri, pealinna kauguse, krundi pindala, elamu olemasolu/puudumise jms kohta. Binaarse regressiooni abil on võimalik jaotada vastajad kahte rühma. Esimene hõlmab omandamisest huvitatud inimesi - potentsiaalseid ostjaid ja teise vastav alt neid, kes pole sellisest pakkumisest huvitatud. Lisaks arvutatakse iga vastaja kohta ühe või teise kategooriasse määramise tõenäosus.

Võrdlevad omadused

Erinevus kahest ül altoodud valikust on erinev rühmade arv ning sõltuvate ja sõltumatute muutujate tüüp. Binaarse regressiooni puhul uuritakse näiteks dihhotoomse faktori sõltuvust ühest või mitmest sõltumatust tingimusest. Veelgi enam, viimasel võib olla mis tahes tüüpi skaala. Multinomiaalset regressiooni peetakse selle klassifitseerimisvaliku variatsiooniks. Selles kuulub sõltuvasse muutujasse rohkem kui 2 rühma. Sõltumatutel teguritel peab olema järg- või nominaalskaala.

Logistiline regressioon spss-is

Statistikapaketis 11-12 võeti kasutusele analüüsi uus versioon - järg. Seda meetodit kasutatakse juhul, kui sõltuv tegur kuulub sama nimetuse (järgu) skaalasse. Sel juhul valitakse sõltumatud muutujad ühte kindlat tüüpi. Need peavad olema kas järgulised või nominaalsed. Kõige enam peetakse silmas liigitamist mitmesse kategooriasseuniversaalne. Seda meetodit saab kasutada kõigis logistilist regressiooni kasutavates uuringutes. Kuid ainus viis mudeli kvaliteedi parandamiseks on kasutada kõiki kolme tehnikat.

piisavuse kvaliteedi kontroll ja logistiline regressioon
piisavuse kvaliteedi kontroll ja logistiline regressioon

Järviline klassifikatsioon

Tuleb öelda, et varem ei olnud statistikapaketis tüüpilist võimalust teha järgskaalaga sõltuvate tegurite erianalüüsi. Kõikide muutujate puhul, millel oli rohkem kui 2 rühma, kasutati mitmenominaalset varianti. Suhteliselt hiljuti kasutusele võetud järguanalüüsil on mitmeid funktsioone. Nad võtavad arvesse skaala eripära. Samas õppevahendites ei käsitleta järjestikust logistilist regressiooni sageli eraldi tehnikana. Selle põhjuseks on järgmine: ordinaalanalüüsil pole multinomaali ees olulisi eeliseid. Uurija võib viimast kasutada nii järgu kui ka nominaalse sõltuva muutuja olemasolul. Samal ajal ei erine klassifitseerimisprotsessid üksteisest peaaegu üldse. See tähendab, et järjekorraanalüüsi tegemine ei tekita raskusi.

Analüüsivalik

Võtleme lihtsa juhtumi – binaarregressiooni. Oletame, et turundusuuringute käigus hinnatakse nõudlust teatud suurlinnaülikooli lõpetajate järele. Küsimustikus esitati vastajatele küsimusi, sealhulgas:

  1. Kas olete tööl? (ql).
  2. Sisestage kooli lõpetamise aasta (q 21).
  3. Mis on keskminelõpuhind (kesk.).
  4. Sugu (q22).

Logistiline regressioon hindab sõltumatute tegurite aver, q 21 ja q 22 mõju muutujale ql. Lihtsam alt öeldes on analüüsi eesmärk määrata valdkonna, kooli lõpetamise aasta ja GPA kohta käiva teabe põhjal koolilõpetajate tõenäoline tööhõive.

logistilise sigmoidse regressiooni indikaator
logistilise sigmoidse regressiooni indikaator

Logistiline regressioon

Parameetrite määramiseks binaarregressiooni abil kasutage menüüd Analüüsi►Regression►Binary Logistic. Logistilise regressiooni aknas valige vasakpoolsest saadaolevate muutujate loendist sõltuv tegur. See on ql. See muutuja tuleb asetada väljale Sõltuv. Pärast seda on vaja ühismuutujate graafikusse sisestada sõltumatud tegurid - q 21, q 22, keskm. Seejärel peate valima, kuidas need oma analüüsi kaasata. Kui sõltumatute tegurite arv on suurem kui 2, siis kasutatakse vaikimisi seatud kõigi muutujate samaaegse sisestamise meetodit, kuid samm-sammult. Kõige populaarsem viis on Backward:LR. Nupu Vali abil saate uuringusse kaasata mitte kõik vastajad, vaid ainult kindla sihtkategooria.

Kategooriliste muutujate määratlemine

Kategoorilist nuppu tuleks kasutada siis, kui üks sõltumatutest muutujatest on nominaalne ja sisaldab rohkem kui 2 kategooriat. Sellises olukorras asetatakse aknas Kategooriliste muutujate määramine just selline parameeter jaotisesse Kategoorilised muutujad. Selles näites sellist muutujat pole. Pärast seda järgneb ripploendis Kontrastvalige üksus Hälve ja vajutage nuppu Muuda. Selle tulemusena moodustub igast nimitegurist mitu sõltuvat muutujat. Nende arv vastab algtingimuse kategooriate arvule.

Salvesta uued muutujad

Uuringu põhidialoogiaknas nupu Salvesta abil seadistatakse uute parameetrite loomine. Need sisaldavad regressiooniprotsessis arvutatud näitajaid. Eelkõige saate luua muutujaid, mis määratlevad:

  1. Kuulumine kindlasse klassifikatsioonikategooriasse (grupiliikmesus).
  2. Tõenäosus määrata vastaja igasse uuringurühma (tõenäosused).

Nupu Valikud kasutades ei saa uurija olulisi valikuid. Sellest tulenev alt võib seda ignoreerida. Pärast nupu "OK" klõpsamist kuvatakse põhiaknas analüüsi tulemused.

logistilise regressiooni koefitsient
logistilise regressiooni koefitsient

Piisavuse ja logistilise regressiooni kvaliteedikontroll

Kaaluge mudelikoefitsientide omnibus-testide tabelit. See kuvab mudeli lähenduse kvaliteedi analüüsi tulemused. Tulenev alt asjaolust, et määrati samm-sammult valik, peate vaatama viimase etapi (2. etapp) tulemusi. Positiivseks tulemuseks loetakse, kui suure olulisusega järgmisse etappi liikudes leitakse hii-ruudu indikaatori tõus (Sig. < 0,05). Mudeli kvaliteeti hinnatakse mudelireal. Kui saadakse negatiivne väärtus, kuid seda ei peeta mudeli üldise kõrge olulisuse juures oluliseks, siis viimanevõib pidada praktiliselt sobivaks.

Tabelid

Model Summary võimaldab hinnata kogu dispersiooniindeksit, mida kirjeldab konstrueeritud mudel (R Square indeks). Soovitatav on kasutada Nagelkeri väärtust. Parameetrit Nagelkerke R Square võib pidada positiivseks näitajaks, kui see on üle 0,50. Seejärel hinnatakse klassifikatsiooni tulemusi, milles võrreldakse tegelikke ühte või teise uuritavasse kategooriasse kuulumise näitajaid regressioonimudeli põhjal ennustatutega. Selleks kasutatakse klassifikatsioonitabelit. Samuti võimaldab see teha järeldusi iga vaadeldava rühma eristamise õigsuse kohta.

logistilise regressiooni mudel
logistilise regressiooni mudel

Järgnev tabel annab võimaluse välja selgitada analüüsi sisestatud sõltumatute tegurite statistiline olulisus ning iga mittestandardiseeritud logistiline regressioonikordaja. Nende näitajate põhjal on võimalik ennustada iga valimis oleva vastaja kuulumist teatud rühma. Nupu Salvesta abil saate sisestada uusi muutujaid. Need sisaldavad teavet teatud klassifikatsioonikategooriasse kuulumise kohta (ennustatud kategooria) ja nendesse rühmadesse kaasamise tõenäosuse kohta (ennustatud tõenäosuste kuuluvus). Pärast "OK" klõpsamist kuvatakse arvutustulemused Multinomial Logistic Regression peaaknas.

Esimene tabel, mis sisaldab uurija jaoks olulisi näitajaid, on Model Fitting Information. Statistilise olulisuse kõrge tase viitaks kõrgele kvaliteedile jamudeli kasutamise sobivus praktiliste ülesannete lahendamisel. Teine märkimisväärne tabel on Pseudo R-Square. See võimaldab hinnata sõltuva faktori kogu dispersiooni osakaalu, mille määravad analüüsiks valitud sõltumatud muutujad. Tõenäosuse suhte testide tabeli järgi saame teha järeldusi viimase statistilise olulisuse kohta. Parameetrite hinnangud kajastavad mittestandardseid koefitsiente. Neid kasutatakse võrrandi koostamisel. Lisaks määrati iga muutujate kombinatsiooni puhul nende mõju statistiline olulisus sõltuvale tegurile. Samas on turundusuuringutes sageli vaja vastajaid kategooriate kaupa eristada mitte individuaalselt, vaid osana sihtrühmast. Selleks kasutatakse tabelit Observedand Predicted Frequences.

Praktiline rakendus

Kaalutud analüüsimeetodit kasutatakse kauplejate töös laialdaselt. 1991. aastal töötati välja logistilise sigmoidse regressiooni indikaator. See on lihts alt kasutatav ja tõhus tööriist tõenäoliste hindade ennustamiseks enne, kui need "ülekuumenevad". Indikaator on diagrammil näidatud kahe paralleelse joonega moodustatud kanalina. Need on trendist võrdsel kaugusel. Koridori laius sõltub ainult ajakavast. Näitajat kasutatakse peaaegu kõigi varadega töötamisel – valuutapaaridest väärismetallideni.

logistiline regressioon spss-is
logistiline regressioon spss-is

Praktikas on instrumendi kasutamiseks välja töötatud kaks peamist strateegiat: läbimurre japöörde jaoks. Viimasel juhul keskendub kaupleja kanalisisese hinnamuutuste dünaamikale. Kui väärtus läheneb toetus- või takistusjoonele, tehakse panus tõenäosusele, et liikumine algab vastupidises suunas. Kui hind jõuab ülemise piiri lähedale, siis saad varast lahti. Kui see on alumisel piiril, siis peaksite mõtlema ostmisele. Läbimurdestrateegia hõlmab tellimuste kasutamist. Need on paigaldatud väljaspool piire suhteliselt väikese vahemaa tagant. Arvestades, et hind mõnel juhul rikub neid lühiajaliselt, tuleks julgelt mängida ja määrata stop lossid. Samas on loomulikult sõltumata valitud strateegiast vaja kauplejal võimalikult rahulikult tajuda ja hinnata turul tekkinud olukorda.

Järeldus

Seega võimaldab logistilise regressiooni kasutamine kiirelt ja lihts alt vastajaid etteantud parameetrite järgi kategooriatesse liigitada. Analüüsimisel võite kasutada mis tahes konkreetset meetodit. Eelkõige on universaalne multinomiaalne regressioon. Kuid eksperdid soovitavad kasutada kõiki ülalkirjeldatud meetodeid koos. See on tingitud asjaolust, et sel juhul on mudeli kvaliteet oluliselt kõrgem. See omakorda laiendab selle rakendusala.

Soovitan: