Klasterite meetod: kirjeldus, põhimõisted, rakenduse funktsioonid

Sisukord:

Klasterite meetod: kirjeldus, põhimõisted, rakenduse funktsioonid
Klasterite meetod: kirjeldus, põhimõisted, rakenduse funktsioonid
Anonim

Klasterite meetod on ülesanne rühmitada objektide hulk nii, et need samas rühmas oleksid üksteisega sarnasemad kui teiste tööstusharude objektidega. See on andmete kaevandamise ja paljudes valdkondades kasutatav üldine statistilise analüüsi tehnika, sealhulgas masinõpe, mustrituvastus, pildituvastus, teabe otsimine, andmete tihendamine ja arvutigraafika, peamine ülesanne.

Optimeerimisprobleem

klasterdamismeetodit kasutades
klasterdamismeetodit kasutades

Klastrite moodustamise meetod ise ei ole üks konkreetne algoritm, vaid üldine ülesanne, mis vajab lahendamist. Seda on võimalik saavutada erinevate algoritmidega, mis erinevad oluliselt rühma moodustamise ja selle tõhusa leidmise osas. Klasterdamismeetodi kasutamine metasubjektide moodustamiseks hõlmab rühma kasutamistväikesed vahemaad liikmete vahel, tihedad ruumipiirkonnad, intervallid või teatud statistilised jaotused. Seetõttu saab klastrite moodustamise sõnastada mitme eesmärgiga optimeerimisprobleemina.

Sobiv meetod ja parameetrite sätted (sealhulgas sellised elemendid nagu kasutatav kaugusfunktsioon, tiheduse lävi või eeldatavate klastrite arv) sõltuvad individuaalsest andmekogumist ja tulemuste kavandatud kasutusest. Analüüs kui selline ei ole automaatne ülesanne, vaid iteratiivne teadmiste avastamise või interaktiivse mitme eesmärgi optimeerimise protsess. See rühmitusmeetod hõlmab katse-eksituse katseid. Sageli on vaja andmete eeltöötlust ja modelleerimisparameetreid muuta, kuni tulemus saavutab soovitud omadused.

Lisaks terminile "klastrite moodustamine" on mitmeid sarnase tähendusega sõnu, sealhulgas automaatne klassifitseerimine, numbriline taksonoomia, mõlemarüoloogia ja tüpoloogiline analüüs. Peened erinevused seisnevad sageli klastrite meetodi kasutamises metasubjektide suhete moodustamiseks. Kui andmete ekstraheerimisel pakuvad huvi saadud rühmad, siis automaatse klassifitseerimise puhul täidab neid funktsioone juba diskrimineeriv jõud.

Klastrianalüüs põhines paljudel Kroeberi töödel 1932. aastal. Psühholoogiasse tõi selle 1938. aastal Zubin ja 1939. aastal Robert Tryon. Cattell on neid töid kasutanud alates 1943. aastast, et näidata klastrimeetodite teoreetilise klassifikatsiooni.

Termin

kasutaminemeetod
kasutaminemeetod

Mõistet "klastri" ei saa täpselt määratleda. See on üks põhjusi, miks rühmitusmeetodeid on nii palju. On olemas ühine nimetaja: andmeobjektide rühm. Erinevad teadlased kasutavad aga erinevaid mudeleid. Ja kõik need rühmitusmeetodite kasutusviisid hõlmavad erinevaid andmeid. Erinevate algoritmide abil leitud mõiste erineb oluliselt oma omaduste poolest.

Klastrite meetodi kasutamine on juhiste erinevuste mõistmise võti. Tüüpilised klastrite mustrid on järgmised:

  • Centroid s. See on näiteks siis, kui k-keskmiste klastrite moodustamine esindab iga klastrit ühe keskmise vektoriga.
  • Ühenduvusmudel s. See on näiteks hierarhiline rühmitus, mis loob mudeleid kaugühenduvuse alusel.
  • Levitusmudel s. Sel juhul modelleeritakse klastreid klastrite moodustamise meetodil, et moodustada metasubjekti statistilised jaotused. Näiteks mitme muutujaga normaaleraldus, mis on rakendatav ootuste maksimeerimise algoritmile.
  • Tihedusmudel s. Need on näiteks DBSCAN (Spatial Clustering Algorithm with Noise) ja OPTICS (Order Points for Structure Detection), mis määratlevad klastrid kui ühendatud tihedad piirkonnad andmeruumis.
  • Alamruumi mudel c. Biklastrimisel (tuntud ka kui kaasklastri või kahe režiimiga) modelleeritakse rühmi mõlema elemendi ja sobivate atribuutidega.
  • Model s. Mõned algoritmid seda ei teetäiustatud suhe nende klastrite moodustamise meetodi jaoks, et luua meta-subjekti tulemusi ja pakkuda lihts alt teabe rühmitamist.
  • Graafik s põhinev mudel. Klikk, st sõlmede alamhulk, nii et iga kahte servaosa ühendust võib pidada klastri kuju prototüübiks. Kogunõudluse nõrgenemist nimetatakse kvaasiklikkideks. Täpselt sama nimetus on esitatud HCS-i klastrite algoritmis.
  • Närvimudelid s. Tuntuim järelevalveta võrgustik on iseorganiseeruv kaart. Ja just neid mudeleid saab tavaliselt iseloomustada kui sarnaseid ühe või mitme ül altoodud klastrimeetodiga meta-subjekti tulemuste moodustamiseks. See hõlmab alamruumisüsteeme, kui närvivõrgud rakendavad põhi- või sõltumatute komponentide analüüsi vajalikku vormi.

See termin on tegelikult selliste rühmade kogum, mis tavaliselt sisaldavad kõiki andmeklastrimeetodite komplekti kuuluvaid objekte. Lisaks võib see näidata klastrite omavahelist suhet, näiteks üksteise sisse ehitatud süsteemide hierarhiat. Rühmitamise võib jagada järgmisteks aspektideks:

  • Kõva tsentroidirühmitamise meetod. Siin kuulub iga objekt mõnda rühma või on sellest väljaspool.
  • Pehme või hägune süsteem. Siinkohal kuulub iga objekt juba teatud määral mis tahes klastrisse. Seda nimetatakse ka c-means fuzzy klastrimeetodiks.

Ja võimalikud on ka peenemad erinevused. Näiteks:

  • Range partitsioonide rühmitamine. Siiniga objekt kuulub täpselt ühte rühma.
  • Range partitsioonide rühmitamine kõrvalekalletega. Sel juhul ei pruugi objektid kuuluda ühtegi klastrisse ja neid peetakse tarbetuteks.
  • Kattuv rühmitus (ka alternatiivne, mitme vaatega). Siin võivad objektid kuuluda rohkem kui ühte haru. Tavaliselt hõlmab see tahkeid klastreid.
  • Hierarhilised klastrimeetodid. Alamrühma kuuluvad objektid kuuluvad ka ülem-allsüsteemi.
  • Alamruumi moodustumine. Ehkki sarnased kattuvate klastritega, ei tohiks vastastikused rühmad unikaalselt määratletud süsteemis kattuda.

Juhised

kasutades moodustamiseks klasterdamismeetodit
kasutades moodustamiseks klasterdamismeetodit

Nagu eespool öeldud, saab klastrite moodustamise algoritme klassifitseerida nende klastrimudeli alusel. Järgmises ülevaates on loetletud ainult nende juhiste silmapaistvamad näited. Kuna avaldatud algoritme võib olla üle 100, ei paku kõik oma klastrite jaoks mudeleid ja seetõttu ei saa neid kergesti klassifitseerida.

Ei ole objektiivselt õiget rühmitamisalgoritmi. Kuid nagu eespool märgitud, on juhised alati vaatleja vaateväljas. Konkreetse probleemi jaoks sobivaim klasterdamisalgoritm tuleb sageli valida eksperimentaalselt, välja arvatud juhul, kui ühe mudeli eelistamiseks teisele on matemaatilist põhjust. Tuleb märkida, et ühe tüübi jaoks loodud algoritm tavaliselt ei töötaandmestik, mis sisaldab radikaalselt teistsugust subjekti. Näiteks k-keskmised ei leia mittekumeraid rühmi.

Ühendusepõhine klasterdamine

rühmitamise meetod
rühmitamise meetod

Seda liitu tuntakse ka nime ehk hierarhilise mudeli järgi. See põhineb tüüpilisel ideel, et objektid on rohkem seotud naaberosadega kui nendega, mis on palju kaugemal. Need algoritmid ühendavad objekte, moodustades sõltuv alt nende kaugusest erinevaid klastreid. Gruppi saab kirjeldada peamiselt maksimaalse vahemaaga, mis on vajalik klastri erinevate osade ühendamiseks. Kõikidel võimalikel distantsidel tekivad teised rühmad, mida saab dendrogrammi abil kujutada. See selgitab, kust pärineb üldnimetus "hierarhiline rühmitus". See tähendab, et need algoritmid ei paku ühte andmestiku partitsiooni, vaid pakuvad ulatuslikku volitusi. Just tänu temale on teatud vahemaadel üksteisega äravool. Dendrogrammis tähistab y-telg kaugust, mille kaugusel klastrid kokku saavad. Ja objektid on paigutatud piki X joont nii, et rühmad ei seguneks.

Ühendusepõhine klasterdamine on terve meetodite perekond, mis erinevad kauguste arvutamise viisi poolest. Lisaks tavapärasele kaugusfunktsioonide valikule peab kasutaja otsustama ka ühenduskriteeriumi üle. Kuna klaster koosneb mitmest objektist, on selle arvutamiseks palju võimalusi. Populaarne valik on tuntud kui ühe kangiga rühmitamine, see on meetodtäislink, mis sisaldab UPGMA-d või WPGMA-d (aritmeetilise keskmisega paaride kaalumata või kaalutud ansambel, tuntud ka kui keskmiste linkide klasterdamine). Lisaks võib hierarhiline süsteem olla aglomeratiivne (alustades üksikutest elementidest ja ühendades need rühmadeks) või jagunev (alustades täielikust andmekogumist ja jagades selle osadeks).

Hajutatud klasterdamine

rühmitusmeetod moodustamiseks
rühmitusmeetod moodustamiseks

Need mudelid on kõige tihedam alt seotud jaotustel põhineva statistikaga. Klastreid saab hõlpsasti määratleda kui objekte, mis kõige tõenäolisem alt kuuluvad samasse jaotusse. Selle lähenemisviisi mugav omadus on see, et see on väga sarnane kunstlike andmekogumite loomise viisiga. Jaotusest juhuslike objektide valimi abil.

Kuigi nende meetodite teoreetiline alus on suurepärane, kannatavad need ühe peamise probleemi, mida nimetatakse ülepaigutamiseks, käes, välja arvatud juhul, kui mudeli keerukusele seatakse piiranguid. Suurem ühendus selgitab tavaliselt andmeid paremini, mistõttu on õige meetodi valimist raske teha.

Gaussi segumudel

See meetod kasutab kõikvõimalikke ootuste maksimeerimise algoritme. Siin modelleeritakse andmestikku tavaliselt fikseeritud arvu Gaussi jaotustega (vältimaks alistamist), mis initsialiseeritakse juhuslikult ja mille parameetreid optimeeritakse iteratiivselt, et andmestik paremini sobiks. See süsteem läheneb kohalikule optimumile. Sellepärast võib anda mitu jooksuerinevaid tulemusi. Kõige tihedama rühmituse saamiseks määratakse funktsioonid sageli Gaussi jaotusele, millesse need kõige tõenäolisem alt kuuluvad. Ja pehmemate rühmade jaoks pole see vajalik.

Jaotusepõhine rühmitamine loob keerukaid mudeleid, mis suudavad lõppkokkuvõttes tabada atribuutide vahelist korrelatsiooni ja sõltuvust. Need algoritmid panevad aga kasutajale täiendava koormuse. Paljude reaalmaailma andmekogumite puhul ei pruugi olla lühid alt määratletud matemaatilist mudelit (näiteks Gaussi jaotuse oletamine on üsna tugev eeldus).

Tiheduspõhine klasterdamine

rühmitus moodustama
rühmitus moodustama

Selles näites on rühmad põhiliselt määratletud kui piirkonnad, mille läbilaskvus on suurem kui ülejäänud andmekogumil. Nendes haruldastes osades olevaid objekte, mis on vajalikud kõigi komponentide eraldamiseks, peetakse tavaliselt müra- ja servapunktideks.

Kõige populaarsem tiheduspõhine klasterdamismeetod on DBSCAN (Spatial Noise Clustering Algorithm). Erinev alt paljudest uuematest meetoditest on sellel täpselt määratletud klastri komponent, mida nimetatakse "tiheduse kättesaadavus". Sarnaselt lingipõhisele klasterdamisele põhineb see ühenduspunktidel teatud kauguslävede piires. Selle meetodi abil kogutakse aga ainult need üksused, mis vastavad tiheduse kriteeriumile. Algses versioonis, mis on määratletud teiste selles raadiuses olevate objektide minimaalse arvuna, koosneb klaster kõigisttihedusega seotud üksused (mis võivad erinev alt paljudest teistest meetoditest moodustada vabas vormis rühma) ja kõik objektid, mis on lubatud vahemikus.

Teine DBSCANi huvitav omadus on see, et selle keerukus on üsna madal – see nõuab andmebaasi suhtes lineaarset arvu vahemikupäringuid. Ja ebatavaline on ka see, et see leiab sisuliselt samad tulemused (see on deterministlik südamiku- ja mürapunktide jaoks, kuid mitte piirelementide puhul) igas töös. Seetõttu pole vaja seda mitu korda käivitada.

DBSCANi ja OPTICSi peamine puudus on see, et klastrite piiride tuvastamiseks eeldatakse tiheduse mõningast langust. Näiteks kattuvate Gaussi jaotustega andmekogumites – tehisobjektide puhul tavaline kasutusjuht – näivad nende algoritmide loodud klastripiirid sageli suvalised. See juhtub seetõttu, et rühmade tihedus väheneb pidev alt. Ja Gaussi segude andmekogus ületavad need algoritmid peaaegu alati selliseid meetodeid nagu EM-klastrid, mis suudavad seda tüüpi süsteeme täpselt modelleerida.

Keskmine nihe on klastrite moodustamise lähenemisviis, mille puhul iga objekt liigub kogu tuuma hinnangul naabruskonna kõige tihedamasse piirkonda. Lõpuks lähenevad objektid kohalikele läbitungimatuse maksimumidele. Sarnaselt k-keskmiste klastritega võivad need "tiheduse atraktorid" olla andmestiku esindajad. Aga keskmine nihesuudab tuvastada DBSCANiga sarnaseid suvalise kujuga klastreid. Kalli iteratiivse protseduuri ja tiheduse hindamise tõttu on keskmine nihe tavaliselt aeglasem kui DBSCAN või k-Means. Lisaks on tüüpilise nihkealgoritmi rakendatavus suuremõõtmeliste andmete puhul keeruline tuuma tiheduse hinnangu ebaühtlase käitumise tõttu, mis põhjustab klastri sabade liigset killustumist.

Hinnang

klasterdamismeetod metasubjekti moodustamiseks
klasterdamismeetod metasubjekti moodustamiseks

Klastrite tulemuste kontrollimine on sama keeruline kui rühmitamine ise. Populaarsed lähenemisviisid hõlmavad "sisemist" hindamist (kus süsteem on taandatud ühele kvaliteedinäitajale) ja loomulikult "välist" hindamist (kus rühmitamist võrreldakse olemasoleva "põhitõe" klassifikatsiooniga). Ja inimeksperdi käsitsi ja kaudse skoor leitakse, uurides rühmitamise kasulikkust kavandatud rakenduses.

Sisemised märgistusmeetmed kannatavad selle probleemi tõttu, et need esindavad funktsioone, mida võib pidada rühmitamise sihtmärkideks. Näiteks on võimalik silueti koefitsiendiga antud andmeid grupeerida, välja arvatud see, et selleks pole teadaolevat tõhusat algoritmi. Kasutades hindamiseks sellist sisemist mõõdet, on parem võrrelda optimeerimisülesannete sarnasust.

Välismärgil on sarnased probleemid. Kui on sellised sildid "põhjendatud tõest", siis pole vaja rühmitada. Ja praktilistes rakendustes selliseid mõisteid tavaliselt pole. Teisest küljest kajastavad sildid ainult üht võimalikku andmestiku partitsiooni, mis ei tähendaet muud (võib-olla isegi paremat) klastrit pole olemas.

Nii et ükski neist lähenemisviisidest ei saa lõppkokkuvõttes hinnata tegelikku kvaliteeti. Kuid see nõuab inimlikku hinnangut, mis on väga subjektiivne. Sellest hoolimata võib selline statistika olla halbade klastrite tuvastamisel informatiivne. Kuid ei tohiks alahinnata subjektiivset hinnangut inimesele.

Sisemine märk

Kui klastri tulemust hinnatakse andmete põhjal, mis on ise rühmitatud, nimetatakse seda terminiks. Need meetodid annavad üldiselt parima tulemuse algoritmile, mis loob suure sarnasusega rühmi rühmade sees ja vahel madalal. Klastrite hindamisel sisemiste kriteeriumide kasutamise üks puudusi on see, et kõrged hinded ei pruugi kaasa tuua tõhusaid teabeotsingu rakendusi. Samuti on see skoor kallutatud sama mudelit kasutavate algoritmide poole. Näiteks optimeerib k-keskmiste klasterdamine loomulikult objektide kaugusi ja sellel põhinev sisemine kriteerium hindab tõenäoliselt sellest tulenevat rühmitust üle.

Seetõttu sobivad need hindamismeetmed kõige paremini aimu saamiseks olukordadest, kus üks algoritm toimib paremini kui teine. Kuid see ei tähenda, et iga teave annaks usaldusväärsemaid tulemusi kui teised. Sellise indeksiga mõõdetav kehtivusaeg sõltub väitest, et struktuur on andmekogumis olemas. Mõne tüübi jaoks välja töötatud algoritmil pole võimalust, kui komplekt sisaldab radikaalselterinev koostis või kui hindamine mõõdab erinevaid kriteeriume. Näiteks k-keskmiste klastrite abil saab leida ainult kumeraid klastreid ja paljud punktiindeksid eeldavad sama vormingut. Mittekumerate mudelitega andmekogumis on sobimatu kasutada k-keskmisi ja tüüpilisi hindamiskriteeriume.

Välishindamine

Sellise pallitamisega hinnatakse rühmitamise tulemusi andmete põhjal, mida rühmitamiseks ei kasutatud. See tähendab, näiteks tuntud klassisildid ja välistestid. Sellised küsimused koosnevad eelnev alt klassifitseeritud üksuste komplektist ja need on sageli koostatud ekspertide (inimesed) poolt. Sellisena võib võrdluskomplekte pidada hindamise kuldstandardiks. Seda tüüpi hindamismeetodid mõõdavad, kui lähedal on klasterdamine antud võrdlusklassidele. Hiljuti on aga arutletud, kas see on piisav tegelike andmete jaoks või ainult tegeliku põhitõega sünteetiliste komplektide jaoks. Kuna klassid võivad sisaldada sisemist struktuuri ja olemasolevad atribuudid ei pruugi võimaldada klastrite eraldamist. Teadmiste avastamise seisukohast ei pruugi teadaolevate faktide taasesitamine tingimata anda oodatud tulemust. Spetsiaalses piiratud rühmitamise stsenaariumis, kus metateavet (nt klassisilte) juba kasutatakse rühmitamisprotsessis, ei ole triviaalne kogu teavet hindamise eesmärgil säilitada.

Nüüd on selge, mis ei kehti klastrimeetodite kohta ja milliseid mudeleid nendel eesmärkidel kasutatakse.

Soovitan: