Mitmemõõtmeline skaleerimine: määratlus, eesmärgid, eesmärgid ja näide

Sisukord:

Mitmemõõtmeline skaleerimine: määratlus, eesmärgid, eesmärgid ja näide
Mitmemõõtmeline skaleerimine: määratlus, eesmärgid, eesmärgid ja näide
Anonim

Multivariate skaleerimine (MDS) on tööriist andmekogumi üksikute juhtumite sarnasuse taseme visualiseerimiseks. See viitab seotud ordineerimismeetodite kogumile, mida kasutatakse teabe visualiseerimiseks, eelkõige kaugusmaatriksis sisalduva teabe kuvamiseks. See on mittelineaarse mõõtmete vähendamise vorm. MDS-algoritmi eesmärk on paigutada iga objekt N-mõõtmelisse ruumi nii, et objektide vahelised kaugused säiliksid võimalikult hästi. Seejärel määratakse igale objektile koordinaadid igas N mõõtmes.

MDS-graafiku mõõtmete arv võib ületada 2 ja see määratakse a priori. N=2 valimine optimeerib objektide paigutust 2D hajuvusdiagrammi jaoks. Mitmemõõtmelise skaleerimise näiteid näete artikli piltidelt. Eriti illustreerivad on näited venekeelsete sümbolitega.

Mitmemõõtmeline skaleerimine
Mitmemõõtmeline skaleerimine

Essence

Mitmemõõtmelise skaleerimise meetod (MMS,MDS) on klassikaliste tööriistade laiendatud komplekt, mis üldistab optimeerimisprotseduuri kadufunktsioonide komplekti ja teadaolevate vahemaade sisendmaatriksite jaoks koos kaaludega ja nii edasi. Selles kontekstis nimetatakse kasulikku kaotusfunktsiooni stressiks, mida sageli minimeeritakse protseduuriga, mida nimetatakse stressi majoriseerimiseks.

Manuaal

Mitmemõõtmeliseks skaleerimiseks on mitu võimalust. MDS-programmid vähendavad lahenduse leidmiseks koormuse automaatselt. Mittemeetrilise MDS-algoritmi tuum on kahekordne optimeerimisprotsess. Esiteks tuleb leida optimaalne monotoonne läheduse teisendus. Teiseks peavad konfiguratsioonipunktid olema optimaalselt paigutatud nii, et nende kaugused vastaksid võimalikult täpselt skaleeritud lähedusväärtustele.

Mitmemõõtmelise skaleerimise näide
Mitmemõõtmelise skaleerimise näide

Laiendus

Meetrilise mitmemõõtmelise skaleerimise laiendus statistikas, kus sihtruum on suvaline sujuv mitteeukleidiline ruum. Kus erinevused on kaugused pinnal ja sihtruum on erinev pind. Temaatilised programmid võimaldavad teil leida manuse minimaalse moonutamisega üks pind teiseks.

Sammid

Mitme muutujaga skaleerimist kasutava uuringu läbiviimisel on mitu etappi:

  1. Probleemi sõnastamine. Milliseid muutujaid soovite võrrelda? Mitut muutujat soovite võrrelda? Mis eesmärgil uuringut kasutatakse?
  2. Sisendandmete hankimine. Vastajatele esitatakse rida küsimusi. Iga tootepaari puhul palutakse neil hinnata sarnasust (tavaliselt 7-pallisel Likerti skaalal väga sarnasest väga erinevani). Esimene küsimus võiks olla näiteks Coca-Cola/Pepsi kohta, järgmine õlle, järgmine Dr. Pepperi kohta jne. Küsimuste arv oleneb kaubamärkide arvust.
Kauguse skaleerimine
Kauguse skaleerimine

Alternatiivsed lähenemisviisid

On veel kaks lähenemisviisi. On olemas tehnika nimega "Tajuandmed: tuletatud lähenemine", mille puhul tooted jaotatakse atribuutideks ja hindamine toimub semantilisel diferentsiaalskaalal. Teine meetod on eelistuste andmete lähenemisviis, mille puhul küsitakse vastajatelt pigem eelistuste kui sarnasuste kohta.

See koosneb järgmistest sammudest:

  1. MDS-statistikaprogrammi käivitamine. Protseduuri teostamiseks mõeldud tarkvara on saadaval paljudes statistikatarkvarapakettides. Sageli on valida meetermõõdustiku MDS-i (mis käsitleb intervalli või suhte taseme andmeid) ja mittemeetrilise MDS-i (mis käsitleb järguandmeid) vahel.
  2. Mõõtmiste arvu määramine. Teadlane peab määrama mõõtmiste arvu, mida ta soovib arvutis luua. Mida rohkem mõõtmisi, seda parem on statistiline sobivus, kuid seda keerulisem on tulemusi tõlgendada.
  3. Kuva tulemused ja määrake mõõtmised – statistikaprogramm (või sellega seotud moodul) kuvab tulemused. Kaardil kuvatakse iga toode (tavaliselt 2D-vormingus).ruum). Toodete lähedus üksteisele näitab kas nende sarnasust või eelistust, olenev alt sellest, millist lähenemist kasutati. Siiski ei ole alati selge, kuidas mõõtmised tegelikult süsteemi käitumise mõõtmistele vastavad. Siin saab teha subjektiivse hinnangu vastavuse kohta.
  4. Kontrollige tulemuste usaldusväärsust ja kehtivust – arvutage R-ruut, et määrata skaleeritud andmete dispersiooni osakaal, mida saab arvestada MDS-protseduuriga. Ruut R 0,6 peetakse minimaalseks vastuvõetavaks tasemeks. R ruudus 0,8 peetakse sobivaks mõõdiku skaleerimiseks, samas kui 0,9 peetakse heaks mittemeetriliseks skaleerimiseks.
Mitme muutujaga skaleerimise tulemused
Mitme muutujaga skaleerimise tulemused

Erinevad testid

Teised võimalikud testid on Kruskal-tüüpi stressitestid, jagatud andmete testid, andmete stabiilsuse testid ja kordustestide usaldusväärsuse testid. Kirjutage testi tulemuste kohta üksikasjalikult. Koos kaardistamisega tuleks täpsustada vähem alt kauguse (nt Sorensoni indeks, Jaccardi indeks) ja usaldusväärsuse (nt pingeväärtus) mõõt.

Samuti on väga soovitav anda algoritm (nt Kruskal, Mather), mille määrab sageli kasutatav programm (mõnikord asendab algoritmi aruannet), kui olete andnud lähtekonfiguratsiooni või juhusliku valiku, numbri dimensioonide jooksud, Monte Carlo tulemused, iteratsioonide arv, stabiilsusskoor ja iga telje proportsionaalne dispersioon (r-ruut).

Visuaalse teabe ja andmete analüüsi meetodmitmemõõtmeline skaleerimine

Teabe visualiseerimine on abstraktsete andmete interaktiivsete (visuaalsete) esituste uurimine, et parandada inimese tunnetust. Abstraktsed andmed hõlmavad nii arvulisi kui ka mittenumbrilisi andmeid, nagu teksti- ja geograafiline teave. Teabe visualiseerimine erineb aga teaduslikust visualiseerimisest: "see on informatiivne (info visualiseerimine), kui valitakse ruumiline esitus, ja scivis (teaduslik visualiseerimine), kui antakse ruumiline esitus."

Teabe visualiseerimise valdkond tekkis inimese ja arvuti interaktsiooni, arvutiteaduse rakenduste, graafika, visuaalse disaini, psühholoogia ja ärimeetodite uurimisel. Seda kasutatakse üha enam olulise komponendina teadusuuringutes, digitaalsetes raamatukogudes, andmekaevanduses, finantsandmetes, turu-uuringutes, tootmiskontrollis ja nii edasi.

Meetodid ja põhimõtted

Teabe visualiseerimine viitab sellele, et visualiseerimis- ja interaktsioonimeetodid kasutavad ära inimtaju rikkust, võimaldades kasutajatel üheaegselt näha, uurida ja mõista suurt hulka teavet. Teabe visualiseerimise eesmärk on luua lähenemisviise abstraktsete andmete ja teabe intuitiivseks edastamiseks.

Värvi mitmemõõtmeline skaleerimine
Värvi mitmemõõtmeline skaleerimine

Andmeanalüüs on tööstuses kõigi rakendusuuringute ja probleemide lahendamise lahutamatu osa. EnamikAndmete analüüsi põhilised lähenemisviisid on visualiseerimine (histogrammid, hajuvusdiagrammid, pinnadiagrammid, puukaardid, paralleelsed koordinaatgraafikud jne), statistika (hüpoteeside testimine, regressioon, PCA jne), andmete analüüs (sobitamine jne)..d.) ja masinõppemeetodid (klastristamine, klassifitseerimine, otsustuspuud jne).

Nende lähenemisviiside hulgas sõltub teabe visualiseerimine või visuaalne andmete analüüs kõige enam analüütiliste töötajate kognitiivsetest oskustest ja võimaldab avastada struktureerimata praktilisi teadmisi, mida piirab ainult inimese kujutlusvõime ja loovus. Andmete visualiseerimiste tõlgendamiseks ei pea analüütik õppima keerulisi tehnikaid. Teabe visualiseerimine on ka hüpoteeside genereerimise skeem, millega saab ja millega tavaliselt kaasneb rohkem analüütiline või formaalne analüüs, näiteks statistiline hüpoteeside testimine.

Uuring

Kaasaegne visualiseerimise uurimine sai alguse arvutigraafikast, mida algusest peale kasutati teaduslike probleemide uurimiseks. Kuid esimestel aastatel piiras graafilise võimsuse puudumine selle kasulikkust sageli. Algus oli visualiseerimise prioriteet. välja töötada 1987. aastal koos teadusliku andmetöötluse arvutigraafika ja visualiseerimise eritarkvaraga. Sellest ajast alates on IEEE Computer Society ja ACM SIGGRAPH ühiselt korraldanud mitmeid konverentse ja seminare.

Need käsitlesid andmete visualiseerimise, teabe visualiseerimise ja teadusliku visualiseerimise üldteemasid,samuti spetsiifilisemad valdkonnad, näiteks mahu renderdamine.

Mitmemõõtmeline brändi skaleerimine
Mitmemõõtmeline brändi skaleerimine

Kokkuvõte

Generalized Multidimensional Scaling (GMDS) on meetrilise mitmemõõtmelise skaleerimise laiendus, mille puhul sihtruum ei ole eukleidiline. Kui erinevused on kaugused pinnal ja sihtruum on teine pind, võimaldab GMDS leida minimaalse moonutusega ühe pinna pesastumist teisega.

GMDS on uus uurimissuund. Praegu on peamised rakendused deformeeritavate objektide tuvastamine (näiteks 3D näotuvastuseks) ja tekstuuri kaardistamine.

Mitmemõõtmelise skaleerimise eesmärk on esitada mitmemõõtmelisi andmeid. Mitmemõõtmelisi andmeid, st andmeid, mille esitamiseks on vaja rohkem kui kahte või kolme dimensiooni, võib olla raske tõlgendada. Üks lähenemine lihtsustamisele on eeldada, et huvipakkuvad andmed asuvad suuremõõtmelises ruumis manustatud mittelineaarsel kollektoril. Kui kollektoril on piisav alt väike mõõde, saab andmeid visualiseerida madala mõõtmega ruumis.

Paljud mittelineaarsete mõõtmete vähendamise meetodid on seotud lineaarsete meetoditega. Mittelineaarsed meetodid võib laias laastus jagada kahte rühma: need, mis pakuvad kaardistamist (kas kõrgmõõtmelisest ruumist kuni madalamõõtmelise manustamiseni või vastupidi), ja need, mis pakuvad lihts alt visualiseerimist. Masinõppe kontekstis võib kaardistamismeetodeid vaadelda kuitunnuste eraldamise esialgne etapp, mille järel rakendatakse mustrituvastusalgoritme. Tavaliselt põhinevad need, mis annavad lihts alt visualiseeringuid, lähedusandmetel – st kauguse mõõtmistel. Mitmemõõtmeline skaleerimine on üsna levinud ka psühholoogias ja teistes humanitaarteadustes.

Diagonaalne mitmemõõtmeline skaleerimine
Diagonaalne mitmemõõtmeline skaleerimine

Kui atribuutide arv on suur, siis on ka ainulaadsete võimalike stringide ruum eksponentsiaalselt suur. Seega, mida suurem on mõõde, seda keerulisemaks muutub ruumi kujutamine. See tekitab palju probleeme. Algoritmid, mis töötavad suure mõõtmega andmetel, on tavaliselt väga keerulised. Andmete vähendamine väiksematele mõõtmetele muudab analüüsialgoritmid sageli tõhusamaks ja võib aidata masinõppe algoritmidel teha täpsemaid ennustusi. Seetõttu on mitmemõõtmeline andmete skaleerimine nii populaarne.

Soovitan: