Andmekaeve on Kontseptsioon, algoritmi analüüs, eesmärk ja rakendus

2025 Autor: Angel Austin | [email protected]. Viimati modifitseeritud: 2025-06-01 07:34:24

Infotehnoloogia areng toob praktilisi tulemusi. Kuid sellised ülesanded nagu teabe leidmine, analüüsimine ja kasutamine pole veel tõhusat kvaliteetset tööriista saanud. On olemas analüütika ja kvantitatiivsed tööriistad, need tõesti töötavad. Kuid kvalitatiivset revolutsiooni teabe kasutamisel pole veel toimunud.

Kaua enne arvutitehnoloogia tulekut oli inimesel vaja töödelda suurtes kogustes teavet ning ta tuli sellega toime oma kogemuste ja olemasolevate tehniliste võimaluste kohaselt.

Teadmiste ja oskuste arendamine on alati vastanud tegelikele vajadustele ja vastanud jooksvatele ülesannetele. Andmekaeve on koondnimetus, mida kasutatakse meetodite kogumile viitamiseks varem tundmatute, mittetriviaalsete, praktiliselt kasulike ja ligipääsetavate teadmiste avastamiseks andmetes, mis on vajalikud otsuste tegemiseks erinevates inimtegevuse valdkondades.

Inimene, intelligentsus, programmeerimine

Inimene teab alati, kuidas igas olukorras käituda. Teadmatus või võõras olukord ei takista tal otsust langetamast. Iga inimliku otsuse objektiivsuse ja mõistlikkuse võib kahtluse alla seada, kuid sellega nõustutakse.

Intelligentsus põhineb: pärilikul "mehhanismil", omandatud, aktiivsetel teadmistel. Teadmisi kasutatakse inimese ees kerkivate probleemide lahendamiseks.

Intelligentsus on ainulaadne teadmiste ja oskuste kogum: võimalused ja alus inimeluks ja tööks.
Intelligentsus areneb pidev alt ja inimtegevused mõjutavad teisi inimesi.

Programmeerimine on esimene katse formaliseerida andmete esitus ja algoritmide loomise protsess.

Inimene, intelligentsus, programmeerimine

Tehisintellekt (AI) on aja ja ressursside raiskamine, kuid eelmise sajandi ebaõnnestunud katsete tulemused tehisintellekti valdkonnas jäid mällu, neid kasutati erinevates ekspert- (intelligentsetes) süsteemides ja muudeti, eelkõige algoritmidesse (reeglitesse) ja matemaatilisse (loogilisse) andmeanalüüsi ja andmekaeve.

Teave ja tavaline lahenduse otsimine

Tavaline raamatukogu on teadmiste hoidla ning trükitud sõna ja graafika pole arvutitehnoloogiale veel käega löönud. Füüsika, keemia, teoreetilise mehaanika, disaini, loodusloo, filosoofia, loodusteaduse, botaanika, õpikud, monograafiad, teadlaste tööd, konverentsimaterjalid, arendustöö aruanded jms raamatud on alati asjakohased ja usaldusväärsed.

Raamatukogus on palju erinevaid allikaid, mis erinevadmaterjali esitusviis, päritolu, struktuur, sisu, esitlusstiil jne

Raamatukogu: raamatud, ajakirjad ja muud trükised

Väliselt on kõik mõistmiseks ja kasutamiseks nähtav (loetav, ligipääsetav). Saate lahendada mis tahes probleemi, õigesti püstitada ülesande, põhjendada lahendust, kirjutada esseed või kursusetööd, valida diplomi jaoks materjali, analüüsida allikaid lõputöö või teadusliku ja analüütilise aruande teemal.

Iga teabeprobleemi saab lahendada. Nõuetekohase visaduse ja oskustega saavutatakse täpne ja usaldusväärne tulemus. Selles kontekstis on andmekaevandamine täiesti erinev lähenemisviis.

Lisaks tulemusele saab inimene "aktiivsed lingid" kõigele, mida eesmärgi saavutamise käigus vaadati. Allikatele, mida ta probleemi lahendamisel kasutas, võib viidata ja allika olemasolu fakti ei vaidle keegi vastu. See ei ole autentsuse garantii, kuid see on kindel tunnistus, kelle ees on vastutus autentsuse eest "lahti märgitud". Sellest vaatenurgast tähendab andmekaevandamine suuri kahtlusi usaldusväärsuse suhtes ja "aktiivsete" linkide puudumist.

Mitme probleemi lahendamisel saavutab inimene tulemusi ja laiendab oma intellektuaalset potentsiaali paljudele "aktiivsetele lülidele". Kui uus ülesanne "aktiveerib" juba olemasoleva lingi, teab inimene, kuidas seda lahendada: pole vaja midagi uuesti otsida.

"Aktiivne link" on fikseeritud seos: kuidas ja mida konkreetsel juhul teha. Inimese aju jätab automaatselt meelde kõik, mis tundub talle potentsiaalselt huvitav, kasulik.või seda tõenäoliselt tulevikus vaja läheb. See toimub paljuski alateadvuse tasandil, kuid niipea, kui tekib ülesanne, mida saab seostada “aktiivse lingiga”, hüppab see koheselt meelde ja lahendus saadakse ilma täiendava teabe otsimiseta. Andmekaevandamine on alati otsingualgoritmi kordamine ja see algoritm ei muutu.

Tavaotsing: "kunstilised" probleemid

Matemaatika raamatukogu ja se alt info otsimine on suhteliselt nõrk ülesanne. Ühe või teise viisi leidmine integraali lahendamiseks, maatriksi koostamiseks või kahe imaginaarse arvu liitmise toimingu sooritamiseks on töömahukas, kuid lihtne. Peate sorteerima mitu raamatut, millest paljud on kirjutatud kindlas keeles, leidma õige teksti, seda uurima ja leidma vajaliku lahenduse.

Aja jooksul muutub loendamine tuttavaks ja kogunenud kogemus võimaldab teil raamatukogu teabes ja muudes matemaatikaprobleemides navigeerida. See on küsimuste ja vastuste piiratud inforuum. Iseloomulik tunnus: selline teabeotsing kogub teadmisi sarnaste probleemide lahendamiseks. Inimese teabeotsing jätab tema mällu jäljed ("aktiivsed lingid") muude probleemide võimalikest lahendustest.

Leidke ilukirjanduses vastus küsimusele: "Kuidas elasid inimesed 1248. aasta jaanuaris?" väga raske. Veel keerulisem on vastata küsimusele, mis oli poelettidel ja kuidas oli korraldatud toidukaubandus. Isegi kui mõni kirjanik kirjutas sellest oma romaanis selgelt ja otse, siis kui selle kirjaniku nimi leiaks, siis kahtlebsaadud andmete usaldusväärsus säilib. Usaldusväärsus on mis tahes teabehulga kriitiline omadus. Olulised on allikas, autor ja tõendid, mis välistavad tulemuse vale.

Konkreetse olukorra objektiivsed asjaolud

Inimene näeb, kuuleb, tunneb. Mõned spetsialistid valdavad vab alt ainulaadset tunnet - intuitsiooni. Probleemi püstitamine nõuab infot, probleemi lahendamise protsessiga kaasneb enamasti ka probleemi püstituse täpsustamine. See on väiksem probleem, mis kaasneb teabe liigutamisega arvutisüsteemi sisemusse.

Raamatukogu ja töökaaslased on otsustusprotsessis kaudsed osalejad. Raamatu kujundus (allikas), graafika tekstis, teabe pealkirjadeks jagamise omadused, joonealused märkused fraaside kaupa, teemaregister, esmaste allikate loend - kõik tekitab inimeses assotsiatsioone, mis kaudselt mõjutavad lahendusprotsessi probleem.

Probleemi lahendamise aeg ja koht on olulised. Inimene on nii paigutatud, et pöörab probleemi lahendamise käigus tahtmatult tähelepanu kõigele, mis teda ümbritseb. See võib olla häiriv või stimuleeriv. Andmekaeve ei saa kunagi "aru".

Teave virtuaalses ruumis

Inimest on alati huvitanud ainult usaldusväärne teave sündmuse, nähtuse, objekti, probleemi lahendamise algoritmi kohta. Inimene on alati täpselt ette kujutanud, kuidas ta suudab soovitud eesmärgi saavutada.

Arvutite ja infosüsteemide välimus oleks pidanud inimese elu lihtsamaks tegema, aga kõik on ainult keerulisemaks läinud. Teave rändas arvutisüsteemide sisikonda ja kadus silmist. Vajalike andmete valimiseks tuleb luua õige algoritm või sõnastada päring andmebaasi.

Küsimus peab olema õige. Alles siis saad vastuse. Kuid kahtlused autentsuses jäävad. Selles mõttes on andmekaevandamine tõesti "kaevamised", see on "teabe kaevandamine". Nii on seda fraasi moes tõlkida. Venekeelne versioon on andmekaeve või andmekaevetehnoloogia.

Autoriteetsete spetsialistide töödes on andmekaeve ülesanded märgitud järgmiselt:

klassifikatsioon;
klastri moodustamine;
ühing;
järjestus;
prognoosimine.

Inimest info käsitsi töötlemisel suunava praktika seisukoh alt on kõik need seisukohad vaieldavad. Igal juhul töötleb inimene infot automaatselt ega mõtle andmete klassifitseerimisele, objektide temaatiliste rühmade koostamisele (klasterdamine), ajaliste mustrite otsimisele (jada) ega tulemuse ennustamisele.

Kõiki neid positsioone inimmõistuses esindavad aktiivsed teadmised, mis hõlmavad rohkem positsioone ja kasutavad dünaamiliselt algandmete töötlemise loogikat. Inimese alateadvus mängib olulist rolli, eriti kui ta on teatud teadmiste valdkonna spetsialist.

Näide: arvutiseadmete hulgimüük

Ülesanne on lihtne. Neid on mitukümneid arvutiseadmete ja välisseadmete tarnijaid. Igal neist on hinnakiri xls-vormingus (Exceli fail), mille saab alla laadida tarnija ametlikult veebisaidilt. On vaja luua veebiressurss, mis loeb Exceli faile, teisendab need andmebaasi tabeliteks ja võimaldab klientidel valida soovitud tooteid madalaima hinnaga.

Probleemid tekivad kohe. Iga tarnija pakub oma versiooni xls-faili struktuurist ja sisust. Saate faili hankida, laadides selle alla tarnija veebisaidilt, tellides selle e-posti teel või hankides allalaadimislingi oma isikliku konto kaudu, st registreerudes ametlikult tarnija juures.

Probleemi lahendus (alguses) on tehnoloogiliselt lihtne. Failide (algandmete) laadimisel kirjutatakse iga tarnija jaoks failituvastusalgoritm ja andmed paigutatakse ühte suurde lähteandmete tabelisse. Pärast kõigi andmete saamist, pärast seda, kui on loodud värskete andmete pideva vahetamise (igapäevane, iganädalane või muutumise korral) mehhanism:

muuda sortimenti;
hinnamuutused;
laos oleva koguse täpsustamine;
garantiitingimuste, spetsifikatsioonide jms kohandamine

Siit saavad alguse tõelised probleemid. Asi on selles, et tarnija võib kirjutada:

sülearvuti Acer;
sülearvuti Asus;
Delli sülearvuti.

Me räägime samast tootest, kuid erinevatelt tootjatelt. Kuidas sobitada sülearvuti=sülearvuti või kuidas eemaldada tootesarjast Acer, Asus ja Dell?

Eestinimene pole probleem, aga kuidas saab algoritm "aru", et Acer, Asus, Dell, Samsung, LG, HP, Sony on kaubamärgid või tarnijad? Kuidas sobitada "printer" ja printer, "skanner" ja "MFP", "koopiamasin" ja "MFP", "kõrvaklapid" ja "peakomplekt", "tarvikud" ja "tarvikud"?

Kategooriapuu koostamine lähteandmete (lähtefailide) põhjal on juba probleem, kui peate kõik automaatseks seadma.

Andmeproovide võtmine: "värskelt valatud" väljakaevamised

Arvutiseadmete tarnijate andmebaasi loomise ülesanne on lahendatud. Ehitatud on kategooriate puu, toimib ühine tabel kõikide tarnijate pakkumistega.

Tüüpilised andmekaevandamise ülesanded selle näite kontekstis:

leidke toode madalaima hinnaga;
valige madalaima transpordikulu ja hinnaga toode;
tooteanalüüs: omadused ja hinnad kriteeriumide järgi.

Juhi tegelikus töös, kasutades mitmekümne tarnija andmeid, on nende ülesannete jaoks palju variatsioone ja veelgi rohkem reaalseid olukordi.

Näiteks on tarnija "A", kes müüb ASUS VivoBook S15: ettemaks, tarne 5 päeva pärast raha tegelikku laekumist. On olemas sama mudeli sama toote tarnija "B": tasumine kättesaamisel, tarne peale lepingu sõlmimist päeva jooksul, hind poolteist korda kõrgem.

Andmekaevandamine algab - "kaevamised". Piltlikud väljendid: "kaevamised" või "andmekaeve" on sünonüümid. See räägib sellest, kuidas leida põhjust otsuse tegemiseks.

Tarnijad "A" ja "B" on tarninud. Hinneettemaks esimesel juhul kättesaamisel tasumise vastu teisel juhul, arvestades, et teisel juhul on tarnetõrge 65% suurem. Kliendi trahvide risk on suurem/väiksem. Kuidas ja mida määrata ja milline otsus teha?

Teis alt: andmebaasi lõid programmeerija ja haldur. Kui programmeerija ja haldur on vahetunud, siis kuidas teha kindlaks andmebaasi hetkeseisund ja õppida seda õigesti kasutama? Samuti peate tegema andmekaeve. Andmekaevandamine pakub mitmesuguseid matemaatilisi ja loogilisi meetodeid, mis ei sõltu sellest, milliseid andmeid uuritakse. See annab mõnel juhul õige lahenduse, kuid mitte kõigil juhtudel.

Liikumine virtuaalsusesse ja tähenduse leidmine

Andmekaevemeetodid muutuvad tähendusrikkaks kohe, kui teave on andmebaasi kirjutatud ja "vaateväljast" kadunud. Arvutiseadmetega kauplemine on huvitav ülesanne, kuid see on lihts alt äri. See, kui hästi ta on ettevõttes organiseeritud, sõltub selle edust.

Kliimamuutused planeedil ja ilm konkreetses linnas pakuvad huvi kõigile, mitte ainult professionaalsetele kliimaekspertidele. Tuhanded andurid mõõdavad tuule, niiskuse, rõhu ja Maa tehissatelliitide andmeid ning andmete ajalugu on aastaid ja sajandeid.

Ilmaandmed ei tähenda ainult otsustamist, kas võtta vihmavari tööle või mitte. Andmekaevandamise tehnoloogiad on reisilennuki ohutu lend, kiirtee stabiilne töö ja naftatoodete usaldusväärne tarnimine meritsi.

"Toored" andmed saadetakse teabelesüsteem. Andmekaevanduse ülesanneteks on muuta need süstematiseeritud tabelite süsteemiks, luua linke, esile tõsta homogeensete andmete rühmi ja tuvastada mustreid.

Matemaatilisi ja loogilisi meetodeid alates kvantitatiivse analüüsi päevist OLAP (On-line Analytical Processing) on näidanud oma praktilisus. Siin võimaldab tehnoloogia leida tähenduse ja mitte seda kaotada, nagu arvutiseadmete müügi näites.

Lisaks globaalsetes ülesannetes:

rahvusvaheline äri;
lennutranspordi juhtimine;
maa sisikonna või sotsiaalsete probleemide uurimine (riigi tasandil);
uuring ravimite toimest elusorganismile;
tööstusettevõtte ehitamise tagajärgede ennustamine jne.

Andmekaevanduse tehnoloogiad ja "mõttetute" andmete muutmine tõelisteks andmeteks, mis võimaldavad teil teha objektiivseid otsuseid, on ainus võimalus.

Inimese võimalused lõpevad seal, kus on suur hulk töötlemata informatsiooni. Andmekaevesüsteemid kaotavad oma kasulikkuse, kui on vaja teavet näha, mõista ja tunda.

Mõistlik funktsioonide jaotus ja objektiivsus

Inimene ja arvuti peaksid üksteist täiendama - see on aksioom. Lõputöö kirjutamine on inimese jaoks prioriteet, abiks on infosüsteem. Siin on andmete kaevandamise tehnoloogial heuristika, reeglid, algoritmid.

Iganädalase ilmaprognoosi koostamine on infosüsteemi prioriteet. Inimene haldab andmeid, kuid lähtub oma otsustes süsteemi arvutuste tulemustest. See ühendab endas andmekaeve meetodid, spetsialistide andmete klassifitseerimise, algoritmide rakendamise käsitsi juhtimise, varasemate andmete automaatse võrdlemise, matemaatilise prognoosimise ning palju infosüsteemi rakendamisega seotud reaalsete inimeste teadmisi ja oskusi.

Tõenäosusteooria ja matemaatiline statistika ei ole kõige "lemmik" ja arusaadavam teadmiste valdkond. Paljud spetsialistid on neist väga kaugel, kuid nendes valdkondades välja töötatud meetodid annavad peaaegu 100% õigeid tulemusi. Andmekaeve ideedel, meetoditel ja algoritmidel põhinevaid süsteeme rakendades saab lahendusi objektiivselt ja usaldusväärselt. Vastasel juhul on lahenduse leidmine lihts alt võimatu.

Möödunud sajandite vaaraod ja saladused

Ajalugu kirjutati perioodiliselt ümber:

riigid - oma strateegiliste huvide nimel;
autoriteetsed teadlased - oma subjektiivsete veendumuste nimel.

Raske on öelda, mis on tõsi ja mis vale. Andmekaevanduse kasutamine võimaldab meil selle probleemi lahendada. Näiteks püramiidide ehitamise tehnoloogiat kirjeldasid kroonikud ja uurisid teadlased erinevatel sajanditel. Kõik materjalid ei jõudnud Internetti, kõik pole siin ainulaadsed ja paljudel andmetel ei pruugi olla:

kirjeldatud ajahetk;
kirjelduse kirjutamise aeg;
kuupäevad, millel kirjeldus põhineb;
autor(ud), arvamused (lingid) arvestatud;
objektiivsuse kinnitus.

Braamatukogudest, templitest ja "ootamatutest kohtadest" võib leida erinevatest sajanditest pärit käsikirju ja materiaalseid tõendeid minevikust.

Huvitav eesmärk: panna kõik kokku ja välja kaevata "tõde". Probleemi eripära: teavet saab hankida krooniku esimesest kirjeldusest vaaraode eluajal kuni praeguse sajandini, mil paljud teadlased on seda probleemi tänapäevaste meetoditega lahendanud.

Andmekaeve kasutamise põhjendus: käsitsitöö pole võimalik. Liiga palju koguseid:

teabeallikad;
esituskeeled;
uurijad, kes kirjeldavad sama asja erineval viisil;
kuupäevad, sündmused ja tingimused;
tähtaja korrelatsiooniprobleemid;
statistika analüüs andmerühmade kaupa aja jooksul võib erineda jne.

Eelmise sajandi lõpus, kui tehisintellekti idee järjekordne fiasko sai ilmseks mitte ainult võhikule, vaid ka kogenud spetsialistile, ilmus idee: "looda uuesti isiksus".

Näiteks Puškini, Gogoli, Tšehhovi teoste järgi kujuneb välja kindel reeglite süsteem, käitumisloogika ja luuakse infosüsteem, mis suudab vastata teatud küsimustele nagu inimene vastaks: Puškin, Gogol või Tšehhov. Teoreetiliselt on selline ülesanne huvitav, kuid praktikas äärmiselt raske teostada.

Samas, sellise ülesande idee viitab väga praktilisele ideele: "kuidas luua intelligentne teabeotsing". Internet on palju arendavaid ressursse, tohutu andmebaas ja see on suurepärane võimalus rakendada andmekaeve koos inimesegaloogika ühise arenduse vormis.

Masin ja mees paaris on suurepärane ülesanne ja vaieldamatu edu "infoarheoloogia", kvaliteetsete andmete ja tulemuste väljakaevamiste valdkonnas, mis seavad midagi kahtluse alla, kuid kahtlemata võimaldavad teil omandada uusi teadmisi ja olla ühiskonnas nõutud.