Teksti sageduse analüüs: funktsioonid ja näited

Sisukord:

Teksti sageduse analüüs: funktsioonid ja näited
Teksti sageduse analüüs: funktsioonid ja näited
Anonim

Olete seda kontseptsiooni oma elus rohkem kui korra kohanud, kui olete pidanud töötama tekstidega. Eelkõige võiks pöörduda veebikalkulaatorite poole, mis teostavad täpselt teksti sagedusanalüüsi. Need käepärased tööriistad näitavad, mitu korda konkreetne märk või täht mõnes tekstilõigus esineb. Sageli näidatakse ka protsenti. Miks seda vaja on? Kuidas aitab teksti sagedusanalüüs kaasa lihtsate šifrite "murdmisele"? Mis on selle olemus, kes selle välja mõtles? Nendele ja teistele olulistele teemakohastele küsimustele vastame artikli käigus.

Definitsioon

Sagedusanalüüs on üks krüptoanalüüsi variante. See põhineb teadlaste oletusel üksikute märkide ja nende regulaarsete järjestuste statistilise mittetriviaalse jaotuse olemasolu kohta nii liht- kui ka šifreeritud tekstis.

Arvatakse, et selline jaotus kuni üksikute märkide asendamiseni säilib ka krüpteerimis-/dekrüpteerimisprotsessides.

süsteemide sagedusanalüüs
süsteemide sagedusanalüüs

Protsessi karakteristikud

Nüüd vaatame lihtsam alt sagedusanalüüsi. See tähendab, et piisava pikkusega tekstides on sama tähestiku esinemiste arv erinevates samas keeles kirjutatud tekstides sama.

Ja kuidas on nüüd monoalfabeetilise krüptimisega? Eeldatakse, et kui šifreeritud tekstiga jaotises on nii sarnase esinemise tõenäosusega märk, siis on realistlik eeldada, et see on see šifreeritud täht.

Sagedusteksti analüüsi järgijad rakendavad samu arutlusi digrammide (kahe tähe jada) puhul. Trigrammid – see kehtib juba mitmetähestikuliste šifrite puhul.

Meetodi ajalugu

Sõnade sagedusanalüüs ei ole modernsuse leid. Teadusmaailmale on see teada juba 9. sajandist. Selle loomist seostatakse nimega Al-Kindi.

Kuid teadaolevad sagedusanalüüsi meetodi rakendamise juhtumid kuuluvad palju hilisemasse perioodi. Kõige silmatorkavam näide siin on Egiptuse hieroglüüfide dešifreerimine, mille koostas 1822. aastal J.-F. Champollion.

Kui pöördume ilukirjanduse poole, võime sellele dekrüpteerimismeetodile leida palju huvitavaid viiteid:

  • Conan Doyle – "Tantsivad mehed".
  • Jules Verne – "Kapten Granti lapsed".
  • Edgar Poe – "Gold Bug".

Kuid alates eelmise sajandi keskpaigast on enamik krüpteerimisel kasutatavaid algoritme välja töötatud, võttes arvesse nende vastupidavust sellisele sageduse krüptoanalüüsile. Seetõttu seetänapäeval kasutatakse neid enamasti ainult tulevaste krüptograafide koolitamiseks.

tekstisageduse analüüs
tekstisageduse analüüs

Põhimeetod

Esitleme nüüd üksikasjalikult sageduskarakteristiku analüüsi. Selline analüüs põhineb otseselt sellel, et test koosneb sõnadest ja need omakorda tähtedest. Rahvuslikku tähestikku täitvate tähtede arv on piiratud. Tähed saab siin lihts alt loetleda.

Sellise teksti kõige olulisemad omadused on nii tähtede kordus, mitmesugused suur-, trigrammid ja n-grammid, aga ka erinevate tähtede omavaheline ühilduvus, kaashäälikute/vokaalide vaheldumine ja muu nende sümbolite variandid.

Meetodite põhiidee on loendada võimalike n-grammide esinemisi (tähistatakse nm-ga) analüüsiks piisav alt pikkades lihttekstides (tähistatakse T=t1t2…tl), mis koosnevad rahvustähestiku tähtedest (tähistatud {a1, a2, …, an}). Kõik ül altoodud põhjused põhjustavad teksti järjestikuseid m-gramme:

t1t2…tm, t2t3… tm+1, …, ti-m+1tl-m+2…tl.

Kui see on m-grammi ai1ai2…eesmärk teatud tekstis T esinemiste arv ja L on teadlase poolt analüüsitud m-grammide koguarv, siis on võimalik empiiriliselt kindlaks teha, et piisav alt suur L, on sellise m-grammi sagedused üksteisest vähe erinevad.

sageduse analüüs
sageduse analüüs

Vene tähestiku sageli esinevad tähed

Aga aeg-sageduse analüüsil pole sarnasest nimetusest hoolimata meie vestluse teemaga mingit pistmist. Seda tüüpi analüüs viiakse läbisignaalid madala jälgitavusega radarijaamadest, kasutades spetsiaalset laineteisendust.

Nüüd pöördume tagasi põhiteema juurde. Sagedusanalüüsi läbiviimisel saate teada, milliseid vene tähestiku tähti leidub kõige sagedamini üsna mahukates tekstides (protsent 0,062 kuni 0,018):

  • A.
  • V.
  • D.
  • F.
  • I.
  • K.
  • M.
  • O.
  • R.
  • T.
  • F.
  • T.
  • Sh.
  • b.
  • E.
  • I.

Kasutusele on võetud isegi spetsiaalne mnemooniline reegel, mis aitab selgeks õppida vene tähestiku levinumaid tähti. Selleks piisab, kui meelde jätta vaid üks sõna – "heinaalune".

Üldjuhul määratakse tähtede kasutamise sagedus protsentides lihts alt: spetsialist loeb, mitu korda täht tekstis esineb, seejärel jagab saadud väärtuse tekstis olevate märkide koguarvuga. Ja selle väärtuse väljendamiseks protsentides piisab selle korrutamisest 100-ga.

Oluline on arvestada, et sagedus ei sõltu mitte ainult teksti mahust, vaid ka selle olemusest. Näiteks tehnilistes allikates esineb täht "F" palju sagedamini kui ilukirjanduses. Seetõttu peab spetsialist objektiivsete tulemuste saamiseks tippima uurimistööks erineva iseloomu ja stiiliga tekste.

tekstisageduse analüüsi programmid
tekstisageduse analüüsi programmid

Kahe-, kolme-, neljagrammine

Mõtestatud tekstidest leiab ka kõige levinumad (vastav alt kõigekorduvad) kahe või enama tähe kombinatsioonid. Spetsialistid on koostanud ka mitmeid tabeleid, mis näitavad erinevate tähestike sarnaste digrammide sagedusi.

Mis puudutab vene keelt, siis mahukate tähenduslike tekstide süsteemide sagedusanalüüs võimaldas välja selgitada levinumad bigmid ja trigrammid:

  • EN.
  • ST.
  • AGA.
  • NOT.
  • ON.
  • RA.
  • OV.
  • KO.
  • VO.
  • STO.
  • UUS
  • ENO.
  • TOV.
  • OVA.
  • OVO.

Tähede eelistatud suhted üksteisega

Ja see pole veel kõik võimalused, mida sagedusanalüüs tekstiuurijatele pakkuda võib. Süstematiseerides teavet sarnastest suur- ja trigrammitabelitest, on võimalik välja võtta andmeid enamlevinud tähekombinatsioonide kohta. Või teisisõnu nende eelistatud suhted üksteisega.

Sellise ulatusliku uuringu on eksperdid juba läbi viinud. Selle tulemuseks oli tabel, kus koos iga tähestiku tähega märgiti selle naabrid. Veelgi enam, need tegelased, keda sageli leidub nii vahetult enne seda kui ka pärast seda. Tabelis olevad tähed pole juhuslikult välja kirjutatud. Sümbolile lähemal on näidatud sagedasemad naabrid, kaugemal - haruldasemad.

Kaaluge näiteid:

  • A-täht. Siin eristatakse järgmisi eelistatud seoseid: l-d-k-t-v-r-n-A-l-n-s-t-r-v-to-m. Siit näeme, et kõige sagedamini on tekstides "A" ees "H" ("NA"). Ja pärast "A" võime venekeelsetes tekstides kõige sagedamini kohata "L"("AL").
  • M täht. Eksperdid on tuvastanud sellised eelistatud ühendused: "I-s-a-i-e-o-M-i-e-o-u-a-n-p-s".
  • Tähe "b". Eelistatud ühendused on järgmised: "n-s-t-l-b-n-k-v-p-s-e-o-i".
  • Tähe "Sh". Eelistatud ühendused: "e-b-a-i-u-Sch-e-i-a".
  • P-täht. Eelistatud seosed selle vene tähestiku sümboliga: "v-s-u-a-i-e-o-P-o-r-e-a-u-i-l".
aja-sageduse analüüs
aja-sageduse analüüs

Mis määratleb analüüsi?

Kaasaegsed sagedustekstianalüüsi programmid aitavad uurida suures mahus väga erinevaid artikleid, esseesid, lõike ja nii edasi. Uurijale antakse standardina järgmine teave:

  • Tähemärkide koguarv tekstis.
  • Autori kasutatud tühikute arv.
  • Numbrite arv.
  • Teave kasutatud kirjavahemärkide kohta – punktid, komad jne.
  • Tähtide arv igas saadaolevas tähestikus – kirillitsa, ladina jne.
  • Teave iga tähe ja sümboli kasutamise sageduse kohta tekstis – mainimiste arv ja protsent võrreldes kogu tekstiga.

Võitlus üleoptimeerimise ja üleküllastumise vastu

Miks tehakse tekstisageduse analüüsi? Kas see on lihts alt uudishimu pärast – et teha kindlaks, milliseid tegelasi kirjalikus tekstis sageli kohtab? Ei, analüüsi põhirakendus on praktiline ja see asub mujal.

N-grammid ei hõlma mitte ainult stabiilseid bigramme ja trigramme. Sellele samalekategooriate hulka kuuluvad märksõnad (sildid), kollokatsioonid. See tähendab, stabiilsed kombinatsioonid, mis koosnevad kahest või enamast sõnast. Neid eristab asjaolu, et sellised kompositsioonid esinevad tekstis koos ja kannavad samal ajal teatud semantilist koormust.

See mängib hoolimatute SEO-spetsialistide kätesse. Oma töös kuritarvitavad nad mõnikord siltide ja märksõnade kordamist tekstis, et kunstlikult tõsta konkreetse veebilehe asjakohasust. Süsteemi püütakse petta sellise "trikiga": loomuliku kombinatsiooni tavalise, vene keele jaoks traditsioonilise sõnakombinatsiooniga ("osta naaritsakasukas") muutmine ebajärjekindlaks. See on saadud sõnade ümberpaigutamisel sellises loomulikus N-grammis ("osta naaritsakasukas").

Kuid tänapäeval on otsingualgoritmid õppinud tuvastama üleoptimeerimist sama tõhus alt kui ülerämpsposti – teksti üleküllastumist märksõnade, siltidega, mis mõjutavad tulemuste järjestust otsingulehel. Liiga optimeeritud lehed on nüüd, vastupidi, kasutaja päringu järgi madalamal kohal. Ja inimesed ise ei kipu lugema mõttetut, siltidest üleküllastunud teksti, eelistades kasulikku teavet mõnest teisest allikast.

sagedusanalüüsi meetod
sagedusanalüüsi meetod

SEO spetsialistide eraanalüüsi abistamine

Seega eelistavad tänapäevased otsingumootorite tekstifiltrid tänapäeval neid Interneti-lehti, mille teave pole mitte ainult hõlpsasti loetav, vaid ka külastajatele kasulik. Optimeerida oma tööd uutele standarditele, SEO spetsialistidja pöörduge teksti sagedusanalüüsi poole. Paljud populaarsed teenused pakuvad seda tänapäeval.

Sagedusanalüüs aitab informatiivsuse huvides üle vaadata avaldamiseks ettevalmistatava teksti. Kõrvaldage siltide ja võtmefraaside tarbetu liiasus. Samuti võimaldab see juhtida autori tähelepanu ebaloomulikele sõnakombinatsioonidele, mis äratavad kahtlust otsingumootorite tekstifiltrites.

sageduskarakteristiku analüüs
sageduskarakteristiku analüüs

Teksti sagedusanalüüs aitab seega kindlaks teha konkreetse tegelase mainimise sagedust allikas. Seda meetodit kasutatakse tänapäeval teksti ülekoormatuse hindamiseks siltidega, sõnade ebaloomulike permutatsioonidega.

Soovitan: