Teabe entroopia: mõiste, omaduste, süsteemi määratlus

Sisukord:

Teabe entroopia: mõiste, omaduste, süsteemi määratlus
Teabe entroopia: mõiste, omaduste, süsteemi määratlus
Anonim

Informatsioonientroopia mõiste eeldab väärtuse tõenäosuse massifunktsiooni negatiivset logaritmi. Seega, kui andmeallika väärtus on väiksema tõenäosusega (st kui toimub väikese tõenäosusega sündmus), kannab sündmus rohkem "teavet" ("üllatus") kui siis, kui lähteandmetel on suurema tõenäosusega väärtus..

Iga sel viisil määratletud sündmusega edastatava teabe hulk muutub juhuslikuks muutujaks, mille eeldatav väärtus on teabe entroopia. Üldjuhul viitab entroopia häirele või ebakindlusele ning selle infoteoorias kasutatav definitsioon on otseselt analoogne statistilises termodünaamikas kasutatavaga. IE kontseptsiooni tutvustas Claude Shannon oma 1948. aasta artiklis "A Mathematical Theory of Communication". Siit pärineb termin "Shannoni teabeentroopia".

Info entroopia graafik
Info entroopia graafik

Definitsioon ja süsteem

Andmeedastussüsteemi põhimudel koosneb kolmest elemendist: andmeallikast, sidekanalist ja vastuvõtjast,ja nagu Shannon ütleb, on "põhiline sideprobleem" see, et vastuvõtja suudab kanali kaudu vastuvõetud signaali põhjal tuvastada, milliseid andmeid allikas genereeris. Entroopia annab absoluutse piirangu tihendatud lähteandmete võimalikult lühikesele keskmisele kadudeta kodeeringule. Kui allika entroopia on väiksem kui sidekanali ribalaius, saab selle genereeritud andmeid vastuvõtjale usaldusväärselt edastada (vähem alt teoreetiliselt, võib-olla eirates mõningaid praktilisi kaalutlusi, nagu andmete edastamiseks vajaliku süsteemi keerukus ja andmete edastamiseks kuluv aeg).

Teabe entroopiat mõõdetakse tavaliselt bittides (alternatiivselt nimetatakse seda "shannoniteks") või mõnikord "looduslikes ühikutes" (nats) või kümnendkohtades (nimetatakse "dits", "bans" või "hartleys"). Mõõtühik sõltub logaritmi baasist, mida kasutatakse entroopia määramiseks.

Teabe kvaliteet
Teabe kvaliteet

Atribuudid ja logaritm

Tõenäosuse logaritmi jaotus on kasulik entroopia mõõtmiseks, kuna see on sõltumatute allikate jaoks aditiivne. Näiteks mündi õiglase panuse entroopia on 1 bitti, m-mahtude entroopia aga m bitti. Lihtsa esituse korral on vaja log2(n) bitti, et esindada muutujat, mis võib omandada ühe n väärtusest, kui n on 2 aste. Kui need väärtused on võrdselt tõenäolised, on entroopia (bittides) võrdne selle arvuga. Kui üks väärtustest on tõenäolisem kui teised, on tähelepanek, et see on niitähendus ilmneb, on vähem informatiivne kui siis, kui ilmneks mõni vähem üldine tulemus. Ja vastupidi, haruldasemad sündmused pakuvad täiendavat jälgimisteavet.

Kuna vähemtõenäolisi sündmusi vaadeldakse harvemini, pole midagi ühist selles, et ebaühtlaselt jaotunud andmetest saadav entroopia (peetakse keskmiseks informatsiooniks) on alati väiksem kui log2(n) või sellega võrdne. Entroopia on null, kui on määratletud üks tulemus.

Shannoni teabeentroopia kvantifitseerib need kaalutlused, kui alusandmete tõenäosusjaotus on teada. Vaadeldud sündmuste tähendus (sõnumite tähendus) ei oma entroopia määratluses tähtsust. Viimane võtab arvesse ainult konkreetse sündmuse nägemise tõenäosust, seega on selles sisalduv teave võimaluste aluseks oleva jaotuse, mitte sündmuste endi tähenduse kohta. Informatsiooni entroopia omadused jäävad samaks, nagu eespool kirjeldatud.

Shannoni valem
Shannoni valem

Infoteooria

Infoteooria põhiidee seisneb selles, et mida rohkem teatakse teemast, seda vähem on võimalik selle kohta teavet saada. Kui sündmus on väga tõenäoline, ei ole selle toimumise ajal üllatav ja see annab seetõttu vähe uut teavet. Ja vastupidi, kui sündmus oli ebatõenäoline, oli sündmuse toimumine palju informatiivsem. Seetõttu on kasulik koormus sündmuse pöördvõrdelise tõenäosuse (1 / p) kasvav funktsioon.

Kui juhtub rohkem sündmusi, siis entroopiamõõdab keskmist teabesisaldust, mida võite oodata, kui mõni sündmus aset leiab. See tähendab, et täringu viskamisel on suurem entroopia kui mündi viskamisel, sest igal kristallil on väiksem tõenäosus kui igal mündil.

Entroopia joonisel
Entroopia joonisel

Funktsioonid

Seega on entroopia oleku ettearvamatuse või, mis on sama asi, keskmise teabesisalduse mõõt. Nendest terminitest intuitiivse mõistmise saamiseks vaadake poliitilise küsitluse näidet. Tavaliselt toimuvad sellised küsitlused seetõttu, et näiteks valimiste tulemused pole veel teada.

Teisisõnu on küsitluse tulemused suhteliselt ettearvamatud ning tegelikult annab selle läbiviimine ja andmete uurimine veidi uut infot; need on lihts alt erinevad viisid öelda, et küsitluse tulemuste eelnev entroopia on suur.

Mõelge nüüd juhtumile, kus sama küsitlus tehakse teist korda vahetult pärast esimest. Kuna esimese küsitluse tulemus on juba teada, siis teise uuringu tulemused on hästi prognoositavad ning tulemused ei tohiks sisaldada palju uut infot; sel juhul on teise küsitluse tulemuse a priori entroopia esimesega võrreldes väike.

entroopia tasemed
entroopia tasemed

Mündiviskamine

Kaaluge nüüd mündi viskamise näidet. Kui eeldada, et sabade tõenäosus on sama kui peade tõenäosus, on mündiviske entroopia väga kõrge, kuna see on omapärane näide süsteemi teabeentroopiast.

See on sellepärastet on võimatu ennustada, et mündi tulemus visatakse enne tähtaega: kui me peame valima, siis parim, mida saame teha, on ennustada, et münt langeb sabadele ja see ennustus läheb tõeks tõenäoliselt 1 / 2. Sellisel mündiviskel on üks bitine entroopia, kuna on kaks võimalikku tulemust, mis juhtuvad võrdse tõenäosusega ja tegeliku tulemuse uurimine sisaldab ühte bitti teavet.

Vastupidi, mündi viskamisel, mille mõlemad pooled on sabad ja ilma pead, on null entroopia, kuna münt maandub alati sellele märgile ja tulemust saab suurepäraselt ennustada.

Info entroopia
Info entroopia

Järeldus

Kui tihendusskeem on kadudeta, mis tähendab, et saate alati taastada kogu algse sõnumi lahtipakkimise teel, siis on tihendatud sõnumil sama palju teavet kui originaalil, kuid see edastatakse vähemate tähemärkidega. See tähendab, et sellel on rohkem teavet või suurem entroopia tähemärgi kohta. See tähendab, et tihendatud sõnumil on vähem liiasust.

Jämed alt öeldes väidab Shannoni lähtekoodi kodeerimise teoreem, et kadudeta tihendusskeem ei saa vähendada sõnumeid keskmiselt nii, et sõnumibiti kohta oleks rohkem kui üks bitt teavet, kuid on võimalik saavutada iga väärtus, mis on väiksem kui üks bitt teavet biti kohta..teateid vastavat kodeerimisskeemi kasutades. Sõnumi entroopia bittides ja selle pikkus näitab, kui palju üldteavet see sisaldab.

Soovitan: