Mikä On Tiedostojen Entropia

Mikä On Tiedostojen Entropia
Mikä On Tiedostojen Entropia

Video: Mikä On Tiedostojen Entropia

Video: Mikä On Tiedostojen Entropia
Video: Teams: Kansion luominen, tiedoston siirtäminen kansioon, tiedoston linkittäminen keskusteluun 2024, Huhtikuu
Anonim

Mikä tahansa tietokonetiedosto koostuu tavuista. Tavu voi ottaa arvot välillä 0 - 255. Informaation entropia on tilastollinen parametri, joka näyttää tiedostossa olevien tiettyjen tavujen esiintymistodennäköisyyden.

Mikä on tiedostojen entropia
Mikä on tiedostojen entropia

Voit visuaalisesti arvioida entropian astetta käyttämällä histogrammia - todennäköisyyden jakautumista toistamaan samat tavut tiedostossa. Tiedoston entropian perusteella voimme arvata, minkä tyyppinen tiedosto on edessämme, nähdä vain sen histogrammin.

Otetaan esittelyä varten kolme erityyppistä tiedostoa ja verrataan niiden histogrammeja. Olkoon ensimmäinen tekstitiedosto (*. TXT). Sen histogrammi on esitetty kuvassa:

гистограмма=
гистограмма=

Tekstitiedosto sisältää vain tekstiä. Jokainen tekstin merkki koodataan tietyillä tavuilla koodaustaulukon mukaisesti. Vaikka koodaustyyppejä on suuri määrä, on selvää, että aakkosnumeerisia merkkejä on rajoitettu määrä, joka on yleensä alle 255. Ensimmäisessä histogrammissa on siis varattu vain joitain alueita, ja jotkut tavut eivät ole ollenkaan.

Seuraava tiedosto on PDF-muodossa:

гистограмма=
гистограмма=

Tämä tiedosto sisältää kaikki mahdolliset tavut, koska PDF on koodattu eri tavalla kuin tekstitiedostot. Se tallentaa paljon palvelutietoja: muotoilu, fontit, kuvat jne. Mutta sen histogrammi osoittaa, että jotkut tavuista esiintyvät suunnilleen samalla todennäköisyydellä, kun taas toiset - paljon useammin kuin toiset. Tästä johtuen histogrammin useita teräviä purskeita, ja yleensä se on melko "repaleinen", vaikka se vie koko käytettävissä olevan leveyden.

Ja viimeinen tiedosto on pakattu 7Z-muodossa:

гистограмма=
гистограмма=

Tällä histogrammilla on kaksi pääominaisuutta: ensinnäkin kaikki tavut löytyvät pakatusta tiedostosta enemmän tai vähemmän samalla todennäköisyydellä (melko tasainen yläreuna), ja toiseksi histogrammin yläpuolella ei ole käytännössä mitään vapaata tilaa, mikä osoittaa melkein täydellisen poissaolon tällaisen tiedoston irtisanominen. Siksi voimme päätellä, että arkistoijan algoritmi jollakin erityisellä tavalla "sekoittaa" tiedoston tavut saavuttaakseen maksimaalisen yhtenäisen jakautumisen.

Siten entropia tietojenkäsittelytieteessä, kuten fysiikassa, on mitta järjestelmän häiriöstä, tässä tapauksessa tiedostossa olevien tavujen jakautumisen häiriöstä. Entropian avulla voit arvioida tiedoston pakkausasteen ja - epäsuorasti - sen tyypin.

Suositeltava: