Claude Shannon, le fondateur de la théorie de l’information avait l’habitude de faire jouer à un petit jeu de société quand il était invité quelque part. Il prenait un livre au hasard, l’ouvrait au hasard, commençait à lire un paragraphe et s’arrêtait. Il demandait ensuite à l’assistance de deviner une à une les lettres suivantes. L’assistance se débrouillait bien et trouvait la lettre dans environ 75 % des cas. Shannon en déduisait que la langue anglaise possède un taux de redondance de 75 %.


Quand nous manipulons du texte, les caractères que nous utilisons n’ont pas la même probabilité d’apparition. De plus il a une structure interne forte (la grammaire). Quand le mot arbre est au pluriel on peut aisément prédire la lettre qui suit le « e » final.


Quand nous travaillons avec de la musique, la distribution des probabilités d’apparition des sons n’est pas uniforme non plus.


Quand nous manipulons des images, elles possèdent également des régularités, elles ne sont pas « aléatoires ».


Bref, la majorité des données que nous traitons ont un ordre interne, même s’il n’est pas apparent, c’est à dire une distribution non uniforme de certains symboles ou séquences de symboles.


C’est cette caractéristiques qui incite à compresser les données et c’est elle qui permet, souvent, de réussir.