sebkrause.de – willkommen!
Lexikon * Aktuelles * FAQ * Ich * Kontakt * Impressum * * english
Nerd-Lexikon für Nicht-Nerds: Begriffe aus diversen Fachgebieten, für Nichtfachmänner verständlich erläutert. Über das Lexikon: Über das Lexikon.
<< Hypertext ... Index ... Image >>
HäUFIGKEITSANALYSE
(Kategorie: Computer)

H. ist ein Begriff aus dem Bereich der Entschlüsselung von verschlüsselten Texten. Es ist eine Technik, die bei allen Substitutionscodes funktioniert, und zwar umso besser, je mehr verschlüsselter Text gegeben ist - z.B. bei dem sogenannten ROT-Verfahren, das schon Cäsar benutzte: Ersetze jeden Buchstaben durch denjenigen, der z.B. vier Buchstaben im Alphabet dahintersteht. Also A=e, B=f, C=g, ... V=z, W=a, X=b... Das Alphabet wird also einfach etws weitergedreht (rotiert). Cäsar war sich sicher, das Verfahren sei unknackbar.

Und wir bekommen nun eine verschlüsselte Nachricht in die Hände und sollen deren Klartext ermitteln. Fackeln wir nicht lange - machen wir einfach eine Häufigkeitsanalyse! Und so geht's:

Wir zählen in unserem gegebenen Chiffrat (also dem verschlüsselten Text) nach, welcher Buchstabe wie oft vorkommt. Dies sei unser Chiffrat eines deutschen Textes:

dbv zfez pzcqzfx efhk exqbv mhk pizulz kmqul kze cqmzljfhye lbjkzh pzjzpzhkzh pjfur
Zunächst zählen wir die Anzahl der einzelnen Buchstaben (71 insgesamt).

Am häufigsten kommt das "z" vor, nämlich 13x. Und hier kommt der Clou: Da wir wissen, dass der Text deutsch ist, liegt es ziemlich nahe, dass dem "z" der Buchstabe entspricht, der im Deutschen am häufigsten vorkommt - und das ist das "E"! Ersetzen wir also testweise mal "z" durch "E" (und Kleinbuchstaben sind von nun an verschlüsselt, Großbuchstaben sind Klartext):

dbv EfeE pEcqEfx efhk exqbv mhk piEulE kmqul kEe cqmEljfhye lbjkEh pEjEpEhkEh pjfur
Kann das stimmen? - Hier sind die nächsthäufigsten Buchstaben: Die im Deutschen häufigsten Buchstaben neben dem E sind S, T, R, N, L, D, später dann M, B, G - diese sollten unter den hier gezählten h, k, p, f, e, l, j, q dabeisein.

Im fünftletzten Wort des (noch) Chiffrates kEe, fällt auf: Hier steht das im Text sehr häufige k am Beginn. Welche deutschen Worte mit E in der Mitte gibt es? WER, DER, DEN, DEM, DES - also bestimmt k=W oder k=D. Und letzteres ist wahrscheinlicher (D ist im Deutschen häufiger als W), testen wir also k=D.

dbv EfeE pEcqEfx efhD exqbv mhD piEulE Dmqul DEe cqmEljfhye lbjDEh pEjEpEhDEh pjfur
Immerhin zwei Worte enden nun auf DEh, und h ist nun auch noch mit der zweithäufigste Buchstabe (6x im Text!), das könnte also gut ein S, M, N oder R sein. Wo kommt h denn noch vor? In dem kleinen Wort mhD. Dies spricht gegen h={S, M, R} und für h=N (denn da fällt einem zumindest ein Wort ein, das passen könnte: UND!). Probieren wir's!
dbv EfeE pEcqEfx efND exqbv mND piEulE Dmqul DEe cqmEljfNye lbjDEN pEjEpENDEN pjfur
Und gleich noch m=U wegen des UND:
dbv EfeE pEcqEfx efND exqbv UND piEulE DUqul DEe cqUEljfNye lbjDEN pEjEpENDEN pjfur
Das vorletzte Wort ist fast entschlüsselt, es fehlen nur noch zwei Buchstaben, p und j. Beide sind noch vergleichsweise häufig, j kommt hier im Text 4x vor, p 5x; dass es sich dabei also beispielsweise um X handeln wird, ist tendenziell eher unwahrscheinlich. p steht auch im dritten Wort am Beginn, vor einem E - vielleicht ist das ein typischer deutscher Anlaut, so wie GE- oder BE-? Testen wir beides! Hier ist p=G:
dbv EfeE GEcqEfx efND exqbv UND GiEulE DUqul DEe cqUEljfNye lbjDEN GEjEGENDEN Gjfur
Und hier p=B:
dbv EfeE BEcqEfx efND exqbv UND BiEulE DUqul DEe cqUEljfNye lbjDEN BEjEBENDEN Bjfur
Das vorletzte Wort lässt eigentlich nur einen Schluss zu, und zwar in der Variante mit B: belebenden! Testen wir j=L:
dbv EfeE BEcqEfx efND exqbv UND BiEulE DUqul DEe cqUElLfNye lbLDEN BELEBENDEN BLfur
Schauen wir wieder auf DEe sowie an den Anfang: auf EfeE und efND - und kümmern wir uns um f und e. DEe sieht aus wie DER, DEM oder DES (und DEN geht nicht, das N ist schon vergeben). Angenommen,Testen wir also e=S und f=I:
dbv EISE BEcqEIx SIND Sxqbv UND BiEulE DUqul DES cqUElLINyS lbLDEN BELEBENDEN BLIur
Na, erkennen Sie es? Sie können gern weiteranalysieren, die Lösung steht ganz am Ende des Artikels...

Dies war ein extrem einfacher Fall einer Häufigkeitsanalyse. Natürlich geht dies rechnergestützt sehr viel besser und schneller! Und man kann es beliebig weit treiben - nicht nur Buchstaben zählen, sondern z.B. auch Buchstabenverbindungen wie ST, SCH, CK usw. im Deutschen - so lassen sich auch die selteneren Buchstaben recht genau identifizieren. Auf diese Weise lässt sich also jeder Code, der nur darauf basiert, Buchstaben mit anderen Buchstaben, Ziffern oder Zeichen zu vertauschen, ziemlich leicht aushebeln.

Wenn Cäsar das gewusst hätte!















Und hier noch die Lösung:

VOM EISE BEFREIT SIND STROM UND BAECHE DURCH DES FRUEHLINGS HOLDEN BELEBENDEN BLICK

<< Hypertext ... Index ... Image >>