Nerdkram für Nicht-Nerds

HäUFIGKEITSANALYSE

(Kategorie: Computer)

H. ist ein Begriff aus dem Bereich der Entschlüsselung von verschlüsselten Texten. Es ist eine Technik, die bei allen Substitutionscodes funktioniert, und zwar umso besser, je mehr verschlüsselter Text gegeben ist - z.B. bei dem sogenannten ROT-Verfahren, das schon Cäsar benutzte: Ersetze jeden Buchstaben durch denjenigen, der z.B. vier Buchstaben im Alphabet dahintersteht. Also A=e, B=f, C=g, ... V=z, W=a, X=b... Das Alphabet wird also einfach etws weitergedreht (rotiert). Cäsar war sich sicher, das Verfahren sei unknackbar.

Und wir bekommen nun eine verschlüsselte Nachricht in die Hände und sollen deren Klartext ermitteln. Fackeln wir nicht lange - machen wir einfach eine Häufigkeitsanalyse! Und so geht's:

Wir zählen in unserem gegebenen Chiffrat (also dem verschlüsselten Text) nach, welcher Buchstabe wie oft vorkommt. Dies sei unser Chiffrat eines deutschen Textes:

dbv zfez pzcqzfx efhk exqbv mhk pizulz kmqul kze cqmzljfhye lbjkzh pzjzpzhkzh pjfur

Zunächst zählen wir die Anzahl der einzelnen Buchstaben (71 insgesamt).

Am häufigsten kommt das "z" vor, nämlich 13x. Und hier kommt der Clou: Da wir wissen, dass der Text deutsch ist, liegt es ziemlich nahe, dass dem "z" der Buchstabe entspricht, der im Deutschen am häufigsten vorkommt - und das ist das "E"! Ersetzen wir also testweise mal "z" durch "E" (und Kleinbuchstaben sind von nun an verschlüsselt, Großbuchstaben sind Klartext):

dbv EfeE pEcqEfx efhk exqbv mhk piEulE kmqul kEe cqmEljfhye lbjkEh pEjEpEhkEh pjfur

Kann das stimmen? - Hier sind die nächsthäufigsten Buchstaben:

h, k: 6x
p, f, e: 5x
l, j, q: 4x

Die im Deutschen häufigsten Buchstaben neben dem E sind S, T, R, N, L, D, später dann M, B, G - diese sollten unter den hier gezählten h, k, p, f, e, l, j, q dabeisein.

Im fünftletzten Wort des (noch) Chiffrates kEe, fällt auf: Hier steht das im Text sehr häufige k am Beginn. Welche deutschen Worte mit E in der Mitte gibt es? WER, DER, DEN, DEM, DES - also bestimmt k=W oder k=D. Und letzteres ist wahrscheinlicher (D ist im Deutschen häufiger als W), testen wir also k=D.

dbv EfeE pEcqEfx efhD exqbv mhD piEulE Dmqul DEe cqmEljfhye lbjDEh pEjEpEhDEh pjfur

Immerhin zwei Worte enden nun auf DEh, und h ist nun auch noch mit der zweithäufigste Buchstabe (6x im Text!), das könnte also gut ein S, M, N oder R sein. Wo kommt h denn noch vor? In dem kleinen Wort mhD. Dies spricht gegen h={S, M, R} und für h=N (denn da fällt einem zumindest ein Wort ein, das passen könnte: UND!). Probieren wir's!

dbv EfeE pEcqEfx efND exqbv mND piEulE Dmqul DEe cqmEljfNye lbjDEN pEjEpENDEN pjfur

Und gleich noch m=U wegen des UND:

dbv EfeE pEcqEfx efND exqbv UND piEulE DUqul DEe cqUEljfNye lbjDEN pEjEpENDEN pjfur

Das vorletzte Wort ist fast entschlüsselt, es fehlen nur noch zwei Buchstaben, p und j. Beide sind noch vergleichsweise häufig, j kommt hier im Text 4x vor, p 5x; dass es sich dabei also beispielsweise um X handeln wird, ist tendenziell eher unwahrscheinlich. p steht auch im dritten Wort am Beginn, vor einem E - vielleicht ist das ein typischer deutscher Anlaut, so wie GE- oder BE-? Testen wir beides! Hier ist p=G:

dbv EfeE GEcqEfx efND exqbv UND GiEulE DUqul DEe cqUEljfNye lbjDEN GEjEGENDEN Gjfur

Und hier p=B:

dbv EfeE BEcqEfx efND exqbv UND BiEulE DUqul DEe cqUEljfNye lbjDEN BEjEBENDEN Bjfur

Das vorletzte Wort lässt eigentlich nur einen Schluss zu, und zwar in der Variante mit B: belebenden! Testen wir j=L:

dbv EfeE BEcqEfx efND exqbv UND BiEulE DUqul DEe cqUElLfNye lbLDEN BELEBENDEN BLfur

Schauen wir wieder auf DEe sowie an den Anfang: auf EfeE und efND - und kümmern wir uns um f und e. DEe sieht aus wie DER, DEM oder DES (und DEN geht nicht, das N ist schon vergeben). Angenommen,

e=R: DER, EfRE und RfND. Dann ist f={I, A, U} (RIND, RAND, RUND), und das führt zu EIRE, EARE, EURE. Letzteres klingt gut - geht aber nicht, denn U ist schon vergeben! - Also entfällt wohl diese Variante...
e=M: DEM, EfME und MfND. f muss wieder ein Vokal sein, MOND vielleicht? Aber EOME - nein. MUND geht ja nicht (U ist vergeben), MIND möglicherweise? Das führt zu EIME - eher nicht. Also Sackgasse!
e=S: DES, EfSE und SfND. SUND geht nicht, SOND gibt es nicht, SAND vielleicht? Aber das führte zu EASE, nun ja: Wäre es englisch - aber der Text ist deutsch. SUND, SOND, SAND, SEND, SIND - hm, SIND könnte sein, das führt zu: EISE.

Testen wir also e=S und f=I:

dbv EISE BEcqEIx SIND Sxqbv UND BiEulE DUqul DES cqUElLINyS lbLDEN BELEBENDEN BLIur

Na, erkennen Sie es? Sie können gern weiteranalysieren, die Lösung steht ganz am Ende des Artikels...

Dies war ein extrem einfacher Fall einer Häufigkeitsanalyse. Natürlich geht dies rechnergestützt sehr viel besser und schneller! Und man kann es beliebig weit treiben - nicht nur Buchstaben zählen, sondern z.B. auch Buchstabenverbindungen wie ST, SCH, CK usw. im Deutschen - so lassen sich auch die selteneren Buchstaben recht genau identifizieren. Auf diese Weise lässt sich also jeder Code, der nur darauf basiert, Buchstaben mit anderen Buchstaben, Ziffern oder Zeichen zu vertauschen, ziemlich leicht aushebeln.

Wenn Cäsar das gewusst hätte!

Und hier noch die Lösung:

VOM EISE BEFREIT SIND STROM UND BAECHE DURCH DES FRUEHLINGS HOLDEN BELEBENDEN BLICK