Schritt 1b: BPE — Byte Pair Encoding

Tokenizer (BPE) Embedding Pos. Encoding Self-Attention Feed-Forward Output
Das Problem: Word-Level hat zu viele Tokens im Vokabular. Character-Level hat zu viele Tokens pro Satz. BPE findet den Mittelweg — automatisch!

Der BPE-Algorithmus in 3 Sätzen

1 Starte mit Buchstaben. Jeder Buchstabe ist ein eigenes Token (= Character-Level).
2 Zähle alle Nachbar-Paare. Welche zwei Tokens stehen am häufigsten nebeneinander?
3 Verschmelze das häufigste Paar. Die zwei Tokens werden eins. Zurück zu Schritt 2. Wiederhole, bis dein Vokabular die gewünschte Größe hat.
Wichtig: BPE lernt die Merges aus einem großen Textkorpus (Millionen von Sätzen). Unser einzelner Satz ist nur ein Mini-Beispiel, um den Ablauf zu verstehen. In der Realität sind die Häufigkeits-Unterschiede viel deutlicher.

Unser Beispiel: „Die Katze sitzt auf der Matte"

Wir arbeiten innerhalb der Wortgrenzen — Paare werden nur innerhalb eines Wortes gezählt, nicht über Leerzeichen hinweg.

Runde 0 — Start: Jeder Buchstabe einzeln

Schneide jeden Buchstaben aus (wie Blatt 3 vom Tokenizer). Lege die Wörter gruppiert hin:

Die
D
i
e
Katze
K
a
t
z
e
sitzt
s
i
t
z
t
auf
a
u
f
der
d
e
r
Matte
M
a
t
t
e

Gesamt: 25 Tokens (ohne Leerzeichen)

Alle Nachbar-Paare zählen:

Paar Wo? Anzahl
a → tKatze, Matte2 ✓
t → zKatze, sitzt2 ✓
D → iDie1
i → eDie1
K → aKatze1
z → eKatze1
s → isitzt1
i → tsitzt1
z → tsitzt1
a → uauf1
u → fauf1
d → eder1
e → rder1
M → aMatte1
t → tMatte1
t → eMatte1
Gewinner: a + t und t + z — beide 2×. Bei Gleichstand nehmen wir das erste: a + t
Merge-Regel #1:   a + t  →  at
Auf dem Tisch: Klebe überall, wo a direkt neben t liegt, die beiden Kärtchen zusammen zu einem neuen Kärtchen at.

Runde 1 — Nach dem Merge: a + t → at

Die
D
i
e
Katze
K
at
z
e
sitzt
s
i
t
z
t
auf
a
u
f
der
d
e
r
Matte
M
at
t
e

Gesamt: 23 Tokens (2 weniger als vorher — die 2 Merges)

Neue Nachbar-Paare zählen:

Achtung: at ist jetzt EIN Token! Die Paare ändern sich. In „Katze" ist es jetzt K→at, at→z, z→e (nicht mehr a→t, t→z).
Paar Wo? Anzahl
D → iDie1
i → eDie1
K → atKatze1
at → zKatze1
z → eKatze1
s → isitzt1
i → tsitzt1
t → zsitzt1
z → tsitzt1
a → uauf1
u → fauf1
d → eder1
e → rder1
M → atMatte1
at → tMatte1
t → eMatte1
Alles ist 1×! Bei nur einem Satz gibt es nach dem ersten Merge keinen klaren Gewinner mehr. In der Realität trainiert BPE auf Millionen von Sätzen — da gibt es immer einen Gewinner.

Für unser Beispiel wählen wir: at + z → atz (um „Katze" weiter zusammenzubauen).
Merge-Regel #2:   at + z  →  atz

Runde 2 — Nach dem Merge: at + z → atz

Die
D
i
e
Katze
K
atz
e
sitzt
s
i
t
z
t
auf
a
u
f
der
d
e
r
Matte
M
at
t
e

Gesamt: 22 Tokens

Beachte: In „Katze" wurde at→atz, aber in „Matte" nicht! Dort war es at + t, nicht at + z. BPE wendet nur die exakte Regel an.

Jetzt bist du dran! Zähle die Paare:

Paar Wo? Anzahl

Welches Paar wählst du?

Merge-Regel #3: _______ + _______ → ___________

Runde 3 — Dein Merge von Runde 2 anwenden

Zeichne oder klebe die neuen Token-Kärtchen hier ein:

Die:   ___   ___   ___

Katze:   ___   ___   ___

sitzt:   ___   ___   ___   ___   ___

auf:   ___   ___   ___

der:   ___   ___   ___

Matte:   ___   ___   ___   ___

Paare zählen:

Paar Wo? Anzahl

Merge-Regel #4:

_______ + _______ → ___________

Das Ergebnis: Dein BPE-Vokabular

Nach mehreren Runden hast du ein Vokabular, das zwischen Buchstaben und ganzen Wörtern liegt. Trag hier ein, welche Tokens du am Ende hast:

Merge-Regeln (in Reihenfolge):

#RegelNeues Token
1a + t → atat
2at + z → atzatz
3
4
5
6

So würde BPE „Die Katze sitzt auf der Matte" am Ende tokenisieren:

Trag deine finalen Tokens hier ein: [___, ___, ___, ...]

Vergleich: Wie viele Tokens?

Methode Tokens Vokabular
Character-Level 25 14 Zeichen
BPE (dein Ergebnis)
Word-Level 6 6 Wörter

Die wichtigste Erkenntnis

BPE baut Tokens von unten auf:

Buchstaben → häufige Paare → häufige Teilwörter → ganze Wörter

a → at → atz → atze → Katze

Je häufiger ein Wort im Trainingstext vorkommt, desto eher wird es zu einem einzigen Token. Seltene Wörter bleiben in Teilen — aber das ist OK, weil die Teile trotzdem bekannt sind.

Deshalb kann GPT auch Wörter verarbeiten, die es nie gesehen hat!
Tokenizer ✓ Embedding Pos. Encoding Self-Attention Feed-Forward Output

Nächstes Blatt: Die Embedding-Tabelle — jede Token-ID bekommt einen Zahlen-Vektor