MASKED-ATTENTION — ARCHIVE

記録

Transformer verstehen — Schritt 4b: Multi-Head & Masked Attention

Schritt 4b: Masked Attention & Multi-Head

Tokenizer ✓ → Embedding ✓ → Pos. Encoding ✓ …