|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Eine einfache Aufschlüsselung von „Aufmerksamkeit ist alles, was Sie brauchen“¹

A straightforward breakdown of “Attention is All You Need”¹
Eine einfache Aufschlüsselung von „Aufmerksamkeit ist alles, was Sie brauchen“¹
Aveek Goswami
Aveek Goswami
Follow
Folgen
Towards Data Science
Auf dem Weg zur Datenwissenschaft
--
--
Listen
Hören
Share
Aktie
The transformer came out in 2017. There have been many, many articles explaining how it works, but I often find them either going too deep into the math or too shallow on the details. I end up spending as much time googling (or chatGPT-ing) as I do reading, which isn’t the best approach to understanding a topic. That brought me to writing this article, where I attempt to explain the most revolutionary aspects of the transformer while keeping it succinct and simple for anyone to read.
Der Transformator kam 2017 auf den Markt. Es gab viele, viele Artikel, in denen erklärt wurde, wie er funktioniert, aber ich finde oft, dass sie entweder zu tief in die Mathematik eintauchen oder zu oberflächlich ins Detail gehen. Am Ende verbringe ich genauso viel Zeit mit Googeln (oder chatten mit GPT) wie mit Lesen, was nicht der beste Ansatz ist, um ein Thema zu verstehen. Das brachte mich dazu, diesen Artikel zu schreiben, in dem ich versuche, die revolutionärsten Aspekte des Transformators zu erklären und ihn gleichzeitig prägnant und einfach zu halten, damit jeder ihn lesen kann.
This article assumes a general understanding of machine learning principles.
Dieser Artikel setzt ein allgemeines Verständnis der Prinzipien des maschinellen Lernens voraus.
The ideas behind the Transformer led us to the era of Generative AI
Die Ideen hinter dem Transformer führten uns in die Ära der generativen KI
Transformers represented a new architecture of sequence transduction models. A sequence model is a type of model that transforms an input sequence to an output sequence. This input sequence can be of various data types, such as characters, words, tokens, bytes, numbers, phonemes (speech recognition), and may also be multimodal¹.
Transformer stellten eine neue Architektur von Sequenztransduktionsmodellen dar. Ein Sequenzmodell ist ein Modelltyp, der eine Eingabesequenz in eine Ausgabesequenz umwandelt. Diese Eingabesequenz kann aus verschiedenen Datentypen bestehen, z. B. Zeichen, Wörter, Token, Bytes, Zahlen, Phoneme (Spracherkennung), und kann auch multimodal sein¹.
Before transformers, sequence models were largely based on recurrent neural networks (RNNs), long short-term memory (LSTM), gated recurrent units (GRUs) and convolutional neural networks (CNNs). They often contained some form of an attention mechanism to account for the context provided by items in various positions of a sequence.
Vor Transformern basierten Sequenzmodelle größtenteils auf rekurrenten neuronalen Netzen (RNNs), langem Kurzzeitgedächtnis (LSTM), Gated Recurrent Units (GRUs) und Faltungsneuronalen Netzen (CNNs). Sie enthielten oft eine Art Aufmerksamkeitsmechanismus, um den Kontext zu berücksichtigen, der von Elementen an verschiedenen Positionen einer Sequenz bereitgestellt wurde.
The downsides of previous models
Die Nachteile der Vorgängermodelle
Hence, introducing the Transformer, which relies entirely on the attention mechanism and does away with the recurrence and convolutions. Attention is what the model uses to focus on different parts of the input sequence at each step of generating an output. The Transformer was the first model to use attention without sequential processing, allowing for parallelisation and hence faster training without losing long-term dependencies. It also performs a constant number of operations between input positions, regardless of how far apart they are.
Daher wird der Transformer eingeführt, der vollständig auf dem Aufmerksamkeitsmechanismus basiert und Wiederholungen und Windungen beseitigt. Aufmerksamkeit ist das, was das Modell verwendet, um sich bei jedem Schritt der Generierung einer Ausgabe auf verschiedene Teile der Eingabesequenz zu konzentrieren. Der Transformer war das erste Modell, das Aufmerksamkeit ohne sequentielle Verarbeitung nutzte, was eine Parallelisierung und damit ein schnelleres Training ohne Verlust langfristiger Abhängigkeiten ermöglichte. Außerdem führt es eine konstante Anzahl von Operationen zwischen Eingabepositionen aus, unabhängig davon, wie weit diese voneinander entfernt sind.
Walking through the Transformer model architecture
Rundgang durch die Transformer-Modellarchitektur
The important features of the transformer are: tokenisation, the embedding layer, the attention mechanism, the encoder and the decoder. Let’s imagine an input sequence in french: “Je suis etudiant” and a target output sequence in English “I am a student” (I am blatantly copying from this link, which explains the process very descriptively)
Die wichtigen Merkmale des Transformators sind: Tokenisierung, die Einbettungsschicht, der Aufmerksamkeitsmechanismus, der Encoder und der Decoder. Stellen wir uns eine Eingabesequenz auf Französisch vor: „Je suis etudiant“ und eine Zielausgabesequenz auf Englisch „I am a student“ (Ich kopiere ganz offensichtlich von diesem Link, der den Prozess sehr anschaulich erklärt)
Tokenisation
Tokenisierung
The input sequence of words is converted into tokens of 3–4 characters long
Die eingegebene Wortfolge wird in Token mit einer Länge von 3–4 Zeichen umgewandelt
Embeddings
Einbettungen
The input and output sequence are mapped to a sequence of continuous representations, z, which represents the input and output embeddings. Each token will be represented by an embedding to capture some kind of meaning, which helps in computing its relationship to other tokens; this embedding will be represented as a vector. To create these embeddings, we use the vocabulary of the training dataset, which contains every unique output token that is being used to train the model. We then determine an appropriate embedding dimension, which corresponds to the size of the vector representation for each token; higher embedding dimensions will better capture more complex / diverse / intricate meanings and relationships. The dimensions of the embedding matrix, for vocabulary size V and embedding dimension D, hence becomes V x D, making it a high-dimensional vector.
Die Eingabe- und Ausgabesequenz werden einer Folge kontinuierlicher Darstellungen z zugeordnet, die die Eingabe- und Ausgabeeinbettungen darstellt. Jeder Token wird durch eine Einbettung dargestellt, um eine Bedeutung zu erfassen, die bei der Berechnung seiner Beziehung zu anderen Token hilft. Diese Einbettung wird als Vektor dargestellt. Um diese Einbettungen zu erstellen, verwenden wir das Vokabular des Trainingsdatensatzes, der jedes einzelne Ausgabetoken enthält, das zum Trainieren des Modells verwendet wird. Anschließend bestimmen wir eine geeignete Einbettungsdimension, die der Größe der Vektordarstellung für jedes Token entspricht; Höhere Einbettungsdimensionen erfassen komplexere/vielfältigere/kompliziertere Bedeutungen und Beziehungen besser. Die Dimensionen der Einbettungsmatrix für die Vokabulargröße V und die Einbettungsdimension D betragen daher V x D, was sie zu einem hochdimensionalen Vektor macht.
At initialisation, these embeddings can be initialised randomly and more accurate embeddings are learned during the training process. The embedding matrix is then updated during training.
Bei der Initialisierung können diese Einbettungen zufällig initialisiert werden und genauere Einbettungen werden während des Trainingsprozesses gelernt. Die Einbettungsmatrix wird dann während des Trainings aktualisiert.
Positional encodings are added to these embeddings because the transformer does not have a built-in sense of the order of tokens.
Diesen Einbettungen werden Positionskodierungen hinzugefügt, da der Transformator nicht über eine eingebaute Erkennung der Reihenfolge der Token verfügt.
Attention mechanism
Aufmerksamkeitsmechanismus
Self-attention is the mechanism where each token in a sequence computes attention scores with every other token in a sequence to understand relationships between all tokens regardless of distance from each other. I’m going to avoid too much math in this article, but you can read up here about the different matrices formed to compute attention scores and hence capture relationships between each token and every other token.
Selbstaufmerksamkeit ist der Mechanismus, bei dem jeder Token in einer Sequenz Aufmerksamkeitswerte mit jedem anderen Token in einer Sequenz berechnet, um die Beziehungen zwischen allen Token unabhängig von der Entfernung voneinander zu verstehen. Ich werde in diesem Artikel zu viel Mathematik vermeiden, aber Sie können sich hier über die verschiedenen Matrizen informieren, die gebildet werden, um Aufmerksamkeitswerte zu berechnen und somit Beziehungen zwischen jedem Token und jedem anderen Token zu erfassen.
These attention scores result in a new set of representations⁴ for each token which is then used in the next layer of processing. During training, the weight matrices are updated through back-propagation, so the model can better account for relationships between tokens.
Diese Aufmerksamkeitswerte führen zu einem neuen Satz von Darstellungen⁴ für jedes Token, der dann in der nächsten Verarbeitungsebene verwendet wird. Während des Trainings werden die Gewichtsmatrizen durch Backpropagation aktualisiert, sodass das Modell Beziehungen zwischen Token besser berücksichtigen kann.
Multi-head attention is just an extension of self-attention. Different attention scores are computed, the results are concatenated and transformed and the resulting representation enhances the model’s ability to capture various complex relationships between tokens.
Mehrkopfaufmerksamkeit ist lediglich eine Erweiterung der Selbstaufmerksamkeit. Es werden verschiedene Aufmerksamkeitswerte berechnet, die Ergebnisse verkettet und transformiert und die resultierende Darstellung verbessert die Fähigkeit des Modells, verschiedene komplexe Beziehungen zwischen Token zu erfassen.
Encoder
Encoder
Input embeddings (built from the input sequence) with positional encodings are fed into the encoder. The input embeddings are 6 layers, with each layer containing 2 sub-layers: multi-head attention and feed forward networks. There is also a residual connection which leads to the output of each layer being LayerNorm(x+Sublayer(x)) as shown. The output of the encoder is a sequence of vectors which are contextualised representations of the inputs after accounting for attention scored. These are then fed to the decoder.
Eingabeeinbettungen (aus der Eingabesequenz erstellt) mit Positionskodierungen werden in den Encoder eingespeist. Die Eingabeeinbettungen bestehen aus 6 Schichten, wobei jede Schicht 2 Unterschichten enthält: Multi-Head-Aufmerksamkeits- und Feed-Forward-Netzwerke. Es gibt auch eine Restverbindung, die dazu führt, dass die Ausgabe jeder Ebene LayerNorm(x+Sublayer(x)) ist, wie gezeigt. Die Ausgabe des Encoders ist eine Folge von Vektoren, die kontextualisierte Darstellungen der Eingaben nach Berücksichtigung der erzielten Aufmerksamkeit sind. Diese werden dann dem Decoder zugeführt.
Decoder
Decoder
Output embeddings (generated from the target output sequence) with positional encodings are fed into the decoder. The decoder also contains 6 layers, and there are
Ausgabeeinbettungen (generiert aus der Zielausgabesequenz) mit Positionskodierungen werden in den Decoder eingespeist. Der Decoder enthält auch 6 Schichten, und das gibt es
Haftungsausschluss:info@kdj.com
Die bereitgestellten Informationen stellen keine Handelsberatung dar. kdj.com übernimmt keine Verantwortung für Investitionen, die auf der Grundlage der in diesem Artikel bereitgestellten Informationen getätigt werden. Kryptowährungen sind sehr volatil und es wird dringend empfohlen, nach gründlicher Recherche mit Vorsicht zu investieren!
Wenn Sie glauben, dass der auf dieser Website verwendete Inhalt Ihr Urheberrecht verletzt, kontaktieren Sie uns bitte umgehend (info@kdj.com) und wir werden ihn umgehend löschen.
-
-
- Konsens 2026 Miami: Web3, Blockchain, Kryptowährung, NFTs, Metaverse, Konferenz, 5. Mai – Wo die Wall Street auf die digitale Grenze trifft
- May 01, 2026 at 11:27 pm
- In Miami herrscht Aufregung, während sich am 5. Mai der Konsens 2026 nähert, der Web3, Blockchain, Krypto, NFTs und den Wandel des Metaversums vom Hype zur institutionellen und nachhaltigen Realität hervorhebt.
-
- Die Fed hält die Zinsen stabil, was inmitten geopolitischer Spannungen einen Bitcoin-Preisverfall auslöst
- May 01, 2026 at 04:04 am
- Die Entscheidung der Federal Reserve, die Zinssätze beizubehalten, wirkt sich in Verbindung mit dem Nahostkonflikt auf den Preis von Bitcoin aus. Analyse aktueller Trends und Marktreaktionen.
-
- Bitcoin-Miner elektrifizieren das Netz: Der Erwerb eines Gaskraftwerks in Ohio läutet eine neue Ära für digitales Gold ein
- Apr 30, 2026 at 10:38 pm
- Die Bitcoin-Mining-Branche befindet sich in einem erheblichen Wandel, wobei große Akteure ihre Aktivitäten aggressiv ausweiten und strategisch Energieanlagen wie Gaskraftwerke in Ohio erwerben, um ihre Zukunft in der digitalen Wirtschaft zu festigen.
-
- Der MEGA-Token von MegaETH erreicht den Big Apple: Er setzt neue Leistungsmaßstäbe für Echtzeit-Blockchain
- Apr 30, 2026 at 09:11 pm
- Der MEGA-Token von MegaETH wurde offiziell eingeführt und bestätigt seine „Echtzeit“-Blockchain-Vision mit einem leistungsorientierten Verteilungsmodell und einer schnellen USDM-Stablecoin-Einführung.
-
- Solanas rutschiger Abhang: Die Preisprognose deutet auf einen Widerstandsverlust und mögliche weitere Rückgänge hin
- Apr 30, 2026 at 09:08 pm
- Solana kämpft darum, wichtige Widerstände zu durchbrechen, was auf einen möglichen Abwärtstrend hindeutet. Wiederholte Ablehnungen bei 86 bis 88 US-Dollar, gepaart mit einem unterbrochenen kurzfristigen Muster, deuten auf Ziele von nur 67 US-Dollar oder sogar 40 US-Dollar hin, da die Verkäufer die Kontrolle behalten. Anleger sollten die kritischen Unterstützungsniveaus genau beobachten.
-
- BTC, Öl, Gewinne: Geopolitik treibt Rohöl an, Kryptos rutschen ab, Triumphe und Prüfungen der Technologie
- Apr 30, 2026 at 04:51 pm
- Die globalen Märkte sind ein Wirbelsturm: BTC sinkt, während der Ölpreis aufgrund geopolitischer Spannungen Mehrjahreshöchststände erreicht, während Technologiegiganten gemischte Gewinne verbuchen, was ein Zeichen für eine komplexe Finanzlandschaft ist.
-
- New York Citys neuer Trend: Abstecksysteme, USD1 und Governance treiben die nächste Welle von Krypto voran
- Apr 30, 2026 at 03:02 pm
- Von lukrativen 1-Dollar-Verdienstveranstaltungen bis hin zu robusten Governance-Modellen wimmelt es im Kryptobereich von Innovationen, die die Art und Weise, wie wir mit digitalen Vermögenswerten umgehen, neu gestalten und sich dabei auf langfristiges Engagement und den Nutzen stabiler Münzen konzentrieren.
-
- OKX stellt Agent Payments Protocol vor: läutet eine neue Ära der KI-Transaktionen ein
- Apr 30, 2026 at 02:53 pm
- OKX führt sein Agent Payments Protocol (APP) ein, einen offenen Standard für KI-gesteuerten Handel, der es Agenten ermöglicht, komplette Geschäftszyklen zu verwalten. Entdecken Sie die Auswirkungen auf KI-Transaktionen und Agentenzahlungen.

































