$87959.907984 USD

1.34%

ethereum

$2920.497338 USD

3.04%

tether

$0.999775 USD

0.00%

xrp

$2.237324 USD

8.12%

bnb

$860.243768 USD

0.90%

solana

$138.089498 USD

5.43%

usd-coin

$0.999807 USD

0.01%

tron

$0.272801 USD

-1.53%

dogecoin

$0.150904 USD

2.96%

cardano

$0.421635 USD

1.97%

hyperliquid

$32.152445 USD

2.23%

bitcoin-cash

$533.301069 USD

-1.94%

chainlink

$12.953417 USD

2.68%

unus-sed-leo

$9.535951 USD

0.73%

zcash

$521.483386 USD

-2.87%

Nachrichtenartikel zu Kryptowährungen

Transformatoren verstehen

Jun 28, 2024 at 02:02 am

Eine einfache Aufschlüsselung von „Aufmerksamkeit ist alles, was Sie brauchen“¹

A straightforward breakdown of “Attention is All You Need”¹

Eine einfache Aufschlüsselung von „Aufmerksamkeit ist alles, was Sie brauchen“¹

Aveek Goswami

Aveek Goswami

Folgen

Towards Data Science

Auf dem Weg zur Datenwissenschaft

Listen

Hören

Aktie

The transformer came out in 2017. There have been many, many articles explaining how it works, but I often find them either going too deep into the math or too shallow on the details. I end up spending as much time googling (or chatGPT-ing) as I do reading, which isn’t the best approach to understanding a topic. That brought me to writing this article, where I attempt to explain the most revolutionary aspects of the transformer while keeping it succinct and simple for anyone to read.

Der Transformator kam 2017 auf den Markt. Es gab viele, viele Artikel, in denen erklärt wurde, wie er funktioniert, aber ich finde oft, dass sie entweder zu tief in die Mathematik eintauchen oder zu oberflächlich ins Detail gehen. Am Ende verbringe ich genauso viel Zeit mit Googeln (oder chatten mit GPT) wie mit Lesen, was nicht der beste Ansatz ist, um ein Thema zu verstehen. Das brachte mich dazu, diesen Artikel zu schreiben, in dem ich versuche, die revolutionärsten Aspekte des Transformators zu erklären und ihn gleichzeitig prägnant und einfach zu halten, damit jeder ihn lesen kann.

This article assumes a general understanding of machine learning principles.

Dieser Artikel setzt ein allgemeines Verständnis der Prinzipien des maschinellen Lernens voraus.

The ideas behind the Transformer led us to the era of Generative AI

Die Ideen hinter dem Transformer führten uns in die Ära der generativen KI

Transformers represented a new architecture of sequence transduction models. A sequence model is a type of model that transforms an input sequence to an output sequence. This input sequence can be of various data types, such as characters, words, tokens, bytes, numbers, phonemes (speech recognition), and may also be multimodal¹.

Transformer stellten eine neue Architektur von Sequenztransduktionsmodellen dar. Ein Sequenzmodell ist ein Modelltyp, der eine Eingabesequenz in eine Ausgabesequenz umwandelt. Diese Eingabesequenz kann aus verschiedenen Datentypen bestehen, z. B. Zeichen, Wörter, Token, Bytes, Zahlen, Phoneme (Spracherkennung), und kann auch multimodal sein¹.

Before transformers, sequence models were largely based on recurrent neural networks (RNNs), long short-term memory (LSTM), gated recurrent units (GRUs) and convolutional neural networks (CNNs). They often contained some form of an attention mechanism to account for the context provided by items in various positions of a sequence.

Vor Transformern basierten Sequenzmodelle größtenteils auf rekurrenten neuronalen Netzen (RNNs), langem Kurzzeitgedächtnis (LSTM), Gated Recurrent Units (GRUs) und Faltungsneuronalen Netzen (CNNs). Sie enthielten oft eine Art Aufmerksamkeitsmechanismus, um den Kontext zu berücksichtigen, der von Elementen an verschiedenen Positionen einer Sequenz bereitgestellt wurde.

The downsides of previous models

Die Nachteile der Vorgängermodelle

Hence, introducing the Transformer, which relies entirely on the attention mechanism and does away with the recurrence and convolutions. Attention is what the model uses to focus on different parts of the input sequence at each step of generating an output. The Transformer was the first model to use attention without sequential processing, allowing for parallelisation and hence faster training without losing long-term dependencies. It also performs a constant number of operations between input positions, regardless of how far apart they are.

Daher wird der Transformer eingeführt, der vollständig auf dem Aufmerksamkeitsmechanismus basiert und Wiederholungen und Windungen beseitigt. Aufmerksamkeit ist das, was das Modell verwendet, um sich bei jedem Schritt der Generierung einer Ausgabe auf verschiedene Teile der Eingabesequenz zu konzentrieren. Der Transformer war das erste Modell, das Aufmerksamkeit ohne sequentielle Verarbeitung nutzte, was eine Parallelisierung und damit ein schnelleres Training ohne Verlust langfristiger Abhängigkeiten ermöglichte. Außerdem führt es eine konstante Anzahl von Operationen zwischen Eingabepositionen aus, unabhängig davon, wie weit diese voneinander entfernt sind.

Walking through the Transformer model architecture

Rundgang durch die Transformer-Modellarchitektur

The important features of the transformer are: tokenisation, the embedding layer, the attention mechanism, the encoder and the decoder. Let’s imagine an input sequence in french: “Je suis etudiant” and a target output sequence in English “I am a student” (I am blatantly copying from this link, which explains the process very descriptively)

Die wichtigen Merkmale des Transformators sind: Tokenisierung, die Einbettungsschicht, der Aufmerksamkeitsmechanismus, der Encoder und der Decoder. Stellen wir uns eine Eingabesequenz auf Französisch vor: „Je suis etudiant“ und eine Zielausgabesequenz auf Englisch „I am a student“ (Ich kopiere ganz offensichtlich von diesem Link, der den Prozess sehr anschaulich erklärt)

Tokenisation

Tokenisierung

The input sequence of words is converted into tokens of 3–4 characters long

Die eingegebene Wortfolge wird in Token mit einer Länge von 3–4 Zeichen umgewandelt

Embeddings

Einbettungen

The input and output sequence are mapped to a sequence of continuous representations, z, which represents the input and output embeddings. Each token will be represented by an embedding to capture some kind of meaning, which helps in computing its relationship to other tokens; this embedding will be represented as a vector. To create these embeddings, we use the vocabulary of the training dataset, which contains every unique output token that is being used to train the model. We then determine an appropriate embedding dimension, which corresponds to the size of the vector representation for each token; higher embedding dimensions will better capture more complex / diverse / intricate meanings and relationships. The dimensions of the embedding matrix, for vocabulary size V and embedding dimension D, hence becomes V x D, making it a high-dimensional vector.

Die Eingabe- und Ausgabesequenz werden einer Folge kontinuierlicher Darstellungen z zugeordnet, die die Eingabe- und Ausgabeeinbettungen darstellt. Jeder Token wird durch eine Einbettung dargestellt, um eine Bedeutung zu erfassen, die bei der Berechnung seiner Beziehung zu anderen Token hilft. Diese Einbettung wird als Vektor dargestellt. Um diese Einbettungen zu erstellen, verwenden wir das Vokabular des Trainingsdatensatzes, der jedes einzelne Ausgabetoken enthält, das zum Trainieren des Modells verwendet wird. Anschließend bestimmen wir eine geeignete Einbettungsdimension, die der Größe der Vektordarstellung für jedes Token entspricht; Höhere Einbettungsdimensionen erfassen komplexere/vielfältigere/kompliziertere Bedeutungen und Beziehungen besser. Die Dimensionen der Einbettungsmatrix für die Vokabulargröße V und die Einbettungsdimension D betragen daher V x D, was sie zu einem hochdimensionalen Vektor macht.

At initialisation, these embeddings can be initialised randomly and more accurate embeddings are learned during the training process. The embedding matrix is then updated during training.

Bei der Initialisierung können diese Einbettungen zufällig initialisiert werden und genauere Einbettungen werden während des Trainingsprozesses gelernt. Die Einbettungsmatrix wird dann während des Trainings aktualisiert.

Positional encodings are added to these embeddings because the transformer does not have a built-in sense of the order of tokens.

Diesen Einbettungen werden Positionskodierungen hinzugefügt, da der Transformator nicht über eine eingebaute Erkennung der Reihenfolge der Token verfügt.

Attention mechanism

Aufmerksamkeitsmechanismus

Self-attention is the mechanism where each token in a sequence computes attention scores with every other token in a sequence to understand relationships between all tokens regardless of distance from each other. I’m going to avoid too much math in this article, but you can read up here about the different matrices formed to compute attention scores and hence capture relationships between each token and every other token.

Selbstaufmerksamkeit ist der Mechanismus, bei dem jeder Token in einer Sequenz Aufmerksamkeitswerte mit jedem anderen Token in einer Sequenz berechnet, um die Beziehungen zwischen allen Token unabhängig von der Entfernung voneinander zu verstehen. Ich werde in diesem Artikel zu viel Mathematik vermeiden, aber Sie können sich hier über die verschiedenen Matrizen informieren, die gebildet werden, um Aufmerksamkeitswerte zu berechnen und somit Beziehungen zwischen jedem Token und jedem anderen Token zu erfassen.

These attention scores result in a new set of representations⁴ for each token which is then used in the next layer of processing. During training, the weight matrices are updated through back-propagation, so the model can better account for relationships between tokens.

Diese Aufmerksamkeitswerte führen zu einem neuen Satz von Darstellungen⁴ für jedes Token, der dann in der nächsten Verarbeitungsebene verwendet wird. Während des Trainings werden die Gewichtsmatrizen durch Backpropagation aktualisiert, sodass das Modell Beziehungen zwischen Token besser berücksichtigen kann.

Multi-head attention is just an extension of self-attention. Different attention scores are computed, the results are concatenated and transformed and the resulting representation enhances the model’s ability to capture various complex relationships between tokens.

Mehrkopfaufmerksamkeit ist lediglich eine Erweiterung der Selbstaufmerksamkeit. Es werden verschiedene Aufmerksamkeitswerte berechnet, die Ergebnisse verkettet und transformiert und die resultierende Darstellung verbessert die Fähigkeit des Modells, verschiedene komplexe Beziehungen zwischen Token zu erfassen.

Encoder

Encoder

Input embeddings (built from the input sequence) with positional encodings are fed into the encoder. The input embeddings are 6 layers, with each layer containing 2 sub-layers: multi-head attention and feed forward networks. There is also a residual connection which leads to the output of each layer being LayerNorm(x+Sublayer(x)) as shown. The output of the encoder is a sequence of vectors which are contextualised representations of the inputs after accounting for attention scored. These are then fed to the decoder.

Eingabeeinbettungen (aus der Eingabesequenz erstellt) mit Positionskodierungen werden in den Encoder eingespeist. Die Eingabeeinbettungen bestehen aus 6 Schichten, wobei jede Schicht 2 Unterschichten enthält: Multi-Head-Aufmerksamkeits- und Feed-Forward-Netzwerke. Es gibt auch eine Restverbindung, die dazu führt, dass die Ausgabe jeder Ebene LayerNorm(x+Sublayer(x)) ist, wie gezeigt. Die Ausgabe des Encoders ist eine Folge von Vektoren, die kontextualisierte Darstellungen der Eingaben nach Berücksichtigung der erzielten Aufmerksamkeit sind. Diese werden dann dem Decoder zugeführt.

Decoder

Decoder

Output embeddings (generated from the target output sequence) with positional encodings are fed into the decoder. The decoder also contains 6 layers, and there are

Ausgabeeinbettungen (generiert aus der Zielausgabesequenz) mit Positionskodierungen werden in den Decoder eingespeist. Der Decoder enthält auch 6 Schichten, und das gibt es

Originalquelle：towardsdatascience

Haftungsausschluss:info@kdj.com

Die bereitgestellten Informationen stellen keine Handelsberatung dar. kdj.com übernimmt keine Verantwortung für Investitionen, die auf der Grundlage der in diesem Artikel bereitgestellten Informationen getätigt werden. Kryptowährungen sind sehr volatil und es wird dringend empfohlen, nach gründlicher Recherche mit Vorsicht zu investieren！

Wenn Sie glauben, dass der auf dieser Website verwendete Inhalt Ihr Urheberrecht verletzt, kontaktieren Sie uns bitte umgehend (info@kdj.com) und wir werden ihn umgehend löschen.

Weitere Artikel veröffentlicht am Aug 03, 2026

Mehr